GAS簡易スクレイピングツール

GAS簡易スクレイピングツールご利用マニュアル

本記事では業務自動化ツールを企画開発するGASラボの「GAS簡易スクレイピングツール」の概要・使い方、よくある質問に関するQ&Aについて詳しく解説しております。

GAS簡易スクレイピングツールの概要

GAS簡易スクレイピングツール

本ツールは、指定したWebサイトの情報を簡単にスクレイピングできるツールです。

  • 特定のWebサイトの情報をスクレイピングによって取得
    • 取得できる情報は「title」「description」「body(htmlタグあり×scriptタグあり)」「body(htmlタグあり×scriptタグなし)」「body(htmlタグなし×scriptタグ考慮)」「body(htmlタグなし×scriptタグなし)」
  • 取得した情報はGoogleスプレッドシート上に記録

Webサイトの情報を取得したり、Web上から情報を集める手段として最近はOpenAIの「ChatGPT」がよく利用されています。

ところが、ChatGPTが取得できる情報に最新のWebサイトの情報は含まれていません。

そのため、最新のWebサイトの情報を含めるためには、ページの内容を手動でコピー&ペーストしてプロンプトに含める必要があります。この手間がやや大変です。

今回開発した本ツールなら、直接WebサイトのURLを指定して情報を取得できるため、最新の情報を取得することが可能です。

ツールの使い方は、情報を取得したいWebサイトのURLのリストアップと処理の実行ボタンのクリックのみなので、プログラミング知識のない方でも、簡単にご利用いただけます。

また、Google Apps Script(GAS)のプログラムを利用している本ツールは、パソコンへのインストールも不要です。

Googleスプレッドシートが利用できるパソコンなら、OS(WindowsやMac)も問いません。

複数のWebサイトのURLを対象としてスクレイピングできるため、情報収集の効率化におすすめです。

ChatGPTをご利用している方なら、最新の情報を含めたプロンプトを作成したいといったシーンでもご活用いただけます。

 

 

GAS簡易スクレイピングツールの3つの特徴

  1. リストアップしたWebサイトページを簡単に簡易スクレイピング!

    • 本ツールは、事前にリストアップしたWebサイトページのURLをもとに、簡易スクレイピングを実施することができます。
    • 本ツールで取得できる情報は「title」「description」「body」の主要な情報です。
    • 指定できるWebサイトページは1つではなく、複数のWebサイトページを指定可能で、一括でスクレイピングすることができます。
  2. 自動で取得した情報はGoogleスプレッドシートに記録!

    • 本ツールで自動で取得した情報はGoogleスプレッドシートに記録されます。
    • そのため、関数などを利用して加工や編集などが可能です。
    • 例えば、日本語以外の情報については、スプレッドシートの関数を使えば、簡単に簡易翻訳することができます。
  3. 入力とクリックのみのシンプルな操作!初心者でも簡単に利用可能!

    • 本ツールのご利用は、基本的に入力とクリックのみで操作・設定可能です。
    • そのため、Excelやスプレッドシートなどの表計算ソフトの使用経験がある方であれば、簡単にご利用いただくことができます。

GAS簡易スクレイピングツールはこんな方にオススメ!

  • 特定のWebサイトページの情報収集を効率化したい方
  • 様々なWebサイトページの情報を取得したい方
  • ChatGPTをご利用される中で、最新情報も含めてプロンプトを書きたい方

GAS簡易スクレイピングツールの紹介動画

@gas_lab ノンプログラマーでもGASでWebスクレイピングする方法 #スクレイピング #googleスプレッドシート #自動化ツール #GAS ♬ original sound – GASラボ@AIツール・自動化ツール企画開発

 

【3STEP】GAS簡易スクレイピングツールのご利用マニュアル

STEP1:ご購入された本ツール(Googleスプレッドシート形式)をコピー

ご購入された本ツール(Googleスプレッドシート形式)をコピー

 

本ツールはGAS(Google Apps Script)の自動化スクリプトが実装された「Googleスプレッドシート形式」のツールです。ご購入当初のツールは、安全のため「閲覧権限」のみに制限されています。

本ツールの自動化スクリプトを利用するためには、ご購入当初の「閲覧権限のみ」のツールを「コピー」してスクリプトの実行権限のある「編集権限」のあるツールを生成する必要があります。

本ツール(スプレッドシート)のツールバーにある「ファイル」→「コピーを作成」をクリックして、ツール自体をコピーしてご利用を開始してください。

コピーしたツールにはプログラムも一緒にコピーされますので、コードを編集する必要はございません。

 

STEP2:簡易スクレイピングしたいWebページURLをリストアップ

簡易スクレイピングしたいWebページURLをリストアップ

次にスクレイピングしたいWebサイトURLをリストアップしていきましょう。

本ツールの「リスト」シートの「スクレイピング対象URL」欄に、簡易スクレイピングしたいWebサイトページのURLをリストアップしていきます。

WebページURLのリストアップ時の注意点

  • 本ツールでは、ログインやCookie情報が必要なWebページのスクレイピングには対応しておりません。誰もが見れる公開ページのみ対応しております。
  • スクレイピングが禁止されているWebサイトももちろんございますので、候補となるWebサイトの利用規約をよくお読みの上、ご利用ください。

 

STEP3:「メニュー」より「スクレイピング実施」を実行

「メニュー」より「スクレイピング実施」を実行

最後に実際にリストアップしたWebページを一括で簡易スクレイピングしてみましょう。

本ツール独自でご用意している「メニュー」より「スクレイピング実施」をクリックして実行します。

初めて本ツール独自の自動化メニューを実行する際には、初回認証プロセスが必要となります。初回認証プロセスの進め方は下記の記事に記載しておりますので、そちらをご参照ください。

「スクレイピング実施」メニューを実行すると、「リストシート」にリストアップされたWebページURLを簡易スクレイピングする処理が開始されます。

処理が完了次第、「リスト」シートのそれぞれの対象URLごとに下記の8種類の情報が追記されていきます。

  • 結果
    • スクレイピング処理中にエラーがでない限り、「成功」が出力されます。
  • title
    • スクレイピング対象ページのtitleタグの情報を出力します。
    • titleタグが存在しないページの場合、「title情報なし」と出力されます。
  • description
    • スクレイピング対象ページのdescriptionタグの情報を出力します。
    • descriptionタグが存在しないページの場合、「description情報なし」と出力されます。
  • body(htmlタグあり×scriptタグあり)
    • スクレイピング対象ページのbody情報をhtmlタグやscriptタグありで出力します。
  • body(htmlタグあり×scriptタグなし)
    • スクレイピング対象ページのbody情報を事前にscriptタグを削除した上で、htmlタグありで出力します。
  • body(htmlタグなし×scriptタグ考慮)
    • スクレイピング対象ページのbody情報をscriptタグの情報を含めた上で、タグを削除し、プレーンテキストで出力します。
  • body(htmlタグなし×scriptタグなし)
    • スクレイピング対象ページのbody情報をscriptタグの情報を含めない形で、タグを削除し、プレーンテキストで出力します。
  • 取得日時
    • スクレイピングで情報を取得した日時を出力します。

「リスト」シートへの出力イメージ

スクレイピング実施時の注意点

  • 「スクレイピング実施」メニューの最大処理時間の上限は約「6分間」となります。6分間を超える場合、スクレイピング対象URLの数を減らすなどして調整してください。
  • スクレイピング対象URLの数が少ない場合でも、情報量の多いサイトやサーバーの重いサイトなどは最大処理時間内に処理が完了できない可能性もございます。
  • サイトの構造によっては、正しく情報が取得できない可能性もございます。予めご了承ください。
  • Googleスプレッドシートの仕様上、1つのセルの最大文字数は「50,000文字」となります。そのため、body情報は50,000文字を超える場合、50,000文字以下に処理されて出力されます。

 

GAS簡易スクレイピングツール:ご利用上の注意点

  • 本ツールの利用には、Googleアカウントの利用権限が必要になります。
  • 本ツールはリストアップされた各Webサイト情報を取得しております。場合によっては、一時的に情報の取得ができない場合や、情報の取得が失敗するケースもございます。予めご了承ください。
  • GASのWebサイトへのリクエスト数(スクレイピング数)は1日あたりの上限が定められています。上限に達した場合は、時間を空けてご利用ください。
  • 本ツールの利用で発生した問題の責任は負いかねます。事前に使い方をテスト、理解した上で、ご利用ください。
  • 本ツールをご利用されてスクレイピングを実施する際には、相手型のサーバーに負荷をかけないように最大限ご配慮をお願いします。
  • スクレイピング対象のWebサイトがスクレイピングを禁止している場合、本ツールでのスクレイピングはお控えください。
  • 本ツールは処理時間に上限があります(約6分)。処理時間を超える場合には、データの取得・出力が完了できないケースもございますので、予めご了承ください。
  • ツールおよびプログラムの著作はGASラボにあります。無断での転載・再販・配布・共有やソースコードのコピーは固く禁止しております。
  • 本ツールは初回利用時に「認証・許可プロセス」が発生します。認証・許可を下記の記事を参考に進めて下さい。
  • 本ツールはGASの仕様変更に伴い、ツール自体の仕様が変更になる可能性やアップデートされる可能性、情報が取得できなくなる可能性がございます。予めご了承ください。

 

GAS簡易スクレイピングツールに関するQ&A

GAS簡易スクレイピングツールはどこで入手できますか?

2023年7月現在、GAS簡易スクレイピングツールは下記のプラットフォームにて公開しております。

GAS簡易スクレイピングツールの使い方に関する問い合わせ方法は?

ご購入されたプラットフォームそれぞれのお問い合わせ方法に従ってお問い合わせください。
GAS簡易スクレイピングツール
最新情報をチェックしよう!