本記事では業務自動化ツールを企画開発するGASラボの「サイトソースコード検索ツール(PublicWWW API)」の概要・使い方、よくある質問に関するQ&Aについて詳しく解説しております。
サイトソースコード検索ツール(PublicWWW API)の概要
本ツールは、特定のソースコードやタグを利用しているWebサイトを検索してリストアップするツールです。
- サイトのソースコードやタグをもとにWebサイトを検索
- 検索結果はGoogleスプレッドシートに出力
- 簡易スクレイピング機能でリストアップしたWebサイトの情報を確認可能
ShopifyやBASEなどのプラットフォームを利用したWebサイト、特定のWordPressのテーマを使ったWebサイトだけをリーサチしたい場合に、ソースコードだけでGoogle検索してリストアップすることはできません。
しかし、Webサイトをひとつひとつ開いてソースコードをチェックしていては、時間がかかりすぎてしまいます。
そのような場合に本ツールを使えば、簡単に目的のWebサイトをリストアップできます。
本ツールは、PublicWWWのAPIを使って特定のソースコード、もしくはタグを含むWebサイトを検索します。
検索にヒットしたWebサイトの情報はGoogleスプレッドシートへ出力するので、分析や共有がしやすいのも本ツールの特徴です。
さらに、リストアップしたWebサイトに「簡易スクレイピング機能」を利用すれば、タイトルやメタデータを取得することもできます。
なお、本ツールはGAS(Google Apps Script)を使ったツールのため、Googleスプレッドシートが使えるパソコンであれば、OSに関係なくご利用いただけます。
特定のプラットフォームを使ったWebサイトのみを検索したい、特定のタグ(広告タグやアフィリエイトタグなど)が含まれているWebサイトをピックアップしたいという方におすすめのツールです。
サイトソースコード検索ツールの3つの特徴
特定のコードやタグが利用されているサイトを簡単リストアップ
- アフィリエイトやWordPressのテーマ、プラグインなど特定のコードやタグが利用されているサイトをGoogleスプレッドシートにリストアップします。
- サイトの検索、データの取得にはPublicWWWのAPIを利用します。
- PublicWWWのAPIは無料で利用することが可能です。
リストアップしたサイトを簡易スクレイピングする機能を搭載
- リストアップしたWebサイトのうち、選択式で簡易スクレイピングすることが可能です。
- 簡易スクレイピングできる情報は下記の情報です。
- tilte
- meta description
- meta og:description
- meta og:image
- 簡易スクレイピング機能があることで、ざっくりどんなサイトかが一目でわかるようになります。
画像付き設定マニュアルがあるので、初心者でも安心!
- 本ツールは情報の検索・取得にPublicWWWのAPIを利用しております。
- 初心者の方でも簡単にAPIの設定や本ツールの利用のための設定ができるよう、画像付きの丁寧なマニュアルを用意しておりますので、ご安心ください。
サイトソースコード検索ツールはこんな方にオススメ!
- ShopifyやWordPressなど特定の技術で構築されたWebサイトを簡単に検索したい方
- ベンチマークしているアフィリエイターの分析をしたい方
- 自社商品のアプローチ先のターゲットを効率的にリストアップしたい方
サイトソースコード検索ツールのご利用マニュアル
STEP1:ご購入された本ツール(Googleスプレッドシート形式)をコピー
本ツールは自動化スクリプトの「Google Apps Script(GAS)」が実装された「Googleスプレッドシート形式」のツールです。
ご購入当初はツールを「閲覧権限のみ」に制限しております。
本ツールの自動化メニューの利用するためには、ご購入当初のスプレッドシートをコピーしていただく必要があります。
本ツール(スプレッドシート)のツールバーの「ファイル」→「コピーを作成」をクリックして、ツールのコピーをしてからご利用を開始してください。
コピーシートにはプログラムも一緒にコピーされますので、コードを編集する必要性は全くありませんので、ご安心ください。
STEP2:PublicWWW APIの利用設定
本ツールではPublicWWW APIを利用して、ソースコードによるサイト検索を実現しております。
そのため、本ツールを利用するためには、PublicWWWのAPI keyが必要となります。PublicWWW APIは無料で利用することができます。
※参考:PublicWWW APIの利用に必要な「API key」の取得方法は下記のマニュアルページにてご確認ください。PublicWWWとは何かについても下記の記事で解説しております。
まずは上記のページを参考にAPI keyを発行・取得します。
その後、本ツールの「設定」シートに取得したAPI keyを「API key」欄に貼り付けください。
STEP3:「サイト検索」メニューを実行
次に、PublicWWW APIを利用してソースコードによるサイト検索を実行します。
本ツール独自でご用意している「メニュー」より「サイト検索」を実行してください。
初めて本ツール独自の自動化メニューを実行する際には、初回認証プロセスが必要となります。初回認証プロセスの進め方は下記の記事に記載しておりますので、そちらをご参照ください。
メニュー実行後、検索クエリを入力するテキストボックスが表示されますので、お好みの検索クエリを入力し、「OK」をクリックしてください。
その後、検索結果にヒットするサイトの「URL」および「ランク」の情報が本ツールの「検索結果」シートに出力されていきます。
参考:検索クエリの例
- WordPressの有料テーマ「The Thor」を使ったサイトを探したい場合
- “wp-content/themes/the-thor”
- Baseを利用したサイトを一部探したい場合
- “https://thebase.in/?from=”
仕様補足
- サイト検索メニューを実行するたびに「検索結果」シートに取得されたデータが追記されていく仕様となっております。
- 取得できるデータ数は検索クエリや加入されているPublicWWWのプランによって異なります。
- 「ランク」はPublicWWW独自のランクです。
参考:検索結果シートクリア機能もご用意しております。
検索結果シートをクリアしたい場合にご利用いただける「検索結果シートクリア」機能もご用意しております。必要に応じてご利用ください。
便利な機能のご案内:簡易スクレイピング機能
本ツールでは、サイト検索で出力されたサイトURLをもとに、簡易スクレイピングを実施することができます。簡易スクレイピングするサイトはプルダウンで指定することができます。
簡易スクレイピング機能で取得できる情報
簡易スクレイピングでは下記の情報を取得することができます。
サイトに関する基本的な情報にはなりますが、簡易スクレイピングを実行することで、URLだけではわからない情報を可視化することが可能です。
- tilte
- meta description
- meta og:description
- meta og:image(画像として出力されます)
簡易スクレイピング機能の利用方法
STEP1:検索結果シートから簡易スクレイピングしたいサイトを選択
簡易スクレイピング機能を利用するためには、まずはスクレイピングしたいサイトを選択する必要があります。
サイト検索で出力された検索結果シートから、スクレイピングしたいサイトの「スクレイピング対象(E列)」のプルダウンから「●」を選択してください。
STEP2:メニューより「スクレイピング」を実行
次に、実際にスクレイピングでデータを取得します。
ツールバーに用意された本ツール独自の「メニュー」より「スクレイピング」をクリックします。
「スクレイピング」メニューを実行すると、検索結果シートでスクレイピング対象として選択したサイトの情報が取得され、スクレイピング結果シートに取得結果が出力されていきます。
簡易スクレイピング機能の補足事項
スクレイピング実施時の注意点
- 「スクレイピング」メニューの最大処理時間の上限は約「6分間」となります。6分間を超える場合、スクレイピング対象URLの数を減らすなどして調整してください。
- スクレイピング対象URLの数が少ない場合でも、情報量の多いサイトやサーバーの重いサイトなどは最大処理時間内に処理が完了できない可能性もございます。
- サイトの構造によっては、正しく情報が取得できない可能性もございます。予めご了承ください。
- GASのWebサイトへのリクエスト数(スクレイピング数)は1日あたりの上限が定められています。上限に達した場合は、時間を空けてご利用ください。
- 本ツールをご利用されてスクレイピングを実施する際には、相手型のサーバーに負荷をかけないように最大限ご配慮をお願いします。
参考:スクレイピング結果シートクリア機能もご用意しております。
スクレイピング結果シートをクリアしたい場合にご利用いただける「スクレイピング結果シートクリア」機能もご用意しております。必要に応じてご利用ください。
サイトソースコード検索ツール:ご利用上の注意点
- 本ツールの利用には、Googleアカウント、PublicWWW APIの利用権限が必要になります。
- 本ツールはPublicWWW APIを使用して情報を取得、操作しております。場合によっては、一時的に情報が取得できない場合や、情報の取得や操作が失敗するケースもございます。予めご了承ください。
- また、時間内の情報取得・操作制限もあります。これらのリスクについては、予めご了承ください。
- 本ツールの利用で発生した問題の責任は負いかねます。事前に使い方をテスト、理解した上で、ご利用ください。
- 本ツールは処理時間に上限があります(約6分)。処理時間を超える場合には、データの取得・出力が完了できないケースもございますので、予めご了承ください。
- スクレイピング対象のWebサイトがスクレイピングを禁止している場合、本ツールでのスクレイピングはお控えください。
- ツールおよびプログラムの著作はGASラボにあります。無断での転載・再販・配布・共有やソースコードのコピーは固く禁止しております。
- 本ツールは初回利用時に「認証・許可プロセス」が発生します。認証・許可を下記の記事を参考に進めて下さい。
- 本ツールはPublicWWW APIの仕様変更に伴い、ツール自体の仕様が変更になる可能性やアップデートされる可能性、情報が取得・操作できなくなる可能性がございます。予めご了承ください。