【Python + Selenium】Webスクレイピングを試してみました

普段の業務に少しでも活かせればと思い、以前から興味のあったWebスクレイピングを勉強してみることにしました。

きっかけ
Amazonは注意が必要？
Seleniumを快適に利用するために
まとめ

きっかけ

普段の業務でAmazon上での相乗り問題が発覚し、それを解消するために弊社の商品を１つ１つ確認する(商品ページにアクセスして相乗りされていないか確認して、相乗りされていた場合は相乗りしている企業をピックアップする)という作業が必要になりました。

一旦ピックアップの方は完了し、今後は相乗りされないよう取引先にはOEM以外のネット販売を禁止する方針になりましたが、それでも完全ではないし、無断で行う企業もあれば、今回のピックアップも漏れがあるのでは？と思い、相乗り企業を自動で探すようなものができればなと思いました。

Web上の情報を自動で収集してくれるWebスクレイピングの存在は知っていて興味はありましたが、普段の業務にあまり活用する場がなかったという理由から全く触れていませんでしたが、今回Webスクレイピングを活用すれば必要なデータが簡単に取得できるのではないかなと思い、勉強を始めて見ることにしました。※どちらかというと目標達成が目的ではなく、勉強が目的になります。

Amazonの相乗りって何？っていう方向けの記事

必見！Amazonで相乗出品された際の対策方法

相乗り出品とは、既にカタログが存在する商品に他のセラーが自分の商品情報（価格や在庫など）を追加して販売することです。本記事では、Amazonの相乗り出品対策について、今すぐできる簡易的な対策から効果的な対策まで、5つの施策を分かりやすく解説...

Amazonは注意が必要？

AmazonでのWebスクレイピングの方法を調べるにあたり、「AzamonはWebスクレイピングを禁止している」という、何やら雲行きが怪しい情報が。

更に調べを進めると、SeleniumというWebブラウザの操作を自動化するためのフレームワークを使用すれば問題なくできるとう情報もありましたのでとりあえず、Python + Seleniumで進めてみることにしました。

※Amazon以外にも言えることですが、Webスクレイピングで最も大切なことは、サイトにアクセスする頻度です。アクセスを集中させてサーバーに負荷を掛けないように注意しましょう。

Seleniumを快適に利用するために

まず初めにPythonが必要です。既にインストールされていたので、ここでは割愛いたします。

Seleniumのインストール

pip install selenium

ネックとなるChromeDriverのバージョン管理

スクリプトを書いて、それを試しに走らせればできるのかなと思いましたが、どうやら「ChoremeDriver」というものが必要なようでした。UbuntuにChoromeDriverをインストールする方法が書いてありそれを試したのですが、うまく行かず。。どうやらGoogleChromeのバージョンとChoromeDriverのバージョンが合わないのでうまく行かないと分かりました。

調べてみると、両者のバージョンを確認して自動でChromeDriverのバージョンをGoogleChromeのバージョンに合わせてくれるものがあることで試してみることにしました。

参考にしたサイトはこちら