ウェブスクレイピング Archives

Pythonでウェブスクレイピング – BeautifulSoup ②

2024/01/222022/11/07 by Dan

では前回練習したウェブスクレイピングの続きを説明します。前回の記事はこちらからどうぞ。今日はヤフオクに表示されている入札価格と商品名などをスクレイピングしていきたいと思います。 requestsのライブラリをインストールではPythonから実際のウェブサイトにアクセスするにあたりHTTPリクエストを送ることになります。その際にRequestsのライブラリを使うのでインストールしましょう。前回、virtualenvで環境を作った人はアクティベートすることを忘れずに！ではページのHTMLをスクレイピングします。ウェブページの内容が出てきました。リスティングのHTMLを見るではデベロッパーツールで各リストを囲っているカードのエレメントをみます。見てわかるようにliエレメントでProductというクラスがありますね。ではこのProductクラスをすべてスクレイピングします。 Pythonファイルを実行してちゃんとスクレイピングできているか確かめましょう。次に一つのリスティングから必要な情報を吸い取ります。ではこのリスティングをループさせます。 10分ごとにスクレイピングを実行させるでは先ほどのコードをファンクションにして10分ごとに実行させるように設定します。データをSCVに書き出す日本語のエンコードは私は”utf_8_sig”で行いました。（アメリカのPCなので。。。色々試してください。