【Python3】Scrapyの基本的な使い方（クローリング、スクレイピング）

　どうも、梅雨ですね。雨ですね。嫌ですね。

　さて、結構前になりますがPythonの強力なクローリング、スクレイピングのフレームワークである「Scrapy」についていくつかTips的な記事を書いたことがあるのですが、そもそもScrapyの基本的な使い方に関しては紹介していなかったと思うので、今回はScrapyを使ってYahooのニュースサイトの情報を取得してみたいと思います。

環境

　今回の環境は以下の通り。

今回の環境

Mac OSX
Vagrant 2.2.3
Python 3.6.4
Scrapy 1.6

　今回は上記のとおり、Vagrantで仮装環境を作りPython3.6.4をインストールした上で進めていきたいと思います。VagrantやPythonの環境構築は別途用意してみてください。

Scrapyとは？

　まず、Scrapyとは、簡潔に言うとPythonのオープンソースフレームワークでクローリング・スクレイピングを手助けしてくれるPythonを代表するフレームワークの１つになります。クローリングやスクレーピングのプログラムをスクラッチで構築するとなると、面倒な処理が結構多いのですが、Scrapyを使うことで冗長的な処理をフレームワーク側に任せることができるので、クローリング・スクレイピング処理のみに集中することが最大のメリットかと思います。

Scrapyのインストール

　では、まずScrapyのインストールをしてみましょう。

　インストールはScrapyの公式サイトにも記載があるとおり、下記コマンドでインストールすることができます。

$ pip install scrapy

　インストールが完了したら、下記コマンドでバージョンを確認しておきます。

$ scrapy version
Scrapy 1.6.0

プロジェクトの生成

　インストールが完了したら、実際にクローリングするためのプロジェクトを生成していきます。

　Scrapyにはプロジェクトの生成のコマンドも用意されていますので、下記コマンドで生成します。

$ scrapy startproject プロジェクト名

　Scrapyコマンドの「startproject」の後ろにプロジェクト名を入力することで、プロジェクト名のディレクトリが生成されます。

　とりあえず、今回は適当に「scraping」というプロジェクトを生成したいと思います。

$ scrapy startproject scraping

プロジェクトの中身

　上記のコマンドを実行したら、実行ディレクトリ上に「scraping」というディレクトリが生成されていると思います。

　treeコマンドでディレクトリの構成を確認してみます。

$ tree scraping
scraping
├── scraping
│   ├── __init__.py
│   ├── items.py
│   ├── middlewares.py
│   ├── pipelines.py
│   ├── __pycache__
│   │   ├── __init__.cpython-36.pyc
│   │   └── settings.cpython-36.pyc
│   ├── settings.py
│   └── spiders
│       ├── __init__.py
│       ├── news.py
│       └── __pycache__
│           ├── __init__.cpython-36.pyc
│           └── news.cpython-36.pyc
└── scrapy.cfg

　scrapingディレクトリの中身はこんな感じになっており、たくさんのファイルやフォルダが存在しますが、基本的なクローリング作業をするのであれば、実際に編集が必要なファイルは一部のファイルのみになるので難しいことはありません。

ダウンロード間隔の設定

　では、まず実際にクローリング処理を記述するまえにWebサイトのダウンロード間隔を設定しておきます。ダウンロード間隔は１つのページをダウンロードして次のページのダウンロードを開始するまでの間隔のことになります。

　この間隔を短く設定してしまうと相手サーバーに思わぬ負荷を掛けてしまいかねないので必ず迷惑にならないような間隔に設定しましょう。

　ダウンロード間隔の設定はsettings.pyファイルに記述することで設定できます。settings.pyファイルを開くと30行目あたりに「DOWNLOAD_DELAY = 3」というコードがコメントアウトされていると思うので、このコメントアウトを外します。

DOWNLOAD_DELAY = 3

　このコードの意味は3秒間隔でダウンロードするという意味になります。

Spiderクラスの生成

　ダウンロード間隔を設定したら、Scrapyを使う上で主役ともいうべき「Spider」クラスを生成していきます。

　Spiderクラスは対象となるWebサイトごとに作成するもので、実際に対象サイトのURLを記述したり、Webサイトへのリクエスト、取得したデータのパースなどのクローリングにおいて核となる処理を記述するものになります。

　では、まずscrapingディレクトリに移動します。

$ cd ./scraping/scraping

移動したら、下記のとおり、genspiderコマンドでクラス名と対象となるWebサイトのドメインを入力して実行します。

$ scrapy genspider news news.yahoo.co.jp

　実行したら、「spiders」ディレクトリにに「news.py」というファイルができていると思います。

$ tree spiders
spiders
├── __init__.py
├── news.py
└── __pycache__
    ├── __init__.cpython-36.pyc
    └── news.cpython-36.pyc

クローリング

　では、生成したnews.pyファイルを開いて実際にクローリング処理を記述していきたいと思います。

　生成時は下記のような内容になっていると思います。

# -*- coding: utf-8 -*-
import scrapy

class NewsSpider(scrapy.Spider):
    name = 'news'
    allowed_domains = ['news.yahoo.co.jp']
    start_urls = ['http://news.yahoo.co.jp/']

    def parse(self, response):
        pass

allowed_domains

　NewsSpiderクラスがあり、その中に「allowed_domains」があるかと思いますが、ここで指定しているドメインのみ許可するということになります。

start_urls

　その下に「start_urls」という項目もあると思いますが、ここで指定してるURLが開始するページになります。

ニュース一覧のリンク先URLを取得する

　では、このファイルを以下のように編集してニュース一覧のリンクを取得してみましょう。

import scrapy

class NewsSpider(scrapy.Spider):
    name = 'news'
    allowed_domains = ['news.yahoo.co.jp']
    start_urls = ['https://news.yahoo.co.jp/'] #http -> httpsに変更

    def parse(self, response):
        print('ニュースリンク一覧:')
        print(response.css('.topicsListItem a::attr("href")').extract())
        pass

　変更箇所は、一番上にあった「# -*- coding: utf-8 -*-」というコードを削除（Python3では必要ない）して、start_urlsで指定しているURLをhttpsに変更して、parseメソッドに処理を追記しました。

　リンク先のURLを取得しているのはpraseメソッド内の「response.css(‘.topicsListItem a::attr(“href”)’).extract()」というコードになります。ページをダウンロードして返ってきたresponseデータからresponse.cssメソッドで「topicsListItem」というクラス名が付与されているタグ内にあるaタグのhrefの内容を取得しています。extract()メソッドはノード一覧を文字列listとして取得するメソッドになります。

　では、実際に実行してみます。

　実行する場合は、「spiders」ディレクトリに移動して下記コマンドを入力することで実行することができます。

$ scrapy crawl news

　実行するといろいろと結果が返ってくると思いますが、その中に下記のような記述があると思います。

ニュースリンク一覧:
['https://news.yahoo.co.jp/pickup/6326593', 'https://news.yahoo.co.jp/pickup/6326582', 'https://news.yahoo.co.jp/pickup/6326591', 'https://news.yahoo.co.jp/pickup/6326594', 'https://news.yahoo.co.jp/pickup/6326574', 'https://news.yahoo.co.jp/pickup/6326583', 'https://news.yahoo.co.jp/pickup/6326589', 'https://news.yahoo.co.jp/pickup/6326595']

　これがpraseメソッドで実行した処理になります。しっかりとニュース一覧のリンク先が取得できていますね。

ニュースタイトルを取得してみる

　では、今度は取得したリンク先一覧をもとにそれぞれのリンク先もクローリングしてニュースのタイトルを取得してみます。

　news.pyファイルを再度下記のように編集します。

import scrapy

class NewsSpider(scrapy.Spider):
    name = 'news'
    allowed_domains = ['news.yahoo.co.jp']
    start_urls = ['https://news.yahoo.co.jp/'] #http -> httpsに変更

    def parse(self, response):
        print('ニュースリンク一覧:')
        print(response.css('.topicsListItem a::attr("href")').extract())

        links = response.css('.topicsListItem a::attr("href")').extract()

        print('ニュースタイトル一覧:')
        for link in links:
          yield scrapy.Request(link, self.parse_title)

    def parse_title(self, response):
        print(response.css('.tpcNews_title::text').extract_first())

　先ほどのデータに追加するかたちで取得したリンク先一覧をfor分で回して、scrapyRequestメソッドでそのページをダウンロードして、コールバックメソッドにparse_titleメソッドを指定して、parse_titleメソッドでニュースタイトルを取得しています。

　これを改めて実行すると、ニュースタイトルが取得できていると思います。

Itemの生成

　ここまでやればなんとなくクローリングしている感覚が掴めたと思います。たったこれだけ記述するだけで綺麗にクローリングできるのもScrapyのメリットですね。

　さて、クローリングしてデータの取得まで出来るようになりましたが、取得したデータはdictに保存してもいいのですが、ScrapyにはItemというSpiderが抽出したデータを格納できるオブジェクトのようなものが用意されているので、Itemを作成してそこにデータを格納してみたいと思います。

　spidersディレクトリの一階層上に「items.py」というファイルがあるのでそれを開いて下記のように編集します。

import scrapy

class NewsItem(scrapy.Item):
    title = scrapy.Field()
    link = scrapy.Field()

　内容としては「NewsItem」というクラスを作成して、その中に「title」と「link」というフィールドがあるといった感じですね。

クローリングしてItemにデータを格納する

　Itemを作成したら、またSpidersディレクトリのnews.pyに戻って下記のように編集してみます。

import scrapy
from scraping.items import NewsItem

class NewsSpider(scrapy.Spider):
    name = 'news'
    allowed_domains = ['news.yahoo.co.jp']
    start_urls = ['https://news.yahoo.co.jp/'] #http -> httpsに変更

    def parse(self, response):
        links = response.css('.topicsListItem a::attr("href")').extract()

        item = NewsItem()

        for link in links:
          item['link'] = link
          request = scrapy.Request(link, self.parse_title)
          request.meta['item'] = item
          yield request

    def parse_title(self, response):
        item = response.meta['item']
        item['title'] = response.css('.tpcNews_title::text').extract_first()
        yield item

　上の方で作成したNewsItemクラスを読み込み、そのItemの中にデータを格納するように編集しました。Itemはrequest.metaメソッドを使用することでメソッド間で受け渡しができるので、これも合わせて覚えておくといいかもしれません。

　あとは、実際に実行してみて結果を確認してみてください。

　ということで、今回はPythonのクローリング、スクレイピングのフレームワーク「Scrapy」の基本的な使い方をYahooのニュース情報を取得するかたちで紹介しました。

　データ収集は機械学習等、データ分析には欠かせない要素なので、このようにScrapyを利用して簡単に作成できるようにしておくと役立つかもしれませんね。

　てことで、ここまで。また！

UdemyでPythonを学習する

Pythonを学習する（Udemy）

Pythonの書籍をAmazonで探す Pythonの書籍を楽天で探す

【Python3】Scrapyの基本的な使い方（クローリング、スクレイピング）

環境

今回の環境

Scrapyとは？

Scrapyのインストール

プロジェクトの生成

プロジェクトの中身

ダウンロード間隔の設定

Spiderクラスの生成

クローリング

allowed_domains

start_urls

ニュース一覧のリンク先URLを取得する

ニュースタイトルを取得してみる

Itemの生成

クローリングしてItemにデータを格納する

人気記事

コメントを残すコメントをキャンセル

環境

今回の環境

Scrapyとは？

Scrapyのインストール

プロジェクトの生成

プロジェクトの中身

ダウンロード間隔の設定

Spiderクラスの生成

クローリング

allowed_domains

start_urls

ニュース一覧のリンク先URLを取得する

ニュースタイトルを取得してみる

Itemの生成

クローリングしてItemにデータを格納する

こちらの記事も読まれています

人気記事

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル