Python クロール AI 機械学習

icrawlerで機械学習用の画像を集めよう

Googleのicrawlerを使うと簡単にインターネット上(Google)から画像(image)を収集することができます。
機械学習の素材集めに便利です。
Pythonをインストールしている方は、PIPやcondaでインストールしてください
condaよりはpipでインストールするのが確実です。pip install icrawler
condaの場合、通常(Default)のchannelではインストールできないので conda install -c hellock icrawler でインストールしてください

In [1]:
# Google Image Crawler

from icrawler.builtin import GoogleImageCrawler
In [2]:
google_crawler = GoogleImageCrawler(
    feeder_threads = 1,
    parser_threads = 2,
    downloader_threads = 4,
    storage = {'root_dir': 'web_image'} # dl_image がダウンロードされるあなたのローカルディレクトリです
)
filters = dict(size = 'large', # ダウンロードされる画像をフィルタ出来ます。大きさ、色、ライセンス形態、期間
#              color='orange',
#              license = 'commercial, modify',
               date = ((2019, 1, 1), (2019, 11, 30)))

次でダウンロードが始まります。取得数はあまり多く設定しないでください。

In [3]:
google_crawler.crawl(keyword = '宮沢氷魚', # ほしいimageのkeywordを設定してください
                     filters = None,
#                     filters = filters, 
                     max_num = 100, # 取得数
                     file_idx_offset = 0)
2019-08-05 13:19:48,063 - INFO - icrawler.crawler - start crawling...
2019-08-05 13:19:58,093 - INFO - icrawler.crawler - Crawling task done!
In [ ]: