python

Scrapyをちょっと触ってみて

まだまだわかっていないが現時点でわかった知見をメモ scrapy shell [url]であらかじめアドホックにCSSセレクタを調べて、それをそのままSpiderにすれば早い リンクをたどっていく形式のSpiderは CrawlSpiderを使うとよい。一般的なユースケースがカバーでき…

scrapyでYahooニュースをクローリング

これも書籍の通り。復習のためにメモを残しておく。 これが一番シンプルかつ実用的なサンプルといえる。 Scrapyの作法に沿ってプロジェクトを作る。 ᐅ scrapy startproject myproject ᐅ cd myproject ᐅ scrapy genspider news news.yahoo.co.jp ᐅ tree mypro…

Scrapyでシンプルなクローラーを書く

クローリングハック あらゆるWebサイトをクロールするための実践テクニック作者: 竹添直樹,島本多可子,田所駿佑,萩野貴拓,川上桃子出版社/メーカー: 翔泳社発売日: 2017/09/29メディア: Kindle版この商品を含むブログを見る クローリング&スクレイピングの…

libmysqlclient-devを入れる

debianを使う。 pythonでmysqlを使うのに必要というので、 $ sudo apt-get install libmysqlclient-dev Reading package lists... Done Building dependency tree Reading state information... Done Package libmysqlclient-dev is not available, but is r…