この記事を読むのに必要な時間は約 3 分です。
サイトマップを作りたいなーと考え出して早くも数週間が経過。。。
とりあえず、記事一覧を見ながらどんな整理しようかなと思って作成。
記事一覧を抜き出すAPIとかちらほら落ちていたりしたけどいまいちしっくり来ずに自分で作成。簡単なスクレイピングなので公開するのもあれやけど、せっかくなので!!
はてなブログの記事一覧を取得する
使用するのはRubyとnokogiriでのスクレイピング
Rubyが既にPCに入っている人はソース持ってきてURL指定してほいっと完成。
早速、ソース
はてなブログの記事一覧を取得するバッチの使い方
簡単に説明を記述していきます。
必要なもの
・Ruby
・nokogiri
手順
1.Rubyをインストール :5分
2.nokogiriをインストール :3分
3.ソースのURL部分に自分のトップページのURLを指定:1分
4.コマンドライン上で実行:1分
1.Rubyのインストール
以下の記事を参考にしてみてください。
Windows:
「RubyをWindowsでインストールする方法【初心者向け】」
https://techacademy.jp/magazine/7056
Mac:
「【初心者向け】【Ruby】【シリーズ】MacでRubyを使えるように開発環境を作ってみよう!」
http://morei.hatenablog.jp/entry/2016/03/05/111627
2.nokogiriのインストール
「Ruby + Nokogiriでスクレイピング」
https://qiita.com/kumamonmaster/items/9bb2aadde56c956fdc9f
※nokogiriのインストールまで
※macでエラーでる場合は[sudo gem install nokogiri]ってやるとうまくいくかも。
3.はてなブログのトップページを指定してください
そのまんまなので説明省略します。
4.コマンドライン上で実行
以下コマンド実行
ruby GetAllEntry.rb > allEntry.csv
ちょっと出力形式いじればGoogleスプレッドシートにも貼り付けできる。
(コメントアウトしてる出力方法の方を外して、スプレッドシートに貼り付ける。)
※データ > テキストを列に分割 で区切り文字に「カンマ」を指定してあげればOK