Nokogiriでスクレイピング

C:\>ruby -v
ruby 2.0.0p247 (2013-06-27) [i386-mingw32]

タイトルをスクレイピングして取得する。

#! ruby -Ku

p "文字化けしないか確認しておく"

require "open-uri"
require "nokogiri"

url = "http://snit.hatenadiary.jp/"
charset = nil
html = open(url) do |f|
  charset = f.charset
  f.read
end
doc = Nokogiri::HTML.parse(html, nil, charset)
p doc.title

実行

C:\>ruby sample3.rb
"文字化けしないか確認しておく"
"snit21の日記"

最初の定義がないとそもそも日本語が文字化けする。

#! ruby -Ku

参考

http://nokogiri.org/

http://ginzanomama.hatenablog.com/entry/2013/02/27/162828

http://morizyun.github.io/blog/ruby-nokogiri-scraping-tutorial