# 情報の抜出

In [15]:
html = <<XXXX
<p>1993年2月24日
<a href="http://example.com/ja/">Ruby's birthday</a></p>
<p>2014年1月1日
<a href="http://sample2.com/en/">元日</a></p>
XXXX

puts html

<p>1993年2月24日
<a href="http://example.com/ja/">Ruby's birthday</a></p>
<p>2014年1月1日
<a href="http://sample2.com/en/">元日</a></p>


  ## 日付の抜出

In [3]:
dates = html.scan(/(\d+)年(\d+)月(\d+)日$/)
p dates

[["1993", "2", "24"], ["2014", "1", "1"]]


[["1993", "2", "24"], ["2014", "1", "1"]]

## リンクの抜出

In [16]:
links = html.scan(%r!<a href="(.+?)">(.+?)</a></p>!)
p links

[["http://example.com/ja/", "Ruby's birthday"], ["http://sample2.com/en/", "元日"]]


[["http://example.com/ja/", "Ruby's birthday"], ["http://sample2.com/en/", "元日"]]

## インデックスでループ

* 日付とリンクを配列に入れる

In [18]:
(0...dates.length).map{|i| [dates[i], links[i]]}

[[["1993", "2", "24"], ["http://example.com/ja/", "Ruby's birthday"]], [["2014", "1", "1"], ["http://sample2.com/en/", "元日"]]]

## Array#zipでまとめる

In [19]:
dates.zip(links)

[[["1993", "2", "24"], ["http://example.com/ja/", "Ruby's birthday"]], [["2014", "1", "1"], ["http://sample2.com/en/", "元日"]]]

# 文字列処理

## 書式設定

In [20]:
format("%s %d URLs", "Download", 23)

"Download 23 URLs"

## 改行除去

In [22]:
"abc\n\n\n".chomp

"abc\n\n"

In [23]:
"abc\n\n\n".chomp("")

"abc"

## 文字数カウント

In [32]:
p "aaabbc".count("a")

p "aaabbc".count("b")

p "aaabbc".count("ab")

p "aaabbc".count("a-c")

### a～cのうちbを除いた文字数
p "aaabbc".count("a-c", "^b")

3
2
5
6
4


4

## 行で分割

In [38]:
s = "ab\ncd\nef"
p s.lines.to_a
p s.lines.map(&:chomp)
p s.split("\n")

["ab\n", "cd\n", "ef"]
["ab", "cd", "ef"]
["ab", "cd", "ef"]


["ab", "cd", "ef"]

## 行ごとに繰り返し

In [41]:
a = []; s.each_line{|l| a << l + " hoge"}; a

["ab\n hoge", "cd\n hoge", "ef hoge"]

## 文字列を空白で分割

In [47]:
s = " ab cd ef "
p s.split
p s.split(nil, 2)

["ab", "cd", "ef"]
["ab", "cd ef "]


["ab", "cd ef "]

## 先頭と末尾の空白を取り除き

In [48]:
s.strip

"ab cd ef"

## 文字列を分割

In [49]:
"あいうえお".chars.to_a

["あ", "い", "う", "え", "お"]

# ファイル処理

## ファイルを開く

In [59]:
p File.read('hoge.txt')

p open('hoge.txt'){|f| f.read}

### 上と同じ意味
p open('hoge.txt', &:read)

### ファイルが開きっぱなし
#p open('hoge.txt').read

"fuga\nhaga\n123\nあいう\n"
"fuga\nhaga\n123\nあいう\n"
"fuga\nhaga\n123\nあいう\n"


"fuga\nhaga\n123\nあいう\n"

## エンコーディング

In [75]:
#OUTPUT="fuga.txt"

### Shift_JISで出力
open(OUTPUT, "w"){|f| f.puts "あいうえお".encode("Shift_JIS")}

### 読み込むがエンコーディングがマッチしてない
a = File.read(OUTPUT)
p a
p a.encoding  ### 実際はShift_JISだがUTF-8となっている

### エンコーディング変換
p a.force_encoding("Shift_JIS").encode!("UTF-8")
puts

### 入力時にエンコーディングを指定
b = open(OUTPUT, "r:Shift_JIS", &:read)
p b
p b.encoding
p b.encode("UTF-8")
puts

### Shift_JISを読み込んだ段階でUTF-8にする(入力時のエンコーディングに加えて内部エンコーディングも指定)
c = open(OUTPUT, "r:Shift_JIS:UTF-8", &:read)
p c
p c.encoding
puts

### エンコーディングを推測して変換
require 'kconv'
p File.read(OUTPUT).toutf8

# NKF.nkfはMIME decodeをしない
p NKF.nkf('-wmo', File.read(OUTPUT))
File.unlink OUTPUT

"\x82\xA0\x82\xA2\x82\xA4\x82\xA6\x82\xA8\n"
#<Encoding:UTF-8>
"あいうえお\n"

"\x{82A0}\x{82A2}\x{82A4}\x{82A6}\x{82A8}\n"
#<Encoding:Shift_JIS>
"あいうえお\n"

"あいうえお\n"
#<Encoding:UTF-8>

"あいうえお\n"
"あいうえお\n"


1