# Python Challenge level2
---
## 問題
ページソース内のコメントから出現回数の少ない文字を抽出する。

In [1]:
import requests
import re
import collections

In [2]:
url = "http://www.pythonchallenge.com/pc/def/ocr.html"
# 応答データを受け取る
respons = requests.get(url)

# 正規表現を用いてコメント部分を抽出
text = re.findall("<!--(.*?)-->", respons.text, re.DOTALL)[-1]

# 要素数の算出
c = collections.Counter(text)
print(c)
# 出現回数が最小の文字を抽出
print([i[0] for i in c.items() if i[1] == 1])
# 別表示
print("".join(re.findall("[a-z]", text)))

Counter({')': 6186, '@': 6157, '(': 6154, ']': 6152, '#': 6115, '_': 6112, '[': 6108, '}': 6105, '%': 6104, '!': 6079, '+': 6066, '$': 6046, '{': 6046, '&': 6043, '*': 6034, '^': 6030, '\n': 1221, 'e': 1, 'q': 1, 'u': 1, 'a': 1, 'l': 1, 'i': 1, 't': 1, 'y': 1})
['e', 'q', 'u', 'a', 'l', 'i', 't', 'y']
equality


## 解説
level2では
- webデータ(html)の読み込み
- 文字列の抽出
- 要素数の算出

の技術を使用した。以下で、それぞれ解説する。

## requests.get()によるhtmlの読み込み
---
requestsのgetメソッドにurlを渡すとレスポンス内容が格納されたオブジェクト返される。このオブジェクトのtext属性にhtmlが格納されている。例では、日本語が使用されているためエンコードを行った。apparent_encoding()は自動で文字コードを判定してくれる。

In [3]:
# URL
sample_url = "https://note.nkmk.me/python-requests-usage/"
# 応答データの取得
res = requests.get(sample_url)
# エンコード
res.encoding = res.apparent_encoding
print(res.text[:300])


<!DOCTYPE html>
<html lang="ja">

<head>
<meta charset="UTF-8">

<meta name="viewport" content="width=device-width, initial-scale=1.0">
<meta http-equiv="X-UA-Compatible" content="ie=edge">
<meta name="description" content="Pythonの標準ライブラリurllibを使うとURLを開くことができるが、サードパーティライブラリのRequestsを使うとよりシンプルに書ける。R


## 正規表現による文字列抽出(re.findall())
---
re.findall(pattern, string)
> string 中の pattern による全ての重複しないマッチを、文字列のリストとして返します。 string は左から右へ走査され、マッチは見つかった順で返されます。パターン中に 1 つ以上のグループがあれば、グループのリストを返します。パターンに複数のグループがあればタプルのリストになります。空マッチは結果に含まれます。

\nを文字列に含める場合は**re.DOTALL**をオプションとして追加する。

### パターン
|文字|意味|例|マッチ対象|
|:--:|:--:|:--:|:--:|
|.|\n以外の任意の１文字|a.|ab, aa|
|\*|任意の個数(0を含む)の直前の文字|-|-|
|?|0か1個の直前の文字|-|-|
|()|括弧内の抽出、グループ化|(ab).|abc, abb|

### .\*と.\*?の違いについて
.\*と.\*?は感覚としては  
.\*が「任意の文字をなるべく多く探す」のに対して  
.\*?が「任意の文字をなるべく少なく」探す  

In [4]:
sample = "ababbbba"
print(re.findall("ab*", sample))
print(re.findall("ab?", sample))

['ab', 'abbbb', 'a']
['ab', 'ab', 'a']


## collections.Counter()による要素数算出
---
引数に与えた文字列から各要素数を辞書型で出力してくれる。

In [5]:
sample_text = "This is a apple."
print(collections.Counter(sample_text))

Counter({' ': 3, 'i': 2, 's': 2, 'a': 2, 'p': 2, 'T': 1, 'h': 1, 'l': 1, 'e': 1, '.': 1})
