# 言語処理100本ノック 2020
https://nlp100.github.io/ja/

## 第1章: 準備運動
https://nlp100.github.io/ja/ch01.html

### 09. Typoglycemia
スペースで区切られた単語列に対して，各単語の先頭と末尾の文字は残し，それ以外の文字の順序をランダムに並び替えるプログラムを作成せよ．ただし，長さが４以下の単語は並び替えないこととする．適当な英語の文（例えば”I couldn’t believe that I could actually understand what I was reading : the phenomenal power of the human mind .”）を与え，その実行結果を確認せよ．

参考
- https://qiita.com/komeiy/items/971ead35d33c25923222
- https://note.nkmk.me/python-random-shuffle/

In [45]:
def get_typoglycemia(text):
    return(' '.join([t if len(t) <= 4 else t[0] + ''.join(random.sample(t[1:-1], len(t)-2)) + t[-1] for t in text.split(' ')]))

get_typoglycemia('I couldn’t believe that I could actually understand what I was reading : the phenomenal power of the human mind .')

'I cdun’lot beievle that I colud atlcauly uestndrnad what I was redinag : the pnmneoheal pweor of the human mind .'

### 08. 暗号文
与えられた文字列の各文字を，以下の仕様で変換する関数cipherを実装せよ．
- 英小文字ならば(219 - 文字コード)の文字に置換
- その他の文字はそのまま出力

この関数を用い，英語のメッセージを暗号化・復号化せよ．

参考
- https://note.nkmk.me/python-capitalize-lower-upper-title/
- https://python.civic-apps.com/char-ord/

In [10]:
def cipher(msg):
    return ''.join([chr(219 - ord(c)) if c.islower() else c for c in msg])

cipher('qwertyuiopasdfghjklzxcvbnm QWERTYUIOPASDFGHJKLZXCVBNM `1234567890-=[]¥;\',./ ~!@#$%^&*()_+{}|:"<>?')

'jdvigbfrlkzhwutsqpoacxeymn QWERTYUIOPASDFGHJKLZXCVBNM `1234567890-=[]¥;\',./ ~!@#$%^&*()_+{}|:"<>?'

### 07. テンプレートによる文生成
引数x, y, zを受け取り「x時のyはz」という文字列を返す関数を実装せよ．さらに，x=12, y=”気温”, z=22.4として，実行結果を確認せよ．

In [11]:
def create_text(x, y, z):
    return(f'{x}時の{y}は{z}')

create_text(x=12, y='気温', z=22.4)

'12時の気温は22.4'

### 06. 集合
“paraparaparadise”と”paragraph”に含まれる文字bi-gramの集合を，それぞれ, XとYとして求め，XとYの和集合，積集合，差集合を求めよ．さらに，’se’というbi-gramがXおよびYに含まれるかどうかを調べよ．

参考: https://note.nkmk.me/python-set/

In [12]:
X = get_n_gram('paraparaparadise', 2)
Y = get_n_gram('paragraph', 2)
print(f'''和集合: {set(X) | set(Y)}'
積集合: {set(X) & set(Y)}
差集合: {set(X) ^ set(Y)}
has X 'se': {'se' in X}
has Y 'se': {'se' in Y}''')

和集合: {'ar', 'pa', 'ap', 'ra', 'ad', 'di', 'se', 'gr', 'ph', 'ag', 'is'}'
積集合: {'ar', 'pa', 'ap', 'ra'}
差集合: {'se', 'gr', 'ph', 'is', 'ag', 'di', 'ad'}
has X 'se': True
has Y 'se': False


### 05. n-gram
与えられたシーケンス（文字列やリストなど）からn-gramを作る関数を作成せよ．この関数を用い，”I am an NLPer”という文から単語bi-gram，文字bi-gramを得よ．

In [13]:
def get_n_gram(seq, n):
    return [seq[i:i+n] for i in range(len(seq)-n+1)]

get_n_gram('I am an NLPer'.split(' '), 2)
get_n_gram('I am an NLPer', 2)

[['I', 'am'], ['am', 'an'], ['an', 'NLPer']]

['I ', ' a', 'am', 'm ', ' a', 'an', 'n ', ' N', 'NL', 'LP', 'Pe', 'er']

### 04. 元素記号
“Hi He Lied Because Boron Could Not Oxidize Fluorine. New Nations Might Also Sign Peace Security Clause. Arthur King Can.”という文を単語に分解し，1, 5, 6, 7, 8, 9, 15, 16, 19番目の単語は先頭の1文字，それ以外の単語は先頭に2文字を取り出し，取り出した文字列から単語の位置（先頭から何番目の単語か）への連想配列（辞書型もしくはマップ型）を作成せよ．

In [14]:
term = 'Hi He Lied Because Boron Could Not Oxidize Fluorine. New Nations Might Also Sign Peace Security Clause. Arthur King Can.'.split(' ')
{term[i][:1 if i+1 in [1,5,6,7,8,9,15,16,19] else 2]:i+1 for i in range(len(term))}

{'H': 1,
 'He': 2,
 'Li': 3,
 'Be': 4,
 'B': 5,
 'C': 6,
 'N': 7,
 'O': 8,
 'F': 9,
 'Ne': 10,
 'Na': 11,
 'Mi': 12,
 'Al': 13,
 'Si': 14,
 'P': 15,
 'S': 16,
 'Cl': 17,
 'Ar': 18,
 'K': 19,
 'Ca': 20}

### 03. 円周率
“Now I need a drink, alcoholic of course, after the heavy lectures involving quantum mechanics.”という文を単語に分解し，各単語の（アルファベットの）文字数を先頭から出現順に並べたリストを作成せよ．

In [15]:
text = 'Now I need a drink, alcoholic of course, after the heavy lectures involving quantum mechanics.'
[len(i.strip(',.')) for i in text.split(' ')]

[3, 1, 4, 1, 5, 9, 2, 6, 5, 3, 5, 8, 9, 7, 9]

### 02. 「パトカー」＋「タクシー」＝「パタトクカシーー」
「パトカー」＋「タクシー」の文字を先頭から交互に連結して文字列「パタトクカシーー」を得よ．

In [16]:
a = 'パトカー'
b = 'タクシー'
c = ''
for i in range(min(len(a), len(b))):
    c += a[i]+b[i]
print(c)

パタトクカシーー


### 01. 「パタトクカシーー」
「パタトクカシーー」という文字列の1,3,5,7文字目を取り出して連結した文字列を得よ．

In [17]:
''.join(['パタトクカシーー'[i-1] for i in [1,3,5,7]])

'パトカー'

### 00. 文字列の逆順
文字列”stressed”の文字を逆に（末尾から先頭に向かって）並べた文字列を得よ．

In [18]:
'stressed'[::-1]

'desserts'