# 次の課題
ここまでで、基本的な前処理、保存、視覚化について触れてきました。    
しかしここまでの処理には幾つかの課題があります。    
いまから幾つかの例を用いてそれを紹介していきます。

## 文字コードの非統一
特に絵文字などは、同じ文字を異なる文字コードで書く場合があり、これに関してはまっとうな方法では処理することが出来ません。    
例えば、下の例では、見た目上は全く同じ絵文字ですが、文字コードが異なっており、unicode 正規化を施しても解決することが出来ません。

In [14]:
import unicodedata
print('diff:\n{}\n{}'.format('♨'.encode(), '♨️'.encode()))
print('♨' =='♨️')
print(unicodedata.normalize("NFKC", '♨') == unicodedata.normalize("NFKC", '♨️'))

diff:
b'\xe2\x99\xa8'
b'\xe2\x99\xa8\xef\xb8\x8f'
False
False


## 異音同義語
同音異義語、というのはよく聞くと思いますが、その逆がWebページでは頻出します。    
表記ゆれ、というのが学術的には一般的ですが、この問題はそれよりももっと範囲が広いです。    
例えば関連単語では、先述の文字コードの非統一による複数の同じ意味の単語が現れてしまっています。    
またそれ以外にも、絵文字の有無/漢字かな問題などで別の表記が出現しています。

※漢字かな問題は、かな統一という邪道な手段がありますが、学術的には受け入れられないものです(筆者が昔取り上げたところ滅多打ちにされました)

異音同義語の例    

| 語1 | 語2|
|----:|---:|
|エクス・アルビオ|🛡エクス・アルビオ|    
|🌶三枝明那 | 三枝明那|

## キーワードの複合
キーワードを "/" などを用いて連結させ、一つのキーワードのように振る舞うケースがあります。    
これらを誤りなくキーワードに分解する必要がります。

キーワードの複合の例

| 複合されたキーワード | 分解したキーワード列 |
|--: |--:|
|猫/コアラ | 猫 , コアラ | 
| 動物/動物の一覧/哺乳類 | 動物 , 動物の一覧 , 哺乳類 |
| カイル(イルカ)→お前を消す方法 | カイル(イルカ) , お前を消す方法|


## 補足情報の処理
日本語に限らず、 "()" のような括弧表記を用いることで単語や文について補足を行うケースが有ります。    
これらの情報は有益ですが、キーワードとして用いるには不適切であると考えられます。

補足情報が付与されたキーワードの例

- ガウェイン(Fate/EXTRA)...外の人繋がり
- えびそば(ラーメン)
- ホウネンエビ(名前にエビと付く生き物。だが実はエビではない)
