<a href="https://colab.research.google.com/github/aso1901102/AI_tech2020/blob/master/2020AI0401_lang_character.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### 異なる文字を使う言語を分類する

### ライブラリのImport

In [1]:
import numpy as np
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score

### 文字コードのあたりをインデックス化した配列を作って、各コード値（コードポイント）毎に文章中の出現頻度をカウントする関数を定義


In [2]:
# Unicode文字列の文字列コード値（コードポイント）頻度を測定する関数
def count_codePoint(str):
  # Unicodeのコードポイントをインデックス位置（アドレス）の配列を用意
  counter = np.zeros(65535)
  # strの分だけループ
  for i in range(len(str)):
    # 書く文字のコード値を変数に代入
    code_point = ord(str[i])

    # Unicodeの範囲外ならスルー
    if code_point > 65535:
      continue
    # if ここまで

    # 対応するアドレスの出現回数をインクリメント
    counter[code_point] += 1
  # 各要素数を文字数で割って出現率を割り出す
  counter = counter / len(str)
  return counter

### 学習用データを作成する

In [3]:
# 学習用データの準備
ja_str = "これは日本語の文章です。"
en_str = "This is English Sentences"
th_str = "นี่เป็นประโยคภาษาไทย"

# それぞれの出現頻度を3つの要素で説明変数ｘを作る
x_train = [count_codePoint(ja_str), count_codePoint(en_str),count_codePoint(th_str)]
# 同じ順番で正解となる目的変数（ラベル）を作る
y_train = ["ja", "en", "th"]

### 言語ごとの文字パターンを学習する


In [4]:
# ガウス分布によるナイーブベイズアルゴリズムで学習モデルを作る
clf = GaussianNB()
clf.fit(x_train, y_train)

GaussianNB(priors=None, var_smoothing=1e-09)

### テスト検証用データ作成

In [5]:
# テスト検証用データ（評価データ）の作成
ja_test_str = "こんにちは"
en_test_str = "Hello"
th_test_str = "สวัสดี"

# 説明変数（ｘ）を作る
x_test = [count_codePoint(ja_test_str), count_codePoint(en_test_str), count_codePoint(th_test_str)]

# 目的変数（ｙ）を作る
y_test =["ja", "en", "th"]

### テスト検証（推論）して、評価

In [6]:
# 推論させる
y_pred = clf.predict(x_test)
print("1つ目の文章の言語は", y_pred[0], "です。")
print("2つ目の文章の言語は", y_pred[1], "です。")
print("3つ目の文章の言語は", y_pred[2], "です。")
print("正解率　=　", accuracy_score(y_test, y_pred))

1つ目の文章の言語は ja です。
2つ目の文章の言語は en です。
3つ目の文章の言語は th です。
正解率　=　 1.0


### 同じ文字を使用する言語を分類

### サンプルデータとして使うWikipedia記事のテキストデータをDL

In [7]:
import urllib.request as req

# 学習用データ
url = "https://github.com/masatokg/sample_photo/raw/master/train.zip"
save_file = "test.zip"
req.urlretrieve(url, save_file)

# テスト用データ
url = "https://github.com/masatokg/sample_photo/raw/master/test.zip"
save_file = "test.zip"
req.urlretrieve(url, save_file)

# unzip（解凍）
!unzip -o -q "./train.zip"
print("train.zip解凍")
!unzip -o -q "./test.zip"
print("test.zip解凍")

train.zip解凍
test.zip解凍


### DLしたテキストのうち、学習用を読み込んで学習用の説明変数と目的変数を作る

In [8]:
import glob

# 学習データの準備
index = 0
x_train = []
y_train = []

# trainフォルダのtxt拡張子ファイル分ループ
for file in glob.glob("./train/*.txt"):
  # 言語情報のキーワードになるものを文中から取得してラベルを設定
  y_train.append(file[8:10])
  print("ファイルパスの一部をラベルにする：", file, " = ", file[8:10])
  print(y_train)

  # ファイル文字列を連結後、コードポイント頻度を測定して、説明変数に設定
  file_str = ""
  # ファイルを開いて、一行ずつ文字列連結
  for line in open(file, 'r'):
    file_str = (file_str + line)

  x_train.append(count_codePoint(file_str))

print(x_train)


ファイルパスの一部をラベルにする： ./train/de_cat.txt  =  de
['de']
ファイルパスの一部をラベルにする： ./train/en_cat.txt  =  en
['de', 'en']
ファイルパスの一部をラベルにする： ./train/es_dog.txt  =  es
['de', 'en', 'es']
ファイルパスの一部をラベルにする： ./train/es_elephant.txt  =  es
['de', 'en', 'es', 'es']
ファイルパスの一部をラベルにする： ./train/de_elephant.txt  =  de
['de', 'en', 'es', 'es', 'de']
ファイルパスの一部をラベルにする： ./train/de_dog.txt  =  de
['de', 'en', 'es', 'es', 'de', 'de']
ファイルパスの一部をラベルにする： ./train/en_elephant.txt  =  en
['de', 'en', 'es', 'es', 'de', 'de', 'en']
ファイルパスの一部をラベルにする： ./train/es_cat.txt  =  es
['de', 'en', 'es', 'es', 'de', 'de', 'en', 'es']
ファイルパスの一部をラベルにする： ./train/en_dog.txt  =  en
['de', 'en', 'es', 'es', 'de', 'de', 'en', 'es', 'en']
[array([0., 0., 0., ..., 0., 0., 0.]), array([0., 0., 0., ..., 0., 0., 0.]), array([0., 0., 0., ..., 0., 0., 0.]), array([0., 0., 0., ..., 0., 0., 0.]), array([0., 0., 0., ..., 0., 0., 0.]), array([0., 0., 0., ..., 0., 0., 0.]), array([0., 0., 0., ..., 0., 0., 0.]), array([0., 0., 0., ..., 0., 0., 0.]), array

### 作成した学習データをガウス分布のナイーブベイス(GaussianNB)で学習

In [9]:
# 学習モデルインスタンスの生成
clf = GaussianNB()
clf.fit(x_train, y_train)

GaussianNB(priors=None, var_smoothing=1e-09)

### DLしたテキストのうち、テスト用を読み込み、テスト用を説明変数、目的変数データを作る

In [10]:
# テスト用データの生成
index = 0
x_test = [] # 説明変数
y_test = [] # 目的変数

# testフォルダのtxt拡張子ファイルをループ
for file in glob.glob("./test/*.txt"):
  # 言語情報になるキーワードをパスから抜き出し、ラベルにする
  y_test.append(file[7:9])
  print("ファイルパスの一部をラベルにする：", file, " = ", file[7:9])

  # ファイル内の文字列を連結する
  file_str = ""

  # ファイル内一行ずつを文字列連結
  for line in open(file, 'r'):
    file_str = file_str + line

  # ファイル内の文字列Unicode値（Unicodeポイント）頻度を測定し、説明変数として設定
  x_test.append(count_codePoint(file_str))

ファイルパスの一部をラベルにする： ./test/en_lion.txt  =  en
ファイルパスの一部をラベルにする： ./test/es_lion.txt  =  es
ファイルパスの一部をラベルにする： ./test/de_lion.txt  =  de


### 学習モデルで推論し、評価する

In [11]:
# 推論する
y_pred  = clf.predict(x_test)
print(y_pred)

print("正解率　=　", accuracy_score(y_test,y_pred))

['en' 'es' 'de']
正解率　=　 1.0
