In [2]:
from sklearn import svm, metrics
import glob, os.path, re, json

In [3]:
def check_freq(fname):    
    
    # 파일을 읽어
    # 음절 계산
    with open(fname, "r", encoding="utf-8") as f:
        text = f.read()
    text = text.lower()
    
    # 0 ~ 26까지 모두 0으로 세팅한 배열을 만듬
    cnt = [0 for n in range(0,26)]
    
    # 문자를 아스키 코드로 바꾼 이유: 알파벳을 아스키 코드로 바꿔서 a값을 빼주면 위에 만든 배열의 인덱스값이 나옴
    code_a = ord("a") # 'a' = 97
    code_z = ord("z") # 'z' = 122
    
    for ch in text:
        n = ord(ch) # n - 97
        if code_a <= n <= code_z:
            cnt[n - code_a] += 1
    
    # 정규화
    total = sum(cnt)
    freq = list(map(lambda n: n / total, cnt))
    
    # 파일명 뽑아내기 (y값 추출하기 언어타입 찾아내는 것임)
    name = os.path.basename(fname)
    lang = re.match(r'^[a-z]{2,}', name).group()
    return freq, lang

def load_files(path):
    freqs = []
    labels = []
    file_list = glob.glob(path)
    for fname in file_list:
        r = check_freq(fname)
        freqs.append(r[0]) # [0.2233343]
        labels.append(r[1]) # 'en'
    return {"freqs":freqs, "labels":labels}

############### main ###############
data = load_files('./lang/train/*.txt')
test = load_files('./lang/test/*.txt')

with open("./lang/freq.json", "w", encoding="utf-8") as fp:
    json.dump([data, test], fp)

In [5]:
# 학습하기
clf = svm.SVC() # 분류 모형
clf.fit(data["freqs"], data["labels"]) # 학습된 결과 clf에 자동 저장(fit 메소드 특징)

# 예측하기
predict = clf.predict(test["freqs"])
predict



array(['en', 'en', 'fr', 'fr', 'en', 'id', 'tl', 'tl'], dtype='<U2')

In [6]:
# 결과 테스트하기
ac_score = metrics.accuracy_score(test["labels"], predict)
cl_report = metrics.classification_report(test["labels"], predict)
print("정답률 =", ac_score)
print("리포트 =")
print(cl_report)

정답률 = 0.875
리포트 =
              precision    recall  f1-score   support

          en       0.67      1.00      0.80         2
          fr       1.00      1.00      1.00         2
          id       1.00      0.50      0.67         2
          tl       1.00      1.00      1.00         2

    accuracy                           0.88         8
   macro avg       0.92      0.88      0.87         8
weighted avg       0.92      0.88      0.87         8



In [16]:
# svc모형 옵션 확인하기
clf = svm.SVC()
clf

SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma='auto_deprecated',
    kernel='rbf', max_iter=-1, probability=False, random_state=None,
    shrinking=True, tol=0.001, verbose=False)

In [15]:
# svc모형 옵션 조정해서 정답률 향상시키기
clf = svm.SVC(gamma=17)
clf.fit(data["freqs"], data["labels"])

predict = clf.predict(test["freqs"])
ac_score = metrics.accuracy_score(test["labels"], predict)
cl_report = metrics.classification_report(test["labels"], predict)
print("정답률 =", ac_score)
print("리포트 =")
print(cl_report)

정답률 = 1.0
리포트 =
              precision    recall  f1-score   support

          en       1.00      1.00      1.00         2
          fr       1.00      1.00      1.00         2
          id       1.00      1.00      1.00         2
          tl       1.00      1.00      1.00         2

    accuracy                           1.00         8
   macro avg       1.00      1.00      1.00         8
weighted avg       1.00      1.00      1.00         8

