### Определение языка (language detection)

#### Скачаем немного википедии для тестов
Воспользуемся пакетом *wikipedia*:

`pip install wikipedia`

In [None]:
import wikipedia
import requests

In [2]:
import warnings
warnings.filterwarnings('ignore')

Проверим, какие вообще есть языки в википедии

In [3]:
code2lang = wikipedia.languages()

In [4]:
langs = code2lang.keys()
langs

dict_keys(['aa', 'ab', 'ace', 'ady', 'ady-cyrl', 'aeb', 'aeb-arab', 'aeb-latn', 'af', 'ak', 'aln', 'als', 'am', 'an', 'ang', 'anp', 'ar', 'arc', 'arn', 'arq', 'ary', 'arz', 'as', 'ase', 'ast', 'atj', 'av', 'avk', 'awa', 'ay', 'az', 'azb', 'ba', 'ban', 'bar', 'bat-smg', 'bbc', 'bbc-latn', 'bcc', 'bcl', 'be', 'be-tarask', 'be-x-old', 'bg', 'bgn', 'bh', 'bho', 'bi', 'bjn', 'bm', 'bn', 'bo', 'bpy', 'bqi', 'br', 'brh', 'bs', 'bto', 'bug', 'bxr', 'ca', 'cbk-zam', 'cdo', 'ce', 'ceb', 'ch', 'cho', 'chr', 'chy', 'ckb', 'co', 'cps', 'cr', 'crh', 'crh-cyrl', 'crh-latn', 'cs', 'csb', 'cu', 'cv', 'cy', 'da', 'de', 'de-at', 'de-ch', 'de-formal', 'din', 'diq', 'dsb', 'dtp', 'dty', 'dv', 'dz', 'ee', 'egl', 'el', 'eml', 'en', 'en-ca', 'en-gb', 'eo', 'es', 'es-formal', 'et', 'eu', 'ext', 'fa', 'ff', 'fi', 'fit', 'fiu-vro', 'fj', 'fo', 'fr', 'frc', 'frp', 'frr', 'fur', 'fy', 'ga', 'gag', 'gan', 'gan-hans', 'gan-hant', 'gcr', 'gd', 'gl', 'glk', 'gn', 'gom', 'gom-deva', 'gom-latn', 'gor', 'got', 'grc', 'gs

Выберем 7 из них:

In [5]:
langs = ['tyv', 'ru', 'be', 'es', 'en', 'udm', 'de']

In [6]:
def get_texts_for_lang(lang, n): # функция для скачивания статей из википедии
    wikipedia.set_lang(lang)
    wiki_content = []
    pages = wikipedia.random(n)
    
    for page_name in pages:
        try:
            page = wikipedia.page(page_name)
        
        except Exception as e:
            continue

        wiki_content.append('{}\n{}'.format(page.title, page.content.replace('==', '')))

    return wiki_content

In [7]:
wiki_texts = {}

for lang in langs:
    wiki_texts[lang] = get_texts_for_lang(lang, 100)
    print(lang, len(wiki_texts[lang]))

tyv 100
ru 90
be 94
es 96
en 95
udm 99
de 93


In [8]:
print(wiki_texts['udm'][5])

Вуж Тӥгырмен
Вуж Тӥгырмен (ӟуч нимыз Калашур) – Кияса ёрослэн удмурт гурт, интыяськемын ӝужыт гурезь бамалэ. Котырысь нюлэскын трос бoры, эмезь, губи.


In [9]:
print(wiki_texts['es'][0])

Anhalt-Bernburg-Schaumburg-Hoym
Anhalt-Bernburg-Schaumburg-Hoym (originalmente Anhalt-Zeitz-Hoym) fue un principado alemán y un miembro del Sacro Imperio Romano Germánico. La muerte del Príncipe Víctor Amadeo de Anhalt-Bernburg en 1718, resultó en la partición de sus territorios, heredando su segundo hijo Lebrecht lo que originalmente era conocido como Anhalt-Zeitz-Hoym.
En nombre del principado fue modificado en 1727 de Anhalt-Zeitz-Hoym a Anhalt-Bernburg-Schaumburg-Hoym.[1]​ La muerte del Príncipe Federico el 24 de diciembre de 1812 resultó en la extinción de la casa reinante y el territorios fue heredado por los príncipes de Anhalt-Bernburg.


 Príncipes de Anhalt-Zeitz-Hoym 1718-1727 
Lebrecht 1718-1727
Víctor I Amadeo Adolfo 1727
El nombre del Principado es modificado a Anhalt-Bernburg-Schaumburg-Hoym


 Príncipes de Anhalt-Bernburg-Schaumburg-Hoym 1727-1812 
Víctor I Amadeo Adolfo 1727-1772
Carlos Luis 1772-1806
Víctor II Carlos Federico 1806-1812
Federico 1812
A Anhalt-Bernburg


##### Очистка текстов

In [10]:
import re

In [11]:
def clean_data(data):
    data = data.lower()
    data = re.sub(r'[^\w\s]', '', data)
    data = re.sub('[0-9]+', '', data)
    data = re.sub(r'[\s]{2,}', ' ', data)

    return data

In [12]:
def tokenize(text):
    text = clean_data(text)
    
    return text.split(' ')

### Словарный метод

In [105]:
import codecs
import collections
import operator

Создадим частотный словарь:

In [106]:
freq_dict = {}

for lang in langs:
    freq_dict[lang] = collections.defaultdict(lambda: 0)
    for lang_text in wiki_texts[lang]:
        for word in tokenize(lang_text.replace('\n', '').lower()):
            freq_dict[lang][word] += 1

Определим абсолютную частотность каждого слова (частотность слова / частотность всех слов)

In [110]:
for lang in langs:
    for word in freq_dict[lang]:
        freq_dict[lang][word] = freq_dict[lang][word] / sum(freq_dict[lang].values())

In [111]:
for word in sorted(freq_dict['be'], key=lambda w: freq_dict['be'][w], reverse=True)[:20]:
    print('{}\t{}'.format(freq_dict['be'][word], word))

0.04664142530034972	будынкі
0.04536692357662455	куалалумпур
0.03965752235962006	менара
0.03505847230841297	самыя
0.031292453691956074	петронас
0.028164237176958498	вежы
0.02644421233470868	міжнародны
0.022101030530459965	малайзіі
0.021397732884657076	офісныя
0.02120472872100268	універсітэт
0.019731878310762962	трэцяя
0.01827746038525915	вежа
0.016998677372491867	тэлевізійная
0.015867133479555363	куалалумпурскі
0.014860057642654986	адкрыты
0.013959004924432701	медыцынскі
0.01314889639034022	ucsi
0.01241730003177646	ісламскі
0.011753885783848344	малаі
0.010096637258789037	klia


In [112]:
def predict_language(text, freq_dict):
    words_freq = {}
    
    test_text = tokenize(text)

    for lang in langs:
        i = 0
        for word in test_text:
            if word in freq_dict[lang]:
                i += freq_dict[lang][word]
                
        words_freq[lang] = i   
#     print(words_freq)
    
    return max(words_freq, key=words_freq.get)

In [113]:
predict_language('Welche Sprache ist das?', freq_dict)

'de'

In [114]:
predict_language('Какой это язык?', freq_dict)

'ru'

In [115]:
predict_language('¿Qué idioma es este?', freq_dict)

'es'

In [116]:
predict_language('What language is this?', freq_dict)

'en'

In [117]:
predict_language('Лэйкаса кадь лоба', freq_dict)

'udm'

In [118]:
predict_language('Які гэта мова?', freq_dict)

'be'

In [119]:
from sklearn.metrics import classification_report, confusion_matrix

In [121]:
true_labels = []
predicted_labels = []

for lang in langs:
    for text in wiki_texts[lang]:
        true_labels.append(lang)
        predicted_labels.append(predict_language(text, freq_dict))

print(classification_report(true_labels, predicted_labels))

             precision    recall  f1-score   support

         be       0.98      0.97      0.97        94
         de       0.99      0.99      0.99        93
         en       0.99      0.99      0.99        95
         es       0.99      0.98      0.98        96
         ru       0.93      0.93      0.93        90
        tyv       0.96      0.91      0.93       100
        udm       0.91      0.97      0.94        99

avg / total       0.96      0.96      0.96       667



In [122]:
print(confusion_matrix(true_labels, predicted_labels))

[[91  0  0  0  1  0  2]
 [ 0 92  0  1  0  0  0]
 [ 0  0 94  0  0  1  0]
 [ 0  1  0 94  0  1  0]
 [ 1  0  1  0 84  2  2]
 [ 0  0  0  0  3 91  6]
 [ 1  0  0  0  2  0 96]]


### Частотные символьные n-граммы

In [170]:
from itertools import islice, tee

Функция, которая преобразовывает строку в массив n-грамм заданной длины:

In [181]:
def make_ngrams(text):
    N = 3 # задаем длину n-граммы
    text = clean_data(text)
    ngrams = zip(*(islice(seq, index, None) for index, seq in enumerate(tee(text, N))))
    ngrams = [''.join(x) for x in ngrams]
    
    return ngrams

Далее -- аналогично первому методу.

In [172]:
freq_ngrams = {}

for lang in langs:
    freq_ngrams[lang] = collections.defaultdict(lambda: 0)
    for lang_text in wiki_texts[lang]:
        for word in make_ngrams(lang_text.replace('\n', '').lower()):
            freq_ngrams[lang][word] += 1

In [173]:
for lang in langs:
    for word in freq_ngrams[lang]:
        freq_ngrams[lang][word] = freq_ngrams[lang][word] / sum(freq_ngrams[lang].values())

In [174]:
for word in sorted(freq_ngrams['be'], key=lambda w: freq_ngrams['be'][w], reverse=True)[:20]:
    print('{}\t{}'.format(freq_ngrams['be'][word], word))

0.169863439220805	йзі
0.0962968477358236	фіс
0.08852668307057804	 оф
0.08187220761923117	цяя
0.07611484161010595	зій
0.07108859738186787	si 
0.06666538579300117	csi
0.0627449276704814	ucs
0.06193095967164124	йму
0.05924768854240502	 uc
0.05610984052613308	т u
0.05334489065943288	шоу
0.053279610052401165	kli
0.050714590012080896	 kl
0.05070059134253627	оу 
0.04879794333453714	ump
0.04657796803227206	lum
0.04080379508390425	ʊr 
0.039264559485277614	pʊr
0.037835184882437735	mpʊ


In [175]:
def predict_language_ngrams(text, freq_ngrams):
    words_freq_ngrams = {}
    
    test_text_ngrams = make_ngrams(text)

    for lang in langs:
        i = 0
        for word in test_text_ngrams:
            if word in freq_ngrams[lang]:
                i += freq_ngrams[lang][word]
                
        words_freq_ngrams[lang] = i   
    
    return max(words_freq_ngrams, key=words_freq_ngrams.get)

In [176]:
predict_language_ngrams('What language is this?', freq_ngrams)

'en'

In [177]:
predict_language_ngrams('¿Qué idioma es este?', freq_ngrams)

'es'

In [178]:
predict_language_ngrams('Ich wohne in Moskau.', freq_ngrams)

'de'

In [179]:
true_labels = []
predicted_labels = []

for lang in langs:
    for text in wiki_texts[lang]:
        true_labels.append(lang)
        predicted_labels.append(predict_language_ngrams(text, freq_ngrams))

print(classification_report(true_labels, predicted_labels))

             precision    recall  f1-score   support

         be       0.96      0.99      0.97        94
         de       0.98      1.00      0.99        93
         en       0.98      1.00      0.99        95
         es       0.96      0.99      0.97        96
         ru       0.90      0.97      0.93        90
        tyv       0.98      0.95      0.96       100
        udm       0.95      0.82      0.88        99

avg / total       0.96      0.96      0.96       667



In [180]:
print(confusion_matrix(true_labels, predicted_labels))

[[93  0  0  0  1  0  0]
 [ 0 93  0  0  0  0  0]
 [ 0  0 95  0  0  0  0]
 [ 0  0  0 95  0  0  1]
 [ 1  0  0  1 87  0  1]
 [ 0  0  0  0  3 95  2]
 [ 3  2  2  3  6  2 81]]


##### Вариант с семинара (работает лучше)

In [182]:
from collections import Counter

In [183]:
# посчитаем частотность нграммов
lang2char_ngrams_freqs = collections.defaultdict(Counter)

for lang in langs:
    for text in wiki_texts[lang]:
        char_ngrams = make_ngrams(text)
        lang2char_ngrams_freqs[lang].update(char_ngrams)

lang2char_ngrams = {}
for lang in lang2char_ngrams_freqs:
    topn = [word for word, freq in lang2char_ngrams_freqs[lang].most_common(500)] # с топ-300 качество хуже
    lang2char_ngrams[lang] = set(topn)

In [184]:
def predict_language_ngrams(text, lang2char):
    text_ngrams = make_ngrams(text)
    
    lang2sim = {}
    
    for lang in lang2char:
        intersect = len(set(text_ngrams) & lang2char[lang])
        lang2sim[lang] = intersect
    
    return max(lang2sim, key=lambda x: lang2sim[x])

In [185]:
true_labels = []
predicted_labels = []

for lang in langs:
    for text in wiki_texts[lang]:
        true_labels.append(lang)
        predicted_labels.append(predict_language_ngrams(text, lang2char_ngrams))

In [186]:
print(classification_report(true_labels, predicted_labels))

             precision    recall  f1-score   support

         be       1.00      1.00      1.00        94
         de       1.00      1.00      1.00        93
         en       0.98      1.00      0.99        95
         es       0.97      1.00      0.98        96
         ru       0.91      0.99      0.95        90
        tyv       0.98      0.93      0.95       100
        udm       1.00      0.92      0.96        99

avg / total       0.98      0.98      0.98       667



In [187]:
print(confusion_matrix(true_labels, predicted_labels))

[[94  0  0  0  0  0  0]
 [ 0 93  0  0  0  0  0]
 [ 0  0 95  0  0  0  0]
 [ 0  0  0 96  0  0  0]
 [ 0  0  1  0 89  0  0]
 [ 0  0  0  1  6 93  0]
 [ 0  0  1  2  3  2 91]]


**В целом**, получаем, что оба алгоритма на данном наборе языков работают неплохо, однако метод с n-граммами оказывается лучше (особенно для некоторых из выбранных языков).