In [1]:
import numpy as np
import pandas as pd
import random
import os
import matplotlib
import matplotlib.pyplot as plt
from nltk.util import ngrams # function for making ngrams
import re
from numpy import sort
from matplotlib import pyplot
from sklearn.metrics import accuracy_score
%matplotlib inline

In [2]:
from sklearn import preprocessing
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.feature_selection import SelectFromModel
import keras
from keras.models import Sequential
from keras.layers import Dense
from keras.layers import Dropout
import keras.optimizers

  from ._conv import register_converters as _register_converters
Using TensorFlow backend.


</p>
0 - русский
1 - белорусский
2 - украинский
3 - болгарский
4 - македонский
5 - сербский
<p>

In [3]:
languages_dict = {'ru' : 0, 'be' : 1, 'uk' : 2, 'bg' : 3, 'mk' : 4, 'sr' : 5}
text_sample_size = 20
num_lang_samples = 25000

def id2lang(id):
    for i, key in languages_dict.items():
        if key == id:
            return i
def size_mb(size):
    size_mb =  '{:.2f}'.format(size/(1000*1000.0))
    return size_mb + " MB"

In [4]:
def define_alphabet():
    slav = 'абвгдежзклмнопрстуфхцчш'
    rus  = 'ёийщъыьэюя'
    bel  = 'ёійўыьэюя'
    uk   = 'ґєиіїйщьюя'
    bul  = 'ийщъьюя'
    mac  = 'ѓѕијљњќџ'
    srp  = 'ђијљњћџ'
    
    all_lang_chars = slav + rus + bel + uk + bul + mac + srp
    small_chars = list(set(list(all_lang_chars)))
    small_chars.sort() 
    big_chars = list(set(list(all_lang_chars.upper())))
    big_chars.sort()
    letters_string = ''
    letters = small_chars + big_chars
    for letter in letters:
        letters_string += letter
    return small_chars,big_chars,letters_string

In [5]:
alphabet = define_alphabet()
print(alphabet)

(['а', 'б', 'в', 'г', 'д', 'е', 'ж', 'з', 'и', 'й', 'к', 'л', 'м', 'н', 'о', 'п', 'р', 'с', 'т', 'у', 'ф', 'х', 'ц', 'ч', 'ш', 'щ', 'ъ', 'ы', 'ь', 'э', 'ю', 'я', 'ё', 'ђ', 'ѓ', 'є', 'ѕ', 'і', 'ї', 'ј', 'љ', 'њ', 'ћ', 'ќ', 'ў', 'џ', 'ґ'], ['Ё', 'Ђ', 'Ѓ', 'Є', 'Ѕ', 'І', 'Ї', 'Ј', 'Љ', 'Њ', 'Ћ', 'Ќ', 'Ў', 'Џ', 'А', 'Б', 'В', 'Г', 'Д', 'Е', 'Ж', 'З', 'И', 'Й', 'К', 'Л', 'М', 'Н', 'О', 'П', 'Р', 'С', 'Т', 'У', 'Ф', 'Х', 'Ц', 'Ч', 'Ш', 'Щ', 'Ъ', 'Ы', 'Ь', 'Э', 'Ю', 'Я', 'Ґ'], 'абвгдежзийклмнопрстуфхцчшщъыьэюяёђѓєѕіїјљњћќўџґЁЂЃЄЅІЇЈЉЊЋЌЎЏАБВГДЕЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯҐ')


In [6]:
def get_sample_text(file_content,start_index,sample_size):
    end_index = start_index+sample_size
    return file_content[start_index:end_index]

def count_chars(text,alphabet):
    alphabet_counts = []
    for letter in alphabet:
        count = text.count(letter)
        alphabet_counts.append(count)
    return alphabet_counts

def get_input_row(content,start_index,sample_size):
    sample_text = get_sample_text(content,start_index,sample_size)
    for i in sample_text.split():
        sample_text += " " + i[-3:] + " " + i[-2:] + " " + i[-1:] 
    counted_chars_all = count_chars(sample_text.lower(),alphabet[0])
    counted_chars_big = count_chars(sample_text,alphabet[1])
    all_parts = counted_chars_all + counted_chars_big
    return all_parts

def get_for_pred_row(content):
    counted_chars_all = count_chars(sample_text.lower(),alphabet[0])
    counted_chars_big = count_chars(sample_text,alphabet[1])
    all_parts = counted_chars_all + counted_chars_big
    return all_parts

In [7]:
def create_dataset():
    for lang_code in languages_dict:
        X = pd.DataFrame(columns=['language', 'text'])
        path = os.path.join("./wikipedia-crawler/",  lang_code+"_clean.txt")
        with open(path, 'r', encoding = "utf-8") as f:
            for line in f:
                n = random.randrange(3, 6)
                a = list(ngrams(line.split(), n))
                lst = a[random.randrange(0, len(a))]
                if all(word.isalpha() for word in lst):
                    X = X.append({'language' : languages_dict[lang_code], 'text' : ' '.join(lst)}, ignore_index=True)
        X.to_csv(lang_code + '.csv', encoding='utf-8', index=False)

In [7]:
ru = pd.read_csv('./data/ru.csv')
be = pd.read_csv('./data/be.csv')
uk = pd.read_csv('./data/uk.csv')
bg = pd.read_csv('./data/bg.csv')
mk = pd.read_csv('./data/mk.csv')
sr = pd.read_csv('./data/sr.csv')

In [8]:
df = ru.head(5000)
df = df.append(be.head(5000))
df = df.append(uk.head(5000))
df = df.append(bg.head(5000))
df = df.append(mk.head(5000))
df = df.append(sr.head(5000))

In [9]:
df_test = pd.read_csv('./data/task2-dev.csv')

In [10]:
from sklearn.feature_extraction.text import TfidfVectorizer
import xgboost as xgb

In [11]:
Y_train = df['language']
Y_test  = df_test['language']

In [12]:
n = df.shape[0]
vec = TfidfVectorizer(ngram_range=(1,3), analyzer='char',
                      use_idf=1, smooth_idf=1, sublinear_tf=1)
X_train = vec.fit_transform(df['text'])
X_test  = vec.transform(df_test['text']) 

In [13]:
# select features using threshold
clf = xgb.XGBClassifier()
clf.fit(X_train, Y_train)

thresholds = sort(clf.feature_importances_)

In [14]:
thresh = thresholds[15100]

In [15]:
thresh

0.00029489826

In [23]:
selection = SelectFromModel(clf, threshold=thresh, prefit=True)
best_parameters = {
    'max_depth': 9
}
select_X_train = selection.transform(X_train)
selection_model = xgb.XGBClassifier(**best_parameters)
selection_model.fit(select_X_train, Y_train)
select_X_test = selection.transform(X_test)

y_pred = selection_model.predict(select_X_test)
predictions = [round(value) for value in y_pred]
accuracy = accuracy_score(Y_test, y_pred)
print("Thresh=%.3f, n=%d, Accuracy: %.2f%%" % (thresh, select_X_train.shape[1], accuracy*100.0))

Thresh=0.000, n=426, Accuracy: 93.67%


  if diff:


In [265]:

selection_model = xgb.XGBClassifier(**best_parameters)
selection_model.fit(select_X_train, Y_train)
y_pred = selection_model.predict(select_X_test)
print(accuracy_score(Y_test, y_pred))

0.9366666666666666


  if diff:


In [17]:
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier, GradientBoostingClassifier, ExtraTreesClassifier, VotingClassifier
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.neural_network import MLPClassifier
from sklearn.svm import SVC
from sklearn.model_selection import GridSearchCV, cross_val_score, StratifiedKFold, learning_curve

  from numpy.core.umath_tests import inner1d


In [33]:
kfold = StratifiedKFold(n_splits=10)

In [None]:
ex_params = {
    'random_state': 91
}

In [145]:
rfc_params = {
    'random_state': 93,
    'n_estimators': 40
}

In [147]:
clf1 = AdaBoostClassifier()
clf1.fit(select_X_train, Y_train)
y_pred = clf1.predict(select_X_test)
print(accuracy_score(Y_test, y_pred))

0.795


In [148]:
clf  = selection_model
#clf1 = AdaBoostClassifier()
clf2 = RandomForestClassifier(**rfc_params)
clf3 = ExtraTreesClassifier(**ex_params)

In [149]:
votingC = VotingClassifier(estimators=[('rfc', clf2), ('extc', clf3),
('xgb', clf)], voting='soft', n_jobs=4)

votingC = votingC.fit(select_X_train, Y_train)

In [150]:
y_pred = votingC.predict(select_X_test)

  if diff:


In [151]:
print(accuracy_score(Y_test, y_pred))

0.9333333333333333


0.795


In [152]:
ans = 0
for i in range(len(Y_test)):
    if Y_test[i] == y_pred[i]:
        ans += 1
    else:
        print(df_test.values[i], y_pred[i])
print(ans / len(Y_test))

[0 'Эта победа стала первой для'] 1
[0 'Кайл, Картман и Баттерс крадут'] 3
[0 'Несмотря на успехи'] 3
[0 'На вопрос Натана'] 4
[0 'Натан замечает, что «Рой» избегает'] 3
[0 'Маликов заявляет, что кто-то активировал'] 3
[0 'Натан бежит за Дедалом'] 4
[0 'Дно чаши кратера заполнено через'] 3
[1 'З-за таго, што імя Басараба'] 2
[1 'Атлас охотника и рыболова Витебская'] 0
[1 'Вася Атанасова Уикипедия е своеобразно'] 3
[1 '«На втората си годишнина Българската'] 3
[1 'На той момант ён ужо'] 0
[2 'Славомир зазнав поразки й його'] 0
[2 '«Festival della Canzone Napoletana» '] 1
[3 'За капак той трябва да'] 1
[3 'Статут на град получава през'] 4
[3 'Консул Гай Семпроний Тудицан навлиза'] 0
[3 'Той успешно действа срещу племената'] 0
[3 'Баща му иконом Стамат Пачаджиев'] 0
[3 'На петнадесет години влиза в'] 4
[3 'Той е горчиво разочарован от'] 0
[4 'Драган Цанков и Никола Сапунов'] 3
[4 'За време на своето заточение'] 3
[4 'Бурназовски Тодоров Киро-Бурназ е роден'] 0
[4 'По се изгледа тие не'] 3


In [267]:
ans = 0
for i in range(len(Y_test)):
    if Y_test[i] == y_pred[i]:
        ans += 1
    else:
        print(df_test.values[i], y_pred[i])

[0 'Эта победа стала первой для'] 1
[0 'Кайл, Картман и Баттерс крадут'] 3
[0 'Несмотря на успехи'] 3
[0 'На вопрос Натана'] 4
[0 'Натан замечает, что «Рой» избегает'] 3
[0 'Маликов заявляет, что кто-то активировал'] 3
[0 'Натан бежит за Дедалом'] 3
[0 'Дно чаши кратера заполнено через'] 4
[1 'З-за таго, што імя Басараба'] 2
[1 'Атлас охотника и рыболова Витебская'] 0
[1 'Вася Атанасова Уикипедия е своеобразно'] 3
[1 '«На втората си годишнина Българската'] 3
[1 'На той момант ён ужо'] 0
[2 '«Festival della Canzone Napoletana» '] 1
[3 'Консул Гай Семпроний Тудицан навлиза'] 0
[3 'Той успешно действа срещу племената'] 0
[3 'Баща му иконом Стамат Пачаджиев'] 0
[3 'По времето на Шестата офанзива'] 4
[4 'Населените места Кивиоли'] 3
[4 'Селото има поледелко-шумарска функција Северно'] 5
[4 'Драган Цанков и Никола Сапунов'] 0
[4 'Амбасадорот Лобанов-Ростoвски им наредил на'] 0
[4 'Бурназовски Тодоров Киро-Бурназ е роден'] 0
[4 'По се изгледа тие не'] 3
[4 'Денес Отава е значаен културен'] 3
