# Искусственный интеллект 2021. Demo ML. Языки

Все задания заключительный этап Олимпиады делятся на два типа:
1. **(a) (первого типа) задание** на математические основы искусственного интеллекта, где требуется отправить решение в виде короткой программы на платформе Яндекс.Контест (таких заданий 5, и на решение их всех выделено 2 часа)
2. **(b) (второго типа) задание**, требующее решения конкретной практической задачи, связанной с применением методов искусственного интеллекта. (таких заданий 3, и на решение их всех выделено 4 часа)


Посмотреть демоверсии заключительного этапа IV сезона "Я-профессионал" можно по ссылке:
https://yandex.ru/profi/archive

Также там можно найти решения к задачам заключительного этапа и другие материалы для подготовки.

## **A. Языки**

Вам дан датасет с предложениями на разных языках Европы: по 15000 предложений на каждом из 20 языков из списка: bg,cs,da,de,el,es,et,ﬁ,fr,hu,it,lt,lv,nl,pl,pt,ro,sk,sl,sv.

**Ваша цель:** научиться распознавать по слову его язык.

Метрика качества **accuracy** — доля слов, у которых правильно определен язык среди всех слов.

## Создание и загрузка данных

In [1]:
import pandas as pd
import os

In [2]:
path = "data"
files = os.listdir(path)
files

['test',
 'test_data.csv',
 'train_bg',
 'train_cs',
 'train_da',
 'train_de',
 'train_el',
 'train_es',
 'train_et',
 'train_fi',
 'train_fr',
 'train_hu',
 'train_it',
 'train_lt',
 'train_lv',
 'train_nl',
 'train_pl',
 'train_pt',
 'train_ro',
 'train_sk',
 'train_sl',
 'train_sv']

Так как у нас 20 файлов в которых находятся предложения на 20 различных языках, в первую очередь нужно как то объедининть все данные и создать размеченную выборку для обучения.

In [3]:
sentences = {'train_bg': [], 'train_cs': [], 'train_da': [], 'train_de': [], 'train_el': [], 'train_es': [], 'train_et': [],
             'train_fi': [], 'train_fr': [], 'train_hu': [], 'train_it': [], 'train_lt': [], 'train_lv': [], 'train_nl': [],
             'train_pl': [], 'train_pt': [], 'train_ro': [], 'train_sk': [], 'train_sl': [], 'train_sv': [], 'test': [],
             'test_data.csv': []}

for i in range(len(files)):
    file = files[i]
    with open(path + '\\' + file, "r", encoding='utf-8') as f:
        for line in f.readlines():
            sentences[file].append(line)
            
sentences['train_bg']

['Внасяне на документи: вж. протоколи\n',
 'Дневен ред на следващото заседание: вж. протоколи\n',
 'Dichiaro interrotta la sessione del Parlamento europeo.\n',
 'Искане за защита на парламентарен имунитет: вж. протокола\n',
 'Изпращане на текстове на споразумения от Съвета: вж. протоколи\n',
 'Внасяне на документи: вж. протоколи\n',
 'Състав на комисиите и делегациите: вж. протоколи\n',
 'Закриване на заседанието\n',
 'Съобщение на председателството: вж. протокола\n',
 'Закриване на заседанието\n',
 'Състав на Парламента: вж. протоколи\n',
 "L'Heure des votes est terminée.\n",
 'Решения относно някои документи: вж. протоколи\n',
 'Одобряване на протокола от предишното заседание: вж протоколите\n',
 'Действия, предприети вследствие резолюции на Парламента: вж. протокола\n',
 '- Relazione: Graefe zu Baringdorf\n',
 '- Relazione: Speroni\n',
 '- Relazione: Herczog\n',
 '- Relazione: Herczog\n',
 '- Relazione: Andrejevs\n',
 'Поправки и намерения за гласуване: вж. протоколи\n',
 'Дневен ре

In [4]:
import re

train = pd.DataFrame(columns=['text', 'language'])

for file_name in sentences:
    if re.findall('train', file_name):
        tmp = pd.DataFrame()
        tmp['text'] = sentences[file_name]
        tmp['language'] = file_name.split('train_')[1]
        train = pd.concat([train, tmp], ignore_index=True)

train

Unnamed: 0,text,language
0,Внасяне на документи: вж. протоколи\n,bg
1,Дневен ред на следващото заседание: вж. проток...,bg
2,Dichiaro interrotta la sessione del Parlamento...,bg
3,Искане за защита на парламентарен имунитет: вж...,bg
4,Изпращане на текстове на споразумения от Съвет...,bg
...,...,...
299995,Det program som har lagts fram i dag tyder i a...,sv
299996,I synnerhet gläder jag mig åt att frågorna om ...,sv
299997,Jag skulle vilja koncentrera mig på en av huvu...,sv
299998,Men det behövs mer än så.\n,sv


In [5]:
sentences['test_data.csv'] = sentences['test_data.csv'][1:]
sentences['test_data.csv']

['0,szállítanak \n',
 '1,pracovni \n',
 '2,fašisti \n',
 '3,passer \n',
 '4,culpabilização\n',
 '5,dobjunk \n',
 '6,pornografía\n',
 '7,artefakt \n',
 '8,šifro \n',
 '9,fastrar \n',
 '10,eelnev \n',
 '11,cinquentinha\n',
 '12,oblecích \n',
 '13,marmoriseront\n',
 '14,urleranno \n',
 '15,квадратна \n',
 '16,maksuamet \n',
 '17,hillvalijā \n',
 '18,escroto\n',
 '19,odaadjuk \n',
 '20,députerons\n',
 '21,πλέει \n',
 '22,mielött \n',
 '23,esküdtszék \n',
 '24,medije \n',
 '25,окачването \n',
 '26,kameňoch \n',
 '27,colonişti \n',
 '28,jašterica \n',
 '29,échanfreineras\n',
 '30,švieži \n',
 '31,rapit \n',
 '32,kanot \n',
 '33,nancy \n',
 '34,etulle\n',
 '35,esquiar\n',
 '36,klarsynet \n',
 '37,häijy \n',
 '38,ofereau \n',
 '39,allergieën \n',
 '40,eparar\n',
 '41,beatrix \n',
 '42,goldbergai \n',
 '43,offrens \n',
 '44,altadata \n',
 '45,kuolemantuomiota \n',
 '46,rebib \n',
 '47,znebiti \n',
 '48,farerne \n',
 '49,bénulás \n',
 '50,πιγκουίνοι \n',
 '51,descrii \n',
 '52,žēlums \n',
 '53,i

In [6]:
test = pd.DataFrame(sentences['test_data.csv'], columns=['text'])
test

Unnamed: 0,text
0,"0,szállítanak \n"
1,"1,pracovni \n"
2,"2,fašisti \n"
3,"3,passer \n"
4,"4,culpabilização\n"
...,...
8515,"8515,middags \n"
8516,"8516,tunnetega \n"
8517,"8517,tocassem\n"
8518,"8518,urale \n"


In [7]:
# # Обработка и загрузка тестового набора данных

# test = pd.DataFrame(columns=['text'])
# tmp = []

# for word in sentences['test']:
#     tmp.append(word.split(' ')[1].split('\n')[0])

# test['text'] = tmp
# test

## Внешний модуль для определения языка

In [8]:
# !pip install langid

In [9]:
# import langid
# langid.classify("Toppmötet i Feira, mitt sista exempel")

In [10]:
# l = []
# for index, row in test.iterrows():
#     l.append(langid.classify(row['text'])[0])

# test['lang'] = l
# test = test.reset_index()

In [11]:
# test

In [12]:
# # Как сохранить ответы в нужном формате
# from google.colab import files 

# f = open('submition_v12', 'w')
# for index, row in test.iterrows():
#     f.write(str(row['index']) + ' ' + row['lang'] + '\n')
# f.close()

# files.download("submition_v12")

## Обработка текста

Любой рабочий процесс анализа текстовых данных начинается с их предварительной обработки и очистки текста. 

**Рассмотрим стандартный конвейер (pipeline) предобработки:**

- удаление знаков препинания, лишних и спец символов
- приведение к одному регистру
- токенизировать текст – разбить текст на предложения, слова и другие единицы;
- удалить стоп-слова;
- привести слова к нормальной форме;
- векторизовать тексты – сделать числовые представления текстов для их дальнейшей обработки классификатором.

Все эти шаги служат для уменьшения шума, присущего любому обычному тексту, и повышения точности результатов классификатора. Для решения указанных задач есть несколько отличных библиотек, например, NLTK, TextBlob и spaCy, pymorphy.

**Посмотрев на разные предложения и исходя из задачи можно сделать следующие выводы:**
- знаки препенания не зависят от языка (точка что в английском, что в русском) - значит можно удалить все знаки препинания
- стоп-слова могут иметь значения в данной задаче

In [13]:
# перемешаем данные
train = train.sample(frac=1).reset_index(drop=True)
train

Unnamed: 0,text,language
0,Több létfontosságú eleme van ennek a politikán...,hu
1,To ostatnie sprawozdanie Parlamentu Europejski...,pl
2,Najednou na zabezpečení potravin záleží.\n,cs
3,Consider că statul de drept impune că accesul ...,ro
4,"Wydaje się też, że coraz więcej obywateli Turc...",pl
...,...,...
299995,"Ik wil kort nog een verder aspect aanstippen, ...",nl
299996,"Hr. formand, ærede Kommission, ærede kolleger,...",da
299997,"Kot veste, smo bili pred nekaj meseci preseneč...",sl
299998,"Hr. formand, denne betænkning er ikke det sids...",da


In [14]:
train_small = train.iloc[:1000, :]
print(f'Shape {train_small.shape}')
print(f"Value counts")
train_small['language'].value_counts(sort=True)

Shape (1000, 2)
Value counts


ro    57
et    57
es    57
sv    57
sl    56
da    55
de    55
hu    52
nl    52
fi    50
lv    49
bg    49
fr    48
lt    48
el    47
sk    45
it    44
cs    43
pt    42
pl    37
Name: language, dtype: int64

In [15]:
%%time

from string import punctuation

# import nltk
# nltk.download("stopwords")
# from nltk.corpus import stopwords
# russian_stopwords = stopwords.words("russian")

def txt_split(text):
    return text.split(' ')

def space_split(df):
    
    df['text'] = df['text'].map(lambda x: txt_split(x))
        
    df_res = pd.DataFrame()

    for index in range(len(df['text'])):
        tmp = pd.DataFrame()
        tmp['text'] = df['text'][index]
        tmp['language'] = df['language'][index]
        df_res = pd.concat([df_res, tmp], ignore_index=True)
    
    return df_res


def remove_punct(text):
    # удаление пунктуации в тексте
    table = {33: '', 34: '', 35: '', 36: '', 37: '', 38: '', 39: '', 40: '', 41: '', 42: '',
             43: '', 44: '', 45: '', 46: '', 47: '', 58: '', 59: '', 60: '', 61: '', 62: '',
             63: '', 64: '', 91: '', 92: '', 93: '', 94: '', 95: '', 96: '', 123: '', 124: '', 
             125: '', 126: '', 187: '', 171: '', 8221: '', 8226: '', 8470: ''}
    
    text = text.translate(table)
    
    if text[0] == ' ':
        text = text[1:]
        
    if text[len(text) - 1] == ' ':
        text = text[:len(text) - 2]
    
    return text

def txt_prep(df):
    # функция приводит весь текст к нижнему регистру
    # удаляет пунктуацию
    df['initial_text'] = df['text']
    df['text'] = df['text'].str.lower()
    df['text'] = df['text'].map(lambda x: remove_punct(x))
    df['text'] = df['text'].str.replace('\n', '')
    df['text'] = df['text'].str.replace(r"\d+", "", flags=re.UNICODE)

    return df


test = txt_prep(test)
train_small = txt_prep(train_small)

train_small = space_split(train_small)
train_small

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user

Wall time: 1.57 s


Unnamed: 0,text,language
0,több,hu
1,létfontosságú,hu
2,eleme,hu
3,van,hu
4,ennek,hu
...,...,...
22720,növényvédő,hu
22721,szerek,hu
22722,fenntartható,hu
22723,használatának,hu


In [16]:
test = test.drop(['initial_text'], axis=1)

In [17]:
test

Unnamed: 0,text
0,szállítanak
1,pracovni
2,fašisti
3,passer
4,culpabilização
...,...
8515,middags
8516,tunnetega
8517,tocassem
8518,urale


In [18]:
print(f'Shape {train_small.shape}')
print(f"Value counts")
train_small['language'].value_counts(sort=True)

Shape (22725, 2)
Value counts


es    1639
ro    1532
fr    1401
nl    1307
de    1304
sv    1289
da    1213
hu    1142
pt    1140
bg    1132
el    1129
it    1070
sl    1029
sk    1008
cs     996
et     978
fi     948
lv     900
lt     854
pl     714
Name: language, dtype: int64

In [19]:
# train_small.loc[50, 'initial_text']

In [20]:
# train_small.loc[50, 'text']

Можно дальше пытаться отформатировать строки

В данной задаче мы решаем с Вами задачу мультиклассовой классификации (20 языков - 20 классов).
Но все классы представлены в виде категориальной переменной - закодируем ее с помощью `LabelEncoder()`.

При этом необходимо сохранить словарь для обратного преобразования.

In [21]:
# from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder

label_encoder = LabelEncoder()

label_encoder.fit(train_small['language']) 
train_small['language'] = label_encoder.transform(train_small['language']) 

mapping = dict(zip(label_encoder.classes_, range(len(label_encoder.classes_))))

mapping

{'bg': 0,
 'cs': 1,
 'da': 2,
 'de': 3,
 'el': 4,
 'es': 5,
 'et': 6,
 'fi': 7,
 'fr': 8,
 'hu': 9,
 'it': 10,
 'lt': 11,
 'lv': 12,
 'nl': 13,
 'pl': 14,
 'pt': 15,
 'ro': 16,
 'sk': 17,
 'sl': 18,
 'sv': 19}

In [22]:
# mapping
inverse_dict = dict([val,key] for key,val in mapping.items())
inverse_dict

{0: 'bg',
 1: 'cs',
 2: 'da',
 3: 'de',
 4: 'el',
 5: 'es',
 6: 'et',
 7: 'fi',
 8: 'fr',
 9: 'hu',
 10: 'it',
 11: 'lt',
 12: 'lv',
 13: 'nl',
 14: 'pl',
 15: 'pt',
 16: 'ro',
 17: 'sk',
 18: 'sl',
 19: 'sv'}

## Обучение и подбор модели

In [23]:
# # перемещаем данные
# train = train.sample(frac=1).reset_index(drop=True)
# train

In [24]:
# train['language'].value_counts()

In [25]:
# train_small = train.iloc[:25000, :]
# print(f'Shape {train_small.shape}')
# print(f"Value counts")
# train_small['language'].value_counts(sort=True)

In [26]:
# train_small

In [27]:
# Выделим векотр признаков, вектор целевой переменной
# X = train_small.drop(['language', 'initial_text'], axis=1)
# y = train_small['language']

X = train_small.drop(['language'], axis=1)
y = train_small['language']

X

Unnamed: 0,text
0,több
1,létfontosságú
2,eleme
3,van
4,ennek
...,...
22720,növényvédő
22721,szerek
22722,fenntartható
22723,használatának


In [28]:
y

0        9
1        9
2        9
3        9
4        9
        ..
22720    9
22721    9
22722    9
22723    9
22724    9
Name: language, Length: 22725, dtype: int32

**Векторизация текста**

Text representation
We have various options:

- Count Vectors as features
- TF-IDF Vectors as features
- Word Embeddings as features
- Text/NLP based features
- Topic Models as features

##############
- Word2Vec
- FastText

Полезные сслыки:

https://habr.com/ru/company/ods/blog/329410/

https://dataaspirant.com/word-embedding-techniques-nlp/


In [29]:
# # Count Vectors as features
# 0 - 'мама мыла раму'
# 1 - 'петя пошел гулять и пошел в магазин'

#     мама | мыла | раму | петя | пошел | гулять | и | в | магазин
# 0     1     1      1      0      0        0      0   0      0
# 1     0     0      0      1      2        1      1   1      1

In [30]:
# 1. Словные n-gram

# Мама мыла раму - 2-gram
# мама мыла   |   мыла раму

# 2. Символьные n-gram 

# Радуга - 2-gram:
# ра      ад      ду      уг      га

In [31]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X['text'].values, y, test_size=0.33, random_state=42)

vectorizer = CountVectorizer(ngram_range=(3,3), analyzer='char', max_features=10000) 

X_train_vector = vectorizer.fit_transform(X_train).toarray()
X_test_vector = vectorizer.transform(X_test).toarray()

In [32]:
print(f'X train shape: {X_train.shape}')
print(f'X test shape: {X_test.shape}')

X train shape: (15225,)
X test shape: (7500,)


In [33]:
# чисто для наглядности как работает CountVectorizer
count_vect_df = pd.DataFrame(X_train_vector, columns=vectorizer.get_feature_names())
count_vect_df



Unnamed: 0,aab,aad,aaf,aag,aai,aaj,aak,aal,aam,aan,...,ядн,язв,яма,яме,яна,ясн,ята,яте,ятн,ято
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15220,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
15221,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
15222,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
15223,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [34]:
%%time
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report

clf = RandomForestClassifier(n_estimators=100)

clf.fit(X_train_vector, y_train)

y_pred = clf.predict(X_test_vector)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      0.61      0.76       384
           1       0.61      0.42      0.50       323
           2       0.51      0.43      0.47       403
           3       0.71      0.68      0.70       455
           4       0.99      0.74      0.85       370
           5       0.18      0.69      0.29       583
           6       0.64      0.54      0.59       304
           7       0.78      0.50      0.61       354
           8       0.61      0.46      0.53       468
           9       0.82      0.61      0.70       371
          10       0.48      0.39      0.43       322
          11       0.66      0.53      0.59       277
          12       0.62      0.48      0.54       283
          13       0.58      0.56      0.57       385
          14       0.66      0.48      0.56       229
          15       0.43      0.31      0.36       350
          16       0.66      0.44      0.53       519
          17       0.57    

In [35]:
%%time
test_vector = vectorizer.transform(test['text']).toarray()
y_pred_lang = clf.predict(test_vector)
y_pred_lang

Wall time: 4.35 s


array([ 9, 17,  3, ..., 15, 17,  3])

In [36]:
print(test.shape)
print(y_pred_lang.shape)

(8520, 1)
(8520,)


In [37]:
# Формуется ответ ответ в нужном виде
test_pred = pd.DataFrame(y_pred_lang, columns=['lang_samp'])
test_pred.reset_index(inplace=True)

test_pred['lang_samp'] = test_pred['lang_samp'].map(inverse_dict).fillna(test_pred['lang_samp'])
test_pred

Unnamed: 0,index,lang_samp
0,0,hu
1,1,sk
2,2,de
3,3,fr
4,4,pt
...,...,...
8515,8515,et
8516,8516,sl
8517,8517,pt
8518,8518,sk


In [38]:
test_pred.to_csv('submition_v3.csv', index=False)

In [34]:
# f = open('submition_v1', 'w')
# for index, row in test_pred.iterrows():
#     f.write(str(row['index']) + ' ' + row['language'] + '\n')
# f.close()