# Искусственный интеллект 2021. Demo ML. Языки

Все задания заключительный этап Олимпиады делятся на два типа:
1. **(a) (первого типа) задание** на математические основы искусственного интеллекта, где требуется отправить решение в виде короткой программы на платформе Яндекс.Контест (таких заданий 5, и на решение их всех выделено 2 часа)
2. **(b) (второго типа) задание**, требующее решения конкретной практической задачи, связанной с применением методов искусственного интеллекта. (таких заданий 3, и на решение их всех выделено 4 часа)


Посмотреть демоверсии заключительного этапа IV сезона "Я-профессионал" можно по ссылке:
https://yandex.ru/profi/archive

Также там можно найти решения к задачам заключительного этапа и другие материалы для подготовки.

## **A. Языки**

Вам дан датасет с предложениями на разных языках Европы: по 15000 предложений на каждом из 20 языков из списка: bg,cs,da,de,el,es,et,ﬁ,fr,hu,it,lt,lv,nl,pl,pt,ro,sk,sl,sv.

**Ваша цель:** научиться распознавать по слову его язык.

Метрика качества **accuracy** — доля слов, у которых правильно определен язык среди всех слов.

In [None]:
# Позволяет монтировать гугл-диск в colab
# и получить доступ к папкам и файлам на гугл-диске
from google.colab import drive
drive.mount('/content/gdrive')

Mounted at /content/gdrive


Модуль **os** из стандартной библиотеки языка программирования Python обычно используется для работы с установленной ОС, а также файловой системой ПК. Он содержит массу полезных методов для взаимодействия с файлами и папками на жестком диске. Программы, работающие с модулем os, не зависят от типа ОС и являются легко переносимыми на другую платформу.

In [None]:
import re
import pandas as pd
import os

url = os.chdir(r"./gdrive/MyDrive/Я-профи подготовка по машинному обучению/Языки/data")
os.getcwd()

'/content/gdrive/MyDrive/Я-профи подготовка по машинному обучению/Языки/data'

# Создание и загрузка данных

In [None]:
os.getcwd()

'/content/gdrive/MyDrive/Я-профи подготовка по машинному обучению/Языки/data'

In [None]:
files = os.listdir(url)
files

['train_da',
 'train_bg',
 'train_cs',
 'train_de',
 'train_el',
 'train_es',
 'train_et',
 'train_fi',
 'train_fr',
 'train_hu',
 'train_it',
 'train_lt',
 'train_lv',
 'train_nl',
 'train_pl',
 'train_pt',
 'train_ro',
 'train_sk',
 'train_sl',
 'train_sv',
 'test',
 'test_submission']

Так как у нас 20 файлов в которых находятся предложения на 20 различных языках, в первую очередь нужно как то объедининть все данные и создать размеченную выборку для обучения.

In [None]:
k = ['train_da', 'train_bg', 'train_cs', 'train_de', 'train_el', 'train_es', 'train_et', 'train_fi',
     'train_fr', 'train_hu', 'train_it', 'train_lt', 'train_lv', 'train_nl', 'train_pl', 'train_pt',
     'train_ro', 'train_sk', 'train_sl', 'train_sv', 'test', 'test_submission']
     
lang = {'train_da':[], 'train_bg':[], 'train_cs':[], 'train_de':[], 'train_el':[], 'train_es':[], 'train_et':[],
        'train_fi':[], 'train_fr':[], 'train_hu':[], 'train_it':[], 'train_lt':[], 'train_lv':[], 'train_nl':[],
        'train_pl':[], 'train_pt':[], 'train_ro':[], 'train_sk':[], 'train_sl':[], 'train_sv':[], 'test':[], 'test_submission':[]}

i = 0
for file in files:
    with open(file, "r", encoding='utf-8') as f:
        for line in f.readlines():
            lang[k[i]].append(line)
    i += 1

lang

In [None]:
# re - библиотека для работы с регулярными выражениями и строками
for l in lang:
    if re.findall('train', l):
        k = l.split('train_')[1]
        print(l, '|', k)

train_da | da
train_bg | bg
train_cs | cs
train_de | de
train_el | el
train_es | es
train_et | et
train_fi | fi
train_fr | fr
train_hu | hu
train_it | it
train_lt | lt
train_lv | lv
train_nl | nl
train_pl | pl
train_pt | pt
train_ro | ro
train_sk | sk
train_sl | sl
train_sv | sv


In [None]:
train = pd.DataFrame(columns=['text', 'language'])

for l in lang:
    if re.findall('train', l):
        tmp = pd.DataFrame()
        tmp['text'] = lang[l]
        tmp['language'] = l.split('train_')[1]
        train = pd.concat([train, tmp], ignore_index=True)

train

Unnamed: 0,text,language
0,Gennem pressen og tv vil De være bekendt med e...,da
1,"Det er netop dér, De - hvis De ønsker det - ka...",da
2,"På anmodning af et fransk parlamentsmedlem, hr.\n",da
3,"Men, fru formand, det, som jeg havde anmodet o...",da
4,"Fru Plooij-van Gorsel, jeg kan oplyse Dem om, ...",da
...,...,...
299995,Det program som har lagts fram i dag tyder i a...,sv
299996,I synnerhet gläder jag mig åt att frågorna om ...,sv
299997,Jag skulle vilja koncentrera mig på en av huvu...,sv
299998,Men det behövs mer än så.\n,sv


In [None]:
print(f'What languages are represented in the data: {train["language"].unique()}')
print('-'*100)
print(f'How many sentences are presented for each language: \n{train["language"].value_counts()}')

What languages are represented in the data: ['da' 'bg' 'cs' 'de' 'el' 'es' 'et' 'fi' 'fr' 'hu' 'it' 'lt' 'lv' 'nl'
 'pl' 'pt' 'ro' 'sk' 'sl' 'sv']
----------------------------------------------------------------------------------------------------
How many sentences are presented for each language: 
lt    15000
cs    15000
el    15000
fi    15000
ro    15000
it    15000
pt    15000
da    15000
lv    15000
sl    15000
bg    15000
es    15000
nl    15000
hu    15000
sk    15000
de    15000
pl    15000
fr    15000
sv    15000
et    15000
Name: language, dtype: int64


In [None]:
# Обработка и загрузка тестового набора данных
test = pd.DataFrame(columns=['text'])
tmp = []

for word in lang['test']:
    tmp.append(word.split(' ')[1].split('\n')[0])

test['text'] = tmp
test

# '0 medeia\n'

Unnamed: 0,text
0,medeia
1,veendumusest
2,θέλησής
3,Uitbreiding
4,podružniškega
...,...
11995,skolotāja
11996,lasteasutusi
11997,ajusten
11998,finansach


## Внешний модуль для определения языка

In [None]:
!pip install langid

Collecting langid
  Downloading langid-1.1.6.tar.gz (1.9 MB)
[K     |████████████████████████████████| 1.9 MB 7.2 MB/s 
Building wheels for collected packages: langid
  Building wheel for langid (setup.py) ... [?25l[?25hdone
  Created wheel for langid: filename=langid-1.1.6-py3-none-any.whl size=1941187 sha256=a470002d739c809aec2f8377e823aae1f05a473c279555d51860f4cb5ad804f6
  Stored in directory: /root/.cache/pip/wheels/2b/bb/7f/11e4db39477278161e882eadc46fb558949a28b13470fc74b8
Successfully built langid
Installing collected packages: langid
Successfully installed langid-1.1.6


In [None]:
import langid
langid.classify("Toppmötet i Feira, mitt sista exempel")

('sv', -126.20768642425537)

In [None]:
l = []
for index, row in test.iterrows():
    l.append(langid.classify(row['text'])[0])

test['lang'] = l
test = test.reset_index()

In [None]:
test

Unnamed: 0,index,text,lang
0,0,medeia,pt
1,1,veendumusest,et
2,2,θέλησής,el
3,3,Uitbreiding,de
4,4,podružniškega,sl
...,...,...,...
11995,11995,skolotāja,lv
11996,11996,lasteasutusi,et
11997,11997,ajusten,et
11998,11998,finansach,en


In [None]:
# Как сохранить ответы в нужном формате
from google.colab import files 

f = open('submition_v12', 'w')
for index, row in test.iterrows():
    f.write(str(row['index']) + ' ' + row['lang'] + '\n')
f.close()

files.download("submition_v12")

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

# Обработка текста

Любой рабочий процесс анализа текстовых данных начинается с их предварительной обработки и очистки текста. 

**Рассмотрим стандартный конвейер (pipeline) предобработки:**

- удаление знаков препинания, лишних и спец символов
- приведение к одному регистру
- токенизировать текст – разбить текст на предложения, слова и другие единицы;
- удалить стоп-слова;
- привести слова к нормальной форме;
- векторизовать тексты – сделать числовые представления текстов для их дальнейшей обработки классификатором.

Все эти шаги служат для уменьшения шума, присущего любому обычному тексту, и повышения точности результатов классификатора. Для решения указанных задач есть несколько отличных библиотек, например, NLTK, TextBlob и spaCy, pymorphy.

**Посмотрев на разные предложения и исходя из задачи можно сделать следующие выводы:**
- знаки препенания не зависят от языка (точка что в английском, что в русском) - значит можно удалить все знаки препинания
- стоп-слова могут иметь значения в данной задаче

In [None]:
import nltk
# nltk.download("stopwords")
from nltk.corpus import stopwords
from string import punctuation
# russian_stopwords = stopwords.words("russian")

def remove_punct(text):
    # удаление пунктуации в тексте
    table = {33: ' ', 34: ' ', 35: ' ', 36: ' ', 37: ' ', 38: ' ', 39: ' ', 40: ' ', 41: ' ', 42: ' ',
             43: ' ', 44: ' ', 45: ' ', 46: ' ', 47: ' ', 58: ' ', 59: ' ', 60: ' ', 61: ' ', 62: ' ',
             63: ' ', 64: ' ', 91: ' ', 92: ' ', 93: ' ', 94: ' ', 95: ' ', 96: ' ', 123: ' ', 124: ' ', 125: ' ', 126: ' '}
    return text.translate(table)

def txt_prep(df):
    # функция приводит весь текст к нижнему регистру
    # удаляет пунктуацию
    df['initial_text'] = df['text']
    df['text'] = df['text'].str.lower() # Hello - hello
    df['text'] = df['text'].map(lambda x: remove_punct(x))
    df['text'] = df['text'].str.replace('»', '') 
    df['text'] = df['text'].str.replace('«', '') 
    df['text'] = df['text'].str.replace('"', '')
    df['text'] = df['text'].str.replace('\n', '')
    df['text'] = df['text'].str.replace(r"\d+", "", flags=re.UNICODE)

    return df

train = txt_prep(train)
train

Unnamed: 0,text,language,initial_text
0,gennem pressen og tv vil de være bekendt med e...,da,Gennem pressen og tv vil De være bekendt med e...
1,det er netop dér de hvis de ønsker det ka...,da,"Det er netop dér, De - hvis De ønsker det - ka..."
2,på anmodning af et fransk parlamentsmedlem hr,da,"På anmodning af et fransk parlamentsmedlem, hr.\n"
3,men fru formand det som jeg havde anmodet o...,da,"Men, fru formand, det, som jeg havde anmodet o..."
4,fru plooij van gorsel jeg kan oplyse dem om ...,da,"Fru Plooij-van Gorsel, jeg kan oplyse Dem om, ..."
...,...,...,...
299995,det program som har lagts fram i dag tyder i a...,sv,Det program som har lagts fram i dag tyder i a...
299996,i synnerhet gläder jag mig åt att frågorna om ...,sv,I synnerhet gläder jag mig åt att frågorna om ...
299997,jag skulle vilja koncentrera mig på en av huvu...,sv,Jag skulle vilja koncentrera mig på en av huvu...
299998,men det behövs mer än så,sv,Men det behövs mer än så.\n


In [None]:
train.loc[26, 'initial_text']

'Jeg håber, at der tages højde for mit forslag ved afstemningen i morgen.\n'

In [None]:
train.loc[26, 'text']

'jeg håber  at der tages højde for mit forslag ved afstemningen i morgen '

В данной задаче мы решаем с Вами задачу мультиклассовой классификации (20 языков - 20 классов).
Но все классы представлены в виде категориальной переменной - закодируем ее с помощью `LabelEncoder()`.

При этом необходимо сохранить словарь для обратного преобразования.

In [None]:
from sklearn.model_selection import train_test_split
from sklearn import preprocessing

label_encoder = preprocessing.LabelEncoder()

label_encoder.fit(train['language']) 
train['language'] = label_encoder.transform(train['language']) 

mapping = dict(zip(label_encoder.classes_, range(len(label_encoder.classes_))))

mapping

{'bg': 0,
 'cs': 1,
 'da': 2,
 'de': 3,
 'el': 4,
 'es': 5,
 'et': 6,
 'fi': 7,
 'fr': 8,
 'hu': 9,
 'it': 10,
 'lt': 11,
 'lv': 12,
 'nl': 13,
 'pl': 14,
 'pt': 15,
 'ro': 16,
 'sk': 17,
 'sl': 18,
 'sv': 19}

In [None]:
# mapping
inverse_dict = dict([val,key] for key,val in mapping.items())
inverse_dict

{0: 'bg',
 1: 'cs',
 2: 'da',
 3: 'de',
 4: 'el',
 5: 'es',
 6: 'et',
 7: 'fi',
 8: 'fr',
 9: 'hu',
 10: 'it',
 11: 'lt',
 12: 'lv',
 13: 'nl',
 14: 'pl',
 15: 'pt',
 16: 'ro',
 17: 'sk',
 18: 'sl',
 19: 'sv'}

# Обучение и подбор модели

In [None]:
# перемещаем данные
train = train.sample(frac=1).reset_index(drop=True)
train

Unnamed: 0,text,language,initial_text
0,i italien mitt hemland finns det cirka ans...,19,"I Italien, mitt hemland, finns det cirka 200 0..."
1,det finns ett antal saker som undergräver kons...,19,Det finns ett antal saker som undergräver kons...
2,prawdą jest również to że nadal istnieje prze...,14,"Prawdą jest również to, że nadal istnieje prze..."
3,що се отнася до правата на пътниците в автобус...,0,Що се отнася до правата на пътниците в автобус...
4,lai apkarotu nelegālo imigrāciju mums ir stin...,12,"Lai apkarotu nelegālo imigrāciju, mums ir stin..."
...,...,...,...
299995,as armas do costume responde o presidente,15,"""As armas do costume!"" , responde o Presidente.\n"
299996,šī lieta visiem izraisa bažas jo ir apdraudēt...,12,"Šī lieta visiem izraisa bažas, jo ir apdraudēt..."
299997,nepaisant to taryba reguliariai teikia šio pr...,11,"Nepaisant to, Taryba reguliariai teikia šio pr..."
299998,rådet upprepar alltså herr ledamot sin åsikt...,19,"Rådet upprepar alltså, herr ledamot, sin åsikt..."


In [None]:
train['language'].value_counts()

19    15000
18    15000
1     15000
2     15000
3     15000
4     15000
5     15000
6     15000
7     15000
8     15000
9     15000
10    15000
11    15000
12    15000
13    15000
14    15000
15    15000
16    15000
17    15000
0     15000
Name: language, dtype: int64

In [None]:
train_small = train.iloc[:9000, :]
print(f'Shape {train_small.shape}')
print(f"Value counts")
train_small['language'].value_counts(sort=True)

Shape (9000, 3)
Value counts


14    487
4     483
2     479
12    461
19    460
17    459
18    454
1     454
9     452
3     450
11    450
0     449
5     447
13    439
7     438
10    432
6     431
16    428
8     424
15    423
Name: language, dtype: int64

In [None]:
train_small

Unnamed: 0,text,language,initial_text
0,i italien mitt hemland finns det cirka ans...,19,"I Italien, mitt hemland, finns det cirka 200 0..."
1,det finns ett antal saker som undergräver kons...,19,Det finns ett antal saker som undergräver kons...
2,prawdą jest również to że nadal istnieje prze...,14,"Prawdą jest również to, że nadal istnieje prze..."
3,що се отнася до правата на пътниците в автобус...,0,Що се отнася до правата на пътниците в автобус...
4,lai apkarotu nelegālo imigrāciju mums ir stin...,12,"Lai apkarotu nelegālo imigrāciju, mums ir stin..."
...,...,...,...
8995,úgy vélem ezeket az intézkedéseket alapos viz...,9,"Úgy vélem, ezeket az intézkedéseket alapos viz..."
8996,siamo sempre a favore di migliori condizioni p...,10,Siamo sempre a favore di migliori condizioni p...
8997,notiekošā kosovas sašķelšanās kuru daži attēl...,12,"Notiekošā Kosovas sašķelšanās, kuru daži attēl..."
8998,v tom čase som bol tieňovým spravodajcom skupi...,17,V tom čase som bol tieňovým spravodajcom skupi...


In [None]:
# Выделим векотр признаков, вектор целевой переменной
X = train_small.drop(['language', 'initial_text'], axis=1)
y = train_small['language']

X

Unnamed: 0,text
0,i italien mitt hemland finns det cirka ans...
1,det finns ett antal saker som undergräver kons...
2,prawdą jest również to że nadal istnieje prze...
3,що се отнася до правата на пътниците в автобус...
4,lai apkarotu nelegālo imigrāciju mums ir stin...
...,...
8995,úgy vélem ezeket az intézkedéseket alapos viz...
8996,siamo sempre a favore di migliori condizioni p...
8997,notiekošā kosovas sašķelšanās kuru daži attēl...
8998,v tom čase som bol tieňovým spravodajcom skupi...


In [None]:
y

0       19
1       19
2       14
3        0
4       12
        ..
8995     9
8996    10
8997    12
8998    17
8999     6
Name: language, Length: 9000, dtype: int64

**Векторизация текста**

Text representation
We have various options:

- Count Vectors as features
- TF-IDF Vectors as features
- Word2Vec
- FastText

Полезные сслыки:

https://habr.com/ru/company/ods/blog/329410/

https://dataaspirant.com/word-embedding-techniques-nlp/


In [None]:
# # Count Vectors as features
# 0 - 'мама мыла раму'
# 1 - 'петя пошел гулять и пошел в магазин'

#     мама | мыла | раму | петя | пошел | гулять | и | в | магазин
# 0     1     1      1      0      0        0      0   0      0
# 1     0     0      0      1      2        1      1   1      1

In [None]:
# 1. Словные n-gram

# Мама мыла раму - 2-gram
# мама мыла   |   мыла раму

# 2. Символьные n-gram 

# Радуга - 2-gram:
# ра      ад      ду      уг      га

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X['text'].values, y, test_size=0.33, random_state=42)

vectorizer = CountVectorizer(ngram_range=(3,5), analyzer='char', max_features=25000) 

X_train_vector = vectorizer.fit_transform(X_train).toarray()
X_test_vector = vectorizer.transform(X_test).toarray()

In [None]:
print(f'X train shape: {X_train.shape}')
print(f'X test shape: {X_test.shape}')

X train shape: (6030,)
X test shape: (2970,)


In [None]:
# чисто для наглядности как работает CountVectorizer
count_vect_df = pd.DataFrame(X_train_vector, columns=vectorizer.get_feature_names())
count_vect_df

Unnamed: 0,a,a a,a b,a bi,a c,a co,a d,a de,a di,a do,a e,a es,a f,a fa,a fo,a g,a h,a i,a in,a j,a je,a k,a kö,a l,a la,a le,a li,a lo,a m,a me,a n,a ne,a o,a p,a pa,a po,a pr,a q,a qu,a r,...,ъде,ъде.1,ъзм,ъзмо,ъзмож,ълн,ъм,ъпр,ъпро,ъпрос,ърж,ържа,ържав,ът,ъщо,ъщо.1,ъюз,я в,я д,я з,я за,я за.1,я и,я н,я на,я п,я с,ябв,ябва,ябва.1,ява,яван,яване,яко,яма,ят,ята,ята.1,ято,ято.1
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
1,3,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6025,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
6026,1,0,0,0,0,0,1,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
6027,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
6028,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0


In [None]:
%%time
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report

clf = RandomForestClassifier(n_estimators=1000)

clf.fit(X_train_vector, y_train)

y_pred = clf.predict(X_test_vector)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00       142
           1       0.96      0.99      0.98       160
           2       1.00      1.00      1.00       150
           3       0.99      0.99      0.99       150
           4       1.00      1.00      1.00       125
           5       0.98      0.94      0.96       138
           6       0.96      0.99      0.97       134
           7       0.99      0.97      0.98       151
           8       1.00      0.98      0.99       168
           9       0.99      0.99      0.99       147
          10       1.00      0.99      1.00       148
          11       0.96      0.99      0.98       171
          12       0.99      0.99      0.99       155
          13       0.99      0.99      0.99       141
          14       1.00      1.00      1.00       151
          15       0.96      0.97      0.97       145
          16       0.99      0.99      0.99       145
          17       0.99    

In [None]:
%%time
test_vector = vectorizer.transform(test['text']).toarray()
y_pred_lang = clf.predict(test_vector)
y_pred_lang

CPU times: user 27.2 s, sys: 1.81 s, total: 29 s
Wall time: 29 s


In [None]:
print(test.shape)
print(y_pred_lang.shape)

(12000, 3)
(12000,)


In [None]:
# mapping
inverse_dict = dict([val,key] for key,val in mapping.items())
inverse_dict

{0: 'bg',
 1: 'cs',
 2: 'da',
 3: 'de',
 4: 'el',
 5: 'es',
 6: 'et',
 7: 'fi',
 8: 'fr',
 9: 'hu',
 10: 'it',
 11: 'lt',
 12: 'lv',
 13: 'nl',
 14: 'pl',
 15: 'pt',
 16: 'ro',
 17: 'sk',
 18: 'sl',
 19: 'sv'}

In [None]:
# Формуется ответ ответ в нужном виде
test_pred = pd.DataFrame(y_pred_lang, columns=['language'])
test_pred.reset_index(inplace=True)

test_pred['language'] = test_pred['language'].map(inverse_dict).fillna(test_pred['language'])
test_pred

Unnamed: 0,index,language
0,0,bg
1,1,et
2,2,bg
3,3,bg
4,4,bg
...,...,...
11995,11995,lv
11996,11996,et
11997,11997,et
11998,11998,bg


In [None]:
f = open('submition_v1', 'w')
for index, row in test_pred.iterrows():
    f.write(str(row['index']) + ' ' + row['language'] + '\n')
f.close()

In [None]:
from google.colab import files
files.download("submition_v1")

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>