# Multi Language Detection

## Install Packages

In [None]:
# !pip install datasets
# !pip install scikit-learn
# !pip install neattext
# !pip install scikit-multilearn

## Load Dataset from Hugging Face

In [2]:
from datasets import load_dataset
import pandas as pd

In [4]:
dataset = load_dataset("papluca/language-identification", "default")
trainingData = dataset['train']

df = trainingData.to_pandas()
df

Unnamed: 0,labels,text
0,pt,"os chefes de defesa da estónia, letónia, lituâ..."
1,bg,размерът на хоризонталната мрежа може да бъде ...
2,zh,很好，以前从不去评价，不知道浪费了多少积分，现在知道积分可以换钱，就要好好评价了，后来我就把...
3,th,สำหรับ ของเก่า ที่ จริงจัง ลอง honeychurch ...
4,ru,Он увеличил давление .
...,...,...
69995,ja,本格的なゲーミングヘッドホンでした。 今まで使ってた1万円するパナソニックのヘッドホンは何だ...
69996,el,"Ναι , ξέρω ένα που είναι ακόμα έτσι , αλλά αυτ..."
69997,ur,اور مجھے اس ملک کے بارے میں معلوم نہیں ہے کہ گ...
69998,es,Se me rompió uno al sacarlo del cargador. Cali...


## Data Pre-Processing

### Clean Data
For this model, we are going to strip out Chinese, Korean, and Japanese becuase the encoding on those characters seems to be very difficult to train the model on. We will also be cleaning up some of the text to remove numbers.

In [5]:
import neattext as nt
import neattext.functions as nfx

In [6]:
pd.options.display.max_colwidth=999

# Drop Chinese Rows
df = df[df.labels != 'zh']
# Drop Korean Rows
df = df[df.labels != 'ko']
# Drop Japanese Rows
df = df[df.labels != 'ja']
# Remove numbers
df['text'] = df['text'].apply(nfx.remove_numbers)

df

Unnamed: 0,labels,text
0,pt,"os chefes de defesa da estónia, letónia, lituânia, alemanha, itália, espanha e eslováquia assinarão o acordo para fornecer pessoal e financiamento para o centro."
1,bg,размерът на хоризонталната мрежа може да бъде по реда на няколко километра ( km ) за на симулация до около km за на симулация .
3,th,สำหรับ ของเก่า ที่ จริงจัง ลอง honeychurch ของเก่า ที่ ไม่ สำหรับ เฟอร์นิเจอร์ และ เงิน ไท ร้อง บริษัท ที่ สำหรับ ลาย คราม
4,ru,Он увеличил давление .
5,pl,"S Jak sobie życzysz: Widzisz, jak Hitler zabija Żydów?"
...,...,...
69994,ar,نعم انت ايضا مع السلامة مع السلامة
69996,el,"Ναι , ξέρω ένα που είναι ακόμα έτσι , αλλά αυτό είναι ότι είμαι κάτω σε ένα φίλο που κρατάει αυτή τη θέση ακόμα είμαι η μόνη στο σπίτι αυτή τη στιγμή και έχω τα παιδιά να φωνάζουν για την προσοχή μου τώρα , οπότε καταλαβαίνω τι . Αυτό είναι σαν"
69997,ur,اور مجھے اس ملک کے بارے میں معلوم نہیں ہے کہ گزشتہ سال کے دوران ، میں گزشتہ سال کے بارے میں نہیں جانتا تھا ۔
69998,es,"Se me rompió uno al sacarlo del cargador. Calidad nefasta para el precio que tiene, no lo recomiendo. Que pesaos con las palabras que faltan para la opinión por Dios."


### Restructure Data for Multi-Label Classification
Since we want this model to recognize every language in a string, we are going to be using Multi-Label Classification. This data is currently setup for Multi-Class Classification, where one input will be assigned one output. We will want it to look something like this:

| Text                                              | en | es | fr | hi |
| ------------------------------------------------- | -- | -- | -- | -- |
| test an english phrase                            |  1 |  0 |  0 |  0 |
| probar una frase en ingles                        |  0 |  1 |  0 |  0 |
| test an english phrase probar una frase en ingles |  1 |  1 |  0 |  0 |

In [7]:
import numpy as np

In [8]:
# Create a set of unique labels to represent all the languages in the dataset
unique_labels = df['labels'].unique()
num_rows = len(df)
num_cols = len(unique_labels) + 1  
reformatted_data = np.zeros((num_rows, num_cols), dtype=object)

reformatted_data[:, 0] = df['text']

# Fill the boolean values for labels
for i, label in enumerate(unique_labels):
    reformatted_data[:, i+1] = (df['labels'] == label)

# Create a DataFrame from the NumPy array
reformatted_df = pd.DataFrame(reformatted_data, columns=['text'] + list(unique_labels))

reformatted_df

Unnamed: 0,text,pt,bg,th,ru,pl,ur,sw,tr,es,ar,it,hi,de,el,nl,fr,vi,en
0,"os chefes de defesa da estónia, letónia, lituânia, alemanha, itália, espanha e eslováquia assinarão o acordo para fornecer pessoal e financiamento para o centro.",True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
1,размерът на хоризонталната мрежа може да бъде по реда на няколко километра ( km ) за на симулация до около km за на симулация .,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
2,สำหรับ ของเก่า ที่ จริงจัง ลอง honeychurch ของเก่า ที่ ไม่ สำหรับ เฟอร์นิเจอร์ และ เงิน ไท ร้อง บริษัท ที่ สำหรับ ลาย คราม,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
3,Он увеличил давление .,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False
4,"S Jak sobie życzysz: Widzisz, jak Hitler zabija Żydów?",False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
62995,نعم انت ايضا مع السلامة مع السلامة,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False
62996,"Ναι , ξέρω ένα που είναι ακόμα έτσι , αλλά αυτό είναι ότι είμαι κάτω σε ένα φίλο που κρατάει αυτή τη θέση ακόμα είμαι η μόνη στο σπίτι αυτή τη στιγμή και έχω τα παιδιά να φωνάζουν για την προσοχή μου τώρα , οπότε καταλαβαίνω τι . Αυτό είναι σαν",False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False
62997,اور مجھے اس ملک کے بارے میں معلوم نہیں ہے کہ گزشتہ سال کے دوران ، میں گزشتہ سال کے بارے میں نہیں جانتا تھا ۔,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False
62998,"Se me rompió uno al sacarlo del cargador. Calidad nefasta para el precio que tiene, no lo recomiendo. Que pesaos con las palabras que faltan para la opinión por Dios.",False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False


### Create Data for Multi-Language Recognition
The current dataset provides only one language per item in the text column. To train a model fo multi-language recognition, we need to create some new data that has texts with multiple languages and the labels marked accordingly. To do this, we will systematically add rows to the data that contain another random language and apply the other language label to the row.

In [9]:
pd.options.display.max_colwidth=999

lang1 = reformatted_df.sample(n=50000)
lang2 = reformatted_df.sample(n=50000)
lang3 = reformatted_df.sample(n=50000)

# Generate rows with 2 languages
data_rows = [
    [lang1['text'].iloc[index] + ' ' + lang2['text'].iloc[index]] +
    (lang1.iloc[index, 1:] | lang2.iloc[index, 1:]).astype(bool).tolist()
    for index in range(len(lang1))
]

new_data = pd.DataFrame(data_rows, columns=['text'] + list(unique_labels))

# Generate rows with 3 languages
data_rows = [
    [new_data['text'].iloc[index] + ' ' + lang3['text'].iloc[index]] +
    (new_data.iloc[index, 1:] | lang3.iloc[index, 1:]).astype(bool).tolist()
    for index in range(len(new_data))
]

more_new_data = pd.DataFrame(data_rows, columns=['text'] + list(unique_labels))
more_new_data

Unnamed: 0,text,pt,bg,th,ru,pl,ur,sw,tr,es,ar,it,hi,de,el,nl,fr,vi,en
0,само la poste доставя неадресирана поща отделно от нормалната поща . Es un poco aguado no me a convencido mucho no lo comprare más j'ai retourné le produit parce que le matériel ne correspond pas à mon besoin - les caractéristiques annoncées sont incorrectes.,False,True,False,False,False,False,False,False,True,False,False,False,False,False,False,True,False,False
1,"จริงๆ แล้ว อะไร ก็ ได้ที่ จ้าง นับ ดู ถูกๆ El tanque es diferente que el que te enseña amazon en la foto del producto me parece muy mal.. Ý tôi là , và sau đó có một tấn số liệu và sau đó có một tấn nhưng những gì là một số liệu tấn",False,False,True,False,False,False,False,False,True,False,False,False,False,False,False,False,True,False
2,Très bon produit compatible à ma Peugeot sw et très bon qualité prix. Encore très satisfaite de mon achat sur Amazon La poste tu hazai barua ya unaddressed tofauti na barua ya kawaida . Dwa psy biegające przez pole.,False,False,False,False,True,False,True,False,False,False,False,False,False,False,False,True,False,False
3,"لہذا میں نے اس کو تسلیم کرنے سے انکار کر دیا ہے Schöne leichte Hose. Nur vom Schritt zum Bund zu schmal und vorne wären zwei zusätzliche Gürtelschlaufen nötig, da die Schnalle über die Hose klappt. ""Wij veroordelen en veroordelen de Raad van Bestuur, die wordt geleid door de Verenigde Staten,"" zei Moqtada al-Sadr.",False,False,False,False,False,True,False,False,False,False,False,False,True,False,True,False,False,False
4,"Nieuws over terrorisme en het Israëlisch-Palestijnse conflict ( januari 'Äď , ) останах до вратата , страхувайки се да не залича някакви следи . Fait le job, mais les touches sont un peu lourdes. La molette de la souris a été endommagés après la première chute. Du coup je ne l'utilise plus",False,True,False,False,False,False,False,False,False,False,False,False,False,False,True,True,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
49995,"Η Γερουσία , στο κάτω κάτω , προφανώς πλησιάζει σε συμβιβασμό για την επιτροπή καταδίκης , και ο πρόεδρος πιθανότατα να διορίσει επτά νέους επιτρόπους τις επόμενες εβδομάδες . فضائیہ کے تیار کردہ آفس کے مقابلے میں فضائیہ اور تابکاری سے زیادہ اہمیت رکھتے ہیں ۔ св. църквата на ан ( с лице към ан стрийт на юг ) има малко цветно изцапани стъкло от -ти век , и осигурява обстановка за обедни концерти ( потърси известията в на ) .",False,True,False,False,False,True,False,False,False,False,False,False,False,True,False,False,False,False
49996,"Weiner rimane in corsa per il sindaco di New York nel bel mezzo di un nuovo scandalo sul sexting tal cual se describe y mi perro esta hasta contento con el hace muy bien su funcion Отличные фильмы - все меньше и дальше между ( по крайней мере , по мнению этого писателя -- по крайней мере на время ) , и в эти дни даже СМИ , которые нанимают критиков , измеряют успех фильма не по реакции критиков , а по открытию . Выходные - гадость .",False,False,False,True,False,False,False,False,True,False,True,False,False,False,False,False,False,False
49997,"Nie wiem, jak bardzo jest to legalne, ale słyszałem, że jest trochę samobójczy. Je l'utilise depuis un petit moment maintenant et aucune différence en plus le goût est spécial. Pour un dentifrice à bal je ne suis pas très contente. D'autre marque dans le commerce son moins chère et plus efficace ! Praktisch für die Tasche. Die Spitze ist zu dick, kratzt nicht gut. Habe sie flacher schleifen lassen",False,False,False,False,True,False,False,False,False,False,False,False,True,False,False,True,False,False
49998,"A mi no me funcionó,no había manera de emparejar con mis cascos y lo Tube que cambiar por otro de otra marca. Un primo piano di una locomotiva di un treno nero. การ ตั้ง แคมป์ เอ่อ เป็น คำ ที่ ค่อนข้าง คลุมเครือ ที่ ดูเหมือน จะ พบ หรือ ครอบคลุม หลาย ประเภท ของ เอ่อ เรา จะ พูด ใน การ เดินทาง กลางคืน หรือ บางครั้ง ยัง ไม่ ถึง คืน เอ่อ อะไร ก็ได้ จาก ไม่มี เสบียง ที่จะ เอ่อ ไป กับ สิ่ง ที่ คุณ สามารถ แบก บน กระเป๋า เป้ เอ่อ บางที แม้แต่ เต๊นท์",False,False,True,False,False,False,False,False,True,False,True,False,False,False,False,False,False,False


### Combine New Data with Existing

In [10]:
pd.options.display.max_colwidth=999

multi_df = pd.concat([reformatted_df, new_data, new_data2])
# transform to booleans floats for model training purposes
multi_df[unique_labels] = multi_df[unique_labels].astype(np.uint8)
multi_df

Unnamed: 0,text,pt,bg,th,ru,pl,ur,sw,tr,es,ar,it,hi,de,el,nl,fr,vi,en
0,"os chefes de defesa da estónia, letónia, lituânia, alemanha, itália, espanha e eslováquia assinarão o acordo para fornecer pessoal e financiamento para o centro.",1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
1,размерът на хоризонталната мрежа може да бъде по реда на няколко километра ( km ) за на симулация до около km за на симулация .,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
2,สำหรับ ของเก่า ที่ จริงจัง ลอง honeychurch ของเก่า ที่ ไม่ สำหรับ เฟอร์นิเจอร์ และ เงิน ไท ร้อง บริษัท ที่ สำหรับ ลาย คราม,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
3,Он увеличил давление .,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0
4,"S Jak sobie życzysz: Widzisz, jak Hitler zabija Żydów?",0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
49995,"Η Γερουσία , στο κάτω κάτω , προφανώς πλησιάζει σε συμβιβασμό για την επιτροπή καταδίκης , και ο πρόεδρος πιθανότατα να διορίσει επτά νέους επιτρόπους τις επόμενες εβδομάδες . فضائیہ کے تیار کردہ آفس کے مقابلے میں فضائیہ اور تابکاری سے زیادہ اہمیت رکھتے ہیں ۔ св. църквата на ан ( с лице към ан стрийт на юг ) има малко цветно изцапани стъкло от -ти век , и осигурява обстановка за обедни концерти ( потърси известията в на ) .",0,1,0,0,0,1,0,0,0,0,0,0,0,1,0,0,0,0
49996,"Weiner rimane in corsa per il sindaco di New York nel bel mezzo di un nuovo scandalo sul sexting tal cual se describe y mi perro esta hasta contento con el hace muy bien su funcion Отличные фильмы - все меньше и дальше между ( по крайней мере , по мнению этого писателя -- по крайней мере на время ) , и в эти дни даже СМИ , которые нанимают критиков , измеряют успех фильма не по реакции критиков , а по открытию . Выходные - гадость .",0,0,0,1,0,0,0,0,1,0,1,0,0,0,0,0,0,0
49997,"Nie wiem, jak bardzo jest to legalne, ale słyszałem, że jest trochę samobójczy. Je l'utilise depuis un petit moment maintenant et aucune différence en plus le goût est spécial. Pour un dentifrice à bal je ne suis pas très contente. D'autre marque dans le commerce son moins chère et plus efficace ! Praktisch für die Tasche. Die Spitze ist zu dick, kratzt nicht gut. Habe sie flacher schleifen lassen",0,0,0,0,1,0,0,0,0,0,0,0,1,0,0,1,0,0
49998,"A mi no me funcionó,no había manera de emparejar con mis cascos y lo Tube que cambiar por otro de otra marca. Un primo piano di una locomotiva di un treno nero. การ ตั้ง แคมป์ เอ่อ เป็น คำ ที่ ค่อนข้าง คลุมเครือ ที่ ดูเหมือน จะ พบ หรือ ครอบคลุม หลาย ประเภท ของ เอ่อ เรา จะ พูด ใน การ เดินทาง กลางคืน หรือ บางครั้ง ยัง ไม่ ถึง คืน เอ่อ อะไร ก็ได้ จาก ไม่มี เสบียง ที่จะ เอ่อ ไป กับ สิ่ง ที่ คุณ สามารถ แบก บน กระเป๋า เป้ เอ่อ บางที แม้แต่ เต๊นท์",0,0,1,0,0,0,0,0,1,0,1,0,0,0,0,0,0,0


### Create Train/Test Split

In [12]:
from sklearn.model_selection import train_test_split

In [13]:
X = multi_df['text']
y = multi_df[unique_labels]
X_train, X_test, y_train, y_test = train_test_split(X, y)

## Build and Train Model
Using the skmultilearn library, we will attempt a few different methods and compare results as described (here)[https://medium.com/analytics-vidhya/an-introduction-to-multi-label-text-classification-b1bcb7c7364c].

NOTE: Currently experiencing out of memory errors. Attempting to run on a more powerful machine. 

In [14]:
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from skmultilearn.problem_transform import BinaryRelevance
from skmultilearn.problem_transform import ClassifierChain
from skmultilearn.problem_transform import LabelPowerset

### Binary Relevance

In [32]:
model = Pipeline([
                ('tfidf', TfidfVectorizer()),
                ('clf', BinaryRelevance(LogisticRegression(solver='sag'))),
            ])

model.fit(X_train, y_train)
predictions = model.predict(X_test)

MemoryError: Unable to allocate 132. GiB for an array with shape (122250, 144763) and data type float64

### Classifier Chain

In [None]:
model = Pipeline([
                ('tfidf', TfidfVectorizer()),
                ('clf', ClassifierChain(LogisticRegression(solver='sag'))),
            ])

model.fit(X_train, y_train)
predictions = model.predict(X_test)

### Using Label Powerset

In [None]:
model = Pipeline([
                ('tfidf', TfidfVectorizer()),
                ('clf',  LabelPowerset(LogisticRegression(max_iter=120))),
            ])

model.fit(x_train, y_train)
predictions = model.predict(x_test)