# Language Detection

In [7]:
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
data = pd.read_csv("dataset.csv")
print(data.head())

                                                Text  language
0  klement gottwaldi surnukeha palsameeriti ning ...  Estonian
1  sebes joseph pereira thomas  på eng the jesuit...   Swedish
2  ถนนเจริญกรุง อักษรโรมัน thanon charoen krung เ...      Thai
3  விசாகப்பட்டினம் தமிழ்ச்சங்கத்தை இந்துப் பத்திர...     Tamil
4  de spons behoort tot het geslacht haliclona en...     Dutch


In [8]:
data.isnull().sum()

Text        0
language    0
dtype: int64

In [9]:
data["language"].value_counts()

language
Estonian      1000
Swedish       1000
English       1000
Russian       1000
Romanian      1000
Persian       1000
Pushto        1000
Spanish       1000
Hindi         1000
Korean        1000
Chinese       1000
French        1000
Portugese     1000
Indonesian    1000
Urdu          1000
Latin         1000
Turkish       1000
Japanese      1000
Dutch         1000
Tamil         1000
Thai          1000
Arabic        1000
Name: count, dtype: int64

In [10]:
x = np.array(data["Text"])
y = np.array(data["language"])

cv = CountVectorizer()
X = cv.fit_transform(x)
X_train, X_test, y_train, y_test = train_test_split(X, y, 
                                                    test_size=0.33, 
                                                    random_state=42)

As this is a problem of multiclass classification, so I will be using the Multinomial Naïve Bayes algorithm to train the language detection model as this algorithm always performs very well on the problems based on multiclass classification:

In [11]:
model = MultinomialNB()
model.fit(X_train,y_train)
model.score(X_test,y_test)

0.953168044077135

Now let’s use this model to detect the language of a text by taking a user input:

In [14]:
user = input("Enter a Text: ")
data = cv.transform([user]).toarray()
output = model.predict(data)
print()
print(output)

Enter a Text:   مدت‌ها پیش از ظهور مسیحیت گیاهان و درختان سبز معنای ویژه‌ای برای مردم در فصل زمستان داشته‌اند همین‌طور که امروزه مردم خانه‌های خود را با درختان کاج و صنوبر تزیین می‌کنند مردم باستان نیز شاخه‌های درختان را بر روی درب‌ها و پنجره‌های خانه‌های خود آویزان می‌کردند در بسیاری از کشورها مردم باور داشتند که این درختان سبز آن‌ها را از جادوگری ارواح ارواح شیطانی و بیماری‌ها دور نگه می‌دارددرخت صنوبر به طور سنتی در جشن‌های مسیحیان و کافران برای هزاران سال استفاده می‌شده‌است کافران هنگام انقلاب زمستانی از این درختان برای تزیین خانه‌های خود استفاده می‌کردند مسیحیان این درختان را نماد زندگی همیشگی با خدا می‌دانستند هیچ‌گاه مشخص نشده‌است که این درختان برای نخستین بار برای کریسمس استفاده می‌شده‌اند احتمال می‌رود که درختان کریسمس برای نخستین بار حدود  سال پیش در شمال اروپا مورد استفاده قرار گرفته‌باشند برخی بر این باورند که سنت بونیفاس درخت کریسمس را در سدهٔ هفتم میلادی ایجاد کرد برخی نیز بر این باورند که قدمت درختان به سال  میلادی در آلمان یا لتونی باز می‌گردد,



['Persian']


So as you can see that the model performs well.