<h1 style="color:purple" align="center"> Language Detection Using  ML Techniques</h1>

In [None]:
<h3 style="color:blue" align="left">

Language detection is a natural language processing task where we need to identify the language of a text or document. Using machine learning for language identification was a difficult task a few years ago because there was not a lot of data on languages, but with the availability of data with ease, several powerful machine learning models are already available for language identification. So, if you want to learn how to train a machine learning model for language detection, then this article is for you. In this article,  will go through the task of language detection with machine learning using Python.

<h3 style="color:blue" align="left">  Loading the neccesary libraries to perform the dataset</h3>

In [1]:
import pandas as pd
import numpy as np
import re  
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB



 <h3 style="color:blue" align="left"> Importing the dataset</h3>

In [16]:
dataset = pd.read_csv("language.csv")
dataset.head()

Unnamed: 0,Text,language
0,klement gottwaldi surnukeha palsameeriti ning ...,Estonian
1,sebes joseph pereira thomas på eng the jesuit...,Swedish
2,ถนนเจริญกรุง อักษรโรมัน thanon charoen krung เ...,Thai
3,விசாகப்பட்டினம் தமிழ்ச்சங்கத்தை இந்துப் பத்திர...,Tamil
4,de spons behoort tot het geslacht haliclona en...,Dutch


 <h3 style="color:blue" align="left">Finding null values form the dataset</h3>

In [17]:
dataset.isnull().sum()

Text        0
language    0
dtype: int64

 <h3 style="color:blue" align="left">Removing Na values from the dataset</h3>

In [18]:
dataset.dropna()

Unnamed: 0,Text,language
0,klement gottwaldi surnukeha palsameeriti ning ...,Estonian
1,sebes joseph pereira thomas på eng the jesuit...,Swedish
2,ถนนเจริญกรุง อักษรโรมัน thanon charoen krung เ...,Thai
3,விசாகப்பட்டினம் தமிழ்ச்சங்கத்தை இந்துப் பத்திர...,Tamil
4,de spons behoort tot het geslacht haliclona en...,Dutch
...,...,...
22995,നിങ്ങളുടെ തെറ്റ് വന്നത് ആ ദിവസം മുതൽ നിങ്ങൾക്ക...,Malayalam
22996,"നാർസിസ ആദ്യം പാടുപെട്ട വഴികൾ മാറ്റി, പക്ഷേ പതു...",Malayalam
22997,എങ്ങനെ' സംഭവിച്ച എല്ലാ കാര്യങ്ങളും ഇപ്പോൾ മരിയ...,Malayalam
22998,"അവൾക്കറിയാമോ, അവൾക്ക് ഇപ്പോൾ കൂടുതൽ സ്വർണ്ണ റൊ...",Malayalam


<h3 style="color:blue" align="left">Now let’s have a look at all the languages present in this dataset</h3>

In [19]:
dataset["language"].value_counts()

Estonian      1000
Chinese       1000
Arabic        1000
English       1000
Russian       1000
Romanian      1000
Persian       1000
Pushto        1000
Spanish       1000
Hindi         1000
Korean        1000
French        1000
Swedish       1000
Portugese     1000
Indonesian    1000
Urdu          1000
Latin         1000
Turkish       1000
Japanese      1000
Dutch         1000
Tamil         1000
Thai          1000
Malayalam     1000
Name: language, dtype: int64

<h3 style="color:blue" align="left">Now let’s split the data into training and test sets:</h3>

In [20]:
x=dataset["Text"]
x

0        klement gottwaldi surnukeha palsameeriti ning ...
1        sebes joseph pereira thomas  på eng the jesuit...
2        ถนนเจริญกรุง อักษรโรมัน thanon charoen krung เ...
3        விசாகப்பட்டினம் தமிழ்ச்சங்கத்தை இந்துப் பத்திர...
4        de spons behoort tot het geslacht haliclona en...
                               ...                        
22995    നിങ്ങളുടെ തെറ്റ് വന്നത് ആ ദിവസം മുതൽ നിങ്ങൾക്ക...
22996    നാർസിസ ആദ്യം പാടുപെട്ട വഴികൾ മാറ്റി, പക്ഷേ പതു...
22997    എങ്ങനെ' സംഭവിച്ച എല്ലാ കാര്യങ്ങളും ഇപ്പോൾ മരിയ...
22998    അവൾക്കറിയാമോ, അവൾക്ക് ഇപ്പോൾ കൂടുതൽ സ്വർണ്ണ റൊ...
22999    ടെറി നിങ്ങൾ യഥാർത്ഥത്തിൽ ആ മാലാഖയെപ്പോലെയാണ് ക...
Name: Text, Length: 23000, dtype: object

In [21]:
data_list = []

# iterating through all the text
for text in x:         
    text = re.sub(r'[!@#$(),n"%^*?:;~`0-9]', ' ', text)      # removing the symbols and numbers
    text = re.sub(r'[[]]', ' ', text)   
    #text = text.lower()          # converting the text to lower case
    data_list.append(text)       # appending to data_list

In [22]:
y=dataset["language"]
y

0         Estonian
1          Swedish
2             Thai
3            Tamil
4            Dutch
           ...    
22995    Malayalam
22996    Malayalam
22997    Malayalam
22998    Malayalam
22999    Malayalam
Name: language, Length: 23000, dtype: object

In [23]:
y.shape

(23000,)

In [24]:
CV=CountVectorizer()

In [25]:
X=CV.fit_transform(data_list)
x_train, x_test, y_train, y_test = train_test_split(X, y,test_size=0.33,random_state=42)                                                    

In [26]:
#Label Encoding to convert it into a numerical form
#from sklearn.preprocessing import LabelEncoder
#le = LabelEncoder()
#y = le.fit_transform(y)
#y

In [27]:
model = MultinomialNB()
model.fit(x_train,y_train)
percent=model.score(x_test,y_test)
print(f"accuracy is : {percent}")


accuracy is : 0.9411067193675889


In [28]:
def predict_language():
    user = input("Enter a Text: ")
    data = CV.transform([user]).toarray()
    output = model.predict(data)
    print(output)
    

In [29]:
predict_language()

Enter a Text: സംഭവിച്ച എല്ലാ കാര്യങ്ങളും 
['Malayalam']
