Python kullanarak Dil Algılama
Gerekli Python kitaplıklarını ve veri kümesini içe aktararak makine öğrenimi ile dil algılama görevine başlayalım:

In [1]:
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
data = pd.read_csv("https://raw.githubusercontent.com/amankharwal/Website-data/master/dataset.csv")
print(data.head())

                                                Text  language
0  klement gottwaldi surnukeha palsameeriti ning ...  Estonian
1  sebes joseph pereira thomas  på eng the jesuit...   Swedish
2  ถนนเจริญกรุง อักษรโรมัน thanon charoen krung เ...      Thai
3  விசாகப்பட்டினம் தமிழ்ச்சங்கத்தை இந்துப் பத்திர...     Tamil
4  de spons behoort tot het geslacht haliclona en...     Dutch


Bu veri kümesinin herhangi bir null değer içerip içermediğine bir göz atalım:

In [2]:
data.isnull().sum()

Text        0
language    0
dtype: int64

Şimdi bu veri kümesinde bulunan tüm dillere bir göz atalım:

In [3]:
data["language"].value_counts()

language
Estonian      1000
Swedish       1000
Thai          1000
Tamil         1000
Dutch         1000
Japanese      1000
Turkish       1000
Latin         1000
Urdu          1000
Indonesian    1000
Portugese     1000
French        1000
Chinese       1000
Korean        1000
Hindi         1000
Spanish       1000
Pushto        1000
Persian       1000
Romanian      1000
Russian       1000
English       1000
Arabic        1000
Name: count, dtype: int64

Bu veri seti, her dilden 1000 cümle ile 22 dil içerir. Bu, eksik değeri olmayan çok dengeli bir veri kümesidir, bu nedenle bu veri kümesinin bir makine öğrenimi modelini eğitmek için kullanılmaya tamamen hazır olduğunu söyleyebiliriz.

Dil Algılama Modeli
Şimdi verileri eğitim ve test kümelerine ayıralım:

In [4]:
x = np.array(data["Text"])
y = np.array(data["language"])

cv = CountVectorizer()
X = cv.fit_transform(x)
X_train, X_test, y_train, y_test = train_test_split(X, y, 
                                                    test_size=0.33, 
                                                    random_state=42)

Bu çok sınıflı bir sınıflandırma sorunu olduğundan, dil algılama modelini eğitmek için 
Çok Terimli Naif Bayes algoritmasını kullanacağım çünkü bu algoritma çok sınıflı sınıflandırmaya dayalı 
problemler üzerinde her zaman çok iyi performans gösterir:

In [5]:
model = MultinomialNB()
model.fit(X_train,y_train)
model.score(X_test,y_test)

0.953168044077135

Şimdi bir kullanıcı girdisi alarak bir metnin dilini algılamak için bu modeli kullanalım:

In [6]:
user = input("Enter a Text: ")
data = cv.transform([user]).toarray()
output = model.predict(data)
print(output)

['Chinese']
