In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.preprocessing import LabelEncoder
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score

In [2]:
import warnings
warnings.simplefilter("ignore")

In [3]:
data = pd.read_csv('dataset.csv')
print(data.shape)
data.head(10)

(22000, 2)


Unnamed: 0,Text,language
0,klement gottwaldi surnukeha palsameeriti ning ...,Estonian
1,sebes joseph pereira thomas på eng the jesuit...,Swedish
2,ถนนเจริญกรุง อักษรโรมัน thanon charoen krung เ...,Thai
3,விசாகப்பட்டினம் தமிழ்ச்சங்கத்தை இந்துப் பத்திர...,Tamil
4,de spons behoort tot het geslacht haliclona en...,Dutch
5,エノが行きがかりでバスに乗ってしまい、気分が悪くなった際に助けるが、今すぐバスを降りたいと運...,Japanese
6,tsutinalar i̇ngilizce tsuutina kanadada albert...,Turkish
7,müller mox figura centralis circulorum doctoru...,Latin
8,برقی بار electric charge تمام زیرجوہری ذرات کی...,Urdu
9,シャーリー・フィールドは、サン・ベルナルド・アベニュー沿い市民センターとrtマーティン高校に...,Japanese


In [1]:
data['language'].value_counts()

NameError: name 'data' is not defined

Taking only 5000 records for now.

In [4]:
df = pd.DataFrame(data.head(5000))

In [5]:
df

Unnamed: 0,Text,language
0,klement gottwaldi surnukeha palsameeriti ning ...,Estonian
1,sebes joseph pereira thomas på eng the jesuit...,Swedish
2,ถนนเจริญกรุง อักษรโรมัน thanon charoen krung เ...,Thai
3,விசாகப்பட்டினம் தமிழ்ச்சங்கத்தை இந்துப் பத்திர...,Tamil
4,de spons behoort tot het geslacht haliclona en...,Dutch
...,...,...
4995,подводя итог этому последнему разделу творчест...,Russian
4996,اغلب کودکان درذهن خود برداشت خاصی نسبت به مرگ ...,Persian
4997,ladoniat on peetud osaks vilksi kunstiprojekti...,Estonian
4998,안두희는 이러한 경찰과의 인연을 넘어 군의 정보기관 특히 특무대sis의 김창룡金昌龍...,Korean


In [6]:
df['language'].value_counts()

Russian       250
Tamil         240
Japanese      240
Persian       239
Arabic        236
Portugese     234
Turkish       233
Pushto        229
Hindi         229
Dutch         228
French        226
Korean        226
Swedish       226
Estonian      225
Indonesian    223
English       223
Urdu          219
Thai          219
Latin         217
Spanish       217
Romanian      214
Chinese       207
Name: language, dtype: int64

In [7]:
df['language'].unique().size

22

22 unique languages present in the 5000 records that were taken.

'Language' is the dependent and 'Text' is the independent variable in the given dataset. 

In [8]:
X = df['Text']
y = df['language']

'Text' is categorical variable but ML algorithms work with numerical data. So we have to first convert this text into labelled numerical data.

In [9]:
le = LabelEncoder()
encoded_lang = le.fit_transform(y)

In [10]:
df['encoded_lang'] = encoded_lang

In [11]:
print(df.head())

                                                Text  language  encoded_lang
0  klement gottwaldi surnukeha palsameeriti ning ...  Estonian             4
1  sebes joseph pereira thomas  på eng the jesuit...   Swedish            17
2  ถนนเจริญกรุง อักษรโรมัน thanon charoen krung เ...      Thai            19
3  விசாகப்பட்டினம் தமிழ்ச்சங்கத்தை இந்துப் பத்திர...     Tamil            18
4  de spons behoort tot het geslacht haliclona en...     Dutch             2


In [12]:
# check if any numbers or special symbols are there using ReGex -> to do

# for storing new texts
new_text = []

# converting everything to lower case
for text in X:
    text = text.lower()
    new_text.append(text)


In [13]:
new_text[0:5]

['klement gottwaldi surnukeha palsameeriti ning paigutati mausoleumi surnukeha oli aga liiga hilja ja oskamatult palsameeritud ning hakkas ilmutama lagunemise tundemärke  aastal viidi ta surnukeha mausoleumist ära ja kremeeriti zlíni linn kandis aastatel – nime gottwaldov ukrainas harkivi oblastis kandis zmiivi linn aastatel – nime gotvald',
 'sebes joseph pereira thomas  på eng the jesuits and the sino-russian treaty of nerchinsk  the diary of thomas pereira bibliotheca instituti historici s i --   rome libris ',
 'ถนนเจริญกรุง อักษรโรมัน thanon charoen krung เริ่มตั้งแต่ถนนสนามไชยถึงแม่น้ำเจ้าพระยาที่ถนนตก กรุงเทพมหานคร เป็นถนนรุ่นแรกที่ใช้เทคนิคการสร้างแบบตะวันตก ปัจจุบันผ่านพื้นที่เขตพระนคร เขตป้อมปราบศัตรูพ่าย เขตสัมพันธวงศ์ เขตบางรัก เขตสาทร และเขตบางคอแหลม',
 'விசாகப்பட்டினம் தமிழ்ச்சங்கத்தை இந்துப் பத்திரிகை-விசாகப்பட்டின ஆசிரியர் சம்பத்துடன் இணைந்து விரிவுபடுத்தினார்  ஆண்டுகள் தொடர்ந்து செயலராக இருந்து தமிழ்மன்றத்தை நடத்திச் சென்றார்  கோவை செம்மொழி மாநாட்டில் "தமிழ்ச்சங்கங்களு

Getting features out of the text.

https://www.geeksforgeeks.org/using-countvectorizer-to-extracting-features-from-text/

In [14]:
cv = CountVectorizer()
X = cv.fit_transform(new_text).toarray()

In [15]:
cv.get_feature_names()

['aa',
 'aabdel',
 'aadressil',
 'aaea',
 'aafrika',
 'aala',
 'aan',
 'aanbiedingen',
 'aanblijven',
 'aandacht',
 'aandrijft',
 'aanduiding',
 'aangebracht',
 'aangedreven',
 'aangehecht',
 'aangepast',
 'aangestoken',
 'aangeven',
 'aangevochten',
 'aanhangsels',
 'aankwam',
 'aanleg',
 'aanleiding',
 'aanmeldde',
 'aannamen',
 'aansluit',
 'aansluiting',
 'aansluitpunt',
 'aanstormend',
 'aantal',
 'aantreden',
 'aanvaard',
 'aanvaarden',
 'aanvaardt',
 'aanval',
 'aanvallen',
 'aanvalspacten',
 'aanvankelijk',
 'aanvragen',
 'aanvullende',
 'aanwezig',
 'aanwezigheid',
 'aarau',
 'aardvark',
 'aarne',
 'aarschotleuven',
 'aartsbisschop',
 'aas',
 'aasgarnalensoort',
 'aasta',
 'aastaaeg',
 'aastad',
 'aastaga',
 'aastail',
 'aastaks',
 'aastakümned',
 'aastal',
 'aastale',
 'aastane',
 'aastani',
 'aastaraamatus',
 'aastas',
 'aastase',
 'aastast',
 'aastat',
 'aastate',
 'aastatel',
 'aastateni',
 'aastatest',
 'aawordaim',
 'ab',
 'abad',
 'abade',
 'abadi',
 'abaixo',
 'abandon

In [16]:
X.shape

(5000, 95747)

5000 rows and 95747 columns/features.

In [28]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state=0)

There are mainly two NB algorithms for text classification - Multinomial NB and Bernoulli NB.

In [29]:
model = MultinomialNB()

In [30]:
model.fit(X_train, y_train)

MultinomialNB()

In [31]:
y_pred = model.predict(X_test)

In [32]:
y_pred

array(['Turkish', 'English', 'Portugese', ..., 'Portugese', 'Romanian',
       'English'], dtype='<U10')

Accuracy:

In [33]:
ac = accuracy_score(y_test, y_pred)
print(ac)

0.9453333333333334
