In [1]:
import numpy as np
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import dill

In [2]:
# Load the dataset
df = pd.read_csv("../Data/Language_det_train.csv")
df.head()

Unnamed: 0,Text,Language
0,στη Γαλλία νωρίτερα ραντεβού χρησιμοποιήθηκε α...,Greek
1,e con ciò lei salì nella sua carrozza e senza ...,Italian
2,buna değmez.,Turkish
3,Viktiga skillnader är att i en wiki lagras sid...,Sweedish
4,تعرف على ما إذا كان شخص ما يقول نكتة رائعة يمك...,Arabic


In [3]:
df[df["Text"].duplicated(keep=False)].sort_values(by=["Text"])

Unnamed: 0,Text,Language
2830,(Δείτε την γρήγορη διαγραφή σελίδων για πιθανο...,Greek
7107,(Δείτε την γρήγορη διαγραφή σελίδων για πιθανο...,Greek
4966,.,Arabic
2892,.,Arabic
1396,Ach du lieber Gott.,German
...,...,...
6288,എന്നോട് ക്ഷമിക്കൂ.,Malayalam
760,എന്നോട് ക്ഷമിക്കൂ.,Malayalam
3608,എന്നോട് ക്ഷമിക്കൂ.,Malayalam
2752,ഓ എന്റെ ദൈവമേ.,Malayalam


In [4]:
df["Language"].value_counts()

Language
English       1316
French         963
Spanish        778
Portugeese     702
Italian        663
Russian        657
Sweedish       642
Malayalam      564
Dutch          519
Arabic         509
Turkish        450
German         446
Tamil          446
Danish         407
Kannada        351
Greek          347
Hindi           60
Name: count, dtype: int64

In [5]:
# Split the dataset into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(df['Text'], df['Language'], test_size=0.2, random_state=42,stratify=df['Language'].values)

# Vectorize the text data using n-grams
vectorizer = CountVectorizer(ngram_range=(1, 2))
X_train_vec = vectorizer.fit_transform(X_train)
X_test_vec = vectorizer.transform(X_test)

# Train the classifier
classifier = MultinomialNB()
classifier.fit(X_train_vec, y_train)

# Predict the language for test data
y_pred = classifier.predict(X_test_vec)

# Evaluate the model
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)


Accuracy: 0.9694501018329938


In [6]:
for i,row in df[df["Language"] == "Arabic"].iterrows():
    print(row["Text"])
    print(classifier.predict(vectorizer.transform([row["Text"]]))[0])

تعرف على ما إذا كان شخص ما يقول نكتة رائعة يمكنك أن تقول إنها جيدة.
Arabic
هذا سؤال جيد.
Arabic
[23] عزا فريق في مركز بالو ألتو للأبحاث هذا التباطؤ في النمو إلى التفرد المتزايد للمشروع ومقاومته للتغيير.
Arabic
إنها جيدة بالنسبة لك ، سيكون أفضل بدونك وهذا معنى سلبي ، لذا استمع حقًا إلى التنغيم.
Arabic
تم تدوين سياسة ويكيبيديا الخاصة بـ "وجهة نظر محايدة" في الأشهر القليلة الأولى لها.
Arabic
وتعتمد ويكيبيديا على برنامج ميدياويكي، وهو برنامج ويكي مفتوح المصدر مرخص تحت رخصة جنو العمومية.
Arabic
ماذا تقول نذهب الى السينما ماذا عن تناول البيتزا على العشاء الليلة؟ هذا سيكون رائع.
Arabic
إذا حصل شخص ما على وظيفة أحلامه في كل ما يمكنك قوله محظوظًا أو دخل أي شخص إلى الجامعة ، فإن أحلامه مثل محظوظ ، فهذه طريقة لتهنئة الشخص المحظوظ أو مجرد التأكيد على أنه محظوظ لك بطريقة أخرى إن كنت غاضبًا حقًا هو أن أقول إنني شعرت بالخوف كما لو كنت غاضبًا جدًا.
Arabic
لذلك سوف نتعلم اليوم 10 كلمات ذكية جديدة معانيها ، كلمات جذرية وجمل أمثلة لذلك دعونا نبدأ كل من هذا وأنتم تشاهدون.
Arabic
يا عزيزتي ذات ليلة عندما ك

In [7]:
with open("../Models/vectorizer.pkl", 'wb') as file:
    dill.dump(vectorizer, file)

In [8]:
with open("../Models/classifier.pkl", 'wb') as file:
    dill.dump(classifier, file)