In [1]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score

In [3]:
# Load dataset
df = pd.read_csv("Language Detection.csv")
print(df.tail(10))

                                                    Text Language
10327  ಗಾಡಿಯಲ್ಲಿ ಮನೆಯಲ್ಲಿ ನಾರ್ಸಿಸ್ ಅವಳು ಮನೆಗೆ ತಲುಪಿದಾ...  Kannada
10328  ಅವಳು ಮನೆಯಲ್ಲಿ ಕುಳಿತಿದ್ದ ತನ್ನ ತಾಯಿಯನ್ನು ತಬ್ಬಿಕೊ...  Kannada
10329  ಓಹ್ ತಾಯಿ ನಾನು ನಿನ್ನನ್ನು ತುಂಬಾ ಪ್ರೀತಿಸುತ್ತೇನೆ ಮ...  Kannada
10330  ಅವನು ಸುಂದರವಾಗಿದ್ದನು, ಅವನು ನನ್ನ ಬಗ್ಗೆ ಅಷ್ಟಾಗಿ ಕ...  Kannada
10331          ಓಹ್ ಇಲ್ಲ ನೀವು ನೋಡಿದಾಗಿನಿಂದ ಇದು ಸರಿಯಾಗಿದೆ.  Kannada
10332  ನಿಮ್ಮ ತಪ್ಪು ಏನು ಬಂದಿದೆಯೆಂದರೆ ಆ ದಿನದಿಂದ ನಿಮಗೆ ಒ...  Kannada
10333  ನಾರ್ಸಿಸಾ ತಾನು ಮೊದಲಿಗೆ ಹೆಣಗಾಡುತ್ತಿದ್ದ ಮಾರ್ಗಗಳನ್...  Kannada
10334  ಹೇಗೆ ' ನಾರ್ಸಿಸಿಸಮ್ ಈಗ ಮರಿಯನ್ ಅವರಿಗೆ ಸಂಭವಿಸಿದ ಎ...  Kannada
10335  ಅವಳು ಈಗ ಹೆಚ್ಚು ಚಿನ್ನದ ಬ್ರೆಡ್ ಬಯಸುವುದಿಲ್ಲ ಎಂದು ...  Kannada
10336  ಟೆರ್ರಿ ನೀವು ನಿಜವಾಗಿಯೂ ಆ ದೇವದೂತನಂತೆ ಸ್ವಲ್ಪ ಕಾಣು...  Kannada


In [4]:
# Preprocessing
# Assuming the text column is named 'text' and language column is named 'language'
# You might need to adjust preprocessing based on your specific dataset
df['Text'] = df['Text'].apply(lambda x: x.lower())

In [5]:
# Split dataset into train and test sets
X_train, X_test, y_train, y_test = train_test_split(df['Text'], df['Language'], test_size=0.2, random_state=42)

In [6]:
# Feature extraction using TF-IDF
tfidf_vectorizer = TfidfVectorizer()
X_train_tfidf = tfidf_vectorizer.fit_transform(X_train)
X_test_tfidf = tfidf_vectorizer.transform(X_test)

In [7]:
# Model training
model = MultinomialNB()
model.fit(X_train_tfidf, y_train)

In [8]:
# Evaluation
y_pred = model.predict(X_test_tfidf)
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

Accuracy: 0.9579303675048356


In [9]:
# Inference function
def detect_language(text):
    text = text.lower()
    text_tfidf = tfidf_vectorizer.transform([text])
    predicted_language = model.predict(text_tfidf)[0]
    print("Text is:", text)
    print("Detected language is:", predicted_language)

In [10]:
input_text = "Весна пришла, и с ней пришли первые лучи солнца и пение птиц. В такие моменты хочется просто выйти на улицу и насладиться всей этой красотой."
detect_language(input_text)

Text is: весна пришла, и с ней пришли первые лучи солнца и пение птиц. в такие моменты хочется просто выйти на улицу и насладиться всей этой красотой.
Detected language is: Russian


In [11]:
import pickle
pickle.dump(model, open('model.pkl', 'wb'))

In [12]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Assuming X_train is your training data (list of text documents)
# Initialize and fit the TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer()
tfidf_vectorizer.fit(X_train)

# Save the trained TfidfVectorizer object to a file
with open('tfidf_vectorizer.pkl', 'wb') as file:
    pickle.dump(tfidf_vectorizer, file)