In [2]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report


In [3]:
#importando os idiomas Português, inglês e Alemão
eng_port = pd.read_csv('data/por.txt', delimiter='\t', header=None, names=['Inglês', 'Português', 'Licença'])
eng_deu = pd.read_csv('data/deu.txt', delimiter='\t', header=None, names=['Inglês', 'Alemão', 'Licença'])


In [4]:
# Pegando os dados de Portugês e Alemão
portugues_data = pd.DataFrame({'texto': eng_port['Português'], 'idioma': 'Português'})
alemao_data = pd.DataFrame({'texto': eng_deu['Alemão'], 'idioma': 'Alemão'})


In [5]:
ingles_data1 = eng_port['Inglês']
ingles_data2 = eng_deu['Inglês']


In [6]:
# Concatenando os dados
ingles_concat = pd.concat([ingles_data1,ingles_data2])
# Retirando dados duplicados
ingles_concat = ingles_concat.drop_duplicates()
#Transformando em DataFrame
ingles_data = pd.DataFrame({'texto': ingles_concat, 'idioma': 'Inglês'})


In [7]:
#Conatenando todos os dados:
df_linguas = pd.concat([portugues_data,alemao_data,ingles_data])
df_linguas = df_linguas.drop_duplicates()


(775055, 2)
(731607, 2)


In [8]:
X = df_linguas['texto']
y = df_linguas['idioma']


In [9]:
# Criando treino e teste
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [10]:
vectorizer = CountVectorizer()
x_train_counts = vectorizer.fit_transform(x_train)
x_test_counts = vectorizer.transform(x_test)

In [11]:
clf = MultinomialNB()
clf.fit(x_train_counts, y_train)
y_pred = clf.predict(x_test_counts)

In [12]:
print(f'Acurácia: {accuracy_score(y_test, y_pred)}')
print(classification_report(y_test, y_pred))

Acurácia: 0.9994737633438581
              precision    recall  f1-score   support

      Alemão       1.00      1.00      1.00     49647
      Inglês       1.00      1.00      1.00     60815
   Português       1.00      1.00      1.00     35860

    accuracy                           1.00    146322
   macro avg       1.00      1.00      1.00    146322
weighted avg       1.00      1.00      1.00    146322



In [31]:
#Função para executar o modelo
def detectar_idioma(frase):
    frase_count = vectorizer.transform([frase])
    probabilidades = clf.predict_proba(frase_count)[0]  
    maior_probabilidade = np.argmax(probabilidades)
    
    # Lógica para retornar respostas condizentes, evitando chutes com probabilidade baixa
    if probabilidades[maior_probabilidade] > 0.5:
        return clf.classes_[maior_probabilidade]
    else:
        return 'idioma desconhecido'

In [32]:
# Executando o modelo
print(detectar_idioma('Eu estou certo'))
print(detectar_idioma('Ich bin mir sicher'))
print(detectar_idioma('I am sure'))
print(detectar_idioma('باليقين')) 

Português
Alemão
Inglês
idioma desconhecido
