# **Detecção de Linguagem com Naive Bayes**

**Objetivo**

* Criar um algoritmo de machine learning capaz de identificar uma linguagem de escrita.

### **1. Introdução**

<p align="justify">
Este projeto de Machine Learning visa abordar o desafio intrigante de detectar a linguagem de escrita a partir de um conjunto diversificado de dados textuais. Com o intuito de alcançar essa meta, adotaremos o algoritmo Naive Bayes, uma técnica probabilística que se mostrou eficaz em tarefas de classificação. A diversidade linguística apresenta um terreno fértil para aplicação dessa abordagem, considerando que diferentes idiomas exibem padrões distintos em sua estrutura e uso vocabular.

In [None]:
# Carregando biblioteca

import numpy as np
import pandas as pd

from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_report
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer

In [None]:
# Carregando base de dados

dados = pd.read_csv('/content/drive/MyDrive/Ciência de Dados com Python/Projetos/Dados/Language_Dataset.csv', sep = ',')

In [None]:
# Visualizando dados

dados.head()

Unnamed: 0,Text,language
0,klement gottwaldi surnukeha palsameeriti ning ...,Estonian
1,sebes joseph pereira thomas på eng the jesuit...,Swedish
2,ถนนเจริญกรุง อักษรโรมัน thanon charoen krung เ...,Thai
3,விசாகப்பட்டினம் தமிழ்ச்சங்கத்தை இந்துப் பத்திர...,Tamil
4,de spons behoort tot het geslacht haliclona en...,Dutch


### **2. Análise Exploratória de Dados**

In [None]:
# Informação do dataset

dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 22000 entries, 0 to 21999
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   Text      22000 non-null  object
 1   language  22000 non-null  object
dtypes: object(2)
memory usage: 343.9+ KB


In [None]:
# Verificando a existência de valores faltantes

dados.isnull().sum()

Text        0
language    0
dtype: int64

In [None]:
# Contagem de dados por frase

dados["language"].value_counts()

Estonian      1000
Swedish       1000
English       1000
Russian       1000
Romanian      1000
Persian       1000
Pushto        1000
Spanish       1000
Hindi         1000
Korean        1000
Chinese       1000
French        1000
Portugese     1000
Indonesian    1000
Urdu          1000
Latin         1000
Turkish       1000
Japanese      1000
Dutch         1000
Tamil         1000
Thai          1000
Arabic        1000
Name: language, dtype: int64

### **3. Pré-Processamento de Dados e Construção do Modelo**

In [None]:
# Separando os dados em previsores e classes

X_dados = np.array(dados["Text"])
y_dados = np.array(dados["language"])

In [None]:
# Transformando frases em vetores de frequência

## Instânciando objeto
Count_Vectorizer = CountVectorizer()

## Realizando transformação
X_dados = Count_Vectorizer.fit_transform(X_dados)

In [None]:
# Dividindo dados em treino e teste

X_treino, X_teste, y_treino, y_teste = train_test_split(X_dados,
                                                        y_dados,
                                                        test_size = 0.3,
                                                        random_state = 0)

In [None]:
# Instânciando modelo

modelo = MultinomialNB()

In [None]:
# Treinando modelo

modelo.fit(X_treino, y_treino)

In [None]:
# Aplicando aos dados de teste

y_predito = modelo.predict(X_teste)

### **4. Avaliando e Testando o Modelo**

In [None]:
# Acurácia do modelo

modelo.score(X_teste, y_teste)

0.9553030303030303

In [None]:
# Métricas do modelo

print(classification_report(y_teste, y_predito))

              precision    recall  f1-score   support

      Arabic       1.00      1.00      1.00       282
     Chinese       0.95      0.53      0.68       296
       Dutch       0.99      0.98      0.98       287
     English       0.69      1.00      0.82       308
    Estonian       0.99      0.96      0.97       279
      French       0.94      1.00      0.97       310
       Hindi       1.00      0.98      0.99       286
  Indonesian       0.99      0.99      0.99       292
    Japanese       0.70      0.87      0.78       278
      Korean       1.00      0.99      1.00       309
       Latin       0.99      0.90      0.94       303
     Persian       1.00      1.00      1.00       275
   Portugese       0.99      0.93      0.96       290
      Pushto       1.00      0.96      0.98       300
    Romanian       1.00      0.99      0.99       300
     Russian       0.99      0.99      0.99       329
     Spanish       0.97      0.98      0.98       291
     Swedish       0.99    

In [None]:
# Realizando teste

user = input("Digite uma Frase: ")
data = Count_Vectorizer.transform([user]).toarray()
output = modelo.predict(data)
print(output)

Digite uma Frase: Mudar pode dar medo, mas é uma aventura que pode te levar muito longe.
['Portugese']


### **5. Considerações Finais**

<p align="justify">
Ao analisar as métricas de precision, recall e f1-score para cada classe, observamos resultados notáveis em várias línguas. Destacamos algumas considerações-chave:

* Línguas como Árabe, Persa, Pushto e Tailandês demonstraram uma detecção excepcionalmente precisa, atingindo 100% de precision e recall. Isso indica uma capacidade robusta do modelo em identificar corretamente essas línguas;

* Chinês e Inglês apresentaram um desempenho equilibrado, com precision e recall adequados. No entanto, a precisão mais baixa para Chinês sugere desafios específicos nessa língua, possivelmente devido à sua complexidade e diversidade;

* A acurácia geral do modelo atingiu 96%, indicando uma capacidade consistente em lidar com uma variedade de línguas. Isso ressalta a eficácia do modelo em contextos multilíngues;

* Considerando a natureza dinâmica do uso de linguagens, sugere-se a continuidade da otimização do modelo para enfrentar possíveis desafios em línguas com desempenho inferior, como o Inglês.

<p align="justify">
Em resumo, o modelo de detecção de linguagem apresenta resultados promissores, proporcionando uma base sólida para aplicações práticas. A análise das métricas individuais fornece insights valiosos para refinamentos futuros, visando aprimorar ainda mais a precisão e a robustez do modelo em ambientes diversos e em constante evolução.