# NLP - Natural Language Process

1. **Vetorização de Texto:**
   - Transformar textos em representações numéricas. Isso pode ser feito usando técnicas como Bag of Words (BoW) ou embeddings (por exemplo, Word2Vec, GloVe).

2. **Escolha do Modelo de Machine Learning:**
   - Selecionar um modelo adequado para a tarefa. Para classificação de texto, o Naive Bayes (como o MultinomialNB) é uma escolha comum, mas há outros modelos, como Support Vector Machines (SVM), Redes Neurais, entre outros.

3. **Treinamento do Modelo:**
   - Utilizar um conjunto de dados rotulado para treinar o modelo. Isso envolve apresentar os textos vetorizados ao modelo, juntamente com seus rótulos correspondentes. O modelo aprende a relação entre os textos e os rótulos.

4. **Avaliação do Modelo:**
   - Avaliar o desempenho do modelo em um conjunto de dados de teste para garantir que ele generalize bem para novos dados não vistos.

5. **Previsões em Novos Textos:**
   - Uma vez treinado e avaliado, o modelo pode ser usado para fazer previsões em novos textos vetorizados. Isso é útil para classificar sentimentos, categorizar documentos, entre outras tarefas.

Esses passos resumem a abordagem básica de um projeto de Processamento de Linguagem Natural (NLP) com Machine Learning. O uso do MultinomialNB é apenas um exemplo; a escolha do modelo depende da natureza específica da tarefa e dos dados. O NLP é uma área rica e em constante evolução, com uma variedade de técnicas e modelos disponíveis para diversas aplicações.

In [1]:
#pip install sklearn

In [2]:
# Importando as bibliotecas necessárias
import pandas as pd
import random
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report

In [3]:
# Gerando 200 avaliações fictícias
def generate_reviews(n):
    adjectives = ["Incrível", "Bom", "Ruim", "Fantástico", "Horrível", "Ótimo", "Insatisfatório", "Excelente"]
    services = ["serviço", "produto", "atendimento", "entrega", "qualidade"]
    
    reviews = []
    sentiments = []
    
    for _ in range(n):
        review = f"{random.choice(adjectives)} {random.choice(services)}!"
        sentiment = random.choice(["Positivo", "Negativo"])
        
        reviews.append(review)
        sentiments.append(sentiment)
    
    return reviews, sentiments

# Gerando o conjunto de dados
reviews, sentiments = generate_reviews(200)

# Criando um DataFrame a partir do conjunto de dados
df = pd.DataFrame({'Avaliação': reviews, 'Sentimento': sentiments})

# Exibindo uma amostra do conjunto de dados
df.head()

Unnamed: 0,Avaliação,Sentimento
0,Incrível qualidade!,Negativo
1,Incrível entrega!,Positivo
2,Excelente atendimento!,Positivo
3,Bom qualidade!,Positivo
4,Horrível qualidade!,Positivo


### Modelo ML Naive Bayes

In [4]:
# Dados de exemplo: Avaliações rotuladas com sentimentos
reviews = df["Avaliação"]
sentiments = df["Sentimento"]

# Dividindo os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(reviews, sentiments, test_size=0.2, random_state=42)

In [5]:
# Vetorizando os textos usando Bag of Words

#Transforma os textos em vetores numéricos.
vectorizer = CountVectorizer()

#Aprende o vocabulário e transforma os documentos em vetores numéricos.
X_train_vectorized = vectorizer.fit_transform(X_train)

#Transforma os documentos em vetores numéricos.
X_test_vectorized = vectorizer.transform(X_test)

In [6]:
# Treinando o modelo Naive Bayes

#MultinomialNB, é um classificador Naive Bayes adequado para dados discretos, como contagens de palavras.
classifier = MultinomialNB()
#Treino do modelo com os vetores de treinamento (X_train_vectorized) e os rótulos correspondentes (y_train).
classifier.fit(X_train_vectorized, y_train)

# Fazendo previsões no conjunto de teste
predictions = classifier.predict(X_test_vectorized)

In [7]:
# Avaliando o desempenho do modelo
accuracy = accuracy_score(y_test, predictions)

# Imprimindo os resultados
print(f"Acurácia: {accuracy}")

Acurácia: 0.525


In [8]:
report = classification_report(y_test, predictions)
print("Relatório de Classificação:\n", report)

Relatório de Classificação:
               precision    recall  f1-score   support

    Negativo       0.41      0.44      0.42        16
    Positivo       0.61      0.58      0.60        24

    accuracy                           0.53        40
   macro avg       0.51      0.51      0.51        40
weighted avg       0.53      0.53      0.53        40



## Previsões em novos textos

In [9]:
# Gerando mais 300 avaliações fictícias sem rótulos de sentimentos
new_reviews, _ = generate_reviews(300)

# Criando um novo DataFrame sem os rótulos de sentimentos
new_df = pd.DataFrame({'Avaliação': new_reviews})

# Exibindo uma amostra do novo conjunto de dados
new_df.head()

Unnamed: 0,Avaliação
0,Fantástico qualidade!
1,Horrível atendimento!
2,Insatisfatório entrega!
3,Incrível atendimento!
4,Horrível serviço!


In [10]:
# Vetorizando as novas avaliações
new_reviews_vectorized = vectorizer.transform(new_df['Avaliação'])

# Fazendo previsões usando o modelo treinado
new_predictions = classifier.predict(new_reviews_vectorized)

# Adicionando as previsões ao DataFrame
new_df['Sentimento_Previsto'] = new_predictions

# Exibindo o DataFrame com as previsões
new_df.head()

Unnamed: 0,Avaliação,Sentimento_Previsto
0,Fantástico qualidade!,Negativo
1,Horrível atendimento!,Positivo
2,Insatisfatório entrega!,Positivo
3,Incrível atendimento!,Positivo
4,Horrível serviço!,Positivo
