
# Técnicas Clássicas de Machine Learning
Neste notebook vamos abordar as técnicas clássicas de Machine Learning:
apresenta uma explicação didática e exemplos práticos de algumas técnicas clássicas de Machine Learning, utilizando um dataset de reclamações de usuários. As técnicas abordadas serão:

1. **Árvore de Decisão (Decision Tree)**
2. **Floresta Aleatória (Random Forest)**
3. **Naive Bayes**

Aplicadas ao dataset de *reclamações de usuários*. Para isso vamos usar embeddings. 

# Técnicas Clássicas de Machine Learning

Neste notebook, exploraremos técnicas clássicas de **Machine Learning** c e exemplos práticos. Utilizaremos um dataset de reclamações de usuários para aplicar e demonstrar o funcionamento de três modelos amplamente utilizados:

1. **Árvore de Decisão (Decision Tree):** Simples e interpretável, usada para classificação.
2. **Floresta Aleatória (Random Forest):** Combinação de árvores para maior precisão.
3. **Naive Bayes:** Baseado no Teorema de Bayes, eficiente para classificação de texto.

Usaremos **embeddings** para transformar textos em representações numéricas e, com base nessas representações, treinaremos os. ativo**.



---
---


# Árvore de Decisão (Decision Tree)

## O que é uma Árvore de Decisão?
Uma **Árvore de Decisão** é um modelo de Machine Learning usado para **tomar decisões** ou **classificar dados**. Ela funciona como uma sequência de perguntas ou condições que ajudam a dividir os dados até chegar a uma decisão final.

Imagine que você precisa decidir se leva um guarda-chuva para sair. Você pode pensar assim:
1. Está chovendo?  
   - Se SIM: Leve o guarda-chuva.  
   - Se NÃO: Pergunte outra coisa.  
2. O céu está nublado?  
   - Se SIM: Talvez seja bom levar o guarda-chuva.  
   - Se NÃO: Não leve o guarda-chuva.

A Árvore de Decisão organiza essas perguntas em um formato visual com **nós** (as perguntas) e **ramificações** (as respostas).

<img src="DT.drawio.png" alt="Decision Tree" width="500"/>


## Como Funciona?
1. **Ponto de Partida**: A árvore começa com uma pergunta geral sobre os dados (chamado **nó raiz**).  
   Exemplo: *"Qual a palavra mais importante no texto da reclamação?"*

2. **Divisão dos Dados**: Com base nas respostas, os dados são divididos em grupos menores.  
   Exemplo: *"Se o texto contém palavras negativas como 'ruim' ou 'péssimo', classifique como 'sentimento negativo'."*

3. **Classificação Final**: A árvore continua fazendo perguntas até chegar a uma **folha**, onde está a resposta final.  
   Exemplo: *"Reclamação é classificada como 'positivo', 'neutro' ou 'negativo'."*

---

## Por que usar uma Árvore de Decisão?
1. **Simplicidade**: É fácil de entender e interpretar, pois se parece com um fluxograma.
2. **Rápida**: Treina rapidamente em datasets pequenos ou médios.
3. **Versátil**: Pode ser usada para classificação (categorias) ou regressão (valores numéricos).

---

## Limitações
1. **Pode "memorizar" os dados (overfitting)**: Se a árvore for muito profunda, ela pode se tornar muito específica e errar em novos dados.
2. **Sensível a mudanças nos dados**: Pequenas mudanças no dataset podem gerar árvores completamente diferentes.

---

## O que faremos com uma Árvore de Decisão?
Neste notebook, usaremos uma Árvore de Decisão para **classificar o sentimento das reclamações** (**positivo**, **neutro**, ou **negativo**) com base no texto da reclamação.

As etapas serão:
1. **Pré-processar o texto**: Transformar os textos em números usando um método chamado **TF-IDF**.
2. **Treinar o modelo**: Ensinar a árvore de decisão a identificar padrões no texto.
3. **Avaliar o modelo**: Verificar se o modelo consegue classificar os sentimentos corretamente.
4. **Interpretar o modelo**: Visualizar a árvore e entender como ela toma as decisões.



## Carregando e Explorando o Dataset
Primeiro, carregamos o dataset para entender sua estrutura e preparar os dados para análise.

```python
import pandas as pd

# Carregar o dataset
data = pd.read_csv('reclamações.csv')

# Mostrar as primeiras linhas
print(data.head())
```



## Preparação dos Dados
Para as técnicas de Machine Learning, precisamos preparar o dataset. Isso inclui:

1. Selecionar as colunas relevantes.
2. Transformar os rótulos (**sentimento**) em valores numéricos.
3. Dividir o dataset em treino e teste.

```python
from sklearn.model_selection import train_test_split

# Seleção de colunas relevantes
data = data[['descricao', 'sentimento']]

# Remoção de valores nulos
data.dropna(inplace=True)

# Transformar rótulos em números
data['sentimento'] = data['sentimento'].map({'positive': 2, 'neutral': 1, 'negative': 0})

# Dividir em treino e teste
X = data['descricao']
y = data['sentimento']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("Dados de treino e teste preparados!")
```



## Árvore de Decisão
Uma **Árvore de Decisão** é um modelo que divide os dados em ramificações com base em condições. É fácil de interpretar e eficiente para problemas simples.

### Implementação
Usaremos o **TfidfVectorizer** para converter o texto em vetores numéricos e o classificador `DecisionTreeClassifier` para treinar e prever.

```python
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report

# Vetorização dos textos
vectorizer = TfidfVectorizer()
X_train_vec = vectorizer.fit_transform(X_train)
X_test_vec = vectorizer.transform(X_test)

# Treinamento da Árvore de Decisão
dt_model = DecisionTreeClassifier(random_state=42)
dt_model.fit(X_train_vec, y_train)

# Avaliação
y_pred_dt = dt_model.predict(X_test_vec)
print("Relatório de Classificação - Árvore de Decisão:")
print(classification_report(y_test, y_pred_dt))
```



## Floresta Aleatória
Uma **Floresta Aleatória** combina várias árvores de decisão para melhorar a precisão e reduzir o overfitting.

### Implementação
Usaremos o mesmo vetor de texto e a classe `RandomForestClassifier`.

```python
from sklearn.ensemble import RandomForestClassifier

# Treinamento da Floresta Aleatória
rf_model = RandomForestClassifier(random_state=42, n_estimators=100)
rf_model.fit(X_train_vec, y_train)

# Avaliação
y_pred_rf = rf_model.predict(X_test_vec)
print("Relatório de Classificação - Floresta Aleatória:")
print(classification_report(y_test, y_pred_rf))
```



## Naive Bayes
O **Naive Bayes** é baseado no Teorema de Bayes, assumindo que os atributos são independentes. É rápido e eficiente para classificação de texto.

### Implementação
Usaremos o `MultinomialNB` para treinar o modelo.

```python
from sklearn.naive_bayes import MultinomialNB

# Treinamento do Naive Bayes
nb_model = MultinomialNB()
nb_model.fit(X_train_vec, y_train)

# Avaliação
y_pred_nb = nb_model.predict(X_test_vec)
print("Relatório de Classificação - Naive Bayes:")
print(classification_report(y_test, y_pred_nb))
```



## Conclusão
Neste notebook, exploramos três técnicas clássicas de Machine Learning:

1. **Árvore de Decisão**: Simples e interpretável, mas pode sofrer de overfitting.
2. **Floresta Aleatória**: Combina árvores para maior precisão e generalização.
3. **Naive Bayes**: Rápido e eficiente, especialmente para texto.

Cada técnica tem suas vantagens e desvantagens. Experimente ajustar os parâmetros ou aplicar em outros datasets para explorar mais!
