# Sklearn - Treinando um modelo de classificação

- **FASE 2 - Treinando o modelo

https://chat.qwen.ai/c/be121dfe-f854-4298-b0b5-4010e1ca41b5

## 🎯 Objetivo

O modelo será treinado para prever a variável `categoria` (que pode ser `"A"` ou `"B"`) com base nas demais colunas do dataset, após todo o pré-processamento que fizemos.

Treinar um modelo de **Regressão Logística** usando:
- Dados já pré-processados (`df_final`)
- Divisão entre dados de treino e teste
- Métricas de avaliação

### 🐍 Código - Importar Bibliotecas

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from joblib import dump, load

### 🔖 Explicações

| Biblioteca / Classe                    | Finalidade Principal                                      |
|---------------------------------------|------------------------------------------------------------|
| `train_test_split`                    | Dividir dados em conjuntos de treino e teste              |
| `LogisticRegression`                  | Treinar um modelo de classificação                        |
| `accuracy_score`                      | Medir a porcentagem de acertos do modelo                  |
| `classification_report`               | Relatório detalhado com precisão, recall e f1-score       |
| `confusion_matrix`                    | Visualizar os tipos de erros do modelo                    |

## Carregando o Dataset

### 🐍 Código

In [6]:
df = pd.read_csv('dataset-fase1/dataset_sudeste_simples_realista_outliers-2k-fase1.csv')

## Analisando o Dataset

### 🐍 Código

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1991 entries, 0 to 1990
Data columns (total 22 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   id                     1991 non-null   int64  
 1   idade                  1991 non-null   float64
 2   renda                  1991 non-null   float64
 3   cidade                 1979 non-null   object 
 4   categoria              1970 non-null   object 
 5   nota                   1991 non-null   float64
 6   feedback               1966 non-null   object 
 7   cidade_Belo Horizonte  1991 non-null   float64
 8   cidade_Rio de Janeiro  1991 non-null   float64
 9   cidade_São Paulo       1991 non-null   float64
 10  cidade_Vitória         1991 non-null   float64
 11  cidade_nan             1991 non-null   float64
 12  categoria_A            1991 non-null   float64
 13  categoria_B            1991 non-null   float64
 14  categoria_nan          1991 non-null   float64
 15  feed

### 🐍 Código

In [8]:
df.isnull().sum()

id                        0
idade                     0
renda                     0
cidade                   12
categoria                21
nota                      0
feedback                 25
cidade_Belo Horizonte     0
cidade_Rio de Janeiro     0
cidade_São Paulo          0
cidade_Vitória            0
cidade_nan                0
categoria_A               0
categoria_B               0
categoria_nan             0
feedback_Bom              0
feedback_Regular          0
feedback_Ruim             0
feedback_nan              0
idade_scaler              0
renda_scaler              0
nota_scaler               0
dtype: int64

## Ajustando o Dataset

### 🐍 Código - Removendo as linhas vazias da variavel `categoria`

In [15]:
#df = df_final.dropna()

df = df.dropna(subset=['categoria'])

df.isnull().sum()


id                        0
idade                     0
renda                     0
cidade                   12
categoria                 0
nota                      0
feedback                 25
cidade_Belo Horizonte     0
cidade_Rio de Janeiro     0
cidade_São Paulo          0
cidade_Vitória            0
cidade_nan                0
categoria_A               0
categoria_B               0
categoria_nan             0
feedback_Bom              0
feedback_Regular          0
feedback_Ruim             0
feedback_nan              0
idade_scaler              0
renda_scaler              0
nota_scaler               0
dtype: int64

### 🐍 Código

In [21]:
# X = Features
X = df[['idade_scaler', 'nota_scaler', 'renda_scaler']]

# y = a coluna que queremos prever
y = df['categoria']

### 🔖 Explicações

Prepara os dados para um modelo de **machine learning** separando:

- As **variáveis explicativas (features)** → armazenadas em `X`
- A **variável alvo (target)** → armazenada em `y`
- **`axis=1`**: significa que estamos removendo uma **coluna**, não uma linha.

Ou seja:
- `X`: o que o modelo usa para aprender
- `y`: o que o modelo deve prever

**Resumo**:

| Variável | O que representa                          | Tipo             |
|---------|--------------------------------------------|------------------|
| `X`     | Dados de entrada (features)                | DataFrame        |
| `y`     | Valor que queremos prever (target)         | Série (coluna)   |

In [22]:
X.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1970 entries, 0 to 1990
Data columns (total 3 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   idade_scaler  1970 non-null   float64
 1   nota_scaler   1970 non-null   float64
 2   renda_scaler  1970 non-null   float64
dtypes: float64(3)
memory usage: 61.6 KB


In [23]:
y.info()

<class 'pandas.core.series.Series'>
Index: 1970 entries, 0 to 1990
Series name: categoria
Non-Null Count  Dtype 
--------------  ----- 
1970 non-null   object
dtypes: object(1)
memory usage: 30.8+ KB


# Treinando o modelo de Regressão
Vamos treinar um modelo de classificação para prever a variável categoria (que pode ser "A" ou "B") com base nas demais colunas do dataset, após todo o pré-processamento que fizemos.

### 🐍 Código

In [24]:
print(f"\n\nFeatures \n\n{X.head(5)} \n")



Features 

   idade_scaler  nota_scaler  renda_scaler
0     -0.283384    -0.155190     -0.607586
1      1.301629     0.157421      0.705680
2      1.111428     0.018483      0.544563
3      1.111428    -1.093024      0.411891
4      0.604223     0.192155     -1.079648 



In [25]:
print(f"\n\nTarget \n\n{y.head(5)} \n")



Target 

0    A
1    B
2    B
3    A
4    B
Name: categoria, dtype: object 



### 🐍 Código - Dividir os dados em conjuntos de treino e teste

In [26]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y, 
    test_size=0.2,     # 20% dos dados serão usados para teste
    random_state=42,   # garantir reprodutibilidade
    stratify=y         # manter proporção das classes em treino e teste
)

### 🔖 Explicações

Esse código divide os dados em dois grupos:
- Conjunto de treino (X_train, y_train) : usado para treinar o modelo
- Conjunto de teste (X_test, y_test) : usado para avaliar como o modelo se sai com dados novos e não vistos

> ⚠️ O parâmetro `stratify=y` garante que a proporção de `"A"` e `"B"` seja mantida nos conjuntos de treino e teste.

| Parte | O que faz |
|------|-----------|
| `train_test_split(...)` | Função que divide os dados em conjuntos de treino e teste |
| `X, y` | São os dados de entrada (features) e o alvo (o que queremos prever) |
| `test_size=0.2` | Define que **20% dos dados** vão para o conjunto de teste (80% para treino) |
| `random_state=42` | Garante que a divisão seja **sempre a mesma** (para reprodutibilidade) |
| `stratify=y` | Mantém a **mesma proporção de classes** em `y` nos conjuntos de treino e teste |

Se você tem 100 registros e `test_size=0.2`:

- **80 registros** vão para treino (`X_train`, `y_train`)
- **20 registros** vão para teste (`X_test`, `y_test`)

E com `stratify=y`, se 60% dos dados são `"A"` e 40% são `"B"`, essa proporção será mantida nos dois conjuntos.

💡 **Por que isso é importante?**

- **Evita overfitting**: Treinar e testar com os mesmos dados pode levar a um modelo que "decora" as respostas.

- **Reprodutibilidade**: Com `random_state`, você garante que outros obtenham os mesmos resultados.

- **Proporção balanceada**: Com `stratify=y`, o modelo é avaliado com base em uma amostra representativa.

### 🐍 Código

In [27]:
print (f"Dados de Treino - Features \n\n{X_train.head(5)} \n\n\n")
print (f"Dados de Treino - Targets \n\n{y_train.head(5)} \n\n\n")

print (f"Dados de Teste - Features \n\n{X_test.head(5)} \n\n\n")
print (f"Dados de Teste - Targets \n\n{y_test.head(5)} \n\n\n")

Dados de Treino - Features 

      idade_scaler  nota_scaler  renda_scaler
1914      0.667624     0.713174     -0.151684
1529      0.921226     1.407866      1.124628
106      -0.156583     1.129989     -0.038922
1108      0.414022    -0.884616      0.729221
407      -0.727188    -1.301431      0.679909 



Dados de Treino - Targets 

1914    A
1529    A
106     A
1108    A
407     A
Name: categoria, dtype: object 



Dados de Teste - Features 

      idade_scaler  nota_scaler  renda_scaler
469       0.794425     0.504767      1.638035
78        0.223820    -1.370900      0.910705
1391     -1.614795     1.025785     -1.093418
1203     -0.029782     1.685742     -0.611136
1125     -1.487994     0.921582      0.366256 



Dados de Teste - Targets 

469     B
78      A
1391    B
1203    A
1125    B
Name: categoria, dtype: object 





### 🔖 Explicações

...

## Criar e treinar o modelo de Regressão Logística
- Este código **cria e treina** um modelo de **Regressão Logística**, que é um algoritmo comum usado para **classificação** (por exemplo: prever se algo é `"A"` ou `"B"`).

### 🐍 Código

In [28]:
modelo = LogisticRegression(max_iter=1000)  

# Treinando o modelo
modelo.fit(X_train, y_train)

0,1,2
,penalty,'l2'
,dual,False
,tol,0.0001
,C,1.0
,fit_intercept,True
,intercept_scaling,1
,class_weight,
,random_state,
,solver,'lbfgs'
,max_iter,1000


### 🔖 Explicações

> ⚠️ `max_iter=1000`: algumas vezes a regressão logística precisa de mais iterações para convergir; aumentamos esse limite para evitar avisos.

O modelo aprende as relações entre as **variáveis de entrada** (`X_train`) e a **variável de saída** (`y_train`), para depois fazer previsões.

| Parte do código              | Finalidade                                     |
|-----------------------------|------------------------------------------------|
| `LogisticRegression(...)`   | Cria o modelo de classificação                 |
| `max_iter=1000`             | Garante que o modelo tente convergir melhor    |
| `.fit(X_train, y_train)`    | Ensina o modelo com os dados de treino         |

### 🐍 Código - Fazer previsões no conjunto de teste
- Esse código usa um modelo de machine learning já treinado para fazer previsões em novos dados (neste caso, os dados de teste).

In [29]:
y_pred = modelo.predict(X_test)

### 🔖 Explicações

- **`X_test`**: são os dados de entrada que o modelo **nunca viu antes** (dados de teste).
- **`.predict()`**: é o método usado para o modelo **prever resultados** com base nesses novos dados.
- **`y_pred`**: é onde armazenamos as **previsões feitas pelo modelo** (ou seja, quais valores ele acha que `y` deve ter para cada linha de `X_test`).

Se o modelo foi treinado para prever se um cliente pertence à categoria `"A"` ou `"B"`, então:

- `X_test`: são os dados desses clientes que o modelo não viu durante o treino
- `y_pred`: será uma lista com as **previsões** do modelo para cada cliente:  
  Exemplo: `['A', 'B', 'B', 'A', ...]`

## Avaliar o desempenho do modelo

### 🐍 Código -Acurácia: porcentagem de acertos 
- Este código **avalia o desempenho** de um modelo de machine learning, medindo a **porcentagem de acertos** nas previsões feitas em dados de teste.

In [30]:
acuracia = accuracy_score(y_test, y_pred)
print(f'Acurácia do modelo: {acuracia:.2f}')

Acurácia do modelo: 0.51


### 🔖 Explicações

- **`accuracy_score()`**: é uma função do Scikit-learn que calcula a **acurácia**, ou seja, a porcentagem de previsões corretas.
- **`y_test`**: são os valores reais (corretos) que o modelo deveria prever.
- **`y_pred`**: são as previsões feitas pelo modelo.
- **Resultado:** um número entre 0 e 1 (ex: `0.85` = 85% de acerto)

Esse é um dos métodos mais simples e comuns para avaliar modelos de classificação.

### 🐍 Código - Relatório completo: precisão, recall, f1-score
Este código mostra um **relatório completo com métricas de avaliação** do modelo de classificação.

Ele vai além da acurácia e mostra:
- **Precisão**
- **Recall (ou sensibilidade)**
- **F1-score**
- **Suporte** (quantidade de amostras por classe)

In [31]:
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           A       0.49      0.16      0.24       191
           B       0.52      0.84      0.64       203

    accuracy                           0.51       394
   macro avg       0.50      0.50      0.44       394
weighted avg       0.50      0.51      0.45       394



### 🔖 Explicações

- **`classification_report()`**:  
  Função do Scikit-learn que gera um relatório com as métricas acima para cada classe (`"A"` e `"B"` no seu caso).

- **`y_test`**:  
  Os valores reais (corretos) do target.

- **`y_pred`**:  
  As previsões feitas pelo modelo.

| Métrica       | O que mede? |
|---------------|-------------|
| **Precision** | Dos que o modelo disse ser `"A"`, quantos realmente eram `"A"`? |
| **Recall**    | Dos que realmente eram `"A"`, quantos o modelo acertou? |
| **F1-score**  | Média entre precisão e recall (boa para dados desbalanceados) |
| **Support**   | Quantas amostras tinham em cada classe |

A **accuracy** (acurácia) é a porcentagem de previsões corretas feitas pelo modelo, ou seja, quantos resultados ele acertou em relação ao total. 

Já o **macro avg** é a média das métricas (como precisão, recall e F1-score) calculada sem considerar o número de amostras por classe, dando o mesmo peso para cada classe — o que é útil quando você quer avaliar classes minoritárias. 

Por outro lado, o **weighted avg** também calcula a média dessas métricas, mas leva em conta a proporção de amostras em cada classe , dando mais peso às classes maiores, o que pode ser mais representativo quando as classes estão desbalanceadas. 

Essas métricas ajudam a entender melhor o desempenho do modelo além da acurácia geral.

### 🐍 Código - Matriz de confusão (visualização dos erros)
Este código exibe a **matriz de confusão**, que é uma tabela que mostra **quantas previsões foram corretas ou incorretas** em cada classe.

In [32]:
print(confusion_matrix(y_test, y_pred))

[[ 31 160]
 [ 32 171]]


### 🔖 Explicações

🔍 **O que cada parte faz**:

- **`confusion_matrix()`**:  
  Função do Scikit-learn que calcula a matriz de confusão com base nos valores reais (`y_test`) e nas previsões do modelo (`y_pred`).

- **`y_test`**:  
  Os valores reais (corretos) que o modelo deveria prever.

- **`y_pred`**:  
  As previsões feitas pelo modelo nos dados de teste.


  **Isso significa**:

|                | Previsto como A | Previsto como B |
|----------------|------------------|------------------|
| **Realmente A** | 56 (Verdadeiro Positivo) | 45 (Falso Negativo) |
| **Realmente B** | 47 (Falso Positivo)       | 51 (Verdadeiro Negativo) |

A matriz de confusão ajuda a entender **onde o modelo errou e acertou**, mostrando:
- Quantos ele acertou por classe
- Quantos ele confundiu entre as classes


## Salvar o modelo treinado em um arquivo
No Scikit-learn, os modelos podem ser salvos usando:

- `joblib`: mais eficiente para objetos grandes (como modelos de ML)
- `pickle`: método mais antigo, mas também funcional

Vamos usar o `joblib`, por ser mais rápido nesse caso.

### 🐍 Código

In [33]:
dump(modelo, 'modelo-treinado/modelo_regressao_logistica-2025.06.30.joblib')
print("\nModelo salvo como 'modelo_regressao_logistica.joblib'")


Modelo salvo como 'modelo_regressao_logistica.joblib'


### 🔖 Explicações

A linha `dump(modelo, 'modelo_regressao_logistica.joblib')` é usada para salvar um modelo de machine learning treinado em um arquivo no disco. 

Ela faz parte da biblioteca joblib, que permite serializar e salvar objetos do Python — especialmente úteis para modelos grandes e complexos, como os criados com o Scikit-learn. 

Nesse caso, o modelo chamado modelo (no exemplo, um modelo de Regressão Logística) é salvo no arquivo 'modelo_regressao_logistica.joblib', permitindo que ele seja reutilizado posteriormente sem a necessidade de treiná-lo novamente, bastando carregá-lo com a função load() do próprio joblib.

### 📦 Como carregar o modelo depois (opcional)

### 🐍 Código

In [31]:
# Importa o modulo utilizado para a leiruta
from joblib import dump

# Carregar o modelo
modelo_carregado = load('modelo-treinado/modelo_regressao_logistica.joblib')

# Usar o modelo para prever novos dados
#novas_previsoes = modelo_carregado.predict(X_novo)

### 🔖 Explicações

| Etapa | Finalidade |
|-------|------------|
| `from joblib import dump` | Importa a ferramenta para salvar o modelo |
| `dump(modelo, 'nome_do_arquivo.joblib')` | Salva o modelo treinado em um arquivo |
| Futuro `load(...)` | Permite recarregar o modelo em outro momento |