# Sklearn - Treinando um modelo de classifica√ß√£o

- **FASE 2 - Treinando o modelo


## üéØ Objetivo

O modelo ser√° treinado para prever a vari√°vel `categoria` (que pode ser `"A"` ou `"B"`) com base nas demais colunas do dataset, ap√≥s todo o pr√©-processamento que fizemos.

Treinar um modelo de **Regress√£o Log√≠stica** usando:
- Dados j√° pr√©-processados (`df_final`)
- Divis√£o entre dados de treino e teste
- M√©tricas de avalia√ß√£o

### üêç C√≥digo - Importar Bibliotecas

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from joblib import dump, load

### üîñ Explica√ß√µes

| Biblioteca / Classe                    | Finalidade Principal                                      |
|---------------------------------------|------------------------------------------------------------|
| `train_test_split`                    | Dividir dados em conjuntos de treino e teste              |
| `LogisticRegression`                  | Treinar um modelo de classifica√ß√£o                        |
| `accuracy_score`                      | Medir a porcentagem de acertos do modelo                  |
| `classification_report`               | Relat√≥rio detalhado com precis√£o, recall e f1-score       |
| `confusion_matrix`                    | Visualizar os tipos de erros do modelo                    |

## Carregando o Dataset

### üêç C√≥digo

In [6]:
df = pd.read_csv('dataset-fase1/dataset_sudeste_simples_realista_outliers-2k-fase1.csv')

## Analisando o Dataset

### üêç C√≥digo

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1991 entries, 0 to 1990
Data columns (total 22 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   id                     1991 non-null   int64  
 1   idade                  1991 non-null   float64
 2   renda                  1991 non-null   float64
 3   cidade                 1979 non-null   object 
 4   categoria              1970 non-null   object 
 5   nota                   1991 non-null   float64
 6   feedback               1966 non-null   object 
 7   cidade_Belo Horizonte  1991 non-null   float64
 8   cidade_Rio de Janeiro  1991 non-null   float64
 9   cidade_S√£o Paulo       1991 non-null   float64
 10  cidade_Vit√≥ria         1991 non-null   float64
 11  cidade_nan             1991 non-null   float64
 12  categoria_A            1991 non-null   float64
 13  categoria_B            1991 non-null   float64
 14  categoria_nan          1991 non-null   float64
 15  fe

### üêç C√≥digo

In [8]:
df.isnull().sum()

id                        0
idade                     0
renda                     0
cidade                   12
categoria                21
nota                      0
feedback                 25
cidade_Belo Horizonte     0
cidade_Rio de Janeiro     0
cidade_S√£o Paulo          0
cidade_Vit√≥ria            0
cidade_nan                0
categoria_A               0
categoria_B               0
categoria_nan             0
feedback_Bom              0
feedback_Regular          0
feedback_Ruim             0
feedback_nan              0
idade_scaler              0
renda_scaler              0
nota_scaler               0
dtype: int64

## Ajustando o Dataset

### üêç C√≥digo - Removendo as linhas vazias da variavel `categoria`

In [15]:
#df = df_final.dropna()

df = df.dropna(subset=['categoria'])

df.isnull().sum()


id                        0
idade                     0
renda                     0
cidade                   12
categoria                 0
nota                      0
feedback                 25
cidade_Belo Horizonte     0
cidade_Rio de Janeiro     0
cidade_S√£o Paulo          0
cidade_Vit√≥ria            0
cidade_nan                0
categoria_A               0
categoria_B               0
categoria_nan             0
feedback_Bom              0
feedback_Regular          0
feedback_Ruim             0
feedback_nan              0
idade_scaler              0
renda_scaler              0
nota_scaler               0
dtype: int64

### üêç C√≥digo

In [21]:
# X = Features
X = df[['idade_scaler', 'nota_scaler', 'renda_scaler']]

# y = a coluna que queremos prever
y = df['categoria']

### üîñ Explica√ß√µes

Prepara os dados para um modelo de **machine learning** separando:

- As **vari√°veis explicativas (features)** ‚Üí armazenadas em `X`
- A **vari√°vel alvo (target)** ‚Üí armazenada em `y`
- **`axis=1`**: significa que estamos removendo uma **coluna**, n√£o uma linha.

Ou seja:
- `X`: o que o modelo usa para aprender
- `y`: o que o modelo deve prever

**Resumo**:

| Vari√°vel | O que representa                          | Tipo             |
|---------|--------------------------------------------|------------------|
| `X`     | Dados de entrada (features)                | DataFrame        |
| `y`     | Valor que queremos prever (target)         | S√©rie (coluna)   |

In [22]:
X.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1970 entries, 0 to 1990
Data columns (total 3 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   idade_scaler  1970 non-null   float64
 1   nota_scaler   1970 non-null   float64
 2   renda_scaler  1970 non-null   float64
dtypes: float64(3)
memory usage: 61.6 KB


In [23]:
y.info()

<class 'pandas.core.series.Series'>
Index: 1970 entries, 0 to 1990
Series name: categoria
Non-Null Count  Dtype 
--------------  ----- 
1970 non-null   object
dtypes: object(1)
memory usage: 30.8+ KB


# Treinando o modelo de Regress√£o
Vamos treinar um modelo de classifica√ß√£o para prever a vari√°vel categoria (que pode ser "A" ou "B") com base nas demais colunas do dataset, ap√≥s todo o pr√©-processamento que fizemos.

### üêç C√≥digo

In [24]:
print(f"\n\nFeatures \n\n{X.head(5)} \n")



Features 

   idade_scaler  nota_scaler  renda_scaler
0     -0.283384    -0.155190     -0.607586
1      1.301629     0.157421      0.705680
2      1.111428     0.018483      0.544563
3      1.111428    -1.093024      0.411891
4      0.604223     0.192155     -1.079648 



In [25]:
print(f"\n\nTarget \n\n{y.head(5)} \n")



Target 

0    A
1    B
2    B
3    A
4    B
Name: categoria, dtype: object 



### üêç C√≥digo - Dividir os dados em conjuntos de treino e teste

In [26]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y, 
    test_size=0.2,     # 20% dos dados ser√£o usados para teste
    random_state=42,   # garantir reprodutibilidade
    stratify=y         # manter propor√ß√£o das classes em treino e teste
)

### üîñ Explica√ß√µes

Esse c√≥digo divide os dados em dois grupos:
- Conjunto de treino (X_train, y_train) : usado para treinar o modelo
- Conjunto de teste (X_test, y_test) : usado para avaliar como o modelo se sai com dados novos e n√£o vistos

> ‚ö†Ô∏è O par√¢metro `stratify=y` garante que a propor√ß√£o de `"A"` e `"B"` seja mantida nos conjuntos de treino e teste.

| Parte | O que faz |
|------|-----------|
| `train_test_split(...)` | Fun√ß√£o que divide os dados em conjuntos de treino e teste |
| `X, y` | S√£o os dados de entrada (features) e o alvo (o que queremos prever) |
| `test_size=0.2` | Define que **20% dos dados** v√£o para o conjunto de teste (80% para treino) |
| `random_state=42` | Garante que a divis√£o seja **sempre a mesma** (para reprodutibilidade) |
| `stratify=y` | Mant√©m a **mesma propor√ß√£o de classes** em `y` nos conjuntos de treino e teste |

Se voc√™ tem 100 registros e `test_size=0.2`:

- **80 registros** v√£o para treino (`X_train`, `y_train`)
- **20 registros** v√£o para teste (`X_test`, `y_test`)

E com `stratify=y`, se 60% dos dados s√£o `"A"` e 40% s√£o `"B"`, essa propor√ß√£o ser√° mantida nos dois conjuntos.

üí° **Por que isso √© importante?**

- **Evita overfitting**: Treinar e testar com os mesmos dados pode levar a um modelo que "decora" as respostas.

- **Reprodutibilidade**: Com `random_state`, voc√™ garante que outros obtenham os mesmos resultados.

- **Propor√ß√£o balanceada**: Com `stratify=y`, o modelo √© avaliado com base em uma amostra representativa.

### üêç C√≥digo

In [27]:
print (f"Dados de Treino - Features \n\n{X_train.head(5)} \n\n\n")
print (f"Dados de Treino - Targets \n\n{y_train.head(5)} \n\n\n")

print (f"Dados de Teste - Features \n\n{X_test.head(5)} \n\n\n")
print (f"Dados de Teste - Targets \n\n{y_test.head(5)} \n\n\n")

Dados de Treino - Features 

      idade_scaler  nota_scaler  renda_scaler
1914      0.667624     0.713174     -0.151684
1529      0.921226     1.407866      1.124628
106      -0.156583     1.129989     -0.038922
1108      0.414022    -0.884616      0.729221
407      -0.727188    -1.301431      0.679909 



Dados de Treino - Targets 

1914    A
1529    A
106     A
1108    A
407     A
Name: categoria, dtype: object 



Dados de Teste - Features 

      idade_scaler  nota_scaler  renda_scaler
469       0.794425     0.504767      1.638035
78        0.223820    -1.370900      0.910705
1391     -1.614795     1.025785     -1.093418
1203     -0.029782     1.685742     -0.611136
1125     -1.487994     0.921582      0.366256 



Dados de Teste - Targets 

469     B
78      A
1391    B
1203    A
1125    B
Name: categoria, dtype: object 





### üîñ Explica√ß√µes

...

## Criar e treinar o modelo de Regress√£o Log√≠stica
- Este c√≥digo **cria e treina** um modelo de **Regress√£o Log√≠stica**, que √© um algoritmo comum usado para **classifica√ß√£o** (por exemplo: prever se algo √© `"A"` ou `"B"`).

### üêç C√≥digo

In [28]:
modelo = LogisticRegression(max_iter=1000)  

# Treinando o modelo
modelo.fit(X_train, y_train)

0,1,2
,penalty,'l2'
,dual,False
,tol,0.0001
,C,1.0
,fit_intercept,True
,intercept_scaling,1
,class_weight,
,random_state,
,solver,'lbfgs'
,max_iter,1000


### üîñ Explica√ß√µes

> ‚ö†Ô∏è `max_iter=1000`: algumas vezes a regress√£o log√≠stica precisa de mais itera√ß√µes para convergir; aumentamos esse limite para evitar avisos.

O modelo aprende as rela√ß√µes entre as **vari√°veis de entrada** (`X_train`) e a **vari√°vel de sa√≠da** (`y_train`), para depois fazer previs√µes.

| Parte do c√≥digo              | Finalidade                                     |
|-----------------------------|------------------------------------------------|
| `LogisticRegression(...)`   | Cria o modelo de classifica√ß√£o                 |
| `max_iter=1000`             | Garante que o modelo tente convergir melhor    |
| `.fit(X_train, y_train)`    | Ensina o modelo com os dados de treino         |

### üêç C√≥digo - Fazer previs√µes no conjunto de teste
- Esse c√≥digo usa um modelo de machine learning j√° treinado para fazer previs√µes em novos dados (neste caso, os dados de teste).

In [29]:
y_pred = modelo.predict(X_test)

### üîñ Explica√ß√µes

- **`X_test`**: s√£o os dados de entrada que o modelo **nunca viu antes** (dados de teste).
- **`.predict()`**: √© o m√©todo usado para o modelo **prever resultados** com base nesses novos dados.
- **`y_pred`**: √© onde armazenamos as **previs√µes feitas pelo modelo** (ou seja, quais valores ele acha que `y` deve ter para cada linha de `X_test`).

Se o modelo foi treinado para prever se um cliente pertence √† categoria `"A"` ou `"B"`, ent√£o:

- `X_test`: s√£o os dados desses clientes que o modelo n√£o viu durante o treino
- `y_pred`: ser√° uma lista com as **previs√µes** do modelo para cada cliente:  
  Exemplo: `['A', 'B', 'B', 'A', ...]`

## Avaliar o desempenho do modelo

### üêç C√≥digo -Acur√°cia: porcentagem de acertos 
- Este c√≥digo **avalia o desempenho** de um modelo de machine learning, medindo a **porcentagem de acertos** nas previs√µes feitas em dados de teste.

In [30]:
acuracia = accuracy_score(y_test, y_pred)
print(f'Acur√°cia do modelo: {acuracia:.2f}')

Acur√°cia do modelo: 0.51


### üîñ Explica√ß√µes

- **`accuracy_score()`**: √© uma fun√ß√£o do Scikit-learn que calcula a **acur√°cia**, ou seja, a porcentagem de previs√µes corretas.
- **`y_test`**: s√£o os valores reais (corretos) que o modelo deveria prever.
- **`y_pred`**: s√£o as previs√µes feitas pelo modelo.
- **Resultado:** um n√∫mero entre 0 e 1 (ex: `0.85` = 85% de acerto)

Esse √© um dos m√©todos mais simples e comuns para avaliar modelos de classifica√ß√£o.

### üêç C√≥digo - Relat√≥rio completo: precis√£o, recall, f1-score
Este c√≥digo mostra um **relat√≥rio completo com m√©tricas de avalia√ß√£o** do modelo de classifica√ß√£o.

Ele vai al√©m da acur√°cia e mostra:
- **Precis√£o**
- **Recall (ou sensibilidade)**
- **F1-score**
- **Suporte** (quantidade de amostras por classe)

In [31]:
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           A       0.49      0.16      0.24       191
           B       0.52      0.84      0.64       203

    accuracy                           0.51       394
   macro avg       0.50      0.50      0.44       394
weighted avg       0.50      0.51      0.45       394



### üîñ Explica√ß√µes

- **`classification_report()`**:  
  Fun√ß√£o do Scikit-learn que gera um relat√≥rio com as m√©tricas acima para cada classe (`"A"` e `"B"` no seu caso).

- **`y_test`**:  
  Os valores reais (corretos) do target.

- **`y_pred`**:  
  As previs√µes feitas pelo modelo.

| M√©trica       | O que mede? |
|---------------|-------------|
| **Precision** | Dos que o modelo disse ser `"A"`, quantos realmente eram `"A"`? |
| **Recall**    | Dos que realmente eram `"A"`, quantos o modelo acertou? |
| **F1-score**  | M√©dia entre precis√£o e recall (boa para dados desbalanceados) |
| **Support**   | Quantas amostras tinham em cada classe |

A **accuracy** (acur√°cia) √© a porcentagem de previs√µes corretas feitas pelo modelo, ou seja, quantos resultados ele acertou em rela√ß√£o ao total. 

J√° o **macro avg** √© a m√©dia das m√©tricas (como precis√£o, recall e F1-score) calculada sem considerar o n√∫mero de amostras por classe, dando o mesmo peso para cada classe ‚Äî o que √© √∫til quando voc√™ quer avaliar classes minorit√°rias. 

Por outro lado, o **weighted avg** tamb√©m calcula a m√©dia dessas m√©tricas, mas leva em conta a propor√ß√£o de amostras em cada classe , dando mais peso √†s classes maiores, o que pode ser mais representativo quando as classes est√£o desbalanceadas. 

Essas m√©tricas ajudam a entender melhor o desempenho do modelo al√©m da acur√°cia geral.

### üêç C√≥digo - Matriz de confus√£o (visualiza√ß√£o dos erros)
Este c√≥digo exibe a **matriz de confus√£o**, que √© uma tabela que mostra **quantas previs√µes foram corretas ou incorretas** em cada classe.

In [32]:
print(confusion_matrix(y_test, y_pred))

[[ 31 160]
 [ 32 171]]


### üîñ Explica√ß√µes

üîç **O que cada parte faz**:

- **`confusion_matrix()`**:  
  Fun√ß√£o do Scikit-learn que calcula a matriz de confus√£o com base nos valores reais (`y_test`) e nas previs√µes do modelo (`y_pred`).

- **`y_test`**:  
  Os valores reais (corretos) que o modelo deveria prever.

- **`y_pred`**:  
  As previs√µes feitas pelo modelo nos dados de teste.


  **Isso significa**:

|                | Previsto como A | Previsto como B |
|----------------|------------------|------------------|
| **Realmente A** | 56 (Verdadeiro Positivo) | 45 (Falso Negativo) |
| **Realmente B** | 47 (Falso Positivo)       | 51 (Verdadeiro Negativo) |

A matriz de confus√£o ajuda a entender **onde o modelo errou e acertou**, mostrando:
- Quantos ele acertou por classe
- Quantos ele confundiu entre as classes


## Salvar o modelo treinado em um arquivo
No Scikit-learn, os modelos podem ser salvos usando:

- `joblib`: mais eficiente para objetos grandes (como modelos de ML)
- `pickle`: m√©todo mais antigo, mas tamb√©m funcional

Vamos usar o `joblib`, por ser mais r√°pido nesse caso.

### üêç C√≥digo

In [33]:
dump(modelo, 'modelo-treinado/modelo_regressao_logistica-2025.06.30.joblib')
print("\nModelo salvo como 'modelo_regressao_logistica.joblib'")


Modelo salvo como 'modelo_regressao_logistica.joblib'


### üîñ Explica√ß√µes

A linha `dump(modelo, 'modelo_regressao_logistica.joblib')` √© usada para salvar um modelo de machine learning treinado em um arquivo no disco. 

Ela faz parte da biblioteca joblib, que permite serializar e salvar objetos do Python ‚Äî especialmente √∫teis para modelos grandes e complexos, como os criados com o Scikit-learn. 

Nesse caso, o modelo chamado modelo (no exemplo, um modelo de Regress√£o Log√≠stica) √© salvo no arquivo 'modelo_regressao_logistica.joblib', permitindo que ele seja reutilizado posteriormente sem a necessidade de trein√°-lo novamente, bastando carreg√°-lo com a fun√ß√£o load() do pr√≥prio joblib.

### üì¶ Como carregar o modelo depois (opcional)

### üêç C√≥digo

In [31]:
# Importa o modulo utilizado para a leiruta
from joblib import dump

# Carregar o modelo
modelo_carregado = load('modelo-treinado/modelo_regressao_logistica.joblib')

# Usar o modelo para prever novos dados
#novas_previsoes = modelo_carregado.predict(X_novo)

### üîñ Explica√ß√µes

| Etapa | Finalidade |
|-------|------------|
| `from joblib import dump` | Importa a ferramenta para salvar o modelo |
| `dump(modelo, 'nome_do_arquivo.joblib')` | Salva o modelo treinado em um arquivo |
| Futuro `load(...)` | Permite recarregar o modelo em outro momento |