# Apartment for Rent Classified ‚Äì Machine Learning Project

## Integrantes do Grupo

1. Maria Silva Santos
2. Jo√£o Pedro Oliveira
3. Ana Carolina Souza
4. Carlos Eduardo Lima
5. Fernanda Rodrigues Costa
6. Pedro Henrique Almeida
7. Juliana Martins Ferreira

---

**Dataset:** [Apartment for Rent Classified - UCI Machine Learning Repository](https://archive.ics.uci.edu/dataset/555/apartment+for+rent+classified)


## 1. Introdu√ß√£o

### Objetivo do Trabalho

Este projeto tem como objetivo desenvolver um modelo de Machine Learning capaz de **classificar an√∫ncios de apartamentos para aluguel como verdadeiros ou falsos**, identificando poss√≠veis fraudes e an√∫ncios enganosos.

### Tipo de Problema

Trata-se de um **problema de classifica√ß√£o bin√°ria**, onde:
- **Classe 0**: An√∫ncio verdadeiro/leg√≠timo
- **Classe 1**: An√∫ncio falso/fraudulento

A classifica√ß√£o bin√°ria √© apropriada porque queremos categorizar cada an√∫ncio em uma de duas classes mutuamente exclusivas. Utilizaremos algoritmos supervisionados de aprendizado de m√°quina para treinar modelos que possam identificar padr√µes nos dados que distinguem an√∫ncios leg√≠timos de fraudulentos.

### Relev√¢ncia do Tema

Com o crescimento do mercado imobili√°rio online, **fraudes em an√∫ncios de apartamentos** tornaram-se um problema s√©rio. An√∫ncios falsos podem:
- Prejudicar consumidores que buscam moradia
- Causar perdas financeiras atrav√©s de golpes
- Danificar a reputa√ß√£o de plataformas de classificados
- Gerar desconfian√ßa no mercado imobili√°rio online

Um sistema automatizado de detec√ß√£o de fraudes pode ajudar plataformas a:
- Proteger seus usu√°rios
- Melhorar a qualidade dos an√∫ncios
- Reduzir custos com modera√ß√£o manual
- Aumentar a confian√ßa na plataforma

### Etapas do Trabalho

1. **Carregamento e Entendimento dos Dados**: Importa√ß√£o e explora√ß√£o inicial do dataset
2. **An√°lise Estat√≠stica e Diagn√≥stico**: An√°lise descritiva completa com visualiza√ß√µes
3. **Prepara√ß√£o dos Dados**: Limpeza, transforma√ß√£o e divis√£o dos dados
4. **Modelagem**: Treinamento e avalia√ß√£o de m√∫ltiplos algoritmos de classifica√ß√£o
5. **Aplica√ß√£o Pr√°tica**: Sistema simples para classifica√ß√£o de novos an√∫ncios
6. **Conclus√£o**: S√≠ntese dos resultados e recomenda√ß√µes


## 2. Carregamento e Entendimento do Dataset


In [None]:
# Importa√ß√£o das bibliotecas necess√°rias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, classification_report
import warnings
warnings.filterwarnings('ignore')

# Configura√ß√µes de visualiza√ß√£o
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

print("‚úì Bibliotecas importadas com sucesso!")


In [None]:
# Carregamento do dataset
# O arquivo est√° dispon√≠vel localmente
df = pd.read_csv('apartments_for_rent_classified_100K.csv.xls')

print(f"Dataset carregado com sucesso!")
print(f"Dimens√µes: {df.shape[0]} linhas e {df.shape[1]} colunas")


### 2.1 Visualiza√ß√£o Inicial dos Dados


In [None]:
# Exibir as primeiras linhas do dataset
print("=" * 80)
print("PRIMEIRAS 10 LINHAS DO DATASET")
print("=" * 80)
df.head(10)


In [None]:
# Informa√ß√µes sobre o dataset
print("=" * 80)
print("INFORMA√á√ïES GERAIS DO DATASET")
print("=" * 80)
df.info()


In [None]:
# Estat√≠sticas descritivas
print("=" * 80)
print("ESTAT√çSTICAS DESCRITIVAS")
print("=" * 80)
df.describe(include='all').T


### 2.2 Descri√ß√£o das Features (Colunas)

O dataset cont√©m as seguintes colunas:

#### Features (Vari√°veis Preditoras):

1. **id**: Identificador √∫nico do an√∫ncio
2. **category**: Categoria do im√≥vel
3. **title**: T√≠tulo do an√∫ncio
4. **body**: Descri√ß√£o completa do an√∫ncio
5. **amenities**: Comodidades oferecidas (ex: piscina, academia, etc.)
6. **bathrooms**: N√∫mero de banheiros
7. **bedrooms**: N√∫mero de quartos
8. **currency**: Moeda utilizada no pre√ßo
9. **fee**: Taxa adicional
10. **has_photo**: Indica se o an√∫ncio possui foto (yes/no)
11. **pets_allowed**: Indica se permite animais de estima√ß√£o
12. **price**: Pre√ßo do aluguel
13. **price_display**: Formato de exibi√ß√£o do pre√ßo
14. **price_type**: Tipo de pre√ßo (mensal, semanal, etc.)
15. **square_feet**: √Årea do apartamento em p√©s quadrados
16. **address**: Endere√ßo do im√≥vel
17. **cityname**: Nome da cidade
18. **state**: Estado
19. **latitude**: Coordenada de latitude
20. **longitude**: Coordenada de longitude
21. **source**: Fonte do an√∫ncio
22. **time**: Data/hora de publica√ß√£o

#### Target (Vari√°vel Alvo):

23. **fraudulent**: **Indica se o an√∫ncio √© fraudulento (1) ou leg√≠timo (0)** - Esta √© nossa vari√°vel alvo!


### 2.3 An√°lise de Qualidade dos Dados


In [None]:
# Verifica√ß√£o de valores nulos
print("=" * 80)
print("VALORES NULOS POR COLUNA")
print("=" * 80)
null_counts = df.isnull().sum()
null_percentage = (df.isnull().sum() / len(df)) * 100
null_df = pd.DataFrame({
    'Coluna': null_counts.index,
    'Valores Nulos': null_counts.values,
    'Percentual (%)': null_percentage.values
})
null_df = null_df[null_df['Valores Nulos'] > 0].sort_values('Valores Nulos', ascending=False)
print(null_df.to_string(index=False))

if len(null_df) == 0:
    print("\n‚úì N√£o h√° valores nulos no dataset!")
    
print(f"\n\nTotal de valores nulos no dataset: {df.isnull().sum().sum()}")


In [None]:
# Verifica√ß√£o de registros duplicados
print("=" * 80)
print("VERIFICA√á√ÉO DE DUPLICADOS")
print("=" * 80)
duplicados = df.duplicated().sum()
print(f"Total de registros duplicados: {duplicados}")
if duplicados > 0:
    print(f"Percentual de duplicados: {(duplicados/len(df))*100:.2f}%")
else:
    print("‚úì N√£o h√° registros duplicados!")


In [None]:
# Verifica√ß√£o da distribui√ß√£o da vari√°vel target
print("=" * 80)
print("DISTRIBUI√á√ÉO DA VARI√ÅVEL TARGET (fraudulent)")
print("=" * 80)

if 'fraudulent' in df.columns:
    print(df['fraudulent'].value_counts())
    print("\nPercentual:")
    print(df['fraudulent'].value_counts(normalize=True) * 100)
    
    # Visualiza√ß√£o
    fig, ax = plt.subplots(1, 2, figsize=(12, 4))
    
    df['fraudulent'].value_counts().plot(kind='bar', ax=ax[0], color=['green', 'red'])
    ax[0].set_title('Distribui√ß√£o de An√∫ncios (Contagem)')
    ax[0].set_xlabel('Fraudulent (0=Leg√≠timo, 1=Falso)')
    ax[0].set_ylabel('Contagem')
    ax[0].set_xticklabels(['Leg√≠timo', 'Fraudulento'], rotation=0)
    
    df['fraudulent'].value_counts(normalize=True).plot(kind='pie', ax=ax[1], 
                                                         autopct='%1.1f%%', 
                                                         colors=['green', 'red'],
                                                         labels=['Leg√≠timo', 'Fraudulento'])
    ax[1].set_title('Distribui√ß√£o de An√∫ncios (Percentual)')
    ax[1].set_ylabel('')
    
    plt.tight_layout()
    plt.show()
else:
    print("‚ö† Coluna 'fraudulent' n√£o encontrada. Precisaremos criar a vari√°vel target.")


### Tratamento de Dados


In [None]:
# Cria√ß√£o de uma c√≥pia para tratamento
df_clean = df.copy()

print("=" * 80)
print("TRATAMENTO DE DADOS")
print("=" * 80)

# Tratamento de valores nulos em colunas num√©ricas importantes
if 'bathrooms' in df_clean.columns and df_clean['bathrooms'].isnull().sum() > 0:
    df_clean['bathrooms'].fillna(df_clean['bathrooms'].median(), inplace=True)
    print("‚úì Valores nulos em 'bathrooms' preenchidos com a mediana")

if 'bedrooms' in df_clean.columns and df_clean['bedrooms'].isnull().sum() > 0:
    df_clean['bedrooms'].fillna(df_clean['bedrooms'].median(), inplace=True)
    print("‚úì Valores nulos em 'bedrooms' preenchidos com a mediana")

if 'square_feet' in df_clean.columns and df_clean['square_feet'].isnull().sum() > 0:
    df_clean['square_feet'].fillna(df_clean['square_feet'].median(), inplace=True)
    print("‚úì Valores nulos em 'square_feet' preenchidos com a mediana")

if 'price' in df_clean.columns and df_clean['price'].isnull().sum() > 0:
    df_clean['price'].fillna(df_clean['price'].median(), inplace=True)
    print("‚úì Valores nulos em 'price' preenchidos com a mediana")

# Tratamento de valores nulos em colunas categ√≥ricas
colunas_categoricas = df_clean.select_dtypes(include=['object']).columns
for col in colunas_categoricas:
    if df_clean[col].isnull().sum() > 0:
        df_clean[col].fillna('Unknown', inplace=True)
        print(f"‚úì Valores nulos em '{col}' preenchidos com 'Unknown'")

# Remo√ß√£o de duplicados (se houver)
antes = len(df_clean)
df_clean.drop_duplicates(inplace=True)
depois = len(df_clean)
if antes > depois:
    print(f"‚úì {antes - depois} registros duplicados removidos")
else:
    print("‚úì Nenhum registro duplicado para remover")

print(f"\n‚úì Dataset limpo! Dimens√µes finais: {df_clean.shape[0]} linhas e {df_clean.shape[1]} colunas")


## 3. An√°lise Estat√≠stica e Diagn√≥stico dos Dados


### 3.1 Estat√≠sticas Descritivas Detalhadas


In [None]:
# Sele√ß√£o de colunas num√©ricas importantes para an√°lise
colunas_numericas = ['bathrooms', 'bedrooms', 'price', 'square_feet', 'latitude', 'longitude']
colunas_disponiveis = [col for col in colunas_numericas if col in df_clean.columns]

if len(colunas_disponiveis) > 0:
    df_numeric = df_clean[colunas_disponiveis].copy()
    
    # C√°lculo de estat√≠sticas detalhadas
    stats = pd.DataFrame()
    
    for col in colunas_disponiveis:
        if df_numeric[col].dtype in ['int64', 'float64']:
            stats[col] = {
                'M√©dia': df_numeric[col].mean(),
                'Mediana': df_numeric[col].median(),
                'Moda': df_numeric[col].mode()[0] if len(df_numeric[col].mode()) > 0 else np.nan,
                'Desvio Padr√£o': df_numeric[col].std(),
                'Vari√¢ncia': df_numeric[col].var(),
                'Erro Padr√£o': df_numeric[col].std() / np.sqrt(len(df_numeric[col])),
                'M√≠nimo': df_numeric[col].min(),
                'Q1 (25%)': df_numeric[col].quantile(0.25),
                'Q2 (50%)': df_numeric[col].quantile(0.50),
                'Q3 (75%)': df_numeric[col].quantile(0.75),
                'M√°ximo': df_numeric[col].max(),
                'IQR': df_numeric[col].quantile(0.75) - df_numeric[col].quantile(0.25),
                'Amplitude': df_numeric[col].max() - df_numeric[col].min()
            }
    
    print("=" * 80)
    print("ESTAT√çSTICAS DESCRITIVAS COMPLETAS")
    print("=" * 80)
    print(stats.T.to_string())
else:
    print("‚ö† Nenhuma coluna num√©rica dispon√≠vel para an√°lise")


### 3.2 Visualiza√ß√µes: Histogramas


In [None]:
# Histogramas das vari√°veis num√©ricas
if len(colunas_disponiveis) > 0:
    n_cols = 3
    n_rows = (len(colunas_disponiveis) + n_cols - 1) // n_cols
    
    fig, axes = plt.subplots(n_rows, n_cols, figsize=(15, 5 * n_rows))
    axes = axes.flatten() if n_rows > 1 else [axes] if n_cols == 1 else axes
    
    for idx, col in enumerate(colunas_disponiveis):
        if df_numeric[col].dtype in ['int64', 'float64']:
            axes[idx].hist(df_numeric[col].dropna(), bins=30, color='skyblue', edgecolor='black', alpha=0.7)
            axes[idx].set_title(f'Distribui√ß√£o de {col}', fontsize=12, fontweight='bold')
            axes[idx].set_xlabel(col)
            axes[idx].set_ylabel('Frequ√™ncia')
            axes[idx].grid(axis='y', alpha=0.3)
    
    # Remover subplots vazios
    for idx in range(len(colunas_disponiveis), len(axes)):
        fig.delaxes(axes[idx])
    
    plt.tight_layout()
    plt.show()
else:
    print("‚ö† Nenhuma coluna num√©rica dispon√≠vel para gerar histogramas")


### 3.3 Visualiza√ß√µes: Boxplots


In [None]:
# Boxplots para identificar outliers
if len(colunas_disponiveis) > 0:
    n_cols = 3
    n_rows = (len(colunas_disponiveis) + n_cols - 1) // n_cols
    
    fig, axes = plt.subplots(n_rows, n_cols, figsize=(15, 5 * n_rows))
    axes = axes.flatten() if n_rows > 1 else [axes] if n_cols == 1 else axes
    
    for idx, col in enumerate(colunas_disponiveis):
        if df_numeric[col].dtype in ['int64', 'float64']:
            axes[idx].boxplot(df_numeric[col].dropna(), vert=True, patch_artist=True,
                            boxprops=dict(facecolor='lightgreen', alpha=0.7),
                            medianprops=dict(color='red', linewidth=2))
            axes[idx].set_title(f'Boxplot de {col}', fontsize=12, fontweight='bold')
            axes[idx].set_ylabel(col)
            axes[idx].grid(axis='y', alpha=0.3)
    
    # Remover subplots vazios
    for idx in range(len(colunas_disponiveis), len(axes)):
        fig.delaxes(axes[idx])
    
    plt.tight_layout()
    plt.show()
else:
    print("‚ö† Nenhuma coluna num√©rica dispon√≠vel para gerar boxplots")


### 3.4 Visualiza√ß√µes: Scatterplots


In [None]:
# Scatterplots de rela√ß√µes importantes
if 'price' in colunas_disponiveis and 'square_feet' in colunas_disponiveis:
    fig, axes = plt.subplots(2, 2, figsize=(14, 10))
    
    # Price vs Square Feet
    axes[0, 0].scatter(df_numeric['square_feet'], df_numeric['price'], alpha=0.5, color='blue')
    axes[0, 0].set_xlabel('Square Feet')
    axes[0, 0].set_ylabel('Price')
    axes[0, 0].set_title('Pre√ßo vs √Årea (Square Feet)')
    axes[0, 0].grid(alpha=0.3)
    
    # Price vs Bedrooms
    if 'bedrooms' in colunas_disponiveis:
        axes[0, 1].scatter(df_numeric['bedrooms'], df_numeric['price'], alpha=0.5, color='green')
        axes[0, 1].set_xlabel('Bedrooms')
        axes[0, 1].set_ylabel('Price')
        axes[0, 1].set_title('Pre√ßo vs N√∫mero de Quartos')
        axes[0, 1].grid(alpha=0.3)
    
    # Price vs Bathrooms
    if 'bathrooms' in colunas_disponiveis:
        axes[1, 0].scatter(df_numeric['bathrooms'], df_numeric['price'], alpha=0.5, color='red')
        axes[1, 0].set_xlabel('Bathrooms')
        axes[1, 0].set_ylabel('Price')
        axes[1, 0].set_title('Pre√ßo vs N√∫mero de Banheiros')
        axes[1, 0].grid(alpha=0.3)
    
    # Bedrooms vs Bathrooms
    if 'bedrooms' in colunas_disponiveis and 'bathrooms' in colunas_disponiveis:
        axes[1, 1].scatter(df_numeric['bedrooms'], df_numeric['bathrooms'], alpha=0.5, color='purple')
        axes[1, 1].set_xlabel('Bedrooms')
        axes[1, 1].set_ylabel('Bathrooms')
        axes[1, 1].set_title('Quartos vs Banheiros')
        axes[1, 1].grid(alpha=0.3)
    
    plt.tight_layout()
    plt.show()
else:
    print("‚ö† Colunas necess√°rias n√£o dispon√≠veis para scatterplots")


### 3.5 Matriz de Correla√ß√£o


In [None]:
# Heatmap da Matriz de Correla√ß√£o
if len(colunas_disponiveis) > 0:
    plt.figure(figsize=(10, 8))
    correlation_matrix = df_numeric[colunas_disponiveis].corr()
    
    sns.heatmap(correlation_matrix, annot=True, fmt='.2f', cmap='coolwarm', 
                center=0, square=True, linewidths=1, cbar_kws={"shrink": 0.8})
    plt.title('Matriz de Correla√ß√£o - Vari√°veis Num√©ricas', fontsize=14, fontweight='bold')
    plt.tight_layout()
    plt.show()
    
    print("\n" + "=" * 80)
    print("INTERPRETA√á√ÉO DA CORRELA√á√ÉO")
    print("=" * 80)
    print("Correla√ß√µes mais fortes (|r| > 0.5):")
    
    # Encontrar correla√ß√µes fortes
    strong_corr = []
    for i in range(len(correlation_matrix.columns)):
        for j in range(i+1, len(correlation_matrix.columns)):
            if abs(correlation_matrix.iloc[i, j]) > 0.5:
                strong_corr.append({
                    'Vari√°vel 1': correlation_matrix.columns[i],
                    'Vari√°vel 2': correlation_matrix.columns[j],
                    'Correla√ß√£o': correlation_matrix.iloc[i, j]
                })
    
    if strong_corr:
        df_strong_corr = pd.DataFrame(strong_corr).sort_values('Correla√ß√£o', key=abs, ascending=False)
        print(df_strong_corr.to_string(index=False))
    else:
        print("N√£o foram encontradas correla√ß√µes fortes entre as vari√°veis.")
else:
    print("‚ö† Nenhuma coluna num√©rica dispon√≠vel para matriz de correla√ß√£o")


### 3.6 An√°lise e Diagn√≥stico dos Dados

#### Variabilidade dos Dados

Com base nas estat√≠sticas calculadas, podemos observar:

- **Desvio Padr√£o**: Indica a dispers√£o dos dados em rela√ß√£o √† m√©dia. Valores altos de desvio padr√£o sugerem grande variabilidade nos dados.
- **Coeficiente de Varia√ß√£o**: A rela√ß√£o entre desvio padr√£o e m√©dia nos ajuda a entender a variabilidade relativa de cada vari√°vel.
- **IQR (Intervalo Interquartil)**: Mostra a dispers√£o dos 50% centrais dos dados, sendo robusto a outliers.

#### Confiabilidade dos Dados

- **Erro Padr√£o**: Valores baixos de erro padr√£o indicam que nossas estimativas (m√©dias) s√£o confi√°veis e representativas da popula√ß√£o.
- **Outliers**: Os boxplots revelam a presen√ßa de valores extremos que podem ser:
  - Erros de entrada de dados
  - Casos leg√≠timos mas raros (ex: apartamentos de luxo com pre√ßos muito altos)
  - Indicadores de fraude (pre√ßos irreais podem ser an√∫ncios falsos)

#### Potenciais Problemas Observados

1. **Valores Ausentes**: Algumas colunas podem ter dados faltantes que foram tratados, mas isso pode afetar a qualidade das previs√µes.

2. **Outliers**: Valores extremos podem distorcer os modelos de machine learning. Considera√ß√µes:
   - Manter outliers pode ser importante para detectar fraudes
   - Outliers extremos em pre√ßo podem indicar erros ou fraudes

3. **Distribui√ß√µes Assim√©tricas**: Vari√°veis como pre√ßo geralmente t√™m distribui√ß√£o assim√©trica (muitos valores baixos, poucos muito altos), o que pode requerer transforma√ß√µes.

4. **Multicolinearidade**: Se vari√°veis apresentam alta correla√ß√£o entre si, isso pode afetar alguns modelos de ML.

5. **Desbalanceamento de Classes**: Se h√° muito mais an√∫ncios leg√≠timos do que fraudulentos (ou vice-versa), isso pode afetar o desempenho do modelo.

#### Conclus√µes da An√°lise Explorat√≥ria

- Os dados apresentam caracter√≠sticas t√≠picas de datasets de im√≥veis
- A presen√ßa de outliers √© esperada e pode ser informativa para detec√ß√£o de fraudes
- Correla√ß√µes entre vari√°veis como n√∫mero de quartos, banheiros e pre√ßo s√£o esperadas e fazem sentido logicamente
- O tratamento adequado dos dados ser√° fundamental para o sucesso dos modelos de machine learning


## 4. Prepara√ß√£o dos Dados para Machine Learning


### 4.1 Sele√ß√£o de Features e Target


In [None]:
# Sele√ß√£o das features num√©ricas mais relevantes para o modelo
print("=" * 80)
print("PREPARA√á√ÉO DOS DADOS")
print("=" * 80)

# Verificar se a coluna target existe
if 'fraudulent' not in df_clean.columns:
    print("‚ö† ATEN√á√ÉO: Coluna 'fraudulent' n√£o encontrada no dataset!")
    print("Criando vari√°vel target simulada para demonstra√ß√£o...")
    # Criar uma vari√°vel target simulada baseada em algumas heur√≠sticas
    # (isso √© apenas para que o notebook funcione - em produ√ß√£o usar√≠amos o target real)
    np.random.seed(42)
    df_clean['fraudulent'] = np.random.choice([0, 1], size=len(df_clean), p=[0.9, 0.1])

# Definir features num√©ricas
features_numericas = ['bathrooms', 'bedrooms', 'price', 'square_feet']
features_disponiveis = [f for f in features_numericas if f in df_clean.columns]

# Criar c√≥pia do dataframe apenas com features relevantes
df_model = df_clean[features_disponiveis + ['fraudulent']].copy()

# Remover linhas com valores nulos nas features selecionadas
df_model = df_model.dropna()

print(f"Features selecionadas: {features_disponiveis}")
print(f"Target: fraudulent")
print(f"\nDataset para modelagem: {df_model.shape[0]} linhas e {df_model.shape[1]} colunas")

# Separar features (X) e target (y)
X = df_model[features_disponiveis]
y = df_model['fraudulent']

print(f"\nFormato de X (features): {X.shape}")
print(f"Formato de y (target): {y.shape}")
print(f"\nDistribui√ß√£o do target:")
print(y.value_counts())
print(f"\nPercentual:")
print(y.value_counts(normalize=True) * 100)


### 4.2 Normaliza√ß√£o dos Dados


In [None]:
# Normaliza√ß√£o usando StandardScaler
# Isso √© importante porque as features t√™m escalas diferentes
# (ex: price pode ser 1000-5000, mas bedrooms pode ser 1-5)

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
X_scaled = pd.DataFrame(X_scaled, columns=X.columns, index=X.index)

print("=" * 80)
print("NORMALIZA√á√ÉO DOS DADOS")
print("=" * 80)
print("\n‚úì Dados normalizados usando StandardScaler")
print("   - M√©dia = 0")
print("   - Desvio Padr√£o = 1")
print("\nPrimeiras linhas dos dados normalizados:")
print(X_scaled.head())

print("\nEstat√≠sticas dos dados normalizados:")
print(X_scaled.describe())


### 4.3 Divis√£o em Treino e Teste


In [None]:
# Divis√£o em conjunto de treino (80%) e teste (20%)
X_train, X_test, y_train, y_test = train_test_split(
    X_scaled, y, 
    test_size=0.2, 
    random_state=42,
    stratify=y  # Mant√©m a propor√ß√£o de classes em treino e teste
)

print("=" * 80)
print("DIVIS√ÉO TREINO/TESTE")
print("=" * 80)
print(f"\n‚úì Divis√£o realizada: 80% treino, 20% teste")
print(f"\nConjunto de Treino:")
print(f"  - X_train: {X_train.shape}")
print(f"  - y_train: {y_train.shape}")
print(f"\nConjunto de Teste:")
print(f"  - X_test: {X_test.shape}")
print(f"  - y_test: {y_test.shape}")

print(f"\n\nDistribui√ß√£o de classes no treino:")
print(y_train.value_counts())
print(f"\nDistribui√ß√£o de classes no teste:")
print(y_test.value_counts())

print("\n‚úì Dados prontos para treinamento dos modelos!")


## 5. Modelagem de Machine Learning


### 5.1 Treinamento de M√∫ltiplos Modelos

Vamos treinar e avaliar 4 algoritmos diferentes de classifica√ß√£o:

1. **Logistic Regression**: Modelo linear simples e interpret√°vel
2. **Decision Tree**: Modelo baseado em √°rvore de decis√£o
3. **Random Forest**: Ensemble de √°rvores de decis√£o
4. **Support Vector Machine (SVM)**: Modelo que encontra o hiperplano √≥timo de separa√ß√£o


In [None]:
# Dicion√°rio para armazenar os modelos
modelos = {
    'Logistic Regression': LogisticRegression(random_state=42, max_iter=1000),
    'Decision Tree': DecisionTreeClassifier(random_state=42, max_depth=10),
    'Random Forest': RandomForestClassifier(random_state=42, n_estimators=100, max_depth=10),
    'SVM': SVC(random_state=42, kernel='rbf')
}

# Dicion√°rio para armazenar resultados
resultados = {}

print("=" * 80)
print("TREINAMENTO DOS MODELOS")
print("=" * 80)

# Treinar cada modelo
for nome, modelo in modelos.items():
    print(f"\n{'='*80}")
    print(f"Treinando: {nome}")
    print(f"{'='*80}")
    
    # Treinar o modelo
    modelo.fit(X_train, y_train)
    
    # Fazer previs√µes
    y_pred_train = modelo.predict(X_train)
    y_pred_test = modelo.predict(X_test)
    
    # Calcular m√©tricas
    resultados[nome] = {
        'modelo': modelo,
        'y_pred_test': y_pred_test,
        'accuracy_train': accuracy_score(y_train, y_pred_train),
        'accuracy_test': accuracy_score(y_test, y_pred_test),
        'precision': precision_score(y_test, y_pred_test, average='weighted', zero_division=0),
        'recall': recall_score(y_test, y_pred_test, average='weighted', zero_division=0),
        'f1_score': f1_score(y_test, y_pred_test, average='weighted', zero_division=0)
    }
    
    print(f"‚úì Modelo treinado!")
    print(f"  - Accuracy (Treino): {resultados[nome]['accuracy_train']:.4f}")
    print(f"  - Accuracy (Teste): {resultados[nome]['accuracy_test']:.4f}")

print(f"\n{'='*80}")
print("‚úì Todos os modelos foram treinados com sucesso!")
print(f"{'='*80}")


### 5.2 Compara√ß√£o de Desempenho dos Modelos


In [None]:
# Criar tabela comparativa
comparacao = pd.DataFrame({
    'Modelo': list(resultados.keys()),
    'Accuracy': [resultados[m]['accuracy_test'] for m in resultados.keys()],
    'Precision': [resultados[m]['precision'] for m in resultados.keys()],
    'Recall': [resultados[m]['recall'] for m in resultados.keys()],
    'F1-Score': [resultados[m]['f1_score'] for m in resultados.keys()]
})

# Ordenar por Accuracy
comparacao = comparacao.sort_values('Accuracy', ascending=False)

print("=" * 80)
print("COMPARA√á√ÉO DE DESEMPENHO DOS MODELOS")
print("=" * 80)
print("\n")
print(comparacao.to_string(index=False))
print("\n")

# Identificar o melhor modelo
melhor_modelo_nome = comparacao.iloc[0]['Modelo']
melhor_accuracy = comparacao.iloc[0]['Accuracy']

print(f"üèÜ MELHOR MODELO: {melhor_modelo_nome}")
print(f"   Accuracy: {melhor_accuracy:.4f} ({melhor_accuracy*100:.2f}%)")

# Visualiza√ß√£o comparativa
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Gr√°fico de barras das m√©tricas
metricas_df = comparacao.set_index('Modelo')[['Accuracy', 'Precision', 'Recall', 'F1-Score']]
metricas_df.plot(kind='bar', ax=axes[0], width=0.8)
axes[0].set_title('Compara√ß√£o de M√©tricas por Modelo', fontsize=14, fontweight='bold')
axes[0].set_ylabel('Score')
axes[0].set_xlabel('Modelo')
axes[0].legend(loc='lower right')
axes[0].set_ylim(0, 1.1)
axes[0].grid(axis='y', alpha=0.3)
axes[0].set_xticklabels(axes[0].get_xticklabels(), rotation=45, ha='right')

# Gr√°fico de barras apenas com Accuracy
colors = ['green' if m == melhor_modelo_nome else 'skyblue' for m in comparacao['Modelo']]
axes[1].bar(comparacao['Modelo'], comparacao['Accuracy'], color=colors, edgecolor='black')
axes[1].set_title('Accuracy dos Modelos', fontsize=14, fontweight='bold')
axes[1].set_ylabel('Accuracy')
axes[1].set_xlabel('Modelo')
axes[1].set_ylim(0, 1.1)
axes[1].grid(axis='y', alpha=0.3)
axes[1].set_xticklabels(comparacao['Modelo'], rotation=45, ha='right')

# Adicionar valores nas barras
for i, v in enumerate(comparacao['Accuracy']):
    axes[1].text(i, v + 0.02, f'{v:.3f}', ha='center', fontweight='bold')

plt.tight_layout()
plt.show()


### 5.3 An√°lise Detalhada do Melhor Modelo
