# Pr√©-Processamento de Dados

In [None]:
print('Bem vindo ao Machine Learning')

In [None]:
import importlib
import subprocess
import sys

# Lista de pacotes necess√°rios e os nomes para importar
pacotes = {
    "pandas": "pd",
    "numpy": "np",
    "seaborn": "sns",
    "matplotlib": "plt",
    "IPython": None,
    "scikit-learn": None,
    "tabulate": None
}

In [None]:
# Fun√ß√£o para instalar pacotes
def instalar(pacote):
    subprocess.check_call([sys.executable, "-m", "pip", "install", pacote])

# Verifica e instala os pacotes
for pacote, alias in pacotes.items():
    try:
        importlib.import_module(pacote)
    except ImportError:
        print(f"Instalando {pacote}...")
        instalar(pacote)

## Bibliotecas usadas:

In [None]:
# Importa a biblioteca pandas, amplamente utilizada para an√°lise e manipula√ß√£o de dados em Python.
import pandas as pd

import numpy as np

# O m√≥dulo 'os' fornece fun√ß√µes para interagir com o sistema operacional,
# como manipula√ß√£o de arquivos, diret√≥rios e vari√°veis de ambiente.
import os

# O m√≥dulo 'tarfile' permite ler e escrever arquivos compactados no formato .tar, .tar.gz, .tgz, etc.
# √â √∫til para extrair ou criar arquivos compactados.
import tarfile

# O m√≥dulo 'urllib' oferece fun√ß√µes para manipular URLs e fazer requisi√ß√µes HTTP,
# como baixar arquivos da internet.
import urllib

# Importa a biblioteca Seaborn, que √© utilizada para cria√ß√£o de gr√°ficos estat√≠sticos,
# tornando a visualiza√ß√£o de dados mais simples e visualmente agrad√°vel.
import seaborn as sns

# Importa o m√≥dulo pyplot da biblioteca Matplotlib, que fornece fun√ß√µes para gerar gr√°ficos
# como linha, dispers√£o, barras, histogramas, entre outros, e permite controle total sobre eles.
import matplotlib.pyplot as plt

from IPython.display import display, Markdown

# Importando a biblioteca necess√°ria
from sklearn.impute import KNNImputer

from sklearn.metrics import mean_squared_error

# Import necess√°rio
from sklearn.model_selection import train_test_split, cross_val_score, KFold

# Normalizar os dados antes de aplicar KNNImputer
from sklearn.preprocessing import StandardScaler

from sklearn.base import BaseEstimator, TransformerMixin

from sklearn.impute import SimpleImputer

from sklearn.preprocessing import StandardScaler, MinMaxScaler

from tabulate import tabulate


## Obten√ß√£o dos Dados

Pacotes usados:

```python
# Importa a biblioteca pandas, amplamente utilizada para an√°lise e manipula√ß√£o de dados em Python.
import pandas as pd

# O m√≥dulo 'os' fornece fun√ß√µes para interagir com o sistema operacional,
# como manipula√ß√£o de arquivos, diret√≥rios e vari√°veis de ambiente.
import os

# O m√≥dulo 'tarfile' permite ler e escrever arquivos compactados no formato .tar, .tar.gz, .tgz, etc.
# √â √∫til para extrair ou criar arquivos compactados.
import tarfile

# O m√≥dulo 'urllib' oferece fun√ß√µes para manipular URLs e fazer requisi√ß√µes HTTP,
# como baixar arquivos da internet.
import urllib
```

Para este fase da oficina trabalharemos com um conjunto de dados dos im√≥veis em distritos da Calif√≥rnia, considerando uma s√©rie de caracter√≠sticas desses distritos, cada inst√¢ncia √© um distrito. Basta fazer o download do arquivo de um arquivo compactado, *housing.tgz*, que cont√©m o arquivo *housing.csv*.

Voc√™ poderia usar o navegador para baixar o arquivo, mas √© prefer√≠vel criar uma pequena fun√ß√£o para tal. Ter uma fun√ß√£o para baixar arquivos √© uma boa pr√°tica, pois voc√™ pode reutiliz√°-la em outros projetos. Al√©m disso, voc√™ pode adicionar funcionalidades extras, como verificar se o arquivo j√° foi baixado ou n√£o.

As fun√ß√µes abaixo fazem o download do arquivo, descompactam o arquivo e carregam os dados em um DataFrame do Pandas. O arquivo CSV cont√©m informa√ß√µes sobre os pre√ßos de im√≥veis na Calif√≥rnia, incluindo caracter√≠sticas como n√∫mero de quartos, idade da casa, localiza√ß√£o e outros fatores que podem influenciar o pre√ßo. Esses dados s√£o frequentemente usados em an√°lises de pre√ßos de im√≥veis e modelos preditivos.

In [None]:
DOWNLOAD_ROOT = 'https://raw.githubusercontent.com/ageron/handson-ml/master/'
# Define a URL base de onde os dados ser√£o baixados.

HOUSING_PATH = os.path.join('datasets', 'housing')
# Cria um caminho local ('datasets/housing') para armazenar os dados baixados.
# Usa os.path.join para garantir compatibilidade entre sistemas operacionais.

HOUSING_URL = DOWNLOAD_ROOT + 'datasets/housing/housing.tgz'
# Monta a URL completa do arquivo compactado que ser√° baixado,
# juntando a URL base com o caminho do arquivo no reposit√≥rio.

In [None]:
def fetch_housing_data(housing_url=HOUSING_URL, housing_path=HOUSING_PATH):
    """
    Fun√ß√£o respons√°vel por:
    1. Criar uma pasta local para armazenar os dados (se ela n√£o existir).
    2. Baixar um arquivo compactado (.tgz) de um reposit√≥rio online.
    3. Extrair esse arquivo para a pasta especificada.

    Par√¢metros:
    - housing_url: URL onde est√° localizado o arquivo compactado com os dados.
    - housing_path: Caminho local onde os dados ser√£o salvos e extra√≠dos.
    """
    
    # Cria o diret√≥rio onde os dados ser√£o armazenados.
    # Se o diret√≥rio j√° existir, 'exist_ok=True' evita que um erro seja gerado.
    os.makedirs(housing_path, exist_ok=True)

    # Define o caminho completo onde o arquivo .tgz ser√° salvo localmente.
    # Junta o caminho da pasta com o nome do arquivo.
    tgz_path = os.path.join(housing_path, 'housing.tgz')

    # Faz o download do arquivo a partir da URL especificada.
    # Salva o arquivo compactado no caminho definido por 'tgz_path'.
    urllib.request.urlretrieve(housing_url, tgz_path)

    # Abre o arquivo compactado (.tgz) para leitura.
    housing_tgz = tarfile.open(tgz_path)

    # Extrai todo o conte√∫do do arquivo compactado para a pasta definida.
    housing_tgz.extractall(path=housing_path)

    # Fecha o arquivo .tgz para liberar recursos do sistema.
    housing_tgz.close()


Quando chamamos `fetch_housing_data()` cria um diret√≥rio *datasets/housing* em seu workspace, baixa o arquivo *housing.tgz* e extrai o arquivo *housing.csv* nesse diret√≥rio.

In [None]:
fetch_housing_data()

Quando chamamos `fetch_housing_data()`, ele cria um diret√≥rio chamado `datasets/housings` em seu workspace, faz o download do arquivo *housing.tgz* e extrai o arquivo *housing.csv* para esse diret√≥rio. Agora carregaremos carregaremos os dados com o Pandas. Mais uma vez, voc√™ deve descrever uma pequena fun√ß√£o para carreg√°-los:

In [None]:
def load_housing_data(housing_path=HOUSING_PATH):
    """
    Fun√ß√£o respons√°vel por carregar os dados de habita√ß√£o (housing) que est√£o armazenados em um arquivo CSV.
    
    Par√¢metros:
    - housing_path: Caminho da pasta onde o arquivo 'housing.csv' est√° localizado.
    
    Retorna:
    - Um DataFrame do pandas contendo os dados carregados do arquivo CSV.
    """

    # Define o caminho completo do arquivo CSV, unindo o caminho da pasta com o nome do arquivo.
    csv_path = os.path.join(housing_path, 'housing.csv')

    # Usa a fun√ß√£o read_csv do pandas para ler o arquivo CSV localizado em 'csv_path'.
    # Retorna o conte√∫do como um DataFrame, que √© uma estrutura de dados tabular (tabelas) muito poderosa no pandas.
    return pd.read_csv(csv_path)


Vamos olhar as 5 primeiras linhas do DataFrame que iremos carregar:

In [None]:
housing = load_housing_data()
housing.head()

In [None]:
for i, col in enumerate(housing.columns):
    print(f'Vari√°vel {i+1}: {col}')

---
**Descri√ß√£o das Vari√°veis do Dataset Housing:**

- **Vari√°vel 1:** `longitude` ‚Äî Longitude da localiza√ß√£o.
- **Vari√°vel 2:** `latitude` ‚Äî Latitude da localiza√ß√£o.
- **Vari√°vel 3:** `housing_median_age` ‚Äî Mediana da idade das constru√ß√µes residenciais naquela √°rea.
- **Vari√°vel 4:** `total_rooms` ‚Äî N√∫mero total de c√¥modos (rooms) nas resid√™ncias da √°rea.
- **Vari√°vel 5:** `total_bedrooms` ‚Äî N√∫mero total de quartos nas resid√™ncias da √°rea.
- **Vari√°vel 6:** `population` ‚Äî Popula√ß√£o da √°rea.
- **Vari√°vel 7:** `households` ‚Äî N√∫mero de domic√≠lios (households) na √°rea.
- **Vari√°vel 8:** `median_income` ‚Äî Renda mediana dos moradores da √°rea (em dezenas de milhares de d√≥lares).
- **Vari√°vel 9:** `median_house_value` ‚Äî Valor mediano das resid√™ncias naquela √°rea (em d√≥lares).
- **Vari√°vel 10:** `ocean_proximity` ‚Äî Proximidade com o oceano (categorias como "INLAND", "NEAR OCEAN", etc.).
---

## Pr√©-An√°lise Explorat√≥ria dos Dados

Pacotes usados:

```python
# Importa a biblioteca Seaborn, que √© utilizada para cria√ß√£o de gr√°ficos estat√≠sticos,
# tornando a visualiza√ß√£o de dados mais simples e visualmente agrad√°vel.
import seaborn as sns

# Importa o m√≥dulo pyplot da biblioteca Matplotlib, que fornece fun√ß√µes para gerar gr√°ficos
# como linha, dispers√£o, barras, histogramas, entre outros, e permite controle total sobre eles.
import matplotlib.pyplot as plt
```

### Agora o momento de investiga√ß√£o dos dados üîç- *MUITA ATEN√á√ÉO*

In [None]:
housing.info()

In [None]:
housing.describe()

O ``info()`` √© bom, entretanto podemos ter uma an√°lise mais minuciosa quanto ao tipo e quantidade de inst√¢ncias, vamos criar uma fun√ß√£o para isso:

In [None]:
# Defini√ß√£o da classe DataAnalyzer
class DataAnalyzer:
    def __init__(self, df):
        """
        Inicializa o analisador com um DataFrame.
        
        Par√¢metros:
        - df: pandas DataFrame que ser√° utilizado para an√°lise, logo ele j√° tem de estar importado no ambiente.
        
        Atributos criados:
        - self.df: guarda o DataFrame passado na cria√ß√£o do objeto.
        - self.total: guarda a quantidade total de observa√ß√µes (linhas) do DataFrame.
        """
        self.df = df
        self.total = len(df)

    def tipos_variaveis(self):
        """
        Mostra a contagem dos tipos de vari√°veis presentes no DataFrame.
        
        Funcionalidade:
        - Conta quantas vari√°veis s√£o de cada tipo (ex.: int64, float64, object, etc.).
        - Exibe os resultados formatados visualmente, com separadores e emojis.
        """
        print('='*50)  # Linha de separa√ß√£o
        print('üìä Tipos de Vari√°veis:')  # T√≠tulo da se√ß√£o
        print('-'*50)  # Linha de separa√ß√£o
        print(self.df.dtypes.value_counts())  # Conta e exibe os tipos de dados das colunas
        print('='*50)  # Linha de fechamento

    def analise_dados_nulos(self):
        """
        Realiza uma an√°lise de dados nulos no DataFrame.
        
        Funcionalidade:
        - Mostra para cada coluna:
            - Quantidade de valores n√£o nulos.
            - Quantidade de valores nulos.
            - Porcentagem de valores n√£o nulos.
            - Porcentagem de valores nulos.
        - Organiza essas informa√ß√µes em formato tabular, bem alinhado.
        """
        print('='*50)
        print('üîç An√°lise de Dados Nulos:')
        print('-'*50)

        # Cria um DataFrame auxiliar com as informa√ß√µes de nulos e n√£o nulos
        dados_nulos = pd.DataFrame({
            'N√£o Nulos': self.df.notnull().sum(),  # Quantidade de n√£o nulos por coluna
            'Nulos': self.df.isnull().sum(),  # Quantidade de nulos por coluna
            'Porcentagem N√£o Nulos (%)': (self.df.notnull().sum() / self.total * 100).round(2),  # Porcentagem de n√£o nulos
            'Porcentagem Nulos (%)': (self.df.isnull().sum() / self.total * 100).round(2)  # Porcentagem de nulos
        })

        # Exibe o DataFrame de dados nulos em formato string, alinhado como tabela
        print(dados_nulos.to_string())  # Essa linha faz com que a tabela fique alinhada horizontalmente, sem quebra
        print('='*50)  # Linha de fechamento


In [None]:
DataAnalyzer(housing).tipos_variaveis()

In [None]:
DataAnalyzer(housing).analise_dados_nulos()

Vamos enxergar melhor as NAs:

In [None]:
# Cria uma nova figura para o gr√°fico, definindo o tamanho (largura=10, altura=5).
plt.figure(figsize=(10, 5))

# Gera um heatmap (mapa de calor) utilizando seaborn.
# O DataFrame housing.isnull() retorna True para valores nulos e False para n√£o nulos.
# Cada quadrado do heatmap representa se h√° (ou n√£o) um valor nulo na respectiva c√©lula.
# cbar=False remove a barra de cores lateral (opcional).
# cmap='viridis' define o esquema de cores (pode ser 'viridis', 'magma', 'coolwarm', etc.).
# yticklabels=False remove os r√≥tulos dos √≠ndices no eixo Y (para deixar o gr√°fico mais limpo).
sns.heatmap(housing.isnull(), cbar=False, cmap='viridis', yticklabels=False)

# Adiciona um t√≠tulo ao gr√°fico.
plt.title('Heatmap de valores Nulos (NA) no DataFrame')

# Define o r√≥tulo (label) do eixo X, que representa as colunas do DataFrame.
plt.xlabel('Colunas')

# Rotaciona os nomes das colunas no eixo X para 45 graus,
# facilitando a leitura quando os nomes s√£o longos ou numerosos.
plt.xticks(rotation=45)

plt.show()


A maioria dos algoritmos de aprendizado de m√°quina n√£o lidam bem com dados ausentes. Portanto, √© importante identificar e tratar esses dados antes de prosseguir com a an√°lise ou modelagem. O tratamento de dados ausentes pode incluir a remo√ß√£o de linhas ou colunas que cont√™m valores ausentes, ou o preenchimento desses valores com estimativas apropriadas.

In [None]:
# 1. Selecionar colunas num√©ricas automaticamente
numeric_cols = housing.select_dtypes(include=['number']).columns.tolist()

# 2. Configura√ß√£o do gr√°fico
n_cols = 3  # N√∫mero de colunas no grid
n_rows = len(numeric_cols) // n_cols  # Calcula linhas necess√°rias

plt.figure(figsize=(14, 4*n_rows))  # Ajuste autom√°tico de altura

# 3. Criar histogramas para cada vari√°vel
for i, col in enumerate(numeric_cols, 1):
    plt.subplot(n_rows, n_cols, i)
    
    # Histograma com KDE
    sns.histplot(housing[col], 
                 bins=30, 
                 kde=True, 
                 color='#1f77b4',  # Azul matplotlib
                 edgecolor='white',
                 linewidth=0.5)
    
    # Customiza√ß√£o
    plt.title(f'Distribui√ß√£o de {col}', fontsize=12, pad=10)
    plt.xlabel('Valor', fontsize=10)
    plt.ylabel('Frequ√™ncia', fontsize=10)
    plt.grid(axis='y', alpha=0.3)
    
    # Adicionar linhas de refer√™ncia
    plt.axvline(housing[col].mean(), color='red', linestyle='--', linewidth=1, label='M√©dia')
    plt.axvline(housing[col].median(), color='green', linestyle='-', linewidth=1, label='Mediana')
    
    if i == 1:  # Legenda apenas no primeiro gr√°fico
        plt.legend(fontsize=8)

plt.tight_layout(pad=3.0)  # Espa√ßamento entre subplots
plt.suptitle('Distribui√ß√£o das Vari√°veis Num√©ricas', y=1.02, fontsize=14)
plt.show()

Podemos observar distribui√ß√µes assim√©tricas em todos os gr√°ficos

In [None]:
plt.figure(figsize=(14, 5*n_rows))
plt.suptitle('An√°lise de Outliers - Box Plots', y=1.02, fontsize=14)

# 3. Criar box plots para cada vari√°vel
for i, col in enumerate(numeric_cols, 1):
    plt.subplot(n_rows, n_cols, i)
    
    # Box plot customizado
    sns.boxplot(y=housing[col], 
                color='#4C72B0', 
                width=0.5,
                flierprops=dict(marker='o', 
                               markersize=5,
                               markerfacecolor='#DD8452',
                               markeredgecolor='none',
                               alpha=0.7))
    
    # Adicionar linha da mediana
    median = housing[col].median()
    plt.axhline(median, color='#55A868', linestyle='--', linewidth=1, alpha=0.7)
    
    # Customiza√ß√£o
    plt.title(col, fontsize=12, pad=10)
    plt.ylabel('Valores', fontsize=9)
    plt.grid(axis='y', alpha=0.3)
    
    # Anotar estat√≠sticas
    stats = housing[col].describe()
    textstr = f"Mediana: {median:.2f}\nQ1: {stats['25%']:.2f}\nQ3: {stats['75%']:.2f}"
    plt.text(0.05, 0.95, textstr, 
             transform=plt.gca().transAxes,
             fontsize=8,
             verticalalignment='top',
             bbox=dict(boxstyle='round', facecolor='white', alpha=0.8))

plt.tight_layout(pad=3.0)
plt.show()

## Limpeza e Tratamento dos Dados

Pacotes usados:

```python
from IPython.display import display, Markdown

# üì¶ Importando a biblioteca necess√°ria
from sklearn.impute import KNNImputer

import numpy as np

import pandas as pd

from sklearn.impute import KNNImputer

from sklearn.metrics import mean_squared_error

import matplotlib.pyplot as plt

# Import necess√°rio
from sklearn.model_selection import train_test_split
```

### **Data Imputation**

Uma decis√£o crucial que voc√™ deve tomar √© o que fazer com os dados ausentes. Voc√™ pode optar por remover as linhas ou colunas que cont√™m valores ausentes, ou pode preencher esses valores com a m√©dia, mediana ou outro valor apropriado. A escolha depende do contexto dos dados e do impacto que os valores ausentes podem ter na an√°lise. Para esta oficina, vamos optar por preencher os valores ausentes (NAs) com algum estimador, por√©m vamos mostrar como remover as linhas ou colunas com NAs tamb√©m.

Antes disso, temos que entender o que √© imputa√ß√£o de dados. A imputa√ß√£o de dados √© o processo de substituir valores ausentes em um conjunto de dados por valores estimados. Isso √© importante porque muitos algoritmos de aprendizado de m√°quina n√£o podem lidar com dados ausentes e, portanto, a imputa√ß√£o √© uma etapa crucial no pr√©-processamento dos dados.
A imputa√ß√£o pode ser feita de v√°rias maneiras, incluindo:
- **M√©dia/Mediana/Moda:** Substituir valores ausentes pela m√©dia, mediana ou moda da coluna.
- **KNNImputer:** Usar o algoritmo K-Nearest Neighbors para prever valores ausentes com base em valores de inst√¢ncias semelhantes.
- **Regress√£o:** Usar um modelo de regress√£o para prever valores ausentes com base em outras vari√°veis.

#### üéØ Design do Scikit-Learn

A API do Scikit-Learn √© notavelmente bem projetada. Estes s√£o os principais princ√≠pios de design:

---

##### ‚úÖ Consist√™ncia

Todos os objetos compartilham uma interface consistente e simples.

---

##### **Estimadores**

Qualquer objeto que possa estimar alguns par√¢metros com base em um conjunto de dados √© chamado de **estimador** (por exemplo, um `SimpleImputer` √© um estimador).  

- A estimativa √© realizada pelo m√©todo `fit()`, que recebe um conjunto de dados como par√¢metro.  
- Para algoritmos de aprendizado supervisionado, o `fit()` recebe dois conjuntos de dados: um com as amostras e outro com os r√≥tulos (*labels*).  
- Qualquer outro par√¢metro necess√°rio para orientar o processo de estimativa √© chamado de **hiperpar√¢metro** (por exemplo, a estrat√©gia do `SimpleImputer`), e deve ser definido como uma vari√°vel de inst√¢ncia (geralmente por meio de um par√¢metro do construtor).

---

##### **Transformadores**

Alguns estimadores (como o `SimpleImputer`) tamb√©m podem **transformar** um conjunto de dados; estes s√£o chamados de **transformadores**.

- A transforma√ß√£o √© feita pelo m√©todo `transform()`, que recebe o conjunto de dados a ser transformado e retorna o conjunto transformado.  
- Essa transforma√ß√£o geralmente depende dos par√¢metros aprendidos durante o `fit()`, como acontece com o `SimpleImputer`.  
- Todos os transformadores possuem tamb√©m o m√©todo `fit_transform()`, que √© equivalente a chamar `fit()` seguido de `transform()`.  
  - **Obs:** em alguns casos, `fit_transform()` √© otimizado e executa muito mais r√°pido do que chamar os dois m√©todos separadamente.

---

##### **Preditores**

Alguns estimadores s√£o capazes de fazer **previs√µes**; estes s√£o chamados de **preditores**.

- Por exemplo, o modelo `LinearRegression` √© um preditor: dado o PIB per capita de um pa√≠s, ele prev√™ o n√≠vel de satisfa√ß√£o com a vida.  
- Um preditor possui o m√©todo `predict()`, que recebe um conjunto de novas inst√¢ncias e retorna as previs√µes correspondentes.  
- Ele tamb√©m possui o m√©todo `score()`, que mede a qualidade das previs√µes, dado um conjunto de teste (e os r√≥tulos correspondentes, no caso de aprendizado supervisionado).

---

##### ‚úÖ Inspe√ß√£o

- Todos os **hiperpar√¢metros** de um estimador s√£o acess√≠veis diretamente via vari√°veis p√∫blicas de inst√¢ncia (por exemplo, `imputer.strategy`).  
- Todos os **par√¢metros aprendidos** s√£o acess√≠veis via vari√°veis p√∫blicas de inst√¢ncia com um **sufixo de sublinhado** (por exemplo, `imputer.statistics_`).

---

##### ‚úÖ N√£o prolifera√ß√£o de classes

- Conjuntos de dados s√£o representados como arrays do **NumPy** ou matrizes esparsas do **SciPy**, em vez de classes personalizadas.  
- Hiperpar√¢metros s√£o apenas strings ou n√∫meros comuns do Python.

---

##### ‚úÖ Composi√ß√£o

- Blocos de constru√ß√£o existentes s√£o reutilizados sempre que poss√≠vel.  
- Por exemplo, √© f√°cil criar um **Pipeline** (fluxo de processamento) a partir de uma sequ√™ncia arbitr√°ria de transformadores seguida por um estimador final.

---

##### ‚úÖ Valores padr√£o sensatos

- O Scikit-Learn fornece valores padr√£o razo√°veis para a maioria dos par√¢metros.  
- Isso facilita a cria√ß√£o r√°pida de um sistema funcional b√°sico (*baseline*).



#### 1¬∞ Op√ß√£o: Remover inst√¢ncias com NAs:

In [None]:
# Cria um novo DataFrame chamado 'housing_not_na' onde as linhas que possuem
# valores nulos (NaN) na coluna 'total_bedrooms' s√£o removidas.

housing_not_na = housing.dropna(
    subset=['total_bedrooms'],  # Define que a verifica√ß√£o de nulos ser√° feita apenas na coluna 'total_bedrooms'.
    inplace=False                # inplace=False garante que o DataFrame original (housing) n√£o ser√° modificado,
                                 # e sim retornar√° um novo DataFrame com as linhas sem nulos nessa coluna.
)

In [None]:
DataAnalyzer(housing_not_na).analise_dados_nulos()

#### 2¬∞ Op√ß√£o: Remover colunas com NAs:

In [None]:
# Cria um novo DataFrame chamado 'housing_not_na' removendo a coluna 'total_bedrooms' do DataFrame original.

housing_not_na = housing.drop(
    'total_bedrooms',  # Especifica qual coluna ser√° removida. Neste caso, 'total_bedrooms'.
    axis=1,             # axis=1 indica que estamos removendo uma COLUNA (se fosse axis=0, seria uma LINHA).
    inplace=False       # inplace=False garante que a opera√ß√£o n√£o altera o DataFrame original (housing),
                        # mas retorna um novo DataFrame com a coluna removida.
)

In [None]:
DataAnalyzer(housing_not_na).analise_dados_nulos()

#### 3¬∞ Op√ß√£o: Preencher NAs com a alguma medida de tend√™ncia central da coluna:

In [None]:
# ‚úÖ Calculando a m√©dia da coluna 'total_bedrooms'
# A fun√ß√£o .mean() calcula a m√©dia aritm√©tica dos valores num√©ricos, ignorando automaticamente os valores NaN
mean = housing['total_bedrooms'].mean()

# ‚úÖ Fazendo uma c√≥pia do dataframe original para n√£o alterar os dados originais
housing_mean = housing.copy()

# ‚úÖ Substituindo os valores ausentes (NaN) da coluna 'total_bedrooms' pela m√©dia calculada
# A fun√ß√£o .fillna(mean) preenche todas as c√©lulas que est√£o com NaN com o valor da m√©dia
housing_mean['total_bedrooms'] = housing_mean['total_bedrooms'].fillna(mean)

# ‚úÖ Verificando quantos valores ausentes ainda existem na coluna 'total_bedrooms' ap√≥s a imputa√ß√£o
# A fun√ß√£o .isnull().sum() retorna a quantidade de valores que ainda s√£o NaN (se tudo deu certo, deve ser zero)
na_mean = housing_mean['total_bedrooms'].isnull().sum()

In [None]:
# Calcula a mediana da coluna 'total_bedrooms' do DataFrame 'housing'
# A mediana √© uma medida de tend√™ncia central que √© menos sens√≠vel a valores extremos do que a m√©dia.
median = housing['total_bedrooms'].median()

# Cria uma c√≥pia do DataFrame original 'housing' para n√£o modificar os dados originais
housing_median = housing.copy()

# Substitui os valores ausentes (NaN) da coluna 'total_bedrooms' pela mediana calculada
# O m√©todo fillna() preenche valores faltantes, garantindo que n√£o haja dados ausentes nessa coluna.
housing_median['total_bedrooms'] = housing_median['total_bedrooms'].fillna(median)

# Verifica quantos valores ausentes (NaN) ainda existem na coluna 'total_bedrooms' ap√≥s a substitui√ß√£o
# O m√©todo isnull() identifica valores nulos e sum() faz a contagem total deles.
na_median = housing_median['total_bedrooms'].isnull().sum()


In [None]:
# Sa√≠da em Markdown
display(Markdown(f"""
## üîß Resultado da Imputa√ß√£o de Dados Nulos

- üß† Ap√≥s preencher com **M√©dia**, restam **{na_mean}** valores nulos na coluna `total_bedrooms`.
- üß† Ap√≥s preencher com **Mediana**, restam **{na_median}** valores nulos na coluna `total_bedrooms`.

‚úÖ Ambos os m√©todos resolveram os dados faltantes, caso o n√∫mero seja zero.
"""))

Esse processo pode ser automatizado com o uso de bibliotecas como o **Scikit-learn**, que fornece uma classe √∫til que se encarrega de valores ausentes: a ``SimpleImputer``. Essa classe pode ser usada para preencher valores ausentes com a m√©dia, mediana ou moda de uma coluna. Vejamos como us√°-la: primeiro, voc√™ precisa criar uma inst√¢ncia da ``SimpleImputer``, especificando que deseja substituir os valores ausentes de cada atributo pela m√©dia/mediana desse atributo:

In [None]:
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(strategy='mean')

housing_num = housing.drop('ocean_proximity', axis=1)

imputer.fit(housing_num)

A ``imputer`` simplesmente calcula a m√©dia de cada coluna e armazena esses valores em sua vari√°vel ``statistics_``. Somente o atributo `total_bedrooms` tem valores ausentes, ent√£o o imputer calcula a m√©dia apenas desse atributo:

In [None]:
imputer.statistics_

In [None]:
housing_num.mean().values

Agora, voc√™ pode usar o m√©todo ``transform()`` para preencher os valores ausentes com a m√©dia de cada coluna. O m√©todo ``transform()`` retorna um novo array NumPy, que cont√©m os dados preenchidos:

In [None]:
X_ = imputer.transform(housing_num)

Voc√™ pode usar o m√©todo ``fit_transform()`` para fazer isso em uma √∫nica etapa tamb√©m:

In [None]:
X_ = imputer.fit_transform(housing_num)

#### 4¬∞ Op√ß√£o: Preencher NAs com a estima√ß√£o de um modelo

para essa caso usaremos o KNNImputer do Scikit-learn. O KNNImputer √© uma t√©cnica de imputa√ß√£o que utiliza o algoritmo K-Nearest Neighbors (KNN) para preencher valores ausentes em um conjunto de dados. Ele funciona identificando os vizinhos mais pr√≥ximos de uma inst√¢ncia com dados ausentes e usando os valores desses vizinhos para estimar o valor ausente. Essa abordagem √© √∫til quando os dados t√™m uma estrutura espacial ou temporal, pois considera a similaridade entre as inst√¢ncias.

#### üî¢ Demonstra√ß√£o Matem√°tica do KNN e do KNNImputer

##### üìö **Teoria do KNN (K-Nearest Neighbors)**

O algoritmo KNN √© um m√©todo baseado em inst√¢ncias usado tanto para **classifica√ß√£o quanto regress√£o**, onde uma amostra desconhecida √© classificada ou recebe um valor estimado com base nos seus **K vizinhos mais pr√≥ximos** no espa√ßo de caracter√≠sticas.

A base matem√°tica do KNN se fundamenta na ideia de **dist√¢ncias** no espa√ßo vetorial, mais frequentemente utilizando a **Dist√¢ncia Euclidiana**, embora outras m√©tricas tamb√©m possam ser aplicadas (Manhattan, Minkowski, etc.).

---

##### üîó **Equa√ß√£o da Dist√¢ncia Euclidiana**

Para dois pontos $X = (x_1, x_2, ..., x_n)$ e $Y = (y_1, y_2, ..., y_n)$ em um espa√ßo $n$-dimensional, a dist√¢ncia euclidiana √© calculada como:

$
d(X, Y) = \sqrt{\sum_{i=1}^{n} (x_i - y_i)^2}
$

Essa √© a m√©trica padr√£o no KNN, pois mede a "reta" que liga dois pontos no espa√ßo.

---

##### üö© **Processo Matem√°tico do KNN**

1. Calcular a dist√¢ncia entre o ponto com valor desconhecido e todos os outros pontos do conjunto de dados.
   
2. Ordenar os dados com base na menor dist√¢ncia.

3. Selecionar os **K vizinhos mais pr√≥ximos**.

4. - **Regress√£o:** Calcular a **m√©dia** dos valores da vari√°vel alvo dos K vizinhos:

   $
   \hat{y} = \dfrac{\sum_{i=1}^{K} y_i}{K}
   $

   - **Classifica√ß√£o:** Selecionar a **classe mais frequente** entre os vizinhos.

---

##### üîß **Teoria do KNNImputer para Dados Faltantes**

O **KNNImputer** aplica exatamente o mesmo conceito do KNN, mas ao inv√©s de prever uma vari√°vel alvo externa, ele preenche os valores **faltantes nas pr√≥prias colunas do dataset**.

- Para cada c√©lula com valor ausente:
  1. Localizam-se os **K registros mais pr√≥ximos** (com base nas outras colunas que t√™m valores presentes).
  2. Calcula-se a **m√©dia dos valores** dos vizinhos na coluna com dados ausentes.
  3. Substitui-se o valor nulo pela m√©dia calculada.

---

##### ‚öôÔ∏è **F√≥rmula da Imputa√ß√£o**

Dado um valor ausente na coluna $j$ do ponto $x$, o valor imputado √©:

$
\hat{x}_j = \frac{\sum_{i=1}^{K} x_{ij}}{K}
$

Onde:

- $x_{ij}$ = valor da coluna $j$ no vizinho $i$.
- $K$ = n√∫mero de vizinhos considerados.

O processo √© repetido para cada valor ausente, considerando as dist√¢ncias calculadas **apenas nas colunas que n√£o possuem valores ausentes simultaneamente**.

---

#### ‚úçÔ∏è **Exemplo Manual (Feito na m√£o)**

Imagine um dataset simplificado com 3 registros e 3 vari√°veis ($A$, $B$ e $C$):

| Registro | A   | B   | C   |
|----------|-----|-----|-----|
| 1        | 1.0 | 2.0 | 5.0 |
| 2        | 2.0 | NaN | 7.0 |
| 3        | 3.0 | 6.0 | 9.0 |

---

##### ‚úîÔ∏è **Passo 1:** Queremos imputar o valor faltante na linha 2, coluna **B**.

---

##### ‚úîÔ∏è **Passo 2:** Calculamos a dist√¢ncia da linha 2 para as outras linhas utilizando as colunas **A** e **C**, que est√£o completas.

- **Dist√¢ncia para linha 1:**

$
d = \sqrt{(2 - 1)^2 + (7 - 5)^2} = \sqrt{1 + 4} = \sqrt{5} \approx 2.24
$

- **Dist√¢ncia para linha 3:**

$
d = \sqrt{(2 - 3)^2 + (7 - 9)^2} = \sqrt{1 + 4} = \sqrt{5} \approx 2.24
$

---

##### ‚úîÔ∏è **Passo 3:** Selecionamos os $K = 2$ vizinhos mais pr√≥ximos (linha 1 e linha 3).

---

##### ‚úîÔ∏è **Passo 4:** Pegamos os valores da coluna **B** dos vizinhos:

- Linha 1 ‚Üí **B = 2.0**
- Linha 3 ‚Üí **B = 6.0**

---

##### ‚úîÔ∏è **Passo 5:** Calculamos a m√©dia dos vizinhos:

$
\hat{B} = \frac{2.0 + 6.0}{2} = 4.0
$

---

##### ‚úîÔ∏è **Resultado:** O valor **NaN** na linha 2, coluna **B**, ser√° preenchido com **4.0**.

---

##### üî• **Vantagens do KNNImputer**

- ‚úÖ Leva em considera√ß√£o a estrutura dos dados.
- ‚úÖ Mais robusto do que imputa√ß√£o por m√©dia ou mediana simples.
- ‚úÖ Considera rela√ß√µes n√£o lineares entre as vari√°veis.

---

##### ‚ö†Ô∏è **Desvantagens**

- üö´ Alto custo computacional em datasets grandes.
- üö´ Sens√≠vel √† escolha de $K$ (um $K$ muito pequeno ou muito grande pode distorcer os resultados).
- üö´ Dependente da escala das vari√°veis (precisa de **normaliza√ß√£o ou padroniza√ß√£o** antes de aplicar, devido √† dist√¢ncia Euclidiana ser sens√≠vel √† escala).

---

##### üí° **Observa√ß√£o Importante**

‚úîÔ∏è Antes de aplicar o **KNNImputer**, √© **fundamental normalizar ou padronizar os dados**, pois as dist√¢ncias podem ser distorcidas se as vari√°veis estiverem em escalas muito diferentes.

---

##### üìñ **Conclus√£o**

O KNNImputer √© uma t√©cnica poderosa e intuitiva de imputa√ß√£o que funciona bem quando h√° rela√ß√µes estruturais nos dados. Entretanto, precisa ser usada com cuidado em rela√ß√£o √† escolha de $K$ e √† normaliza√ß√£o dos dados.

---

#### Continua√ß√£o da 4¬∞ Op√ß√£o

Agora vamos **aplicar o `KNNImputer`** ao nosso conjunto de dados.  

O `KNNImputer` √© uma t√©cnica de imputa√ß√£o que preenche valores ausentes com base na m√©dia (ou outro crit√©rio) dos **valores mais pr√≥ximos** ‚Äî ou seja, ele busca os **k vizinhos mais pr√≥ximos** de cada amostra incompleta e utiliza esses vizinhos para estimar o valor faltante.  

Dessa forma, a imputa√ß√£o leva em conta a **similaridade entre as amostras**, resultando em uma abordagem mais robusta do que simplesmente substituir por m√©dias ou medianas globais.

In [None]:
# ‚úÖ Selecionando apenas vari√°veis num√©ricas do dataframe
# Isso √© necess√°rio porque o KNNImputer trabalha apenas com vari√°veis num√©ricas
data = housing.select_dtypes(include=[np.number])

# ‚úÖ Separando os dados em dois conjuntos:
# 1. Dados COM valores na coluna 'total_bedrooms' (CNA = Complete No NA)
#    -> Usado para treino e valida√ß√£o do modelo de imputa√ß√£o
data_cna = data.dropna(subset=['total_bedrooms'])

# 2. Dados COM valores ausentes na coluna 'total_bedrooms'
#    -> Este ser√° o conjunto onde aplicaremos o modelo treinado para imputar os NAs reais
data_na = data[data['total_bedrooms'].isna()]

# ‚úÖ Verificando o tamanho dos dois conjuntos
print(f"Shape dos dados completos (CNA): {data_cna.shape}")
print(f"Shape dos dados com NA em total_bedrooms: {data_na.shape}")

# ‚úÖ Reduzindo o dataset completo (CNA) para 8.000 observa√ß√µes de forma aleat√≥ria
# Isso √© √∫til para acelerar o processamento e testes
# np.random.seed(42) define uma semente aleat√≥ria para garantir que os resultados sejam reproduz√≠veis
np.random.seed(42)
data_cna_reduzido = data_cna.sample(n=8000)

# ‚úÖ Confirmando o tamanho do dataset reduzido
print(f"Shape dos dados CNA reduzidos: {data_cna_reduzido.shape}")

# ‚úÖ Definindo as vari√°veis para a modelagem:
# X -> todas as vari√°veis independentes (exceto 'total_bedrooms')
# y -> vari√°vel dependente, que ser√° imputada (total_bedrooms)
X = data_cna_reduzido.drop(columns=['total_bedrooms'])
y = data_cna_reduzido['total_bedrooms']

In [None]:
# üéØ Elbow Method com Valida√ß√£o Cruzada (4 Folds) para KNN Imputer

# Lista para armazenar os RMSE m√©dios de cada valor de K testado
rmse_values = []

# Definindo os valores de K que ser√£o testados (de 1 a 10)
k_values = range(1, 11)

# üîÑ Definindo o m√©todo de Valida√ß√£o Cruzada:
# - n_splits=4 ‚Üí divide o dataset em 4 partes
# - shuffle=True ‚Üí embaralha os dados antes de dividir (garante aleatoriedade)
# - random_state=42 ‚Üí fixa a semente para garantir resultados reproduz√≠veis
kf = KFold(n_splits=4, shuffle=True, random_state=42)

# Loop externo: testa cada valor de K (n√∫mero de vizinhos)
for k in k_values:
    fold_rmse = []  # Lista para armazenar os RMSE de cada fold (valida√ß√£o)

    # Loop interno: executa a valida√ß√£o cruzada (4 folds)
    for train_idx, test_idx in kf.split(X):
        # üîß Separando os dados de treino e teste com base nos √≠ndices dos folds
        X_train, X_test = X.iloc[train_idx], X.iloc[test_idx]
        y_train, y_test = y.iloc[train_idx], y.iloc[test_idx]

        # üõ†Ô∏è Criando os dataframes de treino e teste com a coluna alvo 'total_bedrooms'
        # Dados de treino possuem 'total_bedrooms' conhecido
        train_data = X_train.copy()
        train_data['total_bedrooms'] = y_train

        # Dados de teste simulam NA na coluna alvo (como se precis√°ssemos imputar)
        test_data = X_test.copy()
        test_data['total_bedrooms'] = np.nan

        # üîó Concatenando treino + teste para que o KNN Imputer busque os vizinhos no conjunto inteiro
        combined = pd.concat([train_data, test_data])

        # üî• Escalonamento:
        # - O KNN √© sens√≠vel √†s escalas das vari√°veis.
        # - StandardScaler padroniza os dados para m√©dia 0 e desvio padr√£o 1.
        scaler = StandardScaler()
        combined_scaled = scaler.fit_transform(combined)

        # üöÄ Aplicando KNN Imputer:
        # - n_neighbors=k ‚Üí n√∫mero de vizinhos considerados para imputa√ß√£o
        imputer = KNNImputer(n_neighbors=k)
        imputed = imputer.fit_transform(combined_scaled)

        # üîç Separando os dados de teste imputados:
        # - imputed[-len(X_test):, -1]:
        #   -> Seleciona as √∫ltimas 'len(X_test)' linhas do array 'imputed'.
        #   -> O √≠ndice negativo -len(X_test) significa: "comece a selecionar a partir desta posi√ß√£o contando de tr√°s pra frente".
        #   -> Isso garante que estamos pegando exatamente as linhas do conjunto de teste, assumindo que ele foi concatenado no final.
        #   -> O -1 seleciona a √∫ltima coluna ('total_bedrooms').
        imputed_test = imputed[-len(X_test):, -1]

        # ‚úÖ Calculando o RMSE (Root Mean Squared Error - Erro Quadr√°tico M√©dio):
        # - Antes de comparar as previs√µes (imputed_test) com os valores reais (y_test),
        #   √© necess√°rio DESFAZER o escalonamento que foi aplicado anteriormente com o StandardScaler.
        # 
        # - F√≥rmula para reverter o StandardScaler:
        #     valor_original = valor_escalado * desvio_padrao + media
        #
        # - Aqui usamos:
        #   scaler.scale_[-1]: seleciona o desvio padr√£o da √∫ltima coluna ('total_bedrooms').   
        #   scaler.mean_[-1]: seleciona a m√©dia da √∫ltima coluna ('total_bedrooms').
        #
        # ‚úÖ Por que usamos o √≠ndice -1?
        #   -> O √≠ndice -1 sempre aponta para o √∫ltimo elemento de uma lista ou array.
        #   -> Como 'total_bedrooms' √© a √∫ltima coluna do dataset transformado, pegamos os par√¢metros de escalonamento
        #      (desvio padr√£o e m√©dia) correspondentes a essa coluna.
        #
        # ‚ùó Se us√°ssemos √≠ndices positivos, ter√≠amos que contar a posi√ß√£o exata, o que √© mais propenso a erro
        #     se o n√∫mero ou a ordem das colunas mudar.
        #
        # - Ap√≥s desfazer o escalonamento, calculamos o RMSE para avaliar o erro da imputa√ß√£o.
        rmse = np.sqrt(mean_squared_error(
            y_test, 
            imputed_test * scaler.scale_[-1] + scaler.mean_[-1]  # Desfazendo o escalonamento da √∫ltima coluna
        ))

        # Armazena o RMSE desse fold
        fold_rmse.append(rmse)

    # üìä Ap√≥s os 4 folds, calcula o RMSE m√©dio para o valor atual de K
    avg_rmse = np.mean(fold_rmse)

    # Salva o RMSE m√©dio na lista geral
    rmse_values.append(avg_rmse)

    # Exibe o resultado na tela
    print(f"K={k}: RMSE m√©dio={avg_rmse:.4f}")


In [None]:
# üìà Cria√ß√£o do gr√°fico Elbow Method para visualizar o RMSE em fun√ß√£o do n√∫mero de vizinhos (K)

# üîß Define o tamanho da figura do gr√°fico
plt.figure(figsize=(10, 6))  # Largura=10, Altura=6

# ü™¢ Plota os valores de RMSE m√©dio para cada K:
# - k_values ‚Üí eixo X (n√∫mero de vizinhos)
# - rmse_values ‚Üí eixo Y (erro m√©dio quadr√°tico para cada K)
# - marker='o' ‚Üí adiciona bolinhas nos pontos para destacar
plt.plot(k_values, rmse_values, marker='o')

# üé® T√≠tulo do gr√°fico
plt.title('Elbow Method para KNNImputer (com Escalonamento)')

# üè∑Ô∏è Nome dos eixos
plt.xlabel('N√∫mero de Vizinhos (K)')
plt.ylabel('RMSE M√©dio')

# üó∫Ô∏è Adiciona uma grade (linhas de refer√™ncia no fundo do gr√°fico)
plt.grid(True)

plt.show()


In [None]:
# üîé Encontrando o melhor valor de K baseado no menor RMSE

# np.argmin(rmse_values) retorna o √≠ndice do menor valor dentro da lista rmse_values
# k_values √© uma sequ√™ncia (range) com os valores testados de K
# Ent√£o, usamos esse √≠ndice para acessar o k correspondente no k_values

best_k = k_values[np.argmin(rmse_values)]  # Seleciona o K que teve o menor RMSE

# Exibe o resultado para o usu√°rio
print(f"Melhor valor de K: {best_k}")


In [None]:
# üéØ Separando as vari√°veis num√©ricas e categ√≥ricas
# Seleciona apenas as colunas num√©ricas do dataframe
numericas = housing.select_dtypes(include=[np.number])

# Seleciona as colunas categ√≥ricas que voc√™ quer manter para depois juntar (ex: 'ocean_proximity')
categoricas = housing[['ocean_proximity']]  # Se houver mais vari√°veis categ√≥ricas, adiciona na lista

# üîß Separando os dados num√©ricos:
# 'numericas_cna' cont√©m as linhas onde 'total_bedrooms' N√ÉO tem valores faltantes (completo)
numericas_cna = numericas.dropna(subset=['total_bedrooms'])

# 'numericas_na' cont√©m as linhas onde 'total_bedrooms' est√° faltando (NaN)
numericas_na = numericas[numericas['total_bedrooms'].isna()]

# üîó Agora concatenamos as duas partes para montar o dataset completo de vari√°veis num√©ricas,
# onde as linhas com 'total_bedrooms' faltando v√£o estar no final
full_numericas = pd.concat([numericas_cna, numericas_na])

# üî• Escalonando as vari√°veis num√©ricas para que todas fiquem na mesma escala
# Isso evita que vari√°veis com valores muito maiores dominem o c√°lculo da dist√¢ncia no KNN
scaler = StandardScaler()
full_scaled = scaler.fit_transform(full_numericas)

# üöÄ Aplicando o KNNImputer com o n√∫mero √≥timo de vizinhos (K=4 no exemplo)
# O imputador vai preencher os valores faltantes baseando-se nos 4 vizinhos mais pr√≥ximos
imputer = KNNImputer(n_neighbors=4)
imputed_data = imputer.fit_transform(full_scaled)

In [None]:
# üîô Desfazendo o escalonamento
# imputed_data √© um array numpy com os dados ap√≥s imputa√ß√£o, mas ainda padronizados (z-score)
# scaler.scale_ √© um array com o desvio padr√£o de cada coluna calculado no fit do StandardScaler
# scaler.mean_ √© um array com a m√©dia de cada coluna calculada no fit do StandardScaler
# Para voltar aos valores originais (antes do escalonamento), aplicamos a f√≥rmula inversa do z-score:
# valor_original = valor_padronizado * desvio_padr√£o + m√©dia
imputed_data = imputed_data * scaler.scale_ + scaler.mean_


# üîß Convertendo o resultado imputado (array NumPy) de volta para DataFrame pandas
# columns=full_numericas.columns -> mantemos os nomes originais das colunas
# index=full_numericas.index -> mantemos os √≠ndices originais (linhas)
# Isso √© importante para manter o alinhamento e facilitar manipula√ß√µes futuras
imputed_numericas = pd.DataFrame(imputed_data, columns=full_numericas.columns, index=full_numericas.index)


# ‚úÖ Juntando as vari√°veis categ√≥ricas (n√£o num√©ricas) que foram separadas antes
# pd.concat() concatena DataFrames pelo eixo das colunas (axis=1)
# Isso garante que todas as vari√°veis (num√©ricas + categ√≥ricas) estejam no mesmo DataFrame final
imputed_final = pd.concat([imputed_numericas, categoricas], axis=1)


# Executa uma an√°lise para verificar se existem valores ausentes (NaN) no DataFrame final
# DataAnalyzer √© uma classe customizada que tem um m√©todo analise_dados_nulos()
DataAnalyzer(imputed_final).analise_dados_nulos()

In [None]:
# üèÅ Dados finais prontos
housing_imputed = imputed_final.copy()

#### Comparar o desempenho do KNN-Imputer com os datasets NA, m√©dia e mediana

In [None]:
na_idx = housing['total_bedrooms'].isna()

In [None]:
# √çndices onde total_bedrooms era NA no dataset original
na_idx = housing['total_bedrooms'].isna()

# Datasets para plotar (com total_bedrooms e median_house_value)
datasets = {
    'Original (com NA)': housing[['total_bedrooms', 'median_house_value']],
    'Imputa√ß√£o pela m√©dia': housing_mean[['total_bedrooms', 'median_house_value']],
    'Imputa√ß√£o pela mediana': housing_median[['total_bedrooms', 'median_house_value']],
    'Imputa√ß√£o KNN': imputed_final[['total_bedrooms', 'median_house_value']],
}

plt.figure(figsize=(20, 12))

for i, (name, df) in enumerate(datasets.items(), start=1):
    plt.subplot(2, 2, i)
    
    # Plotar todos os pontos em azul claro
    plt.scatter(df['total_bedrooms'], df['median_house_value'], s=10, alpha=0.4, label='Dados Originais')
    
    # Se for um m√©todo que imputou, destacar os valores imputados
    if name in ['Imputa√ß√£o pela m√©dia', 'Imputa√ß√£o pela mediana', 'Imputa√ß√£o KNN']:
        # Pega os dados imputados (nas posi√ß√µes de NA no original)
        imputados_x = df.loc[na_idx, 'total_bedrooms']
        imputados_y = df.loc[na_idx, 'median_house_value']
        
        # Plota os pontos imputados em vermelho, maior e com transpar√™ncia menor para destacar
        plt.scatter(imputados_x, imputados_y, color='red', s=30, alpha=0.7, label='Valores Imputados')
    
    plt.title(name)
    plt.xlabel('Total Bedrooms')
    plt.ylabel('Median House Value')
    plt.legend()
    plt.grid(True)

plt.tight_layout()
plt.show()

### **Transformadores de Dados**

Embora o Sklearn tenha muitos transformadores, n√≥s precisamos escrever nossos pr√≥rpios transformadores para tarefas como opera√ß√µes de pr√©-processamento, como normaliza√ß√£o, padroniza√ß√£o, transforma√ß√£o de vari√°veis categ√≥ricas em vari√°veis num√©ricas, etc. Queremos que nosso transformador funcione perfeitamente com as funcionalidades do Sklearn, como Pipelines e GridSearchCV. Para isso, precisamos s√≥ precisamos criar uma classe e implementar os m√©todos ``fit()``, ``transform()`` e ``fit_transform()``. Para obter o √∫ltimo, basta acresentar ``TranformerMixin`` como uma classe. Al√©m disso, se adicionar o ``BaseEstimator`` como uma classe, voc√™ ter√° acesso a todos os m√©todos de estimadores do Sklearn, como ``get_params()`` e ``set_params()``. Isso √© √∫til para definir os hiperpar√¢metros do seu transformador.

Por exemplo, inv√©s de desenvolver o c√≥digo anterior do **KNNImputer** de forma manual, voc√™ pode usar o transformador do Sklearn para automatizar o processo e tornar ele reutiliz√°vel. O c√≥digo abaixo mostra como fazer isso:

In [None]:
class CombinedAttributeOther(BaseEstimator, TransformerMixin):
    def __init__(self, target_col, k_candidates=range(1,11), cv=4):
        """
        Inicializa o imputador customizado.

        Par√¢metros:
        -----------
        target_col : str
            Nome da coluna alvo que cont√©m valores faltantes a serem imputados.
        k_candidates : iterable, default=range(1,11)
            Lista ou intervalo com os valores de 'k' vizinhos para testar no KNNImputer.
        cv : int, default=4
            N√∫mero de folds para valida√ß√£o cruzada na busca do melhor 'k'.
        """
        self.target_col = target_col
        self.k_candidates = list(k_candidates)
        self.cv = cv

    def fit(self, X, y=None):
        """
        Ajusta o imputador aos dados, encontrando o melhor valor de 'k' via valida√ß√£o cruzada,
        escalonando os dados e treinando o imputador final.

        Par√¢metros:
        -----------
        X : pd.DataFrame
            Dataset completo contendo a coluna alvo e demais vari√°veis num√©ricas.
        y : Ignorado (compatibilidade com sklearn)

        Retorna:
        --------
        self : objeto ajustado
        """
        # Seleciona as colunas num√©ricas do dataset
        self.numeric_cols_ = X.select_dtypes(include=[np.number]).columns.tolist()

        # Verifica se a coluna alvo √© num√©rica e est√° no dataset
        if self.target_col not in self.numeric_cols_:
            raise ValueError(f"Coluna alvo '{self.target_col}' deve ser num√©rica e estar no DataFrame")

        # Usa apenas as linhas onde a coluna alvo n√£o est√° faltando para treinamento/valida√ß√£o
        train_data = X.dropna(subset=[self.target_col])
        
        # Separa features (num√©ricas, menos a target) e target
        X_train = train_data[self.numeric_cols_].drop(columns=[self.target_col])
        y_train = train_data[self.target_col]

        # Escalona os dados num√©ricos para melhorar desempenho do KNN
        scaler = StandardScaler()
        X_train_scaled = scaler.fit_transform(X_train)

        best_k = None
        best_score = np.inf  # Inicializa com infinito para buscar m√≠nimo RMSE

        # Configura valida√ß√£o cruzada com embaralhamento para robustez
        kf = KFold(n_splits=self.cv, shuffle=True, random_state=42)

        # Para cada candidato a 'k', avalia o desempenho m√©dio com CV
        for k in self.k_candidates:
            scores = []
            for train_idx, val_idx in kf.split(X_train_scaled):
                # Dados treino e valida√ß√£o do fold
                X_tr, X_val = X_train_scaled[train_idx], X_train_scaled[val_idx]
                y_tr, y_val = y_train.iloc[train_idx], y_train.iloc[val_idx]

                # Cria e treina o imputador KNN para o fold com k vizinhos
                imputer = KNNImputer(n_neighbors=k)
                X_tr_imputed = imputer.fit_transform(np.c_[X_tr, y_tr.values.reshape(-1,1)])

                # Imputa valores no conjunto de valida√ß√£o
                X_val_imputed = imputer.transform(np.c_[X_val, y_val.values.reshape(-1,1)])

                # Pega s√≥ a coluna alvo imputada
                y_val_pred = X_val_imputed[:, -1]

                # Calcula RMSE do fold (erro entre valor original e imputado)
                score = np.sqrt(np.mean((y_val.values - y_val_pred)**2))
                scores.append(score)

            # M√©dia dos scores dos folds para este k
            mean_score = np.mean(scores)

            # Atualiza melhor k se melhor resultado
            if mean_score < best_score:
                best_score = mean_score
                best_k = k

        # Armazena o melhor k encontrado
        self.best_k_ = best_k

        # Salva o scaler (para uso na transforma√ß√£o)
        self.scaler_ = scaler

        # Cria imputador final com melhor k encontrado
        self.imputer_ = KNNImputer(n_neighbors=best_k)

        # Treina o imputador com o dataset completo, escalonado
        X_full = X[self.numeric_cols_].drop(columns=[self.target_col])
        y_full = X[self.target_col]
        X_scaled_full = scaler.transform(X_full)

        self.imputer_.fit(np.c_[X_scaled_full, y_full.values.reshape(-1,1)])

        return self

    def transform(self, X):
        """
        Aplica a imputa√ß√£o no dataset X fornecido, substituindo os valores faltantes
        da coluna alvo pelos valores imputados pelo KNNImputer treinado.

        Par√¢metros:
        -----------
        X : pd.DataFrame
            Dataset para transformar/imputar.

        Retorna:
        --------
        X_new : pd.DataFrame
            Dataset com a coluna alvo imputada.
        """
        # Copia as colunas num√©ricas do dataset
        X_num = X[self.numeric_cols_].copy()

        # Escalona as colunas, exceto a coluna alvo
        X_num_scaled = self.scaler_.transform(X_num.drop(columns=[self.target_col]))

        # Realiza imputa√ß√£o concatenando as features com a coluna alvo (que pode ter NAs)
        imputed = self.imputer_.transform(np.c_[X_num_scaled, X_num[self.target_col].values.reshape(-1,1)])

        # Atualiza a coluna alvo com os valores imputados
        X_num[self.target_col] = imputed[:, -1]

        # Cria uma c√≥pia do DataFrame original para n√£o alterar inplace
        X_new = X.copy()

        # Atualiza as colunas num√©ricas com os valores (incluindo a coluna alvo imputada)
        X_new[self.numeric_cols_] = X_num

        return X_new

    def fit_transform(self, X, y=None):
        """
        Combina os passos fit e transform para facilitar uso.

        Par√¢metros:
        -----------
        X : pd.DataFrame
            Dataset para ajustar e transformar.
        y : Ignorado (compatibilidade sklearn)

        Retorna:
        --------
        X_new : pd.DataFrame
            Dataset com coluna alvo imputada ap√≥s ajuste.
        """
        return self.fit(X, y).transform(X)

Exemplo pr√°tico de aplica√ß√£o:

In [None]:
# Suponha que a classe CombinedAttributeOther j√° foi definida/importada aqui

# Criando um DataFrame de exemplo com valores faltantes na coluna alvo 'target'
data = {
    'feature1': [1.0, 2.0, 3.0, 4.0, 5.0, np.nan, 7.0],
    'feature2': [10, 9, 8, 7, 6, 5, 4],
    'target': [100, 200, np.nan, 400, 500, 600, np.nan]
}

df = pd.DataFrame(data)

print("Dataset original:")
print(df)

In [None]:
# Instanciando o imputador para a coluna alvo 'target'
imputer = CombinedAttributeOther(target_col='target')

# 1. Usando fit(): ajusta o imputador nos dados
imputer.fit(df)

In [None]:
# 2. Usando transform(): aplica a imputa√ß√£o (necess√°rio j√° ter feito fit)
df_imputed = imputer.transform(df)

print("\nDataset ap√≥s transform (imputa√ß√£o aplicada):")
print(df_imputed)

In [None]:
# Instanciando o imputador para a coluna alvo 'target'
imputer = CombinedAttributeOther(target_col='feature1')

# 3. Usando fit_transform(): faz o ajuste e j√° retorna o dataset imputado
df_imputed_2 = imputer.fit_transform(df)

print("\nDataset ap√≥s fit_transform (ajuste + imputa√ß√£o):")
print(df_imputed_2)

In [None]:
imputer.best_k_

### ESCALONAMENTO DOS DADOS

O escalonamento de dados √© uma etapa crucial no pr√©-processamento, especialmente quando se utiliza algoritmos baseados em dist√¢ncia, como o KNN. O escalonamento garante que todas as vari√°veis contribuam igualmente para a dist√¢ncia calculada, evitando que vari√°veis com escalas maiores dominem a an√°lise. Para al√©m do KNN, o escalonamento √© importante para muitos algoritmos de aprendizado de m√°quina, como regress√£o log√≠stica, SVM e redes neurais. O escalonamento pode ser feito de v√°rias maneiras, incluindo:
- **Min-Max Scaling:** Transforma os dados para um intervalo espec√≠fico, geralmente [0, 1].
- **Padroniza√ß√£o (Z-score):** Transforma os dados para que tenham m√©dia 0 e desvio padr√£o 1.
- **Robust Scaling:** Usa a mediana e o intervalo interquartil para escalonar os dados, tornando-o robusto a outliers.
- **Log Transformation:** Aplica a transforma√ß√£o logar√≠tmica para lidar com distribui√ß√µes assim√©tricas.
- **Quantile Transformation:** Transforma os dados para uma distribui√ß√£o uniforme ou normal, √∫til para lidar com distribui√ß√µes n√£o gaussianas.
- **E entre outros...**

Entretanto, em Machine Learning, o escalonamento √© uma etapa importante, mas n√£o √© sempre necess√°rio. Por exemplo, algoritmos baseados em √°rvores (como Decision Trees e Random Forests) n√£o s√£o sens√≠veis √† escala dos dados, ent√£o o escalonamento pode n√£o ser necess√°rio. No entanto, para algoritmos que dependem de dist√¢ncias, como KNN e SVM, o escalonamento √© essencial para garantir um desempenho adequado. E mais, como em todas as etapas do pr√©-processamento, o escalonamento deve ser feito com cuidado, considerando o contexto dos dados e o algoritmo que ser√° utilizado. O uso de t√©cnicas de escalonamento pode melhorar a performance do modelo e garantir que todas as vari√°veis sejam tratadas de forma justa. Como em todas as transforma√ß√µes, √© importante ajustar os escalonamentos apenas aos dados de treinamento, n√£o ao conjunto de dados completo (incluindo o conjunto de testes). S√≥ ent√£o, o escalonamento deve ser aplicado ao conjunto de teste usando os par√¢metros calculados no conjunto de treinamento. Isso garante que o modelo seja avaliado de forma justa e evita vazamento de dados.

### Demonstra√ß√£o Matem√°tica dos M√©todos de Escalonamento

---

#### 1. Padroniza√ß√£o (StandardScaler)

A padroniza√ß√£o transforma os dados para que tenham m√©dia zero e desvio padr√£o 1, aplicando a f√≥rmula:

$
x' = \dfrac{x - \mu}{\sigma}
$

onde:

- $x$ √© o valor original da amostra,
- $\mu$ √© a m√©dia dos dados do conjunto (geralmente calculada no conjunto de treinamento),
- $\sigma$ √© o desvio padr√£o dos dados do conjunto.

---

#### 2. MinMaxScaler

O MinMaxScaler reescala os dados para um intervalo espec√≠fico $[a, b]$. A f√≥rmula geral √©:

$
x' = a + \dfrac{(x - x_{\min})(b - a)}{x_{\max} - x_{\min}}
$

onde:

- $x$ √© o valor original da amostra,
- $x_{\min}$ e $x_{\max}$ s√£o, respectivamente, o valor m√≠nimo e m√°ximo dos dados do conjunto,
- $a$ e $b$ s√£o os limites inferior e superior do intervalo desejado.

---

##### Caso 1: MinMaxScaler para o intervalo $[0, 1]$

Aqui, $a = 0$ e $b = 1$, ent√£o a f√≥rmula simplifica para:

$
x' = \dfrac{x - x_{\min}}{x_{\max} - x_{\min}}
$

---

##### Caso 2: MinMaxScaler para o intervalo $[1, 1]$

Note que $[1, 1]$ √© um intervalo degenerado, ou seja, os limites inferior e superior s√£o iguais. Nesse caso, a f√≥rmula se torna:

$
x' = 1 + \dfrac{(x - x_{\min})(1 - 1)}{x_{\max} - x_{\min}} = 1 + 0 = 1
$

Ou seja, **todos os valores s√£o mapeados para 1**, j√° que n√£o h√° varia√ß√£o no intervalo.

---

# Resumo

| T√©cnica         | F√≥rmula                                               | Intervalo padr√£o         |
|-----------------|------------------------------------------------------|-------------------------|
| Padroniza√ß√£o    | $x' = \dfrac{x - \mu}{\sigma}$                      | M√©dia 0, desvio padr√£o 1 |
| MinMaxScaler    | $x' = a + \dfrac{(x - x_{\min})(b - a)}{x_{\max} - x_{\min}}$ | Vari√°vel, ex: [0, 1]    |
| MinMaxScaler [0,1] | $x' = \dfrac{x - x_{\min}}{x_{\max} - x_{\min}}$ | [0, 1]                  |
| MinMaxScaler [1,1] | $x' = 1$                                          | Degenerado, tudo igual 1 |

Exemplo abaixo:

In [None]:
# üé≤ Define uma semente (seed) para o gerador de n√∫meros aleat√≥rios
# Isso garante que os resultados sejam reproduz√≠veis, ou seja, 
# toda vez que rodar o c√≥digo, os n√∫meros gerados ser√£o os mesmos
np.random.seed(42)

# üéØ Cria um conjunto de dados aleat√≥rios seguindo uma distribui√ß√£o normal (Gaussiana)

data = np.random.normal(
    loc=20,      # üëâ loc √© a M√âDIA da distribui√ß√£o (nesse caso, 20)
    scale=5,     # üëâ scale √© o DESVIO PADR√ÉO (a dispers√£o dos dados, aqui √© 5)
    size=1000    # üëâ size define a quantidade de valores que ser√£o gerados (1000 valores)
).reshape(-1, 1) # üëâ reshape(-1, 1) transforma o array de uma dimens√£o (1D) 
                 # em um array bidimensional (2D) com 1000 linhas e 1 coluna.
                 # Isso √© √∫til para compatibilidade com modelos e fun√ß√µes 
                 # do scikit-learn, que geralmente trabalham com matrizes (2D).

# üîç Resultado:
# 'data' √© um array de forma (1000, 1) contendo 1000 valores simulados
# que seguem uma distribui√ß√£o normal com m√©dia 20 e desvio padr√£o 5.

In [None]:
# 1Ô∏è‚É£ Padroniza√ß√£o padr√£o com StandardScaler (m√©dia = 0, vari√¢ncia = 1)

# üîß Cria um objeto do StandardScaler
# Esse scaler transforma os dados para que tenham:
# ‚Üí m√©dia = 0
# ‚Üí desvio padr√£o = 1 (vari√¢ncia = 1)
scaler_standard = StandardScaler()

# üöÄ Ajusta o scaler aos dados (fit) e transforma (transform) de uma vez
# ‚Üí Calcula a m√©dia e o desvio padr√£o dos dados
# ‚Üí Retorna um array padronizado: (x - m√©dia) / desvio_padr√£o
data_standard = scaler_standard.fit_transform(data)


# 2Ô∏è‚É£ Padroniza√ß√£o customizada: m√©dia = 5, vari√¢ncia = 2

# üëâ Aqui pegamos os dados j√° padronizados (m√©dia = 0, desvio = 1)
# e fazemos uma transforma√ß√£o linear para alterar a escala:

# Multiplicamos pelos novo desvio padr√£o:
# ‚Üí Desvio padr√£o = ‚àö2, pois vari√¢ncia = 2 (vari√¢ncia = desvio¬≤)
# E somamos a nova m√©dia = 5
data_standard_custom = data_standard * np.sqrt(2) + 5

In [None]:
# üîß Cria um objeto MinMaxScaler com intervalo padr√£o (0, 1)
scaler_minmax = MinMaxScaler(feature_range=(0, 1))

# üöÄ Ajusta (fit) e transforma (transform) os dados
# ‚Üí Escala os dados para que todos fiquem no intervalo de 0 a 1
data_minmax = scaler_minmax.fit_transform(data)

# üîß Cria um MinMaxScaler que ajusta os dados para o intervalo (0, 10)
scaler_minmax_custom = MinMaxScaler(feature_range=(0, 10))

# üöÄ Ajusta e transforma os dados para esse novo intervalo
data_minmax_custom = scaler_minmax_custom.fit_transform(data)

In [None]:
# Cria figura com 2 linhas x 2 colunas de subplots
fig, axs = plt.subplots(2, 2, figsize=(14, 9))                    # figsize define o tamanho em polegadas
fig.suptitle('Compara√ß√£o dos M√©todos de Escalonamento de Dados', fontsize=16, weight='bold')

# Subplot 1: histograma da padroniza√ß√£o padr√£o
axs[0, 0].hist(data_standard, bins=40,                           # N√∫mero de barras no histograma
               color='steelblue', edgecolor='black', alpha=0.8)  # Cores e transpar√™ncia
axs[0, 0].set_title('Padroniza√ß√£o Padr√£o\n(m√©dia=0, vari√¢ncia=1)', fontsize=12, weight='bold')
axs[0, 0].set_xlabel('Valor padronizado')                        # Label do eixo X
axs[0, 0].set_ylabel('Frequ√™ncia')                               # Label do eixo Y
axs[0, 0].grid(True)                                             # Ativa grade

# Subplot 2: histograma da padroniza√ß√£o customizada
axs[0, 1].hist(data_standard_custom, bins=40,
               color='mediumseagreen', edgecolor='black', alpha=0.8)
axs[0, 1].set_title('Padroniza√ß√£o Customizada\n(m√©dia=5, vari√¢ncia=2)', fontsize=12, weight='bold')
axs[0, 1].set_xlabel('Valor padronizado customizado')
axs[0, 1].set_ylabel('Frequ√™ncia')
axs[0, 1].grid(True)

# Subplot 3: histograma do MinMaxScaler padr√£o (0 a 1)
axs[1, 0].hist(data_minmax, bins=40,
               color='tomato', edgecolor='black', alpha=0.8)
axs[1, 0].set_title('MinMaxScaler Padr√£o\n(Intervalo: 0 a 1)', fontsize=12, weight='bold')
axs[1, 0].set_xlabel('Valor escalado (0‚Äì1)')
axs[1, 0].set_ylabel('Frequ√™ncia')
axs[1, 0].grid(True)

# Subplot 4: histograma do MinMaxScaler customizado (0 a 10)
axs[1, 1].hist(data_minmax_custom, bins=40,
               color='darkorange', edgecolor='black', alpha=0.8)
axs[1, 1].set_title('MinMaxScaler Customizado\n(Intervalo: 0 a 10)', fontsize=12, weight='bold')
axs[1, 1].set_xlabel('Valor escalado (0‚Äì10)')
axs[1, 1].set_ylabel('Frequ√™ncia')
axs[1, 1].grid(True)

# Ajusta layout para evitar sobreposi√ß√£o de elementos
plt.tight_layout(rect=[0, 0, 1, 0.95])
plt.show()

## **Feature Engeneering**

Como diz o ditado: entra lixo, sai lixo. Seu sistema de s√≥ ser√° capaz de aprender se os dados de treinamento tiverem caracter√≠sticas relevantes o suficientes e poucas caracter√≠sticas irrelevantes. Uma parte imprescind√≠vel do sucesso de um projeto de ML √© criar um bom conjunto de caracter√≠sticas para o treinamento, processo chamado de *feature engeneering* (ou engenharia de features) que envolve os seguintes passos:

- *Sele√ß√£o de caracter√≠sticas* (selecionar as caracter√≠sticas mais √∫teis para treinamento entre as caracter√≠sticas existentes)
- *Extra√ß√£o de caracter√≠sticas* (combinar caracter√≠sticas existentes a fim de obter as mais √∫teis)
- Cria√ß√£o de novas caracter√≠sticas ao coletar dados novos.

At√© o momento, lidamos apenas com atributos num√©ricos, mas agora analisaremos os atributosde texto. Neste conjunto de dados, existe somente uma vari√°vel: o atributo ``ocean_proximity``, vamos analisar ele:

In [None]:
# üìä Calcula as porcentagens de cada categoria na coluna 'ocean_proximity'
ocean_proximity_percent = round((housing_imputed.ocean_proximity.value_counts() / len(housing_imputed)) * 100, 2)

# Cria dataframe
df_percent = pd.DataFrame({
    'Localiza√ß√£o': ocean_proximity_percent.index,
    'Porcentagem (%)': ocean_proximity_percent.values
})

# üìú Gera a string em formato Markdown para exibir como tabela
markdown_table = "### Distribui√ß√£o das Localiza√ß√µes (`ocean_proximity`)\n\n"
markdown_table += df_percent.to_markdown(index=False)

# üî• Exibe como markdown
display(Markdown(markdown_table))


### One Hot Encoder

A maioria dos algoritmos de ML prefere trabalhar com n√∫meros, para corrigir esse problema, uma solu√ß√£o comum √© criar um atributo bin√°rio por categoria, isso se chama *codifica√ß√£o one-hot* [*one-hot enconding* ou ainda *codifica√ß√£o distribu√≠da*], porque apenas um atributo ser√° igual a 1, enquanto os outros ser√£o 0. Os atributos novos se chamam atributos falsos [*dummy*]. ``sklearn`` fornece uma uma classe ``OneHotEncoder()`` para converter valores categ√≥ricos em valores one-hot:

In [None]:
from sklearn.preprocessing import OneHotEncoder

cat_encoder = OneHotEncoder()
housing_cat_1hot = cat_encoder.fit_transform(housing_imputed[['ocean_proximity']])
housing_cat_1hot

In [None]:
housing_cat_1hot.toarray()

### Combina√ß√µes de Atributos

Uma das √∫ltimas que voc√™ pode querer fazer antes de preparar os dados para os algoritmos de ML √© testar diferentes combina√ß√µes de atributos para gerar novos atributos. Por exemplo:
- O n√∫mero total de c√¥modos em uma determinada regi√£o n√£o servir√° de nadda se n√£o souber quantas fam√≠lias vivem nessa regi√£o.
- Do mesmo modo, o n√∫mero total de quartos propriamente dito n√£o ajuda muito: voc√™ provavelmente vai querer compr√°-lo com o n√∫mero de c√¥modos.
- E ao que tudo indica, a popula√ß√£o por domic√≠lio tamb√©m √© uma combina√ß√£o de taributos interressante:

In [None]:
# üìå Feature Engineering: cria√ß√£o de novas vari√°veis

# üîß rooms_per_household -> n√∫mero m√©dio de quartos por domic√≠lio
housing_imputed['rooms_per_household'] = housing_imputed['total_rooms'] / housing_imputed['households']

# üîß bedrooms_per_room -> propor√ß√£o de quartos que s√£o dormit√≥rios (mede a densidade de dormit√≥rios)
housing_imputed['bedrooms_per_room'] = housing_imputed['total_bedrooms'] / housing_imputed['total_rooms']

# üîß population_for_household -> n√∫mero m√©dio de pessoas por domic√≠lio
housing_imputed['population_for_household'] = housing_imputed['population'] / housing_imputed['households']

In [None]:
# üîß Seleciona apenas as novas vari√°veis criadas
df_new_features = housing_imputed[['rooms_per_household', 'bedrooms_per_room', 'population_for_household']].head()

# üìú Cria a string da tabela em Markdown
markdown_table = "### üîç Novas Vari√°veis Criadas (`Feature Engineering`)\n\n"
markdown_table += df_new_features.to_markdown(index=False)

# üìä Exibe como Markdown no output
display(Markdown(markdown_table))


In [None]:
len(housing_imputed.columns)

### Sele√ß√£o de Vari√°veis

#### Visualizando Dados Geogr√°ficos

Uma vez que temos informa√ß√µes geogr√°ficas (latitude e longutude), √© uma boa ideia criar um diagrama de dispers√£o para visualizar os dados de todas as regi√µes:

In [None]:
# Plotagem de um gr√°fico de dispers√£o (scatter plot) usando DataFrame 'housing_imputed'
# Esse gr√°fico representa as casas de acordo com sua longitude e latitude, com v√°rias codifica√ß√µes visuais.

plt.figure(figsize=(12, 8))  # Define o tamanho da figura em polegadas (mais espa√ßo, melhor visualiza√ß√£o)

scatter = plt.scatter(
    housing_imputed['longitude'],             # Eixo x: longitude das casas
    housing_imputed['latitude'],              # Eixo y: latitude das casas
    alpha=0.5,                                # Transpar√™ncia dos pontos, de 0 (invis√≠vel) a 1 (opaco)
    s=housing_imputed['population'] / 100,    # Tamanho dos pontos proporcional √† popula√ß√£o local
    c=housing_imputed['median_house_value'],  # Cor dos pontos de acordo com o valor mediano das casas
    cmap='viridis',                           # Mapa de cores mais moderno e percept√≠vel (substituindo 'jet')
    edgecolor='k',                            # Adiciona contorno preto aos pontos
    linewidth=0.5                             # Define a espessura da linha do contorno
)

plt.xlabel('Longitude', fontsize=14)          # R√≥tulo do eixo x com tamanho de fonte maior
plt.ylabel('Latitude', fontsize=14)           # R√≥tulo do eixo y

plt.title('Distribui√ß√£o Geogr√°fica das Casas na Calif√≥rnia', fontsize=16)  # T√≠tulo do gr√°fico

cbar = plt.colorbar(scatter)                  # Adiciona barra de cores ao lado
cbar.set_label('Valor Mediano das Casas', fontsize=12)  # R√≥tulo da barra de cores

plt.legend(['Popula√ß√£o (escala do tamanho dos pontos)'], fontsize=12)  # Legenda explicando o tamanho

plt.grid(True, linestyle='--', alpha=0.5)     # Adiciona grade com linhas tracejadas e leve transpar√™ncia

plt.tight_layout()                            # Ajusta automaticamente o layout para n√£o cortar elementos

plt.show()                                    # Exibe o gr√°fico


O raio de cada c√≠rculo representa a popula√ß√£o (op√ß√£o ``s``) e a cor representa o pre√ßo (op√ß√£o ``c``). Usamos um mapa de cores predefinido (op√ß√£o ``cmap``) chamado ``virids``, que varia de roxo (valores baixos) para amarelo (valores altos). Esta imagem informa que os pre√ßos dos im√≥veis est√£o muito relacionados √† localiza√ß√£o (por exemplo proximidade do mar) e √† densidade populacional.

#### Buscando **Correla√ß√µes**

##### Correla√ß√£o de Pearson

A correla√ß√£o de Pearson √© frequentemente aplicada de forma direta em an√°lises explorat√≥rias, como visto no livro de Aur√©lien G√©ron (*Hands-On Machine Learning*), devido √† sua simplicidade e utilidade para rapidamente identificar padr√µes de depend√™ncia linear entre vari√°veis.

No entanto, √© importante destacar que, para uma interpreta√ß√£o estat√≠stica rigorosa e inferencial da correla√ß√£o, recomenda-se verificar os seguintes pressupostos: linearidade, normalidade, homocedasticidade, escala intervalar e aus√™ncia de outliers.

1Ô∏è‚É£ O objetivo final √© predi√ß√£o, n√£o infer√™ncia causal.

Logo, o foco n√£o √© fazer testes estat√≠sticos para validar hip√≥teses ou explicar rela√ß√µes entre vari√°veis com validade inferencial, mas **melhorar a acur√°cia ou outra m√©trica do modelo preditivo**.

‚û°Ô∏è Nestes casos, **N√ÉO √© necess√°rio exigir os pressupostos cl√°ssicos da correla√ß√£o de Pearson**, como linearidade ou normalidade.

‚û°Ô∏è A correla√ß√£o pode ser usada como uma **heur√≠stica r√°pida** para identificar redund√¢ncias ou depend√™ncias fortes, e guiar a escolha de features.

##### üß† **L√≥gica da Correla√ß√£o de Pearson**

A correla√ß√£o de Pearson mede o grau de **associa√ß√£o linear** entre duas vari√°veis num√©ricas.

A f√≥rmula √©:

$
r = \dfrac{\sum (X_i - \bar{X}) (Y_i - \bar{Y})}{\sqrt{\sum (X_i - \bar{X})^2} \cdot \sqrt{\sum (Y_i - \bar{Y})^2}}
$

Onde:

- $X_i$ e $Y_i$ s√£o os valores das vari√°veis X e Y.
- $\bar{X}$ e $\bar{Y}$ s√£o as m√©dias de X e Y.
- $r$ √© o coeficiente de correla√ß√£o de Pearson, que varia entre -1 e 1.

**Interpreta√ß√£o:**

- $r = 1$: Correla√ß√£o linear positiva perfeita.
- $r = -1$: Correla√ß√£o linear negativa perfeita.
- $r = 0$: Aus√™ncia de correla√ß√£o linear (mas n√£o implica independ√™ncia total).

Ele √©, basicamente, a **covari√¢ncia padronizada** entre duas vari√°veis. A padroniza√ß√£o ocorre ao dividir pela multiplica√ß√£o dos desvios padr√£o, permitindo que o coeficiente sempre esteja na escala de -1 a 1.

---

##### Correla√ß√£o de Spearman

A correla√ß√£o de Spearman √© uma medida n√£o-param√©trica que avalia a **for√ßa e a dire√ß√£o da associa√ß√£o monot√¥nica** entre duas vari√°veis, isto √©, verifica se √† medida que uma vari√°vel aumenta, a outra tende a aumentar ou diminuir, sem exigir que essa rela√ß√£o seja linear.

√â especialmente √∫til quando:

- Os dados n√£o seguem uma distribui√ß√£o normal.
- H√° presen√ßa de outliers.
- As rela√ß√µes s√£o n√£o-lineares, mas ainda monot√¥nicas.

##### üß† **L√≥gica da Correla√ß√£o de Spearman**

O primeiro passo √© transformar os dados em **ranks** (ordens). Cada valor de X e Y √© substitu√≠do por sua posi√ß√£o na ordena√ß√£o dos dados.

A f√≥rmula da correla√ß√£o de Spearman, quando n√£o h√° empates, √©:

$
r_s = 1 - \dfrac{6 \sum_{i=1}^{n} d_i^2}{n(n^2 - 1)}
$

Onde:

- $d_i$ = diferen√ßa entre os ranks de cada par de observa√ß√µes $(X_i, Y_i)$.
- $n$ = n√∫mero de observa√ß√µes.
- $r_s$ = coeficiente de correla√ß√£o de Spearman.

Se houver empates nos dados, usa-se a mesma l√≥gica da correla√ß√£o de Pearson, mas aplicada aos ranks em vez dos valores originais.

**Interpreta√ß√£o:**

- $r_s = 1$: Rela√ß√£o monot√¥nica crescente perfeita.
- $r_s = -1$: Rela√ß√£o monot√¥nica decrescente perfeita.
- $r_s = 0$: Aus√™ncia de rela√ß√£o monot√¥nica.

‚û°Ô∏è Assim como a correla√ß√£o de Pearson mede associa√ß√µes lineares, a de Spearman amplia essa an√°lise para rela√ß√µes monot√¥nicas, oferecendo maior robustez em cen√°rios mais realistas do mundo dos dados.

---

In [None]:
from correlation_analyzer import CorrelationAnalyzer

In [None]:
analyser = CorrelationAnalyzer(housing_imputed)

In [None]:
analyser.correlation(target_col='median_house_value', method='pearson', sort=True, ascending=False)

In [None]:
analyser.correlation(target_col='median_house_value', method='spearman', sort=True, ascending=False)

In [None]:
analyser.plot_correlation_matrix(figsize= (10, 10), method='pearson')

In [None]:
analyser.plot_correlation_matrix(figsize= (10, 10), method='spearman')

In [None]:
analyser.plot_scatter_matrix(figsize=(12, 12), variables=['median_house_value', 'median_income', 'total_rooms',
                                                    'housing_median_age'])

## **Criando o Conjunto de Treinamento e Teste**

Pode parecer estranho separar voluntariamente uma parte dos dados neste est√°gio. Afinal, voc√™ apenas deu uma olhada r√°pida nos dados, e certamente deveria aprender muito mais sobre eles antes de decidir quais algoritmos utilizar, certo? Isso √© verdade, mas seu c√©rebro √© um sistema incr√≠vel de detec√ß√£o de padr√µes, o que tamb√©m significa que ele √© altamente propenso ao **overfitting**: se voc√™ olhar para o conjunto de teste, pode acabar encontrando algum padr√£o aparentemente interessante nos dados de teste que o leva a escolher um tipo espec√≠fico de modelo de machine learning.

Quando voc√™ estima o erro de generaliza√ß√£o usando o conjunto de teste, essa estimativa ser√° **otimista demais**, e voc√™ pode acabar lan√ßando um sistema que n√£o ter√° um desempenho t√£o bom quanto o esperado. Isso √© conhecido como **data snooping bias** (vi√©s de bisbilhotagem dos dados).

A cria√ß√£o de um conjunto de teste √©, teoricamente, simples: selecione algumas inst√¢ncias aleatoriamente ‚Äî tipicamente **20% do conjunto de dados** (ou menos, se seu dataset for muito grande) ‚Äî e separe-as.

In [None]:
def split_train_test(data, test_ratio):
    """
    Divide os dados em conjuntos de treinamento e teste de forma aleat√≥ria.

    -------------------------------
    üîß Par√¢metros:
    - data: DataFrame contendo os dados que ser√£o divididos.
      ‚û°Ô∏è √â o dataset completo que voc√™ deseja particionar.

    - test_ratio: float
      ‚û°Ô∏è Propor√ß√£o dos dados que ser√£o separados para o conjunto de teste.
      ‚û°Ô∏è Exemplo: se test_ratio = 0.2, ent√£o 20% dos dados ser√£o usados para teste,
         e 80% para treino.

    -------------------------------
    üîô Retorna:
    - train_data: DataFrame com os dados de treinamento.
    - test_data: DataFrame com os dados de teste.

    -------------------------------
    üß† L√≥gica do algoritmo:

    1Ô∏è‚É£ Cria uma sequ√™ncia de √≠ndices embaralhados dos dados.
    2Ô∏è‚É£ Calcula o tamanho do conjunto de teste com base no test_ratio.
    3Ô∏è‚É£ Separa os √≠ndices do conjunto de teste e do conjunto de treino.
    4Ô∏è‚É£ Retorna os subconjuntos correspondentes de treino e teste.
    """

    # Gera uma permuta√ß√£o aleat√≥ria dos √≠ndices do DataFrame.
    # Isso garante que a divis√£o seja aleat√≥ria a cada execu√ß√£o.
    shuffled_indices = np.random.permutation(len(data))

    # Calcula o n√∫mero de amostras que ir√£o compor o conjunto de teste.
    test_set_size = int(len(data) * test_ratio)

    # Seleciona os primeiros 'test_set_size' √≠ndices para o conjunto de teste.
    test_indices = shuffled_indices[:test_set_size]

    # O restante dos √≠ndices ser√° usado para o conjunto de treinamento.
    train_indices = shuffled_indices[test_set_size:]

    # Retorna os subconjuntos de treino e teste, utilizando os √≠ndices gerados.
    return data.iloc[train_indices], data.iloc[test_indices]


Podemos usar uma fun√ß√£o como essa:

In [None]:
train_set, test_set = split_train_test(housing_imputed, test_ratio=0.2)

In [None]:
display(Markdown(f"""
### üîç Conjunto de Treinamento (`train_set`)

{train_set.head().to_markdown(index=False)}

### üîç Conjunto de Teste (`test_set`)

{test_set.head().to_markdown(index=False)}
"""))

Isso funciona, mas h√° um defeito: ao executar novamente, ser√° gerado um conjunto diferente de teste e treino! Ao longo do tempo, voc√™ veria todo o conjunto de dados ao repetir esse processo, entretanto o **Scikit-Learn** oferece algumas fun√ß√µes para dividir conjuntos de dados em m√∫ltiplos subconjuntos de diferentes formas. 

A fun√ß√£o mais simples √© a **`train_test_split()`**, que realiza praticamente a mesma opera√ß√£o que a fun√ß√£o **`split_train_test()`** que definimos anteriormente, por√©m com alguns recursos adicionais importantes:

1Ô∏è‚É£ Primeiramente, h√° o par√¢metro **`random_state`**, que permite definir a semente do gerador aleat√≥rio. Isso garante que a divis√£o dos dados seja **reprodut√≠vel**, ou seja, sempre gere os mesmos resultados se a mesma semente for usada.

2Ô∏è‚É£ Al√©m disso, √© poss√≠vel passar **m√∫ltiplos conjuntos de dados com o mesmo n√∫mero de linhas**, e a fun√ß√£o ir√° dividi-los utilizando os **mesmos √≠ndices**. 

‚û°Ô∏è Isso √© extremamente √∫til, por exemplo, quando voc√™ possui um DataFrame separado contendo as vari√°veis preditoras e outro com os r√≥tulos (labels).


In [None]:
from sklearn.model_selection import train_test_split
train_set, test_set = train_test_split(housing_imputed, test_size=0.2, random_state=42)

In [None]:
display(Markdown(f"""
### üîç Conjunto de Treinamento (`train_set`)

{train_set.head().to_markdown(index=False)}

### üîç Conjunto de Teste (`test_set`)

{test_set.head().to_markdown(index=False)}
"""))

At√© agora, consideramos m√©todos de amostragem puramente aleat√≥rios. Isso geralmente funciona bem se seu conjunto de dados for suficientemente grande (especialmente em rela√ß√£o ao n√∫mero de atributos), mas caso contr√°rio, h√° o risco de introduzir um **vi√©s amostral significativo**.

Por exemplo, quando os funcion√°rios de uma empresa de pesquisas decidem ligar para 1.000 pessoas para fazer algumas perguntas, eles n√£o escolhem essas 1.000 pessoas aleatoriamente de uma lista telef√¥nica. Eles tentam garantir que essas pessoas sejam **representativas da popula√ß√£o como um todo**, levando em conta as vari√°veis relevantes para a pesquisa.

‚û°Ô∏è Por exemplo, a popula√ß√£o dos Estados Unidos √© composta por **51,1% de mulheres e 48,9% de homens**. Portanto, uma pesquisa bem conduzida nos EUA tentaria manter essa propor√ß√£o na amostra: **511 mulheres e 489 homens**, pelo menos se houver a possibilidade de que as respostas variem entre os g√™neros.

Esse m√©todo √© chamado de **amostragem estratificada** (**stratified sampling**): a popula√ß√£o √© dividida em subgrupos homog√™neos, chamados de **estratos** (*strata*), e o n√∫mero adequado de inst√¢ncias √© selecionado de cada estrato para garantir que o conjunto de teste seja representativo da popula√ß√£o como um todo.

‚ö†Ô∏è Se as pessoas respons√°veis pela pesquisa utilizassem apenas uma amostragem aleat√≥ria simples, haveria cerca de **10,7% de chance** de obter um conjunto de teste distorcido, com **menos de 48,5% de mulheres ou mais de 53,5% de mulheres**. De qualquer forma, os resultados da pesquisa provavelmente seriam **bastante enviesados**.

---

Agora, suponha que voc√™ tenha conversado com alguns especialistas que te informaram que a **renda mediana** (*median income*) √© um atributo muito importante para prever o pre√ßo mediano das casas.

üìä Voc√™ pode querer garantir que o conjunto de teste seja representativo das diferentes faixas de renda presentes no dataset.

Por√©m, como a renda mediana √© um atributo **cont√≠nuo e num√©rico**, √© necess√°rio primeiro transform√°-lo em uma vari√°vel categ√≥rica, criando **faixas de renda**.

üîç Observando o histograma da renda mediana (como na Figura 2-8 do livro), percebe-se que a maioria dos valores est√° concentrada entre **1,5 e 6** (isto √©, entre **US$ 15.000 e US$ 60.000**), mas algumas rendas v√£o muito al√©m de 6.

√â importante garantir que haja uma quantidade suficiente de inst√¢ncias em cada estrato. Caso contr√°rio, a estimativa da import√¢ncia de determinado estrato poder√° ser enviesada.

‚ö†Ô∏è Isso significa que:
- N√£o se deve criar estratos demais.
- Cada estrato precisa ser grande o suficiente para gerar estat√≠sticas confi√°veis.

---

‚û°Ô∏è O c√≥digo a seguir utiliza a fun√ß√£o **`pd.cut()`** para criar um atributo de categoria de renda, com **cinco categorias** (rotuladas de 1 a 5):

- Categoria 1: de **0 at√© 1.5** (ou seja, menos de **US$ 15.000**)
- Categoria 2: de **1.5 at√© 3**
- Categoria 3: de **3 at√© 4.5**
- Categoria 4: de **4.5 at√© 6**
- Categoria 5: de **6 em diante** (rendas muito altas)


In [None]:
# üîπ Cria uma nova coluna chamada 'income_cat' no DataFrame 'housing'.
# Essa coluna representa categorias de renda, que s√£o derivadas da vari√°vel 'median_income'.

housing["income_cat"] = pd.cut(
    housing["median_income"],  # üî∏ Vari√°vel num√©rica que ser√° transformada em categorias.
    bins=[0., 1.5, 3.0, 4.5, 6., np.inf],  # üî∏ Define os intervalos (faixas) das categorias.
    # ‚ñ™Ô∏è Intervalo 1: de 0 at√© 1.5
    # ‚ñ™Ô∏è Intervalo 2: de 1.5 at√© 3.0
    # ‚ñ™Ô∏è Intervalo 3: de 3.0 at√© 4.5
    # ‚ñ™Ô∏è Intervalo 4: de 4.5 at√© 6.0
    # ‚ñ™Ô∏è Intervalo 5: de 6.0 at√© infinito (rendas muito altas)
    labels=[1, 2, 3, 4, 5]  # üî∏ R√≥tulos atribu√≠dos a cada categoria.
)


In [None]:
(
    housing["income_cat"].value_counts()  # Conta quantas ocorr√™ncias h√° em cada categoria de renda.
    .sort_index()                         # Organiza na ordem dos √≠ndices das categorias (de 1 a 5).
    .plot.bar(                            # Cria um gr√°fico de barras.
        rot=0,                            # Mant√©m os r√≥tulos do eixo X na horizontal (sem rota√ß√£o).
        grid=True                          # Adiciona uma grade no fundo do gr√°fico.
    )
)

# üîß Configura√ß√µes dos r√≥tulos e t√≠tulo do gr√°fico.
plt.xlabel("Categoria de renda")           # Define o r√≥tulo do eixo X.
plt.ylabel("N√∫mero de distritos")          # Define o r√≥tulo do eixo Y.
plt.title("Distribui√ß√£o das categorias de renda")  # Adiciona um t√≠tulo ao gr√°fico.

# üî• Exibe o gr√°fico.
plt.show()

Agora estamos prontos para realizar uma **amostragem estratificada** baseada na categoria de renda. O Scikit-Learn oferece ferramentas espec√≠ficas para isso. Podemos utilizar o ``StratifiedShuffleSplit`` do Scikit-Learn:

In [None]:
# Importa a classe StratifiedShuffleSplit do m√≥dulo model_selection do sklearn
# Esta classe realiza divis√µes estratificadas dos dados preservando a propor√ß√£o das classes
from sklearn.model_selection import StratifiedShuffleSplit

# Cria uma inst√¢ncia do StratifiedShuffleSplit com os seguintes par√¢metros:
# - n_splits=10: gera 1 divis√£o dos dados
# - test_size=0.2: 20% dos dados ser√£o usados para teste em cada divis√£o
# - random_state=42: semente aleat√≥ria para reprodutibilidade
splitter = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=42)

# Loop sobre cada divis√£o gerada pelo splitter:
# - housing: DataFrame completo com os dados
# - housing["income_cat"]: coluna usada para estratifica√ß√£o (garante propor√ß√£o igual em treino/teste)
for train_index, test_index in splitter.split(housing, housing["income_cat"]):
    # Cria conjunto de treino usando os √≠ndices gerados
    strat_train_set = housing.iloc[train_index]
    
    # Cria conjunto de teste usando os √≠ndices gerados
    strat_test_set = housing.iloc[test_index]

Podemos ver as propor√ß√µes da categoria de renda no conjunto de testes:

In [None]:
strat_test_set["income_cat"].value_counts() / len(strat_test_set)

### An√°lise Comparativa de Amostragem Estratificada vs Aleat√≥ria

In [None]:
def income_cat_proportions(data):
    """Calcula as propor√ß√µes das categorias de renda em um conjunto de dados.
    
    Par√¢metros:
        data (DataFrame): Conjunto de dados contendo a coluna 'income_cat'
        
    Retorna:
        Series: Propor√ß√µes de cada categoria de renda
    """
    return data["income_cat"].value_counts() / len(data)

In [None]:
# Divide os dados de forma aleat√≥ria (n√£o estratificada)
# test_size=0.2 ‚Üí 20% para teste, 80% para treino
# random_state=42 ‚Üí garante reprodutibilidade
train_set, test_set = train_test_split(housing, test_size=0.2, random_state=42)

# Cria DataFrame comparativo das propor√ß√µes:
# - Overall: Propor√ß√µes no dataset completo
# - Stratified: Propor√ß√µes no teste estratificado
# - Random: Propor√ß√µes no teste aleat√≥rio
compare_props = pd.DataFrame({
    "Overall": income_cat_proportions(housing),
    "Stratified": income_cat_proportions(strat_test_set),
    "Random": income_cat_proportions(test_set),
}).sort_index()

# Calcula os erros percentuais das amostragens:
# - Rand. %error: Diferen√ßa percentual da amostragem aleat√≥ria
# - Strat. %error: Diferen√ßa percentual da amostragem estratificada
compare_props["Rand. %error"] = 100 * compare_props["Random"] / compare_props["Overall"] - 100
compare_props["Strat. %error"] = 100 * compare_props["Stratified"] / compare_props["Overall"] - 100

# Exibe a tabela comparativa
compare_props

√â poss√≠vel medir as propor√ß√µes das categorias de renda no conjunto de dados completo. A figura acima compara essas propor√ß√µes em tr√™s cen√°rios: (1) no dataset original, (2) no conjunto de teste gerado por amostragem estratificada e (3) no conjunto de teste criado com divis√£o puramente aleat√≥ria. Os resultados mostram que a **amostragem estratificada** preserva propor√ß√µes quase id√™nticas √†s do dataset original, enquanto a divis√£o aleat√≥ria apresenta distor√ß√µes significativas (*skew*). Isso demonstra a superioridade da estratifica√ß√£o para manter a representatividade estat√≠stica, especialmente em an√°lises onde o balanceamento das categorias √© cr√≠tico.  

## Atividade

**Exerc√≠cio de Pr√©-processamento**  
Voc√™ ir√°:  
Baixar o dataset Iris diretamente do reposit√≥rio online usando `fetch_openml`:
```python
import pandas as pd
from sklearn.datasets import fetch_openml

# Carregando dataset online (formato TGZ impl√≠cito)
iris = fetch_openml('iris', version=1, as_frame=True)
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df['target'] = iris.target
```
**Quest√µes:**
1. Aplicar **escalonamento** (√† escolha: padroniza√ß√£o ou normaliza√ß√£o)  
2. Dividir em treino/teste com **dois m√©todos** (aleat√≥rio e estratificado)  
3. Verifique as propor√ß√µes das classes em cada conjunto  

**Dica:** Compare os resultados dos dois m√©todos de divis√£o para entender o impacto da estratifica√ß√£o em dados balanceados. O relat√≥rio final deve mostrar as m√©tricas de propor√ß√£o antes/depois do processamento.