# Limpeza e Transformação de Dados com Python

## Seção 1: Introdução

### 1.1 Ciência de Dados: Qualidade Acima de Tudo

No cerne de toda análise de dados, modelo de machine learning ou sistema de inteligência artificial, reside um princípio imutável e fundamental: a qualidade da saída é inextricavelmente ligada à qualidade da entrada.
- GIGO, ou "Garbage In, Garbage Out" (Lixo Entra, Lixo Sai).
- Se os dados de entrada forem falhos, incompletos ou de baixa qualidade, os resultados gerados serão, na melhor das hipóteses, imprecisos e, na pior, perigosamente enganosos.

Não é um fenômeno moderno.
 - **Século XIX: Charles Babbage sobre sua Máquina Diferencial.** Quando questionado se a máquina produziria a resposta correta ao ser alimentada com números errados, Babbage respondeu: "Não sou capaz de apreender corretamente o tipo de confusão de ideias que poderia provocar tal pergunta".

Um sistema computacional não possui raciocínio independente; ele opera exclusivamente com base nos dados que lhe são fornecidos. 

A frase "garbage in, garbage out" foi popularizada nos primórdios da computação, por volta de 1957, possivelmente como uma gíria militar usada por engenheiros que trabalhavam com os primeiros computadores a válvulas, para lembrar que as máquinas apenas seguiam instruções e não podiam "pensar" por si mesmas.

Dados de baixa qualidade podem levar a consequências comerciais e sociais significativas. 
 - Previsões de demanda baseadas em dados imprecisos podem resultar em oportunidades de vendas perdidas ou excesso de estoque.
 - Campanhas de marketing direcionadas com base em dados demográficos desatualizados podem desperdiçar orçamentos consideráveis.
 - Falhas em cumprir regulamentações de privacidade, como o compartilhamento de informações sensíveis com as pessoas erradas, podem surgir de dados inconsistentes.
 - Modelos de IA generativa, se alimentados com informações falsas, irão, por sua vez, gerar desinformação com uma aparência de autoridade.

Portanto, a limpeza e a preparação de dados não são meramente uma etapa preliminar, mas sim a fundação sobre a qual todo o projeto de ciência de dados é construído.

### 1.2 O Que São "Dados Sujos"?

Para combater eficazmente os "dados sujos", é crucial entender que o "lixo" se manifesta de várias formas.

A qualidade dos dados pode ser avaliada através de várias dimensões principais, e uma falha em qualquer uma delas contribui para o problema do GIGO.

Uma taxonomia do "lixo" de dados inclui:

* **Imprecisão (Accuracy):** Os dados não correspondem à realidade. Um exemplo clássico são os erros de entrada de dados humanos. Em um contexto mais complexo, previsões iniciais sobre casos e mortalidade da COVID-19 foram superestimadas em algumas regiões porque os resultados de testes de fim de semana foram erroneamente combinados com os da semana seguinte, criando um pico artificial e, portanto, impreciso.
* **Incompletude (Completeness):** Faltam informações. Campos deixados em branco em um formulário, leituras de sensores que falharam ou dados que não foram coletados para um subgrupo específico da população são exemplos de dados incompletos.
* **Inconsistência (Consistency):** Os dados são contraditórios em diferentes sistemas ou mesmo dentro do mesmo conjunto de dados. Por exemplo, o estado da "Louisiana" pode ser registrado como "Louisiana" em um sistema de CRM, "LA" em um ERP e "La." em um sistema de RH. Embora semanticamente corretos, esses formatos diferentes criam inconsistência que pode levar a registros duplicados ou análises incorretas.
* **Falta de Pontualidade (Timeliness):** Os dados não estão disponíveis quando são necessários. Informações de endereço de entrega que chegam após o envio do pedido são inúteis para o sistema de atendimento de pedidos.
* **Invalidade (Validity):** Os dados não estão em conformidade com as regras de negócio ou formatos predefinidos. Se um sistema exige um código postal de nove dígitos, um código de cinco dígitos inserido por um cliente seria considerado inválido.
* **Falta de Unicidade (Uniqueness):** A mesma entidade ou evento é registrado várias vezes. Um cliente pode ter dois registros diferentes em um banco de dados, um para seu endereço residencial e outro para o comercial, em vez de um único registro com dois endereços associados.
* **Viés (Bias):** Os dados não são representativos da população ou do fenômeno que se pretende modelar. Um sistema de IA para diagnóstico de doenças treinado predominantemente com dados de adultos será enviesado e provavelmente terá um desempenho ruim no diagnóstico de crianças. O viés nos dados de treinamento é uma das principais causas de resultados injustos e antiéticos em sistemas de IA.

O "lixo" pode ir além dos próprios dados. O GIGO também pode se referir a "pensamento falho", como a aplicação de teorias incorretas, modelos conceituais errados, código mal documentado que leva a erros downstream, ou operações de pesquisa deficientes que resultam na coleta de dados errados. 

Limpeza de dados é um exercício de pensamento crítico.
 - Cientista de dados deve questionar não apenas a sintaxe dos dados, mas também sua semântica e relevância para o problema em questão.

### 1.3 Estudo de Caso: O Dataset do Titanic

Um dos conjuntos de dados mais icônicos e educativos da ciência de dados: o dataset do **Titanic** da plataforma Kaggle. 

Este dataset detalha o destino dos passageiros a bordo do RMS Titanic, que afundou em 15 de abril de 1912, resultando na morte de 1502 das 2224 pessoas a bordo. 

Ele serve como um laboratório perfeito por ser um conjunto de dados do mundo real, inerentemente "sujo", contendo valores ausentes, tipos de dados mistos e features que exigem engenharia para se tornarem úteis.

[Dataset Titanic - Kaggle](https://www.kaggle.com/c/titanic)

O primeiro passo é carregar o conjunto de dados de treinamento (`train.csv`) em um DataFrame do Pandas, a principal biblioteca de manipulação de dados em Python. Em seguida, realizaremos uma inspeção inicial para ter uma primeira impressão da estrutura dos dados.

In [3]:
# Importando as bibliotecas pandas e numpy
import pandas as pd
import numpy as np

# Carregando o dataset de treinamento
# Assumindo que o arquivo 'train.csv' está no mesmo diretório
try:
    df = pd.read_csv('../train.csv')
    #df = pd.read_csv('titanic/train.csv')
except FileNotFoundError:
    print("Arquivo 'train.csv' não encontrado. Certifique-se de que ele está no diretório correto.")
    # Criando um dataframe vazio para o restante do código não quebrar
    df = pd.DataFrame()

# Exibindo as 5 primeiras linhas do DataFrame
print("Primeiras 5 linhas do dataset:")
display(df.head())

# Exibindo as 5 últimas linhas do DataFrame
print("\nÚltimas 5 linhas do dataset:")
display(df.tail())

Primeiras 5 linhas do dataset:


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S



Últimas 5 linhas do dataset:


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


Para entender o que cada coluna representa, é essencial consultar o dicionário de dados. Este documento fornece o contexto de domínio necessário para tomar decisões informadas durante o processo de limpeza.

**Dicionário de Dados do Titanic:**

| Variável | Definição | Chave/Valores |
| :--- | :--- | :--- |
| `Survived` | Sobrevivência | `0` = Não, `1` = Sim |
| `Pclass` | Classe do bilhete | `1` = 1ª, `2` = 2ª, `3` = 3ª |
| `Name` | Nome do passageiro | |
| `Sex` | Sexo | `male`, `female` |
| `Age` | Idade em anos | |
| `SibSp` | Nº de irmãos/cônjuges a bordo | |
| `Parch` | Nº de pais/filhos a bordo | |
| `Ticket` | Número do bilhete | |
| `Fare` | Tarifa do passageiro | |
| `Cabin` | Número da cabine | |
| `Embarked` | Porto de embarque | `C` = Cherbourg, `Q` = Queenstown, `S` = Southampton |

Com o dataset carregado e o dicionário de dados em mãos, estamos prontos para iniciar o processo de diagnóstico e limpeza, transformando este conjunto de dados bruto em uma base sólida para análise e modelagem.

## Seção 2: Profiling Inicial do Dataset - Conhecendo Seu Inimigo

Antes de aplicar qualquer técnica de limpeza, é imperativo realizar um perfilamento (profiling) completo do dataset. 

Esta fase de diagnóstico é análoga a um médico que realiza exames antes de prescrever um tratamento. 

O objetivo é obter uma compreensão profunda da estrutura, conteúdo e qualidade dos dados, identificando problemas potenciais que precisarão ser abordados.

### 2.1 A Visão Geral: Estrutura e Metadados

Iniciaremos com o método `.info()`. Ele fornece um resumo conciso e denso do DataFrame, incluindo o tipo de índice, nomes das colunas, contagem de valores não nulos e os tipos de dados (Dtypes) de cada coluna.

In [2]:
# Obtendo um resumo conciso do DataFrame
print("Informações do DataFrame:")
df.info()

Informações do DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


A análise da saída de `df.info()` para o dataset do Titanic revela imediatamente várias bandeiras vermelhas:
* **Total de Entradas:** O `RangeIndex` mostra 891 entradas, o que significa que o dataset de treino tem 891 linhas (passageiros).
* **Valores Ausentes:** A coluna `Non-Null Count` é a mais reveladora. Enquanto a maioria das colunas tem 891 valores não nulos, `Age` tem apenas 714, `Cabin` tem 204 e `Embarked` tem 889. Isso confirma a presença de dados ausentes e nos dá uma contagem exata dos valores presentes, permitindo-nos inferir os ausentes.
* **Tipos de Dados:** A coluna `Dtype` mostra os tipos de dados. Vemos uma mistura de `int64` (inteiro), `float64` (ponto flutuante) e `object` (geralmente strings). Algumas colunas, como `Sex` e `Embarked`, são do tipo `object`, mas representam categorias, indicando a necessidade de uma futura conversão de tipo.

Para obter as dimensões exatas do dataset (número de linhas e colunas) e uma lista limpa dos nomes das colunas, podemos usar os atributos `.shape` e `.columns`, respectivamente.

In [None]:
# Obtendo as dimensões do DataFrame (linhas, colunas)
print(f"Dimensões do dataset: {df.shape}")

# Obtendo os nomes das colunas
print(f"Colunas do dataset: {df.columns.tolist()}")

### 2.2 A Lupa nos Tipos de Dados (Dtypes)

O tipo de dado de uma coluna (`dtype`) determina quais operações podem ser realizadas nela. Por exemplo, operações matemáticas podem ser aplicadas a colunas numéricas (`int64`, `float64`), mas não a colunas de texto (`object`). O método `.dtypes` fornece uma visão focada exclusivamente nos tipos de dados de cada coluna.

In [None]:
# Verificando os tipos de dados de cada coluna
print("Tipos de dados (Dtypes):")
print(df.dtypes)

Os tipos de dados mais comuns no Pandas são:
* `object`: O tipo mais geral, geralmente usado para armazenar strings, mas pode conter qualquer objeto Python.
* `int64`: Inteiros de 64 bits.
* `float64`: Números de ponto flutuante de 64 bits.
* `bool`: Valores booleanos (True/False).
* `datetime64[ns]`: Datas e horas, com precisão de nanossegundos.

No dataset do Titanic, a análise dos `dtypes` sugere áreas para melhoria:
* `Pclass`: É `int64`, mas representa uma categoria ordinal (1ª > 2ª > 3ª classe).
* `Sex` e `Embarked`: São `object`, mas representam categorias nominais (sem ordem inerente).
* `Survived`: É `int64`, mas representa uma categoria binária (0 ou 1).

Corrigir esses tipos de dados não é apenas uma questão de "boas práticas"; é essencial para garantir que as análises e os modelos de machine learning interpretem essas variáveis corretamente.

Uma técnica poderosa para trabalhar com DataFrames grandes é selecionar colunas programaticamente com base em seu tipo de dado, usando o método `.select_dtypes()`. Isso permite aplicar transformações em massa a todas as colunas numéricas ou a todas as colunas de texto, por exemplo.

In [4]:
# Selecionando apenas as colunas numéricas
numeric_cols = df.select_dtypes(include=np.number)
print("Colunas numéricas:")
print(type(numeric_cols))
display(numeric_cols.head())

# Selecionando apenas as colunas de objeto (texto)
object_cols = df.select_dtypes(include='object')
print("\nColunas de objeto:")
display(object_cols.head())

Colunas numéricas:
<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
0,1,0,3,22.0,1,0,7.25
1,2,1,1,38.0,1,0,71.2833
2,3,1,3,26.0,0,0,7.925
3,4,1,1,35.0,1,0,53.1
4,5,0,3,35.0,0,0,8.05



Colunas de objeto:


Unnamed: 0,Name,Sex,Ticket,Cabin,Embarked
0,"Braund, Mr. Owen Harris",male,A/5 21171,,S
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,PC 17599,C85,C
2,"Heikkinen, Miss. Laina",female,STON/O2. 3101282,,S
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,113803,C123,S
4,"Allen, Mr. William Henry",male,373450,,S


### 2.3 Primeiras Pistas: Estatísticas Descritivas

O método `.describe()` é uma ferramenta de diagnóstico fundamental que gera estatísticas descritivas para as colunas numéricas. Ele calcula medidas de tendência central (média, mediana), dispersão (desvio padrão) e a forma da distribuição (quartis, mínimo, máximo).

In [5]:
# Gerando estatísticas descritivas para colunas numéricas
print("Estatísticas descritivas (numéricas):")
display(df.describe())

Estatísticas descritivas (numéricas):


Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


A análise cuidadosa desta tabela nos fornece pistas valiosas:
* **`count`**: O valor para `Age` (714) é menor que o total de 891, confirmando novamente os valores ausentes de uma perspectiva estatística.
* **`mean` vs. `50%` (mediana)**: Para a coluna `Age`, a média (29.7) e a mediana (28.0) são relativamente próximas, sugerindo uma distribuição razoavelmente simétrica. No entanto, para `Fare`, a média (32.2) é significativamente maior que a mediana (14.45), indicando uma forte assimetria à direita, provavelmente causada por valores extremamente altos.
* **`max` vs. `75%`**: A discrepância mais gritante está na coluna `Fare`. O 75º percentil é 31.0, mas o valor máximo é 512.3. Isso é um forte indicador da presença de outliers, ou seja, tarifas muito mais altas que a da grande maioria dos passageiros.
* **`min`**: A idade mínima (`Age`) é 0.42, o que corresponde a um bebê. Isso é consistente com o dicionário de dados, que menciona idades fracionárias para crianças com menos de um ano.

Para as colunas categóricas (tipo `object`), podemos usar `.describe(include='object')`.

# Gerando estatísticas descritivas para colunas de objeto
print("\nEstatísticas descritivas (categóricas):")
display(df.describe(include=['object']))

Esta saída nos informa que:
* **`unique`**: Existem 891 nomes únicos (um por passageiro), mas apenas 2 valores únicos para `Sex` e 3 para `Embarked`. A coluna `Cabin` tem 147 valores únicos, sugerindo pouca reutilização ou muitos valores únicos para poucas entradas.
* **`top`**: O sexo mais comum é `male`.
* **`freq`**: `male` aparece 577 vezes. O porto de embarque mais comum é 'S' (Southampton), com 644 passageiros.


## Seção 3: Tratamento de Dados Ausentes (Missing Values)

Dados ausentes, frequentemente representados como `NaN` (Not a Number) no Pandas, são um dos problemas mais comuns e desafiadores na preparação de dados. 

Ignorá-los pode levar a erros em cálculos, análises enviesadas e modelos de machine learning com desempenho inferior. 

Abordar os dados ausentes requer uma estratégia deliberada, que equilibre a preservação da informação com a integridade do dataset.

### 3.1 Quantificando o Problema

O primeiro passo é obter uma contagem clara e precisa dos valores ausentes em cada coluna. 

A combinação dos métodos `.isnull()` (que retorna um DataFrame booleano indicando `True` para cada valor ausente) e `.sum()` (que, em um DataFrame booleano, conta o número de `True`s) é a maneira padrão e mais eficiente de fazer isso.

In [8]:
# Contando o número de valores nulos (NaN) em cada coluna
missing_values = df.isnull().sum()
print(df.isnull())
print("Contagem de valores ausentes por coluna:")
print(missing_values[missing_values > 0])

     PassengerId  Survived  Pclass   Name    Sex    Age  SibSp  Parch  Ticket  \
0          False     False   False  False  False  False  False  False   False   
1          False     False   False  False  False  False  False  False   False   
2          False     False   False  False  False  False  False  False   False   
3          False     False   False  False  False  False  False  False   False   
4          False     False   False  False  False  False  False  False   False   
..           ...       ...     ...    ...    ...    ...    ...    ...     ...   
886        False     False   False  False  False  False  False  False   False   
887        False     False   False  False  False  False  False  False   False   
888        False     False   False  False  False   True  False  False   False   
889        False     False   False  False  False  False  False  False   False   
890        False     False   False  False  False  False  False  False   False   

      Fare  Cabin  Embarked

Embora a contagem absoluta seja útil, calcular a *porcentagem* de valores ausentes geralmente fornece um contexto melhor para a tomada de decisões. Uma coluna com 1000 valores ausentes em um dataset de um milhão de linhas é muito menos problemática do que uma com 50 valores ausentes em um dataset de 100 linhas.

In [9]:
# Calculando a porcentagem de valores ausentes por coluna
missing_percentage = (df.isnull().sum() / len(df)) * 100
print("\nPorcentagem de valores ausentes por coluna:")
print(missing_percentage[missing_percentage > 0].sort_values(ascending=False))


Porcentagem de valores ausentes por coluna:
Cabin       77.104377
Age         19.865320
Embarked     0.224467
dtype: float64


Para o dataset do Titanic, os resultados confirmam nossas observações iniciais:
* **`Cabin`**: Aproximadamente 77% dos valores estão ausentes. Este é um nível extremamente alto, tornando qualquer forma de imputação muito especulativa e potencialmente prejudicial.
* **`Age`**: Cerca de 20% dos valores estão ausentes. Esta é uma quantidade significativa, mas não proibitiva. A remoção desses dados seria imprudente, pois perderíamos 20% de nossas observações. A imputação é a abordagem mais provável aqui.
* **`Embarked`**: Apenas 2 valores estão ausentes (cerca de 0.22%). Este número é tão pequeno que a remoção das linhas correspondentes teria um impacto mínimo no dataset geral.

### 3.2 Estratégia 1: Remoção (A Ferramenta Cega)

A estratégia mais direta para lidar com dados ausentes é simplesmente removê-los. O Pandas oferece duas maneiras principais de fazer isso: remover linhas (`.dropna()`) ou remover colunas (`.drop()`).

#### Remoção de Linhas

É apropriado remover linhas quando a quantidade de dados ausentes é muito pequena e distribuída aleatoriamente, de modo que a perda de informação é insignificante e não introduz viés na amostra.

**Caso de Uso (Titanic):** As duas linhas onde `Embarked` está ausente.

In [11]:
# Criando uma cópia para demonstração
df_dropped_rows = df.copy()

# Removendo linhas onde 'Embarked' é nulo
# O argumento 'subset' especifica que a verificação de NaN deve ser feita apenas nesta coluna INPLACE, garante que sera removido do mesmo dataFrame
df_dropped_rows.dropna(subset=['Embarked'], inplace=True)


print(f"Formato original: {df.shape}")
print(f"Formato após remover linhas com 'Embarked' ausente: {df_dropped_rows.shape}")

Formato original: (891, 12)
Formato após remover linhas com 'Embarked' ausente: (889, 12)


#### Remoção de Colunas

A remoção de uma coluna inteira é uma medida drástica, justificada apenas quando a coluna tem uma porcentagem esmagadora de valores ausentes, a ponto de não conter informações úteis.

**Caso de Uso (Titanic):** A coluna `Cabin`. Com 77% de ausência, tentar preencher esses valores seria, em grande parte, fabricar dados. É mais seguro e honesto remover a coluna e reconhecer que essa informação não está disponível para a maioria dos passageiros.

In [12]:
# Criando uma cópia para demonstração
df_dropped_cols = df.copy()

# Removendo a coluna 'Cabin'
# O argumento 'axis=1' especifica que estamos removendo uma coluna, não uma linha
df_dropped_cols.drop('Cabin', axis=1, inplace=True)

print(f"Colunas originais: {df.columns.tolist()}")
print(f"Colunas após remover 'Cabin': {df_dropped_cols.columns.tolist()}")

Colunas originais: ['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked']
Colunas após remover 'Cabin': ['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket', 'Fare', 'Embarked']


### 3.3 Estratégia 2: Imputação (A Arte da Estimação)

A imputação é o processo de preencher valores ausentes com valores estimados. É uma abordagem mais sofisticada que preserva o tamanho do dataset. A escolha do método de imputação depende do tipo de dado (numérico ou categórico) e de sua distribuição. A principal ferramenta para isso no Pandas é o método `.fillna()`.

#### Imputação Numérica para 'Age'

Para a coluna `Age`, que é numérica, as opções mais comuns são a média e a mediana.

In [13]:
# Imputação pela Média
# Calculando a média da idade (ignorando NaNs por padrão)
mean_age = df['Age'].mean()
print(f"Média de idade: {mean_age:.2f}")

# Preenchendo valores ausentes com a média (em uma nova coluna para comparação)
df['Age_mean_imputed'] = df['Age'].fillna(mean_age)

# Imputação pela Mediana
# Calculando a mediana da idade
median_age = df['Age'].median()
print(f"Mediana de idade: {median_age:.2f}")

# Preenchendo valores ausentes com a mediana (em uma nova coluna para comparação)
df['Age_median_imputed'] = df['Age'].fillna(median_age)

display(df[['Age', 'Age_mean_imputed', 'Age_median_imputed']].head(10))

Média de idade: 29.70
Mediana de idade: 28.00


Unnamed: 0,Age,Age_mean_imputed,Age_median_imputed
0,22.0,22.0,22.0
1,38.0,38.0,38.0
2,26.0,26.0,26.0
3,35.0,35.0,35.0
4,35.0,35.0,35.0
5,,29.699118,28.0
6,54.0,54.0,54.0
7,2.0,2.0,2.0
8,27.0,27.0,27.0
9,14.0,14.0,14.0


#### Imputação Categórica para 'Embarked'

Para dados categóricos, a imputação com a média ou mediana não faz sentido. A estratégia padrão é usar a moda, que é o valor mais frequente na coluna.

In [14]:
# Calculando a moda de 'Embarked'
# .mode() retorna uma Series, então pegamos o primeiro elemento com [0]
mode_embarked = df['Embarked'].mode()[0]
print(f"Porto de embarque mais comum (moda): {mode_embarked}")

# Preenchendo os 2 valores ausentes com a moda
df['Embarked_mode_imputed'] = df['Embarked'].fillna(mode_embarked)

# Verificando se os valores ausentes foram preenchidos
print(f"Valores ausentes em 'Embarked_mode_imputed': {df['Embarked_mode_imputed'].isnull().sum()}")

Porto de embarque mais comum (moda): S
Valores ausentes em 'Embarked_mode_imputed': 0


| Técnica | Descrição | Prós | Contras | Quando Usar |
| :--- | :--- | :--- | :--- | :--- |
| Remoção de Linhas (`dropna`) | Exclui qualquer linha que contenha um valor ausente. | Simples, rápido. | Perda de dados, pode introduzir viés. | Quando a quantidade de dados ausentes é muito pequena (<1-2%). |
| Remoção de Colunas (`drop`) | Exclui uma coluna inteira. | Remove features problemáticas. | Perda total da informação da feature. | Quando a coluna tem uma porcentagem muito alta de valores ausentes (>50-60%). |
| Imputação por Média | Preenche com o valor médio da coluna. | Simples, mantém o tamanho do dataset. | Sensível a outliers, reduz a variância. | Dados numéricos com distribuição simétrica e poucos outliers. |
| Imputação por Mediana | Preenche com o valor mediano da coluna. | Robusto a outliers. | Pode alterar a distribuição original. | Dados numéricos com distribuição assimétrica ou com outliers. |
| Imputação por Moda | Preenche com o valor mais frequente. | Simples, aplicável a dados categóricos. | Pode criar um viés para a categoria modal. | Dados categóricos. |

### Exercício 1


1.  Compare as estatísticas descritivas (`.describe()`) das três colunas ('Age', 'Age_mean_imputed', 'Age_median_imputed'). A imputação alterou significativamente o desvio padrão (`std`)? Por que isso acontece?


In [18]:
df.oloc["Age"].describe()

AttributeError: 'DataFrame' object has no attribute 'oloc'

## Seção 4: Lidando com Dados Duplicados

Dados duplicados podem inflar artificialmente o tamanho do dataset, distorcer estatísticas e levar a modelos de machine learning que atribuem peso indevido a observações repetidas. 

A identificação e o tratamento de duplicatas são passos essenciais para garantir a integridade e a unicidade dos dados.

### 4.1 Identificação de Duplicatas

O Pandas fornece o método `.duplicated()` para identificar linhas duplicadas. Por padrão, ele retorna uma Série booleana onde `True` marca uma linha que é uma cópia exata de uma linha que apareceu *anteriormente* no DataFrame.

In [None]:
# Criando um DataFrame de exemplo com duplicatas
data_com_duplicatas = {
    'Nome': ['Ana', 'Bruno', 'Carlos', 'Ana', 'Daniel', 'Bruno'],
    'Idade': [28, 35, 22, 28, 40, 35]
}
df_dups = pd.DataFrame(data_com_duplicatas)

print("DataFrame de exemplo:")
display(df_dups)

# Identificando linhas duplicadas (mantendo a primeira ocorrência como não-duplicata)
print("\nSérie booleana de duplicatas (keep='first'):")
print(df_dups.duplicated())

# Contando o número total de linhas duplicadas
num_duplicatas = df_dups.duplicated().sum()
print(f"\nNúmero de linhas duplicadas: {num_duplicatas}")

# Exibindo as linhas que são duplicatas
print("\nLinhas duplicadas:")
display(df_dups[df_dups.duplicated()])

# Identificando todas as ocorrências de linhas duplicadas
print("\nTodas as linhas envolvidas em duplicação (keep=False):")
display(df_dups[df_dups.duplicated(keep=False)])

### 4.2 Remoção e Estratégias

#### Duplicatas Exatas

Este é o caso mais simples, onde removemos linhas que são idênticas em todas as colunas. Vamos verificar isso no dataset do Titanic.

In [None]:
# Verificando duplicatas exatas no dataset do Titanic
titanic_dups_count = df.duplicated().sum()
print(f"Número de linhas completamente duplicadas no dataset do Titanic: {titanic_dups_count}")

# Se houvesse duplicatas, poderíamos removê-las com:
# df.drop_duplicates(inplace=True)

#### Duplicatas Parciais

Um cenário mais comum e sutil é a duplicação baseada em um subconjunto de colunas. Por exemplo, podemos querer verificar se há passageiros com o mesmo nome e idade. Isso é feito usando o parâmetro `subset`.

In [None]:
# Verificando duplicatas com base em 'Name' e 'Age'
partial_dups = df.duplicated(subset=['Name', 'Age']).sum()
print(f"Número de duplicatas com base em Nome e Idade: {partial_dups}")

# Exibindo as duplicatas parciais (se houver)
if partial_dups > 0:
    display(df[df.duplicated(subset=['Name', 'Age'], keep=False)].sort_values(by='Name'))

#### Agregação em Vez de Remoção

A verdadeira tarefa ao lidar com duplicatas é garantir a *granularidade* correta do dataset. A granularidade define o que cada linha representa. Para o dataset do Titanic, a granularidade é "um passageiro por linha". Em outros contextos, a remoção pode ser a abordagem errada.

In [None]:
# Exemplo hipotético de agregação de dados de vendas
sales_data = {
    'CustomerID': [101, 102, 101, 103, 102, 101],
    'Amount': [50, 100, 25, 200, 75, 10]
}
df_sales = pd.DataFrame(sales_data)

# Agregando para obter o gasto total e o número de compras por cliente
customer_summary = df_sales.groupby('CustomerID').agg(
    TotalAmount=('Amount', 'sum'),
    PurchaseCount=('Amount', 'count')
).reset_index()

print("Dataset de vendas original:")
display(df_sales)
print("\nDataset agregado por cliente:")
display(customer_summary)

### Exercício 2: Garantindo a Unicidade

1.  Verifique se existem duplicatas completas no dataset `train.csv` do Titanic.
2.  Verifique se existe algum passageiro com o mesmo 'Ticket' e o mesmo 'Cabin'. Isso necessariamente significa um erro de dados? Discuta o que isso poderia significar.
3.  Considere o DataFrame de vendas do exemplo acima. Como você encontraria o valor médio de compra por cliente? (Dica: use `.groupby()` e o método de agregação apropriado).

## Seção 5: Tratamento de Outliers

Outliers são pontos de dados que se desviam significativamente do resto do conjunto de dados. 

Eles podem ser resultado de erros de medição, erros de entrada de dados ou eventos genuinamente raros. 

Independentemente da sua origem, os outliers podem ter um impacto desproporcional em análises estatísticas e no treinamento de modelos de machine learning.

### 5.1 O Que São Outliers e Por Que se Preocupar?

Um outlier é uma observação que se encontra a uma distância anormal de outros valores em uma amostra aleatória de uma população. A presença de outliers pode:
* **Distorcer Estatísticas Descritivas**
* **Impactar o Desempenho do Modelo**
* **Violar Suposições dos Modelos**

### 5.2 Detecção Visual: O Poder do Box Plot

Uma das maneiras mais eficazes e intuitivas de detectar outliers é através da visualização. O box plot (ou diagrama de caixa) é uma ferramenta gráfica poderosa para essa finalidade.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Configurando o estilo dos gráficos
sns.set_style("whitegrid")

plt.figure(figsize=(12, 5))

# Box plot para 'Age'
plt.subplot(1, 2, 1)
sns.boxplot(y=df['Age'])
plt.title('Box Plot da Idade (Age)')
plt.ylabel('Idade')

# Box plot para 'Fare'
plt.subplot(1, 2, 2)
sns.boxplot(y=df['Fare'])
plt.title('Box Plot da Tarifa (Fare)')
plt.ylabel('Tarifa')

plt.tight_layout()
plt.show()

A visualização confirma nossas suspeitas da análise descritiva:
* **`Age`**: Possui alguns outliers na extremidade superior, mas a distribuição geral parece contida.
* **`Fare`**: Apresenta um grande número de outliers na extremidade superior. A maioria dos dados está concentrada em valores baixos, mas há uma longa cauda de valores extremamente altos, incluindo os pontos acima de 500 que havíamos notado.

### 5.3 Detecção Quantitativa: O Método IQR

O box plot nos dá uma visão qualitativa. Para identificar outliers de forma programática, podemos usar a mesma lógica quantitativa por trás das whiskers: o método IQR.

A regra é: um valor é considerado um outlier se estiver abaixo de $Q1 - 1.5 \times IQR$ ou acima de $Q3 + 1.5 \times IQR$.

In [None]:
# Calculando Q1, Q3 e IQR para a coluna 'Fare'
Q1 = df['Fare'].quantile(0.25)
Q3 = df['Fare'].quantile(0.75)
IQR = Q3 - Q1

# Definindo os limites para detecção de outliers
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

print(f"Primeiro Quartil (Q1): {Q1:.2f}")
print(f"Terceiro Quartil (Q3): {Q3:.2f}")
print(f"Intervalo Interquartil (IQR): {IQR:.2f}")
print(f"Limite Inferior para Outliers: {lower_bound:.2f}")
print(f"Limite Superior para Outliers: {upper_bound:.2f}")

# Identificando os outliers
outliers = df[(df['Fare'] < lower_bound) | (df['Fare'] > upper_bound)]

print(f"\nNúmero de outliers encontrados em 'Fare': {len(outliers)}")
print("Exemplos de outliers em 'Fare':")
display(outliers.head())

### 5.4 Estratégias de Tratamento de Outliers

Vamos demonstrar a técnica de **capping** para a coluna `Fare`, que consiste em limitar os valores outliers a um valor máximo/mínimo.

In [None]:
# Criando uma cópia do DataFrame para não alterar o original
df_capped = df.copy()

# Aplicando o capping na coluna 'Fare'
df_capped['Fare_capped'] = np.where(
    df_capped['Fare'] > upper_bound,
    upper_bound,
    df_capped['Fare']
)

# Comparando as estatísticas e os box plots antes e depois do capping
plt.figure(figsize=(12, 5))

plt.subplot(1, 2, 1)
sns.boxplot(y=df['Fare'])
plt.title('Box Plot Original de Fare')

plt.subplot(1, 2, 2)
sns.boxplot(y=df_capped['Fare_capped'])
plt.title('Box Plot de Fare Após Capping')

plt.tight_layout()
plt.show()

print("Estatísticas descritivas de 'Fare' original:")
display(df['Fare'].describe())
print("\nEstatísticas descritivas de 'Fare' com capping:")
display(df_capped['Fare_capped'].describe())

| Técnica | Descrição | Prós | Contras | Quando Usar |
| :--- | :--- | :--- | :--- | :--- |
| Remoção | Exclui as linhas que contêm valores outliers. | Simples de implementar. | Perda de informação; pode introduzir viés. | Quando os outliers são claramente erros de dados e em pequeno número. |
| Capping | Limita os valores outliers a um teto (e/ou piso) predefinido. | Preserva a observação no dataset; mitiga a influência do valor extremo. | A escolha do limite é subjetiva; pode distorcer a distribuição. | Quando se deseja manter a observação, mas reduzir o impacto de valores extremos em modelos sensíveis a eles. |
| Transformação (ex: Log) | Aplica uma função matemática (como logaritmo) para comprimir a escala. | Reduz a assimetria e o impacto dos outliers; pode ajudar a satisfazer suposições de modelos. | Torna a interpretação dos coeficientes do modelo menos direta. | Para dados com forte assimetria à direita, como dados financeiros ou contagens. |
| Ignorar | Não fazer nada e usar modelos robustos a outliers. | Mantém a integridade original dos dados. | Requer o uso de algoritmos específicos (ex: árvores de decisão, RobustScaler). | Quando os outliers são eventos genuínos e importantes, e o modelo escolhido pode lidar com eles (ex: Random Forest). |

### Exercício 3: Caça aos Outliers

1.  Usando o método IQR, calcule os limites inferior e superior para outliers na coluna 'Age' do dataset Titanic.
2.  Quantos outliers de idade existem no dataset? Eles são mais velhos ou mais novos que o esperado?
3.  Crie uma nova coluna chamada 'Age_capped' onde você aplica a técnica de capping para os outliers de idade que você encontrou.
4.  Gere box plots lado a lado para 'Age' e 'Age_capped' para visualizar o efeito do capping.

## Seção 6: Limpeza e Padronização de Dados Textuais

Dados textuais, ou de string, são frequentemente uma fonte de "lixo" devido à sua natureza não estruturada. Inconsistências na capitalização, espaços em branco indesejados e a presença de caracteres especiais podem fazer com que valores que são semanticamente idênticos sejam tratados como diferentes por um computador.

### 6.1 A Desordem nos Dados de Texto

Problemas comuns incluem:
- Capitalização inconsistente
- Espaços em branco
- Caracteres especiais
- Formatos variados

### 6.2 Ferramentas Essenciais: O Acessor `.str` do Pandas

O Pandas oferece um conjunto poderoso de métodos para manipulação de strings, acessíveis através do acessor `.str` em uma Série. Isso permite aplicar funções de string a cada elemento da Série de forma vetorizada e eficiente.

In [None]:
# Criando uma Série de exemplo com texto sujo
cidades_sujas = pd.Series(['  Rio de Janeiro ', 'são PAULO', 'belo horizonte   ', 'SALVADOR'])

print("Série original:")
print(cidades_sujas)

# Aplicando uma cadeia de métodos de limpeza
# .title() capitaliza a primeira letra de cada palavra
cidades_limpas = cidades_sujas.str.strip().str.title()

print("\nSérie após limpeza:")
print(cidades_limpas)

### 6.3 O Poder das Expressões Regulares (Regex)

Para tarefas de limpeza mais complexas, como remover caracteres específicos ou extrair padrões de texto, podemos usar **expressões regulares (regex)**. 

Um caso de uso prático no dataset do Titanic é extrair o título de cada passageiro (Mr., Mrs., Miss., etc.) da coluna `Name`.

In [None]:
# Extraindo o título da coluna 'Name' usando regex
# O método .str.extract() é projetado para extrair grupos de captura de uma regex
df['Title'] = df['Name'].str.extract(' ([A-Za-z]+)\\.', expand=False)

print("Títulos extraídos:")
display(df[['Name', 'Title']].head())

print("\nContagem de cada título:")
print(df['Title'].value_counts())

### Exercício 4: Polindo o Texto

1.  Crie uma nova coluna no DataFrame do Titanic chamada `Sex_cleaned`, que seja uma versão da coluna `Sex` com todas as letras em maiúsculas e sem espaços em branco no início ou no fim (embora o dataset original já esteja limpo, pratique a aplicação dos métodos).
2.  Na coluna `Ticket`, alguns valores contêm texto e números (ex: 'A/5 21171'), enquanto outros são puramente numéricos. Use `.str.replace()` com uma expressão regular para remover todos os caracteres não numéricos da coluna `Ticket`, criando uma nova coluna `Ticket_num`. (Dica: a regex `[^0-9]` corresponde a qualquer caractere que *não* seja um dígito).
3.  Observe os títulos que você extraiu no exemplo. Alguns, como `Mlle` (Mademoiselle) e `Ms` são variações de `Miss`. `Mme` (Madame) é uma variação de `Mrs`. Use o método `.replace()` (não o `.str.replace()`) para padronizar esses títulos na coluna `Title`.

## Seção 7: Transformação e Engenharia de Features (Feature Engineering)

Após a limpeza básica dos dados, o próximo passo é a transformação e a engenharia de features. Este é um processo criativo e orientado pelo domínio que envolve a modificação de features existentes e a criação de novas para melhorar o desempenho do modelo de machine learning.

### 7.1 Correção de Tipos de Dados

Como identificado na fase de perfilamento, várias colunas no dataset do Titanic têm tipos de dados que não refletem sua natureza lógica. Corrigir isso é um passo fundamental da transformação.

In [None]:
# Criando uma cópia para as transformações
df_transformed = df.copy()

# Corrigindo o tipo de Pclass para 'category'
df_transformed['Pclass'] = df_transformed['Pclass'].astype('category')
print("Dtype de Pclass após a conversão:")
print(df_transformed.dtypes['Pclass'])

# Exemplo de uso de pd.to_datetime
date_series = pd.Series(['2023-01-01', '02/01/2023', 'Jan 3, 2023', 'invalid_date'])

# Convertendo para datetime, com erros sendo transformados em NaT (Not a Time)
converted_dates = pd.to_datetime(date_series, format="mixed",errors='coerce')
print("\nDatas convertidas:")
print(converted_dates)

### 7.2 Binning: Convertendo Contínuo em Categórico

Binning (ou discretização) é o processo de transformar uma variável numérica contínua em uma variável categórica. Vamos usar `pd.cut()` para criar grupos de idade no dataset do Titanic.

In [None]:
# Definindo os limites (bordas) dos bins de idade
# -1 é usado para garantir que a idade 0 seja incluída no primeiro bin
age_bins = [-1, 12, 18, 60, 100] # Bins: 0-12, 13-18, 19-60, 61-100
age_labels = ['Criança', 'Adolescente', 'Adulto', 'Idoso']

# Aplicando pd.cut para criar a nova coluna categórica
# Usando a coluna 'Age_median_imputed' que já tratamos
df_transformed['AgeGroup'] = pd.cut(df_transformed['Age_median_imputed'], bins=age_bins, labels=age_labels, right=True)

print("Distribuição dos grupos de idade:")
print(df_transformed['AgeGroup'].value_counts())
display(df_transformed[['Age_median_imputed', 'AgeGroup']].head())

### 7.3 Extração de Features a Partir de Colunas Existentes

Esta é a essência da engenharia de features: combinar ou decompor variáveis existentes para criar novas que sejam mais informativas.

#### Criando `FamilySize` e `IsAlone`

In [None]:
# Criando a feature FamilySize
df_transformed['FamilySize'] = df_transformed['SibSp'] + df_transformed['Parch'] + 1 # +1 para contar a própria pessoa

# Criando a feature IsAlone
df_transformed['IsAlone'] = 0
df_transformed.loc[df_transformed['FamilySize'] == 1, 'IsAlone'] = 1

print("Distribuição de IsAlone:")
print(df_transformed['IsAlone'].value_counts())
display(df_transformed[['FamilySize', 'IsAlone']].head())

#### Refinando a feature `Title`

In [None]:
# Agrupando títulos raros em uma única categoria 'Rare'
rare_titles = df_transformed['Title'].value_counts()[df_transformed['Title'].value_counts() < 10].index
df_transformed['Title'] = df_transformed['Title'].replace(rare_titles, 'Rare')

# Padronizando alguns títulos
df_transformed['Title'] = df_transformed['Title'].replace({'Mlle': 'Miss', 'Ms': 'Miss', 'Mme': 'Mrs'})

print("\nContagem de títulos após agrupamento:")
print(df_transformed['Title'].value_counts())

### Exercício 4: Criando Novas Variáveis

1.  Use `pd.qcut()` para dividir a coluna 'Fare' em 4 quantis (quartis). Dê os nomes 'Muito Baixa', 'Baixa', 'Média', 'Alta' para os bins. Armazene o resultado em uma nova coluna chamada 'Fare_quantile'.
2.  A primeira letra do número da cabine (`Cabin`) pode indicar a localização no navio (Deck A, B, C, etc.). Embora a coluna `Cabin` tenha muitos valores ausentes, crie uma nova coluna `Deck` extraindo a primeira letra dos valores não nulos de `Cabin`. Preencha os valores ausentes com 'U' (de Unknown). (Dica: use `.str` para pegar o primeiro caractere e `.fillna('U')`).
3.  Crie uma feature binária chamada `Is_Mr` que seja 1 se o `Title` do passageiro for 'Mr' e 0 caso contrário.

## Seção 8: Codificação de Variáveis Categóricas

A maioria dos algoritmos de machine learning, como regressão logística, SVMs e redes neurais, opera com base em matemática e, portanto, exige que todas as features de entrada sejam numéricas. Variáveis categóricas, como 'Sex' (`male`, `female`) ou 'Embarked' (`S`, `C`, `Q`), precisam ser convertidas em uma representação numérica. Esse processo é chamado de codificação.

### 8.1 Label Encoding: Para Dados Ordinais

Label Encoding (ou Codificação de Rótulos) atribui um número inteiro único a cada categoria. Esta técnica é apropriada **apenas** para **dados ordinais**, onde existe uma ordem ou ranking inerente entre as categorias. Para a coluna `Sex`, que é binária, o Label Encoding é aceitável e pode ser feito facilmente com o método `.map()`.

In [None]:
# Criando uma cópia para a codificação
df_encoded = df_transformed.copy()

# Aplicando Label Encoding na coluna 'Sex'
df_encoded['Sex'] = df_encoded['Sex'].map({'male': 0, 'female': 1})

display(df_encoded[['Name', 'Sex']].head())

### 8.2 One-Hot Encoding: Para Dados Nominais

Para dados nominais (sem ordem inerente), a técnica correta é o One-Hot Encoding. Este método cria novas colunas binárias (0 ou 1) para cada categoria única na variável original. A principal ferramenta para isso no Pandas é a função `pd.get_dummies()`.

In [None]:
# Usaremos a coluna de Embarked já imputada
df_encoded['Embarked'] = df_encoded['Embarked_mode_imputed']

# Aplicando One-Hot Encoding na coluna 'Embarked'
embarked_dummies = pd.get_dummies(df_encoded['Embarked'], prefix='Embarked', drop_first=True)
title_dummies = pd.get_dummies(df_encoded['Title'], prefix='Title', drop_first=True)

# Juntando as novas colunas ao DataFrame principal e removendo as originais
df_encoded = pd.concat([df_encoded, embarked_dummies, title_dummies], axis=1)
df_encoded.drop(['Embarked', 'Title'], axis=1, inplace=True)

print("\nColunas do DataFrame após codificar 'Sex', 'Embarked' e 'Title':")
print(df_encoded.columns.tolist())
display(df_encoded.head())

| Técnica | Tipo de Dado | Descrição | Prós | Contras |
| :--- | :--- | :--- | :--- | :--- |
| Label Encoding | Ordinal | Mapeia cada categoria para um inteiro único (0, 1, 2...). | Simples, não aumenta a dimensionalidade. | Introduz uma ordem artificial e falsa se usada em dados nominais. |
| One-Hot Encoding | Nominal | Cria uma nova coluna binária (0/1) para cada categoria. | Não assume nenhuma ordem; funciona bem com a maioria dos algoritmos. | Aumenta a dimensionalidade (pode ser um problema com muitas categorias); Causa multicolinearidade (resolvido com `drop_first=True`). |

### Exercício 7: Traduzindo Categorias

1.  Aplique o One-Hot Encoding à coluna `Pclass`. Use o argumento `prefix` para nomear as novas colunas como 'Classe_1', 'Classe_2', etc. Não use `drop_first` desta vez.
2.  Qual método de codificação você usaria para a coluna `AgeGroup` que criamos anteriormente? Justifique sua resposta.

## Seção 9: Escalonamento de Features Numéricas

Após a limpeza e codificação, as features numéricas do nosso dataset, como 'Age' e 'Fare', podem existir em escalas muito diferentes. O escalonamento de features é o processo de transformar as features numéricas para que todas estejam na mesma escala, garantindo que cada uma contribua de forma mais equitativa para o resultado do modelo.

### 9.1 Normalização (Min-Max Scaling)

A normalização, especificamente a Min-Max Scaling, redimensiona os dados para um intervalo fixo, geralmente entre 0 e 1. É sensível a outliers.

$$ x_{scaled}= \frac{x-x_{min}}{x_{max}-x_{min}} $$

Onde $x_{min}$ e $x_{max}$ são os valores mínimo e máximo da feature, respectivamente.

* Vantagem: preserva a forma da distribuição original.
* Desvantagem: sensibilidade a outliers. Como a escala é definida pelos valores mínimo e máximo, um único outlier extremo pode comprimir todos os outros dados em um intervalo muito pequeno, distorcendo a escala.
  
O MinMaxScaler é frequentemente usado em algoritmos como redes neurais, que esperam valores de entrada em um intervalo pequeno e limitado.

In [None]:
from sklearn.preprocessing import MinMaxScaler

# Selecionando as colunas numéricas para escalonar
# Usaremos as versões já tratadas
numeric_features = ['Age_median_imputed', 'Fare']
df_to_scale = df_encoded[numeric_features].copy()

# Inicializando o scaler
scaler_minmax = MinMaxScaler()

# Ajustando e transformando os dados
df_minmax_scaled = scaler_minmax.fit_transform(df_to_scale)

# Convertendo o resultado de volta para um DataFrame para visualização
df_minmax_scaled = pd.DataFrame(df_minmax_scaled, columns=numeric_features)

print("Dados antes da Normalização (Min-Max Scaling):")
display(df_to_scale.describe())
print("\nDados após a Normalização (Min-Max Scaling):")
display(df_minmax_scaled.describe())

### 9.2 Padronização (Standard Scaling)

A padronização, ou Standard Scaling, transforma os dados para que eles tenham uma média de 0 e um desvio padrão de 1. É menos sensível a outliers e é a técnica de escalonamento mais comum.

$$ x_{scaled}= \frac{x-\mu}{\sigma} $$

Onde μ é a média da feature e σ é o seu desvio padrão. O valor resultante é frequentemente chamado de Z-score.

A principal vantagem do StandardScaler é que ele é menos sensível a outliers do que o MinMaxScaler. Embora os outliers ainda influenciem o cálculo da média e do desvio padrão, seu efeito é amortecido e não define os limites da escala. A padronização não limita os valores a um intervalo específico.   

O StandardScaler é a técnica de escalonamento mais comum e é preferida para algoritmos que assumem que os dados são normalmente distribuídos (ou pelo menos têm uma distribuição Gaussiana), como modelos lineares, Regressão Logística e Análise de Componentes Principais (PCA).

In [None]:
from sklearn.preprocessing import StandardScaler

# Inicializando o scaler
scaler_std = StandardScaler()

# Ajustando e transformando os dados
df_std_scaled = scaler_std.fit_transform(df_to_scale)

# Convertendo o resultado de volta para um DataFrame para visualização
df_std_scaled = pd.DataFrame(df_std_scaled, columns=numeric_features)

print("Dados antes da Padronização (Standard Scaling):")
display(df_to_scale.describe())
print("\nDados após a Padronização (Standard Scaling):")
display(df_std_scaled.describe())

### 9.3 Qual Usar? Um Guia Prático

* **Use `MinMaxScaler` (Normalização) quando:**
    * O algoritmo não faz suposições sobre a distribuição dos dados (ex: KNN, Redes Neurais).
    * Você precisa que os dados estejam em um intervalo específico (ex: 0-1).
    * Seus dados têm poucos ou nenhum outlier.
* **Use `StandardScaler` (Padronização) quando:**
    * O algoritmo assume que os dados são normalmente distribuídos (ex: Regressão Linear/Logística).
    * Seus dados contêm outliers.
    * É a escolha padrão e mais segura na maioria dos cenários.

### Exercício 8: Nivelando o Campo de Jogo

1.  Crie um DataFrame simples com duas colunas: `A = [1, 2, 3, 4, 100]` e `B = [10, 20, 30, 40, 50]`.
2.  Aplique o `MinMaxScaler` a este DataFrame. Observe os valores escalados da coluna `A`. Como o outlier (100) afetou a escala dos outros valores?
3.  Agora, aplique o `StandardScaler` ao mesmo DataFrame original. Compare os valores escalados da coluna `A` com os do passo anterior. A padronização pareceu mais ou menos afetada pelo outlier?


## Seção 10: Estruturando um Pipeline de Limpeza em um Notebook

A solução para um fluxo de trabalho de limpeza confuso é passar de um estilo exploratório para um mais estruturado, encapsulando a lógica em funções reutilizáveis.

### 10.1 Boas Práticas em Notebooks Jupyter

Para manter a clareza e a reprodutibilidade, é recomendável adotar algumas boas práticas:

* **Modularidade**: Em vez de ter longas sequências de código em células individuais, agrupe as etapas de limpeza em funções. Crie funções para tarefas específicas, como `handle_missing_values(df)`, `create_features(df)`, `encode_categoricals(df)`, etc..
* **Encapsulamento**: Combine essas funções menores em uma única função mestre de pré-processamento, como `preprocess_data(df)`. Esta função servirá como um pipeline completo, recebendo um DataFrame bruto e retornando um DataFrame limpo e pronto para a modelagem.
* **Separação Lógica**: Estruture seu notebook em seções claras: 1. Carregamento de Dados, 2. Definição das Funções de Limpeza, 3. Aplicação do Pipeline, 4. Análise Exploratória (no dataset limpo), 5. Modelagem.
* **Evite Modificações In-Place**: Sempre que possível, evite usar inplace=True. Em vez disso, faça com que suas funções retornem um novo DataFrame modificado. Isso torna o fluxo de dados mais explícito e evita efeitos colaterais inesperados.

### 10.2 Exemplo de um Pipeline de Limpeza Completo

Vamos agora consolidar todas as etapas de limpeza e transformação que discutimos ao longo desta aula em uma única função `preprocess_titanic`. Esta função encapsulará toda a lógica e poderá ser aplicada de forma idêntica aos conjuntos de treino e teste, garantindo consistência.

In [None]:
from sklearn.preprocessing import StandardScaler

def preprocess_titanic(df, scaler=None, is_train=True):
    """
    Aplica um pipeline completo de pré-processamento a um DataFrame do Titanic.
    """
    # 1. Copiando o DataFrame para evitar modificar o original
    processed_df = df.copy()

    # 2. Tratamento de Dados Ausentes
    processed_df.drop('Cabin', axis=1, inplace=True, errors='ignore')
    
    if 'Age' in processed_df.columns:
        median_age = processed_df['Age'].median()
        processed_df['Age'].fillna(median_age, inplace=True)
    
    if 'Embarked' in processed_df.columns:
        mode_embarked = processed_df['Embarked'].mode()[0]
        processed_df['Embarked'].fillna(mode_embarked, inplace=True)
    
    if 'Fare' in processed_df.columns:
        mean_fare = processed_df['Fare'].mean()
        processed_df['Fare'].fillna(mean_fare, inplace=True)

    # 3. Engenharia de Features
    processed_df['FamilySize'] = processed_df['SibSp'] + processed_df['Parch'] + 1
    processed_df['IsAlone'] = 0
    processed_df.loc[processed_df['FamilySize'] == 1, 'IsAlone'] = 1
    
    processed_df['Title'] = processed_df['Name'].str.extract(' ([A-Za-z]+)\.', expand=False)
    processed_df['Title'] = processed_df['Title'].fillna('Unknown')
    rare_titles = processed_df['Title'].value_counts()[processed_df['Title'].value_counts() < 10].index
    processed_df['Title'] = processed_df['Title'].replace(rare_titles, 'Rare')
    processed_df['Title'] = processed_df['Title'].replace({'Mlle': 'Miss', 'Ms': 'Miss', 'Mme': 'Mrs'})
    
    # 4. Codificação de Variáveis Categóricas
    processed_df['Sex'] = processed_df['Sex'].map({'male': 0, 'female': 1})
    processed_df = pd.get_dummies(processed_df, columns=['Embarked', 'Title'], drop_first=True)

    # 5. Tratamento de Outliers (Capping em 'Fare')
    Q1 = processed_df['Fare'].quantile(0.25)
    Q3 = processed_df['Fare'].quantile(0.75)
    IQR = Q3 - Q1
    upper_bound = Q3 + 1.5 * IQR
    processed_df['Fare'] = np.where(processed_df['Fare'] > upper_bound, upper_bound, processed_df['Fare'])

    # 6. Remoção de Colunas Desnecessárias
    processed_df.drop(['PassengerId', 'Name', 'Ticket', 'SibSp', 'Parch'], axis=1, inplace=True, errors='ignore')

    # 7. Escalonamento de Features Numéricas
    numeric_features_to_scale = ['Age', 'Fare', 'FamilySize']
    if is_train:
        scaler = StandardScaler()
        processed_df[numeric_features_to_scale] = scaler.fit_transform(processed_df[numeric_features_to_scale])
        return processed_df, scaler
    else:
        if scaler is None:
            raise ValueError("Scaler deve ser fornecido para o conjunto de teste.")
        processed_df[numeric_features_to_scale] = scaler.transform(processed_df[numeric_features_to_scale])
        return processed_df

# Carregando os dados de treino e teste
try:
    train_df = pd.read_csv('train.csv')
    test_df = pd.read_csv('test.csv')

    # Aplicando o pipeline
    # Note que o scaler ajustado no treino é passado para transformar o teste
    train_clean, fitted_scaler = preprocess_titanic(train_df, is_train=True)
    test_clean = preprocess_titanic(test_df, scaler=fitted_scaler, is_train=False)

    print("Dataset de treino limpo:")
    display(train_clean.head())
    print(f"\nFormato do treino limpo: {train_clean.shape}")

    print("\nDataset de teste limpo:")
    display(test_clean.head())
    print(f"\nFormato do teste limpo: {test_clean.shape}")

    # Verificando se há valores nulos restantes
    print("\nValores nulos no treino limpo:", train_clean.isnull().sum().sum())
    print("Valores nulos no teste limpo:", test_clean.isnull().sum().sum())

except FileNotFoundError:
    print("Arquivos 'train.csv' ou 'test.csv' não encontrados. Pule a execução do pipeline.")

## Seção 11: Conclusão - A Jornada Contínua da Qualidade de Dados

### 11.1 Recapitulando o Processo

Ao longo desta aula, navegamos pela jornada essencial de transformar dados brutos e caóticos em um formato limpo, estruturado e pronto para análise. Este processo, longe de ser uma tarefa trivial, é a espinha dorsal de qualquer projeto de ciência de dados bem-sucedido. Recapitulamos as etapas críticas que constituem um pipeline de pré-processamento robusto:

1.  **Profiling Inicial**
2.  **Tratamento de Dados Ausentes**
3.  **Gerenciamento de Duplicatas**
4.  **Detecção e Tratamento de Outliers**
5.  **Limpeza de Texto**
6.  **Engenharia e Transformação de Features**
7.  **Codificação Categórica**
8.  **Escalonamento de Features**

A culminação de todas essas etapas foi a construção de um pipeline de pré-processing encapsulado em uma única função, uma prática que promove a reprodutibilidade, a consistência e a eficiência.

### 11.2 Limpeza de Dados como um Processo Iterativo

É fundamental reconhecer que a limpeza de dados raramente é um processo linear, executado uma única vez. Na prática, é um ciclo iterativo, intimamente entrelaçado com a Análise Exploratória de Dados (EDA) e a modelagem. 

A visualização dos dados limpos pode revelar novos padrões ou problemas que exigem um retorno às etapas de pré-processamento. 

Da mesma forma, os resultados de um modelo inicial podem indicar que certas features não são úteis ou que uma transformação diferente poderia ser mais eficaz.

Portanto, a mentalidade correta não é "limpar e esquecer", mas sim "limpar, analisar, modelar, refinar".

### 11.3 Conclusão

Em conclusão, a preparação de dados é tanto uma arte quanto uma ciência. Ela exige rigor técnico, pensamento crítico e uma compreensão profunda do contexto do problema. 

A habilidade de transformar dados brutos e caóticos em clareza e insight é, sem dúvida, uma das competências mais valiosas de um cientista de dados.