# Aula 03: Limpeza e Preparação de Dados

**Objetivo:** Ensinar técnicas fundamentais para preparar dados para análise e modelagem.

Nesta aula, exploraremos as etapas cruciais de limpeza e preparação de dados, que são essenciais para garantir a qualidade e a usabilidade dos dados em qualquer projeto de ciência de dados.

---

### Célula 1: Importação das Bibliotecas Necessárias
Primeiro, vamos importar as bibliotecas que usaremos, principalmente o `pandas` para manipulação de dados.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configurações para melhor visualização
pd.set_option('display.max_columns', None)
pd.set_option('display.width', 1000)

### Célula 2: Carregamento do Dataset
Para o nosso projeto prático, vamos simular o carregamento de um dataset sobre empregos e salários.
Em um cenário real, você carregaria seu próprio arquivo (e.g., CSV, Excel, JSON).

Para fins de demonstração, criaremos um DataFrame de exemplo.

In [None]:
# Criando um DataFrame de exemplo para simular um dataset de empregos e salários
data = {
    'ID': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12],
    'Cargo': ['Cientista de Dados', 'Engenheiro de Software', 'Analista de Dados', 'Cientista de Dados', 'Gerente de Projeto', 'Analista de BI', 'Engenheiro de ML', 'Cientista de Dados', 'Desenvolvedor Web', 'Analista de Dados', 'Engenheiro de Dados', 'Cientista de Dados'],
    'Experiencia_Anos': [3, 5, 2, np.nan, 8, 4, 6, 3, 1, 2, 7, np.nan],
    'Salario_Anual_USD': [85000, 120000, 60000, 90000, 150000, 70000, 130000, 92000, 55000, 63000, 140000, 95000],
    'Localizacao': ['São Paulo', 'Remoto', 'Rio de Janeiro', 'Belo Horizonte', 'São Paulo', 'Remoto', 'São Paulo', 'Rio de Janeiro', 'Curitiba', 'São Paulo', 'Remoto', 'Belo Horizonte'],
    'Educacao': ['Mestrado', 'Graduação', 'Graduação', 'Mestrado', 'Pós-Graduação', 'Graduação', 'Mestrado', 'Doutorado', 'Graduação', 'Graduação', 'Mestrado', 'Graduação'],
    'Data_Contratacao': ['2022-01-15', '2020-05-20', '2023-03-10', '2021-11-01', '2018-07-25', '2021-09-12', '2019-02-01', '2022-06-30', '2024-01-05', '2023-08-18', '2019-10-10', '2022-04-22'],
    'Avaliacao_Desempenho': [4.5, 4.8, 3.9, 4.2, 4.9, 4.1, 4.7, 4.3, 3.7, 4.0, 4.6, 4.4],
    'Empresa_Tamanho': ['Grande', 'Média', 'Pequena', 'Grande', 'Grande', 'Média', 'Grande', 'Pequena', 'Média', 'Grande', 'Grande', 'Média'],
    'Bonus_Percentual': [0.10, 0.15, 0.05, 0.12, 0.20, 0.08, 0.18, 0.10, 0.03, 0.06, 0.17, 0.11]
}
df = pd.DataFrame(data)

print("DataFrame Original:")
print(df.head())
print("\nInformações do DataFrame Original:")
df.info()
print("\nEstatísticas Descritivas do DataFrame Original:")
print(df.describe(include='all'))

### Célula 3: Tratamento de Valores Ausentes (`dropna()`, `fillna()`)

Valores ausentes (NaN, None, NaT) são comuns em datasets e podem impactar negativamente a análise.
Existem duas abordagens principais para lidar com eles:

* **Remoção (`dropna()`):** Remover linhas ou colunas que contêm valores ausentes.
* **Preenchimento (`fillna()`):** Preencher os valores ausentes com um valor específico (média, mediana, moda, um valor constante, etc.).

#### 3.1 Identificando Valores Ausentes

In [None]:
print("\nValores Ausentes por Coluna antes do tratamento:")
print(df.isnull().sum())

#### 3.2 Removendo Linhas com Valores Ausentes (`dropna()`)
Se a quantidade de valores ausentes for pequena e não comprometer a análise, podemos simplesmente remover as linhas.

In [None]:
df_dropped = df.dropna()
print("\nDataFrame após remover linhas com valores ausentes:")
print(df_dropped.head())
print("\nValores Ausentes após dropna():")
print(df_dropped.isnull().sum())

#### 3.3 Preenchendo Valores Ausentes (`fillna()`)
Preencher valores ausentes é geralmente preferível à remoção, pois preserva mais dados.
A estratégia de preenchimento depende do tipo de dado e do contexto.

* **Para colunas numéricas:** Média, mediana, ou um valor constante.
* **Para colunas categóricas:** Moda ou uma categoria 'Desconhecido'.

In [None]:
# Criando uma cópia para não alterar o DataFrame original para as próximas demonstrações
df_filled = df.copy()

# Preenchendo 'Experiencia_Anos' (numérico) com a mediana
median_experiencia = df_filled['Experiencia_Anos'].median()
df_filled['Experiencia_Anos'].fillna(median_experiencia, inplace=True)

# Exemplo de preenchimento com um valor constante para uma coluna hipotética
# df_filled['Outra_Coluna_Numerica'].fillna(0, inplace=True)

# Para colunas categóricas, podemos preencher com a moda (valor mais frequente)
# ou com uma string 'Desconhecido'
# Por exemplo, se tivéssemos valores ausentes em 'Educacao':
# mode_educacao = df_filled['Educacao'].mode()[0]
# df_filled['Educacao'].fillna(mode_educacao, inplace=True)

print("\nDataFrame após preencher 'Experiencia_Anos' com a mediana:")
print(df_filled.head())
print("\nValores Ausentes após fillna():")
print(df_filled.isnull().sum())

### Célula 4: Correção de Tipos de Dados e Normalização

Garantir que as colunas tenham o tipo de dado correto é fundamental para operações e análises.
Normalização e padronização são técnicas usadas para escalar dados numéricos.

#### 4.1 Correção de Tipos de Dados

In [None]:
print("\nTipos de Dados Atuais:")
print(df.dtypes)

# Convertendo 'Data_Contratacao' para o tipo datetime
df['Data_Contratacao'] = pd.to_datetime(df['Data_Contratacao'])

# Podemos também converter colunas categóricas para o tipo 'category' para otimização de memória
df['Cargo'] = df['Cargo'].astype('category')
df['Localizacao'] = df['Localizacao'].astype('category')
df['Educacao'] = df['Educacao'].astype('category')
df['Empresa_Tamanho'] = df['Empresa_Tamanho'].astype('category')

print("\nTipos de Dados Após Correção:")
print(df.dtypes)

#### 4.2 Normalização (Min-Max Scaling)
Normalização escala os valores numéricos para um intervalo específico, geralmente entre 0 e 1.
Isso é útil para algoritmos que são sensíveis à escala das features (e.g., K-Means, SVMs).

Fórmula: $X_{normalized} = (X - X_{min}) / (X_{max} - X_{min})$

In [None]:
# Normalizando 'Salario_Anual_USD' e 'Experiencia_Anos' (após preencher NaNs)
# Usaremos o df_filled para esta etapa, pois já tratamos os NaNs
df_normalized = df_filled.copy()

# Normalizando 'Salario_Anual_USD'
min_salario = df_normalized['Salario_Anual_USD'].min()
max_salario = df_normalized['Salario_Anual_USD'].max()
df_normalized['Salario_Anual_USD_Normalized'] = (df_normalized['Salario_Anual_USD'] - min_salario) / (max_salario - min_salario)

# Normalizando 'Experiencia_Anos'
min_experiencia = df_normalized['Experiencia_Anos'].min()
max_experiencia = df_normalized['Experiencia_Anos'].max()
df_normalized['Experiencia_Anos_Normalized'] = (df_normalized['Experiencia_Anos'] - min_experiencia) / (max_experiencia - min_experiencia)

print("\nDataFrame após Normalização (Min-Max Scaling):")
print(df_normalized[['Salario_Anual_USD', 'Salario_Anual_USD_Normalized', 'Experiencia_Anos', 'Experiencia_Anos_Normalized']].head())

#### 4.3 Padronização (Standardization - Z-score normalization)
Padronização escala os valores para que tenham média 0 e desvio padrão 1.
Fórmula: $X_{standardized} = (X - \mu) / \sigma$

In [None]:
# Padronizando 'Salario_Anual_USD' e 'Experiencia_Anos'
df_standardized = df_filled.copy()

# Padronizando 'Salario_Anual_USD'
mean_salario = df_standardized['Salario_Anual_USD'].mean()
std_salario = df_standardized['Salario_Anual_USD'].std()
df_standardized['Salario_Anual_USD_Standardized'] = (df_standardized['Salario_Anual_USD'] - mean_salario) / std_salario

# Padronizando 'Experiencia_Anos'
mean_experiencia = df_standardized['Experiencia_Anos'].mean()
std_experiencia = df_standardized['Experiencia_Anos'].std()
df_standardized['Experiencia_Anos_Standardized'] = (df_standardized['Experiencia_Anos'] - mean_experiencia) / std_experiencia

print("\nDataFrame após Padronização (Standardization):")
print(df_standardized[['Salario_Anual_USD', 'Salario_Anual_USD_Standardized', 'Experiencia_Anos', 'Experiencia_Anos_Standardized']].head())

### Célula 5: Manipulação de DataFrames: Filtragem, Ordenação, Criação de Novas Colunas

O `pandas` oferece ferramentas poderosas para manipular DataFrames.

#### 5.1 Filtragem de Dados
Podemos selecionar subconjuntos de dados com base em condições.

In [None]:
# Filtrando por 'Cargo'
df_cientista_dados = df[df['Cargo'] == 'Cientista de Dados']
print("\nDataFrame filtrado por 'Cientista de Dados':")
print(df_cientista_dados)

# Filtrando por múltiplas condições (Salário > 100000 E Localização = 'São Paulo')
df_sp_altosalario = df[(df['Salario_Anual_USD'] > 100000) & (df['Localizacao'] == 'São Paulo')]
print("\nDataFrame filtrado por Salário > 100000 e Localização 'São Paulo':")
print(df_sp_altosalario)

#### 5.2 Ordenação de Dados (`sort_values()`)
Podemos ordenar o DataFrame por uma ou mais colunas.

In [None]:
# Ordenando por 'Salario_Anual_USD' em ordem decrescente
df_ordenado_salario = df.sort_values(by='Salario_Anual_USD', ascending=False)
print("\nDataFrame ordenado por Salário (Decrescente):")
print(df_ordenado_salario.head())

# Ordenando por 'Cargo' (ascendente) e depois por 'Experiencia_Anos' (decrescente)
df_ordenado_multi = df.sort_values(by=['Cargo', 'Experiencia_Anos'], ascending=[True, False])
print("\nDataFrame ordenado por Cargo e Experiência:")
print(df_ordenado_multi.head())

#### 5.3 Criação de Novas Colunas
Podemos criar novas colunas a partir de colunas existentes ou de lógica de negócio.

In [None]:
# Criando uma coluna 'Salario_Mensal'
df['Salario_Mensal_USD'] = df['Salario_Anual_USD'] / 12
print("\nDataFrame com nova coluna 'Salario_Mensal_USD':")
print(df[['Salario_Anual_USD', 'Salario_Mensal_USD']].head())

# Criando uma coluna 'Tempo_Empresa_Anos' a partir de 'Data_Contratacao'
# Assumindo a data atual como 2025-06-28
data_atual = pd.to_datetime('2025-06-28')
df['Tempo_Empresa_Anos'] = (data_atual - df['Data_Contratacao']).dt.days / 365.25
print("\nDataFrame com nova coluna 'Tempo_Empresa_Anos':")
print(df[['Data_Contratacao', 'Tempo_Empresa_Anos']].head())

# Criando uma coluna 'Salario_Categoria' baseada em faixas de salário
def categorizar_salario(salario):
    if salario < 70000:
        return 'Baixo'
    elif 70000 <= salario < 120000:
        return 'Médio'
    else:
        return 'Alto'

df['Salario_Categoria'] = df['Salario_Anual_USD'].apply(categorizar_salario)
print("\nDataFrame com nova coluna 'Salario_Categoria':")
print(df[['Salario_Anual_USD', 'Salario_Categoria']].head())

### Célula 6: Projeto Prático: Preparação de um Dataset sobre Empregos e Salários

Vamos aplicar todas as técnicas aprendidas para preparar nosso dataset de exemplo para uma análise posterior.

**Passo a passo:**

1.  **Carregar o dataset** (já fizemos isso, mas vamos usar uma cópia limpa para o projeto).
2.  **Inspecionar o dataset:** `info()`, `isnull().sum()`, `describe()`.
3.  **Tratar valores ausentes:** Preencher `Experiencia_Anos` com a mediana.
4.  **Corrigir tipos de dados:** Converter `Data_Contratacao` para datetime e categóricas para 'category'.
5.  **Criar novas colunas:**
    * `Salario_Total_Com_Bonus`: `Salario_Anual_USD * (1 + Bonus_Percentual)`
    * `Decada_Contratacao`: Extrair a década da `Data_Contratacao`.
6.  **Normalizar/Padronizar:** Padronizar `Salario_Total_Com_Bonus` e `Experiencia_Anos`.
7.  **Remover colunas desnecessárias** (opcional, para este exemplo, manteremos todas).

### Célula 7: Conclusão

Nesta aula, você aprendeu técnicas essenciais para limpeza e preparação de dados, incluindo:
* Identificação e tratamento de valores ausentes usando `dropna()` e `fillna()`.
* Correção de tipos de dados e aplicação de normalização/padronização.
* Manipulação de DataFrames através de filtragem, ordenação e criação de novas colunas.

A preparação de dados é uma etapa iterativa e crucial que impacta diretamente a qualidade e a confiabilidade de suas análises e modelos de machine learning. Com essas habilidades, você está mais preparado para trabalhar com dados do mundo real.