# Preparação de Dados

A ideia central deste notebook é conseguir aplicar alguns conceitos de pereação de dados vistos em aula.



In [None]:
import numpy as np
import pandas as pd
import matplotlib as plt

## One-Hot Encoding

De forma simplificada, é conseguir compilar dados categóricos em uma representação mais simples, como binário ou inteiro.

In [None]:
# Dados
data = {'Cor': ['Vermelho', 'Azuk', 'Verde', 'Azul', 'Vermelho']}
df = pd.DataFrame(data)

# one-hot encoding
one_hot_encoded_df = pd.get_dummies(df, columns=['Cor'])

print(one_hot_encoded_df)

   Cor_Azuk  Cor_Azul  Cor_Verde  Cor_Vermelho
0     False     False      False          True
1      True     False      False         False
2     False     False       True         False
3     False      True      False         False
4     False     False      False          True


`df_one_hot = pd.get_dummies(df, columns=['Cor']):` Utilizamos a função get_dummies do pandas para realizar o one-hot encoding na coluna Cor. Isso cria novas colunas para cada valor único em Cor ('Vermelho', 'Azul', 'Verde').


## Detecção de Outliers

Detectar outliers é um passo importante na análise de dados, pois eles podem distorcer os resultados de modelos de machine learning. Um método comum para detectar outliers é o uso do IQR (Interquartile Range). Vou mostrar um exemplo de como fazer isso em Python.

In [None]:
# Criando um DataFrame de exemplo
data = {'Valores': [10, 12, 14, 16, 18, 20, 100, 25, 30, 35, 40]}
df = pd.DataFrame(data)

# Calculando o IQR
Q1 = df['Valores'].quantile(0.25)  # Primeiro quartil (25%)
Q3 = df['Valores'].quantile(0.75)  # Terceiro quartil (75%)
IQR = Q3 - Q1  # Intervalo interquartil

# Definindo os limites
limite_inferior = Q1 - 1.5 * IQR
limite_superior = Q3 + 1.5 * IQR

# Detectando outliers
outliers = df[(df['Valores'] < limite_inferior) | (df['Valores'] > limite_superior)]

# Exibindo os outliers
print("Outliers detectados:")
print(outliers)

Outliers detectados:
   Valores
6      100


## Undersampling e Oversampling

Quando lidamos com problemas de classificação em que as classes estão desbalanceadas, técnicas como oversampling (superamostragem) e undersampling (subamostragem) são frequentemente usadas para equilibrar a distribuição das classes. Vou mostrar como implementar ambas as técnicas em Python usando a biblioteca imbalanced-learn.



In [None]:
!pip install -U imbalanced-learn --quiet

In [None]:
from sklearn.datasets import make_classification
from imblearn.over_sampling import RandomOverSampler
from imblearn.under_sampling import RandomUnderSampler
from imblearn.over_sampling import SMOTE

In [None]:
# Gerando um dataset desbalanceado de exemplo
X, y = make_classification(n_samples=1000, n_features=2, n_informative=2, n_redundant=0,
                           n_clusters_per_class=1, weights=[0.9, 0.1], flip_y=0, random_state=1)

# Convertendo para DataFrame para melhor visualização
df = pd.DataFrame(X, columns=['Feature1', 'Feature2'])
df['Classe'] = y

# Exibindo a distribuição original
print("Distribuição Original das Classes:")
print(df['Classe'].value_counts())

# Oversampling (Aumentando a Classe Minoritária)
ros = RandomOverSampler(random_state=1)
X_res, y_res = ros.fit_resample(X, y)

# Convertendo para DataFrame para melhor visualização
df_res = pd.DataFrame(X_res, columns=['Feature1', 'Feature2'])
df_res['Classe'] = y_res

print("\nDistribuição das Classes Após Oversampling:")
print(df_res['Classe'].value_counts())

# Undersampling (Reduzindo a Classe Majoritária)
rus = RandomUnderSampler(random_state=1)
X_res_under, y_res_under = rus.fit_resample(X, y)

# Convertendo para DataFrame para melhor visualização
df_res_under = pd.DataFrame(X_res_under, columns=['Feature1', 'Feature2'])
df_res_under['Classe'] = y_res_under

print("\nDistribuição das Classes Após Undersampling:")
print(df_res_under['Classe'].value_counts())

Distribuição Original das Classes:
Classe
0    900
1    100
Name: count, dtype: int64

Distribuição das Classes Após Oversampling:
Classe
0    900
1    900
Name: count, dtype: int64

Distribuição das Classes Após Undersampling:
Classe
0    100
1    100
Name: count, dtype: int64


### SMOTE

Além de oversampling e undersampling, existem outras técnicas interessantes para lidar com o desbalanceamento de classes. Uma técnica que merece destaque é o SMOTE (Synthetic Minority Over-sampling Technique), que é uma variação do oversampling. Ao invés de simplesmente duplicar exemplos da classe minoritária, o SMOTE gera novos exemplos sintéticos, criando um conjunto de dados mais diversificado.

In [None]:
# Gerando um dataset desbalanceado de exemplo
X, y = make_classification(n_samples=1000, n_features=2, n_informative=2, n_redundant=0,
                           n_clusters_per_class=1, weights=[0.9, 0.1], flip_y=0, random_state=1)

# Convertendo para DataFrame para melhor visualização
df = pd.DataFrame(X, columns=['Feature1', 'Feature2'])
df['Classe'] = y

# Exibindo a distribuição original
print("Distribuição Original das Classes:")
print(df['Classe'].value_counts())

# Aplicando SMOTE
smote = SMOTE(random_state=1)
X_smote, y_smote = smote.fit_resample(X, y)

# Convertendo para DataFrame para melhor visualização
df_smote = pd.DataFrame(X_smote, columns=['Feature1', 'Feature2'])
df_smote['Classe'] = y_smote

print("\nDistribuição das Classes Após SMOTE:")
print(df_smote['Classe'].value_counts())

Distribuição Original das Classes:
Classe
0    900
1    100
Name: count, dtype: int64

Distribuição das Classes Após SMOTE:
Classe
0    900
1    900
Name: count, dtype: int64
