# Exercício: Pré-processamento Básico

## Objetivo

Implementar funções básicas de pré-processamento de dados que serão utilizadas em projetos de Machine Learning.

## Instruções

- Complete as funções nas células marcadas com `# TODO`
- Mantenha a assinatura das funções (nome, parâmetros, retorno)
- Use apenas as bibliotecas importadas
- Execute as células de teste para verificar sua implementação


In [1]:
# Importações permitidas
import numpy as np
import pandas as pd

# Configurar seed
np.random.seed(42)

## Exercício 1: Tratamento de Valores Ausentes


In [2]:
def fill_missing_values(data, strategy="mean"):
    """
    Preenche valores ausentes em um DataFrame.

    Parâmetros:
    data (pd.DataFrame): DataFrame com possíveis valores ausentes
    strategy (str): Estratégia para preenchimento ('mean', 'median', 'mode')

    Retorna:
    pd.DataFrame: DataFrame com valores ausentes preenchidos
    """
    # TODO: Implementar preenchimento de valores ausentes
    # Dica: Use data.fillna() com as estratégias apropriadas
    # Para 'mean': data.mean()
    # Para 'median': data.median()
    # Para 'mode': data.mode().iloc[0]

    result = data.copy()

    if strategy == "mean":
        # Preencher com a média (apenas colunas numéricas)
        numeric_cols = result.select_dtypes(include=[np.number]).columns
        result[numeric_cols] = result[numeric_cols].fillna(result[numeric_cols].mean())
    elif strategy == "median":
        # Preencher com a mediana (apenas colunas numéricas)
        numeric_cols = result.select_dtypes(include=[np.number]).columns
        result[numeric_cols] = result[numeric_cols].fillna(
            result[numeric_cols].median()
        )
    elif strategy == "mode":
        # Preencher com a moda (todas as colunas)
        for col in result.columns:
            if result[col].isnull().any():
                mode_value = result[col].mode()
                if len(mode_value) > 0:
                    result[col] = result[col].fillna(mode_value.iloc[0])

    return result

## Exercício 2: Detecção de Outliers


In [3]:
def detect_outliers_iqr(data, column):
    """
    Detecta outliers usando o método IQR (Interquartile Range).

    Parâmetros:
    data (pd.DataFrame): DataFrame com os dados
    column (str): Nome da coluna para detectar outliers

    Retorna:
    pd.Series: Série booleana indicando outliers (True = outlier)
    """
    # TODO: Implementar detecção de outliers usando IQR
    # Dica:
    # Q1 = data[column].quantile(0.25)
    # Q3 = data[column].quantile(0.75)
    # IQR = Q3 - Q1
    # lower_bound = Q1 - 1.5 * IQR
    # upper_bound = Q3 + 1.5 * IQR
    # return (data[column] < lower_bound) | (data[column] > upper_bound)

    Q1 = data[column].quantile(0.25)
    Q3 = data[column].quantile(0.75)
    IQR = Q3 - Q1

    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR

    outliers = (data[column] < lower_bound) | (data[column] > upper_bound)

    return outliers

## Exercício 3: Normalização de Dados


In [4]:
def normalize_data(data, method="min_max"):
    """
    Normaliza os dados numéricos de um DataFrame.

    Parâmetros:
    data (pd.DataFrame): DataFrame com dados numéricos
    method (str): Método de normalização ('min_max' ou 'z_score')

    Retorna:
    pd.DataFrame: DataFrame com dados normalizados
    """
    # TODO: Implementar normalização
    # Para 'min_max': (data - data.min()) / (data.max() - data.min())
    # Para 'z_score': (data - data.mean()) / data.std()

    result = data.copy()
    numeric_cols = result.select_dtypes(include=[np.number]).columns

    if method == "min_max":
        # Min-Max normalization (0-1)
        for col in numeric_cols:
            min_val = result[col].min()
            max_val = result[col].max()
            if max_val != min_val:  # Evitar divisão por zero
                result[col] = (result[col] - min_val) / (max_val - min_val)

    elif method == "z_score":
        # Z-score normalization (média 0, desvio 1)
        for col in numeric_cols:
            mean_val = result[col].mean()
            std_val = result[col].std()
            if std_val != 0:  # Evitar divisão por zero
                result[col] = (result[col] - mean_val) / std_val

    return result

## Exercício 4: Divisão de Dados


In [5]:
def train_test_split_custom(X, y, test_size=0.2, random_state=42):
    """
    Divide os dados em conjuntos de treino e teste.

    Parâmetros:
    X (pd.DataFrame): Features
    y (pd.Series): Target
    test_size (float): Proporção do conjunto de teste
    random_state (int): Seed para reprodutibilidade

    Retorna:
    tuple: (X_train, X_test, y_train, y_test)
    """
    # TODO: Implementar divisão treino/teste
    # Dica: Use np.random.seed() e np.random.permutation() ou np.random.choice()

    np.random.seed(random_state)

    n_samples = len(X)
    n_test = int(n_samples * test_size)

    # Criar índices aleatórios
    indices = np.random.permutation(n_samples)

    # Dividir índices
    test_indices = indices[:n_test]
    train_indices = indices[n_test:]

    # Dividir dados
    X_train = X.iloc[train_indices]
    X_test = X.iloc[test_indices]
    y_train = y.iloc[train_indices]
    y_test = y.iloc[test_indices]

    return X_train, X_test, y_train, y_test

## Testes das Implementações

Execute as células abaixo para testar suas funções:


In [6]:
# Criar dados de teste
test_data = pd.DataFrame(
    {
        "A": [1, 2, np.nan, 4, 5],
        "B": [10, np.nan, 30, 40, 50],
        "C": ["x", "y", np.nan, "x", "y"],
    }
)

print("Dados originais:")
print(test_data)
print("\nApós preenchimento (mean):")
filled_data = fill_missing_values(test_data, "mean")
print(filled_data)

Dados originais:
     A     B    C
0  1.0  10.0    x
1  2.0   NaN    y
2  NaN  30.0  NaN
3  4.0  40.0    x
4  5.0  50.0    y

Após preenchimento (mean):
     A     B    C
0  1.0  10.0    x
1  2.0  32.5    y
2  3.0  30.0  NaN
3  4.0  40.0    x
4  5.0  50.0    y


In [7]:
# Teste de detecção de outliers
outlier_data = pd.DataFrame({"values": [1, 2, 3, 4, 5, 100]})  # 100 é um outlier

outliers = detect_outliers_iqr(outlier_data, "values")
print("Outliers detectados:")
print(outliers)
print("Valores outliers:", outlier_data[outliers]["values"].values)

Outliers detectados:
0    False
1    False
2    False
3    False
4    False
5     True
Name: values, dtype: bool
Valores outliers: [100]


In [8]:
# Teste de normalização
norm_data = pd.DataFrame({"A": [1, 2, 3, 4, 5], "B": [10, 20, 30, 40, 50]})

print("Dados originais:")
print(norm_data)
print("\nNormalização Min-Max:")
norm_minmax = normalize_data(norm_data, "min_max")
print(norm_minmax)
print("\nNormalização Z-Score:")
norm_zscore = normalize_data(norm_data, "z_score")
print(norm_zscore)

Dados originais:
   A   B
0  1  10
1  2  20
2  3  30
3  4  40
4  5  50

Normalização Min-Max:
      A     B
0  0.00  0.00
1  0.25  0.25
2  0.50  0.50
3  0.75  0.75
4  1.00  1.00

Normalização Z-Score:
          A         B
0 -1.264911 -1.264911
1 -0.632456 -0.632456
2  0.000000  0.000000
3  0.632456  0.632456
4  1.264911  1.264911


In [9]:
# Teste de divisão de dados
X_sample = pd.DataFrame({"feature1": range(100), "feature2": range(100, 200)})
y_sample = pd.Series(range(50, 150))

X_train, X_test, y_train, y_test = train_test_split_custom(
    X_sample, y_sample, test_size=0.2, random_state=42
)

print(f"Tamanho total: {len(X_sample)}")
print(f"Tamanho treino: {len(X_train)}")
print(f"Tamanho teste: {len(X_test)}")
print(f"Proporção teste: {len(X_test) / len(X_sample):.2f}")

Tamanho total: 100
Tamanho treino: 80
Tamanho teste: 20
Proporção teste: 0.20
