In [None]:
# Importar as bibliotecas necessárias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configurar estilo dos gráficos
sns.set(style="whitegrid")


In [None]:
# Carregar o conjunto de dados
df = pd.read_csv('seu_arquivo.csv')  # Substitua 'seu_arquivo.csv' pelo nome do seu arquivo

# Visualizar as primeiras linhas do DataFrame
df.head()


In [None]:
# Manter uma cópia do DataFrame original para comparação posterior
df_original = df.copy()


In [None]:
# Listar as colunas numéricas que deseja verificar
colunas_numericas = ['coluna1', 'coluna2', 'coluna3']  # Substitua pelos nomes das suas colunas numéricas

# Verificar se as colunas existem no DataFrame
for coluna in colunas_numericas:
    if coluna not in df.columns:
        print(f'A coluna {coluna} não existe no DataFrame.')


In [None]:
# Função para identificar e tratar outliers usando o método IQR
def tratar_outliers(df, coluna):
    # Calcular Q1, Q3 e IQR
    Q1 = df[coluna].quantile(0.25)
    Q3 = df[coluna].quantile(0.75)
    IQR = Q3 - Q1
    limite_inferior = Q1 - 1.5 * IQR
    limite_superior = Q3 + 1.5 * IQR

    # Identificar outliers
    outliers = df[(df[coluna] < limite_inferior) | (df[coluna] > limite_superior)]
    print(f'Número de outliers na coluna "{coluna}": {outliers.shape[0]}')

    # Tratar outliers substituindo pelos limites (Winsorização)
    df[coluna] = np.where(df[coluna] < limite_inferior, limite_inferior, df[coluna])
    df[coluna] = np.where(df[coluna] > limite_superior, limite_superior, df[coluna])

    return df


In [None]:
# Aplicar a função de tratamento de outliers em cada coluna numérica
for coluna in colunas_numericas:
    df = tratar_outliers(df, coluna)

In [None]:
# Visualizar gráficos antes e depois do tratamento para cada coluna
for coluna in colunas_numericas:
    fig, axes = plt.subplots(1, 2, figsize=(12, 5))

    # Boxplot antes do tratamento
    sns.boxplot(ax=axes[0], data=df_original[coluna], color='skyblue')
    axes[0].set_title(f'{coluna} - Antes do Tratamento')

    # Boxplot depois do tratamento
    sns.boxplot(ax=axes[1], data=df[coluna], color='lightblue')
    axes[1].set_title(f'{coluna} - Depois do Tratamento')

    plt.show()


In [None]:
# Visualizar histogramas para verificar a distribuição após o tratamento
for coluna in colunas_numericas:
    plt.figure(figsize=(8, 4))
    sns.histplot(df[coluna], kde=True, color='purple')
    plt.title(f'Distribuição da {coluna} Após o Tratamento')
    plt.xlabel(coluna)
    plt.ylabel('Frequência')
    plt.show()
