<a href="https://colab.research.google.com/github/Rivianee/data-science/blob/master/OUTLIERS.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Tratamento de Outliers em Análise de Dados**

Descrição

Este repositório contém uma implementação em Python de técnicas avançadas para o tratamento de outliers em análise de dados. Os outliers são valores extremos que se desviam significativamente do padrão geral dos dados. Eles podem ser causados por erros de medição, anomalias ou eventos raros, e podem distorcer as análises estatísticas e os modelos preditivos. O objetivo deste projeto é fornecer um conjunto abrangente de métodos robustos e eficientes para identificar, analisar e tratar outliers, melhorando a qualidade das análises e dos insights obtidos a partir dos dados.

# **Funcionalidades**
# 1. Detecção de Outliers

Z-score:

Implementação do método Z-score para calcular o desvio de cada ponto de dados em relação à média e ao desvio padrão.
Valores com Z-score acima de um limite especificado são considerados outliers.


Intervalo Interquartil (IQR):

Cálculo do IQR, que é a diferença entre o terceiro quartil (75%) e o primeiro quartil (25%).
Valores abaixo do primeiro quartil subtraídos de um múltiplo do IQR ou acima do terceiro quartil adicionados a um múltiplo do IQR são considerados outliers.


In [None]:
# Exemplo de detecção de outliers usando Z-score
from outlier_detection import z_score

data = [10, 12, 15, 1000, 9, 11, 13, 2000]
outliers_zscore = z_score(data, threshold=2)
print("Outliers detectados usando Z-score:", outliers_zscore)  # [1000, 2000]

# Exemplo de detecção de outliers usando Intervalo Interquartil (IQR)
from outlier_detection import iqr

data = [10, 12, 15, 1000, 9, 11, 13, 2000]
outliers_iqr = iqr(data, multiplier=1.5)
print("Outliers detectados usando IQR:", outliers_iqr)  # [1000, 2000]

# **2. Tratamento de Outliers**
# Remoção:

Remoção dos outliers identificados dos dados.
Opção para especificar seletivamente quais outliers remover com base em critérios específicos.



In [None]:
# Exemplo de remoção de outliers
from outlier_treatment import remove_outliers

data = [10, 12, 15, 1000, 9, 11, 13, 2000]
filtered_data = remove_outliers(data, method="zscore", threshold=2)
print("Dados após remoção de outliers:", filtered_data)  # [10, 12, 15, 9, 11, 13]


# Substituição:

Substituição dos outliers por valores imputados, como a média, mediana ou um valor estatístico mais apropriado.
Opção para escolher o método de substituição adequado de acordo com o contexto dos dados.



In [None]:
# Exemplo de substituição de outliers pela mediana
from outlier_treatment import replace_outliers_with_median

data = [10, 12, 15, 1000, 9, 11, 13, 2000]
filtered_data = replace_outliers_with_median(data, method="zscore", threshold=2)
print("Dados após substituição de outliers pela mediana:", filtered_data)  # [10, 12, 15, 11, 9, 11, 13, 12]

# Transformação:

Aplicação de transformações nos dados para reduzir o impacto dos outliers.
Transformações comuns incluem a transformação logarítmica, raiz quadrada, Box-Cox e outras.

Nesse exemplo, a função log_transform é usada para aplicar uma transformação logarítmica aos dados, reduzindo o impacto dos outliers e tornando a distribuição dos dados mais equilibrada.



In [None]:
# Exemplo de transformação logarítmica para tratar outliers
from outlier_treatment import log_transform

data = [10, 12, 15, 1000, 9, 11, 13, 2000]
transformed_data = log_transform(data)
print("Dados após transformação logarítmica:", transformed_data)

# Winsorization:

Substituição dos outliers pelos valores extremos dentro de um intervalo aceitável.
Limites superiores e inferiores são definidos para restringir os valores substituídos. Nesse exemplo, a função winsorize da biblioteca SciPy é usada para aplicar a técnica de Winsorization aos dados. Os limites [0.05, 0.05] especificam que os 5% menores e os 5% maiores valores serão substituídos pelos valores extremos dentro do intervalo aceitável. Dessa forma, os outliers são substituídos pelos valores mais próximos, mantendo a forma geral dos dados.

In [None]:
# Exemplo de Winsorization para tratar outliers
from scipy.stats.mstats import winsorize

data = [10, 12, 15, 1000, 9, 11, 13, 2000]
winsorized_data = winsorize(data, limits=[0.05, 0.05])
print("Dados após Winsorization:", winsorized_data)

# **3. Modelos Robustos**

Utilização de modelos estatísticos e algoritmos de aprendizado de máquina robustos para lidar com outliers.
Exemplos incluem regressão robusta, clusterização com medoides, estimadores robustos, entre outros.