# Tratar Outliers

Na aula anterior, você compreendeu como limpar dados usando Python. Nesta aula, você vai:
- explicar os métodos de identificação de outliers, incluindo Filtro Básico, Z-score e IQR.

- implementar a identificação e remoção de outliers em um DataFrame utilizando os métodos aprendidos.

- avaliar a influência dos outliers nos dados e decidir sobre a melhor abordagem para tratá-los, seja removendo-os ou corrigindo-os.

In [1]:
# Importanto bibliotecas necessarias 
import pandas as pd
from scipy import stats

In [None]:
# Delimitando visialização no teminal, ou seja, a largura da visualização dos dados no terminal
pd.set_option('display.width', None)

# criando dataframe com os dados do cliente limpos da ultima aula
df = pd.read_csv(r"C:\Users\rodri\dev\ciencia_de_dados_v2\assets\clientes.csv")

# criando um filtro basico de idade, para pessoas cadastradaS com mais de 100 anos
df_filtro_basico = df[df['idade'] > 100]

# visualizando os dados de pessoas cadastradas com mais de 100 anos
print(f'Filtro basico \n {df_filtro_basico[['nome', 'idade']]}')

### Identificando outliers com Z-score
https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.zscore.html#zscore

In [None]:
# identificando dados com z-score
# Calcula o z score de cada valor na amostra, em relação à média da amostra e ao desvio padrão.
# 
z_scores = stats.zscore(df['idade'].dropna())

# cria uma variavel com z_score com desvio padrão >= 3
outliers_z = df[z_scores >=3]

#mostrar dados 
print(f'Outliers pelo Z-score \n{outliers_z}')

### filtrando outliers com Z-score

In [None]:
#filtrando outliers com Z-score
df_zscore = df[(stats.zscore(df['idade']) < 3 )]

### Identificando outliers com IQR(Intervalo Interquartil)

- O IQR (Intervalo Interquartil) é uma medida estatística que calcula a distância entre o primeiro e o terceiro quartil de um conjunto de dados. 
- É um estimador aparado, que elimina pontos periféricos de menor contribuição. 
- É uma medida robusta de escala. 
- É útil para identificar outliers. 
- É útil para construir box plots, que são representações gráficas de uma distribuição de probabilidade. 
- É útil para datasets com distribuições enviesadas. 
- É menos influenciado por valores extremos. 

In [None]:
#identificando outliers com IQR

Q1 = df['idade'].quantile(0.25)
Q3 = df['idade'].quantile(0.75)

IQR = Q3 - Q1

limite_baixo = Q3 - 1.5 * IQR
limite_alto = Q1 + 1.5 * IQR

print(f'Limite de IQR: {limite_baixo, limite_alto}')

# Retornando os valores que estão entre os limites
outliers_iqr = df[(df['idade'] < limite_baixo) or (df['idade'] > limite_alto)]

print(f"Outliers pelo IQR: \n {outliers_iqr}")

In [None]:
# filtrando dados com IQR
df_iqr = df[(df['idade'] >= limite_baixo) and (df['idade'] <= limite_alto)]

In [None]:
# Filtrar endereços inválidos
df['endereco'] = df['endereco'].apply(lambda x: 'Endereço inválido' if len(x.split('\n')) < 3 else x)

In [None]:
# Tratar campos de texto
df['nome'] = df['nome'].apply(lambda x: 'Nome inválido' if isinstance(x, str) and len(x) > 50 else x)
print('Qtd registros com nomes grandes:', (df['nome'] == 'Nome inválido').sum())

print('\nDados com Outliers tratados:\n', df)

In [None]:
#Salvar dataframe
df.to_csv('assets/clientes_remove_outliers.csv', index=False)