##Aula: Qualidade dos Dados, Limpeza e Pré-processamento**

clenio.silva@uniube.br

A qualidade dos dados é um aspecto fundamental em qualquer processo de análise de dados, aprendizado de máquina ou pesquisa. Dados de baixa qualidade podem levar a análises errôneas, conclusões imprecisas e modelos ineficazes.

A qualidade dos dados pode ser definida através de várias dimensões, como:

* **Precisão:** Dados são corretos e refletem com fidelidade a realidade.

* **Completude:** Dados contêm todas as informações necessárias, sem lacunas.

* **Relevância:** Dados são pertinentes e úteis para os objetivos de análise.

**Limpeza e pré-processamento** são etapas essenciais para garantir a qualidade dos dados antes de realizar qualquer análise ou treinamento de modelos. Durante essas etapas, abordamos problemas como dados faltantes, outliers e a formatação dos dados.

**Valores** faltantes (ou ausentes) são comuns em conjuntos de dados e podem ocorrer por diversos motivos, como erros de coleta ou falhas no processo de preenchimento.

Maneiras de lidar com valores faltantes:

**Remover registros:** Eliminar linhas ou colunas com dados faltantes, especialmente quando a quantidade de dados ausentes é pequena.

* Substituir por valores específicos:

* Substituir por média, mediana ou moda (para variáveis numéricas).

* Substituir por valores padrão ou “não aplicável” para variáveis categóricas.

**Interpolação**: Preencher dados faltantes com base em valores próximos ou tendências observadas nos dados.

In [None]:
#Exemplo de tratamento de valores faltantes com Pandas:

import pandas as pd

# Criando um dataframe de exemplo
data = {'Nome': ['Ana', 'Carlos', 'João', 'Maria'],
        'Idade': [25, None, 30, 22],
        'Salário': [5000, 4500, None, 5200]}

df = pd.DataFrame(data)


In [None]:
#Antes do tratamento de dados faltantes
df

Unnamed: 0,Nome,Idade,Salário
0,Ana,25.0,5000.0
1,Carlos,,4500.0
2,João,30.0,
3,Maria,22.0,5200.0


In [None]:
# Substituindo valores faltantes de "Idade" pela média
df['Idade'].fillna(df['Idade'].mean(), inplace=True)

# Substituindo valores faltantes de "Salário" pela mediana
df['Salário'].fillna(df['Salário'].median(), inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Idade'].fillna(df['Idade'].mean(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Salário'].fillna(df['Salário'].median(), inplace=True)


In [None]:
df

Unnamed: 0,Nome,Idade,Salário
0,Ana,25.0,5000.0
1,Carlos,25.666667,4500.0
2,João,30.0,5000.0
3,Maria,22.0,5200.0


**Tratamento de Outliers**


Outliers (valores discrepantes) são observações que se distanciam significativamente do restante dos dados e podem distorcer os resultados da análise ou do modelo.

Maneiras de remover outilers:

* **Detecção com Z-Score:** Identificar outliers com base no desvio padrão. Geralmente, valores com Z-Score superior a 3 são considerados outliers.

* **Detecção com IQR (Intervalo Interquartílico):** Utilizar o intervalo entre o 1º e 3º quartil para determinar o valor mínimo e máximo aceitável.

* **Remover ou corrigir:** Após identificar os outliers, é possível removê-los ou ajustá-los com base em critérios estabelecidos.

In [None]:
#Exemplo de detecção e remoção de outliers com Z-Score:

import numpy as np
from scipy import stats

# Exemplo de dados
data = [12, 15, 14, 10, 100, 13, 14, 13, 12, 14, 10, -100]

# Calculando o Z-Score
z_scores = np.abs(stats.zscore(data))

# Definindo o limiar de Z-Score
limiar = 2

# Filtrando outliers
filtered_data = [data[i] for i in range(len(data)) if z_scores[i] < limiar]

print(filtered_data)


[12, 15, 14, 10, 13, 14, 13, 12, 14, 10]
