# Conhecimentos

Tratamento de Ruídos em Dados
 - Limpeza Inicial
 - Tratamento de Outliers
 - Tratamento com Valores Ausentes

# Capacidades

Técnicas

- Identificar ruidos na coleta de dados para realização de analise exploratoria

- Realizar seleção de recursos visando a consistência dos dados

- Identificar as lacunas nos conjuntos de dados para otimização do processamento dos dados

Socioemocionais
- Aprendizagem ativa e estratégias de aprendizagem
- Ética
- Resolução de problemas complexos


# Limpeza Inicial

A limpeza inicial é o primeiro passo no pré-processamento de dados. Ela envolve a remoção ou correção de inconsistências, valores duplicados e caracteres indesejados, garantindo que os dados estejam em um formato utilizável.

Etapas principais:

- Remoção de espaços extras e caracteres especiais

- Padronização de formatos

- Exclusão de registros duplicados

- Conversão de tipos de dados

Exemplo 1: Padronização de Formatos e Remoção de Duplicatas

In [None]:
import pandas as pd

# Criando um conjunto de dados com inconsistências
dados = {'Nome': ['Ana', 'Bruno ', 'Carlos', 'ANA', 'bruno'],
         'Idade': ['25', '30 anos', '29', '25', '30'],
         'Salario': ['3000', '4000R$', '5000', '3000', '4000R$']}
df = pd.DataFrame(dados)
print('XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX')
print('XXX  Dados com Inconsistencias  XXX')
print('XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX')
print(df)
print('XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX \n')

# Removendo espaços extras e padronizando letras maiúsculas/minúsculas
df['Nome'] = df['Nome'].str.strip().str.capitalize()
print('XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX')
print('XXX Padronizando fonte e espaço XXX')
print('XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX')
print(df)
print('XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX \n')

# Removendo caracteres não numéricos e convertendo para inteiro
df['Idade'] = df['Idade'].str.extract('(\d+)').astype(int)
df['Salario'] = df['Salario'].str.extract('(\d+)').astype(int)

print('XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX')
print('XXX  Convertendo e limpando     XXX')
print('XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX')
print(df)
print('XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX \n')

# Removendo duplicatas
df = df.drop_duplicates()
print('XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX')
print('XXX     Removendo duplicatas    XXX')
print('XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX')
print(df)
print('XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX \n')

Exemplo 2: Removendo Caracteres Especiais e Normalizando Textos

In [None]:
# Criando um conjunto de dados com caracteres indesejados
dados = {'Produto': ['TV 4K!!!', 'Smartphone*', 'Notebook@', 'Tablet##'],
         'Preço': ['R$2000', 'R$1500', 'R$3500', 'R$1200']}
df = pd.DataFrame(dados)

# Removendo caracteres especiais
df['Produto'] = df['Produto'].str.replace(r'[^a-zA-Z0-9 ]', '', regex=True)
df['Preço'] = df['Preço'].str.extract('(\d+)').astype(int)

print(df)

# Tratamento de Outliers

Outliers são valores que se diferenciam significativamente da maioria dos dados. Eles podem ser causados por erros de entrada, medições incorretas ou variáveis externas inesperadas.

Métodos de Tratamento:

- Remoção de outliers com base em limites estatísticos

- Substituição por média ou mediana

- Transformações matemáticas

Exemplo 1: Removendo Outliers Usando IQR

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# Criando um conjunto de dados com outliers
dados = np.array([10, 12, 11, 10, 100, 9, 8, 10, 105, 12])

# Calculando os quartis
Q1 = np.percentile(dados, 25)
Q3 = np.percentile(dados, 75)
IQR = Q3 - Q1

# Definindo limites para detecção de outliers
limite_inferior = Q1 - 1.5 * IQR
limite_superior = Q3 + 1.5 * IQR

# Filtrando os valores dentro dos limites
dados_filtrados = dados[(dados >= limite_inferior) & (dados <= limite_superior)]

print("Dados sem outliers:", dados_filtrados)

# Visualizando com boxplot
plt.boxplot(dados)
plt.title("Boxplot dos Dados")
plt.show()

Exemplo 2: Substituindo Outliers por Mediana

In [None]:
import numpy as np
import pandas as pd

# Criando um conjunto de dados fictício
dados = {'Idade': [22, 25, 26, 23, 30, 28, 120, 24, 22, 200]}
df = pd.DataFrame(dados)

# Calculando os quartis e o IQR
Q1 = df['Idade'].quantile(0.25)
Q3 = df['Idade'].quantile(0.75)
IQR = Q3 - Q1

# Definindo limites para detecção de outliers
limite_inferior = Q1 - 1.5 * IQR
limite_superior = Q3 + 1.5 * IQR

# Identificando outliers
outliers = (df['Idade'] < limite_inferior) | (df['Idade'] > limite_superior)

# Substituindo outliers pela mediana
mediana = df['Idade'].median()
df.loc[outliers, 'Idade'] = mediana

print(df)


# Tratamento com Valores Ausentes

Valores ausentes podem ocorrer devido a falhas na coleta de dados, erros de registro ou simplesmente falta de resposta. O tratamento adequado evita vieses nas análises.

Métodos de Tratamento:

- Remoção de valores ausentes

- Substituição por estatísticas (média, mediana, moda)

- Preenchimento baseado em regressão

Exemplo 1: Preenchendo Valores Ausentes em Notas de Alunos

In [1]:
import numpy as np
import pandas as pd

# Criando um DataFrame com valores ausentes
dados = {'Produto': ['Arroz', 'Feijão', 'Macarrão', 'Óleo', 'Açúcar'],
         'Preço': [5.50, np.nan, 3.80, np.nan, 4.20]}
df = pd.DataFrame(dados)

print("Dados originais com valores ausentes:")
print(df)

# Preenchendo valores ausentes com a média dos preços (sem inplace=True)
df['Preço'] = df['Preço'].fillna(df['Preço'].mean())

print("\nDados após preenchimento dos valores ausentes:")
print(df)


Dados originais com valores ausentes:
    Produto  Preço
0     Arroz    5.5
1    Feijão    NaN
2  Macarrão    3.8
3      Óleo    NaN
4    Açúcar    4.2

Dados após preenchimento dos valores ausentes:
    Produto  Preço
0     Arroz    5.5
1    Feijão    4.5
2  Macarrão    3.8
3      Óleo    4.5
4    Açúcar    4.2


Exemplo 2: Removendo Registros com Valores Ausentes

In [None]:
# Criando um DataFrame com valores ausentes
dados = {'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Salvador', None],
         'População': [12_330_000, 6_700_000, 2_500_000, np.nan, 1_400_000]}
df = pd.DataFrame(dados)

# Removendo registros com valores ausentes
df.dropna(inplace=True)
print(df)