# Limpeza Inicial

A limpeza inicial é o primeiro passo no pré-processamento de dados. Ela envolve a remoção ou correção de inconsistências, valores duplicados e caracteres indesejados, garantindo que os dados estejam em um formato utilizável.

Etapas principais:

- Remoção de espaços extras e caracteres especiais

- Padronização de formatos

- Exclusão de registros duplicados

- Conversão de tipos de dados

Exemplo 1: Padronização de Formatos e Remoção de Duplicatas

In [None]:
import pandas as pd # Importando biblioteca pandas

# Criando um conjunto de dados com inconsistências.

dados = { 
    'Nome': ['Ana', 'Bruno', 'Carlos', 'ANA', 'bruno'],
    'Idade': ['25', '30 anos', '29', '25', '30'],
    'Salario': ['3000', '4000R$', '5000', '3000', '4000R$']
}

df = pd.DataFrame(dados) # Criando um DataFrame a partir do dicionário
print('-----------------------------------')
print('---- Dados com inconsistencias ----')
print('-----------------------------------')
print(df)
print('----------------------------------- \n')

# Removendo espaços extras e padronizando letras maiusculas/minusculas.
df['Nome'] = df['Nome'].str.strip().str.capitalize() 
print('-----------------------------------')
print('----------- Padronizando ----------')

print('-----------------------------------')
print(df)
print('----------------------------------- \n')

# Removendo caracteres não numericos e convertendo para interiro
df['Idade'] = df['Idade'].str.extract('(\d+)').astype(int)
df['Salario'] = df['Salario'].str.extract('(\d+)').astype(int)
print('-----------------------------------')
print('----------- Convertendo -----------')
print('-----------------------------------')
print(df)
print('----------------------------------- \n')

# Removendo duplicatas
df = df.drop_duplicates()
print('-----------------------------------')
print('------- Removendo Duplicatas ------')
print('-----------------------------------')
print(df)
print('----------------------------------- \n')


Exemplo 2: Removendo Caracteres Especiais e Normalizando Textos

In [None]:
# Criar um conjunto de dados com caracteres indesejados
dados = {
    'Produto': ['TV 4K!!!', 'Smartphone*', 'Notebook@', 'Tablet##'], 
    'Preco': ['R$2000', 'R$1500', 'R$3500', 'R$1200' ]
}

df = pd.DataFrame(dados) # Criando um DataFrame a partir do dicionário
print(df, '\n')

df['Produto'] = df['Produto'].str.replace(r'[^a-zA-Z0-9 ]', '', regex=True) # Substituindo caracteres indesejados por espaço
df['Preco'] = df['Preco'].str.extract('(\d+)').astype(int) # Substituindo caracteres indesejados por espaço e convertendo para inteiro
print(df)

# Tratamento de Outliers

Outliers são valores que se diferenciam significativamente da maioria dos dados. Eles podem ser causados por erros de entrada, medições incorretas ou variáveis externas inesperadas.

Métodos de Tratamento:
q
- Remoção de outliers com base em limites estatísticos

- Substituição por média ou mediana

- Transformações matemáticas

Exemplo 1: Removendo Outliers Usando IQR

In [None]:
import numpy as np # Importando biblioteca numpy
import matplotlib.pyplot as plt # Importando biblioteca matplotlib

dados = np.array([10, 12, 11, 10, 100, 9, 8, 10, 105, 12]) # Criando um array de dados

Q1 = np.percentile(dados, 25) # Calculando o primeiro quartil (Q1)
Q3 = np.percentile(dados, 75) # Calculando o terceiro quartil (Q3)
IQR = Q3 - Q1 # Calculando o intervalo interquartil (IQR)
limite_inferior = Q1 - 1.5 * IQR # Calculando o limite inferior para outliers
limite_superior = Q3 + 1.5 * IQR # Calculando o limite superior para outliers

dados_filtrados = dados[(dados >= limite_inferior) & (dados <= limite_superior)] # Filtrando os dados
print('Dados com outliers:', dados) # Imprimindo os dados com outliers
print('Dados sem outliers:', dados_filtrados) # Imprimindo os dados sem outliers

plt.boxplot(dados) # Plotando o boxplot dos dados
plt.show() # Mostrando o boxplot dos dados sem outliers

plt.boxplot(dados_filtrados) # Plotando o boxplot dos dados sem outliers
plt.show() # Mostrando o boxplot dos dados sem outliers

# Tratamento com Valores Ausentes

Valores ausentes podem ocorrer devido a falhas na coleta de dados, erros de registro ou simplesmente falta de resposta. O tratamento adequado evita vieses nas análises.

Métodos de Tratamento:

- Remoção de valores ausentes

- Substituição por estatísticas (média, mediana, moda)

- Preenchimento baseado em regressão

In [None]:
import pandas as pd # Importando biblioteca pandas
import numpy as np # Importando biblioteca numpy

dados = { 'Idade': [22, 25, 26, 23, 30, 28, 120, 24, 22, 200]}

df = pd.DataFrame(dados) # Criando um DataFrame a partir do dicionário

Q1 = df['Idade'].quantile(0.25) # Calculando o primeiro quartil (Q1)

Q3 = df['Idade'].quantile(0.75) # Calculando o terceiro quartil (Q3)

IQR = Q3 - Q1 # Calculando o intervalo interquartil (IQR)

limite_inferior = Q1 - 1.5 * IQR # Calculando o limite inferior para outliers

limite_superior = Q3 + 1.5 * IQR # Calculando o limite superior para outliers

outliers = df[(df['Idade'] < limite_inferior) | (df['Idade'] > limite_superior)] # Identificando os outliers

mediana = df['Idade'].median() # Calculando a mediana

df.loc[outliers.index, 'Idade'] = mediana # Substituindo os outliers pela mediana

print(df) # Imprimindo o DataFrame com os dados corrigidos

Exemplo 1: Preenchendo Valores Ausentes em Notas de Alunos

In [None]:
import numpy as np # Importando biblioteca numpy
import pandas as pd # Importando biblioteca pandas

# Criando um DataFrame com valores ausentes
dados = {'Produto': ['Arroz', 'Feijão', 'Macarrão', 'Óleo', 'Açúcar'],
         'Preço': [5.50, np.nan, 3.80, np.nan, 4.20]}
df = pd.DataFrame(dados)

print("Dados originais com valores ausentes:")
print(df)

# Preenchendo valores ausentes com a média dos preços (sem inplace=True)
df['Preço'] = df['Preço'].fillna(df['Preço'].mean())

print("\nDados após preenchimento dos valores ausentes:")
print(df)

Exemplo 2: Removendo Registros com Valores Ausentes

In [None]:

# Criando um DataFrame com valores ausentes
dados = {'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Salvador', None],
         'População': [12_330_000, 6_700_000, 2_500_000, np.nan, 1_400_000]}
df = pd.DataFrame(dados)

# Removendo registros com valores ausentes
df.dropna(inplace=True)
print(df)