# Aula 3 - Limpeza e Preparação de Dados

#### Instalação das Bibliotecas

In [None]:
!pip install pandas matplotlib numpy seaborn

In [10]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

Carregando o dataset do repositório no GitHub

In [3]:
# URL do arquivo CSV no GitHub
url = 'https://raw.githubusercontent.com/lucascerfig/fci-cienciadedados/main/datasets/aula3_vendas_kbelo.csv'

# Carregar o dataset para um dataframe
df = pd.read_csv(url)

Visualizando as primeiras linhas do dataframe

In [4]:
df.head()

Unnamed: 0,ID da Transacao,Item,Quantidade,Valor Unitario,Total do Pedido,Forma de Pagamento,Local,Data da Transacao
0,TXN_1961373,PastelDoce,2,12.0,24.0,Credito,Viagem,2023-09-08
1,TXN_4977031,PastelSalgado,4,13.5,54.0,Dinheiro,NoLocal,2023-05-16
2,TXN_4271903,Batata,4,10.0,,Credito,NoLocal,2023-07-19
3,TXN_7034554,DogCompleto,2,15.0,30.0,UNKNOWN,UNKNOWN,2023-04-27
4,TXN_3160411,PastelDoce,2,12.0,24.0,Pix,NoLocal,2023-06-11


Logo na visualização dos primeiros itens do dataset já notamos que algumas colunas apresentam valores inesperados (ERROR, UNKNOWN) ou faltantes...

Vamos explorar melhor esse dataset para entender com que tipos de problemas estaremos lidando.

In [None]:
df.info()

A primeira coisa que notamos é que todas as colunas estão com o tipo "object", até mesmo as colunas que deveriam ser numéricas como Quantidade, Valor Unitario, Total do Pedido.

Para entender os tipos de valores que estão ocorrendo em cada uma das colunas, vamos utilizar do método .value_counts()

In [None]:
for col in df.columns:
  print(f"Value counts para a coluna '{col}':")
  value_counts = df[col].value_counts()
  display(value_counts)
  print("\n")

Com base nas tabelas, podemos ver que existem colunas com valores nulos e tipos de dados com ruído como 'ERROR' ou 'UNKNOWN'.

Vamos tratar esses erros, padronizando todos esses casos de ruído para um valor nulo

In [11]:
df.replace(['ERROR', 'UNKNOWN'], np.nan, inplace=True)

In [None]:
# vamos contar novamente quantos valore nulos existem em cada coluna
print("Valores nulos por coluna:")
display(df.isnull().sum())


plt.figure(figsize=(10, 5))
df.isnull().sum().plot(kind='bar')
plt.title('Quantidade de valores nulos por coluna')
plt.show()

Agora que padronizamos os casos de 'ERROR' e 'UNKNOWN' como valores faltantes, podemos ajustar o tipo das colunas:

In [None]:
df['Quantidade'] = pd.to_numeric(df['Quantidade'])
df['Valor Unitario'] = pd.to_numeric(df['Valor Unitario'])
df['Total do Pedido'] = pd.to_numeric(df['Total do Pedido'])

df.info()

In [None]:
df.head()

**Exercício**: Apresente um objetivo de análise desses dados e justifique qual é a melhor maneira de se tratar os valores nulos em cada uma das colunas.


**Prática**: Implemente a solução de limpeza proposta para cada coluna, após isso desenvolva uma análise do cenário proposto como objetivo de uso desse dataset.

### Métodos Importantes para Limpeza

In [None]:
# Ler datasets
df = pd.read_csv("file.csv")      
df = pd.read_excel("file.xlsx")    
df = pd.read_json("file.json")     
df = pd.read_sql(query, con)      

# Escrever datasets em arquivos
df.to_csv("file.csv")
df.to_excel("file.xlsx")
df.to_json("file.json")

# Manipulando dataframes
data = {'Name': ['Alice', 'Bob'], 'Age': [25, 30]} 
df = pd.DataFrame(data)            # Criando um dataframe
df = pd.concat([df1, df2])         # concatenando dataframes
df = pd.merge(df1, df2, on='key')  # integrando dataframes em uma dada coluna

# Vizualizando e inspecionando dados
df.head()                          # primeiras 5 linhas
df.tail()                          # últimas 5 linhas
df.info()                          # resumo do dataframe
df.describe()                      # resumo estatístico das colunas numéricas
df.shape                           # dimensões do dataframe
df.columns                         # lista de colunas do dataframe
df.dtypes                          # tipos de dados das colunas
df.sample(5)                       # amostragem aleatória de 5 linhas

# Selecionando dados
df['column']                  # seleciona uma coluna 
df[['col1', 'col2']]          # seleciona múltiplas colunas
df.iloc[row, col]           # seleciona linhas e colunas por índices
df.loc[row, col]            # seleciona linhas e colunas por rótulos
df[df['column'] > value]    # seleciona linhas baseado em condições
df.query('column > value')  # seleciona linhas baseado em condições
df.mean()                   # calcula a média de cada coluna
df.median()                 # calcula a mediana de cada coluna
df.sum()                    # calcula a soma de cada coluna
df.min()                    # valores mínimos em cada coluna
df.max()                    # valores máximos em cada coluna
df.count()                  # contagem de valores não nulos em cada coluna
df.groupby('column')        # agrupa dados por uma coluna
df.agg({'col1': 'mean', 'col2': 'sum'}) # aplica funções de agregação em colunas específicas

# Ordenação
df.sort_values(by='column')        # ordena o dataframe por uma coluna
df.sort_values(by='column', ascending=False)  # ordena em ordem decrescente
df.rank()  # atribui uma classificação a cada valor

# Lidando com dados faltantes
df.isnull()         # detecta valores faltantes
df.notnull()        # detecta valores não faltantes
df.dropna()         # remove linhas com valores faltantes
df.fillna(value)    # preenche valores faltantes com um valor específico
df.interpolate()    # preenche valores faltantes com base em valores próximos

# Operações com strings
df['col'].str.lower()              # converte strings para minúsculas
df['col'].str.upper()              # converte strings para maiúsculas
df['col'].str.strip()              # remove espaços em branco
df['col'].str.contains('text')     # verifica se a string contém um texto
df['col'].str.replace('old', 'new')  # substitui um texto por outro