<a href="https://colab.research.google.com/github/IzisMachado/Teste-github-e-vscode/blob/main/C%C3%B3pia_de_aula_4_limpeza_dos_dados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Curso: Analytics Engineering

## Aula 4 - Limpeza de dados na prática

### **Limpeza de dados na prática**

### Instalação das biblioteca para verificação do perfil dos dados

In [None]:
!pip install ydata_profiling
!pip install pandas

### Chamada da bibliotecas

In [None]:
import pandas as pd
from ydata_profiling import ProfileReport

### Dataset sobre preço de carros usados:
https://data.world/data-society/used-cars-data

#### Dicionário de Dados

- **dateCrawled:** Data em que o anúncio foi rastreado pela primeira vez; todos os valores dos campos são obtidos dessa data.
- **name:** Nome do carro.
- **seller:** Vendedor, pode ser particular ou revendedor.
- **offerType:** Tipo de oferta.
- **price:** Preço anunciado para vender o carro.
- **abtest:** Teste A/B.
- **vehicleType:** Tipo de veículo.
- **yearOfRegistration:** Ano em que o carro foi registrado pela primeira vez.
- **gearbox:** Tipo de câmbio.
- **powerPS:** Potência do carro em PS.
- **model:** Modelo do carro.
- **kilometer:** Quilometragem do carro.
- **monthOfRegistration:** Mês em que o carro foi registrado pela primeira vez.
- **fuelType:** Tipo de combustível.
- **brand:** Marca do carro.
- **notRepairedDamage:** Indica se o carro tem algum dano não reparado.
- **dateCreated:** Data em que o anúncio foi criado no eBay.
- **nrOfPictures:** Número de imagens no anúncio.
- **postalCode:** Código postal.

In [None]:
df = pd.read_csv("dados/autos.csv", encoding="ISO-8859-1")
df.head(3)

### Comando "describe" que retorna algumas informações do DataFrame

In [None]:
df.describe()

### Relatório com informações do perfil dos dados a partir da biblioteca "ydata_profiling"

In [None]:
profile = ProfileReport(df, title="Pandas Profiling Report") # cria o relatório

profile.to_file("resultados.html")

### Tipos de cada coluna no Dataframe

In [None]:
df.dtypes

### Cria um dataframe copia para começar a limpeza dos dados. O primeiro passo será definir o tipo das colunas que não serão de texto.

In [None]:
df_cln = df.copy()

list_datetime = ['dateCrawled', 'dateCreated', 'lastSeen']
for column in list_datetime:
    df_cln[column] = pd.to_datetime(df_cln[column], format='%Y-%m-%d %H:%M:%S')

In [None]:
list_int = ['yearOfRegistration', 'monthOfRegistration', 'nrOfPictures', 'postalCode']
for column in list_int:
    df_cln[column] = df_cln[column].astype("int")

In [None]:
list_float = ['price', 'powerPS', 'kilometer']
for column in list_float:
    df_cln[column] = df_cln[column].astype("float")

### Verifica os novos tipos de cada coluna

In [None]:
df_cln.dtypes

### Verifica as colunas com valores nulos

In [None]:
res_missing = df_cln.isna().sum()  #soma a quantidade de valores nulos em cada coluna
res_missing = (res_missing/len(df_cln))*100 #calcula o percentual de casos nulos
res_missing.sort_values(ascending=False)

### Função para verificar os casos nulos

In [None]:
def check_missing(df):
    res_missing = df.isna().sum()  #soma a quantidade de valores nulos em cada coluna
    res_missing = (res_missing/len(df))*100 #calcula o percentual de casos nulos
    return res_missing

In [None]:
check_missing(df_cln).sort_values(ascending=False)

### Preenchimento dos campos nulos com valores fixos

In [None]:
df_cln['notRepairedDamage'].value_counts()

In [None]:
df_cln['notRepairedDamage'] = df_cln['notRepairedDamage'].fillna("no_info")

In [None]:
df_cln['notRepairedDamage'].value_counts()

### Preenchimento dos campos nulos com valores fixos

In [None]:
df_cln['vehicleType'].value_counts()

In [None]:
df_cln['vehicleType'] = df_cln['vehicleType'].fillna("no_info")

In [None]:
df_cln['vehicleType'].value_counts()

### Preenchimento dos campos nulos com o campo que mais se repete

In [None]:
df_cln['fuelType'].value_counts()

In [None]:
high_freq = df_cln['fuelType'].value_counts().idxmax()
df_cln['fuelType'] = df_cln['fuelType'].fillna(high_freq)

In [None]:
df_cln['fuelType'].value_counts()

### Preenchimento dos campos nulos com valores fixos de outra coluna

In [None]:
df_cln['model'] = df_cln['model'].fillna(df_cln['vehicleType'])

In [None]:
df_cln['model'].value_counts()

### Preenchimento dos campos nulos com valores fixos de outra coluna

In [None]:
df_cln['gearbox'].value_counts()

In [None]:
df_cln['gearbox'] = df_cln['gearbox'].fillna("no_info")

In [None]:
df_cln['gearbox'].value_counts(dropna=False)

### Verifica os resultados nulos após o tratamento

In [None]:
check_missing(df_cln).sort_values(ascending=False)

### Eliminando os campos duplicados

In [None]:
print("N. de linhas antes de remover duplicadas:", len(df_cln))
df_cln = df_cln.drop_duplicates()
print("N. de linhas depois de remover duplicadas:", len(df_cln))

### Eliminando as colunas constantes

In [None]:
list_constants = [col for col in df_cln.columns if df_cln[col].nunique() == 1]
list_constants

In [None]:
print("N. de colunas antes de remover colunas constantes:", len(df_cln.columns))
df_cln = df_cln.drop(list_constants, axis=1)
print("N. de colunas depois de remover colunas constantes:", len(df_cln.columns))

### Eliminando as colunas extremamente desbalanceadas

In [None]:
df_cln['offerType'].value_counts(normalize=True)

In [None]:
df_cln['offerType'].value_counts(normalize=True).values[0]

In [None]:
list_imbalance = []
limit = 0.98
for col in df_cln.columns:
    perc = df_cln[col].value_counts(normalize=True).values[0]
    if perc > limit:
        list_imbalance.append(col)
        print(col, perc)

In [None]:
df_cln = df_cln.drop(list_imbalance, axis=1)

### Verificação dos resultados depois de eliminar as colunas extremamente desbalanceadas

In [None]:
list_imbalance = []
limit = 0.98
for col in df_cln.columns:
    perc = df_cln[col].value_counts(normalize=True).values[0]
    if perc > limit:
        list_imbalance.append(col)
        print(col, perc)

### Verificação da precisão dos dados

### Os meses precisam estar no intervalo: 1 <= meses <= 12

In [None]:
df_cln[(df_cln['monthOfRegistration'] < 1) |(df_cln['monthOfRegistration'] > 12)]

In [None]:
df_cln.loc[(df_cln['monthOfRegistration'] < 1) |(df_cln['monthOfRegistration'] > 12), 'monthOfRegistration'] = -1

### Verificação do resultado

In [None]:
df_cln[((df_cln['monthOfRegistration'] < 1) |(df_cln['monthOfRegistration'] > 12)) & (df_cln['monthOfRegistration'] != -1)]

### Os anos precisam estar no intervalo: 1900 <= ano <= 2016

In [None]:
df_cln[(df_cln['yearOfRegistration'] < 1900) |(df_cln['yearOfRegistration'] > 2016)]

In [None]:
df_cln.loc[(df_cln['yearOfRegistration'] < 1900) |(df_cln['yearOfRegistration'] > 2016), 'yearOfRegistration'] = 1900

In [None]:
df_cln[((df_cln['yearOfRegistration'] < 1900) |(df_cln['yearOfRegistration'] > 2016)) & (df_cln['yearOfRegistration'] != 1900)]

### Verificação do resultado

In [None]:
df_cln[(df_cln['yearOfRegistration']<1900) | (df_cln['yearOfRegistration']>2016)]

In [None]:
df_cln.describe()

### Os preços precisam ser maiores que 0

In [None]:
df_cln = df_cln[df_cln['price']> 0]

In [None]:
df_cln.describe()

### Eliminação de Outliers

#### Exemplo de distribuição e quantil
<img src="https://media.geeksforgeeks.org/wp-content/uploads/20201127112813/NORMALDISTRIBUTION-660x362.png"  width="80%" height="60%">

In [None]:
df_cln[['price', 'powerPS']].quantile(.02)

In [None]:
df_cln[['price', 'powerPS']].quantile(.98)

In [None]:
print("Quantidade de linhas antes de eliminar os outliers:", len(df_cln))
list_quantile = ['price', 'powerPS']
df_aux = df_cln.copy()
for col in list_quantile:
    low_limit = df_aux[col].quantile(.02)
    high_limit = df_aux[col].quantile(.98)
    df_aux = df_aux[(df_aux[col] > low_limit) & (df_aux[col] < high_limit)]

print("Quantidade de linhas depois de eliminar os outliers:", len(df_aux))

In [None]:
df_aux.describe()

### Gera os novos resultados

In [None]:
profile = ProfileReport(df_aux, title="Pandas Profiling Report") # cria o relatório

profile.to_file("novos_resultados.html")

#### Salvar o dataframe como um csv para utilizarmos na próxima aula

In [None]:
df_aux.to_csv('dados/autos_cleaned.csv', index=False)

In [None]:
df.columns

In [None]:
from sqlalchemy import create_engine, text as sql_text
import pandas as pd

In [None]:
engine = create_engine('postgresql://postgres:ada@localhost/ada')


df = pd.read_csv("dados/autos_cleaned.csv", encoding="ISO-8859-1")

In [None]:
df.dtypes

In [None]:
df.to_sql('autos_cleaned', engine, if_exists='replace', index=False)

In [None]:
query = """
SELECT *
FROM autos_cleaned
"""
df_gold = pd.read_sql(sql=sql_text(query), con=engine.connect())
df_gold