## Módulo: Analytics Engineering

## Aula 2 - Parte 1


### Programação da Aula 2:

> ### 1. **Princípios de qualidade de dados e seus benefícios**:
>
> ### 2. **Qualidade de dados na prática**;
>
> ### 3. **Desenvolvimento de exercício**;

#### Link para o formulário de Feedback da aula:

https://forms.gle/8aCVnUDwASzeioLN8


### **Princípios da qualidade de dados**

- **Precisão:** Os dados precisos são dados que estão corretos e livres de erros. Eles são baseados em fontes confiáveis e são atualizados regularmente. A precisão dos dados pode ser afetada por erros de entrada manual, integração de dados de várias fontes, omissão de dados e duplicação de dados. Para garantir a precisão dos dados, é importante realizar verificações regulares dos dados para identificar e corrigir erros.

- **Consistência:** Os dados consistentes são dados que estão no mesmo formato e mantêm as mesmas definições em todos os sistemas e processos. A consistência dos dados pode ser afetada pela falta de padronização dos dados, pela variação dos nomes de campos e pela falta de integridade referencial. Para garantir a consistência dos dados, é importante estabelecer padrões para a entrada de dados e verificar regularmente se esses padrões estão sendo seguidos.

- **Confiabilidade:** Os dados confiáveis são dados que são precisos e consistentes, mas também são acessíveis e seguros. Eles são protegidos contra perda, roubo e corrupção, e podem ser acessados por usuários autorizados. A confiabilidade dos dados pode ser afetada pela falta de segurança de dados, pela falta de backups regulares e pela falta de controle de acesso aos dados. Para garantir a confiabilidade dos dados, é importante implementar práticas de segurança de dados, como backups regulares e controles de acesso.

- **Relevância:** Os dados relevantes são dados que são necessários para as decisões empresariais. Eles são coletados com base nos requisitos do negócio e são relevantes para os usuários finais. A relevância dos dados pode ser afetada pela coleta de dados desnecessários ou pela falta de coleta de dados importantes. Para garantir a relevância dos dados, é importante estabelecer um processo para identificar os requisitos de dados do negócio e coletar apenas os dados necessários.

### **Benefícios da qualidade de dados**

- **Tomada de decisão mais informada:** Dados precisos, consistentes, confiáveis e relevantes permitem que as empresas tomem decisões informadas com base em informações precisas e confiáveis.

- **Redução de custos:** Dados de baixa qualidade podem levar a decisões equivocadas, o que pode levar a custos adicionais para a empresa. Ao melhorar a qualidade dos dados, as empresas podem reduzir os custos desnecessários associados à tomada de decisão equivocada.

- **Melhoria da eficiência:** Dados precisos e consistentes podem ajudar a melhorar a eficiência dos processos empresariais, reduzindo o tempo gasto na correção de erros e retrabalho.

- **Aumento da satisfação do cliente:** Dados precisos e relevantes permitem que as empresas entendam melhor as necessidades de seus clientes e ofereçam soluções personalizadas para atender a essas necessidades. Isso pode levar a um aumento na satisfação do cliente e na fidelidade à marca.


### **Qualidade de dados na prática**


### Instalação das biblioteca para verificação do perfil dos dados


In [None]:
!pip install ydata_profiling

### Chamada da bibliotecas


In [None]:
import pandas as pd
from ydata_profiling import ProfileReport

### Dataset sobre preço de carros usados:

https://data.world/data-society/used-cars-data


In [None]:
df = pd.read_csv("dados/autos.csv", encoding='ISO-8859-1')
df.head(3)

### Comando "describe" que retorna algumas informações do DataFrame


In [None]:
df.describe()

### Relatório com informações do perfil dos dados a partir da biblioteca "ydata_profiling"


In [None]:
profile = ProfileReport(
    df, title="Pandas Profiling Report")  # cria o relatório

profile.to_file("resultados.html")  # salva os resultados em um arquivo

### Tipos de cada coluna no Dataframe


In [None]:
df.dtypes

### Cria um dataframe copia para começar a limpeza dos dados. O primeiro passo será definir o tipo das colunas que não serão de texto.


In [None]:
df_cln = df.copy()

list_datetime = ['dateCrawled', 'dateCreated',
                 'lastSeen']  # colunas do tipo de data e hora
for column in list_datetime:
    # transforma a coluna para o tipo "datetime" com o formato passado
    df_cln[column] = pd.to_datetime(df_cln[column], format='%Y-%m-%d %H:%M:%S')

list_int = ['yearOfRegistration', 'monthOfRegistration',
            'nrOfPictures', 'postalCode']  # colunas do tipo inteiro
for column in list_int:
    # transforma a coluna para o tipo inteiro
    df_cln[column] = df_cln[column].astype("int")

list_float = ['price', 'powerPS', 'kilometer']  # colunas do tipo float
for column in list_float:
    # transforma a coluna para o tipo float
    df_cln[column] = df_cln[column].astype("float")

### Verifica os novos tipos de cada coluna


In [None]:
df_cln.dtypes

### Verifica as colunas com valores nulos


In [None]:
# soma a quantidade de valores nulos em cada coluna
res_missing = df_cln.isna().sum()
# calcula o percentual de casos nulos
res_missing = (res_missing/len(df_cln))*100
# ordena pelas colunas com mais casos nulos
res_missing.sort_values(ascending=False)

### Função para verificar os casos nulos


In [None]:
def check_missing(df):
    res_missing = df_cln.isna().sum()
    res_missing = (res_missing/len(df_cln))*100
    return res_missing

In [None]:
check_missing(df_cln).sort_values(ascending=False)

### Preenchimento dos campos nulos com valores fixos


In [None]:
df_cln['notRepairedDamage'].value_counts()

In [None]:
df_cln['notRepairedDamage'] = df_cln['notRepairedDamage'].fillna("no_info")

### Preenchimento dos campos nulos com valores fixos


In [None]:
df_cln['vehicleType'].value_counts()

In [None]:
df_cln['vehicleType'] = df_cln['vehicleType'].fillna("no_info")

### Preenchimento dos campos nulos com o campo que mais se repete


In [None]:
df_cln['fuelType'].value_counts()

In [None]:
high_freq = df_cln['fuelType'].value_counts().idxmax()
df_cln['fuelType'] = df_cln['fuelType'].fillna(high_freq)

### Preenchimento dos campos nulos com valores fixos de outra coluna


In [None]:
df_cln['model'] = df_cln['model'].fillna(df_cln['vehicleType'])

### Preenchimento dos campos nulos com valores fixos de outra coluna


In [None]:
df_cln['gearbox'] = df_cln['gearbox'].fillna("no_info")

### Verifica os resultados nulos após o tratamento


In [None]:
check_missing(df_cln).sort_values(ascending=False)

### Eliminando os campos duplicados


In [None]:
print("N. de linhas antes de remover duplicadas:", len(df_cln))
df_cln = df_cln.drop_duplicates()
print("N. de linhas depois de remover duplicadas:", len(df_cln))

### Eliminando as colunas constantes


In [None]:
list_constant = [col for col in df_cln.columns if df_cln[col].nunique() == 1]
list_constant

In [None]:
print("N. de colunas antes de remover colunas constantes:", len(df_cln.columns))
df_cln = df_cln.drop(list_constant, axis=1)
print("N. de colunas depois de remover colunas constantes:", len(df_cln.columns))

### Eliminando as colunas extremamente desbalanceadas


In [None]:
df_cln['offerType'].value_counts(normalize=True)

In [None]:
df_cln['offerType'].value_counts(normalize=True).values[0]

In [None]:
list_imbalance = []
limit = 0.98  # limite para o caso que mais se repete
for col in df_cln.columns:
    # armazena o valor de maior repetição
    perc = df_cln[col].value_counts(normalize=True).values[0]
    if perc > limit:  # se for mais que o limite armazena na lista das colunas desbanlanceadas
        list_imbalance.append(col)
        print(col, perc)

In [None]:
df_cln = df_cln.drop(list_imbalance, axis=1)

### Verificação dos resultados depois de eliminar as colunas extremamente desbalanceadas


In [None]:
list_imbalance = []
limit = 0.98
for col in df_cln.columns:
    perc = df_cln[col].value_counts(normalize=True).values[0]
    if perc > limit:
        list_imbalance.append(col)
        print(col, perc)

### Verificação da precisão dos dados


### Os meses precisam estar no intervalo: 1 <= meses <= 12


In [None]:
df_cln[(df_cln['monthOfRegistration'] < 1) |
       (df_cln['monthOfRegistration'] > 12)]

In [None]:
df_cln.loc[(df_cln['monthOfRegistration'] < 1) | (
    df_cln['monthOfRegistration'] > 12), 'monthOfRegistration'] = -1

### Verificação do resultado


In [None]:
df_cln[((df_cln['monthOfRegistration'] < 1) | (
    df_cln['monthOfRegistration'] > 12)) & (df_cln['monthOfRegistration'] != -1)]

### Os meses precisam estar no intervalo: 1900 <= ano <= 2016


In [None]:
df_cln.loc[(df_cln['yearOfRegistration'] < 1900) | (
    df_cln['yearOfRegistration'] > 2016), 'yearOfRegistration'] = 1900

### Verificação do resultado


In [None]:
df_cln[(df_cln['yearOfRegistration'] < 1900) |
       (df_cln['yearOfRegistration'] > 2016)]

In [None]:
df_cln.describe()

### Os preços precisam ser maiores que 0


In [None]:
df_cln = df_cln[df_cln['price'] > 0]

In [None]:
df_cln.describe()

### Eliminação de Outliers


#### Exemplo de distribuição e quantil

<img src="https://media.geeksforgeeks.org/wp-content/uploads/20201127112813/NORMALDISTRIBUTION-660x362.png"  width="80%" height="60%">


In [None]:
# valor do quantil de 2% a esquerda
df_cln[['price', 'powerPS']].quantile(.02)

In [None]:
# valor do quantil de 2% a direita
df_cln[['price', 'powerPS']].quantile(.98)

In [None]:
print("Quantidade de linhas antes de eliminar os outliers:", len(df_cln))
# colunas para considerar a eliminação de outliers
list_quantile = ['price', 'powerPS']
df_aux = df_cln.copy()
for col in list_quantile:
    low_limit = df_aux[col].quantile(.02)  # valor do quantil de 2% a esquerda
    high_limit = df_aux[col].quantile(.98)  # valor do quantil de 2% a direita
    df_cln = df_cln[(df_cln[col] > low_limit) & (
        df_cln[col] < high_limit)]  # filtra a partir do quantil

print("Quantidade de linhas antes de eliminar os outliers:", len(df_cln))

In [None]:
df_cln.describe()

### Gera os novos resultados


In [None]:
profile = ProfileReport(df_cln, title="Pandas Profiling Report")

profile.to_file("novos_resultados.html")