## Módulo: Analytics Engineering

## Aula 2 - Parte 1

### Programação da Aula 2:

> ### 1. **Princípios de qualidade de dados e seus benefícios**:
> ### 2. **Qualidade de dados na prática**;
> ### 3. **Desenvolvimento de exercício**;

#### Link para o formulário de Feedback da aula:
https://forms.gle/8aCVnUDwASzeioLN8

### **Princípios da qualidade de dados**

- **Precisão:** Os dados precisos são dados que estão corretos e livres de erros. Eles são baseados em fontes confiáveis e são atualizados regularmente. A precisão dos dados pode ser afetada por erros de entrada manual, integração de dados de várias fontes, omissão de dados e duplicação de dados. Para garantir a precisão dos dados, é importante realizar verificações regulares dos dados para identificar e corrigir erros.

- **Consistência:** Os dados consistentes são dados que estão no mesmo formato e mantêm as mesmas definições em todos os sistemas e processos. A consistência dos dados pode ser afetada pela falta de padronização dos dados, pela variação dos nomes de campos e pela falta de integridade referencial. Para garantir a consistência dos dados, é importante estabelecer padrões para a entrada de dados e verificar regularmente se esses padrões estão sendo seguidos.

- **Confiabilidade:** Os dados confiáveis são dados que são precisos e consistentes, mas também são acessíveis e seguros. Eles são protegidos contra perda, roubo e corrupção, e podem ser acessados por usuários autorizados. A confiabilidade dos dados pode ser afetada pela falta de segurança de dados, pela falta de backups regulares e pela falta de controle de acesso aos dados. Para garantir a confiabilidade dos dados, é importante implementar práticas de segurança de dados, como backups regulares e controles de acesso.

- **Relevância:** Os dados relevantes são dados que são necessários para as decisões empresariais. Eles são coletados com base nos requisitos do negócio e são relevantes para os usuários finais. A relevância dos dados pode ser afetada pela coleta de dados desnecessários ou pela falta de coleta de dados importantes. Para garantir a relevância dos dados, é importante estabelecer um processo para identificar os requisitos de dados do negócio e coletar apenas os dados necessários.


### **Benefícios da qualidade de dados**

- **Tomada de decisão mais informada:** Dados precisos, consistentes, confiáveis e relevantes permitem que as empresas tomem decisões informadas com base em informações precisas e confiáveis.

- **Redução de custos:** Dados de baixa qualidade podem levar a decisões equivocadas, o que pode levar a custos adicionais para a empresa. Ao melhorar a qualidade dos dados, as empresas podem reduzir os custos desnecessários associados à tomada de decisão equivocada.

- **Melhoria da eficiência:** Dados precisos e consistentes podem ajudar a melhorar a eficiência dos processos empresariais, reduzindo o tempo gasto na correção de erros e retrabalho.

- **Aumento da satisfação do cliente:** Dados precisos e relevantes permitem que as empresas entendam melhor as necessidades de seus clientes e ofereçam soluções personalizadas para atender a essas necessidades. Isso pode levar a um aumento na satisfação do cliente e na fidelidade à marca.



### **Qualidade de dados na prática**

### Instalação das biblioteca para verificação do perfil dos dados

In [1]:
!pip install ydata_profiling



### Chamada da bibliotecas

In [2]:
import pandas as pd
from ydata_profiling import ProfileReport

### Dataset sobre preço de carros usados:
https://data.world/data-society/used-cars-data

In [3]:
df = pd.read_csv("dados/autos.csv", encoding='ISO-8859-1')
df.head(3)

Unnamed: 0,dateCrawled,name,seller,offerType,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,kilometer,monthOfRegistration,fuelType,brand,notRepairedDamage,dateCreated,nrOfPictures,postalCode,lastSeen
0,2016-03-24 11:52:17,Golf_3_1.6,privat,Angebot,480,test,,1993,manuell,0,golf,150000,0,benzin,volkswagen,,2016-03-24 00:00:00,0,70435,2016-04-07 03:16:57
1,2016-03-24 10:58:45,A5_Sportback_2.7_Tdi,privat,Angebot,18300,test,coupe,2011,manuell,190,,125000,5,diesel,audi,ja,2016-03-24 00:00:00,0,66954,2016-04-07 01:46:50
2,2016-03-14 12:52:21,"Jeep_Grand_Cherokee_""Overland""",privat,Angebot,9800,test,suv,2004,automatik,163,grand,125000,8,diesel,jeep,,2016-03-14 00:00:00,0,90480,2016-04-05 12:47:46


### Comando "describe" que retorna algumas informações do DataFrame

In [4]:
df.describe()

Unnamed: 0,price,yearOfRegistration,powerPS,kilometer,monthOfRegistration,nrOfPictures,postalCode
count,371528.0,371528.0,371528.0,371528.0,371528.0,371528.0,371528.0
mean,17295.14,2004.577997,115.549477,125618.688228,5.734445,0.0,50820.66764
std,3587954.0,92.866598,192.139578,40112.337051,3.712412,0.0,25799.08247
min,0.0,1000.0,0.0,5000.0,0.0,0.0,1067.0
25%,1150.0,1999.0,70.0,125000.0,3.0,0.0,30459.0
50%,2950.0,2003.0,105.0,150000.0,6.0,0.0,49610.0
75%,7200.0,2008.0,150.0,150000.0,9.0,0.0,71546.0
max,2147484000.0,9999.0,20000.0,150000.0,12.0,0.0,99998.0


### Relatório com informações do perfil dos dados a partir da biblioteca "ydata_profiling"

In [5]:
profile = ProfileReport(df, title="Pandas Profiling Report") #cria o relatório

profile.to_file("resultados.html") #salva os resultados em um arquivo

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

### Tipos de cada coluna no Dataframe

In [6]:
df.dtypes

dateCrawled            object
name                   object
seller                 object
offerType              object
price                   int64
abtest                 object
vehicleType            object
yearOfRegistration      int64
gearbox                object
powerPS                 int64
model                  object
kilometer               int64
monthOfRegistration     int64
fuelType               object
brand                  object
notRepairedDamage      object
dateCreated            object
nrOfPictures            int64
postalCode              int64
lastSeen               object
dtype: object

### Cria um dataframe copia para começar a limpeza dos dados. O primeiro passo será definir o tipo das colunas que não serão de texto.

In [7]:
df_cln = df.copy()

list_datetime = ['dateCrawled', 'dateCreated', 'lastSeen'] #colunas do tipo de data e hora
for column in list_datetime: 
    #transforma a coluna para o tipo "datetime" com o formato passado
    df_cln[column] = pd.to_datetime(df_cln[column], format='%Y-%m-%d %H:%M:%S') 

list_int = ['yearOfRegistration', 'monthOfRegistration', 'nrOfPictures', 'postalCode'] #colunas do tipo inteiro
for column in list_int: 
    #transforma a coluna para o tipo inteiro
    df_cln[column] = df_cln[column].astype("int")

list_float = ['price', 'powerPS', 'kilometer'] #colunas do tipo float
for column in list_float: 
    #transforma a coluna para o tipo float
    df_cln[column] = df_cln[column].astype("float")

### Verifica os novos tipos de cada coluna

In [8]:
df_cln.dtypes

dateCrawled            datetime64[ns]
name                           object
seller                         object
offerType                      object
price                         float64
abtest                         object
vehicleType                    object
yearOfRegistration              int32
gearbox                        object
powerPS                       float64
model                          object
kilometer                     float64
monthOfRegistration             int32
fuelType                       object
brand                          object
notRepairedDamage              object
dateCreated            datetime64[ns]
nrOfPictures                    int32
postalCode                      int32
lastSeen               datetime64[ns]
dtype: object

### Verifica as colunas com valores nulos

In [9]:
res_missing = df_cln.isna().sum()  #soma a quantidade de valores nulos em cada coluna
res_missing = (res_missing/len(df_cln))*100 #calcula o percentual de casos nulos
res_missing.sort_values(ascending=False) #ordena pelas colunas com mais casos nulos

notRepairedDamage      19.395577
vehicleType            10.192771
fuelType                8.986133
model                   5.513447
gearbox                 5.439429
kilometer               0.000000
postalCode              0.000000
nrOfPictures            0.000000
dateCreated             0.000000
brand                   0.000000
monthOfRegistration     0.000000
dateCrawled             0.000000
name                    0.000000
powerPS                 0.000000
yearOfRegistration      0.000000
abtest                  0.000000
price                   0.000000
offerType               0.000000
seller                  0.000000
lastSeen                0.000000
dtype: float64

### Função para verificar os casos nulos

In [10]:
def check_missing(df):
    res_missing = df_cln.isna().sum() 
    res_missing = (res_missing/len(df_cln))*100
    return res_missing

In [11]:
check_missing(df_cln).sort_values(ascending=False)

notRepairedDamage      19.395577
vehicleType            10.192771
fuelType                8.986133
model                   5.513447
gearbox                 5.439429
kilometer               0.000000
postalCode              0.000000
nrOfPictures            0.000000
dateCreated             0.000000
brand                   0.000000
monthOfRegistration     0.000000
dateCrawled             0.000000
name                    0.000000
powerPS                 0.000000
yearOfRegistration      0.000000
abtest                  0.000000
price                   0.000000
offerType               0.000000
seller                  0.000000
lastSeen                0.000000
dtype: float64

### Preenchimento dos campos nulos com valores fixos 

In [12]:
df_cln['notRepairedDamage'].value_counts()

nein    263182
ja       36286
Name: notRepairedDamage, dtype: int64

In [13]:
df_cln['notRepairedDamage'] = df_cln['notRepairedDamage'].fillna("no_info")

### Preenchimento dos campos nulos com valores fixos 

In [14]:
df_cln['vehicleType'].value_counts()

limousine     95894
kleinwagen    80023
kombi         67564
bus           30201
cabrio        22898
coupe         19015
suv           14707
andere         3357
Name: vehicleType, dtype: int64

In [15]:
df_cln['vehicleType'] = df_cln['vehicleType'].fillna("no_info")

### Preenchimento dos campos nulos com o campo que mais se repete

In [16]:
df_cln['fuelType'].value_counts()

benzin     223857
diesel     107746
lpg          5378
cng           571
hybrid        278
andere        208
elektro       104
Name: fuelType, dtype: int64

In [17]:
high_freq = df_cln['fuelType'].value_counts().idxmax()
df_cln['fuelType'] = df_cln['fuelType'].fillna(high_freq)

### Preenchimento dos campos nulos com valores fixos de outra coluna

In [18]:
df_cln['model'] = df_cln['model'].fillna(df_cln['vehicleType'])

### Preenchimento dos campos nulos com valores fixos de outra coluna

In [19]:
df_cln['gearbox'] = df_cln['gearbox'].fillna("no_info")

### Verifica os resultados nulos após o tratamento

In [20]:
check_missing(df_cln).sort_values(ascending=False)

dateCrawled            0.0
name                   0.0
postalCode             0.0
nrOfPictures           0.0
dateCreated            0.0
notRepairedDamage      0.0
brand                  0.0
fuelType               0.0
monthOfRegistration    0.0
kilometer              0.0
model                  0.0
powerPS                0.0
gearbox                0.0
yearOfRegistration     0.0
vehicleType            0.0
abtest                 0.0
price                  0.0
offerType              0.0
seller                 0.0
lastSeen               0.0
dtype: float64

### Eliminando os campos duplicados

In [21]:
print("N. de linhas antes de remover duplicadas:", len(df_cln))
df_cln = df_cln.drop_duplicates()
print("N. de linhas depois de remover duplicadas:", len(df_cln))

N. de linhas antes de remover duplicadas: 371528
N. de linhas depois de remover duplicadas: 371524


### Eliminando as colunas constantes

In [22]:
list_constant = [col for col in df_cln.columns if df_cln[col].nunique() == 1]
list_constant

['nrOfPictures']

In [23]:
print("N. de colunas antes de remover colunas constantes:", len(df_cln.columns))
df_cln = df_cln.drop(list_constant, axis=1)
print("N. de colunas depois de remover colunas constantes:", len(df_cln.columns))

N. de colunas antes de remover colunas constantes: 20
N. de colunas depois de remover colunas constantes: 19


### Eliminando as colunas extremamente desbalanceadas

In [24]:
df_cln['offerType'].value_counts(normalize=True)

Angebot    0.999968
Gesuch     0.000032
Name: offerType, dtype: float64

In [25]:
df_cln['offerType'].value_counts(normalize=True).values[0]

0.9999677006061519

In [26]:
list_imbalance = []
limit = 0.98 #limite para o caso que mais se repete
for col in df_cln.columns:
    perc = df_cln[col].value_counts(normalize=True).values[0] #armazena o valor de maior repetição
    if perc > limit: #se for mais que o limite armazena na lista das colunas desbanlanceadas
        list_imbalance.append(col)
        print(col, perc)

seller 0.999991925151538
offerType 0.9999677006061519


In [27]:
df_cln = df_cln.drop(list_imbalance, axis=1)

### Verificação dos resultados depois de eliminar as colunas extremamente desbalanceadas

In [28]:
list_imbalance = []
limit = 0.98
for col in df_cln.columns:
    perc = df_cln[col].value_counts(normalize=True).values[0]
    if perc > limit:
        list_imbalance.append(col)
        print(col, perc)

### Verificação da precisão dos dados

### Os meses precisam estar no intervalo: 1 <= meses <= 12 

In [29]:
df_cln[(df_cln['monthOfRegistration']<1) | (df_cln['monthOfRegistration']>12)]

Unnamed: 0,dateCrawled,name,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,kilometer,monthOfRegistration,fuelType,brand,notRepairedDamage,dateCreated,postalCode,lastSeen
0,2016-03-24 11:52:17,Golf_3_1.6,480.0,test,no_info,1993,manuell,0.0,golf,150000.0,0,benzin,volkswagen,no_info,2016-03-24,70435,2016-04-07 03:16:57
9,2016-03-17 10:53:50,VW_Golf_4_5_tuerig_zu_verkaufen_mit_Anhaengerk...,999.0,test,kleinwagen,1998,manuell,101.0,golf,150000.0,0,benzin,volkswagen,no_info,2016-03-17,27472,2016-03-31 17:17:06
15,2016-03-11 21:39:15,KA_Lufthansa_Edition_450_VB,450.0,test,kleinwagen,1910,no_info,0.0,ka,5000.0,0,benzin,ford,no_info,2016-03-11,24148,2016-03-19 08:46:47
16,2016-04-01 12:46:46,Polo_6n_1_4,300.0,test,no_info,2016,no_info,60.0,polo,150000.0,0,benzin,volkswagen,no_info,2016-04-01,38871,2016-04-01 12:46:46
36,2016-03-11 11:50:37,Opel_Kadett_E_CC,1600.0,control,andere,1991,manuell,75.0,kadett,70000.0,0,benzin,opel,no_info,2016-03-11,2943,2016-04-07 03:46:09
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
371460,2016-04-03 13:46:24,Polo_g40_auch_Tausch_vag...no_vr6_gti_1.8t,3500.0,control,no_info,1995,no_info,0.0,polo,150000.0,0,benzin,volkswagen,no_info,2016-04-03,74579,2016-04-05 12:44:38
371473,2016-03-15 19:57:11,Subaru_Allrad,400.0,control,kombi,1991,manuell,0.0,legacy,150000.0,0,benzin,subaru,no_info,2016-03-15,24558,2016-03-19 15:49:00
371482,2016-03-31 19:36:18,Peugeot_206,1300.0,control,kleinwagen,1999,manuell,75.0,2_reihe,125000.0,0,benzin,peugeot,no_info,2016-03-31,35102,2016-04-06 13:44:44
371486,2016-03-30 20:55:30,Zu_verkaufen,350.0,control,kleinwagen,1996,no_info,65.0,punto,150000.0,0,benzin,fiat,no_info,2016-03-30,25436,2016-04-07 13:50:41


In [30]:
df_cln.loc[(df_cln['monthOfRegistration']<1) | (df_cln['monthOfRegistration']>12), 'monthOfRegistration'] = -1

### Verificação do resultado 

In [31]:
df_cln[((df_cln['monthOfRegistration']<1) | (df_cln['monthOfRegistration']>12)) & (df_cln['monthOfRegistration']!=-1)]

Unnamed: 0,dateCrawled,name,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,kilometer,monthOfRegistration,fuelType,brand,notRepairedDamage,dateCreated,postalCode,lastSeen


### Os meses precisam estar no intervalo: 1900 <= ano <= 2016 

In [32]:
df_cln.loc[(df_cln['yearOfRegistration']<1900) | (df_cln['yearOfRegistration']>2016), 'yearOfRegistration'] = 1900

### Verificação do resultado 

In [33]:
df_cln[(df_cln['yearOfRegistration']<1900) | (df_cln['yearOfRegistration']>2016)]

Unnamed: 0,dateCrawled,name,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,kilometer,monthOfRegistration,fuelType,brand,notRepairedDamage,dateCreated,postalCode,lastSeen


In [34]:
df_cln.describe()

Unnamed: 0,price,yearOfRegistration,powerPS,kilometer,monthOfRegistration,postalCode
count,371524.0,371524.0,371524.0,371524.0,371524.0,371524.0
mean,17295.3,1998.699879,115.549039,125618.842928,5.633044,50820.49427
std,3587973.0,21.335832,192.140488,40112.138811,3.877658,25799.08841
min,0.0,1900.0,0.0,5000.0,-1.0,1067.0
25%,1150.0,1998.0,70.0,125000.0,3.0,30459.0
50%,2950.0,2003.0,105.0,150000.0,6.0,49610.0
75%,7200.0,2007.0,150.0,150000.0,9.0,71546.0
max,2147484000.0,2016.0,20000.0,150000.0,12.0,99998.0


### Os preços precisam ser maiores que 0

In [35]:
df_cln = df_cln[df_cln['price']>0]

In [36]:
df_cln.describe()

Unnamed: 0,price,yearOfRegistration,powerPS,kilometer,monthOfRegistration,postalCode
count,360746.0,360746.0,360746.0,360746.0,360746.0,360746.0
mean,17812.03,1998.905718,116.575923,125661.823,5.703282,50996.062246
std,3641176.0,21.095961,190.609039,39836.433575,3.837602,25760.472206
min,1.0,1900.0,0.0,5000.0,-1.0,1067.0
25%,1250.0,1998.0,72.0,100000.0,3.0,30823.0
50%,3000.0,2003.0,105.0,150000.0,6.0,49751.0
75%,7490.0,2007.0,150.0,150000.0,9.0,71672.0
max,2147484000.0,2016.0,20000.0,150000.0,12.0,99998.0


### Eliminação de Outliers

#### Exemplo de distribuição e quantil
<img src="https://media.geeksforgeeks.org/wp-content/uploads/20201127112813/NORMALDISTRIBUTION-660x362.png"  width="80%" height="60%">

In [37]:
#valor do quantil de 2% a esquerda
df_cln[['price', 'powerPS']].quantile(.02)

price      200.0
powerPS      0.0
Name: 0.02, dtype: float64

In [38]:
#valor do quantil de 2% a direita
df_cln[['price', 'powerPS']].quantile(.98)

price      28500.0
powerPS      300.0
Name: 0.98, dtype: float64

In [39]:
print("Quantidade de linhas antes de eliminar os outliers:", len(df_cln))
list_quantile = ['price', 'powerPS'] #colunas para considerar a eliminação de outliers
df_aux = df_cln.copy()
for col in list_quantile:
    low_limit = df_aux[col].quantile(.02) #valor do quantil de 2% a esquerda
    high_limit = df_aux[col].quantile(.98) #valor do quantil de 2% a direita
    df_cln = df_cln[(df_cln[col]>low_limit) & (df_cln[col]<high_limit)] #filtra a partir do quantil

print("Quantidade de linhas antes de eliminar os outliers:", len(df_cln))

Quantidade de linhas antes de eliminar os outliers: 360746
Quantidade de linhas antes de eliminar os outliers: 306747


In [40]:
df_cln.describe()

Unnamed: 0,price,yearOfRegistration,powerPS,kilometer,monthOfRegistration,postalCode
count,306747.0,306747.0,306747.0,306747.0,306747.0,306747.0
mean,5340.119343,1999.688421,120.376809,126738.224009,5.936378,51358.191099
std,5444.798096,19.581832,49.774169,38105.625551,3.691866,25740.20057
min,202.0,1900.0,1.0,5000.0,-1.0,1067.0
25%,1440.0,1999.0,80.0,125000.0,3.0,31084.0
50%,3300.0,2003.0,115.0,150000.0,6.0,50354.0
75%,7450.0,2007.0,150.0,150000.0,9.0,72160.0
max,28499.0,2016.0,299.0,150000.0,12.0,99998.0


### Gera os novos resultados

In [41]:
profile = ProfileReport(df_cln, title="Pandas Profiling Report")

profile.to_file("novos_resultados.html")

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]