## Módulo: Analytics Engineering

## Aula 2

### Programação da Aula 2:

> ### 1. **Princípios de qualidade de dados e seus benefícios**:
> ### 2. **Qualidade de dados na prática**;
> ### 3. **Desenvolvimento de exercício**;

#### Link para o formulário de Feedback da aula:
https://forms.gle/8aCVnUDwASzeioLN8

### **Princípios da qualidade de dados**

- **Precisão:** Os dados precisos são dados que estão corretos e livres de erros. Eles são baseados em fontes confiáveis e são atualizados regularmente. A precisão dos dados pode ser afetada por erros de entrada manual, integração de dados de várias fontes, omissão de dados e duplicação de dados. Para garantir a precisão dos dados, é importante realizar verificações regulares dos dados para identificar e corrigir erros.

- **Consistência:** Os dados consistentes são dados que estão no mesmo formato e mantêm as mesmas definições em todos os sistemas e processos. A consistência dos dados pode ser afetada pela falta de padronização dos dados, pela variação dos nomes de campos e pela falta de integridade referencial. Para garantir a consistência dos dados, é importante estabelecer padrões para a entrada de dados e verificar regularmente se esses padrões estão sendo seguidos.

- **Integridade:** Os dados integros são dados que são precisos e consistentes, mas também são acessíveis e seguros. Eles são protegidos contra perda, roubo e corrupção, e podem ser acessados por usuários autorizados. A integridade dos dados pode ser afetada pela falta de segurança de dados, pela falta de backups regulares e pela falta de controle de acesso aos dados. Para garantir a integridade dos dados, é importante implementar práticas de segurança de dados, como backups regulares e controles de acesso.

- **Conformidade:** Os dados que estão em conformidade são coletados com base nos requisitos do negócio e são relevantes para os usuários finais. A conformidade dos dados pode ser afetada pela coleta de dados desnecessários ou pela falta de coleta de dados importantes. Para garantir a relevância dos dados, é importante estabelecer um processo para identificar os requisitos de dados do negócio e coletar apenas os dados necessários.

- **Atualidade**: Refere-se à relevância dos dados no tempo. Isso pode variar dependendo do contexto; por exemplo, dados de vendas de um dia atrás podem ser considerados atuais para algumas empresas, enquanto para outras empresas esses dados podem ser considerados desatualizados.

- **Completude** : Refere-se a se todos os dados necessários estão disponíveis. Se houver campos obrigatórios ausentes em um conjunto de dados, ele não será considerado completo.

### **Benefícios da qualidade de dados**

- **Tomada de decisão mais informada:** Dados precisos, consistentes, confiáveis e relevantes permitem que as empresas tomem decisões informadas com base em informações precisas e confiáveis.

- **Redução de custos:** Dados de baixa qualidade podem levar a decisões equivocadas, o que pode levar a custos adicionais para a empresa. Ao melhorar a qualidade dos dados, as empresas podem reduzir os custos desnecessários associados à tomada de decisão equivocada.

- **Melhoria da eficiência:** Dados precisos e consistentes podem ajudar a melhorar a eficiência dos processos empresariais, reduzindo o tempo gasto na correção de erros e retrabalho.

- **Aumento da satisfação do cliente:** Dados precisos e relevantes permitem que as empresas entendam melhor as necessidades de seus clientes e ofereçam soluções personalizadas para atender a essas necessidades. Isso pode levar a um aumento na satisfação do cliente e na fidelidade à marca.

### **Impacto do uso de dados com baixa qualidade**

- **Decisões equivocadas e prejuízos estratégicos:** Dados imprecisos podem levar a decisões erradas e perda de oportunidades.

- **Redução da eficiência e produtividade:** Corrigir erros consome tempo dos funcionários, diminuindo a eficiência.

- **Custos adicionais:** Correções, reembolsos e possíveis ações legais resultam em custos extras.

- **Danos à reputação:** Erros visíveis prejudicam a reputação da empresa e a confiança dos clientes.

- **Consequências regulatórias:** Não cumprir padrões de dados pode levar a multas.

- **Impacto nos modelos de IA e Machine Learning:** Dados de baixa qualidade tornam os modelos imprecisos.

- **Insatisfação e perda de clientes:** Erros levam à insatisfação e à perda de clientes.

- **Necessidade de investimento em gestão da qualidade dos dados:** Práticas sólidas de gestão de dados são essenciais para evitar esses impactos negativos.

### **Qualidade de dados na prática**

### Instalação das biblioteca para verificação do perfil dos dados

In [1]:
!pip install ydata_profiling
!pip install pandas



### Chamada da bibliotecas

In [2]:
import pandas as pd 
from ydata_profiling import ProfileReport

### Dataset sobre preço de carros usados:
https://data.world/data-society/used-cars-data

#### Dicionário de Dados

- **dateCrawled:** Data em que o anúncio foi rastreado pela primeira vez; todos os valores dos campos são obtidos dessa data.
- **name:** Nome do carro.
- **seller:** Vendedor, pode ser particular ou revendedor.
- **offerType:** Tipo de oferta.
- **price:** Preço anunciado para vender o carro.
- **abtest:** Teste A/B.
- **vehicleType:** Tipo de veículo.
- **yearOfRegistration:** Ano em que o carro foi registrado pela primeira vez.
- **gearbox:** Tipo de câmbio.
- **powerPS:** Potência do carro em PS.
- **model:** Modelo do carro.
- **kilometer:** Quilometragem do carro.
- **monthOfRegistration:** Mês em que o carro foi registrado pela primeira vez.
- **fuelType:** Tipo de combustível.
- **brand:** Marca do carro.
- **notRepairedDamage:** Indica se o carro tem algum dano não reparado.
- **dateCreated:** Data em que o anúncio foi criado no eBay.
- **nrOfPictures:** Número de imagens no anúncio.
- **postalCode:** Código postal.

In [3]:
df = pd.read_csv("dados/autos.csv", encoding="ISO-8859-1")
df.head(3)

Unnamed: 0,dateCrawled,name,seller,offerType,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,kilometer,monthOfRegistration,fuelType,brand,notRepairedDamage,dateCreated,nrOfPictures,postalCode,lastSeen
0,2016-03-24 11:52:17,Golf_3_1.6,privat,Angebot,480,test,,1993,manuell,0,golf,150000,0,benzin,volkswagen,,2016-03-24 00:00:00,0,70435,2016-04-07 03:16:57
1,2016-03-24 10:58:45,A5_Sportback_2.7_Tdi,privat,Angebot,18300,test,coupe,2011,manuell,190,,125000,5,diesel,audi,ja,2016-03-24 00:00:00,0,66954,2016-04-07 01:46:50
2,2016-03-14 12:52:21,"Jeep_Grand_Cherokee_""Overland""",privat,Angebot,9800,test,suv,2004,automatik,163,grand,125000,8,diesel,jeep,,2016-03-14 00:00:00,0,90480,2016-04-05 12:47:46


### Comando "describe" que retorna algumas informações do DataFrame

In [4]:
df.describe()

Unnamed: 0,price,yearOfRegistration,powerPS,kilometer,monthOfRegistration,nrOfPictures,postalCode
count,371528.0,371528.0,371528.0,371528.0,371528.0,371528.0,371528.0
mean,17295.14,2004.577997,115.549477,125618.688228,5.734445,0.0,50820.66764
std,3587954.0,92.866598,192.139578,40112.337051,3.712412,0.0,25799.08247
min,0.0,1000.0,0.0,5000.0,0.0,0.0,1067.0
25%,1150.0,1999.0,70.0,125000.0,3.0,0.0,30459.0
50%,2950.0,2003.0,105.0,150000.0,6.0,0.0,49610.0
75%,7200.0,2008.0,150.0,150000.0,9.0,0.0,71546.0
max,2147484000.0,9999.0,20000.0,150000.0,12.0,0.0,99998.0


### Relatório com informações do perfil dos dados a partir da biblioteca "ydata_profiling"

In [5]:
profile = ProfileReport(df, title="Pandas Profiling Report") # cria o relatório

profile.to_file("resultados.html")

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

(using `df.profile_report(correlations={"auto": {"calculate": False}})`
If this is problematic for your use case, please report this as an issue:
https://github.com/ydataai/ydata-profiling/issues
(include the error message: 'could not convert string to float: 'test'')
  annotation = ("{:" + self.fmt + "}").format(val)
(using `df.profile_report(missing_diagrams={"Heatmap": False}`)
If this is problematic for your use case, please report this as an issue:
https://github.com/ydataai/ydata-profiling/issues
(include the error message: 'could not convert string to float: '--'')


Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

### Tipos de cada coluna no Dataframe

In [6]:
df.dtypes

dateCrawled            object
name                   object
seller                 object
offerType              object
price                   int64
abtest                 object
vehicleType            object
yearOfRegistration      int64
gearbox                object
powerPS                 int64
model                  object
kilometer               int64
monthOfRegistration     int64
fuelType               object
brand                  object
notRepairedDamage      object
dateCreated            object
nrOfPictures            int64
postalCode              int64
lastSeen               object
dtype: object

### Cria um dataframe copia para começar a limpeza dos dados. O primeiro passo será definir o tipo das colunas que não serão de texto.

In [7]:
df_cln = df.copy()

list_datetime = ["dateCrawled", "dateCreated", "lastSeen"]

for column in list_datetime:
    df_cln[column] = pd.to_datetime(df_cln[column], format="%Y-%m-%d %H:%M:%S")

In [9]:
list_int = ['yearOfRegistration', 'monthOfRegistration', 'nrOfPictures', 'postalCode']
for column in list_int:
    df_cln[column] = df_cln[column].astype("int")

In [8]:
list_float = ['price', 'powerPS', 'kilometer']
for column in list_float:
    df_cln[column] = df_cln[column].astype("float")

### Verifica os novos tipos de cada coluna

In [10]:
df_cln.dtypes

dateCrawled            datetime64[ns]
name                           object
seller                         object
offerType                      object
price                         float64
abtest                         object
vehicleType                    object
yearOfRegistration              int32
gearbox                        object
powerPS                       float64
model                          object
kilometer                     float64
monthOfRegistration             int32
fuelType                       object
brand                          object
notRepairedDamage              object
dateCreated            datetime64[ns]
nrOfPictures                    int32
postalCode                      int32
lastSeen               datetime64[ns]
dtype: object

### Verifica as colunas com valores nulos

In [11]:
res_missing = df_cln.isna().sum()
res_missing = (res_missing/len(df_cln))*100
res_missing.sort_values(ascending=False)

notRepairedDamage      19.395577
vehicleType            10.192771
fuelType                8.986133
model                   5.513447
gearbox                 5.439429
kilometer               0.000000
postalCode              0.000000
nrOfPictures            0.000000
dateCreated             0.000000
brand                   0.000000
monthOfRegistration     0.000000
dateCrawled             0.000000
name                    0.000000
powerPS                 0.000000
yearOfRegistration      0.000000
abtest                  0.000000
price                   0.000000
offerType               0.000000
seller                  0.000000
lastSeen                0.000000
dtype: float64

### Função para verificar os casos nulos

In [12]:
def check_missing(df):
    res_missing = df.isna().sum()
    res_missing = (res_missing/len(df))*100
    return res_missing

In [13]:
check_missing(df_cln).sort_values(ascending=False)

notRepairedDamage      19.395577
vehicleType            10.192771
fuelType                8.986133
model                   5.513447
gearbox                 5.439429
kilometer               0.000000
postalCode              0.000000
nrOfPictures            0.000000
dateCreated             0.000000
brand                   0.000000
monthOfRegistration     0.000000
dateCrawled             0.000000
name                    0.000000
powerPS                 0.000000
yearOfRegistration      0.000000
abtest                  0.000000
price                   0.000000
offerType               0.000000
seller                  0.000000
lastSeen                0.000000
dtype: float64

### Preenchimento dos campos nulos com valores fixos 

In [23]:
df_cln["notRepairedDamage"].value_counts()
# df_cln["notRepairedDamage"].value_counts(dropna=False)

notRepairedDamage
nein    263182
ja       36286
Name: count, dtype: int64

In [24]:
df_cln["notRepairedDamage"] = df_cln["notRepairedDamage"].fillna("no_info")

In [25]:
df_cln["notRepairedDamage"].value_counts()

notRepairedDamage
nein       263182
no_info     72060
ja          36286
Name: count, dtype: int64

### Preenchimento dos campos nulos com valores fixos 

In [28]:
df_cln["gearbox"].value_counts(dropna=False)

gearbox
manuell      274214
automatik     77105
NaN           20209
Name: count, dtype: int64

In [29]:
df_cln["gearbox"] = df_cln["gearbox"].fillna("no_info")

In [30]:
df_cln["gearbox"].value_counts()

gearbox
manuell      274214
automatik     77105
no_info       20209
Name: count, dtype: int64

In [39]:
df_cln["vehicleType"].value_counts(dropna=False)

vehicleType
limousine     95894
kleinwagen    80023
kombi         67564
NaN           37869
bus           30201
cabrio        22898
coupe         19015
suv           14707
andere         3357
Name: count, dtype: int64

In [40]:
df_cln["vehicleType"] = df_cln["vehicleType"].fillna("no_info")

In [41]:
df_cln["vehicleType"].value_counts()

vehicleType
limousine     95894
kleinwagen    80023
kombi         67564
no_info       37869
bus           30201
cabrio        22898
coupe         19015
suv           14707
andere         3357
Name: count, dtype: int64

### Preenchimento dos campos nulos com o campo que mais se repete

In [32]:
df_cln["fuelType"].value_counts()

fuelType
benzin     223857
diesel     107746
lpg          5378
cng           571
hybrid        278
andere        208
elektro       104
Name: count, dtype: int64

In [33]:
high_freq = df_cln["fuelType"].value_counts().idxmax()
df_cln["fuelType"] = df_cln["fuelType"].fillna(high_freq)

In [35]:
df_cln["fuelType"].value_counts()

fuelType
benzin     257243
diesel     107746
lpg          5378
cng           571
hybrid        278
andere        208
elektro       104
Name: count, dtype: int64

### Preenchimento dos campos nulos com valores fixos de outra coluna

In [42]:
df_cln["model"] = df_cln["model"].fillna(df_cln["vehicleType"])

In [43]:
df_cln["model"].value_counts()

model
golf               30070
andere             26899
3er                20567
polo               13092
corsa              12573
                   ...  
serie_2                8
rangerover             6
serie_3                4
serie_1                2
discovery_sport        1
Name: count, Length: 259, dtype: int64

### Preenchimento dos campos nulos com valores fixos de outra coluna

### Verifica os resultados nulos após o tratamento

In [44]:
check_missing(df_cln).sort_values(ascending=False)

dateCrawled            0.0
name                   0.0
postalCode             0.0
nrOfPictures           0.0
dateCreated            0.0
notRepairedDamage      0.0
brand                  0.0
fuelType               0.0
monthOfRegistration    0.0
kilometer              0.0
model                  0.0
powerPS                0.0
gearbox                0.0
yearOfRegistration     0.0
vehicleType            0.0
abtest                 0.0
price                  0.0
offerType              0.0
seller                 0.0
lastSeen               0.0
dtype: float64

### Eliminando os campos duplicados

In [45]:
print("N. de linhas antes de remover duplicadas:", len(df_cln))
df_cln = df_cln.drop_duplicates()
print("N. de linhas depois de remover duplicadas:", len(df_cln))

N. de linhas antes de remover duplicadas: 371528
N. de linhas depois de remover duplicadas: 371524


### Eliminando as colunas constantes

In [46]:
list_constants = [col for col in df_cln.columns if df_cln[col].nunique() == 1]
list_constants

['nrOfPictures']

In [47]:
print("N. de colunas antes de remover colunas constantes:", len(df_cln.columns))
df_cln = df_cln.drop(list_constants, axis=1)
print("N. de colunas depois de remover colunas constantes:", len(df_cln.columns))

N. de colunas antes de remover colunas constantes: 20
N. de colunas depois de remover colunas constantes: 19


### Eliminando as colunas extremamente desbalanceadas

### Exemplo:
![Texto alternativo da imagem](normalizacao-de-dados.png)
<br>

In [48]:
df_cln["offerType"].value_counts(normalize=True)

offerType
Angebot    0.999968
Gesuch     0.000032
Name: proportion, dtype: float64

In [51]:
df_cln["offerType"].value_counts(normalize=True).values[0]

0.9999677006061519

In [53]:
list_balance = []
limit = 0.98
for col in df_cln.columns:
    perc = df_cln[col].value_counts(normalize=True).values[0]
    if perc > limit:
        list_balance.append(col)
        print(col, perc)

seller 0.999991925151538
offerType 0.9999677006061519


In [54]:
df_cln = df_cln.drop(list_balance, axis=1)

### Verificação dos resultados depois de eliminar as colunas extremamente desbalanceadas

In [56]:
limit = 0.98
for col in df_cln.columns:
    perc = df_cln[col].value_counts(normalize=True).values[0]
    if perc > limit:
        print(col, perc)

### Verificação da precisão dos dados

### Os meses precisam estar no intervalo: 1 <= meses <= 12 

In [57]:
df_cln[(df_cln['monthOfRegistration'] < 1) | (df_cln['monthOfRegistration'] > 12)]

Unnamed: 0,dateCrawled,name,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,kilometer,monthOfRegistration,fuelType,brand,notRepairedDamage,dateCreated,postalCode,lastSeen
0,2016-03-24 11:52:17,Golf_3_1.6,480.0,test,no_info,1993,manuell,0.0,golf,150000.0,0,benzin,volkswagen,no_info,2016-03-24,70435,2016-04-07 03:16:57
9,2016-03-17 10:53:50,VW_Golf_4_5_tuerig_zu_verkaufen_mit_Anhaengerk...,999.0,test,kleinwagen,1998,manuell,101.0,golf,150000.0,0,benzin,volkswagen,no_info,2016-03-17,27472,2016-03-31 17:17:06
15,2016-03-11 21:39:15,KA_Lufthansa_Edition_450_VB,450.0,test,kleinwagen,1910,no_info,0.0,ka,5000.0,0,benzin,ford,no_info,2016-03-11,24148,2016-03-19 08:46:47
16,2016-04-01 12:46:46,Polo_6n_1_4,300.0,test,no_info,2016,no_info,60.0,polo,150000.0,0,benzin,volkswagen,no_info,2016-04-01,38871,2016-04-01 12:46:46
36,2016-03-11 11:50:37,Opel_Kadett_E_CC,1600.0,control,andere,1991,manuell,75.0,kadett,70000.0,0,benzin,opel,no_info,2016-03-11,2943,2016-04-07 03:46:09
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
371460,2016-04-03 13:46:24,Polo_g40_auch_Tausch_vag...no_vr6_gti_1.8t,3500.0,control,no_info,1995,no_info,0.0,polo,150000.0,0,benzin,volkswagen,no_info,2016-04-03,74579,2016-04-05 12:44:38
371473,2016-03-15 19:57:11,Subaru_Allrad,400.0,control,kombi,1991,manuell,0.0,legacy,150000.0,0,benzin,subaru,no_info,2016-03-15,24558,2016-03-19 15:49:00
371482,2016-03-31 19:36:18,Peugeot_206,1300.0,control,kleinwagen,1999,manuell,75.0,2_reihe,125000.0,0,benzin,peugeot,no_info,2016-03-31,35102,2016-04-06 13:44:44
371486,2016-03-30 20:55:30,Zu_verkaufen,350.0,control,kleinwagen,1996,no_info,65.0,punto,150000.0,0,benzin,fiat,no_info,2016-03-30,25436,2016-04-07 13:50:41


In [58]:
df_cln.loc[(df_cln['monthOfRegistration'] < 1) |(df_cln['monthOfRegistration'] > 12), 'monthOfRegistration'] = -1

### Verificação do resultado 

In [59]:
df_cln[((df_cln['monthOfRegistration'] < 1) |(df_cln['monthOfRegistration'] > 12)) & (df_cln['monthOfRegistration'] != -1)]

Unnamed: 0,dateCrawled,name,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,kilometer,monthOfRegistration,fuelType,brand,notRepairedDamage,dateCreated,postalCode,lastSeen


### Os anos precisam estar no intervalo: 1900 <= ano <= 2016 

In [60]:
df_cln[(df_cln['yearOfRegistration'] < 1900) | (df_cln['yearOfRegistration'] > 2016)]

Unnamed: 0,dateCrawled,name,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,kilometer,monthOfRegistration,fuelType,brand,notRepairedDamage,dateCreated,postalCode,lastSeen
22,2016-03-23 14:52:51,Opel_Meriva_1.Hand_TÜV_3.2018,2900.0,test,no_info,2018,manuell,90.0,meriva,150000.0,5,benzin,opel,nein,2016-03-23,49716,2016-03-31 01:16:33
26,2016-03-10 19:38:18,Citroen_C4_Grand_Picasso.,5555.0,control,no_info,2017,manuell,125.0,c4,125000.0,4,benzin,citroen,nein,2016-03-10,31139,2016-03-16 09:16:46
48,2016-03-25 14:40:12,VW_Golf_6___Klima___Alu___Scheckheft_!!!,7750.0,control,no_info,2017,manuell,80.0,golf,100000.0,1,benzin,volkswagen,no_info,2016-03-25,48499,2016-03-31 21:47:44
51,2016-03-07 18:57:08,Fiat_punto_5_tuerer__6_gang,2000.0,control,no_info,2017,manuell,90.0,punto,150000.0,11,diesel,fiat,ja,2016-03-07,66115,2016-03-07 18:57:08
58,2016-03-10 20:53:19,Seat_inca_1.9SDI___LKW_Zulassung___TÜV_NEU,2399.0,test,no_info,2018,manuell,64.0,andere,125000.0,3,benzin,seat,nein,2016-03-10,33397,2016-03-25 10:17:37
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
371258,2016-03-11 15:49:51,Ford_Transit_280_K_TDCI_LKW_TREND._Scheckheft,3600.0,test,no_info,2017,manuell,86.0,transit,150000.0,5,diesel,ford,no_info,2016-03-11,32339,2016-03-12 05:45:02
371286,2016-03-29 16:47:29,Audi_a4__zu_verkaufen,1000.0,control,no_info,2017,manuell,101.0,a4,150000.0,9,benzin,audi,no_info,2016-03-29,38315,2016-04-06 02:44:27
371354,2016-03-17 00:56:26,FORD_Fiesta__2.Hand__TÜV_neu,2140.0,test,no_info,2018,manuell,80.0,fiesta,150000.0,6,benzin,ford,nein,2016-03-17,44866,2016-03-29 15:45:04
371407,2016-03-25 09:37:59,Opel_Corsa_C,1250.0,test,no_info,2018,no_info,0.0,corsa,150000.0,-1,benzin,opel,no_info,2016-03-25,45527,2016-04-06 07:46:13


In [61]:
df_cln.loc[(df_cln['yearOfRegistration'] < 1900) |(df_cln['yearOfRegistration'] > 2016), 'yearOfRegistration'] = 1900

### Verificação do resultado 

In [62]:
df_cln[(df_cln['yearOfRegistration']<1900) | (df_cln['yearOfRegistration']>2016)]

Unnamed: 0,dateCrawled,name,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,kilometer,monthOfRegistration,fuelType,brand,notRepairedDamage,dateCreated,postalCode,lastSeen


In [63]:
df_cln.describe()

Unnamed: 0,dateCrawled,price,yearOfRegistration,powerPS,kilometer,monthOfRegistration,dateCreated,postalCode,lastSeen
count,371524,371524.0,371524.0,371524.0,371524.0,371524.0,371524,371524.0,371524
mean,2016-03-21 13:30:30.336384512,17295.3,1998.699879,115.549039,125618.842928,5.633044,2016-03-20 19:42:50.398682624,50820.49427,2016-03-30 03:37:56.511738112
min,2016-03-05 14:06:22,0.0,1900.0,0.0,5000.0,-1.0,2014-03-10 00:00:00,1067.0,2016-03-05 14:15:08
25%,2016-03-13 12:51:46.500000,1150.0,1998.0,70.0,125000.0,3.0,2016-03-13 00:00:00,30459.0,2016-03-23 11:36:06.750000128
50%,2016-03-21 18:36:22,2950.0,2003.0,105.0,150000.0,6.0,2016-03-21 00:00:00,49610.0,2016-04-03 23:17:18
75%,2016-03-29 14:49:31.249999872,7200.0,2007.0,150.0,150000.0,9.0,2016-03-29 00:00:00,71546.0,2016-04-06 10:45:02
max,2016-04-07 14:36:58,2147484000.0,2016.0,20000.0,150000.0,12.0,2016-04-07 00:00:00,99998.0,2016-04-07 14:58:51
std,,3587973.0,21.335832,192.140488,40112.138811,3.877658,,25799.08841,


### Os preços precisam ser maiores que 0

In [64]:
df_cln = df_cln[df_cln["price"] > 0]

In [65]:
df_cln.describe()

Unnamed: 0,dateCrawled,price,yearOfRegistration,powerPS,kilometer,monthOfRegistration,dateCreated,postalCode,lastSeen
count,360746,360746.0,360746.0,360746.0,360746.0,360746.0,360746,360746.0,360746
mean,2016-03-21 13:28:33.416301568,17812.03,1998.905718,116.575923,125661.823,5.703282,2016-03-20 19:38:18.377251328,50996.062246,2016-03-30 04:41:29.232967168
min,2016-03-05 14:06:22,1.0,1900.0,0.0,5000.0,-1.0,2014-03-10 00:00:00,1067.0,2016-03-05 14:15:08
25%,2016-03-13 12:50:46.249999872,1250.0,1998.0,72.0,100000.0,3.0,2016-03-13 00:00:00,30823.0,2016-03-23 12:48:59.249999872
50%,2016-03-21 18:06:19,3000.0,2003.0,105.0,150000.0,6.0,2016-03-21 00:00:00,49751.0,2016-04-04 02:44:25
75%,2016-03-29 14:50:34,7490.0,2007.0,150.0,150000.0,9.0,2016-03-29 00:00:00,71672.0,2016-04-06 10:45:56
max,2016-04-07 14:36:58,2147484000.0,2016.0,20000.0,150000.0,12.0,2016-04-07 00:00:00,99998.0,2016-04-07 14:58:51
std,,3641176.0,21.095961,190.609039,39836.433575,3.837602,,25760.472206,


### Eliminação de Outliers

#### Exemplo de distribuição e quantil
<img src="https://media.geeksforgeeks.org/wp-content/uploads/20201127112813/NORMALDISTRIBUTION-660x362.png"  width="80%" height="60%">

In [70]:
df_cln[['price', 'powerPS']].quantile(.02)

price      200.0
powerPS      0.0
Name: 0.02, dtype: float64

In [67]:
df_cln[['price', 'powerPS']].quantile(.98)

price      28500.0
powerPS      300.0
Name: 0.98, dtype: float64

In [68]:
print("Quantidade de linhas antes de eliminar os outliers:", len(df_cln))
list_quantile = ['powerPS']
df_aux = df_cln.copy()
for col in list_quantile:
    low_limit = df_aux[col].quantile(.02)
    high_limit = df_aux[col].quantile(.98)
    df_aux = df_aux[(df_aux[col] > low_limit) & (df_aux[col] < high_limit)]

print("Quantidade de linhas depois de eliminar os outliers:", len(df_aux))

Quantidade de linhas antes de eliminar os outliers: 360746
Quantidade de linhas depois de eliminar os outliers: 303950


In [69]:
df_aux.describe()

Unnamed: 0,dateCrawled,price,yearOfRegistration,powerPS,kilometer,monthOfRegistration,dateCreated,postalCode,lastSeen
count,303950,303950.0,303950.0,303950.0,303950.0,303950.0,303950,303950.0,303950
mean,2016-03-21 13:49:21.198183936,5276.306702,1999.674131,118.893627,126693.535121,5.933173,2016-03-20 19:54:49.685803776,51349.131683,2016-03-30 06:50:40.379065344
min,2016-03-05 14:06:23,202.0,1900.0,1.0,5000.0,-1.0,2015-03-20 00:00:00,1067.0,2016-03-05 14:15:08
25%,2016-03-13 12:45:21.249999872,1400.0,1999.0,80.0,125000.0,3.0,2016-03-13 00:00:00,31079.0,2016-03-23 16:41:56.750000128
50%,2016-03-21 18:44:27.500000,3300.0,2003.0,113.0,150000.0,6.0,2016-03-21 00:00:00,50354.0,2016-04-04 07:48:56
75%,2016-03-29 15:06:22.750000128,7299.0,2007.0,150.0,150000.0,9.0,2016-03-29 00:00:00,72141.0,2016-04-06 11:15:51
max,2016-04-07 14:36:58,28499.0,2016.0,271.0,150000.0,12.0,2016-04-07 00:00:00,99998.0,2016-04-07 14:58:51
std,,5383.695958,19.61127,47.522125,38142.271725,3.692433,,25741.482542,


### Gera os novos resultados

In [71]:
profile = ProfileReport(df_aux, title="Pandas Profiling Report") # cria o relatório

profile.to_file("novos_resultados.html")

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

  discretized_df.loc[:, column] = self._discretize_column(
  discretized_df.loc[:, column] = self._discretize_column(
  discretized_df.loc[:, column] = self._discretize_column(
(using `df.profile_report(correlations={"auto": {"calculate": False}})`
If this is problematic for your use case, please report this as an issue:
https://github.com/ydataai/ydata-profiling/issues
(include the error message: 'could not convert string to float: 'test'')


Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

#### Salvar o dataframe como um csv para utilizarmos na próxima aula 

In [72]:
df_aux.to_csv('dados/autos_cleaned.csv', index=False)

In [73]:
df.columns

Index(['dateCrawled', 'name', 'seller', 'offerType', 'price', 'abtest',
       'vehicleType', 'yearOfRegistration', 'gearbox', 'powerPS', 'model',
       'kilometer', 'monthOfRegistration', 'fuelType', 'brand',
       'notRepairedDamage', 'dateCreated', 'nrOfPictures', 'postalCode',
       'lastSeen'],
      dtype='object')

In [74]:
from sqlalchemy import create_engine, text as sql_text
import pandas as pd
engine = create_engine('postgresql://postgres:ada@localhost/ada')
df = pd.read_csv("dados/autos_cleaned.csv", encoding="ISO-8859-1")

In [75]:
df.dtypes

dateCrawled             object
name                    object
price                  float64
abtest                  object
vehicleType             object
yearOfRegistration       int64
gearbox                 object
powerPS                float64
model                   object
kilometer              float64
monthOfRegistration      int64
fuelType                object
brand                   object
notRepairedDamage       object
dateCreated             object
postalCode               int64
lastSeen                object
dtype: object

In [76]:
df_aux.to_sql('autos_cleaned', engine, if_exists='replace', index=False)

950

In [77]:
query = """
SELECT * 
FROM autos_cleaned
"""
df_gold = pd.read_sql(sql=sql_text(query), con=engine.connect())
df_gold

Unnamed: 0,dateCrawled,name,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,kilometer,monthOfRegistration,fuelType,brand,notRepairedDamage,dateCreated,postalCode,lastSeen
0,2016-03-24 10:58:45,A5_Sportback_2.7_Tdi,18300.0,test,coupe,2011,manuell,190.0,coupe,125000.0,5,diesel,audi,ja,2016-03-24,66954,2016-04-07 01:46:50
1,2016-03-14 12:52:21,"Jeep_Grand_Cherokee_""Overland""",9800.0,test,suv,2004,automatik,163.0,grand,125000.0,8,diesel,jeep,no_info,2016-03-14,90480,2016-04-05 12:47:46
2,2016-03-17 16:54:04,GOLF_4_1_4__3TÜRER,1500.0,test,kleinwagen,2001,manuell,75.0,golf,150000.0,6,benzin,volkswagen,nein,2016-03-17,91074,2016-03-17 17:40:17
3,2016-03-31 17:25:20,Skoda_Fabia_1.4_TDI_PD_Classic,3600.0,test,kleinwagen,2008,manuell,69.0,fabia,90000.0,7,diesel,skoda,nein,2016-03-31,60437,2016-04-06 10:17:21
4,2016-04-04 17:36:23,BMW_316i___e36_Limousine___Bastlerfahrzeug__Ex...,650.0,test,limousine,1995,manuell,102.0,3er,150000.0,10,benzin,bmw,ja,2016-04-04,33775,2016-04-06 19:17:07
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
303945,2016-03-09 13:37:43,Alfa_Romeo_159_Jtdm_1.9_150_ps_13_600_km_top_voll,5250.0,control,no_info,2016,automatik,150.0,159,150000.0,12,benzin,alfa_romeo,nein,2016-03-09,51371,2016-03-13 01:44:13
303946,2016-03-19 19:53:49,turbo_defekt,3200.0,control,limousine,2004,manuell,225.0,leon,150000.0,5,benzin,seat,ja,2016-03-19,96465,2016-03-19 20:44:43
303947,2016-03-05 19:56:21,Smart_smart_leistungssteigerung_100ps,1199.0,test,cabrio,2000,automatik,101.0,fortwo,125000.0,3,benzin,smart,nein,2016-03-05,26135,2016-03-11 18:17:12
303948,2016-03-19 18:57:12,Volkswagen_Multivan_T4_TDI_7DC_UY2,9200.0,test,bus,1996,manuell,102.0,transporter,150000.0,3,diesel,volkswagen,nein,2016-03-19,87439,2016-04-07 07:15:26
