# Introdução à Ciência de Dados - Projeto 1

<p align="justify">
Nesse proejto iremos realizar uma análise de dad os sobre um dataset de carros usados da cidade de Recife - PE. O dataset foi montado a partir de dados coletados por webscraping de diversos sites de vendas. O dataset contém informações sobre o preço, ano, quilometragem, marca, modelo, tipo de combustível, tipo de câmbio e cor dos veículos. O objetivo desse projeto é realizar uma análise exploratória dos dados, respondendo a algumas perguntas sobre o dataset e gerando visualizações que possam ajudar a entender melhor o dataset.

### Equipe:
> Pedro Henrique Almeida Girão Peixinho (phagp)

> Victor Gabriel de Carvalho (vgc3)

### Tópicos Avançados em Gerenciamento de Dados e Informação IF697 - 2024.1 - Centro de Informáica UFPE

## Imports e Configurações

In [34]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import plotly.io as pio

from sklearn.preprocessing import StandardScaler, MinMaxScaler, RobustScaler

from fancyimpute import KNN

# from google.colab import drive
# drive.mount('/content/drive')

Aqui está o dataset montado, ele é composto por 1165 amostras com 11 features cada.

In [35]:
df_cars = pd.read_csv('carscraper\cars.csv')
df_cars.shape

(1124, 12)

---

## Pré-processamento dos Dados

<p align="justify">
Nessa etapa, será feita a leitura do dataset e a análise inicial dos dados. Mais precisamente, focaremos na definição e correção de tipos de dados, tratamento de valores faltantes, mormalização e discretização de dados, e limpeza geral.

<p align="justify">
Abaixo está a aparência inicial do dataset, após a leitura dos dados. Veja que algumas colunas não apresentam valores estatísticos significantes para a análise, como a coluna de "page" e a de "car_desc" (que ja teve seus valores diluídos entre outras colunas, como a "car_engine" e "car_gearbox"). Elas serão removidas do dataset.

In [36]:
df_cars.head()

Unnamed: 0,page,car_brand,car_name,car_price,car_km,car_year,car_desc,car_store,car_engine,car_gearbox,car_fuel,car_color
0,https://grupoautonunes.com/estoque/?zero_km=0&...,Fiat,500E,125990.0,7521.0,2022,ICON ELÉTRICO,,Elétrico,Automatico,Elétrico,
1,https://grupoautonunes.com/estoque/?zero_km=0&...,Audi,Q3,128980.0,40000.0,2018,1.4 TFSI AMBIENTE FLEX 4P S TRONIC,,1.4,Automatico,Flex,
2,https://grupoautonunes.com/estoque/?zero_km=0&...,Chevrolet,Onix,70990.0,40686.0,2023,1.0 FLEX LT MANUAL,,1.0,Manual,Flex,
3,https://grupoautonunes.com/estoque/?zero_km=0&...,Chevrolet,Onix,79990.0,57643.0,2022,1.0 TURBO FLEX PLUS LTZ AUTOMÁTICO,,1.0 Turbo,Automatico,Flex,
4,https://grupoautonunes.com/estoque/?zero_km=0&...,Volkswagen,Saveiro,77990.0,29000.0,2023,1.6 MSI TRENDLINE CS 8V FLEX 2P MANUAL,,1.6,Manual,Flex,


<p align="justify">
Além das colunas irrelevantes, será feita a remoção de linhas duplicadas, caso existam.

In [37]:
df_cars.drop(['page', 'car_name', 'car_desc'], axis=1, inplace=True)
df_cars.drop_duplicates(inplace=True)

df_cars.shape

(1103, 9)

<p align="justify">
Agora podemos fazer a primeira análise dos dados numéricos do dataset.

In [38]:
df_cars.describe()

Unnamed: 0,car_price,car_km,car_year
count,1103.0,1103.0,1103.0
mean,107248.161378,45323.883953,2020.113327
std,104532.480654,33650.024486,3.032617
min,24990.0,0.0,2000.0
25%,59900.0,25113.5,2019.0
50%,76990.0,43339.0,2021.0
75%,109900.0,61505.0,2022.0
max,968900.0,654000.0,2025.0


---

### Definição de Tipos

<p align="justify">
Agora iremos fazer o tratamento dos tipos de dados do dataset. Isso é importante para carantir a correture das operações estatísticas e visualizações que iremos realizar sobre os dados. Apesar do crawler ter feito um bom trabalho em relação aos tipos de dados, ainda existem algumas colunas que precisam ser ajustadas.

In [39]:
df_cars.dtypes

car_brand       object
car_price      float64
car_km         float64
car_year         int64
car_store       object
car_engine      object
car_gearbox     object
car_fuel        object
car_color       object
dtype: object

<p align="justify">
A primeira coisa a ser é mudar o tipo de dados de "object" para "category", para as colunas que representam categorias. Isso é importante para facilitar a manipulação desses dados e possibilitar uma série de operações nativas do pandas.

In [40]:
df_cars['car_brand'] = df_cars['car_brand'].astype('category')
df_cars['car_engine'] = df_cars['car_engine'].astype('category')
df_cars['car_gearbox'] = df_cars['car_gearbox'].astype('category')
df_cars['car_fuel'] = df_cars['car_fuel'].astype('category')
df_cars['car_color'] = df_cars['car_color'].astype('category')
df_cars['car_store'] = df_cars['car_store'].astype('category')

df_categories = df_cars.copy()

df_cars.dtypes

car_brand      category
car_price       float64
car_km          float64
car_year          int64
car_store      category
car_engine     category
car_gearbox    category
car_fuel       category
car_color      category
dtype: object

<p align="justify">
Uma das possibilidades ao se usar o tipo categórico é a visualização de todas as categorias por feature, como é mostrado abaixo.

In [41]:
print(df_cars['car_brand'].cat.categories)
print(df_cars['car_engine'].cat.categories)
print(df_cars['car_gearbox'].cat.categories)
print(df_cars['car_fuel'].cat.categories)
print(df_cars['car_color'].cat.categories)
print(df_cars['car_store'].cat.categories)

Index(['Alfa', 'Audi', 'Bmw', 'Byd', 'Caoa', 'Chery', 'Chevrolet', 'Citroën',
       'Fiat', 'Ford', 'Honda', 'Hyundai', 'Jaguar', 'Jeep', 'Kia', 'Land',
       'Lexus', 'Mercedes-Benz', 'Mini', 'Mitsubishi', 'Nissan', 'Peugeot',
       'Porsche', 'Ram', 'Renault', 'Smart', 'Suzuki', 'Toyota', 'Troller',
       'Volkswagen', 'Volvo'],
      dtype='object')
Index(['1.0', '1.0 Turbo', '1.2', '1.2 Turbo', '1.3', '1.3 Turbo', '1.4',
       '1.4 Turbo', '1.5', '1.5 Turbo', '1.6', '1.6 Turbo', '1.8', '2.0',
       '2.0 Turbo', '2.3', '2.4', '2.5', '2.7', '2.8', '2.8 Turbo', '2.9',
       '3.0', '3.0 Turbo', '3.2', '3.2 Turbo', '3.6', '4.0', '6.7 Turbo',
       'Elétrico'],
      dtype='object')
Index(['Automatico', 'Manual'], dtype='object')
Index(['Diesel', 'Elétrico', 'Flex', 'Gasolina', 'Gnv', 'Híbrido'], dtype='object')
Index(['Azul', 'Branco', 'Cinza', 'Dourado', 'Laranja', 'Prata', 'Preto',
       'Verde', 'Vermelho'],
      dtype='object')
Index([' Pedragon Afogados ', ' Pedragon Av N

---

### Tratamento de Dados Ausentes

<p align="justify">
Com os tipos definidos, podemos agora analisar a presença de valores ausentes no dataset. Isso é importante para garantir a qualidade dos dados e evitar erros em operações estatísticas e visualizações. É muito comum, em datasets feios por webscraping, a presença de valores ausentes, então é importante lidar com eles de forma adequada.

In [42]:
df_cars.isnull().sum()

car_brand         0
car_price         0
car_km            0
car_year          0
car_store      1095
car_engine        0
car_gearbox       0
car_fuel         48
car_color       986
dtype: int64

<p align="justify">
A primeira coisa que faremos é a remoção de colunas com mais de 70% dos valores ausentes. Outros métodos de inferêncoa e adição de valores seria inviável, pois a quantidade de valores ausentes é muito grande.

In [43]:
df_cars.dropna(thresh=0.7*len(df_cars), axis=1, inplace=True)
df_cars.columns

Index(['car_brand', 'car_price', 'car_km', 'car_year', 'car_engine',
       'car_gearbox', 'car_fuel'],
      dtype='object')

<p align="justify">
Como era de se esperar, as colunas "car_store" e "car_color" foram removidas. Agora podemos analisar a presença de valores ausentes na coluna "car_engine" e "car_fuel", as única que ainda tem valores falntes.

In [44]:
df_cars.count()

car_brand      1103
car_price      1103
car_km         1103
car_year       1103
car_engine     1103
car_gearbox    1103
car_fuel       1055
dtype: int64

<p align="justify">
Para fazer os processos de adição de valores faltantes, é importante converter os campos categóricos para um formato numérico. Dessa forma, podemos fazer operações como média, KNN etc.

In [45]:
df_cars.dtypes

car_brand      category
car_price       float64
car_km          float64
car_year          int64
car_engine     category
car_gearbox    category
car_fuel       category
dtype: object

In [46]:
df_cars['car_brand'] = df_cars['car_brand'].cat.codes
df_cars['car_engine'] = df_cars['car_engine'].cat.codes
df_cars['car_gearbox'] = df_cars['car_gearbox'].cat.codes
df_cars['car_fuel'] = df_cars['car_fuel'].cat.codes.replace(-1, np.nan)

df_cars.count()

car_brand      1103
car_price      1103
car_km         1103
car_year       1103
car_engine     1103
car_gearbox    1103
car_fuel       1055
dtype: int64

In [47]:
print('Brand: ', df_cars['car_brand'].mean(), df_cars['car_brand'].median())
print('Engine: ', df_cars['car_engine'].mean(), df_cars['car_engine'].median())
print('Gearbox: ', df_cars['car_gearbox'].mean(), df_cars['car_gearbox'].median())
print('Fuel: ', df_cars['car_fuel'].mean(), df_cars['car_fuel'].median())

Brand:  14.053490480507707 11.0
Engine:  6.647325475974615 6.0
Gearbox:  0.45602901178603805 0.0
Fuel:  2.0113744075829385 2.0


Utilizando Média e Mediana

In [48]:
df_mean_fill = df_cars.copy()

df_mean_fill['car_fuel'] = df_mean_fill['car_fuel'].fillna(df_mean_fill['car_fuel'].mean())
df_mean_fill.isnull().sum()

car_brand      0
car_price      0
car_km         0
car_year       0
car_engine     0
car_gearbox    0
car_fuel       0
dtype: int64

In [49]:
print('Fuel: ', df_mean_fill['car_fuel'].mean(), df_mean_fill['car_fuel'].median())

Fuel:  2.011374407582938 2.0


In [50]:
df_median_fill = df_cars.copy()

df_median_fill['car_fuel'] = df_median_fill['car_fuel'].fillna(df_median_fill['car_fuel'].median())
df_median_fill.isnull().sum()

car_brand      0
car_price      0
car_km         0
car_year       0
car_engine     0
car_gearbox    0
car_fuel       0
dtype: int64

In [51]:
print('Fuel: ', df_median_fill['car_fuel'].mean(), df_median_fill['car_fuel'].median())

Fuel:  2.0108794197642794 2.0


Utilizando KNN

In [52]:
df_knn = KNN(k=5).fit_transform(df_cars)
df_knn.shape

Imputing row 1/1103 with 0 missing, elapsed time: 0.270
Imputing row 101/1103 with 0 missing, elapsed time: 0.271
Imputing row 201/1103 with 0 missing, elapsed time: 0.271
Imputing row 301/1103 with 1 missing, elapsed time: 0.273
Imputing row 401/1103 with 0 missing, elapsed time: 0.274
Imputing row 501/1103 with 0 missing, elapsed time: 0.274
Imputing row 601/1103 with 0 missing, elapsed time: 0.275
Imputing row 701/1103 with 0 missing, elapsed time: 0.275
Imputing row 801/1103 with 0 missing, elapsed time: 0.275
Imputing row 901/1103 with 0 missing, elapsed time: 0.275
Imputing row 1001/1103 with 0 missing, elapsed time: 0.275
Imputing row 1101/1103 with 0 missing, elapsed time: 0.276


(1103, 7)

In [53]:
df_knn_fill = pd.DataFrame(data=df_knn[0:,0:],columns=[df_cars.columns])
df_knn_fill.head()

Unnamed: 0,car_brand,car_price,car_km,car_year,car_engine,car_gearbox,car_fuel
0,8.0,125990.0,7521.0,2022.0,29.0,0.0,1.0
1,1.0,128980.0,40000.0,2018.0,6.0,0.0,2.0
2,6.0,70990.0,40686.0,2023.0,0.0,1.0,2.0
3,6.0,79990.0,57643.0,2022.0,1.0,0.0,2.0
4,29.0,77990.0,29000.0,2023.0,10.0,1.0,2.0


In [54]:
df_knn_fill.isnull().sum()

car_brand      0
car_price      0
car_km         0
car_year       0
car_engine     0
car_gearbox    0
car_fuel       0
dtype: int64

In [55]:
print('Fuel: ', df_knn_fill['car_fuel'].mean(), df_knn_fill['car_fuel'].median())

Fuel:  car_fuel    2.012581
dtype: float64 car_fuel    2.0
dtype: float64


In [56]:
df_knn_fill.describe()

Unnamed: 0,car_brand,car_price,car_km,car_year,car_engine,car_gearbox,car_fuel
count,1103.0,1103.0,1103.0,1103.0,1103.0,1103.0,1103.0
mean,14.05349,107248.161378,45323.883953,2020.113327,6.647325,0.456029,2.012581
std,8.661922,104532.480654,33650.024486,3.032617,6.548008,0.498289,0.727666
min,0.0,24990.0,0.0,2000.0,0.0,0.0,0.0
25%,6.0,59900.0,25113.5,2019.0,0.0,0.0,2.0
50%,11.0,76990.0,43339.0,2021.0,6.0,0.0,2.0
75%,24.0,109900.0,61505.0,2022.0,12.0,1.0,2.0
max,30.0,968900.0,654000.0,2025.0,29.0,1.0,5.0


<p align="justify">
A partir de agora, usaremos o dataset preenchido com o KNN como o dataset principal, para as anlaíses posteriores.

---

### Normalização e Discretização

<p align="justify">
O próximo passo é fazer a normalização dos dados numéricos do dataset. A normalização é importante para garantir que as features tenham a mesma escala, evitando que features com valores maiores dominem o resultado das operações. Utilizaremos tano o método de normalização Min-Max quanto o método de normalização padrão (removendo a média e escalando para variância unitária), ambos da biblioteca scikit-learn.

In [57]:
df_knn_fill.head()

Unnamed: 0,car_brand,car_price,car_km,car_year,car_engine,car_gearbox,car_fuel
0,8.0,125990.0,7521.0,2022.0,29.0,0.0,1.0
1,1.0,128980.0,40000.0,2018.0,6.0,0.0,2.0
2,6.0,70990.0,40686.0,2023.0,0.0,1.0,2.0
3,6.0,79990.0,57643.0,2022.0,1.0,0.0,2.0
4,29.0,77990.0,29000.0,2023.0,10.0,1.0,2.0


In [58]:
min_max_scaler = MinMaxScaler()
df_knn_fill_norm = min_max_scaler.fit_transform(df_knn_fill)
df_knn_fill_norm = pd.DataFrame(df_knn_fill_norm, columns=df_knn_fill.columns)
df_knn_fill_norm.head()

Unnamed: 0,car_brand,car_price,car_km,car_year,car_engine,car_gearbox,car_fuel
0,0.266667,0.107002,0.0115,0.88,1.0,0.0,0.2
1,0.033333,0.110169,0.061162,0.72,0.206897,0.0,0.4
2,0.2,0.048733,0.062211,0.92,0.0,1.0,0.4
3,0.2,0.058268,0.088139,0.88,0.034483,0.0,0.4
4,0.966667,0.056149,0.044343,0.92,0.344828,1.0,0.4


In [59]:
standard_scaler = StandardScaler()
df_knn_fill_std = standard_scaler.fit_transform(df_knn_fill)
df_knn_fill_std = pd.DataFrame(df_knn_fill_std, columns=df_knn_fill.columns)
df_knn_fill_std.head()

Unnamed: 0,car_brand,car_price,car_km,car_year,car_engine,car_gearbox,car_fuel
0,-0.699179,0.179373,-1.123923,0.622409,3.415208,-0.915605,-1.392177
1,-1.507681,0.20799,-0.158285,-0.697182,-0.098903,-0.915605,-0.017297
2,-0.93018,-0.347018,-0.13789,0.952307,-1.015628,1.092173,-0.017297
3,-0.93018,-0.260881,0.366261,0.622409,-0.862841,-0.915605,-0.017297
4,1.726325,-0.280022,-0.485328,0.952307,0.512247,1.092173,-0.017297


In [60]:
robust_scaler = RobustScaler()
df_knn_fill_robust = robust_scaler.fit_transform(df_knn_fill)
df_knn_fill_robust = pd.DataFrame(df_knn_fill_robust, columns=df_knn_fill.columns)
df_knn_fill_robust.head()

Unnamed: 0,car_brand,car_price,car_km,car_year,car_engine,car_gearbox,car_fuel
0,-0.166667,0.98,-0.984241,0.333333,1.916667,0.0,-1.0
1,-0.555556,1.0398,-0.091752,-1.0,0.0,0.0,0.0
2,-0.277778,-0.12,-0.072902,0.666667,-0.5,1.0,0.0
3,-0.277778,0.06,0.393059,0.333333,-0.416667,0.0,0.0
4,1.0,0.02,-0.394021,0.666667,0.333333,1.0,0.0


---

### Limpeza de Dados

In [61]:
fig = make_subplots(rows=2, cols=2)

fig.append_trace(go.Box(y=df_cars['car_price'], name='Price', quartilemethod="linear"), row=1, col=1)
fig.append_trace(go.Box(y=df_cars['car_km'], name='Mileage', quartilemethod="linear"), row=1, col=2)
fig.append_trace(go.Box(y=df_cars['car_year'], name='Release Year', quartilemethod="linear"), row=2, col=1)

fig.update_traces(boxpoints='all', jitter=0.3)
fig.update_layout(height=900, width=970, title_text="Numerical Columns Outliers")

---

In [62]:
fig = make_subplots(rows=4, cols=1)

fig.append_trace(go.Histogram(x=df_cars['car_price'], name='Price'), row=1, col=1)
fig.append_trace(go.Histogram(x=df_cars['car_km'], name='Mileage'), row=2, col=1)
fig.append_trace(go.Histogram(x=df_cars['car_year'], name='Release Year'), row=3, col=1)

fig.update_layout(height=900, width=970, title_text="Numerical Columns Histogram")
fig.show()

Mostrar histograma dos motores (utilizando dataframe antes de utilizar cat codes)

In [66]:
fig = go.Figure()

fig.add_trace(
    go.Histogram(x=df_categories['car_engine'])
)

fig.update_layout(height=900, width=970, title_text="Numerical Columns Histogram")
fig.show()

---

## Referências

- https://plotly.com/python/histograms/
- https://plotly.com/python/legend/