In [350]:
# import libraries
import pandas as pd 
import matplotlib.pyplot as plt 
import  numpy as np 
import plotly.express as px

import plotly.graph_objects as go
from plotly.subplots import make_subplots

import warnings
warnings.filterwarnings('ignore')


# Passo 1

> Utilizando a biblioteca de manipulação de dados, o Pandas, realize o upload da base de dados no Python para iniciar as análises. Ainda utilizando as ferramentas do Pandas, realize análises estatísticas descritivas sobre os dados, explorando todas as variáveis do modelo: variáveis qualitativas e quantitativas.

In [351]:
data: pd.DataFrame = pd.read_csv('../../data/cars.csv')
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 52 entries, 0 to 51
Data columns (total 27 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   id                     52 non-null     int64  
 1   brand                  52 non-null     object 
 2   model                  52 non-null     object 
 3   year                   52 non-null     int64  
 4   miles                  52 non-null     int64  
 5   city_mileage           52 non-null     int64  
 6   highway_mileage        52 non-null     int64  
 7   horsepower             52 non-null     int64  
 8   torque                 52 non-null     int64  
 9   engine_capacity_litre  52 non-null     float64
 10  fuel_capacity          52 non-null     float64
 11  num_cylinder           52 non-null     int64  
 12  num_seat               52 non-null     int64  
 13  num_owners             52 non-null     int64  
 14  price                  52 non-null     int64  
 15  link    

In [352]:
# modifica o tipo dos dados das colunas para melhor aproveitamento de memória e facilitar a análise
data['brand'] = data['brand'].astype('category')
data['model'] = data['model'].astype('category')
data['type'] = data['type'].astype('category')
data['engine_type'] = data['engine_type'].astype('category')
data['link'] = data['link'].astype('string')
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 52 entries, 0 to 51
Data columns (total 27 columns):
 #   Column                 Non-Null Count  Dtype   
---  ------                 --------------  -----   
 0   id                     52 non-null     int64   
 1   brand                  52 non-null     category
 2   model                  52 non-null     category
 3   year                   52 non-null     int64   
 4   miles                  52 non-null     int64   
 5   city_mileage           52 non-null     int64   
 6   highway_mileage        52 non-null     int64   
 7   horsepower             52 non-null     int64   
 8   torque                 52 non-null     int64   
 9   engine_capacity_litre  52 non-null     float64 
 10  fuel_capacity          52 non-null     float64 
 11  num_cylinder           52 non-null     int64   
 12  num_seat               52 non-null     int64   
 13  num_owners             52 non-null     int64   
 14  price                  52 non-null     int64

In [353]:
data.isna().sum()

id                        0
brand                     0
model                     0
year                      0
miles                     0
city_mileage              0
highway_mileage           0
horsepower                0
torque                    0
engine_capacity_litre     0
fuel_capacity             0
num_cylinder              0
num_seat                  0
num_owners                0
price                     0
link                      0
condition                51
type                      0
doors                     0
wheel_drive               0
engine_type               0
speed_levels              1
front_headroom            0
front_legroom             0
rear_headroom             0
rear_legroom              0
service_records           0
dtype: int64

### Tratamento de valores NaN e eliminação de colunas sem poder preditivo


  

A coluna __speed_level__  possui um valor _NaN_. O carro de __id__ = _13_ é aquele que possui o  __speed_level__  = _NaN_. Uma característica importante do veículo é o fato de que ele possui __engine_type__ igual a _hybrid_gas_electric_. Neste caso, para pensarmos em como tratar o dado _NaN_, é razoável verificarmos quais outros veículos da base de dados possuem o mesmo tipo de __engine_type__. 

In [354]:
data.query("engine_type == 'hybrid_gas_electric'").T

Unnamed: 0,0,7,18
id,3,13,24
brand,Chevrolet,Honda,Honda
model,Volt LT,Clarity,Insight
year,2019,2018,2019
miles,27173,29674,56233
city_mileage,43,44,55
highway_mileage,42,40,49
horsepower,149,212,151
torque,294,99,99
engine_capacity_litre,1.5,1.5,1.5


Como podemos verificar, os outros carros da base que posssem o tipo de __engine_type__ igual a _hybrid_gas_electric__ tem o  __speed_level__  = _6.0_. Então iremos assumir o  __speed_level__  = _6.0_ para o veículo de __id__ = _13_.	

In [355]:
data['speed_levels'] = data['speed_levels'].replace({np.NAN:6.0})
data.iloc[7,:]


id                                                                      13
brand                                                                Honda
model                                                              Clarity
year                                                                  2018
miles                                                                29674
city_mileage                                                            44
highway_mileage                                                         40
horsepower                                                             212
torque                                                                  99
engine_capacity_litre                                                  1.5
fuel_capacity                                                          7.0
num_cylinder                                                             4
num_seat                                                                 5
num_owners               

In [356]:
data.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
id,52.0,31.365385,15.378912,3.0,18.75,31.5,44.25,57.0
year,52.0,2018.673077,1.39637,2014.0,2018.0,2019.0,2019.25,2022.0
miles,52.0,33901.25,22700.646139,5000.0,16454.75,27448.5,42442.0,97027.0
city_mileage,52.0,29.038462,5.947356,17.0,26.5,30.0,30.0,55.0
highway_mileage,52.0,37.423077,4.136619,24.0,35.75,38.0,40.0,49.0
horsepower,52.0,176.865385,33.793507,143.0,152.0,159.5,192.0,288.0
torque,52.0,177.923077,47.256433,99.0,138.0,181.0,192.0,294.0
engine_capacity_litre,52.0,1.832692,0.379743,1.4,1.5,2.0,2.0,3.5
fuel_capacity,52.0,14.232692,2.603973,7.0,12.4,13.6,15.05,19.0
num_cylinder,52.0,4.038462,0.27735,4.0,4.0,4.0,4.0,6.0


- A coluna __condition__ possui somente um valor não-nulo. A alternativa à eliminação seria a interpolação ou repetição de valores, o que não iria auxiliar a elaboração do modelo.

- A coluna __link__ corresponde ao endereço do carro na página das empresas. Logo, não parece ter qualquer valor preditivo e também deverá ser eliminada.

- A coluna __doors__ corresponde à quantidade de portas dos carros.  Como todos os carros da base possuem 4 portas, a coluna não irá auxiliar a elaboração do modelo.

- A coluna __num_seat__ corresponde ao número de assentos dos carros.  Como todos os carros da base possuem 5 assentos, a coluna não irá auxiliar a elaboração do modelo.

- A coluna __id__ ser somente como número identificador de cada carro, logo a coluna pode ser eliminada.

In [357]:
data: pd.DataFrame = data.drop(columns=['condition','link','doors','id', 'num_seat']) # removendo as colunas 'condition' e 'link'

## Análise das variáveis qualitativas 

In [358]:
# dataframe que contém somente as colunas com dados qualitativos
data_quali: pd.DataFrame = data.select_dtypes(include=['category'])
data_quali.value_counts()

brand       model       type   engine_type        
Honda       Civic       sedan  gas                    14
            Accord      sedan  gas                     7
Volkswagen  Jetta       sedan  gas                     7
Hyundai     Elantra SE  sedan  gas                     4
Volkswagen  Passat      sedan  gas                     4
Hyundai     Sonata      sedan  gas                     3
Ford        Fusion      sedan  gas                     3
Subaru      Impreza     sedan  gas                     2
Chevrolet   Malibu      sedan  gas                     2
            Volt LT     sedan  hybrid_gas_electric     1
Ford        Focus       sedan  gas                     1
            Taurus      sedan  gas                     1
Honda       Insight     sedan  hybrid_gas_electric     1
            Clarity     sedan  hybrid_gas_electric     1
Subaru      Legacy      sedan  gas                     1
Name: count, dtype: int64

In [359]:
# desenha os gráficos de barras na forma de subplots
def plotly_subplots_bar(nrows, ncols, subplot_titles, data_frame)-> None:

    fig = make_subplots(rows=nrows, cols=ncols, subplot_titles=subplot_titles)

    i=1
    j=1
    for col in data_frame.columns:
        fig.add_trace(go.Bar(x=data_frame[col].value_counts().index, 
                            y=data_frame[col].value_counts().values, 
                            name=col), 
                            row=i, col=j)
        fig.update_yaxes(title_text='quantidade')
        
        if  i < nrows:
            i+=1
            if j< ncols:
                j+=1
            else:
                j = 1
        else:
            i = 1
        
        

    fig.update_layout(height=750, width=750,
                    title_text="Variáveis qualitativas da base de dados")

    fig.show()

plotly_subplots_bar(2,2,['marca', 'tipo', 'tipo de motor', 'modelo'], data_quali)

Observações sobre as variáveis qualitativas:
- __brand__:  A marca é um atributo que descreve a origem ou o fabricante do produto. Neste caso, as marcas correspondem a 6 categorias: 'Chevrolet', 'Hyundai', 'Ford', 'Honda', 'Subaru', 'Volkswagen'. A marca mais frequente na base de dados é 'Honda', com 23 ocorrências, seguida por 'Volkswagen', com 11 ocorrências. As marcas com a menor quantidade de dados na base são 'Subaru' e Chevrolet, ambas com 3 ocorrências.
- __type__: O único tipo de carro presente na base o 'sedan'.
- __engine_type__: existem dois tipos de motor na base de dados, quais sejam: 'gas' (49 veículos) e 'hybrid_gas_eletric' (3 veículos). 
- __model__:  Existem 15 modelos de veículos na base de dados, sendo mais frequente o 'Civic' (14 carros) e os menos frequentes, com apenas 1 ocorrência são: 'Focus', 'Clarity', 'Legacy', 'Taurus' e 'Volt LT'.


## Análise das variáveis quantitativas

In [360]:
data_quanti: pd.DataFrame = data.select_dtypes(exclude=['category'])
data_quanti.head()

Unnamed: 0,year,miles,city_mileage,highway_mileage,horsepower,torque,engine_capacity_litre,fuel_capacity,num_cylinder,num_owners,price,wheel_drive,speed_levels,front_headroom,front_legroom,rear_headroom,rear_legroom,service_records
0,2019,27173,43,42,149,294,1.5,8.9,4,3,25655,2,6.0,37.8,42.1,35.8,34.7,4
1,2017,76941,29,38,146,132,2.0,14.0,4,2,15590,2,6.0,39.0,42.2,37.0,35.7,16
2,2014,97027,27,37,159,146,2.0,12.4,4,3,13590,2,6.0,38.3,43.7,38.0,33.2,13
3,2016,95396,31,42,158,138,1.5,12.4,4,2,20590,2,6.0,37.5,42.3,36.8,37.4,26
4,2019,28405,29,38,147,132,2.0,14.0,4,3,16787,2,6.0,39.0,42.2,37.0,35.7,5


In [361]:
data_quanti.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
year,52.0,2018.673077,1.39637,2014.0,2018.0,2019.0,2019.25,2022.0
miles,52.0,33901.25,22700.646139,5000.0,16454.75,27448.5,42442.0,97027.0
city_mileage,52.0,29.038462,5.947356,17.0,26.5,30.0,30.0,55.0
highway_mileage,52.0,37.423077,4.136619,24.0,35.75,38.0,40.0,49.0
horsepower,52.0,176.865385,33.793507,143.0,152.0,159.5,192.0,288.0
torque,52.0,177.923077,47.256433,99.0,138.0,181.0,192.0,294.0
engine_capacity_litre,52.0,1.832692,0.379743,1.4,1.5,2.0,2.0,3.5
fuel_capacity,52.0,14.232692,2.603973,7.0,12.4,13.6,15.05,19.0
num_cylinder,52.0,4.038462,0.27735,4.0,4.0,4.0,4.0,6.0
num_owners,52.0,1.346154,0.622601,1.0,1.0,1.0,2.0,3.0


In [362]:
# Medidas estatísicas para o dataframe
def plotly_subplots_box(nrows, ncols, data_frame)-> None:
   
    columns: list[str] = data_frame.columns.to_list()

    fig = make_subplots(rows=nrows, cols=ncols, subplot_titles=columns)
    
    k=0    
    # Add a box plot for each column
    for i in range(nrows):        
        for j in range(ncols):
            if k < len(columns):
                fig.add_trace(go.Box(px.box(y=data_frame[columns[k]], orientation='v',
                                    color_discrete_sequence=['lightseagreen']).data[0]),
                            row=i+1, col=j+1)
                k+=1
            else:
                break
            

        

    # Update the layout
    fig.update_layout(height=800, width=950,
                      showlegend=False, 
                      margin=dict(t=50, l=10, r=10, b=10),
                      title_text="Box-plot das variáveis quantitativas da base de dados")

    fig.show()

plotly_subplots_box(4, 5, data_quanti)