<a href="https://colab.research.google.com/github/DamodaraBarbosa/linear_regression_studies/blob/main/Brazil_Cars_Prices_2022_Predict.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Importando as bibliotecas

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

# Carregando a base de dados em um dataframe

In [2]:
cars = pd.read_csv('/content/drive/MyDrive/PracticingDataLinearRegression/fipe_2022.csv')
cars.head()

Unnamed: 0,year_of_reference,month_of_reference,fipe_code,authentication,brand,model,fuel,gear,engine_size,year_model,avg_price_brl,age_years
0,2022,January,038001-6,vwmrywl5qs,Acura,NSX 3.0,Gasoline,manual,3.0,1995,43779.0,28
1,2022,January,038001-6,t9mt723qhz,Acura,NSX 3.0,Gasoline,manual,3.0,1994,42244.0,29
2,2022,January,038001-6,tr5wv4z21g,Acura,NSX 3.0,Gasoline,manual,3.0,1993,40841.0,30
3,2022,January,038001-6,s2xxsjz3mt,Acura,NSX 3.0,Gasoline,manual,3.0,1992,39028.0,31
4,2022,January,038001-6,rtm9gj7zk8,Acura,NSX 3.0,Gasoline,manual,3.0,1991,35678.0,32


As dimensões do *dataframe*: 

In [3]:
cars.shape

(290275, 12)

Algumas informações sobre o *dataframe*:

In [4]:
cars.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 290275 entries, 0 to 290274
Data columns (total 12 columns):
 #   Column              Non-Null Count   Dtype  
---  ------              --------------   -----  
 0   year_of_reference   290275 non-null  int64  
 1   month_of_reference  290275 non-null  object 
 2   fipe_code           290275 non-null  object 
 3   authentication      290275 non-null  object 
 4   brand               290275 non-null  object 
 5   model               290275 non-null  object 
 6   fuel                290275 non-null  object 
 7   gear                290275 non-null  object 
 8   engine_size         290275 non-null  float64
 9   year_model          290275 non-null  int64  
 10  avg_price_brl       290275 non-null  float64
 11  age_years           290275 non-null  int64  
dtypes: float64(2), int64(3), object(7)
memory usage: 26.6+ MB


# Dados únicos em cada coluna

Por se tratar de uma base de dados que contém carros, há informações sobre modelos, marcas, tipo de motor, combustíveis entre outros dados que precisam ser conhecidos.

In [5]:
cars.columns

Index(['year_of_reference', 'month_of_reference', 'fipe_code',
       'authentication', 'brand', 'model', 'fuel', 'gear', 'engine_size',
       'year_model', 'avg_price_brl', 'age_years'],
      dtype='object')

## Coluna `year_of_reference`

In [6]:
cars['year_of_reference'].unique()

array([2022])

Por se tratar de vendas referentes ao ano de 2022, nesta coluna há apenas 2022. Certamente é uma coluna que será eliminada do *dataframe* posteriormente.

## Coluna `month_of_reference`

In [7]:
cars['month_of_reference'].unique()

array(['January', 'February', 'March', 'April', 'May', 'June', 'July',
       'August', 'September', 'October', 'November', 'December'],
      dtype=object)

## Coluna `fipe_code`

In [8]:
cars['fipe_code'].unique()

array(['038001-6', '038002-4', '038003-2', ..., '005534-4', '005535-2',
       '005536-0'], dtype=object)

In [9]:
f'São ao todo {len(cars["fipe_code"].unique())} códigos FIPE diferentes.'

'São ao todo 5903 códigos FIPE diferentes.'

* O que é o código FIPE?

"O código FIPE é um número atrelado a cada versão específica de um modelo dentro da tabela FIPE."

Fonte: https://www.karvi.com.br/blog/tabela-fipe-como-consultar/#:~:text=O%20c%C3%B3digo%20FIPE%20%C3%A9%20um,%C3%A9%20formado%20por%20sete%20n%C3%BAmeros.

## Coluna `authentication`

In [10]:
cars['authentication'].unique()

array(['vwmrywl5qs', 't9mt723qhz', 'tr5wv4z21g', ..., 'lh98rfxnhy18',
       'k9dtwsps5sy1', 'j7gt9020nqvt'], dtype=object)

In [11]:
f'São ao todo {len(cars["authentication"].unique())} códigos de autenticação diferentes.'

'São ao todo 290273 códigos de autenticação diferentes.'

Ou seja, para cada transação há um código específico de autenticação.

## Coluna `brand`

In [12]:
cars['brand'].unique()

array(['Acura', 'Agrale', 'Alfa Romeo', 'AM Gen', 'Asia Motors',
       'ASTON MARTIN', 'Audi', 'Baby', 'BMW', 'BRM', 'CAB Motors',
       'Cadillac', 'CBT Jipe', 'CHANA', 'CHANGAN', 'Caoa Chery',
       'GM - Chevrolet', 'Chrysler', 'Citroën', 'Cross Lander', 'Daewoo',
       'Daihatsu', 'Dodge', 'EFFA', 'Engesa', 'Envemo', 'Ferrari', 'Fiat',
       'Fibravan', 'Ford', 'FOTON', 'Fyber', 'GEELY', 'GREAT WALL',
       'HAFEI', 'Honda', 'Hyundai', 'Isuzu', 'IVECO', 'JAC', 'Jaguar',
       'Jeep', 'JINBEI', 'JPX', 'Kia Motors', 'Lada', 'Land Rover',
       'Lexus', 'LIFAN', 'LOBINI', 'Lotus', 'Mahindra', 'Maserati',
       'Matra', 'Mazda', 'Mclaren', 'Mercedes-Benz', 'Mercury', 'MG',
       'MINI', 'Mitsubishi', 'Nissan', 'Peugeot', 'Plymouth', 'Pontiac',
       'Porsche', 'RAM', 'RELY', 'Renault', 'Rolls-Royce', 'Rover',
       'Saab', 'Saturn', 'Seat', 'SHINERAY', 'smart', 'SSANGYONG',
       'Subaru', 'Suzuki', 'TAC', 'Toyota', 'Troller', 'VW - VolksWagen',
       'Volvo', 'Wake', 'Wa

In [13]:
f'São ao todo {len(cars["brand"].unique())} marcas diferentes presentes na tabela.'

'São ao todo 86 marcas diferentes presentes na tabela.'

## Coluna `model` 

In [14]:
cars['model'].unique()

array(['NSX 3.0', 'Legend 3.2/3.5', 'Integra GS 1.8', ...,
       'C-200 AMG Line EQ Boost 1.5 TB (Hib.)',
       'CLASSIC LARAMIE 5.7 CD V8 4X4 Aut.',
       'CLASSIC LARAMIE NIGHT ED. 5.7 4X4 Aut.'], dtype=object)

In [15]:
f'São ao todo {len(cars["model"].unique())} modelos de carros diferentes presentes na tabela.'

'São ao todo 6064 modelos de carros diferentes presentes na tabela.'

Apesar de o modelo ser uma variável importante na determinação do preço de um carro, a grande quantidade de modelos no banco de dados talvez torne-a uma variável que não poderá ser inserida no modelo preditivo.

## Coluna `fuel`

In [16]:
cars['fuel'].unique()

array(['Gasoline', 'Diesel', 'Alcohol'], dtype=object)

## Coluna `gear`

In [17]:
cars['gear'].unique()

array(['manual', 'automatic'], dtype=object)

## Coluna `engine_size`

In [18]:
cars['engine_size'].unique()

array([3. , 3.2, 1.8, 2.8, 2. , 1.7, 2.5, 6.5, 2.7, 4. , 2.2, 4.7, 6. ,
       2.6, 4.2, 2.4, 1.6, 3.6, 5.2, 5. , 1.4, 6.3, 2.9, 1.9, 3.8, 3.5,
       5.4, 4.4, 5.6, 4.8, 1.5, 6.6, 2.3, 4.9, 4.6, 1. , 1.3, 1.1, 4.1,
       4.3, 3.9, 2.1, 5.7, 3.1, 6.2, 1.2, 3.3, 6.1, 5.9, 6.7, 3.4, 5.5,
       4.5, 0.7, 5.8, 3.7])

## Coluna `year_model`

In [19]:
cars['year_model'].unique()

array([1995, 1994, 1993, 1992, 1991, 1998, 1997, 1996, 2007, 2006, 2005,
       2004, 2011, 2010, 2009, 2008, 2015, 2014, 2013, 2012, 2023, 2022,
       2021, 2020, 2019, 2018, 2017, 2016, 1999, 2002, 2001, 2000, 2003,
       1990, 1989, 1988, 1987, 1986, 1985])

A presença de dados com a idade dos carros pode tornar a coluna `year_model` redundante. Portanto, esta pode ser eleminada posteriormente do *dataframe*.

## Coluna `avg_price_brl`

In [20]:
cars['avg_price_brl'].unique()

array([ 43779.,  42244.,  40841., ..., 237721.,  71892.,  50257.])

## Coluna `age_years`

In [21]:
cars['age_years'].unique()

array([28, 29, 30, 31, 32, 25, 26, 27, 16, 17, 18, 19, 12, 13, 14, 15,  8,
        9, 10, 11,  0,  1,  2,  3,  4,  5,  6,  7, 24, 21, 22, 23, 20, 33,
       34, 35, 36, 37, 38])

# Tratamentos da base de dados

In [22]:
cars.columns

Index(['year_of_reference', 'month_of_reference', 'fipe_code',
       'authentication', 'brand', 'model', 'fuel', 'gear', 'engine_size',
       'year_model', 'avg_price_brl', 'age_years'],
      dtype='object')

* Eliminação da coluna `year_of_reference`, `fipe_code` e `authentication`:

In [23]:
cars.drop(['year_of_reference', 'fipe_code', 'authentication'], axis= 1, inplace= True)

# Codificando as variáveis categóricas

Para facilitar o trabalho é necessário instalar a biblioteca:

In [25]:
!pip install category_encoders

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting category_encoders
  Downloading category_encoders-2.5.1.post0-py2.py3-none-any.whl (72 kB)
[K     |████████████████████████████████| 72 kB 775 kB/s 
Installing collected packages: category-encoders
Successfully installed category-encoders-2.5.1.post0


A ferramenta usada deve ser importada:

In [28]:
from category_encoders.one_hot import OneHotEncoder

In [29]:
cars.columns

Index(['month_of_reference', 'brand', 'model', 'fuel', 'gear', 'engine_size',
       'year_model', 'avg_price_brl', 'age_years'],
      dtype='object')

In [39]:
one_hot_encoder = OneHotEncoder(cols= ['month_of_reference'])

In [40]:
encoding = one_hot_encoder.fit_transform(cars[['month_of_reference']])

In [44]:
encoding.columns = one_hot_encoder.get_feature_names(['month_of_reference'])

TypeError: ignored

In [None]:
encoding

# Análise de correlação das variáveis

In [None]:
cars.corr()