<a href="https://colab.research.google.com/github/KarinaSelingardi/ESTUDOS-DE-PYTHON/blob/main/C%C3%B3pia_de_RandomForest_VendaCarros_Apos90dias.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Floresta Randômica (*Random Forest*) 🌳🌳🌳🐍

📚🌳🌳🌳 Florestas aleatórias ou florestas de decisão aleatória é um método de aprendizado conjunto para classificação, regressão e outras tarefas que opera construindo uma infinidade de árvores de decisão em tempo de treinamento.

## Exemplo: Vendas de uma concessionária de veículos usados

Pegamos o mesmo exemplo que utilizamos em [Árvore de Decisão](https://colab.research.google.com/drive/1DjjLYneLw7pZxuKNnxFCmSgwgBsauQOS?usp=drive_fs#scrollTo=SKIUf2z6upb6&forceEdit=true&sandboxMode=true), para mostrar a melhoria em desempenho... 🏃

In [None]:
# Necessário para ler o .xls
!pip install --upgrade xlrd

Collecting xlrd
  Downloading xlrd-2.0.1-py2.py3-none-any.whl (96 kB)
[K     |████████████████████████████████| 96 kB 2.9 MB/s 
[?25hInstalling collected packages: xlrd
  Attempting uninstall: xlrd
    Found existing installation: xlrd 1.1.0
    Uninstalling xlrd-1.1.0:
      Successfully uninstalled xlrd-1.1.0
Successfully installed xlrd-2.0.1


In [None]:
# Importando o pandas
import pandas as pd

In [None]:
# arquivo disponível em: https://github.com/aasouzaconsult/DiversosMachineLearning/blob/master/Data/carros_usados.xls
df = pd.read_excel('/content/carros_usados.xls')

## Analisando os dados...
- `data.set` (informa se é dado de treinamento ou teste)
- `total.cost` (custo total do veículo)
- `lot.sales.days` (dias na concessionária até a venda)
- `overage` (passou de 90 dias na concessionária?)
- `mileage` (kilometragem do veículo)
- `vehicle.type` (Tipo do veículo)
- `domestic.import` (Se é produzido no país ou importado)
- `vehicle.age` (idade do veículo)
- `vehicle.age.group` (grupo com idade do veículo)
- `color.set` (cor do veículo)
- `makex` (fabricante do veículo)
- `state` (estado (EUA) do registro veículo)
- `make.model` (modelo do veículo)

In [None]:
# Visualizando as 5 primeiras linhas do Dataframe
df.head()

Unnamed: 0,data.set,total.cost,lot.sale.days,overage,mileage,vehicle.type,domestic.import,vehicle.age,vehicle.age.group,color.set,makex,state,make.model
0,TRAIN,4037,135,YES,67341,FAMILY.LARGE,Domestic,8,SEVEN+,SILVER,BUICK,CA,BUICK.CENTURY
1,TRAIN,6886,114,YES,72823,FAMILY.MEDIUM,Domestic,6,SIX,WHITE,DODGE,AZ,DODGE.NEON
2,TRAIN,3924,205,YES,96330,FAMILY.MEDIUM,Domestic,9,SEVEN+,WHITE,OLDSMOBILE,FL,OLDSMOBILE.CUTLASS SUPREME
3,TRAIN,4636,100,YES,58519,ECONOMY,Import,4,FOUR,GOLD,KIA,NV,KIA.SEPHIA
4,TRAIN,5080,129,YES,99057,FAMILY.MEDIUM,Domestic,4,FOUR,GREEN,OLDSMOBILE,NV,OLDSMOBILE.CUTLASS SUPREME


In [None]:
# Visualizando as informações de colunas do Dataframe
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7495 entries, 0 to 7494
Data columns (total 13 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   data.set           7495 non-null   object
 1   total.cost         7495 non-null   int64 
 2   lot.sale.days      7495 non-null   int64 
 3   overage            7495 non-null   object
 4   mileage            7495 non-null   int64 
 5   vehicle.type       7495 non-null   object
 6   domestic.import    7495 non-null   object
 7   vehicle.age        7495 non-null   int64 
 8   vehicle.age.group  7495 non-null   object
 9   color.set          7495 non-null   object
 10  makex              7495 non-null   object
 11  state              7495 non-null   object
 12  make.model         7495 non-null   object
dtypes: int64(4), object(9)
memory usage: 761.3+ KB


In [None]:
# Informações estatísticas das colunas Dataframe
df.describe()

Unnamed: 0,total.cost,lot.sale.days,mileage,vehicle.age
count,7495.0,7495.0,7495.0,7495.0
mean,4980.03549,76.454303,77234.533422,5.567312
std,937.602064,64.644337,17142.552588,1.756219
min,1375.0,0.0,1036.0,1.0
25%,4354.0,14.0,67946.0,4.0
50%,4919.0,73.0,78534.0,5.0
75%,5540.0,120.0,89340.0,7.0
max,9813.0,300.0,119250.0,12.0


In [None]:
# Consultando dados nulos ou Missing Values no Dataframe
df.isnull().sum()

data.set             0
total.cost           0
lot.sale.days        0
overage              0
mileage              0
vehicle.type         0
domestic.import      0
vehicle.age          0
vehicle.age.group    0
color.set            0
makex                0
state                0
make.model           0
dtype: int64

## Construindo um Modelo de Machine Learning 🤖

Nosso objetivo é prever se o veículo irá passar mais de 90 dias na concessionária sem ser vendido.

In [None]:
# visualizando novamente os dados...
df.head()

Unnamed: 0,data.set,total.cost,lot.sale.days,overage,mileage,vehicle.type,domestic.import,vehicle.age,vehicle.age.group,color.set,makex,state,make.model
0,TRAIN,4037,135,YES,67341,FAMILY.LARGE,Domestic,8,SEVEN+,SILVER,BUICK,CA,BUICK.CENTURY
1,TRAIN,6886,114,YES,72823,FAMILY.MEDIUM,Domestic,6,SIX,WHITE,DODGE,AZ,DODGE.NEON
2,TRAIN,3924,205,YES,96330,FAMILY.MEDIUM,Domestic,9,SEVEN+,WHITE,OLDSMOBILE,FL,OLDSMOBILE.CUTLASS SUPREME
3,TRAIN,4636,100,YES,58519,ECONOMY,Import,4,FOUR,GOLD,KIA,NV,KIA.SEPHIA
4,TRAIN,5080,129,YES,99057,FAMILY.MEDIUM,Domestic,4,FOUR,GREEN,OLDSMOBILE,NV,OLDSMOBILE.CUTLASS SUPREME


**Pre-processando os dados**

- Precisamos pré-processar algumas colunas, pois, são colunas categóricas.
- Nesta etapa também removemos colunas não importantes para o modelo.

Removendo as colunas `vehicle.age.group` e `data.set` (não irão nos interessar nesta análise)

In [None]:
df.drop('vehicle.age.group', axis=1, inplace=True)

In [None]:
df.drop('data.set', axis=1, inplace=True)

**Aplicando o LabelEncoder para codificação de variáveis categóricas** 💡

In [None]:
from sklearn.preprocessing import LabelEncoder

In [None]:
label_encoder1 = LabelEncoder()
label_encoder2 = LabelEncoder()
label_encoder3 = LabelEncoder()
label_encoder4 = LabelEncoder()
label_encoder5 = LabelEncoder()
label_encoder6 = LabelEncoder()

**Aplica o Labelencoder nos dados categóricos**

In [None]:
df['vehicle.type'] = label_encoder1.fit_transform(df['vehicle.type'])
df['domestic.import'] = label_encoder2.fit_transform(df['domestic.import'])
df['color.set'] = label_encoder3.fit_transform(df['color.set'])
df['makex'] = label_encoder4.fit_transform(df['makex'])
df['state'] = label_encoder5.fit_transform(df['state'])
df['make.model'] = label_encoder6.fit_transform(df['make.model'])

**Dados transformados** 🆗

In [None]:
df.head()

Unnamed: 0,total.cost,lot.sale.days,overage,mileage,vehicle.type,domestic.import,vehicle.age,color.set,makex,state,make.model
0,4037,135,YES,67341,1,0,8,6,0,1,1
1,6886,114,YES,72823,2,0,6,7,5,0,33
2,3924,205,YES,96330,2,0,9,7,15,2,77
3,4636,100,YES,58519,0,1,4,2,10,5,54
4,5080,129,YES,99057,2,0,4,3,15,5,77


**Separa a classe dos dados**

In [None]:
# nossa variável target será overage (prever se o veículo passará ou não 90 dias na concessionária)
y = df['overage']

In [None]:
y.head()

0    YES
1    YES
2    YES
3    YES
4    YES
Name: overage, dtype: object

Apaga as colunas `overage` e `lot.days.sales` para não enviesar o modelo

In [None]:
# variáveis preditoras (X)
X = df.drop(['lot.sale.days','overage'], axis=1)

In [None]:
# Visualizando nosso X
X.head()

Unnamed: 0,total.cost,mileage,vehicle.type,domestic.import,vehicle.age,color.set,makex,state,make.model
0,4037,67341,1,0,8,6,0,1,1
1,6886,72823,2,0,6,7,5,0,33
2,3924,96330,2,0,9,7,15,2,77
3,4636,58519,0,1,4,2,10,5,54
4,5080,99057,2,0,4,3,15,5,77


**Separando os dados de treino e teste**

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_treino, X_teste, y_treino, y_teste = train_test_split(X, y)

**Aplicando Machine Learning com Random Forest** 🌳🌳🌳

In [None]:
from sklearn.ensemble import RandomForestClassifier

In [None]:
# n_estimators = 100 - número de árvores na floresta (padrão é 10)
# criterion='entropy'
# random_state=0 (gerar sempre o mesmo resultado)

floresta = RandomForestClassifier(n_estimators = 100, criterion='entropy', random_state=1)
floresta.fit(X_treino, y_treino) # treinando o modelo

RandomForestClassifier(criterion='entropy', random_state=1)

**Validação do Modelo**

In [None]:
X_teste.head()

Unnamed: 0,total.cost,mileage,vehicle.type,domestic.import,vehicle.age,color.set,makex,state,make.model
6310,6690,91710,4,1,6,4,14,6,67
5516,6413,53504,0,0,4,1,5,3,33
885,4561,101108,2,0,8,6,18,0,82
4887,4528,105202,2,1,9,4,19,0,92
5005,5691,88678,2,1,6,3,19,0,92


In [None]:
# testando o modelo
floresta.predict(X_teste)

array(['YES', 'NO', 'NO', ..., 'NO', 'NO', 'NO'], dtype=object)

In [None]:
resultado = floresta.predict(X_teste)

In [None]:
resultado

array(['NO', 'YES', 'YES', ..., 'YES', 'NO', 'NO'], dtype=object)

Visualizando as métricas do nosso modelo...

In [None]:
from sklearn import metrics
print(metrics.classification_report(y_teste,resultado))

              precision    recall  f1-score   support

          NO       0.70      0.75      0.72       986
         YES       0.70      0.64      0.67       888

    accuracy                           0.70      1874
   macro avg       0.70      0.70      0.70      1874
weighted avg       0.70      0.70      0.70      1874



Estes foram os resultado para [Árvore de Decisão](https://colab.research.google.com/drive/1DjjLYneLw7pZxuKNnxFCmSgwgBsauQOS?usp=drive_fs#scrollTo=SKIUf2z6upb6&forceEdit=true&sandboxMode=true), que vimos anteriormente...

              precision    recall  f1-score   support
          NO       0.64      0.63      0.64       989
         YES       0.60      0.61      0.60       885

    accuracy                           0.62      1874
    macro avg      0.62      0.62      0.62      1874
    weighted avg   0.62      0.62      0.62      1874


***Agora, com Random Forest, observem como o desempenho do modelo melhorou:***
- Tivemos uma precisão de 67% para classificar carros que superam os 90 dias.
- O modelo pode melhorar ainda mais se trabalharmos mais nos dados, e com um trabalho de `engenharia de features`.

Matrix de Confusão

In [None]:
from sklearn.metrics import confusion_matrix, accuracy_score
previsoes = floresta.predict(X_teste)
confusao = confusion_matrix(y_teste, resultado)
confusao

array([[739, 247],
       [319, 569]])

Taxa de acerto

In [None]:
taxa_acerto = accuracy_score(y_teste, previsoes)
taxa_acerto

0.6979722518676628

Estimadores

In [None]:
# mostra as 100 árvores (n_estimators)
floresta.estimators_

[DecisionTreeClassifier(criterion='entropy', max_features='auto',
                        random_state=1791095845),
 DecisionTreeClassifier(criterion='entropy', max_features='auto',
                        random_state=2135392491),
 DecisionTreeClassifier(criterion='entropy', max_features='auto',
                        random_state=946286476),
 DecisionTreeClassifier(criterion='entropy', max_features='auto',
                        random_state=1857819720),
 DecisionTreeClassifier(criterion='entropy', max_features='auto',
                        random_state=491263),
 DecisionTreeClassifier(criterion='entropy', max_features='auto',
                        random_state=550290313),
 DecisionTreeClassifier(criterion='entropy', max_features='auto',
                        random_state=1298508491),
 DecisionTreeClassifier(criterion='entropy', max_features='auto',
                        random_state=2143362693),
 DecisionTreeClassifier(criterion='entropy', max_features='auto',
            

## Mais informações sobre Machine Learning?

Confira no Blog do Alex Souza ([Medium](https://medium.com/blog-do-zouza/o-que-%C3%A9-machine-learning-5e7e98453985))

Mais dicas diárias, confira nosso [Instagram](https://www.instagram.com/alexsouzamsc/).