# Machine Learning

## Random Forest

* **Random Forest vs Árvore de Decisão**

In [1]:
# Carregando bibliotecas

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

from sklearn.tree import export_graphviz
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import cross_val_predict
from sklearn.metrics import classification_report
from sklearn.model_selection import train_test_split

In [2]:
# Carregando base de dados

dados = pd.read_csv('/content/drive/MyDrive/Meus Scripts/Data Science do Zero/Dados/xAPI-Edu-Data.csv')

In [3]:
# Visualizando os dados

dados.head(3)

Unnamed: 0,gender,NationalITy,PlaceofBirth,StageID,GradeID,SectionID,Topic,Semester,Relation,raisedhands,VisITedResources,AnnouncementsView,Discussion,ParentAnsweringSurvey,ParentschoolSatisfaction,StudentAbsenceDays,Class
0,M,KW,KuwaIT,lowerlevel,G-04,A,IT,F,Father,15,16,2,20,Yes,Good,Under-7,M
1,M,KW,KuwaIT,lowerlevel,G-04,A,IT,F,Father,20,20,3,25,Yes,Good,Under-7,M
2,M,KW,KuwaIT,lowerlevel,G-04,A,IT,F,Father,10,7,0,30,No,Bad,Above-7,L


In [4]:
# Buscando possíveis valores missing

dados.isnull().sum()

gender                      0
NationalITy                 0
PlaceofBirth                0
StageID                     0
GradeID                     0
SectionID                   0
Topic                       0
Semester                    0
Relation                    0
raisedhands                 0
VisITedResources            0
AnnouncementsView           0
Discussion                  0
ParentAnsweringSurvey       0
ParentschoolSatisfaction    0
StudentAbsenceDays          0
Class                       0
dtype: int64

**Codificando os atributos: aplicando o Label Encoder**

In [5]:
dados_2 = dados
codifica = dados_2.dtypes.pipe(lambda dados_2: dados_2[dados_2 == 'object']).index
for x in codifica:
  modelo_label = LabelEncoder()
  dados_2[x] = modelo_label.fit_transform(dados_2[x])

**Separando os dados previsores e as classes**

In [6]:
previsores = dados.drop('Class', axis = 1)
classes = dados['Class']

**Random Forest vs Árvore de Decisão**

In [7]:
# Resultado do Random Forest

# Instânciando o modelo
modelo_random = RandomForestClassifier(random_state = 1, n_estimators = 100)
# Aplicando o modelo
Random_resultado = cross_val_predict(modelo_random, previsores, classes, cv = 5)
# Resultado
print(classification_report(classes, Random_resultado))

              precision    recall  f1-score   support

           0       0.65      0.64      0.65       142
           1       0.77      0.78      0.77       127
           2       0.63      0.63      0.63       211

    accuracy                           0.67       480
   macro avg       0.68      0.68      0.68       480
weighted avg       0.67      0.67      0.67       480



In [8]:
# Resultado do Decision Tree

# Instânciando o modelo
modelo_tree = DecisionTreeClassifier(random_state = 1)
# Aplicando o modelo
Tree_resultado = cross_val_predict(modelo_tree, previsores, classes, cv = 5)
# Resultado
print(classification_report(classes, Tree_resultado))

              precision    recall  f1-score   support

           0       0.50      0.61      0.55       142
           1       0.74      0.68      0.70       127
           2       0.54      0.49      0.52       211

    accuracy                           0.57       480
   macro avg       0.59      0.59      0.59       480
weighted avg       0.58      0.57      0.58       480



**Tunning do modelo para garantir o melhor desempenho**

In [13]:
# Carregando biblioteca

from sklearn.model_selection import GridSearchCV

In [14]:
# Listando possíveis valores de estimadores ou quantidade de árvores

valores_estimadores = [10, 20, 50, 100, 150]

In [15]:
# Listando possíveis critérios de divisão

valores_criterio = ['gini', 'entropy']

In [16]:
# Listando valores para profundidade máxima das árvores

valores_maximos = [10, 20, 50, 100]

In [18]:
# Listando possíveis valores para os parâmetros min_samples_split, min_samples_leaf

valores_split = [2, 5, 10, 15]
valores_leaf = [1, 5, 10, 15]

In [19]:
# Criando um dicionário com os parâmetros

parametros_grid = dict(
    n_estimators = valores_estimadores,
    criterion = valores_criterio,
    max_depth = valores_maximos,
    min_samples_split = valores_split,
    min_samples_leaf = valores_leaf
)

In [20]:
# Instânciando o modelo

modelo = RandomForestClassifier()

In [23]:
# Instãnciando o objeto Grid

grid = GridSearchCV(modelo, parametros_grid, cv = 5, scoring = 'accuracy')

In [24]:
# Treinando o modelo grid

grid.fit(previsores, classes)

GridSearchCV(cv=5, estimator=RandomForestClassifier(),
             param_grid={'criterion': ['gini', 'entropy'],
                         'max_depth': [10, 20, 50, 100],
                         'min_samples_leaf': [1, 5, 10, 15],
                         'min_samples_split': [2, 5, 10, 15],
                         'n_estimators': [10, 20, 50, 100, 150]},
             scoring='accuracy')

In [25]:
# Verificando o melhor parâmetro

grid.best_params_

{'criterion': 'entropy',
 'max_depth': 100,
 'min_samples_leaf': 15,
 'min_samples_split': 15,
 'n_estimators': 50}

In [26]:
# Verificando o melhor score

grid.best_score_

0.7291666666666667