<a href="https://colab.research.google.com/github/carloscesar182/ai_advanced_course/blob/main/Notebooks/MLAlgorithms/RandomForest.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import pandas as pd # famosa biblioteca de manipulação de dados tabulários no python
import numpy as np # para tratar dados em forma de vetores e matrizes, muito usada para IA
import matplotlib.pyplot as plt # usado para visualização de dados

# sklearn é amplamente utilizada na área de dados
from sklearn.model_selection import train_test_split # train_test_split é usada pra dividir os dados em conjunto de treino e teste
from sklearn.ensemble import RandomForestClassifier # biblioteca pra criar nosso modelo de random forest
from sklearn.preprocessing import LabelEncoder # pra codificar dados categóricos em dados numéricos para que a biblioteca seja capaz de compreender e processar
from sklearn.tree import plot_tree # para gerar o objeto
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, classification_report # métricas

In [None]:
# importando os dados
base = pd.read_csv("insurance.csv", keep_default_na=False) # parametro keep_default_na permite escolher se mantém ou não os valores nulos padrão da base
base.head()

In [None]:
# dropar coluna unnamed
base = base.drop(columns=["Unnamed: 0"])
base.head()

In [None]:
# definir as variáveis
y = base.iloc[:,7].values # variável dependente
X = base.drop(base.columns[7], axis=1).values # variável independente
X

In [None]:
# transformar variáveis categóricas em numéricas
# laço pra detectar apenas os objetos que são categóricos, que no pandas é o tipo object e transformar só eles
labelencoder = LabelEncoder()
for i in range(X.shape[1]): # percorre todas as colunas
  if X[:,i].dtype == 'object': # verifica se as colunas do laço são do tipo object
    X[:,i] = labelencoder.fit_transform(X[:,i]) # se forem, pega o labelencoder da coluna atual, transforma e coloca no mesmo objeto da coluna atual. Isso vai substituindo as colunas pela mesma informação codificada

In [None]:
# dividir os dados em treino e teste
# precisamos ter 4 variáveis pra treino e teste. Independente de treino e teste e dependente de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=12) # o test_size = 0.3 indica que 30% das linhas do CSV serão pra teste. Random_state garante que toda vez que rode, tenha o mesmo resultado

In [None]:
# criar o modelo
# o parametro n_estimators é quantas árvores de decisão vão ser induzidas
modelo = RandomForestClassifier(random_state=1, max_depth=20, max_leaf_nodes=12, n_estimators=500)
modelo.fit(X_train, y_train) # treina o modelo

In [None]:
# usar bibliotecas de impressão
tree_index = 499
tree_to_visualize = modelo.estimators_[tree_index]
plt.figure(figsize=(20,20))
plot_tree(tree_to_visualize, feature_names=base.columns[:-1], filled=True, class_names=True, rounded=True)
plt.show()

In [None]:
previsoes = modelo.predict(X_test)
previsoes

In [None]:
# metricas
accuracy = accuracy_score(y_test, previsoes) # calcula o percentual de acerto comparando os dados do que aconteceu com o que foi previsto
precision = precision_score(y_test, previsoes, average='weighted') # vai considerar as classes de forma ponderada
recall = recall_score(y_test, previsoes, average='weighted')
f1 = f1_score(y_test, previsoes, average='weighted')
print(f'Acurácia: {accuracy:.2f}')
print(f'Precisão: {precision:.2f}')
print(f'Recall: {recall:.2f}')
print(f'F1-score: {f1:.2f}')

Acurácia: 0.93
Precisão: 0.93
Recall: 0.93
F1-score: 0.93


In [None]:
# gerar o classification report
report = classification_report(y_test, previsoes)
print(report)

              precision    recall  f1-score   support

        Mild       0.88      0.61      0.72       570
    Moderate       0.76      0.69      0.72       488
        None       0.96      1.00      0.98      4253
      Severe       0.87      0.93      0.90       689

    accuracy                           0.93      6000
   macro avg       0.87      0.81      0.83      6000
weighted avg       0.93      0.93      0.93      6000

