In [None]:
# Importem llibreries necessaries per implementar el mètode Random Forest
import pandas as pd
import numpy as np
import seaborn as sb
import openpyxl
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
from sklearn.model_selection import cross_val_score
from sklearn.metrics import classification_report

In [None]:
#Carreguem fitxer Excel i el llegim per poder ser utilitzat
xls = ''
fitxer = openpyxl.load_workbook(xls)

df = pd.read_excel(xls, sheet_name = '', engine = 'openpyxl')

In [None]:
# Mostrem forma del fitxer (files i columnes)
df.shape

In [None]:
# Mostrem les 5 primeres files per conèixer com és el fitxer
df.head()

In [None]:
# Mostrem les 5 últimes files per conèixer com és el fitxer
df.tail()

In [None]:
# Mirem de quin tipus són les característiques (int, float, object...)
df.info()

In [None]:
# Amb la funció descriure podem tenir una idea general de quin valor pren cada varible
df.describe()

In [None]:
# Agrupem per la variable Target per saber com d'equilibrat està el conjunt de dades
df[""].value_counts()

In [None]:
# Mostrem la variable target de forma visual
sb.countplot(x = df[""])
plt.xlabel("")
plt.ylabel("Quantitat")
plt.title("Quantitat d'obesitat/No obesitat")

In [None]:
# Definim X per a totes les variables i y només per la variable target
X = df.iloc[:, :-1] # Dades: volem totes les files i totes les columnes menys la del target
y = df.iloc[:, -1]  # Target: volem totes les files i només l'última columna

In [None]:
# Mostrem la quantitat de valors que hi ha al vector X
X.shape

In [None]:
# Mostrem la quantitat de valors que hi ha al vector y
y.shape

In [None]:
# Utilitzem el 75% de les dades per a entrenament i el 25% restant per a test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state=0)

In [None]:
# Mostrem els valors que hi haurà per entrenar i testejar
print('Nombre de mostres de target: ', np.bincount(y))
print('Nombre de mostres de target per a entrenar:', np.bincount(y_train))
print('Nombre de mostres de target per a testejar', np.bincount(y_test))

In [None]:
# Creem el bosc aleatori
model = RandomForestClassifier(n_estimators=25,criterion="gini", max_depth=30, min_samples_split=10, random_state=0)
#n_estimators = nombre de arbres que utiliza el model
#criterion = criteri que utilita el model
#max_depth = profunditat màxima a la que pot créixer cada arbre
#max_features = quantitat de caracteristiques que tria a la hora de buscar la millor divisió (sqrt, log2, none)

In [None]:
# Entrenem el model amb les dades d'entrenament
model.fit(X_train, y_train)

In [None]:
#Anàlisi de la importancia de variables
model.feature_importances_

In [None]:
# Mostrem nom de les columnes per saber a que fan referència els valors anteriors
df.columns

In [None]:
# Calculem la predicció de cada cas
pred = model.predict(X_test)
pred

In [None]:
#Fem la matriu de confusió per veure la quantitat de 0 / 1 que el model és capaç d'encertar
confusion_matrix(y_test, pred)

In [None]:
# Calculem l'accuracy tant per a les dades de test com d'entrenament
print('Train accuracy: ', model.score(X_train, y_train))
print('Test accuracy: ', model.score(X_test, y_test)) 

In [None]:
# Calculem l'accuracy total
accuracy_score(y_test, pred)

In [None]:
# Calculem predicció a partir de validació creuada
cross_val_score(model, X_train, y_train, cv=10)

In [None]:
# Report de les mètriques per comprovar el model
print(classification_report(pred, y_test))

In [None]:
# Mostrem la importància de les variables per conèixer les que afecten més i menys
features = df.columns
importances = model.feature_importances_
indices = np.argsort(importances)

plt.figure(figsize=[10,10])
plt.title("Importància de les característiques")
plt.barh(range(len(indices)), importances[indices], color = 'g', align = 'center')
plt.yticks(range(len(indices)), [features[i] for i in indices])
plt.xlabel("Importància")
plt.show()