# Riassunto:
- X sono i dati senza la colonna target, e y è la colonna target (quello che vogliamo predire).
-  Dividiamo i dati in training set (per addestrare il modello) e test set (per testare -  quanto il modello è bravo).
- Alleniamo il modello con fit.
- Facciamo previsioni con predict.
- Valutiamo quanto bene il modello ha imparato con score.

In [2]:
import pandas as pd
import numpy as np
heart_disease = pd.read_csv("heart-disease.csv")
heart_disease.head()

# Tolgo la colonna X perchè alla fine voglio far impare
# a predire il target, ovvero se ha o meno una malattia cardiaca
X = heart_disease.drop("target", axis=1)


y = heart_disease["target"]


# 3. Si sceglie un algoritmo di classificazione
from sklearn.ensemble import RandomForestClassifier

clf = RandomForestClassifier()
clf.get_params()

# 3. Si adatta il modelli ai dati di test
# cioè su quali dati voglio addestrarlo, avrò un 80% per addestrare
# e quindi il 20% usato per testarlo
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.2)

# fit significa : Fai imparare il modello
clf.fit(X_train, y_train)

# Poi lo usiamo per fare predizioni, cioè per capire se funziona
y_preds = clf.predict(X_test)

clf.score(X_train, y_train) # Vediamo l'accuratezza sul set di addestramento
clf.score(X_test, y_test)  # Vediamo l'accuratezza sul set di test

0.7868852459016393

In [3]:
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

print(classification_report(y_test, y_preds))

              precision    recall  f1-score   support

           0       0.76      0.73      0.75        26
           1       0.81      0.83      0.82        35

    accuracy                           0.79        61
   macro avg       0.78      0.78      0.78        61
weighted avg       0.79      0.79      0.79        61



In [4]:
confusion_matrix(y_test, y_preds)

array([[19,  7],
       [ 6, 29]], dtype=int64)

In [5]:
accuracy_score(y_test, y_preds)

0.7868852459016393

In [6]:
np.random.seed(42)
for i in range(10,100,10):
    print(f"Trying moel with {i} estimators...")
    clf = RandomForestClassifier(n_estimators=i).fit(X_train, y_train)
    print(f"Model accurancy on test set: {clf.score(X_test,y_test) * 100:.2f}%")
    print("")

Trying moel with 10 estimators...
Model accurancy on test set: 75.41%

Trying moel with 20 estimators...
Model accurancy on test set: 77.05%

Trying moel with 30 estimators...
Model accurancy on test set: 78.69%

Trying moel with 40 estimators...
Model accurancy on test set: 75.41%

Trying moel with 50 estimators...
Model accurancy on test set: 78.69%

Trying moel with 60 estimators...
Model accurancy on test set: 77.05%

Trying moel with 70 estimators...
Model accurancy on test set: 80.33%

Trying moel with 80 estimators...
Model accurancy on test set: 80.33%

Trying moel with 90 estimators...
Model accurancy on test set: 80.33%



### Un modo semplice per verificare è controllare la dimensione dei dati dopo lo split. 
- Prova a stampare la dimensione di X_train, X_test, y_train e y_test:


In [8]:
print(f"Dimensioni X_train: {X_train.shape}")
print(f"Dimensioni X_test: {X_test.shape}")
print(f"Dimensioni y_train: {y_train.shape}")
print(f"Dimensioni y_test: {y_test.shape}")

Dimensioni X_train: (242, 13)
Dimensioni X_test: (61, 13)
Dimensioni y_train: (242,)
Dimensioni y_test: (61,)


In [28]:
# 6. Salvo il modello per poterlo poi ricaricare
import pickle
pickle.dump(clf,open("random_forest_model_1.pk1","wb"))

In [29]:
loaded_model = pickle.load(open("random_forest_model_1.pk1","rb"))
loaded_model.score(X_test,y_test)

0.8360655737704918