# INTERVALOS DE CONFIANZA PARA LA PRECISIÓN DEL MODELO

Este notebok contiene el código usado para hallar el intervalo de confianza para la precisión del modelo desarrollado en este TFM. 

IMPORTAMOS LAS LIBRERÍAS

In [1]:
import numpy as np
import pandas as pd
import random
import sklearn
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

IMPORTAMOS LOS DATOS

In [2]:
df_data = pd.read_csv('data.csv')
X = df_data.drop(columns=['battery','OHS','CHS', 'chemistry'])
y = df_data['OHS']

In [3]:
X.shape, y.shape

((118, 10), (118,))

DIVIDIMOS EN TRAIN Y TEST

In [4]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=0)

RESETEAMOS EL ÍNDICE PARA QUE SE SELECCIONE LAS FILAS CORRECTAMENTE

In [5]:
X_train_ = X_train.reset_index(drop=True)
y_train_ = y_train.reset_index(drop=True)

# VAMOS A INTENTARLO CON 200 VALORES DE MUESTRA 🤔🤔🤔

## INTERVALO DE CONFIANZA 200 ⬅➡

In [6]:
# muestras para IC
acc_test_interval = []
details_boot = {}
for i in range(200):
    # bootstrap
    random.seed(i)
    ind_train_boot = random.choices(range(len(X_train_)), k = len(X_train_))
    X_train_boot = X_train_.iloc[ind_train_boot,]
    y_train_boot = y_train_.iloc[ind_train_boot,]
    #almacenamos algunos detalles del bootstrap por si acaso nos interese después
    details_boot[i] = y_train_boot.value_counts()
    
    # random forest
    rf_classifier = RandomForestClassifier(bootstrap=True, 
                                           oob_score=True, 
                                           random_state=0,
                                          n_estimators = 113, min_samples_split = 2, min_samples_leaf = 1, max_depth = 6)
    # entrenamiento 
    rf_classifier.fit(X_train_boot, y_train_boot)

    # predicciones
    y_test_pred = rf_classifier.predict(X_test)

    # accuracies
    acc_test = accuracy_score(y_test, y_test_pred)

    # añadimos a listas
    acc_test_interval.append(acc_test)
    

In [7]:
acc_test_interval 

[0.7666666666666667,
 0.7666666666666667,
 0.8,
 0.8,
 0.8,
 0.8,
 0.7666666666666667,
 0.7333333333333333,
 0.8666666666666667,
 0.8333333333333334,
 0.8333333333333334,
 0.7,
 0.8333333333333334,
 0.7666666666666667,
 0.7666666666666667,
 0.8333333333333334,
 0.8,
 0.8,
 0.8,
 0.8,
 0.8333333333333334,
 0.8,
 0.7333333333333333,
 0.7,
 0.7666666666666667,
 0.7666666666666667,
 0.7333333333333333,
 0.6666666666666666,
 0.7333333333333333,
 0.9,
 0.6666666666666666,
 0.7333333333333333,
 0.7666666666666667,
 0.7666666666666667,
 0.8666666666666667,
 0.7333333333333333,
 0.7,
 0.5666666666666667,
 0.8,
 0.7666666666666667,
 0.7333333333333333,
 0.9,
 0.6666666666666666,
 0.8,
 0.7666666666666667,
 0.8666666666666667,
 0.7333333333333333,
 0.6666666666666666,
 0.9,
 0.9,
 0.7666666666666667,
 0.7,
 0.6666666666666666,
 0.7333333333333333,
 0.8333333333333334,
 0.7333333333333333,
 0.6666666666666666,
 0.8333333333333334,
 0.8,
 0.7666666666666667,
 0.7333333333333333,
 0.8,
 0.7333333333

In [8]:
# percentiles
percentil_l = np.percentile(acc_test_interval, 2.5)
percentil_u = np.percentile(acc_test_interval, 97.5)

# imprimimos por pantalla
print(f"La precisión del modelo se encuentra en el intervalo de confianza [{percentil_l}, {percentil_u}] con una confianza del 95%")

La precisión del modelo se encuentra en el intervalo de confianza [0.6666666666666666, 0.9] con una confianza del 95%


# VAMOS A INTENTARLO CON 500 VALORES DE MUESTRA  🤔🤔🤔

## INTERVALO DE CONFIANZA 500 ⬅➡

In [9]:
# muestras para IC
acc_test_interval = []
details_boot = {}
for i in range(500):
    # bootstrap
    random.seed(i)
    ind_train_boot = random.choices(range(len(X_train_)), k = len(X_train_))
    X_train_boot = X_train_.iloc[ind_train_boot,]
    y_train_boot = y_train_.iloc[ind_train_boot,]
    #almacenamos algunos detalles del bootstrap por si acaso nos interese después
    details_boot[i] = y_train_boot.value_counts()
    
    # random forest
    rf_classifier = RandomForestClassifier(bootstrap=True, 
                                           oob_score=True, 
                                           random_state=0,
                                          n_estimators = 113, min_samples_split = 2, min_samples_leaf = 1, max_depth = 6)
    # entrenamiento 
    rf_classifier.fit(X_train_boot, y_train_boot)

    # predicciones
    y_test_pred = rf_classifier.predict(X_test)

    # accuracies
    acc_test = accuracy_score(y_test, y_test_pred)

    # añadimos a listas
    acc_test_interval.append(acc_test)
    

In [10]:
acc_test_interval 

[0.7666666666666667,
 0.7666666666666667,
 0.8,
 0.8,
 0.8,
 0.8,
 0.7666666666666667,
 0.7333333333333333,
 0.8666666666666667,
 0.8333333333333334,
 0.8333333333333334,
 0.7,
 0.8333333333333334,
 0.7666666666666667,
 0.7666666666666667,
 0.8333333333333334,
 0.8,
 0.8,
 0.8,
 0.8,
 0.8333333333333334,
 0.8,
 0.7333333333333333,
 0.7,
 0.7666666666666667,
 0.7666666666666667,
 0.7333333333333333,
 0.6666666666666666,
 0.7333333333333333,
 0.9,
 0.6666666666666666,
 0.7333333333333333,
 0.7666666666666667,
 0.7666666666666667,
 0.8666666666666667,
 0.7333333333333333,
 0.7,
 0.5666666666666667,
 0.8,
 0.7666666666666667,
 0.7333333333333333,
 0.9,
 0.6666666666666666,
 0.8,
 0.7666666666666667,
 0.8666666666666667,
 0.7333333333333333,
 0.6666666666666666,
 0.9,
 0.9,
 0.7666666666666667,
 0.7,
 0.6666666666666666,
 0.7333333333333333,
 0.8333333333333334,
 0.7333333333333333,
 0.6666666666666666,
 0.8333333333333334,
 0.8,
 0.7666666666666667,
 0.7333333333333333,
 0.8,
 0.7333333333

In [11]:
# percentiles
percentil_l = np.percentile(acc_test_interval, 2.5)
percentil_u = np.percentile(acc_test_interval, 97.5)

# imprimimos por pantalla
print(f"La precisión del modelo se encuentra en el intervalo de confianza [{percentil_l}, {percentil_u}] con una confianza del 95%")

La precisión del modelo se encuentra en el intervalo de confianza [0.6666666666666666, 0.9] con una confianza del 95%


# VAMOS A INTENTARLO CON 1000 VALORES DE MUESTRA  🤔🤔🤔

## INTERVALO DE CONFIANZA 1000 ⬅➡

In [12]:
# muestras para IC
acc_test_interval = []
details_boot = {}
for i in range(1000):
    # bootstrap
    random.seed(i)
    ind_train_boot = random.choices(range(len(X_train_)), k = len(X_train_))
    X_train_boot = X_train_.iloc[ind_train_boot,]
    y_train_boot = y_train_.iloc[ind_train_boot,]
    #almacenamos algunos detalles del bootstrap por si acaso nos interese después
    details_boot[i] = y_train_boot.value_counts()
    
    # random forest
    rf_classifier = RandomForestClassifier(bootstrap=True, 
                                           oob_score=True, 
                                           random_state=0,
                                          n_estimators = 113, min_samples_split = 2, min_samples_leaf = 1, max_depth = 6)
    # entrenamiento 
    rf_classifier.fit(X_train_boot, y_train_boot)

    # predicciones
    y_test_pred = rf_classifier.predict(X_test)

    # accuracies
    acc_test = accuracy_score(y_test, y_test_pred)

    # añadimos a listas
    acc_test_interval.append(acc_test)
    

In [13]:
acc_test_interval 

[0.7666666666666667,
 0.7666666666666667,
 0.8,
 0.8,
 0.8,
 0.8,
 0.7666666666666667,
 0.7333333333333333,
 0.8666666666666667,
 0.8333333333333334,
 0.8333333333333334,
 0.7,
 0.8333333333333334,
 0.7666666666666667,
 0.7666666666666667,
 0.8333333333333334,
 0.8,
 0.8,
 0.8,
 0.8,
 0.8333333333333334,
 0.8,
 0.7333333333333333,
 0.7,
 0.7666666666666667,
 0.7666666666666667,
 0.7333333333333333,
 0.6666666666666666,
 0.7333333333333333,
 0.9,
 0.6666666666666666,
 0.7333333333333333,
 0.7666666666666667,
 0.7666666666666667,
 0.8666666666666667,
 0.7333333333333333,
 0.7,
 0.5666666666666667,
 0.8,
 0.7666666666666667,
 0.7333333333333333,
 0.9,
 0.6666666666666666,
 0.8,
 0.7666666666666667,
 0.8666666666666667,
 0.7333333333333333,
 0.6666666666666666,
 0.9,
 0.9,
 0.7666666666666667,
 0.7,
 0.6666666666666666,
 0.7333333333333333,
 0.8333333333333334,
 0.7333333333333333,
 0.6666666666666666,
 0.8333333333333334,
 0.8,
 0.7666666666666667,
 0.7333333333333333,
 0.8,
 0.7333333333

In [14]:
# percentiles
percentil_l = np.percentile(acc_test_interval, 2.5)
percentil_u = np.percentile(acc_test_interval, 97.5)

# imprimimos por pantalla
print(f"La precisión del modelo se encuentra en el intervalo de confianza [{percentil_l}, {percentil_u}] con una confianza del 95%")

La precisión del modelo se encuentra en el intervalo de confianza [0.6666666666666666, 0.9] con una confianza del 95%
