<h1> P4 Hold out </h1>

In [36]:
import pandas as pd
from sklearn.datasets import load_wine
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
import random  # Importar el módulo random


In [38]:
# Cargar el dataset de wine desde scikit-learn como dataframe de pandas
wine = load_wine(as_frame=True)['frame']

# Cargar el dataset de Raisin desde el archivo CSV
try:
    raisin_data = pd.read_csv('Raisin_Dataset.csv', delimiter=',')
    print("Raisin Dataset cargado correctamente.")
except FileNotFoundError:
    print("Error: No se encontró el archivo Raisin_Dataset.csv. Verifica su ubicación y nombre.")

# Mostrar las primeras filas de ambos datasets
print("\nPrimeras filas del Wine Dataset:")
print(wine.head())

print("\nPrimeras filas del Raisin Dataset:")
print(raisin_data.head())

Raisin Dataset cargado correctamente.

Primeras filas del Wine Dataset:
   alcohol  malic_acid   ash  alcalinity_of_ash  magnesium  total_phenols  \
0    14.23        1.71  2.43               15.6      127.0           2.80   
1    13.20        1.78  2.14               11.2      100.0           2.65   
2    13.16        2.36  2.67               18.6      101.0           2.80   
3    14.37        1.95  2.50               16.8      113.0           3.85   
4    13.24        2.59  2.87               21.0      118.0           2.80   

   flavanoids  nonflavanoid_phenols  proanthocyanins  color_intensity   hue  \
0        3.06                  0.28             2.29             5.64  1.04   
1        2.76                  0.26             1.28             4.38  1.05   
2        3.24                  0.30             2.81             5.68  1.03   
3        3.49                  0.24             2.18             7.80  0.86   
4        2.69                  0.39             1.82             4.32 

In [40]:
# Función de Hold out 
def hold_out_validation(data, r=0.3):
    #Separa características y etiquetas
    X = data.iloc[:,:-1] #Todas las columnas menos la última
    y = data.iloc[:,-1] #última columna (etiquetas)

    #Division de entrenamiento y prueba
    n = len(X)
    test_size = int(n * r) #Tamaño conjunto de prueba
    train_size = n - test_size

    #Mezclar índices aleatoriamente
    indices = list(range(n))
    random.shuffle(indices)

    #Seleccionar subconjunto de entrenamiento y prueba
    train_indices = indices[:train_size]
    test_indices = indices[train_size:]

    X_train = X.iloc[train_indices]
    y_train = y.iloc[train_indices]
    X_test = X.iloc[test_indices]
    y_test = y.iloc[test_indices]

    print(f"Tamaño del entrenamiento: {len(X_train)}, Tamaño del test: {len(X_test)}")
   
    #Entrenar un modelo simple
    model = RandomForestClassifier(random_state=42)
    model.fit(X_train, y_train)

    #Hacer predicciones
    y_pred = model.predict(X_test)

    #Calcular exactitud
    accuracy = accuracy_score(y_test, y_pred)
    print(f"Exactitud en Hold Out (r={r}): {accuracy:.2f}")



In [42]:
# Ejecutar la validación Hold Out con diferentes proporciones de prueba
print("Ingrese el limite inferior de r (0 a 10) : ")
inf_r = int(input())
print("Ingrese el limite superior de r (0 a 10) : ")
sup_r = int(input())

# Validar entradas para evitar errores
if not (0 <= inf_r <= 10) or not (0 <= sup_r <= 10) or inf_r >= sup_r:
    print("Los límites no son válidos. Asegúrate de que 0 ≤ inf_r < sup_r ≤ 10.")
else:
    # Ejecutar Hold-Out con los datasets para los valores de r dados
    print("Hold-Out con Wine Dataset:")
    for r in range(inf_r, sup_r):
        hold_out_validation(wine, r / 10)

    # Ejecutar Hold-Out para el dataset de Raisin
    print("\nHold-Out con Raisin Dataset:")
    for r in range(inf_r, sup_r):
        hold_out_validation(raisin_data, r / 10)




Ingrese el limite inferior de r (0 a 10) : 


 5


Ingrese el limite superior de r (0 a 10) : 


 10


Hold-Out con Wine Dataset:
Tamaño del entrenamiento: 89, Tamaño del test: 89
Exactitud en Hold Out (r=0.5): 0.99
Tamaño del entrenamiento: 72, Tamaño del test: 106
Exactitud en Hold Out (r=0.6): 0.96
Tamaño del entrenamiento: 54, Tamaño del test: 124
Exactitud en Hold Out (r=0.7): 0.98
Tamaño del entrenamiento: 36, Tamaño del test: 142
Exactitud en Hold Out (r=0.8): 0.93
Tamaño del entrenamiento: 18, Tamaño del test: 160
Exactitud en Hold Out (r=0.9): 0.92

Hold-Out con Raisin Dataset:
Tamaño del entrenamiento: 450, Tamaño del test: 450
Exactitud en Hold Out (r=0.5): 0.83
Tamaño del entrenamiento: 360, Tamaño del test: 540
Exactitud en Hold Out (r=0.6): 0.87
Tamaño del entrenamiento: 270, Tamaño del test: 630
Exactitud en Hold Out (r=0.7): 0.85
Tamaño del entrenamiento: 180, Tamaño del test: 720
Exactitud en Hold Out (r=0.8): 0.84
Tamaño del entrenamiento: 90, Tamaño del test: 810
Exactitud en Hold Out (r=0.9): 0.84
