# Ejercicio de Lab 4. Metodos de validacion

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold
from sklearn.model_selection import LeaveOneOut

# Leemos los dos dataset

In [2]:
diabetes = pd.read_csv('diabetes_prediction_dataset.csv')
diabetes = diabetes.drop_duplicates() # Eliminamos los datos dublicados
diabetes.head()

Unnamed: 0,gender,age,hypertension,heart_disease,smoking_history,bmi,HbA1c_level,blood_glucose_level,diabetes
0,Female,80.0,0,1,never,25.19,6.6,140,0
1,Female,54.0,0,0,No Info,27.32,6.6,80,0
2,Male,28.0,0,0,never,27.32,5.7,158,0
3,Female,36.0,0,0,current,23.45,5.0,155,0
4,Male,76.0,1,1,current,20.14,4.8,155,0


In [3]:
creditCard = pd.read_csv('CreditCard_Approvals.csv')
creditCard.head()

Unnamed: 0,Gender,Age,Debt,Married,BankCustomer,Industry,Ethnicity,YearsEmployed,PriorDefault,Employed,CreditScore,DriversLicense,Citizen,ZipCode,Income,Approved
0,1,30.83,0.0,1,1,Industrials,White,1.25,1,1,1,0,ByBirth,202,0,1
1,0,58.67,4.46,1,1,Materials,Black,3.04,1,1,6,0,ByBirth,43,560,1
2,0,24.5,0.5,1,1,Materials,Black,1.5,1,0,0,0,ByBirth,280,824,1
3,1,27.83,1.54,1,1,Industrials,White,3.75,1,1,5,1,ByBirth,100,3,1
4,1,20.17,5.625,1,1,Industrials,White,1.71,1,0,0,0,ByOtherMeans,120,0,1


## Creamos funciones para cada metodo de validacion

### Holdout.

In [4]:
def holdout_validation(X,y,r):
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=r, random_state=42)
    return X_train, X_test, y_train, y_test

### K-Fold Cross-Validation.

In [5]:
def k_fold_cross_validation(X, y, K):
    kf = KFold(n_splits=K, shuffle=True, random_state=42)
    
    folds = []

    for train_index, test_index in kf.split(X):
        X_train, X_test = X.iloc[train_index], X.iloc[test_index]
        y_train, y_test = y.iloc[train_index], y.iloc[test_index]
        
        folds.append((X_train, X_test, y_train, y_test))
    
    return folds

### Leave-One-Out.

In [6]:
def leave_one_out_validation(X, y):
    loo = LeaveOneOut()
    leaveVali = []
    
    for train_index, test_index in loo.split(X):
        X_train, X_test = X.iloc[train_index], X.iloc[test_index]
        y_train, y_test = y.iloc[train_index], y.iloc[test_index]
        
        leaveVali.append((X_train, X_test, y_train, y_test))

    return leaveVali
        

### Funcion para comprobar que los conjuntos de entrenamiento y prueba son disjuntos

In [7]:
def check_datasets(X_train, X_test):
    intersection = pd.merge(X_train, X_test, how='inner')
    
    if intersection.empty:
        print("Los conjuntos de entrenamiento y prueba son disjuntos.")
    else:
        print("Los conjuntos de entrenamiento y prueba NO son disjuntos.")
        print(intersection)


## Prueba de las validaciones con cada metodo

In [8]:
# Data de la diabetes
X = diabetes[['gender','age','hypertension','heart_disease','smoking_history','bmi','HbA1c_level','blood_glucose_level']]
y = diabetes['diabetes']

r = float(input("Ingrese el valor de r: "))
X_train, X_test, y_train, y_test = holdout_validation(X, y, r)

check_datasets(X_train,X_test)

Ingrese el valor de r:  0.3


Los conjuntos de entrenamiento y prueba NO son disjuntos.
    gender   age  hypertension  heart_disease smoking_history    bmi  \
0   Female  80.0             0              0           never  27.32   
1   Female  28.0             0              0         No Info  27.32   
2   Female  48.0             0              0         current  27.32   
3   Female  56.0             0              0           never  27.32   
4   Female  60.0             0              0         No Info  27.32   
5   Female  68.0             0              0         No Info  27.32   
6   Female  47.0             0              0         No Info  27.32   
7     Male  55.0             0              0           never  27.32   
8     Male  80.0             0              0         No Info  27.32   
9   Female  68.0             0              0           never  27.32   
10  Female  37.0             0              0         No Info  27.32   
11  Female  79.0             0              0         No Info  27.32   
12    

In [9]:
K = int(input("Ingrese el valor de K: "))

folds = k_fold_cross_validation(X, y, K)

for i,(X_train,X_test,y_train, y_test) in enumerate(folds):
    print(f"Para el fold {i}")
    check_datasets(X_train,X_test)

Ingrese el valor de K:  18


Para el fold 0
Los conjuntos de entrenamiento y prueba NO son disjuntos.
   gender   age  hypertension  heart_disease smoking_history    bmi  \
0    Male  51.0             0              0           never  27.32   
1  Female  80.0             0              0         No Info  27.32   
2  Female  80.0             0              0         No Info  27.32   
3  Female  44.0             0              0         No Info  27.32   
4    Male  32.0             0              0         No Info  27.32   
5  Female  28.0             0              0         No Info  27.32   
6  Female  49.0             0              0         No Info  27.32   
7  Female  68.0             0              0           never  27.32   
8  Female  47.0             0              0           never  27.32   
9    Male  55.0             0              0         No Info  27.32   

   HbA1c_level  blood_glucose_level  
0          5.7                  145  
1          6.5                  159  
2          6.5                 

In [10]:
# Data credit card
X = creditCard[['Debt','Married','BankCustomer','Industry','Ethnicity','YearsEmployed','PriorDefault','Employed','CreditScore']]
y = creditCard['Approved']
r = float(input("Ingrese el valor de r: "))
X_train, X_test, y_train, y_test = holdout_validation(X, y, r)
check_datasets(X_train,X_test)

Ingrese el valor de r:  0.2


Los conjuntos de entrenamiento y prueba son disjuntos.


In [11]:
K = int(input("Ingrese el valor de K: "))
folds = k_fold_cross_validation(X, y, K)

for i,(X_train,X_test,y_train, y_test) in enumerate(folds):
    print(f"Para el fold {i}")
    check_datasets(X_train,X_test)

Ingrese el valor de K:  6


Para el fold 0
Los conjuntos de entrenamiento y prueba son disjuntos.
Para el fold 1
Los conjuntos de entrenamiento y prueba son disjuntos.
Para el fold 2
Los conjuntos de entrenamiento y prueba NO son disjuntos.
   Debt  Married  BankCustomer Industry Ethnicity  YearsEmployed  \
0   0.0        1             1   Energy     White            0.0   
1   0.0        1             1   Energy     White            0.0   
2   0.0        1             1   Energy     White            0.0   
3   0.0        1             1   Energy     White            0.0   
4   0.0        1             1   Energy     White            0.0   

   PriorDefault  Employed  CreditScore  
0             0         0            0  
1             0         0            0  
2             0         0            0  
3             0         0            0  
4             0         0            0  
Para el fold 3
Los conjuntos de entrenamiento y prueba NO son disjuntos.
   Debt  Married  BankCustomer Industry Ethnicity  YearsEmp

In [12]:
leaveVali = leave_one_out_validation(X, y)

for i,(X_train,X_test,y_train, y_test) in enumerate(leaveVali):
    print(f"Para el conjunto {i}")
    check_datasets(X_train,X_test)

Para el conjunto 0
Los conjuntos de entrenamiento y prueba son disjuntos.
Para el conjunto 1
Los conjuntos de entrenamiento y prueba son disjuntos.
Para el conjunto 2
Los conjuntos de entrenamiento y prueba son disjuntos.
Para el conjunto 3
Los conjuntos de entrenamiento y prueba son disjuntos.
Para el conjunto 4
Los conjuntos de entrenamiento y prueba son disjuntos.
Para el conjunto 5
Los conjuntos de entrenamiento y prueba son disjuntos.
Para el conjunto 6
Los conjuntos de entrenamiento y prueba son disjuntos.
Para el conjunto 7
Los conjuntos de entrenamiento y prueba son disjuntos.
Para el conjunto 8
Los conjuntos de entrenamiento y prueba son disjuntos.
Para el conjunto 9
Los conjuntos de entrenamiento y prueba son disjuntos.
Para el conjunto 10
Los conjuntos de entrenamiento y prueba son disjuntos.
Para el conjunto 11
Los conjuntos de entrenamiento y prueba son disjuntos.
Para el conjunto 12
Los conjuntos de entrenamiento y prueba son disjuntos.
Para el conjunto 13
Los conjuntos d