# Práctica. Métodos de Validación
Francisco Pineda Hernández

# Especificaciones
1. Investiga las siguientes funciones de scikit learn
 - train_test_Split()
 - Kfold()
 - LeaveOneOut()
 - resample()

## train_test_Split()

Esta función sirve para dividir un conjutno de datos en dos subconjuntos, uno de entrenamiento (train) y otro para pruebas (test).

| Parámetro     | Tipo / Valor por defecto                  | Descripción                                                                 |
|---------------|-------------------------------------------|-----------------------------------------------------------------------------|
| *arrays       | listas, NumPy arrays, pandas DataFrames o SciPy sparse matrices | Secuencia de datos a dividir (deben tener la misma longitud en la primera dimensión). |
| test_size     | float \| int \| None, default=None        | Número de muestras para el **conjunto de prueba**. <br>• Si es `float`: entre 0 y 1 (proporción). <br>• Si es `int`: número exacto de muestras. <br>• Si es `None`: se toma el complemento de `train_size`. |
| train_size    | float \| int \| None, default=None        | Igual que `test_size`, pero para el **conjunto de entrenamiento**. Si es `None`, se ajusta según `test_size`. |
| random_state  | int \| RandomState \| None, default=None  | Controla la aleatoriedad de la división. Si se pasa un entero, los resultados son reproducibles. |
| shuffle       | bool, default=True                        | Indica si los datos deben **mezclarse** antes de dividirse. |
| stratify      | array-like o None, default=None           | Si no es `None`, divide los datos manteniendo la **proporción de clases**. |


### Salida
Devuelve una lista de longitud 2. Si es que se le pasa X & Y entonces devuelve 4 listas de la forma:

X_train, X_test, y_train, y_test

## KFold()
Es un validador curzado (cross-validator) que divide un conjutno de datos en K particiones (folds).
En cada iteración, un fold se usa como validación (test) y los k-1 folds restantes como entrenamiento (train).
El proceso se repite K veces hasta que todos los folds han sido usados como validación una vez.

| Parámetro     | Tipo / Valor por defecto                      | Descripción                                                                 |
|---------------|-----------------------------------------------|-----------------------------------------------------------------------------|
| n_splits      | int, default=5                               | Número de folds (particiones). Debe ser al menos 2.                         |
| shuffle       | bool, default=False                          | Indica si se deben mezclar los datos antes de dividirlos en folds.          |
| random_state  | int \| RandomState \| None, default=None      | Solo tiene efecto si `shuffle=True`. Controla la aleatoriedad y, si se pasa un entero, asegura reproducibilidad. |


### Salida
Regresa un iterador que produce, en cada iteración
(train_indices, test_indices)
donde cada uno es un arrray de índices que indican que filas del dataset corresponden a entrenamiento y prueba.


## LeaveOneOut()

Es un método de validación cruzada que usa una sola muestra como conjunto de prueba en cada iteración. Dejando así al resto de las muestras como el conjunto de entrenamiento. El proceso se repite tantas veces como muestras en el dataset.

Teniendo la relación:
LeaveOneOut = KFold(n_splits=n)

| Elemento       | Tipo / Valor | Descripción |
|----------------|--------------|-------------|
| get_n_splits(X, y=None, groups=None) | Método | Devuelve el número de particiones (**splits**) como un entero. Siempre es igual al número de muestras (`n_samples`). |
| split(X, y=None, groups=None) | Método | Genera los índices de entrenamiento y prueba para cada partición. <br>• **train**: índices de entrenamiento. <br>• **test**: índice de prueba (solo un elemento). |



## resample()

Sirve para re-muestrear datos de manera consistente.
Es comunmente usada en bootstrapping, y permite generar versiones re-muestreadas de los datos para validación, estimación de intervalos de confianza o balanceo de clases.

### Parámetros

| Parámetro | Tipo / Default | Descripción |
|-----------|----------------|-------------|
| *arrays | varias entradas | Todas deben de tener la misma dimensión (`n_samples`). Se re-muestrean en paralelo para mantener la correspondencia entre X e Y. |
| replace | bool, default=True | Si `True`, muestreo con reemplazo (un mismo dato puede aparecer varias veces). Si `False`, muestreo sin reemplazo, equivalente a permutar aleatoriamente los datos. |
| n_samples | int, default=None | Número de muestras a generar. Si `None`, se usa el tamaño original (`len(arrays)`). Si `replace=False`, no puede ser mayor al tamaño original. |
| random_state | int \| RandomState \| None, default=None | Controla la aleatoriedad del muestreo. |
| stratify | array-like, sparse, default=None | Si se especifica, asegura que el re-muestreo mantenga la proporción de clases. |
| sample_weight | array-like, default=None | Pondera la probabilidad de que cada muestra sea seleccionada. Los valores se normalizan para que sumen 1. |


### Salida
Una secuencia de arrays re-muestreados, con la misma forma que los originales, pero con los datos seleccionados según la estrategia de muestreo.
Los arrays originales no se modifican.

2. Utilizando el dataset metodosDeValidacion.csv elabore un programa en python y utilizando las bibliotecas de scikit learn que realicen lo siguiente:
 - Sin mezclar los datos genere un conjunto de entrenamiento (70%) y uno de prueba (30%) con train_test_Split()
 - Con validación cruzada genere conjuntos de validación para k=6 con Kfold()
 - Genere conjuntos de validación con LeaveOneOut()
 - Utilizando Bootstrap genere 2 conjuntos de validación con conjuntos de entrenamiento de tamaño=9 con resample()
3. El programa deberá imprimir en pantalla los conjuntos de validación generados por cada método de validación

In [103]:
# IMPORTAMOS PANDAS Y NUMPY A NIVEL GENERAL YA QUE LAS USAREMOS EN CADA PUNTO DE LA PRÁCTICA
import pandas as pd
import numpy as np

In [104]:
# LEEMOS EL DATASET POR MEDIO DE PANDAS
data = pd.read_csv('metodosDeValidacion.csv')
data

Unnamed: 0,x,y
0,1,2
1,2,4
2,3,6
3,4,8
4,5,10
5,6,12
6,7,14
7,8,16
8,9,18
9,10,20


In [105]:
data_lista = list(data.itertuples(index=False, name=None))
data_lista

[(1, 2),
 (2, 4),
 (3, 6),
 (4, 8),
 (5, 10),
 (6, 12),
 (7, 14),
 (8, 16),
 (9, 18),
 (10, 20),
 (11, 22),
 (12, 24),
 (13, 26),
 (14, 28),
 (15, 30),
 (16, 32),
 (17, 34),
 (18, 36),
 (19, 38),
 (20, 40)]

### Sin mezclar los datos genere un conjunto de entrenamiento (70%) y uno de prueba (30%) con train_test_Split()

In [106]:
from sklearn.model_selection import train_test_split # Importamos el método
train_test_split(data, train_size=0.7, test_size=0.3, shuffle=False)

[     x   y
 0    1   2
 1    2   4
 2    3   6
 3    4   8
 4    5  10
 5    6  12
 6    7  14
 7    8  16
 8    9  18
 9   10  20
 10  11  22
 11  12  24
 12  13  26
 13  14  28,
      x   y
 14  15  30
 15  16  32
 16  17  34
 17  18  36
 18  19  38
 19  20  40]

In [107]:
train, test = train_test_split(data, train_size=0.7, test_size=0.3, shuffle=False) # Guardamos cada conjunto como variable
print(f"Conjunto de entrenamiento con tamaño {len(train)}:\n", train)
print(f"Conjunto de pruebas con tamaño {len(test)}:\n", test)


Conjunto de entrenamiento con tamaño 14:
      x   y
0    1   2
1    2   4
2    3   6
3    4   8
4    5  10
5    6  12
6    7  14
7    8  16
8    9  18
9   10  20
10  11  22
11  12  24
12  13  26
13  14  28
Conjunto de pruebas con tamaño 6:
      x   y
14  15  30
15  16  32
16  17  34
17  18  36
18  19  38
19  20  40


### Con validación cruzada genere conjuntos de validación para k=6 con Kfold()

In [108]:
from sklearn.model_selection import KFold # Importamos la Clase KFold
kf = KFold(n_splits=6, shuffle=True) # Creamos un objeto con nuestro numero de conjuntos de validación (6) y las ordenes de shuffle
kf

KFold(n_splits=6, random_state=None, shuffle=True)

In [109]:
folds = kf.get_n_splits(train)
print(f"Número de folds: {folds}")

Número de folds: 6


In [110]:
kf.split(train), list(kf.split(train)) # Si convertimos a lista nos deja ver todos los INDICES de losconjutnos para los K folds

(<generator object _BaseKFold.split at 0x000002AD64515140>,
 [(array([ 0,  1,  2,  3,  4,  5,  6,  8,  9, 10, 12]), array([ 7, 11, 13])),
  (array([ 1,  2,  4,  6,  7,  8,  9, 10, 11, 12, 13]), array([0, 3, 5])),
  (array([ 0,  1,  2,  3,  4,  5,  7,  8, 10, 11, 12, 13]), array([6, 9])),
  (array([ 0,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 13]), array([ 1, 12])),
  (array([ 0,  1,  2,  3,  4,  5,  6,  7,  9, 11, 12, 13]), array([ 8, 10])),
  (array([ 0,  1,  3,  5,  6,  7,  8,  9, 10, 11, 12, 13]), array([2, 4]))])

In [111]:
for i, (train_index, test_index) in enumerate(kf.split(train)):
    print(f"Fold {i + 1}:")
    print(f"  Train: index={train_index} len = {len(train_index)}")
    print(f"  Test:  index={test_index} len = {len(test_index)}")
    for train_i in train_index:
        print(f"  {data_lista[train_i]}", end="")
    print("")
    for test_i in test_index:
        print(f"  {data_lista[test_i]}", end="")
    print("\n")

Fold 1:
  Train: index=[ 0  1  2  3  5  7  9 10 11 12 13] len = 11
  Test:  index=[4 6 8] len = 3
  (1, 2)  (2, 4)  (3, 6)  (4, 8)  (6, 12)  (8, 16)  (10, 20)  (11, 22)  (12, 24)  (13, 26)  (14, 28)
  (5, 10)  (7, 14)  (9, 18)

Fold 2:
  Train: index=[ 0  2  4  5  6  7  8  9 10 11 12] len = 11
  Test:  index=[ 1  3 13] len = 3
  (1, 2)  (3, 6)  (5, 10)  (6, 12)  (7, 14)  (8, 16)  (9, 18)  (10, 20)  (11, 22)  (12, 24)  (13, 26)
  (2, 4)  (4, 8)  (14, 28)

Fold 3:
  Train: index=[ 1  3  4  5  6  7  8  9 10 11 12 13] len = 12
  Test:  index=[0 2] len = 2
  (2, 4)  (4, 8)  (5, 10)  (6, 12)  (7, 14)  (8, 16)  (9, 18)  (10, 20)  (11, 22)  (12, 24)  (13, 26)  (14, 28)
  (1, 2)  (3, 6)

Fold 4:
  Train: index=[ 0  1  2  3  4  6  7  8 10 11 12 13] len = 12
  Test:  index=[5 9] len = 2
  (1, 2)  (2, 4)  (3, 6)  (4, 8)  (5, 10)  (7, 14)  (8, 16)  (9, 18)  (11, 22)  (12, 24)  (13, 26)  (14, 28)
  (6, 12)  (10, 20)

Fold 5:
  Train: index=[ 0  1  2  3  4  5  6  8  9 11 12 13] len = 12
  Test:  inde

### Genere conjuntos de validación con LeaveOneOut()

In [112]:
from sklearn.model_selection import LeaveOneOut
loo = LeaveOneOut()
loo

LeaveOneOut()

In [113]:
folds = loo.get_n_splits(train)
print(f"Número de folds: {folds} = {len(train)} longitud del dataset")

Número de folds: 14 = 14 longitud del dataset


In [114]:
data_lista = list(train.itertuples(index=False, name=None))
for i, (train_index, test_index) in enumerate(loo.split(train)):
    print(f"Fold {i + 1}:")
    print(f"  Train: index={train_index} len = {len(train_index)}")
    print(f"  Test:  index={test_index} len = {len(test_index)}")
    for train_i in train_index:
        print(f"  {data_lista[train_i]}", end="")
    print("")
    for test_i in test_index:
        print(f"  {data_lista[test_i]}", end="")
    print("\n")


Fold 1:
  Train: index=[ 1  2  3  4  5  6  7  8  9 10 11 12 13] len = 13
  Test:  index=[0] len = 1
  (2, 4)  (3, 6)  (4, 8)  (5, 10)  (6, 12)  (7, 14)  (8, 16)  (9, 18)  (10, 20)  (11, 22)  (12, 24)  (13, 26)  (14, 28)
  (1, 2)

Fold 2:
  Train: index=[ 0  2  3  4  5  6  7  8  9 10 11 12 13] len = 13
  Test:  index=[1] len = 1
  (1, 2)  (3, 6)  (4, 8)  (5, 10)  (6, 12)  (7, 14)  (8, 16)  (9, 18)  (10, 20)  (11, 22)  (12, 24)  (13, 26)  (14, 28)
  (2, 4)

Fold 3:
  Train: index=[ 0  1  3  4  5  6  7  8  9 10 11 12 13] len = 13
  Test:  index=[2] len = 1
  (1, 2)  (2, 4)  (4, 8)  (5, 10)  (6, 12)  (7, 14)  (8, 16)  (9, 18)  (10, 20)  (11, 22)  (12, 24)  (13, 26)  (14, 28)
  (3, 6)

Fold 4:
  Train: index=[ 0  1  2  4  5  6  7  8  9 10 11 12 13] len = 13
  Test:  index=[3] len = 1
  (1, 2)  (2, 4)  (3, 6)  (5, 10)  (6, 12)  (7, 14)  (8, 16)  (9, 18)  (10, 20)  (11, 22)  (12, 24)  (13, 26)  (14, 28)
  (4, 8)

Fold 5:
  Train: index=[ 0  1  2  3  5  6  7  8  9 10 11 12 13] len = 13
  Test:

### Utilizando Bootstrap genere 2 conjuntos de validación con conjuntos de entrenamiento de tamaño=9 con resample()

In [115]:
from sklearn.utils import resample
resample(train, n_samples=2)

Unnamed: 0,x,y
1,2,4
12,13,26


In [122]:
# Generar 2 conjuntos de bootstrap
for i in range(2):
    # Conjunto de entrenamiento de tamaño 9
    b_train = resample(train, n_samples=9, replace=True)

    # Subconjunto de validación = filas de train que NO están en b_train
    mask = ~train.index.isin(b_train.index)
    test_b = train[mask]

    print(f"Bootstrap {i+1}")
    print(f"Subconjunto de entrenamiento con longitud {len(b_train)}:\n{b_train}")
    print(f"Subconjunto de pruebas con longitud {len(test_b)}:\n{test_b}\n")

Bootstrap 1
Subconjunto de entrenamiento con longitud 9:
     x   y
3    4   8
7    8  16
5    6  12
5    6  12
7    8  16
12  13  26
2    3   6
9   10  20
13  14  28
Subconjunto de pruebas con longitud 7:
     x   y
0    1   2
1    2   4
4    5  10
6    7  14
8    9  18
10  11  22
11  12  24

Bootstrap 2
Subconjunto de entrenamiento con longitud 9:
     x   y
5    6  12
1    2   4
8    9  18
13  14  28
4    5  10
1    2   4
1    2   4
6    7  14
1    2   4
Subconjunto de pruebas con longitud 8:
     x   y
0    1   2
2    3   6
3    4   8
7    8  16
9   10  20
10  11  22
11  12  24
12  13  26

