# Validaci√≥n de nuestro modelo usando Cross Validation

# Validaci√≥n de nuestro modelo usando Cross Validation

La √∫ltima palabra siempre la tendr√°n los datos. Todas nuestras intuiciones no tienen relevancia frente a los resultados respaldados por los datos y las matem√°ticas que aplicamos sobre ellos. Por lo tanto, es esencial ser rigurosos al evaluar los resultados que obtenemos en nuestros modelos. Necesitamos adoptar una mentalidad de prueba constante.

## Importancia de la mentalidad de testeo

La evaluaci√≥n rigurosa de modelos implica:

- Pruebas constantes a lo largo del proceso.
- Experimentaci√≥n con diversas formas y conjuntos de datos.
- Variaci√≥n de configuraciones de par√°metros y distribuciones de datos.

## Todos los modelos son malos, algunos son √∫tiles

Es importante recordar que todos los modelos que creamos son simplificaciones de la realidad y nunca ser√°n una representaci√≥n perfecta de ella. Sin embargo, con suficiente pr√°ctica y habilidad para configurar, podemos crear modelos √∫tiles para casos espec√≠ficos del mundo real.

## Tipos de validaci√≥n

Imagina que est√°s aprendiendo a cocinar una nueva receta y quieres asegurarte de que salga deliciosa antes de servirla a tus amigos. Para hacerlo, necesitas probarla t√∫ mismo, pero tambi√©n deseas tener la opini√≥n de otras personas para obtener una evaluaci√≥n m√°s precisa.

### Hold-On Validation (Validaci√≥n Hold-On):

Es como cocinar una receta y probarla t√∫ mismo antes de compartirla. Tomas un peque√±o grupo de amigos y les sirves la comida que preparaste. Si a ellos les gusta, es probable que a otras personas tambi√©n les guste. En el aprendizaje autom√°tico, esto se llama "dividir tus datos en un conjunto de entrenamiento y un conjunto de prueba". Entrenas tu modelo con los datos de entrenamiento y luego lo pruebas con los datos de prueba que no ha visto antes. Si el modelo se desempe√±a bien en los datos de prueba, es una se√±al de que generaliza bien para nuevos datos.

El m√©todo Hold-On implica dividir los datos en conjuntos de entrenamiento y prueba, generalmente utilizando porcentajes fijos como 70% para entrenamiento y 30% para prueba.

![image.png](attachment:image.png)

![image-5.png](attachment:image-5.png)

**¬øCu√°ndo utilizar Hold-On?**

- En prototipados r√°pidos.
- Cuando se tiene poco conocimiento en Machine Learning.
- Si no se dispone de mucho poder computacional.

### K-Folds Cross-Validation (Validaci√≥n Cruzada K-Folds):

Supongamos que tienes muchos amigos y deseas que la evaluaci√≥n sea justa y precisa. Divides tu grupo de amigos en 5 subgrupos (k=5). Luego, pruebas tu receta con un subgrupo a la vez y utilizas los otros subgrupos para probar diferentes versiones de tu receta. Al final, obtienes opiniones de todos tus amigos. En aprendizaje autom√°tico, esto implica dividir tus datos en k subconjuntos llamados "folds". Luego entrenas tu modelo k veces, cada vez usando k-1 folds para entrenar y 1 fold para probar. Finalmente, calculas el promedio de los resultados para obtener una evaluaci√≥n generalizada.

La validaci√≥n cruzada K-Fold implica dividir los datos en k pliegues, realizando k iteraciones. En cada iteraci√≥n, se utiliza un pliegue diferente como conjunto de prueba y los dem√°s como conjunto de entrenamiento.

![image-2.png](attachment:image-2.png)

![image-3.png](attachment:image-3.png)

**¬øCu√°ndo utilizar K-Folds?**

- Recomendado en la mayor√≠a de los casos.
- Cuando se cuenta con suficiente capacidad de c√≥mputo.
- Se requiere integraci√≥n con t√©cnicas de optimizaci√≥n param√©trica.
- Se dispone de m√°s tiempo para las pruebas.

### Leave-One-Out Cross-Validation (Validaci√≥n Cruzada Leave-One-Out):

Imagina que tienes un grupo de amigos muy peque√±o y deseas la opini√≥n m√°s precisa posible. Haces esto al cocinar una porci√≥n individual para cada amigo. En aprendizaje autom√°tico, esto significa que entrenas tu modelo k veces, donde k es el n√∫mero total de ejemplos en tus datos. En cada iteraci√≥n, dejas uno de los ejemplos fuera y entrenas el modelo con los dem√°s. Luego eval√∫as c√≥mo se comporta el modelo con el ejemplo que dejaste fuera. Esto es √∫til cuando tienes un conjunto de datos peque√±o y quieres aprovechar al m√°ximo cada ejemplo para la evaluaci√≥n.

El m√©todo LOOCV implica realizar k iteraciones, donde k es igual al n√∫mero total de datos. En cada iteraci√≥n, se utiliza un dato diferente como conjunto de prueba y los dem√°s como conjunto de entrenamiento.

![image-4.png](attachment:image-4.png)

**¬øCu√°ndo utilizar LOOCV?**

- Cuando se tiene gran capacidad de c√≥mputo.
- Si se tienen pocos datos para dividir en conjuntos de entrenamiento y prueba.
- Cuando se busca probar todos los casos posibles (para personas con orientaci√≥n a la excelencia).

La elecci√≥n del m√©todo de validaci√≥n depender√° de los recursos disponibles y del nivel de detalle necesario en la evaluaci√≥n del modelo.


# Implementaci√≥n de K-Folds Cross Validation

In [78]:
import pandas as pd 
import numpy as np 

from sklearn.tree import DecisionTreeRegressor

from sklearn.model_selection import cross_val_score,KFold

In [79]:
df= pd.read_csv('/home/roy/Scikitlearn/data/felicidad.csv')
df

Unnamed: 0,country,rank,score,high,low,gdp,family,lifexp,freedom,generosity,corruption,dystopia
0,Norway,1,7.537,7.594445,7.479556,1.616463,1.533524,0.796667,0.635423,0.362012,0.315964,2.277027
1,Denmark,2,7.522,7.581728,7.462272,1.482383,1.551122,0.792566,0.626007,0.355280,0.400770,2.313707
2,Iceland,3,7.504,7.622030,7.385970,1.480633,1.610574,0.833552,0.627163,0.475540,0.153527,2.322715
3,Switzerland,4,7.494,7.561772,7.426227,1.564980,1.516912,0.858131,0.620071,0.290549,0.367007,2.276716
4,Finland,5,7.469,7.527542,7.410458,1.443572,1.540247,0.809158,0.617951,0.245483,0.382612,2.430182
...,...,...,...,...,...,...,...,...,...,...,...,...
150,Rwanda,151,3.471,3.543030,3.398970,0.368746,0.945707,0.326425,0.581844,0.252756,0.455220,0.540061
151,Syria,152,3.462,3.663669,3.260331,0.777153,0.396103,0.500533,0.081539,0.493664,0.151347,1.061574
152,Tanzania,153,3.349,3.461430,3.236570,0.511136,1.041990,0.364509,0.390018,0.354256,0.066035,0.621130
153,Burundi,154,2.905,3.074690,2.735310,0.091623,0.629794,0.151611,0.059901,0.204435,0.084148,1.683024


In [80]:
X = df.drop(columns=['country','rank','score'],axis=1)
y = df[['score']]

In [81]:
# Creamos un modelo DecisionTreeRegressor (regresor basado en √°rbol de decisi√≥n)
model = DecisionTreeRegressor()

# Usamos cross_val_score para realizar validaci√≥n cruzada del modelo
# X son los datos de caracter√≠sticas (variables independientes)
# y son los datos de la variable objetivo (variable dependiente)
# cv=5 especifica que se realizar√° validaci√≥n cruzada con 5 divisiones (pliegues).
# scoring='neg_mean_squared_error' especifica que se utilizar√° el error cuadr√°tico medio negativo como m√©trica para evaluar el modelo.
score = cross_val_score(model, X, y, cv=3, scoring='neg_mean_squared_error')

# Calculamos el promedio del valor absoluto de los errores cuadr√°ticos medios negativos
# np.mean(score) calcula el promedio de los errores cuadr√°ticos medios negativos obtenidos en las 5 divisiones.
# np.abs() calcula el valor absoluto.
print(np.abs(np.mean(score)))

0.601878560448044


En este caso se obtuvo un n√∫mero alrededor de 0.595. Eso significa que, en promedio, las predicciones del modelo estuvieron a una distancia de alrededor de 0.595 de las respuestas correctas. En general, un n√∫mero m√°s peque√±o ser√≠a mejor, porque indicar√≠a que el modelo est√° haciendo predicciones m√°s precisas.

In [82]:
# otra manera de hacerlo 

# n_splits=3 indica que se dividir√° el conjunto de datos en 3 pliegues.
# shuffle=True significa que los datos se mezclar√°n aleatoriamente antes de dividirlos en pliegues.
# random_state=42 asegura la reproducibilidad de los resultados al fijar la semilla del generador de n√∫meros aleatorios.
kf = KFold(n_splits=3, shuffle=True, random_state=42)
for train, test in kf.split(df):
    print(train)
    print(test)

[  0   1   2   3   4   5   6   7   8  10  13  14  16  17  20  21  23  25
  28  32  33  34  35  37  38  39  40  41  43  44  46  47  48  49  50  52
  53  54  57  58  59  61  62  63  64  67  70  71  72  73  74  77  80  83
  87  88  89  91  92  94  97  98  99 100 101 102 103 104 105 106 107 108
 110 111 112 113 114 115 116 120 121 123 125 127 128 129 130 132 134 135
 136 139 140 143 144 145 146 148 149 150 151 152 154]
[  9  11  12  15  18  19  22  24  26  27  29  30  31  36  42  45  51  55
  56  60  65  66  68  69  75  76  78  79  81  82  84  85  86  90  93  95
  96 109 117 118 119 122 124 126 131 133 137 138 141 142 147 153]
[  1   2   3   6   8   9  11  12  13  14  15  17  18  19  20  21  22  24
  26  27  29  30  31  36  37  38  42  45  48  50  51  52  54  55  56  57
  58  59  60  63  65  66  68  69  71  72  74  75  76  78  79  81  82  83
  84  85  86  87  88  89  90  91  92  93  95  96  99 100 102 103 106 107
 109 112 115 116 117 118 119 120 121 122 124 126 128 129 130 131 132 133
 135

# Optimizaci√≥n de hiperpar√°metros | Hyperparameter Optimization

Despu√©s de familiarizarnos con el concepto de Cross Validation, podemos aplicar este mismo principio para automatizar la selecci√≥n y optimizaci√≥n de nuestros modelos de Machine Learning.

## El Problema de Optimizaci√≥n de Hiperpar√°metros

Una vez que encontramos un modelo de aprendizaje que parece funcionar, a menudo necesitamos optimizar los par√°metros del modelo para obtener los mejores resultados posibles. Sin embargo, esto puede volverse complicado debido a la cantidad de par√°metros y ajustes posibles.

- Es f√°cil perderse entre los conceptos de tantos par√°metros.
- Medir la sensibilidad de los par√°metros manualmente puede ser dif√≠cil.
- Es costoso en t√©rminos de tiempo humano y recursos computacionales.

Scikit Learn nos ofrece enfoques para automatizar el proceso de optimizaci√≥n de hiperpar√°metros. 

**Existen tres enfoques principales:**

## Optimizaci√≥n Manual

1. Escoger el modelo que queremos ajustar.
2. Buscar en la documentaci√≥n de Scikit-Learn.
3. Identificar los par√°metros y ajustes requeridos.
4. Probar combinaciones iterando a trav√©s de listas.

## Optimizaci√≥n por Grilla de Par√°metros (GridSearchCV)

Este enfoque es organizado, exhaustivo y sistem√°tico. Probamos todos los par√°metros especificados en una "grilla" con sus respectivos rangos de valores.

Pasos:

1. Definir m√©tricas a optimizar.
2. Identificar valores posibles para los par√°metros.
3. Crear un diccionario de par√°metros.
4. Usar Cross Validation.
5. Entrenar el modelo.

![image.png](attachment:image.png)

Este enfoque prueba todas las combinaciones de par√°metros en grupos definidos.

## Optimizaci√≥n por B√∫squeda Aleatorizada (RandomizedSearchCV)

Si tenemos limitaciones de tiempo o queremos explorar optimizaciones aleatorias, este m√©todo es √∫til. Similar al enfoque anterior, pero busca par√°metros de manera aleatoria y Scikit Learn selecciona las mejores combinaciones.

En este m√©todo, definimos rangos de valores para los par√°metros y el sistema realiza varias iteraciones para encontrar la mejor combinaci√≥n.

![image-2.png](attachment:image-2.png)

## GridSearchCV vs RandomizedSearchCV

![image-4.png](attachment:image-4.png)

**GridSearchCV:**

- Para un estudio exhaustivo de los par√°metros.
- Cuando hay tiempo disponible.
- Con suficiente capacidad de procesamiento.

**RandomizedSearchCV:**

- Para explorar optimizaciones posibles.
- Cuando el tiempo es limitado.
- Con recursos computacionales limitados.

![image-3.png](attachment:image-3.png)

La elecci√≥n entre GridSearchCV y RandomizedSearchCV depende de los recursos disponibles y del grado de optimizaci√≥n deseado.


# Implementaci√≥n de Randomized


In [86]:
df

Unnamed: 0,country,rank,score,high,low,gdp,family,lifexp,freedom,generosity,corruption,dystopia
0,Norway,1,7.537,7.594445,7.479556,1.616463,1.533524,0.796667,0.635423,0.362012,0.315964,2.277027
1,Denmark,2,7.522,7.581728,7.462272,1.482383,1.551122,0.792566,0.626007,0.355280,0.400770,2.313707
2,Iceland,3,7.504,7.622030,7.385970,1.480633,1.610574,0.833552,0.627163,0.475540,0.153527,2.322715
3,Switzerland,4,7.494,7.561772,7.426227,1.564980,1.516912,0.858131,0.620071,0.290549,0.367007,2.276716
4,Finland,5,7.469,7.527542,7.410458,1.443572,1.540247,0.809158,0.617951,0.245483,0.382612,2.430182
...,...,...,...,...,...,...,...,...,...,...,...,...
150,Rwanda,151,3.471,3.543030,3.398970,0.368746,0.945707,0.326425,0.581844,0.252756,0.455220,0.540061
151,Syria,152,3.462,3.663669,3.260331,0.777153,0.396103,0.500533,0.081539,0.493664,0.151347,1.061574
152,Tanzania,153,3.349,3.461430,3.236570,0.511136,1.041990,0.364509,0.390018,0.354256,0.066035,0.621130
153,Burundi,154,2.905,3.074690,2.735310,0.091623,0.629794,0.151611,0.059901,0.204435,0.084148,1.683024


In [84]:
# Importar la clase RandomForestRegressor desde la biblioteca sklearn.ensemble
from sklearn.ensemble import RandomForestRegressor

# Importar la clase RandomizedSearchCV desde la biblioteca sklearn.model_selection
from sklearn.model_selection import RandomizedSearchCV

# Creamos un modelo RandomForestRegressor (regresor basado en bosques aleatorios)
reg = RandomForestRegressor()

# Definimos un diccionario de par√°metros a explorar en la b√∫squeda
parametros = {
    'n_estimators': range(4, 16),  # Diferentes n√∫meros de estimadores en el bosque (√°rboles)
    'criterion': ['squared_error', 'absolute_error'],  # Diferentes criterios para medir la calidad de la divisi√≥n en los nodos (squared_error para MSE y absolute_error para MAE)
    'max_depth': range(2, 11)  # Diferentes profundidades m√°ximas para los √°rboles
}

# Creamos un objeto RandomizedSearchCV para buscar los mejores hiperpar√°metros
# reg es el estimador (modelo) que se va a ajustar
# parametros es el diccionario de par√°metros a explorar
# n_iter=10 especifica cu√°ntas combinaciones aleatorias de hiperpar√°metros se probar√°n
# cv=3 especifica la validaci√≥n cruzada con 3 divisiones
# scoring='neg_mean_absolute_error' utiliza el error absoluto medio negativo como m√©trica para evaluar el rendimiento
rand_est = RandomizedSearchCV(reg, parametros, n_iter=10, cv=3, scoring='neg_mean_absolute_error').fit(X, y)



  return fit_method(estimator, *args, **kwargs)
  return fit_method(estimator, *args, **kwargs)
  return fit_method(estimator, *args, **kwargs)
  return fit_method(estimator, *args, **kwargs)
  return fit_method(estimator, *args, **kwargs)
  return fit_method(estimator, *args, **kwargs)
  return fit_method(estimator, *args, **kwargs)
  return fit_method(estimator, *args, **kwargs)
  return fit_method(estimator, *args, **kwargs)
  return fit_method(estimator, *args, **kwargs)
  return fit_method(estimator, *args, **kwargs)
  return fit_method(estimator, *args, **kwargs)
  return fit_method(estimator, *args, **kwargs)
  return fit_method(estimator, *args, **kwargs)
  return fit_method(estimator, *args, **kwargs)
  return fit_method(estimator, *args, **kwargs)
  return fit_method(estimator, *args, **kwargs)
  return fit_method(estimator, *args, **kwargs)
  return fit_method(estimator, *args, **kwargs)
  return fit_method(estimator, *args, **kwargs)
  return fit_method(estimator, *args, **

In [115]:
# Imprimimos el mejor estimador encontrado durante la b√∫squeda aleatoria
print("Mejor estimador:")
print(rand_est.best_estimator_)

# Imprimimos los mejores par√°metros encontrados durante la b√∫squeda aleatoria
print("Mejores par√°metros:")
print(rand_est.best_params_)

# Utilizamos el mejor estimador para hacer una predicci√≥n sobre una muestra espec√≠fica que ya conocemos (en este caso, la muestra en la fila 0 de los datos X)
prediction = rand_est.predict(X.loc[[0]])

# Imprimimos la predicci√≥n realizada
print("Predicci√≥n para la muestra en la fila 0:")
print(prediction)
print('valor real', df.iloc[0, 2])



Mejor estimador:
RandomForestRegressor(max_depth=8, n_estimators=13)
Mejores par√°metros:
{'n_estimators': 13, 'max_depth': 8, 'criterion': 'squared_error'}
Predicci√≥n para la muestra en la fila 0:
[7.53038476]
valor real 7.537000179
