In [1]:
import numpy as np
import pandas as pd
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import cross_val_score, KFold

In [2]:
path = '../datasets/felicidad.csv'
df = pd.read_csv(path)
df.head()

Unnamed: 0,country,rank,score,high,low,gdp,family,lifexp,freedom,generosity,corruption,dystopia
0,Norway,1,7.537,7.594445,7.479556,1.616463,1.533524,0.796667,0.635423,0.362012,0.315964,2.277027
1,Denmark,2,7.522,7.581728,7.462272,1.482383,1.551122,0.792566,0.626007,0.35528,0.40077,2.313707
2,Iceland,3,7.504,7.62203,7.38597,1.480633,1.610574,0.833552,0.627163,0.47554,0.153527,2.322715
3,Switzerland,4,7.494,7.561772,7.426227,1.56498,1.516912,0.858131,0.620071,0.290549,0.367007,2.276716
4,Finland,5,7.469,7.527542,7.410458,1.443572,1.540247,0.809158,0.617951,0.245483,0.382612,2.430182


In [3]:
X = df.drop(['country', 'score'], axis=1)
y = df['score']

## Tipos de validación.
* **Hold-On:** Dividir nuestros datos entrenamiento/pruebas, básicamente consiste en usar porcentajes fijos, por lo regular 70% de entrenamiento y 30% de pruebas.

<img src='../images/holdout.png' alt="drawing" width="400"/>

* **K-Folds:** Usar validación cursada, aquí vamos a plegar nuestros datos k veces, el k es un parámetro que nosotros definimos y en esos pliegues vamos a utilizar diferentes partes de nuestro dataset como entrenamiento y como test, de tal manera que intentemos cubrir todos los datos de entrenamiento y de test, al finalizar el proceso.

<img src='../images/kfold.png' alt="drawing" width="400"/>

* **LOOCV:** Validación cruzada, este es el método más intensivo, ya que haremos una partición entre entrenamiento y pruebas, porque vamos a hacer entrenamiento con todos los datos, salvo 1 y vamos a repetir este proceso tantas veces hasta que todos los datos hayan sido probados.

<img src='../images/loocv.png' alt="drawing" width="400"/>

**¿Cuándo utilizar Hold-on?**

1.- Se requiere un prototipado rápido.

2.- No se tiene mucho conocimiento en ML.

3.- No se cuenta con abundante poder de cómputo.

**¿Cuándo utilizar K-Folds?**

1.- Recomendable en la mayoría de los casos.

2.- Se cuenta con un equipo suficiente para desarrollar ML.

3.- Se require la integración con técnicas de optimización paramétrica.

4.- Se tiene más tiempo para las pruebas.

In [14]:
model = DecisionTreeRegressor()
score = cross_val_score(model, X, y, cv=3, scoring='neg_mean_squared_error')
print(score.mean())

-0.5812088096468219


In [16]:
kf = KFold(n_splits=3, shuffle=True, random_state=42)
for train, test in kf.split(df):
    print(train)
    print(test)

[  0   1   2   3   4   5   6   7   8  10  13  14  16  17  20  21  23  25
  28  32  33  34  35  37  38  39  40  41  43  44  46  47  48  49  50  52
  53  54  57  58  59  61  62  63  64  67  70  71  72  73  74  77  80  83
  87  88  89  91  92  94  97  98  99 100 101 102 103 104 105 106 107 108
 110 111 112 113 114 115 116 120 121 123 125 127 128 129 130 132 134 135
 136 139 140 143 144 145 146 148 149 150 151 152 154]
[  9  11  12  15  18  19  22  24  26  27  29  30  31  36  42  45  51  55
  56  60  65  66  68  69  75  76  78  79  81  82  84  85  86  90  93  95
  96 109 117 118 119 122 124 126 131 133 137 138 141 142 147 153]
[  1   2   3   6   8   9  11  12  13  14  15  17  18  19  20  21  22  24
  26  27  29  30  31  36  37  38  42  45  48  50  51  52  54  55  56  57
  58  59  60  63  65  66  68  69  71  72  74  75  76  78  79  81  82  83
  84  85  86  87  88  89  90  91  92  93  95  96  99 100 102 103 106 107
 109 112 115 116 117 118 119 120 121 122 124 126 128 129 130 131 132 133
 135

Estos son los array de train y test por cada fold