# Cross-Validation

In [2]:
import pandas as pd
import numpy as np

from sklearn.tree import DecisionTreeRegressor

from sklearn.model_selection import (cross_val_score, KFold)


In [3]:
dataset = pd.read_csv('felicidad.csv')
dataset.head(2)

Unnamed: 0,country,rank,score,high,low,gdp,family,lifexp,freedom,generosity,corruption,dystopia
0,Norway,1,7.537,7.594445,7.479556,1.616463,1.533524,0.796667,0.635423,0.362012,0.315964,2.277027
1,Denmark,2,7.522,7.581728,7.462272,1.482383,1.551122,0.792566,0.626007,0.35528,0.40077,2.313707


In [4]:
# Datos 
X = dataset.drop(['country','score'], axis=1)
y = dataset['score']

# modelo
model = DecisionTreeRegressor()

## Aplicacion de cross-validation

In [27]:
score = cross_val_score(model,  # Modelo (estamos usando un metaestimador)
                        X,      # Features 
                        y,      # Target
                        cv = 3, # Divisiones del set de datos
                        scoring='neg_mean_squared_error')   # Metrica para la evaluación en cada entrenamiento

print(np.abs(np.mean(score)))

0.5539827064383007


## Funcionamiento 

El ciclo for nos muestra la division realizada al set de datos (3 en este caso), y en cada ciclo nos muestra una distribucion diferente de division entre datos de entrenamiento y prueba. Esto puede ser pasado a un estimador, el cual puede ser entrenado y obtener sus metricas de evaluacion 

In [28]:
kf = KFold(n_splits=3, shuffle=True, random_state=69)

for train, test in kf.split(dataset):
    print(train)
    print(test)

[  0   1   2   3   5   6   7   9  11  12  14  16  18  21  22  24  25  27
  28  29  30  35  37  38  39  40  41  43  44  45  46  48  49  50  51  53
  54  55  60  61  62  63  64  65  66  68  69  71  72  75  76  78  80  81
  82  83  88  89  90  91  92  93  94  96  97  99 100 101 102 103 105 106
 107 109 111 113 114 117 118 119 121 122 123 124 125 126 131 132 134 136
 138 139 140 141 142 143 145 146 148 150 151 152 153]
[  4   8  10  13  15  17  19  20  23  26  31  32  33  34  36  42  47  52
  56  57  58  59  67  70  73  74  77  79  84  85  86  87  95  98 104 108
 110 112 115 116 120 127 128 129 130 133 135 137 144 147 149 154]
[  0   2   3   4   8   9  10  11  13  14  15  16  17  18  19  20  22  23
  24  26  29  31  32  33  34  35  36  38  39  42  44  45  47  48  49  52
  53  54  56  57  58  59  61  62  63  67  69  70  73  74  75  76  77  78
  79  80  83  84  85  86  87  88  90  91  93  95  96  98 101 104 106 107
 108 110 111 112 113 114 115 116 119 120 121 122 124 127 128 129 130 132
 133