# Algoritmo K-Fold

Este algoritmo divide un conjunto de datos en un número K. Tomemos por ejemplo K+5. 
En este escenario, el método dividirá el conjunto de datos en cinco pliegues. 
Utiliza el primer pliegue en la primera iteración para probar el modelo. Utiliza los conjuntos de datos restantes para entrenar el modelo.
    
    https://www.aprendemachinelearning.com/sets-de-entrenamiento-test-validacion-cruzada/ 

## K-Fold profe

In [2]:
import pandas as pd
from sklearn.model_selection import KFold
from sklearn import linear_model
from sklearn.metrics import r2_score
import numpy as np

In [3]:
data = pd.read_csv("base_datos_2008.csv")

In [4]:
df = data.dropna(subset = ["ArrDelay"])
df = df.sample(frac=1).head(5000)

# Reseteamos el index de nuestra base de datos al hacer selección aleatoria para que comience de nuevo en 0.
df = df.reset_index()

X = df[['AirTime', 'Distance', 'DepDelay']]
Y = df['ArrDelay']

In [5]:
# Hacemos una partición en 10 bloques, y cada vez que haga una partición mezcle los datos shuffle = True
kf = KFold(n_splits = 10, shuffle = True)
kf.get_n_splits(X)

10

In [6]:
regr = linear_model.LinearRegression()

# Creamos un vector donde vamos a estar guardando todos los resultados.
resultados = []

for train_index, test_index in kf.split(X):
    X_train, X_test = X.loc[train_index,], X.loc[test_index,]
    y_train, y_test = Y[train_index], Y[test_index]
    regr.fit(X_train, y_train)
    predicciones = regr.predict(X_test)
    print("R2: ", r2_score(y_test, predicciones))
    resultados.append(r2_score(y_test, predicciones))
print("R2 medio: ", np.mean(resultados))

# Compensamos la dependencia de datos concretos, es mucho más representativa utilizar KFold

R2:  0.9351339603284826
R2:  0.8398395395154119
R2:  0.899986091912289
R2:  0.8159997808367263
R2:  0.9048833752609953
R2:  0.9286013158661699
R2:  0.8805529833812181
R2:  0.873266227566002
R2:  0.8577713253415795
R2:  0.879541624476563
R2 medio:  0.8815576224485436


## K-Fold Pokemon

In [7]:
dfP = pd.read_csv("pokemon.csv")

In [8]:
dfSp = dfP.dropna(subset = ['speed'])
dfSp = dfSp.sample(frac=1).head(5000)

# Reseteamos el index de nuestra base de datos al hacer selección aleatoria para que comience de nuevo en 0.
dfSp = dfSp.reset_index()

X = dfSp[['height_m', 'weight_kg']]
Y = dfSp['speed']

In [9]:
# Hacemos una partición en 10 bloques, y cada vez que haga una partición mezcle los datos shuffle = True
kf = KFold(n_splits = 10, shuffle = True)
kf.get_n_splits(X)

10

In [10]:
regr = linear_model.LinearRegression()

# Creamos un vector donde vamos a estar guardando todos los resultados.
resultados = []

for train_index, test_index in kf.split(X):
    X_train, X_test = X.loc[train_index,], X.loc[test_index,]
    y_train, y_test = Y[train_index], Y[test_index]
    regr.fit(X_train, y_train)
    predicciones = regr.predict(X_test)
    print("R2: ", r2_score(y_test, predicciones))
    resultados.append(r2_score(y_test, predicciones))
print("R2 medio: ", np.mean(resultados))

# Compensamos la dependencia de datos concretos, es mucho más representativa utilizar KFold

ValueError: Input contains NaN, infinity or a value too large for dtype('float64').