<a href="https://colab.research.google.com/github/AldoEHF14/SciKitLearn-Machine-Learning/blob/main/Validacion_cruzada_K_Fold.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Validación cruzada | K-Fold
## 🧪 ¿Qué es la validación cruzada?
La validación cruzada es una técnica que usamos para evaluar qué tan bien se desempeña un modelo de machine learning sin usar un conjunto de prueba fijo. Nos ayuda a saber si el modelo generaliza bien a nuevos datos, o si solo "memorizó" los datos de entrenamiento.

## 🔁 ¿Y qué es K-Fold Cross Validation?
K-Fold (o "K-particiones") es una forma específica de validación cruzada.

📌 Paso a paso:
Se divide el conjunto de datos en K partes iguales (llamadas folds).

1. El modelo se entrena K veces, cada vez con un fold diferente como conjunto de prueba y los demás como entrenamiento.

2. Se calculan las métricas (por ejemplo, precisión, error, R²) en cada uno de los K folds.

3. Al final, se promedia el resultado de todas las evaluaciones. Esto nos da una idea más confiable del rendimiento del modelo.

## 🎯 ¿Por qué se usa?
* Para evitar el sobreajuste (overfitting).

* Para aprovechar todos los datos disponibles tanto para entrenamiento como para prueba.

* Para obtener una evaluación más estable y justa del modelo.

## 📌 Ejemplo simple (K=5)
Supongamos que tienes 100 datos. Si haces K-Fold con K=5:

Divides tus datos en 5 grupos de 20.

En la primera iteración, usas el grupo 1 como prueba y los grupos 2–5 como entrenamiento.

En la segunda iteración, usas el grupo 2 como prueba y los otros para entrenamiento.

Y así hasta que cada grupo haya sido usado una vez como prueba.

Mostraremos como utilizar la herramienta de K-Fold  que se utiliza para hacer la validación cruzada, aquí te mostramos cómo hacerlo a partir de datos de películas de kaggle.

Ejemplo: Tenemos el archivo moviesc10.csv el cual tenemos 10 datos.

Pagina de Sciki-learning:
[Sciki-learn](https://scikit-learn.org/stable/)
[Validacion Cruzada](https://scikit-learn.org/stable/modules/cross_validation.html)
[KFold](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.KFold.html)

Pagina de K-Fold:
[K-Fold](https://medium.com/@Talend/testing-machine-learning-algorithms-with-k-fold-cross-validation-2d440658d7e7)

Conjunto de base de datos en kaggle:
[Dataset](https://www.kaggle.com/datasets/PromptCloudHQ/imdb-data/data)

Dataset para prueba:
[Dataset](https://drive.google.com/file/d/1vIiAHEj3OjDGDgCanuz20zKL3SQHyM0B/view)

In [None]:
from sklearn.model_selection import KFold # Dividir el conjunto
import pandas as pd
from sklearn import linear_model # Modelo de regresión lineal.
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import r2_score
import matplotlib.pyplot as plt


In [None]:
#Leer archivo desde el escritorio (Google Colab)
from google.colab import files
uploaded = files.upload()

Saving moviesc10.csv to moviesc10.csv


In [None]:
# Leer los datos
datos = pd.read_csv('moviesc10.csv')
df = pd.DataFrame(datos)

# Definir variables
X = df["cast_total_facebook_likes"].values.reshape(-1, 1)  # Variable independiente
y = df["imdb_score"].values # Variable dependiente

# Separacion de los datos, pero basandose en el indice (reparticion de los datos)
# Configurar validación cruzada con 2 divisiones
kf=KFold(n_splits=2,shuffle =True,random_state=2)

for valores_x,valores_y in kf.split(X):
  # print("Entrenamiento: ",df.iloc[valores_x],"Prueba: ",df.iloc[valores_y])
  print(valores_x,valores_y)

# Modelo de regresion lineal
regr = linear_model.LinearRegression()


for entrenamiento_indice,prueba_indice in kf.split(X):
  print("\nEntrenamiento: ",entrenamiento_indice,"Prueba: ",prueba_indice)
  X_entrenamiento,X_prueba = X[entrenamiento_indice],X[prueba_indice]
  y_entrenamiento,y_prueba = y[entrenamiento_indice],y[prueba_indice]
  regr.fit(X_entrenamiento,y_entrenamiento)
  y_pred = regr.predict(X_prueba)
  print(y_pred)
  print("Error absoluto medio:", mean_absolute_error(y_prueba, y_pred))
  print("Coeficiente R²:", r2_score(y_prueba, y_pred))



[2 3 6 8 9] [0 1 4 5 7]
[0 1 4 5 7] [2 3 6 8 9]

Entrenamiento:  [2 3 6 8 9] Prueba:  [0 1 4 5 7]
[5.22205909 5.76359844 5.25742638 5.31130609 5.64765648]
Error absoluto medio: 1.125030079114771
Coeficiente R²: -0.32512926934114783

Entrenamiento:  [0 1 4 5 7] Prueba:  [2 3 6 8 9]
[9.06977623 6.05406211 6.24235468 6.78543167 6.90370283]
Error absoluto medio: 1.314123634935133
Coeficiente R²: -1.3566232688426245
