# Validación Cruzada

Esta tecnica es utlizada para evaluar los resultados de un análisis estadístico y garantizar que son independientes de la partición entre datos de entrenamiento y prueba.  
En el contexto de aprendizaje automático (machine learning) y modelos predictivos, los datos se dividen en dos conjuntos principales: datos de entrenamiento y datos de prueba. La discriminación entre ambos conjuntos es fundamental para evaluar y entrenar modelos de manera efectiva.  

# 1. Datos de Entrenamiento:
**Definición:** Son los datos que se utilizan para entrenar el modelo. Estos datos contienen tanto las entradas (características) como las salidas (etiquetas o valores a predecir). El modelo aprende a través de estos ejemplos, ajustando sus parámetros para minimizar el error o la diferencia entre sus predicciones y los resultados reales.

**Uso:**
- El modelo se ajusta y aprende patrones o relaciones en los datos.
- El modelo mejora su capacidad para hacer predicciones a partir de las características de entrada.

**Ejemplo:** En un modelo de predicción de precios de viviendas, el conjunto de datos de entrenamiento podría contener características como el tamaño de la casa, la ubicación y el número de habitaciones, con la etiqueta correspondiente que es el precio real de la vivienda.

---

# 2. Datos de Prueba:
**Definición:** Son los datos que no se utilizan durante el proceso de entrenamiento. Estos datos sirven para evaluar la capacidad del modelo para generalizar, es decir, cómo de bien puede hacer predicciones sobre datos que nunca ha visto antes.

**Uso:**
- Se usan para validar el rendimiento del modelo una vez entrenado.
- Permiten verificar la capacidad del modelo de generalizar y evitar el sobreajuste (overfitting).

**Ejemplo:** Siguiendo con el ejemplo de la predicción de precios de viviendas, el conjunto de datos de prueba incluiría nuevas casas que no estaban en el conjunto de entrenamiento. El modelo debe predecir el precio de estas casas basándose en lo aprendido.

---

# **Importancia de la Discriminación entre Entrenamiento y Prueba:**

## 1. Evaluación realista del rendimiento:
- Si usáramos los mismos datos tanto para entrenar como para probar el modelo, obtendríamos una medida **sesgada** del rendimiento. Esto es porque el modelo ya ha visto esos datos durante el entrenamiento, lo que lleva a una **sobreestimación** de su capacidad para generalizar.
- Los **datos de prueba** proporcionan una **evaluación imparcial** del rendimiento del modelo en datos no vistos.

## 2. Prevención del sobreajuste (Overfitting):
- El **sobreajuste** ocurre cuando el modelo se ajusta demasiado a los datos de entrenamiento, capturando ruido o patrones aleatorios que no son representativos de los datos reales. Esto hace que el modelo funcione muy bien en el conjunto de entrenamiento, pero tenga un **bajo rendimiento** en nuevos datos.
- Usar un conjunto de datos de prueba ayuda a detectar si el modelo está **sobreajustado** y no generaliza bien.

## 3. Generalización del modelo:
- El objetivo final de cualquier modelo de machine learning es **predecir correctamente** para nuevos datos, no solo para los datos con los que fue entrenado. Los **datos de prueba** simulan ese escenario, ya que representan **casos desconocidos** para el modelo.


![A](imgs/cross_validation.jpg)

A continuación, vamos a validar que tan bueno es un modelo en python.

In [None]:
import pandas as pd
import numpy as np
import io
# pip install scikit-learn
# 
from sklearn.tree import DecisionTreeClassifier # Es un modelo de aprendizaje supervisado utilizado para resolver problemas de clasificación
from sklearn.model_selection import train_test_split # Es una función que divide un conjunto de datos en datos de entrenamiento y datos de prueba
# Estas librerías proporcionan herramientas para dividir los datos y realizar validación cruzada
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

In [3]:
df = pd.read_csv('Cancerdata.csv')
df

Unnamed: 0,id,diagnosis,radius_mean,texture_mean,perimeter_mean,area_mean,smoothness_mean,compactness_mean,concavity_mean,concave points_mean,...,texture_worst,perimeter_worst,area_worst,smoothness_worst,compactness_worst,concavity_worst,concave points_worst,symmetry_worst,fractal_dimension_worst,Unnamed: 32
0,842302,M,17.99,10.38,122.80,1001.0,0.11840,0.27760,0.30010,0.14710,...,17.33,184.60,2019.0,0.16220,0.66560,0.7119,0.2654,0.4601,0.11890,
1,842517,M,20.57,17.77,132.90,1326.0,0.08474,0.07864,0.08690,0.07017,...,23.41,158.80,1956.0,0.12380,0.18660,0.2416,0.1860,0.2750,0.08902,
2,84300903,M,19.69,21.25,130.00,1203.0,0.10960,0.15990,0.19740,0.12790,...,25.53,152.50,1709.0,0.14440,0.42450,0.4504,0.2430,0.3613,0.08758,
3,84348301,M,11.42,20.38,77.58,386.1,0.14250,0.28390,0.24140,0.10520,...,26.50,98.87,567.7,0.20980,0.86630,0.6869,0.2575,0.6638,0.17300,
4,84358402,M,20.29,14.34,135.10,1297.0,0.10030,0.13280,0.19800,0.10430,...,16.67,152.20,1575.0,0.13740,0.20500,0.4000,0.1625,0.2364,0.07678,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
564,926424,M,21.56,22.39,142.00,1479.0,0.11100,0.11590,0.24390,0.13890,...,26.40,166.10,2027.0,0.14100,0.21130,0.4107,0.2216,0.2060,0.07115,
565,926682,M,20.13,28.25,131.20,1261.0,0.09780,0.10340,0.14400,0.09791,...,38.25,155.00,1731.0,0.11660,0.19220,0.3215,0.1628,0.2572,0.06637,
566,926954,M,16.60,28.08,108.30,858.1,0.08455,0.10230,0.09251,0.05302,...,34.12,126.70,1124.0,0.11390,0.30940,0.3403,0.1418,0.2218,0.07820,
567,927241,M,20.60,29.33,140.10,1265.0,0.11780,0.27700,0.35140,0.15200,...,39.42,184.60,1821.0,0.16500,0.86810,0.9387,0.2650,0.4087,0.12400,


In [4]:
# Separación de las variables numéricas de las categóricas.
# El factor a predecir o variable dependiente es la variabla categorica diagnosis y el resto son las variables numericas independientes

#Creamos un dataframe con las variables independientes
X=df.iloc[:,2:] # el primer argumento dice todas las filas y el segundo argumento dice desde la columna 2 en adelante son numericas

#Creamos un dataframe con la variable dependiente
Y=df.iloc[:,1]  # el primer argumento dice todas las filas y el segundo argumento dice solo la columna 1

In [5]:
X.head()

Unnamed: 0,radius_mean,texture_mean,perimeter_mean,area_mean,smoothness_mean,compactness_mean,concavity_mean,concave points_mean,symmetry_mean,fractal_dimension_mean,...,texture_worst,perimeter_worst,area_worst,smoothness_worst,compactness_worst,concavity_worst,concave points_worst,symmetry_worst,fractal_dimension_worst,Unnamed: 32
0,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,0.2419,0.07871,...,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189,
1,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,0.1812,0.05667,...,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902,
2,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,0.2069,0.05999,...,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758,
3,11.42,20.38,77.58,386.1,0.1425,0.2839,0.2414,0.1052,0.2597,0.09744,...,26.5,98.87,567.7,0.2098,0.8663,0.6869,0.2575,0.6638,0.173,
4,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,0.1809,0.05883,...,16.67,152.2,1575.0,0.1374,0.205,0.4,0.1625,0.2364,0.07678,


In [6]:
# Elimnamos las filas que tengan valores nulos en el dataframe de variables independientes
X=X.dropna(axis=1)
X

Unnamed: 0,radius_mean,texture_mean,perimeter_mean,area_mean,smoothness_mean,compactness_mean,concavity_mean,concave points_mean,symmetry_mean,fractal_dimension_mean,...,radius_worst,texture_worst,perimeter_worst,area_worst,smoothness_worst,compactness_worst,concavity_worst,concave points_worst,symmetry_worst,fractal_dimension_worst
0,17.99,10.38,122.80,1001.0,0.11840,0.27760,0.30010,0.14710,0.2419,0.07871,...,25.380,17.33,184.60,2019.0,0.16220,0.66560,0.7119,0.2654,0.4601,0.11890
1,20.57,17.77,132.90,1326.0,0.08474,0.07864,0.08690,0.07017,0.1812,0.05667,...,24.990,23.41,158.80,1956.0,0.12380,0.18660,0.2416,0.1860,0.2750,0.08902
2,19.69,21.25,130.00,1203.0,0.10960,0.15990,0.19740,0.12790,0.2069,0.05999,...,23.570,25.53,152.50,1709.0,0.14440,0.42450,0.4504,0.2430,0.3613,0.08758
3,11.42,20.38,77.58,386.1,0.14250,0.28390,0.24140,0.10520,0.2597,0.09744,...,14.910,26.50,98.87,567.7,0.20980,0.86630,0.6869,0.2575,0.6638,0.17300
4,20.29,14.34,135.10,1297.0,0.10030,0.13280,0.19800,0.10430,0.1809,0.05883,...,22.540,16.67,152.20,1575.0,0.13740,0.20500,0.4000,0.1625,0.2364,0.07678
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
564,21.56,22.39,142.00,1479.0,0.11100,0.11590,0.24390,0.13890,0.1726,0.05623,...,25.450,26.40,166.10,2027.0,0.14100,0.21130,0.4107,0.2216,0.2060,0.07115
565,20.13,28.25,131.20,1261.0,0.09780,0.10340,0.14400,0.09791,0.1752,0.05533,...,23.690,38.25,155.00,1731.0,0.11660,0.19220,0.3215,0.1628,0.2572,0.06637
566,16.60,28.08,108.30,858.1,0.08455,0.10230,0.09251,0.05302,0.1590,0.05648,...,18.980,34.12,126.70,1124.0,0.11390,0.30940,0.3403,0.1418,0.2218,0.07820
567,20.60,29.33,140.10,1265.0,0.11780,0.27700,0.35140,0.15200,0.2397,0.07016,...,25.740,39.42,184.60,1821.0,0.16500,0.86810,0.9387,0.2650,0.4087,0.12400


In [7]:
# Veamos por encima como es la distribución de la variable categorica para comprobar que hay
# una representación significativa de cada una de las opciones Benigno y Maligno.
Y.value_counts()

diagnosis
B    357
M    212
Name: count, dtype: int64

## 1. `train_test_split`
Es una función de la biblioteca `sklearn.model_selection` que se utiliza para dividir los datos en dos partes:
- Un conjunto para entrenar el modelo (**train**).
- Un conjunto para evaluar el modelo (**test**).

## 2. `X` y `Y`
- **`X`**: Contiene las características (**features**) o variables independientes del modelo.  
  Por ejemplo, en un modelo de predicción de precios de casas, estas serían las características como tamaño, número de habitaciones, etc.
- **`Y`**: Contiene las etiquetas (**target**) o variable dependiente del modelo.  
  En el ejemplo de precios de casas, sería el precio de la casa que deseas predecir.

## 3. `test_size=0.30`
Indica el tamaño del conjunto de prueba como una fracción del total de datos.
- En este caso, el 30% de los datos se destinarán para el conjunto de prueba (**test**), y el 70% restante será para el conjunto de entrenamiento (**train**).

## 4. `random_state=4`
- Es una semilla aleatoria que asegura que la división de los datos sea reproducible.
- Si ejecutas este código varias veces con el mismo `random_state`, obtendrás siempre los mismos resultados.
- Cambiar el valor del `random_state` o no especificarlo hará que los datos se dividan de manera diferente cada vez.

## 5. Salida:
- **`X_train`**: Subconjunto de características para entrenamiento.
- **`X_test`**: Subconjunto de características para prueba.
- **`Y_train`**: Subconjunto de etiquetas para entrenamiento.
- **`Y_test`**: Subconjunto de etiquetas para prueba.

In [None]:
# Creamos la división de grupo de testeo (test) y de entrenamiento (training)
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.30, random_state=4)

# El random state es el que va a definir el nivel de accuracy
modelo = DecisionTreeClassifier(max_depth=3) # Crea una instancia de un modelo de árbol de decisión para clasificación, utilizando la clase DecisionTreeClassifier de la biblioteca sklearn

modelo.fit(X_train, Y_train) # Entrena el modelo utilizando el conjunto de datos de entrenamiento. Ajusta internamente su estructura (el árbol) para predecir correctamente las etiquetas de Y_train
resultado_prueba = modelo.score(X_test, Y_test) # Evalúa el rendimiento del modelo entrenado en el conjunto de prueba y calcula el accuracy (precisión), que es el porcentaje de predicciones correctas hechas por el modelo en los datos de prueba.
resultado_entrenamiento = modelo.score(X_train, Y_train) 
# resultado: Es un valor entre 0 y 1 que representa el porcentaje de precisión
print("Precision en prueba: ", resultado_prueba) # Accuracy (precisión, en %)
print("Precision en entrenamiento: ", resultado_entrenamiento) 
# El modelo es bastante bueno ya que estamos cercanos al 100% de predicción
# Hasta aquí tenemos que revisar porque aún podemos tener problemas de over y underfitting
# Seguimos entonces con la validación cruzada



Precision en prueba:  0.9122807017543859
Precision en entrenamiento:  0.9723618090452262


Nota: Al principio hicimos la prueba sin max_depth=3, lo cual nos dió  
Precisión en prueba: 0.88  
Precisión en entrenamiento: 1  
Lo cual nos sugiere un overlifting. Es decir buena precisión con los datos de entrenamiento pero no tanto con los datos de prueba.  

Para abordar este problema se sugiere:  
1. Simplificar el modelo. Esto es limitar la complejidad del arbol con max_depth=3
2. Aumentar la cantidad de datos
3. Usar validación cruzada

Overfitting: Precisión en entrenamiento >> Precisión en prueba.  
Underfitting: Precisión en entrenamiento ≈ Precisión en prueba, pero ambas son bajas.  
Buen ajuste: Precisión en entrenamiento ≈ Precisión en prueba, y ambas son razonablemente altas.

In [None]:
# Validación cruzada k fold

# Este código realiza una validación cruzada utilizando la técnica de K-Fold para evaluar el rendimiento del modelo 
# de árbol de decisión (DecisionTreeClassifier)

modelo=DecisionTreeClassifier() # Aquí se inicializa un modelo de árbol de decisión que será evaluado
kfold_validacion=KFold(10) # divide los datos en 10 muestras (o "folds") aproximadamente del mismo tamaño y se repite 10 veces
# En cada iteración 9 folds o muestras se usan para entrenar y 1 folmuestra para probar el modelo
resultados=cross_val_score(modelo,X,Y,cv=kfold_validacion) #  cross_val_score realiza las 10 validaciones cruzadas automáticamente
print(resultados) # Muestra los resultados obtenidos en cada una de las 10 iteraciones (precisión en cada fold)
resultados.mean()

[0.89473684 0.9122807  0.87719298 0.94736842 0.89473684 0.96491228
 0.89473684 0.98245614 0.94736842 0.94642857]


np.float64(0.9262218045112782)

 0.926 significa que, en promedio, el modelo tiene una precisión del 92% al predecir correctamente en los diferentes conjuntos de prueba (folds) durante el proceso de validación cruzada.


markdown
Copiar código
# Interpretación del Resultado

## Promedio del rendimiento del modelo:
- El valor **0.92** es la **media** de las puntuaciones de precisión (*accuracy*) obtenidas en los 5 folds (en este caso, porque usamos `KFold(5)`).
- Indica qué tan bien el modelo clasifica correctamente los datos, considerando tanto los datos de entrenamiento como los datos de prueba.

## Confiabilidad del modelo:
- Una precisión promedio del **92%** sugiere que el modelo tiene un buen desempeño general y es capaz de generalizar adecuadamente a nuevos datos en este contexto.

## Importancia de validar en varios folds:
- Al usar validación cruzada, la métrica promedio (como este **0.92**) se vuelve más confiable porque incluye el rendimiento en varios subconjuntos de datos y reduce el riesgo de evaluar el modelo solo en una división específica.

## ¿Qué podemos deducir de este valor?
### Si la métrica es alta (como **0.92**):
- El modelo está clasificando correctamente una gran proporción de los datos.
- Sugiere que el modelo ha aprendido bien los patrones en los datos.

### Consideraciones adicionales:
- Si hay una gran variabilidad en los resultados de los folds individuales (por ejemplo, algunos folds tienen **0.85** y otros **0.98**), puede ser necesario investigar la causa:
  - **Datos desbalanceados.**
  - **Variación en las características dentro de los folds.**


markdown
Copiar código
### En machine learning, una "buena" precisión depende del contexto del problema y de los datos con los que se está trabajando.
**No siempre es necesario o posible alcanzar el 100%, y en algunos casos, buscar una precisión perfecta puede ser contraproducente.**

---

### Rango general para interpretar la precisión:

#### 90%-100%: **Excelente precisión**
- Indica que el modelo está clasificando correctamente la mayoría de los datos.
- Puede ser apropiado en problemas donde se necesita alta confiabilidad, como diagnósticos médicos o sistemas críticos.
- **Precaución**: Una precisión del 100% puede indicar *overfitting* si el modelo solo memoriza los datos de entrenamiento y no generaliza bien a nuevos datos.

---

#### 70%-89%: **Buena precisión**
- Adecuada para muchos problemas, especialmente en escenarios donde los datos son complejos o hay ruido.
- Este rango es aceptable en tareas como predicción de precios, análisis de sentimientos, etc.

---

#### 50%-69%: **Precisión media**
- El modelo está funcionando mejor que el azar (por ejemplo, en un problema binario, donde el azar sería 50%).
- Es un punto de partida aceptable, pero hay espacio para mejorar.

---

#### Menos de 50%: **Mala precisión**
- El modelo podría estar aprendiendo patrones incorrectos o los datos pueden ser insuficientes o mal preparados.
- En este caso, se debe revisar el modelo, las características, o los datos.

ddd