# **Matices de los conjuntos de pruebas**

Los conjuntos de pruebas se consideran procedimientos recomendados para la mayoría de los aspectos del aprendizaje automático, aunque el campo sigue siendo relativamente pequeño y, por tanto, se debate exactamente cómo y cuándo. Veamos algunos aspectos que se deben tener en cuenta.

## **Los conjuntos de pruebas pueden ser engañosos**

Aunque los conjuntos de pruebas son útiles para identificar el sobreentrenamiento, pueden proporcionarnos una confianza falsa. En concreto, los conjuntos de pruebas solo son útiles si reflejan datos que esperamos ver en el mundo real. Por ejemplo, nuestro conjunto de pruebas es muy pequeño y no representará la variedad de datos que es probable que se vean en el mundo real. Así mismo, los conjuntos de datos de prueba solo son tan buenos como su origen. Si el conjunto de datos de prueba procede de un origen sesgado, nuestras métricas no reflejarán el comportamiento en el mundo real.

Por ejemplo, supongamos que estamos intentando encontrar la relación entre el número de rescates y la edad a la que un perro empezó a entrenar. Si nuestro conjunto de pruebas solo contaba con tres perros, es posible que estos perros no sean una buena representación de la amplia variedad de perros de trabajo en el mundo real. Además, imagine que obtenemos nuestro conjunto de pruebas de un solo criador, que no sabe cómo trabajar con cachorros. Nuestro modelo podría predecir que los perros más mayores son los mejores para entrenar, y nuestro conjunto de datos de prueba lo confirmaría, cuando de hecho otros instructores podrían tener un éxito enorme con animales más jóvenes.

## **Los conjuntos de pruebas no son gratuitos**
Ya hemos visto que cuantos más datos de entrenamiento tengamos, menos probable será que nuestro modelo se sobreajuste. Del mismo modo, cuanto más grandes sean los conjuntos de pruebas, más confianza tendremos en los resultados de las mismas. Sin embargo, normalmente trabajamos con cantidades finitas de datos y un punto de datos no puede estar en el conjunto de entrenamiento y en el de prueba. Esto significa que, a medida que obtenemos conjuntos de pruebas más grandes, también obtenemos conjuntos de datos de entrenamiento más pequeños y viceversa. La cantidad exacta de datos que hay que sacrificar para que aparezcan en el conjunto de datos de prueba depende de las circunstancias individuales. Lo más relativamente común es entre un 10 y un 50 %, según el volumen de datos disponibles.

## **Entrenar y probar no es el único enfoque**
Merece la pena tener en cuenta que el enfoque de entrenar y probar es habitual, pero no es el único que se utiliza. Dos de las alternativas más comunes son el enfoque de exclusión y los métodos estadísticos.

### **El enfoque de exclusión**
El enfoque de exclusión es como el de entrenar y probar, pero en lugar de dividir un conjunto de datos en dos, se divide en tres: entrenamiento, prueba (también conocida como validación) y espera. Los conjuntos de datos de entrenamiento y prueba son los que se han descrito anteriormente. El conjunto de datos de exclusión es un tipo de conjunto de pruebas que se usa solo una vez, cuando estamos listos para implementar nuestro modelo para su uso real. En otras palabras, no se usa hasta que hayamos terminado de experimentar con diferentes tipos de prácticas de entrenamiento, distintos tipos de modelos, etc.

Este enfoque aborda el hecho de que normalmente experimentamos con diferentes modelos y prácticas de entrenamiento. Por ejemplo, ajustamos un modelo, descubrimos que no funciona bien con el conjunto de datos de prueba, cambiamos algunos aspectos del modelo entrenado y lo volvemos a intentar hasta obtener un buen resultado. Esto significa que estamos modificando a propósito el modelo para que funcione para un conjunto determinado de datos, al igual que lo hace el entrenamiento normal con el conjunto de datos de entrenamiento. Al hacerlo, podemos acabar con un modelo que básicamente está demasiado entrenado para funcionar en nuestro conjunto de datos de prueba.

La idea de un tercer conjunto de datos es que también podemos probarlo. Este enfoque significa dividir los datos de tres maneras, lo que implica que empezamos con incluso menos datos de entrenamiento. Si no tenemos muchos datos con los que trabajar, este enfoque puede reducir nuestra capacidad de obtener un buen modelo.

### **Enfoques estadísticos**

Los modelos más sencillos que se han originado en las estadísticas a menudo no necesitan conjuntos de datos de prueba. En cambio, el grado de sobreajuste del modelo puede calcularse directamente como significación estadística: un "valor p".

Estos métodos estadísticos son eficaces, están bien establecidos y forman la base de la ciencia moderna. La ventaja es que el conjunto de entrenamiento no tiene que dividirse nunca y obtenemos una comprensión mucho más precisa de la confianza que podemos tener sobre un modelo. Por ejemplo, un valor p de 0,01 significa que hay una probabilidad muy pequeña de que nuestro modelo haya encontrado una relación que realmente no exista en el mundo real. Por el contrario, un valor p de 0,5 significa que, aunque nuestro modelo podría ser bueno con nuestros datos de entrenamiento, no será mejor que lanzar una moneda al aire en el mundo real.

El inconveniente de estos enfoques es que solo se aplican fácilmente a determinados tipos de modelos, como los modelos de regresión lineal con los que hemos estado trabajando. Para todos los modelos, salvo los más sencillos, estos cálculos pueden ser extremadamente complejos de realizar correctamente, por lo que están fuera del alcance de este curso. También sufren la misma limitación con respecto a la selección de datos: si nuestros datos de entrenamiento están sesgados, nuestros valores p serán engañosos.



---



## **Ejercicio: matices del conjunto de prueba**s

### **Conjuntos de pruebas en profundidad**

En el ejercicio anterior, vimos cómo dividir nuestros datos en conjuntos de entrenamiento y prueba para evaluar el rendimiento del modelo.

Ahora repetiremos el último ejercicio, pero esta vez veremos qué sucede cuando dividimos los datos en diferentes formas y proporciones.

Primero recordemos lo que hay en nuestro conjunto de datos:

In [1]:
import pandas
!pip install statsmodels
!wget https://raw.githubusercontent.com/MicrosoftDocs/mslearn-introduction-to-machine-learning/main/Data/dog-training.csv
!wget https://raw.githubusercontent.com/MicrosoftDocs/mslearn-introduction-to-machine-learning/main/Data/dog-training-switzerland.csv
!wget https://raw.githubusercontent.com/MicrosoftDocs/mslearn-introduction-to-machine-learning/main/graphing.py
import graphing

data = pandas.read_csv("dog-training.csv", delimiter="\t")

print(f"Dataset shape: {data.shape}")
data.head()

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
--2023-03-18 16:43:14--  https://raw.githubusercontent.com/MicrosoftDocs/mslearn-introduction-to-machine-learning/main/Data/dog-training.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 974 [text/plain]
Saving to: ‘dog-training.csv’


2023-03-18 16:43:14 (58.7 MB/s) - ‘dog-training.csv’ saved [974/974]

--2023-03-18 16:43:14--  https://raw.githubusercontent.com/MicrosoftDocs/mslearn-introduction-to-machine-learning/main/Data/dog-training-switzerland.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:4

Unnamed: 0,month_old_when_trained,mean_rescues_per_year,age_last_year,weight_last_year,rescues_last_year
0,68,21.1,9,14.5,35
1,53,14.9,5,14.0,30
2,41,20.5,6,17.7,34
3,3,19.4,1,13.7,29
4,4,24.9,4,18.4,30



Hagamos un resumen rápido de cómo se ve la distribución de nuestros datos (recuerde que estábamos usando `weight_last_year` para predecir el valor de `rescues_last_year`).

In [2]:
# Obtain the label and feature from the original data
dataset = data[['rescues_last_year','weight_last_year']]

# Print the number of observations
print("No. observations:", dataset.shape[0])

# Graph the distribution of variables for the unsplit dataset
graphing.scatter_2D(dataset, 'rescues_last_year', 'weight_last_year')

No. observations: 50


Observe que tenemos 50 observaciones graficadas (lo que corresponde al número de muestras en el conjunto de datos).

### **Comparación de proporción de división de conjuntos de datos**

Ahora dividiremos nuestro conjunto de datos utilizando diferentes proporciones para comprender cómo pueden afectar a nuestros modelos.

In [3]:
from sklearn.model_selection import train_test_split

# Split Dataset using different ratios 50:50, 60:40, 70:30, 80:20
train_5050, test_5050 = train_test_split(dataset, test_size=0.5, random_state=2)
train_6040, test_6040 = train_test_split(dataset, test_size=0.4, random_state=2)
train_7030, test_7030 = train_test_split(dataset, test_size=0.3, random_state=2)
train_8020, test_8020 = train_test_split(dataset, test_size=0.2, random_state=2)

# Add a column to each set to identify if a datapoint belongs to "train" or "test"
train_5050, test_5050 = train_5050.assign(Set="train"), test_5050.assign(Set="test")
train_6040, test_6040 = train_6040.assign(Set="train"), test_6040.assign(Set="test")
train_7030, test_7030 = train_7030.assign(Set="train"), test_7030.assign(Set="test")
train_8020, test_8020 = train_8020.assign(Set="train"), test_8020.assign(Set="test")

# Concatenate the "train" and "test" sets for each split so we can plot them on the same chart
df_5050 = pandas.concat([train_5050, test_5050], axis=0)
df_6040 = pandas.concat([train_6040, test_6040], axis=0)
df_7030 = pandas.concat([train_7030, test_7030], axis=0)
df_8020 = pandas.concat([train_8020, test_8020], axis=0)

# Plot each distribution for comparison
graphing.scatter_2D(df_5050, "weight_last_year", "rescues_last_year", title="50:50 split", label_colour="Set", show=True)
graphing.scatter_2D(df_6040, "weight_last_year", "rescues_last_year", title="60:40 split", label_colour="Set", show=True)
graphing.scatter_2D(df_7030, "weight_last_year", "rescues_last_year", title="70:30 split", label_colour="Set", show=True)
graphing.scatter_2D(df_8020, "weight_last_year", "rescues_last_year", title="80:20 split", label_colour="Set")

Observe cómo las primeras divisiones nos dejan con conjuntos de datos de entrenamiento relativamente pequeños . En la división 50:50, solo tenemos 25 muestras para entrenar.

Estos últimos, en cambio, nos dejan muchos más datos para entrenar, pero relativamente pocos para testear. ¡La división 80:20 nos deja con solo 10 muestras en el conjunto de prueba !

Echemos un vistazo a las distribuciones de datos de entrenamiento para cada división:

In [4]:
# Add a column for each "train" set that identifies the split used
train_8020 = train_8020.assign(Split="80:20")
train_7030 = train_7030.assign(Split="70:30")
train_6040 = train_6040.assign(Split="60:40")
train_5050 = train_5050.assign(Split="50:50")

# Concatenate training sets so we can plot them on the same chart
split_df = pandas.concat([train_5050, train_6040, train_7030, train_8020], axis=0)

 # Plot a histogram of data distribution
graphing.multiple_histogram(split_df, label_x="rescues_last_year", label_group="Split", title="Distribution of Training data")

Podemos sacar un par de conclusiones del gráfico anterior:

1. La `train_test_split()` función que usamos hace un trabajo bastante bueno al mantener una distribución justa de datos en diferentes proporciones. Intenta mantener diferentes valores representados en la misma proporción.

2. Sin embargo, cuando usamos una `50:50` relación, tenemos que dejar tantos datos fuera del conjunto de entrenamiento que ¡algunos valores ya no están presentes! (¿puedes ver dónde faltan las barras azules?)

El punto `2` es especialmente preocupante ya que si esos datos no están disponibles para el entrenamiento, nuestro modelo no puede aprender de ellos y, por lo tanto, no hará predicciones precisas. En otras palabras, ¡usar una `50:50` división no parece una buena idea para este conjunto de datos!

### **Ajuste y evaluación de modelos con diferentes relaciones de división**

Ajustemos modelos usando diferentes divisiones, luego veamos cómo parecen funcionar:

In [5]:
import statsmodels.formula.api as smf
from sklearn.metrics import mean_squared_error as mse

def train_and_test_model(name, train, test):
    '''
    This method creates a model, trains it on the provided data, and assesses 
    it against the test data
    '''
    # This formula says that rescues_last_year is explained by weight_last_year
    formula = "rescues_last_year ~ weight_last_year"

    # Create and train a linear regression model using the training data
    model = smf.ols(formula = formula, data = train).fit()

    # Now evaluate the model (by calculating the Mean Squared Error) using the 
    # corresponding "test" set for that split
    correct_answers = test['rescues_last_year']
    predictions = model.predict(test['weight_last_year'])
    MSE = mse(correct_answers, predictions)
    print(name + ' MSE = %f ' % MSE)

    return model


# Train a model and test it for each kind of split
print("Mean Squared Error values (smaller is better)")
model_5050 = train_and_test_model("50:50", train_5050, test_5050)
model_6040 = train_and_test_model("60:40", train_6040, test_6040)
model_7030 = train_and_test_model("70:30", train_7030, test_7030)
model_8020 = train_and_test_model("80:20", train_8020, test_8020)

Mean Squared Error values (smaller is better)
50:50 MSE = 21.930788 
60:40 MSE = 19.834762 
70:30 MSE = 23.747817 
80:20 MSE = 18.441786 


El código anterior entrena un modelo para cada relación, utilizando el conjunto de entrenamiento correspondiente para esa relación. Luego calcula el MSE (error cuadrático medio) para cada modelo, utilizando su conjunto de prueba correspondiente .

Los resultados parecen mixtos. La 80:20 proporción fue la mejor, pero no hay un patrón claro en cuanto a si es útil aumentar o reducir el conjunto de entrenamiento.

Dos cosas están influyendo en nuestros resultados. En primer lugar, cuanto más grande sea el conjunto de pruebas , más podemos confiar en los resultados de las pruebas. En segundo lugar, los modelos generalmente entrenarán mejor con conjuntos de entrenamiento más grandes.

Estas influencias están en desacuerdo entre sí, y su influencia se exagera aquí porque nuestro conjunto de datos es muy pequeño. En esta situación particular, es difícil evaluar si la 60:40 división es realmente mejor que la 70:30 división, por ejemplo. Esto se debe a que 70:30 split podría dar la apariencia de ser peor porque se probó con un conjunto de prueba menos representativo (más pequeño).

### **Evaluación del modelo**

Echemos un vistazo ahora a lo que sucede cuando estos modelos se utilizan en un conjunto de datos mucho más grande en el que no se entrenó ni se probó. Esto puede suceder en el mundo real porque elegimos retener los datos al principio, o simplemente porque recopilamos datos después de entrenar nuestro modelo. En nuestro escenario actual, estos son nuevos datos que nos ha proporcionado el brazo europeo de nuestra organización benéfica de rescate de avalanchas.

In [6]:
import statsmodels.formula.api as smf
from sklearn.metrics import mean_squared_error as mse

# Load some dog statistics from our charity's European arm
swiss_data = pandas.read_csv("dog-training-switzerland.csv", delimiter="\t")

# Show show information about the data
print(f"The Swiss dataset contains {swiss_data.shape[0]} samples")
graphing.scatter_2D(swiss_data, 'rescues_last_year', 'weight_last_year')

The Swiss dataset contains 500 samples



Esta es claramente una muestra mucho más grande de datos. Veamos cómo funcionan nuestros modelos. Tenga en cuenta que no estamos volviendo a entrenar los modelos aquí; simplemente los estamos usando para hacer predicciones sobre un nuevo conjunto de datos para evaluar qué tan bien se desempeñan.

In [8]:
# Test our models against the swiss data
features = swiss_data['weight_last_year']
correct_answers = swiss_data['rescues_last_year']

# We will now assess our models. Notice we're not training them again.
# We are simply testing them against some new data 

# Assess the model trained on a 50:50 split
predictions = model_5050.predict(features)
MSE = mse(correct_answers, predictions)
print('50:50 MSE = %f ' % MSE)

# Assess the model trained on a 60:40 split
predictions = model_6040.predict(features)
MSE = mse(correct_answers, predictions)
print('60:40 MSE = %f ' % MSE)

# Assess the model trained on a 70:30 split
predictions = model_7030.predict(features)
MSE = mse(correct_answers, predictions)
print('70:30 MSE = %f ' % MSE)

# Assess the model trained on a 80:20 split
predictions = model_8020.predict(features)
MSE = mse(correct_answers, predictions)
print('80:20 MSE = %f ' % MSE)

50:50 MSE = 20.903325 
60:40 MSE = 20.520190 
70:30 MSE = 20.355991 
80:20 MSE = 20.061225 


Con este conjunto de datos más grande, el modelo que se usa para 80:20 dividir produjo el error más bajo y, por lo tanto, el mejor rendimiento. También hay un patrón claro, donde cuanto mayor sea el conjunto de datos de entrenamiento, mejor podría funcionar el modelo después del entrenamiento.

Juntos, esto muestra que debemos probar y evaluar diferentes divisiones de entrenamiento/prueba al construir modelos de aprendizaje automático y que, en general , las divisiones que favorecen el conjunto de entrenamiento con más datos producirán mejores resultados.

**Resumen**

En este ejercicio aprendiste los siguientes conceptos:

- Puede usar diferentes proporciones al dividir su conjunto de datos en conjuntos de entrenamiento y prueba .
- Diferentes proporciones producen diferentes distribuciones de variables en los conjuntos de prueba y entrenamiento resultantes .
- Cuando las proporciones de entrenamiento: prueba están cerca, es posible que esté dejando una gran cantidad de datos fuera del conjunto de entrenamiento y eso puede tener un impacto negativo en el rendimiento de su modelo.
- Al construir modelos, es importante probarlos usando diferentes divisiones de entrenamiento/prueba. La simple asignación de más datos al conjunto de entrenamiento no siempre garantiza los mejores resultados.