<a href="https://colab.research.google.com/github/cristiandarioortegayubro/BDS/blob/main/modulo.04/bds_optimizacion_001_01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20BDS%20Horizontal%208.png?raw=true">
</p>


<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20Scikit-learn.png?raw=true">
</p>


 # **<font color="DeepPink">Validaci√≥n cruzada</font>**

<p align="justify">
‚ô• En los Colabs anteriores, se ven algunos conceptos relacionados con los modelos predictivos. Si bien esta secci√≥n podr√≠a ser un poco redundante con lo que se ve anteriormente, la intenci√≥n es la de profundizar el tema de validaci√≥n cruzada.
<br><br>
Antes de comenzar, deteng√°monos en las razones para tener un conjunto de datos de entrenamiento y otro conjunto de prueba. Pero antes, vamos a ver la limitaci√≥n de usar todo el conjunto de datos, sin dividirlo.
<br><br>
üëÄ Para comparar los diferentes conceptos, usamos el conjunto de datos de viviendas de California, pero previo a comenzar, vamos a definir el tema de este Colab, la validaci√≥n cruzada.

 ## **<font color="DeepPink">Definici√≥n y conceptos de la validaci√≥n cruzada</font>**

<p align="justify">
‚úÖ La validaci√≥n cruzada, tambi√©n conocida como <b>cross-validation</b> en ingl√©s, es una t√©cnica utilizada en el aprendizaje autom√°tico para evaluar el rendimiento de un modelo o algoritmo predictivo.
<br><br>
En <code>scikit-learn</code>, la biblioteca seleccionada para desarrollar modelos de aprendizaje autom√°tico, la validaci√≥n cruzada se implementa mediante la funci√≥n <code>cross_validate</code> del m√≥dulo <code>model_selection</code>. Esta funci√≥n permite realizar la validaci√≥n cruzada de manera sencilla y eficiente.
<br><br>
El proceso de validaci√≥n cruzada implica dividir el conjunto de datos disponible en varios subconjuntos o "pliegues" (folds en ingl√©s). Luego, se entrena y eval√∫a el modelo en m√∫ltiples iteraciones, utilizando diferentes combinaciones de subconjuntos de entrenamiento y prueba. En cada iteraci√≥n, se reserva uno de los pliegues como conjunto de prueba y se utiliza el resto de los pliegues para entrenar el modelo. Luego, se eval√∫a el modelo en el pliegue de prueba y se registra su rendimiento.
<br><br>
Por ese motivo, el proceso de validaci√≥n cruzada permite evaluar c√≥mo se generaliza el modelo a nuevos datos y ayuda a evitar problemas como el sobreajuste (<b>overfitting</b>). Adem√°s, proporciona una estimaci√≥n m√°s precisa del rendimiento del modelo.
<br><br>
La forma m√°s com√∫n de validaci√≥n cruzada es la validaci√≥n cruzada <b>k-fold</b> (k-fold cross-validation en ingl√©s). En este enfoque, se divide el conjunto de datos en $k$ pliegues de tama√±o aproximadamente igual. Luego, se realiza el entrenamiento y la evaluaci√≥n $k$ veces, utilizando cada uno de los pliegues como conjunto de prueba una vez, mientras que los restantes $k-1$ pliegues se utilizan como conjunto de entrenamiento en cada iteraci√≥n.

<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/k-fold-001.png?raw=true" width="600">
</p>

 ## **<font color="DeepPink">Carga de las librer√≠as</font>**

In [None]:
import numpy as np
import pandas as pd

In [None]:
import plotly.express as px

 ## **<font color="DeepPink">Carga y an√°lisis de conjunto de datos</font>**

<p align = "justify">
üëÄ Vamos a usar datos de <code>scikit-learn</code>

In [None]:
from sklearn.datasets import fetch_california_housing

In [None]:
housing = fetch_california_housing(as_frame=True) #as_frame: como Pandas DataFrame

<p align = "justify">
üëÄ Vemos que tipo de objeto es

In [None]:
type(housing)

sklearn.utils._bunch.Bunch

<p align = "justify">
üëÄ Ahora vemos la descripci√≥n del conjunto de datos.

In [None]:
print(housing.DESCR)

.. _california_housing_dataset:

California Housing dataset
--------------------------

**Data Set Characteristics:**

    :Number of Instances: 20640

    :Number of Attributes: 8 numeric, predictive attributes and the target

    :Attribute Information:
        - MedInc        median income in block group
        - HouseAge      median house age in block group
        - AveRooms      average number of rooms per household
        - AveBedrms     average number of bedrooms per household
        - Population    block group population
        - AveOccup      average number of household members
        - Latitude      block group latitude
        - Longitude     block group longitude

    :Missing Attribute Values: None

This dataset was obtained from the StatLib repository.
https://www.dcc.fc.up.pt/~ltorgo/Regression/cal_housing.html

The target variable is the median house value for California districts,
expressed in hundreds of thousands of dollars ($100,000).

This dataset was derived

<p align="justify">
üëÄ En este conjunto de datos, el objetivo es predecir el valor promedio de las casas en un √°rea de California. Las caracter√≠sticas recopiladas se basan en informaci√≥n inmobiliaria y geogr√°fica general de estas propiedades. Como el valor promedio a predecir es el precio medio (variable num√©rica continua), utilizaremos entonces un modelo predictivo espec√≠fico de regresi√≥n.

<p align="justify">
üõë Vimos que el objeto <code>housing</code> es un objeto de <code>scikit-learn</code> y tiene sus propios m√©todos y atributos, como por ejemplo <code>data</code> que lo muestra o transforma en un <code>DataFrame</code>

In [None]:
type(housing)

sklearn.utils._bunch.Bunch

In [None]:
housing.data.head()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude
0,8.3252,41.0,6.984127,1.02381,322.0,2.555556,37.88,-122.23
1,8.3014,21.0,6.238137,0.97188,2401.0,2.109842,37.86,-122.22
2,7.2574,52.0,8.288136,1.073446,496.0,2.80226,37.85,-122.24
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25


<p align = "justify">
üëÄ Tambien podemos ver la variable objetivo con <code>target</code>

In [None]:
housing.target

0        4.526
1        3.585
2        3.521
3        3.413
4        3.422
         ...  
20635    0.781
20636    0.771
20637    0.923
20638    0.847
20639    0.894
Name: MedHouseVal, Length: 20640, dtype: float64

<p align="justify">
üëÄ Ahora si, dividimos todos los datos del conjunto de datos <code>housing</code>, en nuestra variable objetivo y las variables explicativas. En el caso de la variable objetivo hacemos una transformaci√≥n de los datos para expresar los valores a cientos de miles de d√≥lares.

In [None]:
y = housing.target * 100000 #transformamos el precio a cientos de miles de d√≥lares.
X = housing.data

<p align="justify">
üëÄ Visualizamos variable objetivo.

In [None]:
y.head()

0    452600.0
1    358500.0
2    352100.0
3    341300.0
4    342200.0
Name: MedHouseVal, dtype: float64

<p align="justify">
üëÄ Visualizamos variables explicativas.

In [None]:
X.head()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude
0,8.3252,41.0,6.984127,1.02381,322.0,2.555556,37.88,-122.23
1,8.3014,21.0,6.238137,0.97188,2401.0,2.109842,37.86,-122.22
2,7.2574,52.0,8.288136,1.073446,496.0,2.80226,37.85,-122.24
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25


 # **<font color="DeepPink">Error de entrenamiento versus Error de prueba</font>**


 ## **<font color="DeepPink">Creaci√≥n y ajuste del modelo</font>**

Para resolver el problema de regresi√≥n, utilizaremos un [√Årbol de Regresi√≥n](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeRegressor.html)

<p align="justify">
Un √°rbol de decisi√≥n en <code>scikit-learn</code> es un algoritmo de aprendizaje autom√°tico supervisado utilizado para resolver problemas de clasificaci√≥n y regresi√≥n. Se basa en la idea de construir un modelo en forma de √°rbol que toma decisiones secuenciales basadas en caracter√≠sticas o atributos de los datos de entrada, o variables explicativas.
<br><br>
En <code>scikit-learn</code>, los √°rboles de decisi√≥n se implementan a trav√©s de la clase <code>DecisionTreeClassifier</code> para problemas de clasificaci√≥n y la clase <code>DecisionTreeRegressor</code> para problemas de regresi√≥n.

In [None]:
from sklearn.tree import DecisionTreeRegressor

<p align="justify">
üëÄ Entonces la creaci√≥n del √°rbol se hace con la instancia de la clase  <code>DecisionTreeRegressor</code>, y se ajusta al conjunto de datos  utilizando el m√©todo <code>fit()</code>. Durante este proceso, el √°rbol se construye de forma recursiva dividiendo los datos en funci√≥n de las variables explicativas para minimizar la impureza (Entrop√≠a o Gini) en los nodos (clasificaci√≥n) o minimizar su varianza (regresi√≥n).

In [None]:
model = DecisionTreeRegressor(random_state=0)
model.fit(X, y)

 ## **<font color="DeepPink">Evaluaci√≥n del modelo</font>**

<p align="justify">
üëÄ Despu√©s de entrenar el modelo, nos gustar√≠a conocer el rendimiento potencial una vez implementado en producci√≥n. Para este prop√≥sito, usamos el error absoluto medio (MAE por sus siglas en ingl√©s), que nos da un error en la unidad original, es decir en este caso, expresado en $.

In [None]:
from sklearn.metrics import mean_absolute_error

In [None]:
y_predicted = model.predict(X)
score = mean_absolute_error(y, y_predicted)
print("")
print(f"En promedio, nuestro modelo genera un error de $ {score:.2f}")


En promedio, nuestro modelo genera un error de $ 0.00


<p align="justify">
Vemos que obtenemos una predicci√≥n perfecta sin errores de los precios de las propiedades. Esto es demasiado optimista y cuando sucede, casi siempre revela un problema metodol√≥gico.
<br><br>
üëÄ Entrenamos y predijimos con el mismo conjunto de datos.
<br><br>
En nuestro √°rbol de decisi√≥n, cada muestra en el conjunto de datos se almacena en un nodo hoja. Por lo tanto, nuestro √°rbol de decisiones memoriz√≥ completamente el conjunto de datos proporcionado durante el ajuste del modelo <code>fit()</code> y por ese motivo, no cometi√≥ ning√∫n error al predecir los valores de los precios de las propiedades.



## **<font color="DeepPink">Divisi√≥n de datos de prueba y entrenamiento</font>**

<p align="justify">
üõë El error calculado anteriormente se denomina <b>error emp√≠rico</b> o <b>error de entrenamiento</b>.
<br><br>
Entrenamos un modelo predictivo para minimizar el error de entrenamiento, pero nuestro objetivo es minimizar el error en los datos que no se han visto durante el entrenamiento del modelo.
<br><br>
Este error tambi√©n se denomina <b>error de generalizaci√≥n</b> o <b>error de prueba "verdadero"</b>.
<br><br>
As√≠, la evaluaci√≥n m√°s b√°sica implica:

* Dividir el conjunto de datos en un conjunto de entrenamiento y un conjunto de prueba;
* Ajustar el modelo en el conjunto de entrenamiento;
* Estimar el error de entrenamiento en el conjunto de entrenamiento;
* Estimar el error de prueba en el conjunto de prueba.

<br>
<p align="justify">
üëÄ As√≠ que dividamos nuestro conjunto de datos, para ello <code>scikit-learn</code> proporciona una funci√≥n llamada <code>train_test_split</code> del m√≥dulo <code>model_selection</code> que se utiliza para realizar esta divisi√≥n. La funci√≥n <code>train_test_split</code> toma como entrada el conjunto de datos completo y lo divide en dos conjuntos: uno para entrenamiento y otro para evaluaci√≥n.
<br><br>
La divisi√≥n del conjunto de datos se realiza de manera aleatoria, asegurando que los datos se mezclen para evitar cualquier sesgo o patr√≥n espec√≠fico en los conjuntos de entrenamiento y evaluaci√≥n. Por lo general, la divisi√≥n se realiza asignando un porcentaje espec√≠fico de los datos al conjunto de evaluaci√≥n (tambi√©n conocido como conjunto de prueba) y el restante al conjunto de entrenamiento.
<br><br>


In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

In [None]:
model.fit(X_train, y_train)

<p align="justify">
<code>X_train</code> y <code>y_train</code> representan los conjuntos de entrenamiento, mientras que <code>X_test</code> y <code>y_test</code> representan los conjuntos de prueba. El argumento <code>random_state</code> se utiliza para fijar la semilla aleatoria y asegurar que la divisi√≥n sea reproducible, es decir, independientemente de quien ejecute el script, siempre se obtenga el mismo resultado.
<br><br>
La divisi√≥n del conjunto de datos en <code>scikit-learn</code> es esencial para evaluar el rendimiento de los modelos de aprendizaje autom√°tico de manera objetiva y para evitar el sobreajuste al utilizar los mismos datos tanto para entrenamiento como para evaluaci√≥n (test).

 ## **<font color="DeepPink">Evaluaci√≥n del modelo</font>**

üëÄ Error de entrenamiento:

In [None]:
y_predicted = model.predict(X_train)
score = mean_absolute_error(y_train, y_predicted)
print("")
print(f"El error de entrenamiento del modelo es $ {score:.2f}")


El error de entrenamiento del modelo es $ 0.00


üëÄ Error de prueba:

In [None]:
y_predicted = model.predict(X_test)
score = mean_absolute_error(y_test, y_predicted)
print("")
print(f"El error de prueba del modelo es $ {score:.2f}")


El error de prueba del modelo es $ 47378.08


<p align="justify">
‚úÖ Este error de prueba es en realidad lo que esperar√≠amos de nuestro modelo si se usara en un entorno de producci√≥n.

# **<font color="DeepPink">Estabilidad de las estimaciones de Validaci√≥n Cruzada</font>**

<p align="justify">
Al hacer una sola divisi√≥n de prueba y entrenamiento, no damos ninguna indicaci√≥n con respecto a la robustez de la evaluaci√≥n de nuestro modelo predictivo: en particular, si el conjunto de prueba es peque√±o, esta estimaci√≥n del error de prueba ser√° inestable y no reflejar√≠a la "tasa de error real" que habr√≠amos observado con el mismo modelo en una cantidad mayor de datos de prueba.
<br><br>
Por ejemplo, podr√≠amos haber tenido suerte cuando hicimos nuestra divisi√≥n aleatoria de nuestro conjunto de datos limitado y aislar algunos de los casos m√°s f√°ciles de predecir en el conjunto de prueba por casualidad: la estimaci√≥n del error de prueba ser√≠a demasiado optimista, en este caso.
<br><br>
Entonces la <b>validaci√≥n cruzada</b> permite estimar la robustez de un modelo predictivo repitiendo (iterando) el procedimiento de divisi√≥n. Dar√° varios errores de entrenamientos y pruebas y, por tanto, una <b>estimaci√≥n de la variabilidad del rendimiento del modelo</b>.

Hay [diferentes estrategias de validaci√≥n cruzada](https://scikit-learn.org/stable/modules/cross_validation.html#cross-validation-iterators),

<p align="justify">
Por ahora nos vamos a centrar en uno llamado <code>shuffle-split</code>. En cada iteraci√≥n de esta estrategia nosotros vamos a:


- Mezclar aleatoriamente el orden de las muestras del conjunto de datos completo;
- Dividir el conjunto de datos en un conjunto de entrenamiento y un conjunto de prueba;
- Entrenar un nuevo modelo con el conjunto de entrenamiento;
- Evaluar el error de prueba con el conjunto de prueba.

<p align="justify">
Repetimos este procedimiento <code>n_splits</code> veces. Hay que tener en cuenta que el costo computacional aumenta con <code>n_splits</code>.

<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Validacion-001.png?raw=true" width="650">
</p>


<p align="justify">
Esta figura muestra el caso particular de la estrategia de validaci√≥n cruzada <code>shuffle-split</code> usando <code>n_splits = 5</code>. Para cada divisi√≥n de validaci√≥n cruzada, el procedimiento entrena un modelo en todas las muestras rojas y eval√∫a su rendimiento en las muestras azules.

<p align="justify">
En este caso estableceremos <code>n_splits=40</code>, lo que significa que entrenaremos $40$ modelos en total.


Para evaluar el desempe√±o de nuestro modelo, debemos usar:

- [`sklearn.model_selection.cross_validate`](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_validate.html)

- [`sklearn.model_selection.ShuffleSplit`](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.ShuffleSplit.html)

üëÄ Cargamos las funciones <code>cross_validate</code> y <code>ShuffleSplit</code>:

In [None]:
from sklearn.model_selection import cross_validate
from sklearn.model_selection import ShuffleSplit

<p align="justify">
<code>ShuffleSplit</code> es una funci√≥n que se utiliza para generar divisores de conjuntos de datos aleatorios para validaci√≥n cruzada. A diferencia de otros m√©todos de validaci√≥n cruzada, <code>ShuffleSplit</code> no utiliza particiones predefinidas o pliegues fijos, sino que genera m√∫ltiples divisiones aleatorias del conjunto de datos en conjuntos de entrenamiento y prueba.
<br><br>
ShuffleSplit toma como argumentos el n√∫mero de iteraciones (<code>n_splits</code>), el tama√±o del conjunto de prueba (<code>test_size</code> o <code>train_size</code>), la semilla aleatoria (<code>random_state</code>) y otros par√°metros opcionales.

In [None]:
cv = ShuffleSplit(n_splits=40, test_size=0.3, random_state=0)
cv_results = cross_validate(model, X, y, cv=cv, scoring="neg_mean_absolute_error")

`scoring` controla qu√© [m√©trica](https://scikit-learn.org/stable/modules/model_evaluation.html#scoring-parameter) aplicar a los datos de prueba.



In [None]:
cv_results

{'fit_time': array([0.25534487, 0.25294495, 0.2501955 , 0.24779558, 0.24156833,
        0.25258231, 0.25279951, 0.26588869, 0.28010178, 0.25898004,
        0.16646075, 0.16876078, 0.17307258, 0.16088533, 0.16873789,
        0.16951847, 0.16784859, 0.1678524 , 0.16576076, 0.16912174,
        0.17082143, 0.16321111, 0.17260623, 0.16948748, 0.16704893,
        0.16733575, 0.18390965, 0.16612959, 0.16797161, 0.1652925 ,
        0.16582131, 0.17231178, 0.18019247, 0.1649437 , 0.16775393,
        0.17826939, 0.16467428, 0.16937065, 0.16732597, 0.17396331]),
 'score_time': array([0.0072639 , 0.00555634, 0.00576329, 0.00546527, 0.00549817,
        0.00745988, 0.00557089, 0.00566888, 0.00553107, 0.00656533,
        0.00474501, 0.00435829, 0.00423074, 0.00428343, 0.00429821,
        0.00430369, 0.00475836, 0.00425506, 0.00419092, 0.00419736,
        0.00424099, 0.00420403, 0.00454211, 0.00457692, 0.0043211 ,
        0.00431252, 0.00445127, 0.00440598, 0.00431776, 0.00431752,
        0.00437713, 

<p align="justify">
üëÄ Los resultados <code>cv_results</code> se almacenan en un <code>diccionario</code>. Lo convertiremos a un <code>DataFrame</code> para facilitar la visualizaci√≥n y manipulaci√≥n de los datos.

In [None]:
cv_results = pd.DataFrame(cv_results)
cv_results.head()

Unnamed: 0,fit_time,score_time,test_score
0,0.255345,0.007264,-47137.009528
1,0.252945,0.005556,-46839.433786
2,0.250196,0.005763,-47305.85449
3,0.247796,0.005465,-44851.398417
4,0.241568,0.005498,-47072.168928


<p align="justify">
‚úÖ Una puntuaci√≥n es una m√©trica, y los valores m√°s altos significan mejores resultados.
<br><br>
‚úÖ Por el contrario, un error es una m√©trica en la que valores m√°s bajos significan mejores resultados.
<br><br>
üëÄ El par√°metro <code>scoring</code> en <code>cross_validate</code> siempre espera una funci√≥n que sea una puntuaci√≥n. Para hacerlo m√°s f√°cil, todas las m√©tricas de error en <code>Scikit-learn</code>, como <code>mean_absolute_error</code>, se pueden transformar en una puntuaci√≥n para usar en <code>cross_validate</code>. Para hacerlo, debe pasar una cadena de la m√©trica de error con una cadena neg_ adicional al principio de la puntuaci√≥n del par√°metro; por ejemplo, <code>scoring="neg_mean_absolute_error"</code>. En este caso se computar√° el negativo del error absoluto medio que equivaldr√≠a a una puntuaci√≥n.

<p align="justify">
üëÄ Ahora creamos la columna <code>test_error</code> con los valores de la columna <code>test_score</code> sacando el valor negativo.

In [None]:
cv_results["test_error"] = -cv_results["test_score"]
cv_results.head()

Unnamed: 0,fit_time,score_time,test_score,test_error
0,0.255345,0.007264,-47137.009528,47137.009528
1,0.252945,0.005556,-46839.433786,46839.433786
2,0.250196,0.005763,-47305.85449,47305.85449
3,0.247796,0.005465,-44851.398417,44851.398417
4,0.241568,0.005498,-47072.168928,47072.168928


In [None]:
len(cv_results)

40

<p align="justify">
üëÄ Vemos que tenemos $40$ entradas en nuestro <code>DataFrame</code> porque realizamos $40$ divisiones. Por lo tanto, podemos mostrar la distribuci√≥n del error de prueba y as√≠ tener una estimaci√≥n de su variabilidad.

In [None]:
print("")
print(f"Media: {cv_results.test_error.mean()}")
print(f"Desv√≠o estandar: {cv_results.test_error.std()}")


Media: 46408.783781492246
Desv√≠o estandar: 1195.4177777280847


üìä Ahora vamos a hacer un histograma:

In [None]:
px.histogram(cv_results,
             x="test_error",
             template="gridon",
             nbins=30).update_layout(bargap=0.2)

<p align="justify">
üëÄ Podemos observar que el error de prueba est√° agrupado alrededor de los $47$ y en un rango que va desde $43$ a $50$.
<br><br>
Tenga en cuenta que la desviaci√≥n est√°ndar es mucho menor que la media, y podr√≠amos resumir que nuestra estimaci√≥n de validaci√≥n cruzada del error de prueba es $46.36$ ¬± $1,17$ k\$.
<br><br>
Si tuvi√©ramos que entrenar un solo modelo en el conjunto de datos, es decir sin validaci√≥n cruzada, y luego tener acceso a una cantidad ilimitada de pruebas de los datos, esperar√≠amos que su verdadero error de prueba se acerque a esa regi√≥n.
<br><br>


# **<font color="DeepPink">M√°s detalles sobre cross_validate</font>**

<p align="justify">
üëÄ Durante la validaci√≥n cruzada, se entrenan y eval√∫an muchos modelos. De hecho, el n√∫mero de elementos en cada matriz de la salida de <code>cross_validate</code> es un resultado de uno de estos procedimientos <code>fit</code> / <code>score</code>. Para hacerlo expl√≠cito, es posible recuperar estos modelos ajustados en cada una de las iteraciones pasando la opci√≥n <code>return_estimator=True</code> en <code>cross_validate</code>.

In [None]:
from sklearn.model_selection import cross_val_score

In [None]:
cv_results = cross_validate(model, X, y, return_estimator=True)
cv_results

{'fit_time': array([0.29705143, 0.28939605, 0.28960037, 0.28376889, 0.28633976]),
 'score_time': array([0.00408411, 0.00393295, 0.00407434, 0.0038588 , 0.00464177]),
 'estimator': [DecisionTreeRegressor(random_state=0),
  DecisionTreeRegressor(random_state=0),
  DecisionTreeRegressor(random_state=0),
  DecisionTreeRegressor(random_state=0),
  DecisionTreeRegressor(random_state=0)],
 'test_score': array([0.21214626, 0.41969181, 0.42331813, 0.19377131, 0.4145845 ])}

In [None]:
cv_results['estimator']

[DecisionTreeRegressor(random_state=0),
 DecisionTreeRegressor(random_state=0),
 DecisionTreeRegressor(random_state=0),
 DecisionTreeRegressor(random_state=0),
 DecisionTreeRegressor(random_state=0)]

<p align="justify">
üëÄ Los cinco regresores del √°rbol de decisi√≥n corresponden a los cinco √°rboles en los diferentes folds. Tener acceso a estos regresores es √∫til porque permite inspeccionar los par√°metros ajustados internos de estos regresores.
<br><br>
En el caso de que solo nos interese el puntaje de la prueba, <code>Scikit-learn</code> proporciona la funci√≥n <code>cross_val_score</code>. Es id√©ntico a llamar a la funci√≥n <code>cross_validate</code> y para seleccionar <code>test_score</code> solamente.

In [None]:
scores = cross_val_score(model, X, y)
scores

array([0.21214626, 0.41969181, 0.42331813, 0.19377131, 0.4145845 ])

 # **<font color="DeepPink">Conclusiones</font>**

<p align="justify">
üëÄ En este colab nosotros:
<br><br>
‚úÖ Cargamos los datos de un objeto de<code>Scikit-learn</code> y lo convertimos a un <code>DataFrame</code>.
<br>
‚úÖ Vimos la necesidad de dividir los datos en un conjunto de entrenamiento y un conjunto de prueba.
<br>
‚úÖ Constatamos el significado de los errores de entrenamiento y los errores de prueba.
<br>
‚úÖ Definimos el marco general de la validaci√≥n cruzada con la posibilidad de estudiar las variaciones del rendimiento de la generalizaci√≥n del modelo.


<br>
<br>
<p align="center"><b>
üíó
<font color="DeepPink">
Hemos llegado al final de nuestro colab, a seguir codeando...
</font>
</p>
<br>
<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20BDS%20Horizontal%208.png?raw=true">
</p>

---
