<a href="https://colab.research.google.com/github/rpizarrog/innovacion-empresarial/blob/main/notebook_python/Caso_10_Validaci%C3%B3n_cruzada_Algoritmos_de_regresi%C3%B3n_multivariada_Temperaturas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Objetivo

Construir y evaluar modelos de regresión multivariada mediante técnicas de validación cruzada.



# Marco teórico

La validación cruzada es una técnica de evaluación de modelos que se utiliza tanto en alfgortimos de  clasificación como en técnicas de regresión. Esta validación, ayuda a asegurar que el modelo sea capaz de generalizar a datos no vistos, es decir, realizar predicciones precisas en nuevos conjuntos de datos fuera del conjunto de entrenamiento.

La validación cruzada es especialmente importante en la regresión, donde el objetivo es predecir un valor numérico continuo.

El proceso de validación cruzada implica dividir el conjunto de datos completo en $"k"$ subconjuntos (o "folds"). El modelo se entrena en $"k-1"$ de estos folds y luego se prueba en el fold restante. Este proceso se repite $"k"$ veces, con un fold diferente utilizado como el conjunto de prueba en cada iteración, y los demás folds utilizados como conjunto de entrenamiento.

Al final del proceso, se tiene $"k"$ resultados de evaluación del modelo (por ejemplo, el error cuadrático medio para regresión) que pueden ser promediados para obtener una estimación más precisa del rendimiento del modelo.

Para qué utilizar validación cruzada?, permite estimar qué tan bien el modelo se generalizará a un conjunto de datos independiente además de un uso eficiente de datos al  distintos datos de entrenamiento y validación.  La validación cruzada aprovecha al máximo el conjunto de datos disponible, lo que es especialmente útil cuando la cantidad de datos es limitada. Además, ayuda a reducir el sobreajuste, es decir,  ayuda a identificar modelos que funcionan bien no solo en el conjunto de entrenamiento sino también en conjuntos de prueba, lo que puede ayudar a seleccionar modelos y parámetros que minimizan el sobreajuste.

Como desventaja es que hay un costo de trabajo computacional, como hay que dividir el conunto d edatos en $k$ conuntos y diversas nteracciones es necesario un trbajo compuacional extra. demás hay que busar el númeo adecuado de $k$ conjuntos y $k$ iteracciones

Este caso utiliza la técnica de validación cruzada con el conjunto de datos ya conocido de temperaturas para evaluar y determinar cúal es el mejor modelo de regresión de los hasta ahora vistos.

# Los datos

## Las variables independientes:

* 1. Mes (mes): Afecta debido a las variaciones estacionales. No se considera en el modelo
* 2. Día (dia): Puede influir ligeramente debido al cambio gradual de las temperaturas a lo largo del mes. No se considera en el modelo.
* 3. Velocidad del viento (velocidad_viento): Velocidades más altas pueden reducir la sensación térmica. km/hr
* 4. Presión atmosférica (presion_atmosferica): Cambios en la presión pueden indicar cambios en el clima. hpa
* 5. Humedad relativa (humedad_relativa): Afecta la sensación térmica y puede influir en la temperatura real.
* 6. Presencia de frentes fríos (frentes_frios): Un indicador binario (0 o 1) para la presencia de un frente frío.
* 7. Latitud (latitud): Afecta la temperatura promedio, con temperaturas generalmente disminuyendo al alejarse del ecuador.
* 8. Longitud (longitud): Puede tener un efecto indirecto, especialmente en grandes países donde el clima varía de costa a costa.
* 9. Altitud (altitud): La temperatura tiende a disminuir con la altitud debido a la baja densidad del aire y la disminución de la presión atmosférica.
* 10. Radiación Solar (radiacion_solar): La cantidad de radiación solar que llega a la superficie terrestre tiene un impacto directo en la temperatura. Esta variable puede variar según la cobertura de nubes, la hora del día y la época del año. 100 a 1000 W/m^2
* 11. Luminosidad o Insolación (luminosidad): Estrechamente relacionada con la radiación solar, se refiere a la cantidad de luz solar que llega a la Tierra. Afecta la temperatura especialmente durante las horas diurnas. Soleado obscuro de 0 a 100
* 12. Contaminación o Calidad del Aire (contaminacion): Partículas y gases en la atmósfera pueden atrapar el calor, contribuyendo al efecto invernadero y, por ende, a temperaturas más altas en áreas urbanas o industrializadas. Variables como el nivel de dióxido de carbono o la presencia de ozono cerca de la superficie pueden ser indicadores de contaminación. Niveles de 0 a 500, niveles altos son peligrosos.
* 13. Cobertura de Nubes (cobertura_nubes): La cantidad de nubes en el cielo puede influir en la temperatura al bloquear la radiación solar directa durante el día y atrapar el calor durante la noche. Porcentaje de 0 a 100%

## La variable dependiente

* Temperatura ambiental es la cantidad de grados centígrados promedio.

# Descripción

* Se cargan librerías
* Se cargan funciones
* Se cargan widgest
* Se cargan los datos
* Se observa un diagrama de serie de tiempo con als fechas y temperatuas promedio por mes
* Se observa un diagrama de correlación entre variables independientes.
* Se observan los datos los primero y ultimos 20 registros de conjunto de datos
* Se hacen datos de entrenamieto y datos de validación
* Se construye el modelo con los datos de entrenamiento
  * Modelo SVR con kernel lineal
  * Modelo SVR con kernel polinomial
  * Modelo SVR con kernel radial
* Se hacen predicciones con los datos de validación
* Se evalúa el *r squared*
* Se evalúa el modelo con *RMSE root mean square error* que significa las predicciones que tanto se alejan de las realidades.
* Se hace una prediccón con un nuevo registro.
* Se interpreta el caso

## Métricas del modelo

* El modelo se acepta si el valor de *r squared* está por encima del 50%*.
* El valor de *RMSE* se comparará entre si entre todos los modelos.



# Desarrollo

## Cargar librerías

Se cargan todas las librerías que construye y evalúan modelos de regresión multivariable.



In [65]:
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns

import ipywidgets as widgets
from IPython.display import display, HTML, clear_output

import time # Para medir el tiempo de ejecucón

# Para árboles de regresión
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split

# Para random Forest
from sklearn.ensemble import RandomForestRegressor

from sklearn.tree import DecisionTreeRegressor, plot_tree # Para visualiar árbol
from sklearn.tree import export_text # Para reglas de asociación


# Para modelo polinomial

from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split # Para partir datos en datos entrenamieto y datos validación

# Para modelo de SVR
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVR
from sklearn.model_selection import train_test_split # Para partir datos en datos entrenamieto y datos validación

# Para escalar datos
from sklearn.preprocessing import StandardScaler # Para escalar datos

from sklearn import metrics # Para determinar métricas.
from sklearn.metrics import mean_squared_error, r2_score

# Para determinar estadísticos ...
import statsmodels.api as sm

# Para validación cruzada
from sklearn.model_selection import cross_val_score, KFold
from sklearn.preprocessing import StandardScaler

## Cagar funciones



In [66]:
def f_ver_temperaturas (fechas, temperaturas):
    # Crear un DataFrame con las fechas y temperaturas
    df = pd.DataFrame({'fecha': fechas, 'temperatura': temperaturas})

    # Asegurarse de que 'fecha' es un tipo datetime
    df['fecha'] = pd.to_datetime(df['fecha'])

    # Establecer 'fecha' como el índice del DataFrame
    df.set_index('fecha', inplace=True)

    # Agrupar por mes y año, y calcular la temperatura promedio
    df_resampled = df.resample('M').mean()

    # Crear la visualización
    plt.figure(figsize=(12, 6))
    plt.plot(df_resampled.index, df_resampled['temperatura'], marker='o', linestyle='-', color='b')
    plt.title('Temperatura promedio diario mensual por Año')
    plt.xlabel('Fecha')
    plt.ylabel('Temperatura Promedio (°C)')
    plt.grid(True)
    plt.xticks(rotation=45)
    plt.tight_layout()
    plt.show()

def f_matriz_correlacion_variables(datos):
  # Calcular la matriz de correlación
  corr_matrix = datos.corr()

  # Visualizar la matriz de correlación
  plt.figure(figsize=(10, 8))
  sns.heatmap(corr_matrix, annot=True, fmt=".2f")
  plt.show()

# Esta función regresa los valores de los Coeficientes
# El intercept_0 es el coeficiene de intersección y el resto
# son los 8 coeficiene de las 8 variables predictoras del 0 al 7 por ser un arreglo
def f_coeficientes_modelo (modelo):
  return modelo.intercept_, modelo.coef_[0], modelo.coef_[1], modelo.coef_[2], modelo.coef_[3], modelo.coef_[4], modelo.coef_[5], modelo.coef_[6], modelo.coef_[7]

# funci´pn para ayudar a los hiperplanso, npumero de rengloes en la matriz de visualizaciones
def f_ajustar_y_dividir(numero):
  # Verificar si el número es impar (non)
  if numero % 2 != 0:
    numero += 1  # Hacerlo par incrementándolo en 1
  return numero / 2  # Dividir el número resultante entre 2 y retornarlo

# Función que deuelve interpretaciones con base en el valor w de acuerdo al hiperplano lineal
def f_interpretar_relacion(w, nombres_variables, dependiente):
    interpretaciones = []  # Inicializar una lista vacía para almacenar las interpretaciones

    for i, coef in enumerate(w):
        if coef > 0:
            interpretacion = "La relación entre la variable independiente " + nombres_variables[i] + " y la dependiente es ascendente. Cuando aumenta " + nombres_variables[i] + ", aumenta la variable " + dependiente
        elif coef < 0:
            interpretacion = "La relación entre la variable independiente " + nombres_variables[i] + " y la dependiente es descendente. Cuando aumenta " + nombres_variables[i] + ", disminuye la variable " + dependiente
        else:
            interpretacion = "La variable independiente " + nombres_variables[i] + " no tiene una relación lineal clara con la variable "+ dependiente
        interpretaciones.append(interpretacion)  # Añadir la interpretación actual a la lista de interpretaciones

    return interpretaciones  # Devolver la lista completa de interpretaciones


def f_hiperplanos_lineal_svr(w, b, error, nombres_variables, datos_escalados):
  # Ajustar el número de filas para los gráficos
  num_variables = len(nombres_variables)
  renglones = int(f_ajustar_y_dividir(num_variables))
  columnas = 2 if num_variables > 1 else 1

  # Configura la matriz de visualizaciones para hiperplanos debe ser cuadrada
  fig, axs = plt.subplots(renglones, 2, figsize=(15, 9))
  if renglones * columnas == 1:
    axs = np.array([axs]) # Asegurarse de que axs sea iterable

  for i, nombre_var in enumerate(nombres_variables):
     # Dibujando hiperplanos
    x_values = datos_escalados[nombre_var]
    y_hyperplano = w[0,i] * x_values + b
    y_margen_superior = y_hyperplano + error
    y_margen_inferior = y_hyperplano - error

    # Encontrar el índice de la subfigura actual
    fila = i // columnas
    columna = i % columnas

    axs[fila, columna].plot(x_values, y_hyperplano, 'r', label=f'Hiperplano para {nombre_var}')
    axs[fila, columna].plot(x_values, y_margen_superior, 'b--', label='Margen superior')
    axs[fila, columna].plot(x_values, y_margen_inferior, 'b--', label='Margen inferior')
    axs[fila, columna].set_xlabel(nombre_var)
    axs[fila, columna].set_ylabel('y')
    axs[fila, columna].legend()

  # Esconder gráficos vacíos si los hay
  for j in range(i + 1, renglones * columnas):
    fila = j // columnas
    columna = j % columnas
    axs[fila, columna].axis('off')

  plt.tight_layout()
  plt.show()

# Función para trazar las predicciones del modelo SVR para cada variable independiente en una matriz de subgráficos.
def f_plot_svr_predicciones(modelo, X_train, X_test, y_test, nombres_variables):
    """
    Función para trazar las predicciones del modelo SVR para cada variable independiente en una matriz de subgráficos.

    :param modelo: modelo SVR entrenado.
    :param X_train: conjunto de entrenamiento (para calcular los promedios).
    :param X_test: conjunto de prueba.
    :param y_test: valores reales de la variable dependiente correspondientes a X_test.
    :param nombres_variables: lista de nombres de las variables independientes.


    """

      # Ajustar el número de filas para los gráficos
    num_variables = len(nombres_variables)
    renglones = int(f_ajustar_y_dividir(num_variables))
    columnas = 4 if num_variables > 1 else 1

    X_train_mean = X_train.mean().values  # Calculamos la media de X_train
    n_vars = len(nombres_variables)
    fig, axs = plt.subplots(renglones, columnas, figsize=(20, 10))  # Ajusta el tamaño según necesites
    axs = axs.flatten()  # Aplanar el array de ejes para facilitar su manejo

    for i, nombre_var in enumerate(nombres_variables):
        variable_values = X_test[nombre_var].values
        X_pred = np.tile(X_train_mean, (len(variable_values), 1))
        indice_var = nombres_variables.index(nombre_var)
        X_pred[:, indice_var] = variable_values

        # Hacemos predicciones utilizando el modelo
        y_pred = modelo.predict(X_pred)

        # Graficar en el subgráfico correspondiente
        axs[i].scatter(variable_values, y_test, color='red', label='Datos reales', alpha=0.5)
        axs[i].scatter(variable_values, y_pred, color='blue', label='Predicciones del modelo', alpha=0.5)
        axs[i].set_xlabel(nombre_var)
        axs[i].set_ylabel('Temperatura')
        axs[i].set_title(f'{nombre_var} vs. Temp')
        if i == 0:  # Solo añadimos la leyenda al primer subgráfico para evitar repetición
            axs[i].legend()

    # Asegurarse de que no haya subgráficos vacíos si el número de variables es menor que el número total de subgráficos
    for ax in axs[n_vars:]:
        fig.delaxes(ax)

    plt.tight_layout()
    plt.show()

## Crear widgets



In [67]:
# Crear un widget de salida
visualizar = widgets.Output()


# Función para actualizar y mostrar el contenido dinámicamente en el widget de salida
def f_visualizar_datos(datos1, datos2, titulo1, titulo2):
    with visualizar:
        #global titulo1, titulo2
        #titulo1 = "Primeros 20 registros de datos"
        visualizar.clear_output(wait=True)  # Limpiar el contenido anterior
        display(HTML(f"<h2>{titulo1}</h2>"))  # Establecer el nuevo título
        # Visualizar datos
        display(datos1)

        #titulo2 = "Últimos 20 registros de datos"
        display(HTML(f"<h2>{titulo2}</h2>"))  # Establecer el nuevo título
        # Visualizar datos
        display(datos2)

## Cargar los datos

Los datos son los mismos datos de orgigen de las variables independiente que afectan a un valor continuo de temperatura y que se han estado utilizando por los algoritmos de regresión anteriores.



In [68]:
datos = pd.read_csv("https://raw.githubusercontent.com/rpizarrog/innovacion-empresarial/main/datos/temperaturas.csv")

# Llamar a la función para mostrar datos de entrenamiento ordenados por índice
f_visualizar_datos(datos.head(20), datos.tail(20), "Primeros registros de Datos", "Últimos registros de Datos")

# Para mostrar el widget de salida
display(visualizar)

Output()

## Escalar los datos

Como algunos algoritmos como las máquinas de soporte de regesiín, funcionan mejor con datos escalados, se toma la decisión de que todos los valores serán escalados para que todos los algoritmos utilicen datos escaldos.

Se escalan los datos excepto temperatura

¿Qué significa escalar?

$$
escala = \frac{x_i - \bar{x}} { \sigma}
$$

* $x_i$ Cada valor observado de la variable de interés.
* $\bar{x}$ La media de todos los valores observados de la variable de interés.
* $\sigma$ La desviación estándar de todos los valores observados de la variable de interés.

Los datos originales se escalan todas las variables independiente con la función *escalar.fit_transform()* de una instancia de la función *StandardScaler()* y de la librería *StandardScaler*.

Porqué escalar los datos, el modelo de *(SVR) Support Vector Regression* sugiere que se trabajen con datos escalados dado que resulta ser más eficiente el modelo al momento de construir los hiperplanos, además evita sesgos por datos distorsionados y ayuda a la estabilidad numérica entre otras cosas.

La variable *datos_escalados* es el conjunto de datos con valores escalados y se utilizará para todos los modelos y la validación cruzada correspondiente.




In [69]:

# Escalar las características con StandardScaler
# Crear instancia de StandardScaler
escalar = StandardScaler()

# Escalar las características excluyendo 'temperatura'
datos_escalados = datos.drop(columns=['fecha', 'temperatura'])

datos_escalados = escalar.fit_transform(datos_escalados)

# print (datos_escalados)

# Nombres de columnas para dejar los mismos nombres que original sin fecha ni temperatura
nombres_variables = ['vel_viento', 'presion_atmosferica', 'humedad_relativa', 'frentes_frios', 'radiacion_solar', 'luminosidad', 'contaminacion_atmosferica', 'cobertura_nubosa']

# Convertir de nuevo a DataFrame y asignar los nombres de las columnas
datos_escalados = pd.DataFrame(datos_escalados, columns=nombres_variables)

# Añadir la columna 'temperatura' del DataFrame original
datos_escalados['temperatura'] = datos['temperatura']

# print (datos_escalados)

# Llamar a la función para mostrar datos de entrenamiento ordenados por índice
f_visualizar_datos(datos_escalados.head(20), datos_escalados.tail(20), "Primeros registros escalados", "Últimos registros escalados")

# Para mostrar el widget de salida
display(visualizar)

Output()

## Construccoón de modelos

Se sacan la variales independoene y dependiene siendo estas arreglos numpy.



### Validación cruzada con modelo de regresión lineal múltiple



In [70]:
# variables independientes
independientes = datos_escalados.drop(columns=['temperatura']).values

# Variable dependiente
dependiente = datos_escalados['temperatura'].values

n = independientes.shape[0] # Total de registros
p = independientes.shape[1] # Total de variables

print ("Registros", n)
print ("Predictoes o variable independientes", p)

Registros 2245
Predictoes o variable independientes 8


### Validación cruzada

Con los datos independientes y la variable dependiente cn el total de los datos escalados, se hace validación y

In [71]:
conjuntos = 5

# Definir el modelo de regresión lineal múltiple
modelo_rl = LinearRegression()

# Configurar K-Fold para la validación cruzada
kfold = KFold(n_splits=conjuntos, shuffle=True, random_state=2024)

# Calcular el puntaje de validación cruzada usando MSE como la métrica de evaluación
# Nota: cross_val_score por defecto maximiza el score, por lo que para MSE, que es un "menor es mejor", se usa su negativo.
puntajes_mse = cross_val_score(modelo_rl, independientes, dependiente, cv=kfold, scoring='neg_mean_squared_error')

# Convertir los puntajes a errores cuadráticos medios positivos
mse_scores = -puntajes_mse

print(f"Errores Cuadráticos Medios (MSE) por fold: {mse_scores}")
print(f"Promedio MSE: {np.mean(mse_scores)}")
print(f"Desviación estándar MSE: {np.std(mse_scores)}")

# Ya tienes calculados los MSE scores, así que calculamos el RMSE promedio
rmse_scores = np.sqrt(mse_scores)
promedio_rmse = np.mean(rmse_scores)
print(f"Promedio RMSE: {np.round(promedio_rmse, 2)}")

# Para R^2, usar cross_val_score nuevamente con scoring='r2'
puntajes_r2 = cross_val_score(modelo_rl, independientes, dependiente, cv=kfold, scoring='r2')
promedio_r2 = np.mean(puntajes_r2)

# Calculando el R^2 ajustado promedio
r2_ajustado = 1 - (1-promedio_r2) * ((n-1)/(n-p-1))

print(f"Promedio r squared: {promedio_r2}")
print(f"r squared Ajustado Promedio: {r2_ajustado}")

Errores Cuadráticos Medios (MSE) por fold: [28.19812305 27.7988259  25.50704553 27.56952428 29.27923376]
Promedio MSE: 27.670550504314555
Desviación estándar MSE: 1.2307403642901857
Promedio RMSE: 5.26
Promedio r squared: 0.3134020499189147
r squared Ajustado Promedio: 0.3109455277361559


### Modelo árboles de regresión



In [72]:
conjuntos = 5

# Definir el modelo de árbol de decisión para regresión
modelo_arbol = DecisionTreeRegressor(random_state=2024, max_depth=3)

# Configurar K-Fold para la validación cruzada
kfold = KFold(n_splits=conjuntos, shuffle=True, random_state=2024)

# Calcular el puntaje de validación cruzada usando MSE como la métrica de evaluación
puntajes_mse = cross_val_score(modelo_arbol, independientes, dependiente, cv=kfold, scoring='neg_mean_squared_error')

# Convertir los puntajes a errores cuadráticos medios positivos y calcular el RMSE
mse_scores = -puntajes_mse
rmse_scores = np.sqrt(mse_scores)

print(f"RMSE por fold: {rmse_scores}")
print(f"Promedio RMSE: {np.round(np.mean(rmse_scores), 2)}")
print(f"Desviación estándar RMSE: {np.std(rmse_scores)}\n")

# Calcular R^2 como métrica de evaluación adicional
puntajes_r2 = cross_val_score(modelo_arbol, independientes, dependiente, cv=kfold, scoring='r2')

print(f"R^2 por fold: {puntajes_r2}")
print(f"Promedio R^2: {np.round(np.mean(puntajes_r2), 2)}")
print(f"Desviación estándar R^2: {np.std(puntajes_r2)}")


RMSE por fold: [5.68925193 5.76320421 5.62520629 5.67971183 5.74598082]
Promedio RMSE: 5.7
Desviación estándar RMSE: 0.049452980324641564

R^2 por fold: [0.19887635 0.22026438 0.14529205 0.17828991 0.22053482]
Promedio R^2: 0.19
Desviación estándar R^2: 0.028382642006824676


## Modelo Random Forest



In [73]:

# Número de conjuntos para la validación cruzada
conjuntos = 5

# Definir el modelo de Random Forest para regresión
modelo_rf = RandomForestRegressor(random_state=2024, n_estimators=300, max_depth=3)

# Configurar K-Fold para la validación cruzada
kfold = KFold(n_splits=conjuntos, shuffle=True, random_state=2024)

# Calcular el puntaje de validación cruzada usando MSE como la métrica de evaluación para Random Forest
puntajes_mse_rf = cross_val_score(modelo_rf, independientes, dependiente, cv=kfold, scoring='neg_mean_squared_error')

# Convertir los puntajes a errores cuadráticos medios positivos y calcular el RMSE para Random Forest
mse_scores_rf = -puntajes_mse_rf
rmse_scores_rf = np.sqrt(mse_scores_rf)

print(f"Random Forest - RMSE por fold: {rmse_scores_rf}")
print(f"Random Forest - Promedio RMSE: {np.round(np.mean(rmse_scores_rf), 2)}")
print(f"Random Forest - Desviación estándar RMSE: {np.std(rmse_scores_rf)}\n")

# Calcular R^2 como métrica de evaluación adicional para Random Forest
puntajes_r2_rf = cross_val_score(modelo_rf, independientes, dependiente, cv=kfold, scoring='r2')

print(f"Random Forest - R^2 por fold: {puntajes_r2_rf}")
print(f"Random Forest - Promedio R^2: {np.round(np.mean(puntajes_r2_rf), 2)}")
print(f"Random Forest - Desviación estándar R^2: {np.std(puntajes_r2_rf)}")


Random Forest - RMSE por fold: [5.43192675 5.50779179 5.3848278  5.41741543 5.49734128]
Random Forest - Promedio RMSE: 5.45
Random Forest - Desviación estándar RMSE: 0.04731599000676723

Random Forest - R^2 por fold: [0.26970718 0.28784523 0.21677873 0.2524327  0.28653319]
Random Forest - Promedio R^2: 0.26
Random Forest - Desviación estándar R^2: 0.026319485944286895


### Modelo polinomial grado 2

In [83]:
from sklearn.pipeline import Pipeline

# Configuración inicial
conjuntos = 5
grado = 2  # Grado del polinomio

# Crear una tubería (pipeline) que primero transforme las características al espacio polinomial, y luego aplique regresión lineal
modelo_pol = Pipeline([
    ('poly', PolynomialFeatures(degree=grado)),
    ('linear', LinearRegression())
])

# Configurar K-Fold para la validación cruzada
kfold = KFold(n_splits=conjuntos, shuffle=True, random_state=2024)

# Ahora la validación cruzada

# Calcular el puntaje de validación cruzada usando MSE como la métrica de evaluación
puntajes_mse = cross_val_score(modelo_pol, independientes, dependiente, cv=kfold, scoring='neg_mean_squared_error')

# Convertir los puntajes a errores cuadráticos medios positivos y calcular el RMSE
mse_scores = -puntajes_mse
rmse_scores = np.sqrt(mse_scores)

print(f"Modelo Polinomial Grado 2 - RMSE por fold: {rmse_scores}")
print(f"Modelo Polinomial - Promedio RMSE: {np.mean(rmse_scores)}")
print(f"Modelo Polinomial - Desviación estándar RMSE: {np.std(rmse_scores)}\n")

# Calcular R^2 como métrica de evaluación adicional
puntajes_r2 = cross_val_score(modelo_pol, independientes, dependiente, cv=kfold, scoring='r2')

print(f"Modelo Polinomial Grado 2 - R^2 por fold: {puntajes_r2}")
print(f"Modelo Polinomial - Promedio R^2: {np.mean(puntajes_r2)}")
print(f"Modelo Polinomial - Desviación estándar R^2: {np.std(puntajes_r2)}")


Modelo Polinomial Grado 2 - RMSE por fold: [5.16303468 5.23431646 5.01876677 5.1111496  5.39344094]
Modelo Polinomial - Promedio RMSE: 5.184141689502742
Modelo Polinomial - Desviación estándar RMSE: 0.12605228646149685

Modelo Polinomial Grado 2 - R^2 por fold: [0.34021976 0.35680996 0.31964612 0.33456874 0.31324753]
Modelo Polinomial - Promedio R^2: 0.3328984215529053
Modelo Polinomial - Desviación estándar R^2: 0.015426824814681859


### Modelo SVR lineal



In [74]:
# Número de conjuntos para la validación cruzada
conjuntos = 5
error = 0.1

# Definir el modelo SVR con kernel lineal
modelo_svr_lineal = SVR(kernel='linear', epsilon=error)

# Configurar K-Fold para la validación cruzada
kfold = KFold(n_splits=conjuntos, shuffle=True, random_state=2024)

# Calcular el puntaje de validación cruzada usando MSE como la métrica de evaluación
puntajes_mse = cross_val_score(modelo_svr_lineal, independientes, dependiente, cv=kfold, scoring='neg_mean_squared_error')

# Convertir los puntajes a errores cuadráticos medios positivos y calcular el RMSE
mse_scores = -puntajes_mse
rmse_scores = np.sqrt(mse_scores)

print(f"SVR lineal - RMSE por fold: {rmse_scores}")
print(f"SVR lineal - Promedio RMSE: {np.mean(rmse_scores)}")
print(f"SVR lineal - Desviación estándar RMSE: {np.std(rmse_scores)}\n")

# Calcular R^2 como métrica de evaluación adicional
puntajes_r2 = cross_val_score(modelo_svr_lineal, independientes, dependiente, cv=kfold, scoring='r2')

print(f"SVR lineal - R^2 por fold: {puntajes_r2}")
print(f"SVR lineal - Promedio R^2: {np.mean(puntajes_r2)}")
print(f"SVR lineal - Desviación estándar R^2: {np.std(puntajes_r2)}")

SVR lineal - RMSE por fold: [5.32320887 5.27889431 5.07200095 5.27283253 5.40519717]
SVR lineal - Promedio RMSE: 5.270426765328024
SVR lineal - Desviación estándar RMSE: 0.1099084175162598

SVR lineal - R^2 por fold: [0.29864768 0.34580791 0.30513652 0.29180318 0.3102504 ]
SVR lineal - Promedio R^2: 0.3103291373909719
SVR lineal - Desviación estándar R^2: 0.01879031675122487


## Modelo SVR polinomial grado 3





In [75]:
# Número de conjuntos para la validación cruzada
conjuntos = 5
grado = 3
error = 0.1

# Definir el modelo SVR con kernel polinomial de grado 3
modelo_svr_poly = SVR(kernel='poly', degree=grado, epsilon=error)

# Configurar K-Fold para la validación cruzada
kfold = KFold(n_splits=conjuntos, shuffle=True, random_state=2024)

# Calcular el puntaje de validación cruzada usando MSE como la métrica de evaluación
puntajes_mse = cross_val_score(modelo_svr_poly, independientes, dependiente, cv=kfold, scoring='neg_mean_squared_error')

# Convertir los puntajes a errores cuadráticos medios positivos y calcular el RMSE
mse_scores = -puntajes_mse
rmse_scores = np.sqrt(mse_scores)

print(f"SVR Polinomial - RMSE por fold: {rmse_scores}")
print(f"SVR Polinomial - Promedio RMSE: {np.mean(rmse_scores)}")
print(f"SVR Polinomial - Desviación estándar RMSE: {np.std(rmse_scores)}\n")

# Calcular R^2 como métrica de evaluación adicional
puntajes_r2 = cross_val_score(modelo_svr_poly, independientes, dependiente, cv=kfold, scoring='r2')

print(f"SVR Polinomial - R^2 por fold: {puntajes_r2}")
print(f"SVR Polinomial - Promedio R^2: {np.mean(puntajes_r2)}")
print(f"SVR Polinomial - Desviación estándar R^2: {np.std(puntajes_r2)}")


SVR Polinomial - RMSE por fold: [5.59707373 5.67716553 5.27274414 5.46767702 5.58969274]
SVR Polinomial - Promedio RMSE: 5.5208706331888155
SVR Polinomial - Desviación estándar RMSE: 0.1409736206033706

SVR Polinomial - R^2 por fold: [0.22462592 0.24337189 0.24904445 0.23849682 0.26236036]
SVR Polinomial - Promedio R^2: 0.2435798879623058
SVR Polinomial - Desviación estándar R^2: 0.012391135847759702


### Modelo SVR kernel radial



In [76]:
# Número de conjuntos para la validación cruzada
conjuntos = 5
grado = 3
error = 0.1

# Definir el modelo SVR con kernel Radial de grado 3
modelo_svr_radial = SVR(kernel='rbf', epsilon=error)

# Configurar K-Fold para la validación cruzada
kfold = KFold(n_splits=conjuntos, shuffle=True, random_state=2024)

# Calcular el puntaje de validación cruzada usando MSE como la métrica de evaluación
puntajes_mse = cross_val_score(modelo_svr_radial, independientes, dependiente, cv=kfold, scoring='neg_mean_squared_error')

# Convertir los puntajes a errores cuadráticos medios positivos y calcular el RMSE
mse_scores = -puntajes_mse
rmse_scores = np.sqrt(mse_scores)

print(f"SVR Radial - RMSE por fold: {rmse_scores}")
print(f"SVR Radial - Promedio RMSE: {np.mean(rmse_scores)}")
print(f"SVR Radial - Desviación estándar RMSE: {np.std(rmse_scores)}\n")

# Calcular R^2 como métrica de evaluación adicional
puntajes_r2 = cross_val_score(modelo_svr_radial, independientes, dependiente, cv=kfold, scoring='r2')

print(f"SVR Radial - R^2 por fold: {puntajes_r2}")
print(f"SVR Radial - Promedio R^2: {np.mean(puntajes_r2)}")
print(f"SVR Radial - Desviación estándar R^2: {np.std(puntajes_r2)}")

SVR Radial - RMSE por fold: [5.25521513 5.33958348 5.11372752 5.17356895 5.33561778]
SVR Radial - Promedio RMSE: 5.243542573278189
SVR Radial - Desviación estándar RMSE: 0.08897887873904997

SVR Radial - R^2 por fold: [0.3164501  0.33067951 0.29365642 0.31821648 0.32789396]
SVR Radial - Promedio R^2: 0.3173792951713844
SVR Radial - Desviación estándar R^2: 0.01305214902647569


# Intrepretación del caso

Se hizo una validación cruzada al conjunto de datos *temperaturas* y se obtuvieron los siguientes resultados:

## Para modelo de regresion lineal múltiple
* Se ubtuvo un valor promedio *RMSE: 5.26*; *Promedio r squared: 0.31* y *r squared ajustado Promedio: 0.31*.

## Para modelo de árbol de regresión

* Se ubtuvo un valor promedio *RMSE: 5.7*; *Promedio r squared: 0.19*.

## Para random forest

* Con 300 estimadores o arboles, se ubtuvo un valor promedio *RMSE: 5.25*; *Promedio r squared: 0.26*.

## Para regresión polinomial

* Con el modelo polinomila de grado 2, se ubtuvo un valor promedio *RMSE: 5.18* y *r squared: 0.33*

## Para máqinas de soporte de regresión (SVR) kernel lineal

*  Para el modelo de SVR kernel lineal, se ubtuvo un valor promedio *RMSE: 5.27*; *Promedio r squared: 0.31*.

## Para máquinas de soporte de regresión (SVR) kernel polinomial

* Para el modelo de regresión SVR polinomial de grado 3 se ubtuvo un valor promedio *RMSE: 5.52*; *Promedio r squared: 0.24*.

## Para máquinas de soporte de regresión (SVR) kernel radial

* Para el modelo de regresión SVR radil se ubtuvo un valor promedio *RMSE: 5.24*; *Promedio r squared: 0.31*.

Usando la técnica de validación cruaada el mejor modelo fue: **Regresión polinomial multivariable de grado 2**




