<a href="https://colab.research.google.com/github/rpizarrog/innovacion-empresarial/blob/main/notebook_python/Caso_03_Regresi%C3%B3n_lineal_m%C3%BAltiple_con_temperaturas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Objetivo

Crear, evaluar e intrepretar un modelo de regresión mútiple usando un conjunto de variables atmosféricas que impactan en la tempertura ambiental.

# Descripción

* Se cargan librerías
* Se cargan funciones
* Se cargan widgest
* Se cargan los datos
* Se observan los datos los primero y ultimos 20 registros de conjunto de datos
* Se hacen datos de entrenamieto y datos de validación
* Se construye el modelo con los datos de entrenamiento
* Se hacen predicciones con los datos de validación
* Se evalúa el *r squared*
* Se evalúa el modelo con *RMSE root mean swuare error* que significa las predicciones que tanto se alejan de las realidades.
* Se interpreta el caso

## Métricas del modelo

* El modelo se acepta si el valor de *r squared* está por encima del 60%*.
* El valor de *RMSE* se compararará con otros modelos.



# Desarrollo



## Cargar librerías



In [162]:
import numpy as np
import pandas as pd
import ipywidgets as widgets
from IPython.display import display, HTML, clear_output

# Para el modelo de regresión
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

from sklearn.metrics import mean_squared_error, r2_score

from sklearn import metrics # Para determinar métricas.

# Para determinar estadísticos ...
import statsmodels.api as sm

## Crear funciones



In [163]:
# Pendientes ...
# def f_crear_datos_entrenamiento_validacion (datos, porcentaje):


## Crear widgets



In [164]:
# Crear un widget de salida
visualizar = widgets.Output()


# Función para actualizar y mostrar el contenido dinámicamente en el widget de salida
def f_visualizar_datos(datos1, datos2, titulo1, titulo2):
    with visualizar:
        #global titulo1, titulo2
        #titulo1 = "Primeros 20 registros de datos"
        visualizar.clear_output(wait=True)  # Limpiar el contenido anterior
        display(HTML(f"<h2>{titulo1}</h2>"))  # Establecer el nuevo título
        # Visualizar datos
        display(datos1)

        #titulo2 = "Últimos 20 registros de datos"
        display(HTML(f"<h2>{titulo2}</h2>"))  # Establecer el nuevo título
        # Visualizar datos
        display(datos2)


## Cargar datos



In [165]:
datos = pd.read_csv("https://raw.githubusercontent.com/rpizarrog/innovacion-empresarial/main/datos/temperaturas.csv")

# Llamar a la función para mostrar datos de entrenamiento ordenados por índice
f_visualizar_datos(datos.head(20), datos.tail(20), "Primeros registros de Datos", "Últimos registros de Datos")

# Para mostrar el widget de salida
display(visualizar)




Output()

## Crear datos de entrenamiento y validación



In [166]:
# Preparar los datos para el modelo
X = datos.drop(columns=['fecha', 'temperatura'])  # Variables independientes
y = datos['temperatura']  # Variable dependiente

# Dividir los datos en conjuntos de entrenamiento y prueba o validación
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=2024)

f_visualizar_datos(X_train.sort_index().head(20), X_test.sort_index().head(20),
                   "Primeros registros. Datos de entrenamiento", "Primeros registros. Datos de validación")

# Para mostrar el widget de salida
display(visualizar)



Output()

## Crear modelo

$$
prediccion = Y = β_0 + β_1{x_1} + β_2{x_2} + β_3{x_3}+ .....β_k{x_k }
$$

$$
\text{prediccion de temperatura}= Y = β_0 + β_1\cdot \text{vel_viento} + β_2\cdot \text{presion_atmosferica} + β_3\cdot \text{humedad_relativa} + β_4\cdot \text{frentes_frios} + β_5\cdot \text{radiacion_solar} + β_6\cdot\text{luminosidad}+ β_7\cdot\text{contaminacion_atmosferica}
$$

$$
\text{de donde} \therefore
$$


$$
β_0 \text{ es el coeficiente intersección o abcisa y ...}
$$

$$
β_1, β_2, β_3, β_4.....β_k
$$

$$
\text{Son los coeficienes que genera el modelo de regresión múltiple que deben multiplicarse}
$$

$$
\text{ por el valor de cada variable independiente para hacer las predicciones de Y.}
$$





In [167]:
modelo = LinearRegression()

# Entrenar el modelo con los datos de entrenamiento
modelo.fit(X_train, y_train)

## Hacer predicciones

Con los datos de validación relizar las predicciones




In [168]:
# Hacer predicciones sobre el conjunto de validación
predicciones = modelo.predict(X_test)



## Evaluar el modelo


In [171]:
# Calcular y mostrar el Error Cuadrático Medio (MSE) y el Coeficiente de Determinación (R^2)

print('Mean Squared Error: MSE', metrics.mean_squared_error(y_test, predicciones))
print('Root Mean Squared Error RMSE:', np.sqrt(metrics.mean_squared_error(y_test, predicciones)))

r2 = r2_score(y_test, y_pred)

print(f"Coeficiente de Determinación (R^2) r squared: {r2:.2f}")

Mean Squared Error: MSE 29.0574858626876
Root Mean Squared Error RMSE: 5.390499593051427
Coeficiente de Determinación (R^2) r squared: 0.22


## Evaluar estadísticamente los coeficientes


In [172]:
# Añadir una constante a las variables independientes para incluir el intercepto en el modelo
X_train_sm = sm.add_constant(X_train)

# Ajustar el modelo y obtener el resumen
modelo_sm = sm.OLS(y_train, X_train_sm).fit()
resumen_modelo = modelo_sm.summary()

print(resumen_modelo)

                            OLS Regression Results                            
Dep. Variable:            temperatura   R-squared:                       0.274
Model:                            OLS   Adj. R-squared:                  0.271
Method:                 Least Squares   F-statistic:                     84.26
Date:                Fri, 23 Feb 2024   Prob (F-statistic):          4.43e-104
Time:                        02:15:39   Log-Likelihood:                -4784.1
No. Observations:                1571   AIC:                             9584.
Df Residuals:                    1563   BIC:                             9627.
Df Model:                           7                                         
Covariance Type:            nonrobust                                         
                                coef    std err          t      P>|t|      [0.025      0.975]
---------------------------------------------------------------------------------------------
const                 

# Interpretación


El modelo no se acepta porque tiene un 22 % de valor *r square* que significa que tan solo las variables independiente representan o explican aproximadamente el 22% a la variable dependiente temperatura.

El valor de RMSE es 5.39, pero tienen que compararse con otros modelos.


## Conclusión del chatGPT:

Coeficiente de Determinación (R-squared)
R-squared: 0.274 indica que el 27.4% de la variabilidad en la temperatura puede ser explicada por las variables independientes en el modelo. Este valor sugiere que, aunque las variables tienen alguna relación con la temperatura, hay una gran cantidad de variabilidad que no está siendo capturada por el modelo.

Ajuste del Modelo (Adj. R-squared)
Adj. R-squared: 0.271 se ajusta por el número de predictores en el modelo, proporcionando una medida más precisa de la bondad de ajuste, especialmente cuando se compara con modelos que tienen un número diferente de predictores. Este valor cercano al R-squared sugiere que la inclusión de las variables es justificable, pero aún así, el modelo podría mejorarse.

F-statistic y Prob (F-statistic)
F-statistic: 84.26 y Prob (F-statistic): 4.43e-104 indican la significancia global del modelo. Un F-statistic alto junto con un Prob (F-statistic) extremadamente bajo (prácticamente 0) sugiere que el modelo es estadísticamente significativo a nivel global, es decir, las variables independientes colectivamente tienen un efecto significativo en la variable dependiente.


### Coeficientes del Modelo

Los coeficientes del modelo muestran la contribución de cada variable independiente a la predicción de la temperatura. Por ejemplo:

vel_viento tiene un coeficiente de -0.2855, significando que un aumento de una unidad en la velocidad del viento está asociado con una disminución de 0.2855 unidades en la temperatura. El *p-valor* extremadamente bajo (< 0.05) indica que esta relación es estadísticamente significativa.

frentes_frios tiene un efecto notablemente negativo en la temperatura con un coeficiente de -4.0343, lo cual es significativo.

Variables como presion_atmosferica y humedad_relativa tienen coeficientes pequeños y *p-valores* altos, indicando que no son estadísticamente significativas en este modelo.

