# Asignación 2: Análisis del Dataset de Predicción de Energía
---

## Objetivos

- Adquirir destrezas en la implementación y evaluación de algoritmos de regresión.
- Aprender a graficar datos con Python
- Estudiar la correlación entre las variables de un dataset utilizando la matriz de correlación de Pearson.
- Poner en práctica técnicas de preprocesamiento como normalización y estandarización de datos.
- Probar los modelos estudiados en clase (regresión lineal).
- Utilizar métricas de evaluación de algoritmos de regresión (MSE, RMSE, MAE, R²).


## Preámbulo: el Appliances Energy Prediction dataset

El dataset **Appliances Energy Prediction** está disponible en el repositorio de UCI (Universidad de California en Irvine) Machine Learning Repository. Este dataset está diseñado para tareas de predicción del consumo energético en electrodomésticos y contiene información detallada sobre diversas variables ambientales, meteorológicas y eléctricas. A continuación, se describe en detalle:

### Descripción General
El objetivo principal del dataset es predecir el consumo energético de electrodomésticos en función de múltiples variables independientes relacionadas con las condiciones ambientales, meteorológicas y del entorno interior de la vivienda. Este dataset es útil para problemas de **regresión** y **análisis de series temporales**.

### Procedencia y Captura de Datos
- **Ubicación geográfica**: Los datos fueron recolectados en una vivienda ubicada en Bélgica.

- **Tecnología de captura**: Las mediciones internas (temperatura y humedad) se obtuvieron mediante sensores inalámbricos basados en tecnología ZigBee.

- **Datos exteriores**: Las variables meteorológicas exteriores (temperatura, humedad, presión, visibilidad, etc.) fueron recolectadas desde una estación meteorológica ubicada en un aeropuerto cercano.

### Características del Dataset
- **Número de instancias:** 19,735 registros.
- **Número de atributos:** 29 columnas en total (incluye variables predictoras, la variable objetivo y la marca temporal).
- **Tipo de datos:** Datos numéricos y temporales.
- **Periodo de recolección:** Datos recolectados cada 10 minutos durante un período de 4.5 meses.

### Variables del Dataset
1. **Date (Fecha):** Marca temporal de cada registro.
2. **Appliances (Objetivo):** Energía consumida por los electrodomésticos (en Wh).
3. **Lights:** Energía consumida por las luces (en Wh).

4. **Variables ambientales interiores:**
   - **T1 / RH_1:** Temperatura y humedad en la cocina.
   - **T2 / RH_2:** Sala de estar.
   - **T3 / RH_3:** Lavandería.
   - **T4 / RH_4:** Oficina.
   - **T5 / RH_5:** Baño.
   - **T6 / RH_6:** Aire exterior cerca del edificio.
   - **T7 / RH_7:** Cuarto de planchado.
   - **T8 / RH_8:** Cuarto de adolescentes.
   - **T9 / RH_9:** Habitación de los padres.

5. **Variables meteorológicas y del entorno exterior:**
   - **T_out:** Temperatura exterior (°C).
   - **Press_mm_hg:** Presión atmosférica (mm Hg).
   - **RH_out:** Humedad relativa exterior (%).
   - **Windspeed:** Velocidad del viento (m/s).
   - **Visibility:** Visibilidad (km).
   - **Tdewpoint:** Punto de rocío (°C).

6. **Variables aleatorias:**
   - **rv1 y rv2:** Variables generadas aleatoriamente sin significado físico. Se incluyen como referencia para evaluar la capacidad del modelo de ignorar ruido irrelevante.

### Propósito del Dataset
El dataset está diseñado para:
- Analizar patrones de consumo energético en electrodomésticos.
- Predecir el consumo energético en función de las condiciones ambientales y del entorno.
- Evaluar el impacto de variables internas y externas en el consumo energético residencial.

### Aplicaciones
- Modelos de regresión para predecir el consumo energético.
- Análisis de series temporales para identificar tendencias y patrones.
- Optimización del consumo energético en hogares inteligentes.

### Notas Adicionales
- El dataset **no contiene valores faltantes**, lo que lo hace ideal para enfocarse en la construcción y evaluación de modelos.
- Las variables aleatorias `rv1` y `rv2` no tienen un significado físico directo, pero son útiles para probar la robustez de los modelos predictivos ante ruido estadístico.


---
## Primera parte: Análisis inicial

En esta sección se realizarán algunos de los análisis estadísticos iniciales que se aplican a cualquier dataset antes de comenzar con los modelos de machine learning.

Como primer paso, cargue el dataset desde el archivo CSV ubicado en `datasets/appliances_energy_prediction_dataset/dataset.csv` y muestre las columnas disponibles junto con el tipo de dato de cada una.

In [176]:
# Tu código aquí

---

Diseñe una función que reciba un DataFrame y retorne un diccionario que relacione los nombres originales de las columnas con sus equivalentes en español. Por ejemplo, `"date"` debe mapearse a `"Fecha"` y `"Appliances"` a `"Consumo energético"`.

La función debe devolver, para cada columna:
- Nombre original  
- Nombre traducido  
- Tipo de dato  
- Unidad de medida  
- Un dato de ejemplo

Por ejemplo:

```python
[
    {
        'nombre_original': 'date',
        'nombre_traducido': 'Fecha',
        'tipo_dato': 'object',
        'unidad': None,
        'ejemplo': '2016-01-11 17:00:00'
    },
    {
        'nombre_original': 'Appliances',
        'nombre_traducido': 'Consumo energético',
        'tipo_dato': 'int64',
        'unidad': 'Wh',
        'ejemplo': 60
    }
]



In [177]:
# Tu código aquí

---

Utiliza la función creada para generar una tabla resumen del dataset, donde se visualicen claramente las características principales de cada columna.

A continuación se muestra un ejemplo de cómo debería verse la tabla para las dos primeras columnas:

| Nombre original | Nombre traducido    | Tipo de dato | Unidad | Ejemplo             |
|-----------------|--------------------|--------------|--------|---------------------|
| date            | Fecha              | object       |        | 2016-01-11 17:00:00 |
| Appliances      | Consumo energético | int64        | Wh     | 60                  |

Puedes construir esta tabla en Python convirtiendo la lista de diccionarios en un DataFrame y usando `display(tabla_resumen)` para visualizarla de forma ordenada.

In [178]:
resumen = pd.DataFrame([
    {
        'Nombre original': 'date',
        'Nombre traducido': 'Fecha',
        'Tipo de Dato': 'object',
        'Unidad': None,
        'Ejemplo': '2016-01-11 17:00:00'
    },
    {
        'Nombre original': 'Appliances',
        'Nombre traducido': 'Consumo energético',
        'Tipo de Dato': 'int64',
        'Unidad': 'Wh',
        'Ejemplo': 60
    }
])

display(resumen)

Unnamed: 0,Nombre original,Nombre traducido,Tipo de Dato,Unidad,Ejemplo
0,date,Fecha,object,,2016-01-11 17:00:00
1,Appliances,Consumo energético,int64,Wh,60


---

Ahora vamos a calcular las estadísticas descriptivas del dataset. 

Para cada columna numérica, debes calcular y mostrar:
- Valor mínimo
- Valor máximo
- Media (mean)
- Desviación estándar (stdev)

Para la columna de fecha, solo reporta el valor mínimo y máximo, ya que la media y la desviación estándar no aplican.

Presenta los resultados en una tabla con el siguiente formato:

| Nombre traducido      | Unidad de medida | Valor mínimo              | Valor máximo              | Media      | Desviación estándar |
|----------------------|------------------|---------------------------|---------------------------|------------|--------------------|
| Fecha                |                  | 2016-01-11 17:00:00       | 2016-05-27 18:00:00       | -          | -                  |
| Consumo energético   | Wh               | 10                        | 1080                      | 97.7       | 108.6              |
| ...                  | ...              | ...                       | ...                       | ...        | ...                |

**Instrucciones:**  
- Utiliza la función que creaste anteriormente para obtener los nombres traducidos y las unidades de cada columna.
- Usa los métodos de pandas (`min`, `max`, `mean`, `std`) para calcular las estadísticas de cada columna. Redondea cada valor a 1 posición decimal.
- Construye la tabla como un DataFrame de pandas y muéstrala con `display`.

Esto te permitirá comparar de manera clara y ordenada las características principales de cada variable del dataset.

In [179]:
# Tu código aquí

---
## Segunda parte: Análisis gráfico

En el contexto de este estudio, la variable objetivo a predecir es **"Appliances"**, la cual representa el consumo energético total de la vivienda. El propósito fundamental será estimar este valor a partir del resto de las variables disponibles en el conjunto de datos.

Antes de abordar la construcción de modelos predictivos, resulta esencial realizar una exploración visual del comportamiento tanto de la variable objetivo como de otras variables relevantes. Este análisis gráfico permite identificar tendencias, patrones, estacionalidades y posibles anomalías presentes en los datos, facilitando así una comprensión más profunda del fenómeno estudiado.

Como primer paso, construya un gráfico que ilustre la evolución temporal de la variable **"Appliances"**. Adicionalmente, incluya en el mismo gráfico la variable **"lights"**, que indica el consumo energético asociado exclusivamente a las luces de la vivienda. Esta visualización comparativa permitirá analizar la relación y diferencias entre ambos consumos a lo largo del tiempo.

> **Nota:** Para una presentación más clara y comprensible, los gráficos deben emplear los nombres traducidos de las variables, utilizando la función definida previamente.

In [180]:
# Tu código aquí

---
El gráfico temporal anterior ofrece información valiosa, pero su escala dificulta la interpretación precisa de los patrones de consumo. Para mejorar el análisis, se recomienda visualizar los datos con una escala más adecuada y representativa.

Construya un gráfico que muestre el consumo promedio por hora durante las 24 horas del día (desde las 00:00 hasta las 23:59). El gráfico debe incluir tanto el promedio horario de "Consumo energético" (Appliances) como el de "Luces" (lights), permitiendo comparar ambos perfiles de consumo. Además, se debe presentar la variación de cada variable mostrando la banda que abarca los valores mínimos y máximos observados en cada hora.

Debido a que el consumo energético de las luces es significativamente menor que el consumo total de la vivienda, utilice dos escalas en el eje vertical: una para el consumo total y otra para el consumo de las luces.

> Nota: Si el gráfico se construyó correctamente, se podrán identificar datos relevantes, como picos de consumo elevados al inicio del año (posiblemente asociados a temperaturas bajas y al uso de calefacción), así como dos periodos sin consumo (a finales de enero y principios de abril), lo que podría indicar la ausencia de los habitantes por viajes o vacaciones.

In [181]:
# Tu código aquí

---
Continuando con el análisis gráfico, en la siguiente celda se calcularán los promedios horarios del consumo tanto de energía total (Appliances) como de la iluminación (lights) para cada día de la semana. Se espera generar una visualización continua que abarque desde el inicio del lunes (00:00) hasta el fin del domingo (23:59) de modo que se evidencie el promedio de los patrones de consumo individuales por día. 

Se debe incluir leyendas y una diferenciación clara en los estilos o colores para facilitar la comparación de ambos perfiles.

In [182]:
# Tu código aquí

---
Si el gráfico ha sido construido correctamente, debería observarse en ambos casos un comportamiento similar entre el consumo energético total de la vivienda y el consumo de las luces. 

Aunque el consumo de luces representa una fracción mínima en comparación con el resto del consumo del hogar, ambos muestran una tendencia paralela a lo largo del tiempo. Esto sugiere la posible existencia de una correlación positiva entre ambas variables, la cual puede validarse mediante el cálculo de la matriz de correlación de Pearson.

A continuación, construya una función que:

- Calcule la matriz de correlación de Pearson.

- La visualice como una imagen dentro del notebook.

In [183]:
# Tu código aquí

---
## Tercera parte: Construcción de modelos predictivos

En esta sección se construirá un modelo de regresión para predecir el consumo energético (**Consumo energético**) utilizando las variables disponibles en el dataset.

### Instrucciones

- Divide el dataset en dos conjuntos:
  - **Entrenamiento:** datos anteriores al mes de mayo.
  - **Prueba:** datos correspondientes al mes de mayo.

Construye una función que cargue el dataset desde el archivo CSV y lo divida en x,y,x,y test train


In [184]:
# Tu código aquí

---
- Entrena ambos modelos con el conjunto de entrenamiento y evalúalos con el conjunto de prueba.
- Calcula las siguientes métricas para cada modelo:
  - Error cuadrático medio (**MSE**)
  - Raíz del error cuadrático medio (**RMSE**)
  - Error absoluto medio (**MAE**)
  - Coeficiente de determinación (**R²**)
- Presenta los resultados en una tabla comparativa para ambos regresores.


In [185]:
# Tu código aquí

---
## Interpretación general de métricas en modelos de regresión

Al evaluar un modelo de regresión, se utilizan varias métricas estadísticas que permiten cuantificar su rendimiento. Cada una ofrece una perspectiva distinta sobre la precisión del modelo y la magnitud de los errores cometidos en sus predicciones. Las principales métricas son:

### 1. MSE (Error Cuadrático Medio – *Mean Squared Error*)
Mide el promedio de los errores al cuadrado entre los valores predichos y los valores reales. Al elevar al cuadrado las diferencias, penaliza con mayor severidad los errores grandes.

**Interpretación:** Cuanto más bajo sea el MSE, mejor será el desempeño del modelo. Sin embargo, su valor depende de la escala de la variable objetivo, por lo que no siempre es fácil de interpretar en términos absolutos.

**Ejemplo:**  
Si un modelo de predicción de consumo energético produce un MSE de 2500, esto significa que, en promedio, el error cuadrático entre los valores predichos y reales es 2500 unidades². Un modelo con MSE de 500 sería más preciso.

### 2. RMSE (Raíz del Error Cuadrático Medio – *Root Mean Squared Error*)
Es la raíz cuadrada del MSE. Esta métrica tiene la misma unidad que la variable objetivo, lo que facilita su interpretación práctica en el contexto del problema.

**Interpretación:** Un RMSE bajo indica que el modelo comete errores pequeños en promedio. Es sensible a errores grandes, como el MSE, pero presenta los resultados en la escala original.

**Ejemplo:**  
Si el RMSE es de 50 en un modelo que predice el precio de productos en dólares, significa que el modelo se equivoca, en promedio, por unos 50 dólares.

### 3. MAE (Error Absoluto Medio – *Mean Absolute Error*)
Calcula el promedio de las diferencias absolutas entre las predicciones y los valores reales. No eleva los errores al cuadrado, por lo que es menos sensible a los valores atípicos que el MSE y el RMSE.

**Interpretación:** Representa el error promedio esperado en cada predicción, lo cual es útil para comunicar el rendimiento del modelo en términos fácilmente comprensibles.

**Ejemplo:**  
Un MAE de 20 en un modelo que predice la temperatura diaria en °C indica que, en promedio, el modelo comete errores de ±20 grados. Si el RMSE en ese mismo modelo es mucho mayor que el MAE (por ejemplo, 50), es una señal de que existen algunos errores grandes que están distorsionando el RMSE.

### 4. R² (Coeficiente de Determinación – *R-squared*)
Indica qué proporción de la variabilidad total de la variable dependiente es explicada por el modelo. Puede tomar valores entre menos infinito y 1.

**Interpretación:**  
- R² = 1: el modelo predice perfectamente todos los valores.  
- R² = 0: el modelo no mejora respecto a una predicción basada en el promedio de los valores reales.  
- R² < 0: el modelo es peor que predecir el promedio para todos los casos.

**Ejemplo:**  
Un R² de 0.85 significa que el 85% de la varianza observada en los datos es explicada por el modelo. Un R² de 0.1, en cambio, sugiere que el modelo explica solo el 10% de la variabilidad, lo cual suele indicar un modelo pobre.

---

## Consideraciones adicionales

- No existe una métrica universalmente superior. La elección de las métricas debe depender del contexto del problema, de la naturaleza de los datos y de los objetivos del análisis.
- Para problemas donde los valores extremos son importantes (por ejemplo, en predicción de fallos o eventos raros), RMSE puede ser preferible por su sensibilidad a errores grandes.
- En contextos donde se desea una evaluación más robusta frente a valores atípicos, MAE puede ofrecer una imagen más realista del rendimiento promedio.
- Es recomendable comparar varias métricas en conjunto y usar también herramientas visuales como gráficos de dispersión entre valores reales y predichos, o análisis de residuos.



---

Visualiza gráficamente la comparación entre las predicciones del modelo de regresión lineal y los valores reales de la variable objetivo en el conjunto de prueba. 

Esta visualización te permitirá evaluar de manera intuitiva el desempeño del modelo: podrás observar si las predicciones siguen la tendencia de los valores reales, identificar posibles desviaciones y detectar patrones de error. 

Un buen modelo mostrará una alineación cercana entre ambas curvas; discrepancias notables pueden indicar áreas de mejora o la presencia de patrones no capturados por el modelo.

In [186]:
# Tu código aquí

---

Ahora aplica un proceso de normalización o estandarización a los datos antes de entrenar el modelo de regresión.

- **Normalización** suele referirse a escalar los datos para que estén en un rango específico, por ejemplo entre 0 y 1.
- **Estandarización** transforma las variables para que tengan media cero y desviación estándar uno.

Ambos enfoques ayudan a que los modelos de machine learning sean menos sensibles a la escala de las variables y puedan aprender de manera más eficiente, especialmente cuando las variables tienen diferentes unidades o rangos de valores.

**Pasos a seguir:**
1. Aplica tanto la normalización (por ejemplo, MinMaxScaler) como la estandarización (StandardScaler) a las variables predictoras del conjunto de entrenamiento y utiliza la misma transformación en el conjunto de prueba.
2. Entrena un modelo de regresión lineal con los datos normalizados y otro con los datos estandarizados.
3. Evalúa el desempeño de ambos modelos utilizando las mismas métricas (MSE, RMSE, MAE, R²) y compáralos con el modelo sin preprocesamiento.
4. Presenta los resultados en una tabla comparativa para visualizar el impacto de cada técnica de escalado.
5. Visualiza gráficamente la comparación entre las predicciones de los modelos (normalizado y estandarizado) y los valores reales, para analizar si alguna técnica mejora el ajuste o la estabilidad del modelo.


In [187]:
# Tu código aquí

---

Imprime los coeficientes beta de cada uno de los features para analizar cómo contribuye cada variable a la predicción del consumo energético.

En un modelo de regresión lineal múltiple, la predicción se expresa matemáticamente como:

$$
\hat{y} = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_p x_p
$$

donde:
- $\hat{y}$ es el valor predicho de la variable objetivo (Consumo energético).
- $\beta_0$ es el intercepto o término independiente.
- $\beta_i$ es el coeficiente asociado al feature $x_i$.
- $x_i$ representa el valor de la variable $i$-ésima.

Cada coeficiente beta ($\beta_i$) indica cuánto varía la predicción de la variable objetivo ante un cambio unitario en el feature correspondiente, manteniendo los demás constantes. Un valor positivo implica que al aumentar el feature, la predicción también aumenta; un valor negativo implica lo contrario.

Presenta los coeficientes en una tabla junto con el nombre original y traducido de cada feature, para facilitar la interpretación de la importancia y el sentido de cada variable en el modelo. Muestra los features mas importantes al inicio de la tabla y los menos importantes al final, utilizando los coeficientes de beta (normalizados) para ordenar los features de más importante a menos importante. 

In [188]:
# Tu código aquí

---

Ahora realiza una comparación entre dos enfoques de modelado:

1. Entrena un modelo de regresión lineal utilizando **todos los features** disponibles.
2. Entrena un segundo modelo utilizando únicamente los **10 features más importantes** (según el ranking obtenido previamente).

Utiliza la técnica de preprocesamiento (normalización, estandarización o valores crudos) que haya mostrado el mejor desempeño en las métricas de evaluación anteriores.

**Pasos sugeridos:**
- Selecciona los 10 features más relevantes según la importancia de los coeficientes beta o alguna métrica de selección de variables.
- Aplica el mismo preprocesamiento a ambos conjuntos de features (todos y top 10).
- Entrena y evalúa ambos modelos utilizando las métricas habituales (MSE, RMSE, MAE, R²).
- Presenta los resultados en una tabla comparativa para analizar el impacto de la reducción de dimensionalidad en el rendimiento del modelo.

Esta comparación te permitirá identificar si es posible obtener modelos más simples y eficientes sin sacrificar demasiada precisión.

In [189]:
# Tu código aquí

---
# Evaluación de conocimiento

Responde cada pregunta en el renglón inmediato, de la forma más concisa posible. No uses respuestas extensas.



1. ¿Qué variable predictora (feature) tiene el coeficiente beta más alto (positivo o negativo) en el modelo de regresión lineal? ¿Cómo interpretas su impacto en la predicción?

✍️ Respuesta aquí

2. ¿Cuál es el valor de R² obtenido por el modelo de regresión lineal con todos los features? ¿Consideras que el modelo explica bien la variabilidad de la variable objetivo?

✍️ Respuesta aquí

3. Al comparar el modelo con todos los features y el modelo con solo los 10 features más importantes, ¿cómo cambian las métricas de desempeño (MSE, RMSE, MAE, R²)? ¿Qué conclusión puedes sacar sobre la reducción de dimensionalidad?

✍️ Respuesta aquí

4. ¿Qué efecto tuvo la normalización o estandarización de los datos en el desempeño del modelo de regresión lineal? ¿Recomendarías aplicar estas técnicas en este caso?

✍️ Respuesta aquí

5. Observando la matriz de correlación de Pearson, ¿qué variable(s) muestran mayor correlación positiva y negativa con el consumo energético? ¿Por qué crees que ocurre esto?

✍️ Respuesta aquí

6. ¿Las variables aleatorias (rv1, rv2) presentan algún coeficiente significativo o correlación relevante con la variable objetivo? ¿Qué indica esto sobre la robustez del modelo?

✍️ Respuesta aquí

7. Analizando los residuos (errores) del modelo de regresión lineal, ¿se observan patrones sistemáticos o aleatorios? ¿Qué implicaciones tiene esto para la validez del modelo?

✍️ Respuesta aquí

8. ¿Cuál de las variables predictoras tiene mayor peso (coeficiente) en el modelo entrenado? ¿Cómo interpretas ese peso?

✍️ Respuesta aquí

9. Si tuvieras que seleccionar solo 3 features para un modelo simple, ¿cuáles elegirías y por qué? Justifica tu selección en base a los resultados obtenidos.

✍️ Respuesta aquí

10. A partir de las métricas obtenidas, ¿consideras que el modelo de regresión lineal es adecuado para predecir el consumo energético (Appliances)? ¿Por qué?

✍️ Respuesta aquí

---

# Rúbrica de Evaluación – Asignación Semana 2

**Total: 100 puntos**


## 1. Carga y exploración inicial del dataset (15 puntos)
- Carga correcta del dataset y visualización de tipos de datos (**3 puntos**)
- Implementación de la función de traducción y tabla resumen completa (**6 puntos**)
- Tabla de estadísticas descriptivas bien construida y clara (**6 puntos**)


## 2. Análisis gráfico y exploratorio (15 puntos)
- Gráfico temporal de consumo energético y luces, con nombres traducidos y ejes claros (**4 puntos**)
- Gráfico de consumo promedio por hora con bandas de variación y doble eje (**4 puntos**)
- Gráfico de consumo promedio continuo por día de la semana, con leyendas y diferenciación visual (**7 puntos**)


## 3. Correlación y análisis de relaciones (15 puntos)
- Cálculo correcto de la matriz de correlación de Pearson (**5 puntos**)
- Visualización clara y legible de la matriz de correlación (**10 puntos**)


## 4. Modelado predictivo y evaluación (35 puntos)
- División correcta del dataset en entrenamiento y prueba según la fecha (**5 puntos**)
- Entrenamiento y evaluación de modelos de regresión lineal (**8 puntos**)
- Cálculo y presentación de métricas (MSE, RMSE, MAE, R²) en tablas comparativas (**6 puntos**)
- Visualización de predicciones vs valores reales en el conjunto de prueba (**4 puntos**)
- Implementación y comparación de normalización/estandarización en el desempeño del modelo (**4 puntos**)
- Análisis y visualización de los coeficientes beta (**4 puntos**)
- Comparación de desempeño entre todos los features y top 10 features, con tabla y análisis (**4 puntos**)


## 5. Evaluación de conocimiento (20 puntos)
- Respuestas a 10 preguntas basadas en los resultados del notebook (**2 puntos cada una**, total **20 puntos**)
