# Visualización de Datos en Python

#### Objetivos
El objetivo de esta asignación es trabajar con el procesamiento y la visualización de datos en Python.

#### Instrucciones
Para esta asignación, trabajarás en Python. Puedes optar por realizarla en un entorno hospedado (por ejemplo Colab) o en tu propia instalación local de Jupyter y Python. Se recomienda usar Python 3.12, aunque otras versiones recientes también deberían funcionar. Para usar Tiger, utiliza las credenciales que recibiste. Si decides trabajar localmente, Anaconda o Miniforge son las formas más sencillas de instalar y gestionar Python. Si trabajas localmente, es posible que debas instalar algunos paquetes además de los que ya se usaron en asignaciones anteriores: `matplotlib` y `altair`. Utiliza la aplicación Navigator o la línea de comandos para instalar los paquetes con el siguiente comando:

```bash
conda install matplotlib altair
```

En esta asignación, trabajaremos con datos y su visualización. Utilizaremos nuevamente el conjunto de datos *Utility Energy Registry*, pero en lugar de resúmenes textuales, crearemos tablas y visualizaciones para obtener una mejor comprensión de los datos. Los datos ya han sido preprocesados y están disponibles como un archivo CSV comprimido en la siguiente URL: [ny-county-energy.csv.gz](https://github.com/JuanFranco-hub/Python-Tutorial-for-ML/tree/main/Datos/ny-county-energy.csv.gz). **No necesitas descargar ni descomprimir el archivo**, ya que `pandas` puede cargarlo directamente desde la URL como un archivo CSV. Este conjunto de datos contiene los siguientes campos:

- **county_name**: Nombre del condado
- **year**: Año en que se recopilaron los datos
- **month**: Mes en que se recopilaron los datos
- **data_class**: Clase de datos (electricidad o gas natural)
- **data_field**: Etiqueta del campo medido
- **data_field_display_name**: Nombre del campo medido en formato legible para humanos (por ejemplo, "Total Consumption (T)")
- **unit**: Unidad de medida (MWh, Therms)
- **value**: Valor de la medición

### Parte 0. Nombre y Cedula (5 puntos)
La primera celda de tu notebook debe ser una celda de Markdown con una línea para tu nombre y una línea para tu Cedula. Si deseas agregar otra información (el nombre de la asignación, una descripción de la asignación), puedes hacerlo después de esas dos líneas.

### Parte 1. Máximo Uso de Gas Natural (25 puntos)
Primero, utilizaremos `pandas` para calcular estadísticas y encontrar los condados de Nueva York con mayor uso de gas natural.


- **1.a. Máximo uso total por condado en un mes (10 puntos)**  
  Carga el conjunto de datos. Calcula el condado y el año+mes que tuvieron el mayor uso de gas natural (el campo "Total Consumption (T)" y el campo `data_field` es "6_nat_consumption"). En tu notebook, aclara qué condado, año y mes tuvieron el mayor uso de gas natural.

  **Pistas**:  
  - Puedes usar `pandas` para cargar los datos directamente desde la URL sin descargarlo.
  - Puedes filtrar los datos por dos criterios usando el operador `&`, pero recuerda usar paréntesis.
  - Ordenar puede funcionar mejor que una función estadística como `max`.

- **1.b. Condado con mayor uso por cuenta en el conjunto de datos (15 puntos)**  
  A continuación, calcula el condado que utilizó más gas natural por cuenta. Nuevamente, utilizamos la categoría "Total Consumption (T)" ("6_nat_consumption"), pero necesitamos sumar tanto el uso como el número de cuentas en todos los meses. Luego, necesitamos calcular una columna derivada dividiendo el uso por el número de cuentas. Hazlo todo sin bucles. El resultado será un condado diferente al de la parte a. Asegúrate de señalar la respuesta en tu notebook.

  **Pistas**:  
  - Necesitarás usar `groupby` y una operación de agregación para calcular los totales.
  - Puedes asignar a una nueva columna como lo harías en un diccionario, o considerar usar el método `assign`.

### Parte 2. Uso total de electricidad y gas natural a lo largo del tiempo
A continuación, utilizaremos la visualización para examinar las tendencias en el uso total de electricidad y gas natural a lo largo del tiempo. Utilizaremos `matplotlib` (a través de `pandas`) para esto.

- **2.a. Gráficos de barras (15 puntos)**  
  Usando `matplotlib` directamente o a través de las rutinas de gráficos de `pandas`, crea una visualización con dos subgráficos: uno para electricidad y otro para gas natural. Cada gráfico debe mostrar un gráfico de barras del uso promedio del estado (durante todos los años) para cada mes de la clase de energía correspondiente. Puedes extraer solo el consumo total consultando el campo `data_field_display_name` para "Total Consumption (T)". (Los campos individuales de `data_field` son "3_nat_consumption" (electricidad) y "6_nat_consumption" (gas natural)). Si deseas que `pandas` grafique esto automáticamente, usa la opción `subplots=True`, pero primero deberás asegurarte de que tus datos tengan el formato correcto. Específicamente, las filas deben ser los meses y las columnas deben ser el tipo de energía (electricidad y gas natural). Asegúrate de que los gráficos tengan un título según el tipo de energía.

  **Pistas**:  
  - Aquí también funcionará un `groupby` y una agregación, pero las columnas que se utilizarán para agrupar serán diferentes de la Parte

1.b.
  - `unstack` puede ser útil si configuras tus datos correctamente. Nota que `unstack` puede tomar un parámetro que indica el nivel del índice.
  - Apaga la leyenda, ya que no es necesaria.

- **2.b. Gráficos de líneas (15 puntos)**  
  Nuevamente, usando `matplotlib` directamente o a través de `pandas`, crea una visualización con dos subgráficos para electricidad y gas natural, pero esta vez mostrando el total por mes como gráficos de líneas. Aquí necesitamos manipular los datos primero para obtener fechas significativas. Puedes usar el método `to_datetime` de `pandas` para lograr esto, pero deberás pasarle un `dataframe` que tenga las columnas `year`, `month` y `day`, o una serie de valores en formato de cadena que parezcan fechas (por ejemplo, '2023-01'). Luego, pasos de agregación similares a los de la Parte 2.a funcionarán. Asegúrate nuevamente de que los gráficos tengan un título según el tipo de energía.

  **Pistas**:  
  - El parámetro `title` es útil para etiquetar subgráficos en `pandas`.
  - Usando `pandas`, puedes lograr este gráfico en muy pocas líneas de código, pero puede requerir tiempo y experimentación encontrar el conjunto correcto de llamadas.

#### Parte 3. Condados por mes
Dado que hay patrones interesantes entre el uso de electricidad y gas natural en las diferentes estaciones, estamos interesados en ver cómo esto se manifiesta en diferentes condados mes a mes. Usaremos `altair` para explorar esto.

- **3.a. Gráficos de dispersión mensuales (15 puntos)**  
  Usando `altair`, crea un conjunto de doce gráficos de dispersión para 2023 que muestren el uso de electricidad frente al uso de gas natural. Usa las capacidades de facetas de `altair` para dibujar un gráfico de dispersión para cada mes. Agrega una herramienta emergente (tooltip) que muestre el nombre del condado al pasar el mouse sobre un punto. Dibuja los gráficos de dispersión en una cuadrícula de 4x3.

  **Pistas**:  
  - `facet` tiene una opción para el número de columnas a usar.
  - Una de las codificaciones de `altair` es el `tooltip`.


- **3.b. Gráfico de dispersión con selección (15 puntos)**  
  Ahora, agrega una funcionalidad de selección a los doce gráficos de dispersión de manera que seleccionar un punto correspondiente a un condado en uno de los gráficos resalte ese mismo condado en todos los otros meses. Muestra este resaltado cambiando tanto el color como el tamaño del punto.

  **Pistas**:  
  - Consulta la documentación de `altair` sobre selecciones.
  - Asegúrate de que la selección se resuelva según los campos correctos.
  - Tanto el color como el tamaño se pueden configurar utilizando una condición.