# Practica de Visualización

Un dataset de NOAA está almacenado en el archivo `data/fb441e62df2d58994928907a91895ec62c2c42e6cd075c2700843b89.csv`. Este es el dataset que utilizaremos para la práctica.

Nota: Los datos para esta práctica forman parte de un dataset perteneciente a The data for this assignment comes from a subset of The National Centers for Environmental Information (NCEI) [Daily Global Historical Climatology Network](https://www1.ncdc.noaa.gov/pub/data/ghcn/daily/readme.txt) (GHCN-Daily). El GHCN-Daily se compone de registros climáticos diarios de miles de estaciones de la superficie terrestre en todo el mundo.

Cada fila en el archivo de datos corresponde a una sola observación.

Nos proporciona las siguientes variables:

- **id** : código de identificación de la estación
- **date** : fecha en formato YYYY-MM-DD (por ejemplo: 2012-01-24 = 24 de enero de 2012)
- **element** : indica el tipo de medición
    - **TMAX** : Temperatura máxima
    - **TMIN** : Temperatura mínima
- **value**: valor de la temperatura (en décimas de grados centígrados)

## Indicaciones

1. Lee la documentación y familiarícese con el conjunto de datos, luego escriba un código python que arroje un gráfico lineal de las temperaturas máximas y mínimas récord por día del año durante el período 2005-2014. El área entre las temperaturas máximas y mínimas récord de cada día debe estar sombreada.
2. Superponga una dispersión de los datos de 2015 para cualquier punto (máximos y mínimos) para los cuales se superó el récord de diez años (2005-2014) máximo o mínimo histórico en 2015.
3. Debes tener cuidado con los días bisiestos (es decir, el 29 de febrero), es totalmente razonable eliminar estos puntos del conjunto de datos para esta visualización.
4. ¡Haz que la imagen sea agradable! Considera problemas como leyendas, etiquetas y líneas en demasía.

Los datos proporcionados están cerca de **Ann Arbor, Michigan, Estados Unidos**.

In [5]:
import pandas as pd
import matplotlib.pyplot as plt

df= pd.read_csv("../data/fb441e62df2d58994928907a91895ec62c2c42e6cd075c2700843b89.csv")
# Mostrar para verificar que se cargó bien
df.head()

Unnamed: 0,ID,Date,Element,Data_Value
0,USW00094889,2014-11-12,TMAX,22
1,USC00208972,2009-04-29,TMIN,56
2,USC00200032,2008-05-26,TMAX,278
3,USC00205563,2005-11-11,TMAX,139
4,USC00200230,2014-02-27,TMAX,-106


#objetivo: Eliminar 29 de febrero (día bisiesto)


In [12]:
df = df[~df['Date'].str.endswith('02-29')]

#corroborar que haya quedado correctamente eliminado
df[df['Date'].str.endswith('02-29')]


array(['2005-01-01', '2005-01-02', '2005-01-03', '2005-01-04',
       '2005-01-05', '2005-01-06', '2005-01-07', '2005-01-08',
       '2005-01-09', '2005-01-10'], dtype=object)

In [16]:
# convertimos Date a tipo datetime
df['Date'] = pd.to_datetime(df['Date'])

In [17]:
# creamos una columna solo con mes y día, sin año
df['Month-Day'] = df['Date'].dt.strftime('%m-%d')

In [18]:
# Convertir los valores de décimas a grados celsius
df['Data_Value'] = df['Data_Value'] / 10

# Separar máximas y mínimas
tmax = df[df['Element'] == 'TMAX']
tmin = df[df['Element'] == 'TMIN']


In [21]:
# Agrupar por 'Month-Day' y tomar el récord (max y min)
tmax_grouped = tmax.groupby('Month-Day')['Data_Value'].max()
tmin_grouped = tmin.groupby('Month-Day')['Data_Value'].min()
