## En este notebook se levanta la información del clima de la API de AEMET.

Vamos a necesitar esta información para el TFM, para poder cruzar la relación entre el clima y el uso de las bicicletas. La idea además de guardar estos datos en memoria, es volcarlos a la Base de datos armada con este fin


In [None]:
import requests
import time
from datetime import date, datetime, timedelta
import pandas as pd
import numpy as np
api_key = 'eyJhbGciOiJIUzI1NiJ9.eyJzdWIiOiJnYXN0b25sZWduYW5pQGdtYWlsLmNvbSIsImp0aSI6ImIyZDhmNDE2LTE3MDItNDM2YS1hODlkLTQ2NTVjMDA3YmUxNiIsImlzcyI6IkFFTUVUIiwiaWF0IjoxNTQ0ODI1NjA1LCJ1c2VySWQiOiJiMmQ4ZjQxNi0xNzAyLTQzNmEtYTg5ZC00NjU1YzAwN2JlMTYiLCJyb2xlIjoiIn0.ASVNRgmmUnZruDkbSHFYtagQNC4qW5N2WqgLtqzTvEM'
url = 'https://opendata.aemet.es/opendata/api/valores/climatologicos/diarios/datos/fechaini/{0}/fechafin/{1}/estacion/{2}/'
params = {'api_key': api_key}
station = 3195 #Estacion de Retiro (la que vamos a utilizar)

In [None]:
def cast_number(number):
    try:
        if number:
            number = number.replace(',','.')
            return float(number)
    except:
        return None
    

def cast_date(date):
    return datetime.strptime(date, '%Y-%m-%d')

def cast_time(time):
    try:
        return datetime.strptime(time, '%H:%M').time()
    except:
        return datetime.strptime('00:00', '%H:%M').time()

def get_properties(dict_weather_day):
    #extraccion de propiedades
    date = cast_date(dict_weather_day['fecha'])
    print('Analizando datos fecha: ' + dict_weather_day['fecha'])
    try:  
        temp_med = cast_number(dict_weather_day['tmed'])
    except: 
        temp_med = 0
    try:
        precipitation = cast_number(dict_weather_day['prec'])
    except:
        precipitation = 0
    try:
        temp_min = cast_number(dict_weather_day['tmin'])
    except:
        temp_min = 0
    try:
        temp_max = cast_number(dict_weather_day['tmax'])
    except:
        temp_max = 0
    try:
        wind_speed = cast_number(dict_weather_day['velmedia'])
    except:
        wind_speed = 0
    try:
        wind_speed_max = cast_number(dict_weather_day['racha'])
    except:
        wind_speed_max = 0
    try:
        hour_temp_min = cast_time(dict_weather_day['horatmin'])
    except:
        hour_temp_min = 0
    try:
        hour_temp_max = cast_time(dict_weather_day['horatmax'])
    except:
        hour_temp_max = 0
      
    properties = {
            'date': date, 
            'temp_media': temp_med, 
            'precipitation': precipitation, 
            'temp_min': temp_min, 
            'temp_max': temp_max, 
            'wind_speed': wind_speed,
            'wind_speed_max': wind_speed_max,
            'hour_temp_min': hour_temp_min,
            'hour_temp_max': hour_temp_max
        }
    
    return properties

## Opciones para obtener la información del clima

Para probar los datos hay dos opciones que se describen a continuación.

### Opción 1

A continuación está la función que ejecuta la api del clima sobre un período de fechas establecidos y la almacena en un dataframe. Este código ya fue ejecutado para todo 2015,2016,2017, 2018 y lo que va del 2019. Pero obviamente tarda un poco. Se puede probar cambiando el periodo que se quiere analizar en las variables **min_date_to_check** y **max_date_to_check** y probar con esos datos.

### Opción 2

Se puede acceder a los datos obtenidos a través de la opción 1 desde un archivo .csv que se encuentra en la carpeta dat y se llama **all_weather_data.csv** que ya existe y contiene toda la información desde el 2015 a la fecha.

La idea de descargar esos datos es para poder cruzarlo con otra información en otro notebook y además para nosotros poder guardarlos en BD para el TFM más adelante.

# Opción 1

Itera sobre la API y descarga la información en un .csv

In [None]:
results_per_day = []

In [None]:
min_date_to_check = datetime(2015,1,1)
max_date_to_check = datetime(2019,2,4)
day_count = (max_date_to_check - min_date_to_check).days + 1

#Por cada fecha entre el maximo y el minimo hago la llamada a la API
for single_date in (min_date_to_check + timedelta(n) for n in range(day_count)):
    
    time.sleep(4) #Es necesario para que no empiece a dar problemas de "Too many requests" si se buscan muchos datos.
    
    single_date_formatted = datetime.strftime(single_date, '%Y-%m-%d' + 'T00:00:00UTC')
    response = requests.get(url.format(single_date_formatted, single_date_formatted, str(station)), params=params)
    
    if response.status_code == 200:
        data_url = response.json()['datos']
        #invoco a url de datos
        response_data = requests.get(data_url)
        response_data_json = response_data.json()
        results_per_day.append(get_properties(response_data_json[0]))
    else:
        print('Código de respuesta erróneo para la fecha: {0}, código: {1} '
              .format(single_date_formatted, str(response.status_code)))

In [None]:
weather_data = pd.DataFrame(results_per_day)
weather_data.to_csv('../dat/weather_data.csv') #Cambiar nombre

In [None]:
weather_data

**Guardo en BD para TFM**

In [None]:
import math
def remove_Nan(element):
    if math.isnan(element):
        return 0
    else:
        return element

from psycopg2 import sql
#conn = pg.connect("postgres://xsedded:LosTidsdfos114@postgre-sqltest.cpdeokpzufj1.us-west-2.rds.amazonaws.com:5432/postgres")
weather_data_bd = pd.read_csv('../dat/all_weather_data.csv', sep = ',', index_col = 0)
weather_data_bd['date'] = weather_data_bd.date.apply(cast_date)
weather_data_bd['precipitation'] = weather_data_bd.precipitation.apply(remove_Nan)

cur = conn.cursor()
for index, row in weather_data_bd.iterrows():
    insert_query = "insert into weather_conditions(date, hour_temp_max, hour_temp_min, precipitation, temp_max, temp_media, temp_min, wind_speed, wind_speed_max) VALUES ('{0}', '{1}', '{2}', {3}, {4}, {5}, {6}, {7}, {8})".format(row.date, row.hour_temp_max, row.hour_temp_min, row.precipitation,  row.temp_max, row.temp_media, row.temp_min, row.wind_speed, row.wind_speed_max)
    cur.execute(insert_query)
conn.commit()
conn.close()

# Opción 2

Levanta la información utilizando el csv donde ya se descargó toda la información para esos años. Si se quiere utilizar el archivo que contiene la info desde el 2015 hasta la fecha usar **all_weather_data.csv**. De lo contrario utilizar el archivo que generó en la opción 1

In [None]:
weather_data = pd.read_csv('../dat/all_weather_data.csv', sep = ',', index_col = 0)
weather_data.head()

### Agrego columnas de interés para utilizar luego en la visualización

In [None]:
weather_data_copy = weather_data.copy()
def get_season(row):
    date = row.date
    if date >= datetime(date.year, 3, 21) and date <= datetime(date.year, 6, 20):
        return 'Primavera'
    elif date >= datetime(date.year, 6, 21) and date <= datetime(date.year, 9 , 20):
        return 'Verano'
    elif date >= datetime(date.year, 9, 21) and date <= datetime(date.year, 12 , 20):
        return 'Otoño'
    else:
        return 'Invierno'

weather_data_copy['date'] = weather_data_copy.date.apply(cast_date)
weather_data_copy['year'] = weather_data_copy.apply(lambda fila: fila.date.year, axis = 1)
weather_data_copy['month'] = weather_data_copy.apply(lambda fila: fila.date.month, axis = 1)
weather_data_copy['season'] = weather_data_copy.apply(get_season, axis = 1)
weather_data_copy.head()

In [None]:
#Día que mas llovió desdel el 2015?
weather_data_copy[weather_data_copy.precipitation == weather_data_copy.precipitation.max()]

In [None]:
#Día mas frio y caluroso desde el 2015?
weather_data_copy[(weather_data_copy.temp_min == weather_data_copy.temp_min.min()) 
                  | (weather_data_copy.temp_max == weather_data_copy.temp_max.max())]

In [None]:
#Día con la racha de viento más grande?
weather_data_copy[weather_data_copy.wind_speed_max == weather_data_copy.wind_speed_max.max()]

## Visualización datos relacionados al clima

En otro notebook se va a cruzar la información del clima con los usos de las bicicletas.

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

from matplotlib import rcParams
rcParams['figure.figsize'] = 14, 10
sns.set_context('paper', font_scale=1.5, rc={"lines.linewidth": 2.5})
sns.despine()
sns.set_style("dark")



In [None]:
#distribución de la temperatura media 2018
tmp = weather_data_copy[weather_data_copy.year == 2018]
out = sns.distplot(tmp.temp_media)
plt.xlabel('Temperatura media')
plt.title('Distribución Temperatura media - 2018')

In [None]:
tmp = weather_data_copy[(weather_data_copy.year == 2018) & (weather_data_copy.precipitation > 0)]
out = sns.scatterplot(x='precipitation', y='temp_media', data=tmp)
plt.xlabel('Precipitaciones (mm)')
plt.ylabel('Temperatura media')
plt.title('Relación precipitaciones / Temperatura media')

In [None]:
#¿En qué estacion ha llovido mas estos años? en total de mm
tmp = weather_data_copy[weather_data_copy.precipitation > 0]
plt.xlabel('Estación')
plt.ylabel('Cantidad de precipitaciones (mm)')
plt.title('Lluvias por estación últimos 2015 - 2019')
plt.ylim(0,300) 
out = sns.barplot(x='season', y ='precipitation' , data=tmp, estimator = sum, hue='year', palette="Set1")


In [None]:
tmp = weather_data_copy
sns.set_style("whitegrid")
plt.xlabel('Mes')
plt.ylabel('Temperatura media')
plt.title('Distribución historica 2015-2019 temperatura media por mes')
sns.violinplot(x="month", y="temp_media", data=tmp);

In [None]:
#Cuando varia mas la temperatura en promedio

tmp['variacion_temperatura']  = tmp['temp_max'] - tmp['temp_min']
out = sns.barplot(x='month', y ='variacion_temperatura' , data=tmp, estimator = np.mean, palette="Set1")
plt.xlabel('Mes')
plt.ylabel('Variación temperatura')
plt.title('Variación entre temperatura maxima y minima en promedio mes a mes')

In [None]:
g = sns.FacetGrid(tmp, row="month")
g.map(plt.hist, "temp_media")
g