In [6]:
# Definición de la funcion que recupera la información meteorológica de las estaciones de observación 
# existentes entre dos periodos de tiempo datos de la BBDD de Temperaturas Mundiales

# El resultado aparecerá agrupado por continente

import sqlite3
import pandas as pd
from pandas import DataFrame, Series
import time

def ejecucion_continentes(bbdd_file,continents,init_year,ending_year,outputfile_data,outputfile_stations):
    # Abrimos la conexión con la BBDD
    conn = sqlite3.connect(bbdd_file)
    cursor = conn.cursor()

    # Vamos a intentar automatizar el análisis anterior, es decir, considerar los datos a partir de cierto año y a 
    # continuacion filtrar por aquellas estaciones que tienen observaciones por año inferior a 364 dias
    df_total = DataFrame()
    df_estaciones = DataFrame()

    for cont in continents:
        print("Inicio continente: " + cont + " a las " + str(time.strftime("%H:%M:%S")))
        
        # Se recuperan todas las estaciones del continentes que existían previamente a 1900 y existen en 2016
        rows = cursor.execute("""select distinct station 
                                 from world_time_"""+cont+"""
                                 where date = '"""+str(init_year)+"0101';")

        station_list_init = []
        for r in rows:
            station_list_init.append(r[0])
            
        print ("   Numero estaciones en el año inicial: " + str(len(station_list_init)))

        if len(station_list_init) > 0:
            rows = cursor.execute("""select distinct station 
                                     from world_time_"""+cont+"""
                                     where date = '"""+str(ending_year)+"1231';")        
            station_list_ending = []
            for r in rows:
                station_list_ending.append({"station":r[0]})
                
            print ("   Numero estaciones en el año final: " + str(len(station_list_ending)))
                        
            station_list_ending = DataFrame(station_list_ending)
            station_list_ending = DataFrame(station_list_ending[station_list_ending.station.map(lambda x: x in station_list_init)])
            station_list_ending = station_list_ending.reset_index()[["station"]]
            print ("   Numero estaciones comunes: " + str(len(station_list_ending)))

            # Se itera de 100 en 100 estaciones
            df = DataFrame()
            station_list_ending = station_list_ending.station
            while(len(station_list_ending) > 0):
                if len(station_list_ending) > 100:
                    new = station_list_ending[:100]
                    station_list_ending = station_list_ending[100:]
                else:
                    new = station_list_ending
                    station_list_ending = []
                
                stats = ""
                for s in new:
                    if stats != "":
                        stats = stats + ","
                    stats = stats + "'" + s + "'" 
                                
                # De todas las estaciones anteriores, se recupera el número de observaciones no nulas por año
                rows = cursor.execute("""select date, substr(date,1,4) as year, station, tmax, tmin, 1 as n_records
                                         from world_time_"""+cont+"""
                                         where station in (""" + stats + """) and 
                                         date >= '""" + str(init_year) + """0101';""")

                data = DataFrame()
                result = rows.fetchmany(400000)
                while len(result) > 0:
                    data = data.append(DataFrame(result))
                    result = rows.fetchmany(400000)                
                    
                print("   Numero de registros recuperados de las estaciones: " + str(len(data)))
                
                if len(data) > 0:
                    data.columns = ["date","year","station","tmax","tmin","n_records"]                
                    data = data.dropna()
                    data = data[data.tmin > -60.0]
                    data = data[data.tmax < 60.0]
                    data = data[data.year.map(lambda x: int(x) >= init_year)]
                    data = data[data.year.map(lambda x: int(x) <= ending_year)]
                    data_year = data[["year","station","n_records"]].groupby(["year","station"]).sum()
                    data_year = data_year.reset_index()
                                
                    # Nos quedamos con aquellas estaciones que tienen menos de 360 observaciones por año
                    less_360_obs = data_year[data_year.n_records < 360][["station"]].drop_duplicates().station
                                
                    # Eliminamos las estaciones con menos de 360 observaciones del dataframe de datos
                    if len(less_360_obs) > 0:
                        data = data[data.station.map(lambda x: x not in less_360_obs.as_matrix())]
                        data_year = data_year[data_year.station.map(lambda x: x not in less_360_obs.as_matrix())]
                    
                    print("   Numero de estaciones: " + str(len(data.station.drop_duplicates())))
                
                    less_360_obs = []
                    with_gaps = []
                    
                    # Se buscan las estaciones que tienen al menos un año sin información
                    for s in data_year[["station"]].drop_duplicates().station:
                        sub_data_year = data_year[data_year.station == s]
                        prev_year = init_year-1
                        ind_gap = 0
                        for y in sub_data_year[["year"]].year:
                            if int(y) - prev_year > 1 and ind_gap == 0:
                                ind_gap = ind_gap + 1
                                with_gaps.append(s)
                                
                            prev_year = int(y)

                        if ending_year - int(y) != 0 and ind_gap == 0:
                            with_gaps.append(s)
                        
                    # Se eliminan todas las estaciones con gaps
                    if len(with_gaps) > 0:
                        data = data[data.station.map(lambda x: x not in with_gaps)]
                
                    print("   Numero de estaciones: " + str(len(data.station.drop_duplicates())))
                
                    with_gaps = []
                    sub_data_year = DataFrame()
                    data_year = DataFrame()                
                    df = df.append(data)
                    sub_data = DataFrame()
                    
                    
                # En este momento se dispone de todos los datos esperados, se calculan los indicadores deseados
                estadisticas = {"tmax":{"max_tmax":"max","min_tmax":"min","tmax":"median","std_tmax":"std"},
                                "tmin":{"max_tmin":"max","min_tmin":"min","tmin":"median","std_tmin":"std"}}
                
                df.to_csv("../Datos/Resultados/Datos_estaciones_" + cont + "_" + str(init_year) +".csv")
                df_agg = df[["year","tmax","tmin"]].groupby("year").agg(estadisticas)
                df_agg.columns = df_agg.columns.droplevel()
                df_agg["continent"] = cont
                df_agg["period"] = str(init_year)+"-"+str(ending_year)
                df_total = df_total.append(df_agg)
                
                df_agg = df[["station"]].drop_duplicates()
                df_agg["continent"] = cont
                df_agg["period"] = str(init_year)+"-"+str(ending_year)
                df_estaciones = df_estaciones.append(df_agg)
                
    df_total.to_csv(outputfile_data)
    df_estaciones.to_csv(outputfile_stations)

    conn.close()


In [2]:
ejecucion_continentes("D:/master/Master-in-Data-Science/Proyecto/Datos/worldTimeSeries.sqlite",
                      ["europa","oceania","north_america","africa","asia","central_america","south_america","antarctica"],
                      1900,
                      2015,
                      "../Datos/Resultados/Resultado_calentamiento_1900_2015.csv",
                      "../Datos/Resultados/Resultado_calentamiento_1900_2015_estaciones.csv"                     
                     )

Inicio continente: europa a las 22:14:41
   Numero estaciones en el año inicial: 142
   Numero estaciones en el año final: 1416
   Numero estaciones comunes: 90
   Numero de registros recuperados de las estaciones: 2309606
   Numero de estaciones: 11
   Numero de estaciones: 4
Inicio continente: oceania a las 22:20:57
   Numero estaciones en el año inicial: 1742
   Numero estaciones en el año final: 2248
   Numero estaciones comunes: 1003
   Numero de registros recuperados de las estaciones: 924639
   Numero de estaciones: 1
   Numero de estaciones: 1
   Numero de registros recuperados de las estaciones: 1093200
   Numero de estaciones: 1
   Numero de estaciones: 0
   Numero de registros recuperados de las estaciones: 911830
   Numero de estaciones: 0
   Numero de estaciones: 0
   Numero de registros recuperados de las estaciones: 773223
   Numero de estaciones: 1
   Numero de estaciones: 1
   Numero de registros recuperados de las estaciones: 618516
   Numero de estaciones: 2
   Numer

In [4]:
ejecucion_continentes("D:/master/Master-in-Data-Science/Proyecto/Datos/worldTimeSeries.sqlite",
                      ["europa","oceania","north_america","africa","asia","central_america","south_america","antarctica"],
                      1950,
                      2015,
                      "../Datos/Resultados/Resultado_calentamiento_1950_2015.csv",
                      "../Datos/Resultados/Resultado_calentamiento_1950_2015_estaciones.csv"                     
                     )

Inicio continente: europa a las 00:58:18
   Numero estaciones en el año inicial: 530
   Numero estaciones en el año final: 1416
   Numero estaciones comunes: 325
   Numero de registros recuperados de las estaciones: 2081392
   Numero de estaciones: 22
   Numero de estaciones: 21
   Numero de registros recuperados de las estaciones: 1278027
   Numero de estaciones: 16
   Numero de estaciones: 9
   Numero de registros recuperados de las estaciones: 1937787
   Numero de estaciones: 18
   Numero de estaciones: 10
   Numero de registros recuperados de las estaciones: 285064
   Numero de estaciones: 0
   Numero de estaciones: 0
Inicio continente: oceania a las 01:15:40
   Numero estaciones en el año inicial: 2572
   Numero estaciones en el año final: 2248
   Numero estaciones comunes: 1557
   Numero de registros recuperados de las estaciones: 671829
   Numero de estaciones: 2
   Numero de estaciones: 1
   Numero de registros recuperados de las estaciones: 861865
   Numero de estaciones: 3
  

In [7]:
ejecucion_continentes("D:/master/Master-in-Data-Science/Proyecto/Datos/worldTimeSeries.sqlite",
                      ["europa","oceania","north_america","africa","asia","central_america","south_america","antarctica"],
                      1970,
                      2015,
                      "../Datos/Resultados/Resultado_calentamiento_1970_2015.csv",
                      "../Datos/Resultados/Resultado_calentamiento_1970_2015_estaciones.csv"                     
                     )

Inicio continente: europa a las 09:11:04
   Numero estaciones en el año inicial: 1515
   Numero estaciones en el año final: 1416
   Numero estaciones comunes: 1055
   Numero de registros recuperados de las estaciones: 1149877
   Numero de estaciones: 26
   Numero de estaciones: 22
   Numero de registros recuperados de las estaciones: 1206078
   Numero de estaciones: 22
   Numero de estaciones: 19
   Numero de registros recuperados de las estaciones: 1423204
   Numero de estaciones: 32
   Numero de estaciones: 32
   Numero de registros recuperados de las estaciones: 383835
   Numero de estaciones: 3
   Numero de estaciones: 3
   Numero de registros recuperados de las estaciones: 154235
   Numero de estaciones: 8
   Numero de estaciones: 8
   Numero de registros recuperados de las estaciones: 0
   Numero de registros recuperados de las estaciones: 969410
   Numero de estaciones: 27
   Numero de estaciones: 26
   Numero de registros recuperados de las estaciones: 1581940
   Numero de esta