# [o3]- Proyecto Ozono - Predictor_v0

# [0] - Inicialización

In [1]:
import findspark
findspark.init('/home/rulicering/BigData/spark-2.4.5-bin-hadoop2.7')
from pyspark.sql import SparkSession
from pyspark.sql import functions as F
from pyspark.sql.window import Window
import pandas as pd
from pyspark.sql.types import StructField,StringType,IntegerType,StructType,FloatType
import re as reg
import numpy as np
import datetime

#MlLib
from pyspark.ml.regression import LinearRegression

#Aux
from pyspark.ml.linalg import Vectors
from pyspark.ml.feature import VectorAssembler

In [2]:
spark = SparkSession.builder.appName('predictor').getOrCreate()

# [1] Datos

## [1.0] - Carga de ficheros (Datos, Predicción clima,  Calendario)

In [3]:
df_datos = spark.read.csv('/home/rulicering/Datos_Proyecto_Ozono/Procesado/Dato_Final/Datos.csv',inferSchema= True,header=True)
df_clima_prediccion = spark.read.csv('/home/rulicering/Datos_Proyecto_Ozono/Procesado/Clima/Clima_Prediccion-hoy.csv',inferSchema= True,header=True)
df_calendario = spark.read.csv('/home/rulicering/Datos_Proyecto_Ozono/Procesado/Calendario/Calendario_2013-2020.csv',inferSchema= True,header=True)

In [4]:
df_datos = df_datos.drop("_c0")
df_clima_prediccion = df_clima_prediccion.drop("_c0")
df_calendario = df_calendario.drop("_c0")

In [5]:
magnitudes= df_datos.columns[8:]
magnitudes_clima = df_datos.columns[-5:]
magnitudes_aire = df_datos.columns[8:-5]

In [6]:
dic_clima = { "VIENTO":"81",
                 "DIRECCION": "82",
                 "TEMPERATURA": "83",
                 "PRESION": "87",
                 "LLUVIA":"89"
}

## [1.1] - Datos para prediccion - Prediccion clima + Calendario + Estaciones

In [7]:
ayer = (datetime.date.today() + datetime.timedelta(days = -1)).strftime("%Y%m%d")
hoy = datetime.date.today().strftime("%Y%m%d")

In [8]:
df_estaciones_aire = df_datos.filter(df_datos["FECHA"]== ayer).select("CODIGO_CORTO")

In [9]:
cod_estaciones_aire = [elem[0] for elem in df_estaciones_aire.collect()]

In [10]:
cod_estaciones_aire.sort()

In [11]:
df_hoy = df_calendario.filter(df_calendario["FECHA"]== hoy)

In [12]:
#Calendario + Magnitudes aire a null
for magnitud in magnitudes_aire:
    df_hoy = df_hoy.withColumn(magnitud,F.lit(None))

In [13]:
#Calendario + Prediccion clima
df_clima_hoy = df_hoy.join(df_clima_prediccion,on= "FECHA")

In [14]:
#Estaciones cross datos clima y calendario
df_datos_hoy = df_estaciones_aire.crossJoin(df_clima_hoy)

In [15]:
#df_datos_hoy.columns

In [16]:
cols = df_datos_hoy.columns
cols = cols[0:1] + cols[19:22]+ cols[1:5]+ cols[5:19] + cols[22:]

In [17]:
df_datos_hoy = df_datos_hoy.select(cols)

### [1.1.0] - Probabilidad lluvia -> Prediccion lluvia m/l2
    Si la probabilidad es > 50%:
        se hace la media por estacion del historial de precipitaciones
        cogiendo datos de +-10 días al dia de hoy de cada año anterior

In [18]:
def probabilidad_a_lluvia_presion_ayer_aire_a_null(df_datos,df_datos_hoy):
    mes_dia_min = (datetime.date.today() +  datetime.timedelta(days = -10)).strftime("%m%d")
    mes_dia_max = (datetime.date.today() +  datetime.timedelta(days = 10)).strftime("%m%d")
    df_historial = df_datos.filter((df_datos["FECHA"]%1000 >= mes_dia_min) & (df_datos["FECHA"]%1000 <= mes_dia_max))
    df_datos_hoy = df_datos_hoy.drop('%' + dic_clima["LLUVIA"])
    l_df = []
    for estacion in cod_estaciones_aire:
        df_datos_hoy_estacion = df_datos_hoy.filter(df_datos_hoy["CODIGO_CORTO"]==estacion)
        aux = df_historial.filter(df_historial["CODIGO_CORTO"]== estacion).select("FECHA",dic_clima["PRESION"],dic_clima["LLUVIA"]).na.drop()
        #Precipitacions
        prob_lluvia_hoy = df_clima_prediccion.select("%" +dic_clima["LLUVIA"]).collect()[0][0]
        prec = 0
        if(float(prob_lluvia_hoy) > 50):
            try:
                prec = aux.select(dic_clima["LLUVIA"]).groupBy().mean().collect()[0][0]
            except:
                print("[WARN]: No hay lluvias historicas en ese rango de fechas")
        df_datos_hoy_estacion = df_datos_hoy_estacion.withColumn(dic_clima["LLUVIA"],F.lit(prec))
            
        #Presion
        ayer = (datetime.date.today() + datetime.timedelta(days= -1)).strftime("%Y%m%d")
        presion_ayer = aux.filter(aux["FECHA"]==ayer).select(dic_clima["PRESION"]).collect()[0][0]
        df_datos_hoy_estacion = df_datos_hoy_estacion.withColumn(dic_clima["PRESION"],F.lit(presion_ayer))

        l_df.append(df_datos_hoy_estacion)
        
    df_datos_hoy = l_df[0]
    for i in range(1,len(l_df)):
        df_datos_hoy = df_datos_hoy.union(l_df[i])
    return df_datos_hoy

In [19]:
df_datos_hoy = probabilidad_a_lluvia_presion_ayer_aire_a_null(df_datos,df_datos_hoy)

In [20]:
#df_datos_hoy.toPandas()

## [1.2] - Union Datos + Datos hoy

In [21]:
df_datos_y_hoy= df_datos.union(df_datos_hoy)

## [1.3] - Dar cada fila de datos +  contaminacion ayer

In [22]:
ventana = Window.partitionBy("CODIGO_CORTO").orderBy("FECHA")

In [23]:
for magnitud in magnitudes_aire:
    df_datos = df_datos.withColumn("A_%s"%magnitud, F.lag(magnitud,1,None).over(ventana))

In [24]:
#df_datos.columns

## [1.4] - Tipos
    
    CODIGO_CORTO -> INTEGER
    ANO -> INTEGER
    MES -> INTEGER
    DIA -> INTEGER
    FECHA -> INTEGER
    DIASEMANA -> INTEGER
    TIPODIA -> INTEGER
    CONFINAMIENTO -> INTEGER
    MEDICIONES -> DOUBLE

In [25]:
#df_datos.dtypes

# [2] - PREDICCIONES
    
    Se hace 1 a 1 para cada magnitud de contaminación
    

In [26]:
cols_comunes = df_datos.columns[0:8] + magnitudes_clima

In [27]:
#cols_comunes

In [28]:
for magnitud in magnitudes_aire:
    print("="*20, magnitud, "="*20)
    cols_comunes = df_datos.columns[0:8] + magnitudes_clima
    cols_features = cols_comunes + ["A_%s"%magnitud]
    assembler = VectorAssembler(inputCols = cols_features, outputCol = "F_%s" % magnitud)
    #Limpiamos las filas con el dato para esa magnitud a Null
    cols_y_magnitud = cols_features + [magnitud]
    df_datos_magnitud = df_datos.select(cols_y_magnitud).na.drop()
    #Mirar a ver que hacemos cuando el clima es null
    
    output = assembler.transform(df_datos_magnitud)
    #output.printSchema()
    #Ver cómo funciona
    final_data = output.filter(output["FECHA"] < hoy).select("F_%s" %magnitud, magnitud)
    training_data,test_data = final_data.randomSplit([0.8,0.2])
    
    #train_data = output.filter(output["FECHA"] < hoy).select("F_%s" %magnitud, magnitud)
    #test_data = output.filter(output["FECHA"] == hoy).select("F_%s" %magnitud, magnitud)
    
    lr = LinearRegression(featuresCol ="F_%s" %magnitud, labelCol = magnitud)
    lr_model = lr.fit(training_data)
    test_results = lr_model.evaluate(test_data)
    test_results.residuals.show()
    print(test_results.rootMeanSquaredError)
    print(test_results.r2)

+--------------------+
|           residuals|
+--------------------+
|  0.2757921656895377|
| -0.3350083417171845|
|  0.1779640555160853|
| -1.5907046177846382|
| -0.6720295710415058|
| -0.6666750766838447|
|  -2.883939816491278|
| -0.2010168896587885|
|  0.2067055643637019|
|-0.42405636133740643|
|  -2.206508806477231|
|  0.1963908252138964|
| -0.4363214365737633|
|-0.19198383761165871|
| -3.3247092441252164|
| -0.3132496845775563|
| -1.2075995381738096|
| 0.35043379359673565|
|  0.4437029938820132|
| -0.3683697800409078|
+--------------------+
only showing top 20 rows

2.0370151463497086
0.7815243356774736
+--------------------+
|           residuals|
+--------------------+
|0.014450772986518534|
|-0.12330141603479905|
| 0.09454570371067639|
|-0.07060714395424295|
|-0.03800794426738319|
|-0.01421825957839...|
|0.005462802852709836|
|-0.06314966373599767|
|-0.04921094240845...|
| 0.14178592495927012|
| 0.11898748252226732|
|3.412156229981589E-5|
|-1.06233531486088...|
|0.0020802450615

+--------------------+
|           residuals|
+--------------------+
|9.151093562154988E-4|
| 0.03710554856232648|
|-0.02942034298475...|
|-0.06861170710406456|
|-0.00523301782651...|
|0.027728616228538616|
|-0.01752688383787407|
| 0.08023239839645968|
|-0.01442206111125685|
|-0.01347526297302...|
|0.002826717491530...|
|-0.01748279631032204|
|-0.03969565903328523|
|-0.02922819117937...|
|-0.02243074624532...|
|0.035136728272279066|
|0.009466120152102991|
|-0.03071657091325...|
|-0.02003514313870...|
|-0.09113024668240632|
+--------------------+
only showing top 20 rows

0.05648944949115024
0.9017353677832367


# [4] - FORMATO

In [None]:
#Borramos las columnas utilizadas para relacionar estaciones de aire y clima
a_borrar = c_grupo_14 + c_estacionxmagnitud_19

In [None]:
pd_final = pd_datos_y_calendario.drop(columns = a_borrar)

# [5] - EXPORTAR

In [None]:
#Versiones
hoy = datetime.date.today().strftime("%Y-%m-%d")
pd_final.to_csv("/home/rulicering/Datos_Proyecto_Ozono/Procesado/Dato_Final/Datos_2014-NOW-" + hoy + ".csv")

In [None]:
pd_final.to_csv("/home/rulicering/Datos_Proyecto_Ozono/Procesado/Dato_Final/Datos_2014-NOW.csv")

# [EXTRA] - CHECKEO

In [None]:
#pd_chequeo = pd_datos[['CODIGO_CORTO', 'FECHA','E_AEMET','E_81', 'E_82', 'E_83', 'E_87', 'E_89', '81', '82', '83', '87', '89']]

In [None]:
#2014-2018
#pd_chequeo[(pd_datos["FECHA"]==20140101)].sort_values(by="E_AEMET")
#pd_clima[pd_clima["FECHA"]==20140101]

#2019-NOW
#pd_chequeo[(pd_datos["FECHA"]==20190101)]
#pd_clima[pd_clima["FECHA"]==20190101]