# [o3]- Proyecto Ozono - Predictor_v0

# [0] - Inicialización

In [1]:
import findspark
findspark.init('/home/rulicering/BigData/spark-2.4.5-bin-hadoop2.7')
from pyspark.sql import SparkSession
from pyspark.sql import functions as F
from pyspark.sql.window import Window
import pandas as pd
from pyspark.sql.types import StructField,StringType,IntegerType,StructType,FloatType
import re as reg
import numpy as np
import datetime

#MlLib
from pyspark.ml.regression import LinearRegression

#Aux
from pyspark.ml.linalg import Vectors
from pyspark.ml.feature import VectorAssembler

In [2]:
spark = SparkSession.builder.appName('predictor').getOrCreate()

# [1] Datos

## [1.0] - Carga de ficheros (Datos, Predicción clima,  Calendario)

In [3]:
df_datos = spark.read.csv('/home/rulicering/Datos_Proyecto_Ozono/Procesado/Dato_Final/Datos.csv',inferSchema= True,header=True)
df_clima_prediccion = spark.read.csv('/home/rulicering/Datos_Proyecto_Ozono/Procesado/Clima/Clima_Prediccion-hoy.csv',inferSchema= True,header=True)
df_calendario = spark.read.csv('/home/rulicering/Datos_Proyecto_Ozono/Procesado/Calendario/Calendario_2001-2020.csv',inferSchema= True,header=True)

In [4]:
df_datos = df_datos.drop("_c0")
df_clima_prediccion = df_clima_prediccion.drop("_c0")
df_calendario = df_calendario.drop("_c0")

In [5]:
magnitudes= df_datos.columns[8:]
magnitudes_clima = df_datos.columns[-5:]
magnitudes_aire = df_datos.columns[8:-5]

In [6]:
dic_clima = { "VIENTO":"81",
                 "DIRECCION": "82",
                 "TEMPERATURA": "83",
                 "PRESION": "87",
                 "LLUVIA":"89"
}

## [1.1] - Datos para prediccion - Prediccion clima + Calendario + Estaciones

In [7]:
ayer = (datetime.date.today() + datetime.timedelta(days = -1)).strftime("%Y%m%d")
hoy = datetime.date.today().strftime("%Y%m%d")

In [8]:
df_estaciones_aire = df_datos.filter(df_datos["FECHA"]== ayer).select("CODIGO_CORTO")

In [9]:
cod_estaciones_aire = [elem[0] for elem in df_estaciones_aire.collect()]

In [10]:
cod_estaciones_aire.sort()

In [11]:
df_hoy = df_calendario.filter(df_calendario["FECHA"]== hoy)

In [12]:
#Calendario + Magnitudes aire a null
for magnitud in magnitudes_aire:
    df_hoy = df_hoy.withColumn(magnitud,F.lit(None))

In [13]:
#Calendario + Prediccion clima
df_clima_hoy = df_hoy.join(df_clima_prediccion,on= "FECHA")

In [14]:
#Estaciones cross datos clima y calendario
df_datos_hoy = df_estaciones_aire.crossJoin(df_clima_hoy)

In [15]:
#df_datos_hoy.columns

In [16]:
cols = df_datos_hoy.columns
cols = cols[0:1] + cols[19:22]+ cols[1:5]+ cols[5:19] + cols[22:]

In [17]:
df_datos_hoy = df_datos_hoy.select(cols)

### [1.1.0] - Probabilidad lluvia -> Prediccion lluvia m/l2
    Si la probabilidad es > 50%:
        se hace la media por estacion del historial de precipitaciones
        cogiendo datos de +-10 días al dia de hoy de cada año anterior

In [18]:
def probabilidad_a_lluvia_presion_ayer_aire_a_null(df_datos,df_datos_hoy):
    mes_dia_min = (datetime.date.today() +  datetime.timedelta(days = -10)).strftime("%m%d")
    mes_dia_max = (datetime.date.today() +  datetime.timedelta(days = 10)).strftime("%m%d")
    df_historial = df_datos.filter((df_datos["FECHA"]%1000 >= mes_dia_min) & (df_datos["FECHA"]%1000 <= mes_dia_max))
    df_datos_hoy = df_datos_hoy.drop('%' + dic_clima["LLUVIA"])
    l_df = []
    for estacion in cod_estaciones_aire:
        df_datos_hoy_estacion = df_datos_hoy.filter(df_datos_hoy["CODIGO_CORTO"]==estacion)
        aux = df_historial.filter(df_historial["CODIGO_CORTO"]== estacion).select("FECHA",dic_clima["PRESION"],dic_clima["LLUVIA"]).na.drop()
        #Precipitacions
        prob_lluvia_hoy = df_clima_prediccion.select("%" +dic_clima["LLUVIA"]).collect()[0][0]
        prec = 0
        if(float(prob_lluvia_hoy) > 50):
            try:
                prec = aux.filter(aux[dic_clima["LLUVIA"]] >0).select(dic_clima["LLUVIA"]).groupBy().mean().collect()[0][0]
            except:
                print("[WARN]: No hay lluvias historicas en ese rango de fechas")
        df_datos_hoy_estacion = df_datos_hoy_estacion.withColumn(dic_clima["LLUVIA"],F.lit(prec))
            
        #Presion
        ayer = (datetime.date.today() + datetime.timedelta(days= -1)).strftime("%Y%m%d")
        presion_ayer = aux.filter(aux["FECHA"]==ayer).select(dic_clima["PRESION"]).collect()[0][0]
        df_datos_hoy_estacion = df_datos_hoy_estacion.withColumn(dic_clima["PRESION"],F.lit(presion_ayer))

        l_df.append(df_datos_hoy_estacion)
        
    df_datos_hoy = l_df[0]
    for i in range(1,len(l_df)):
        df_datos_hoy = df_datos_hoy.union(l_df[i])
    return df_datos_hoy

In [20]:
df_datos_hoy = probabilidad_a_lluvia_presion_ayer_aire_a_null(df_datos,df_datos_hoy)

In [21]:
#df_datos_hoy.toPandas()

## [1.2] - Union Datos + Datos hoy

In [22]:
df_datos_y_hoy= df_datos.union(df_datos_hoy)

## [1.3] - Dar cada fila de datos +  contaminacion ayer

In [23]:
ventana = Window.partitionBy("CODIGO_CORTO").orderBy("FECHA")

In [24]:
for magnitud in magnitudes_aire:
    df_datos = df_datos.withColumn("A_%s"%magnitud, F.lag(magnitud,1,None).over(ventana))

In [25]:
#df_datos.columns

## [1.4] - Tipos
    
    CODIGO_CORTO -> INTEGER
    ANO -> INTEGER
    MES -> INTEGER
    DIA -> INTEGER
    FECHA -> INTEGER
    DIASEMANA -> INTEGER
    TIPODIA -> INTEGER
    CONFINAMIENTO -> INTEGER
    MEDICIONES -> DOUBLE

In [26]:
#df_datos.dtypes

# [2] - PREDICCIONES
    
    Se hace 1 a 1 para cada magnitud de contaminación
    

In [27]:
cols_comunes = df_datos.columns[0:8] + magnitudes_clima

In [29]:
#cols_comunes

## [2.0] - Linear Regression

In [31]:
for magnitud in magnitudes_aire:
    print("="*20, magnitud, "="*20)
    cols_comunes = df_datos.columns[0:8] + magnitudes_clima
    cols_features = cols_comunes + ["A_%s"%magnitud]
    assembler = VectorAssembler(inputCols = cols_features, outputCol = "F_%s" % magnitud)
    #Limpiamos las filas con el dato para esa magnitud a Null
    cols_y_magnitud = cols_features + [magnitud]
    df_datos_magnitud = df_datos.select(cols_y_magnitud).na.drop()
    #Mirar a ver que hacemos cuando el clima es null
    
    output = assembler.transform(df_datos_magnitud)
    #output.printSchema()
    #Ver cómo funciona
    final_data = output.filter(output["FECHA"] < hoy).select("F_%s" %magnitud, magnitud)
    training_data,test_data = final_data.randomSplit([0.9,0.1])
    
    #train_data = output.filter(output["FECHA"] < hoy).select("F_%s" %magnitud, magnitud)
    #test_data = output.filter(output["FECHA"] == hoy).select("F_%s" %magnitud, magnitud)
    
    lr = LinearRegression(featuresCol ="F_%s" %magnitud, labelCol = magnitud)
    lr_model = lr.fit(training_data)
    test_results = lr_model.evaluate(test_data)
    #test_results.residuals.show()
    print("Root mean Squared Error: ",test_results.rootMeanSquaredError)
    print("R2: " ,test_results.r2)

Root mean Squared Error:  2.7562849865545025
R2:  0.8318147841511663
Root mean Squared Error:  9.78832098366642
R2:  0.5749695870841328
Root mean Squared Error:  42.96659534277915
R2:  0.7000457190814189
Root mean Squared Error:  10.678011273600712
R2:  0.7958954593776058
Root mean Squared Error:  1.8482424632967258
R2:  0.6996518744284562
Root mean Squared Error:  0.35194523605305555
R2:  0.7513413592767961
Root mean Squared Error:  0.40106982400686614
R2:  0.7349466327826898
Root mean Squared Error:  0.09976814969208
R2:  0.6330184762702956
Root mean Squared Error:  0.07539938857074854
R2:  0.7449251468390379
Root mean Squared Error:  0.04402005604227244
R2:  0.8800657951328316
Root mean Squared Error:  0.13686626853074485
R2:  0.767143229908083
Root mean Squared Error:  21.82943911485662
R2:  0.6870717910585589
Root mean Squared Error:  11.45216964891852
R2:  0.7372243844738302
Root mean Squared Error:  4.011968286360158
R2:  0.6240844131702069


## [2.1] - GBT

In [35]:
from pyspark.ml import Pipeline
from pyspark.ml.regression import GBTRegressor
from pyspark.ml.feature import VectorIndexer
from pyspark.ml.evaluation import RegressionEvaluator

In [40]:
for magnitud in magnitudes_aire:
    print("="*20, magnitud, "="*20)
    cols_comunes = df_datos.columns[0:8] + magnitudes_clima
    cols_features = cols_comunes + ["A_%s"%magnitud]
    
    #Limpiamos las filas con el dato para esa magnitud a Null
    cols_y_magnitud = cols_features + [magnitud]
    df_datos_magnitud = df_datos.select(cols_y_magnitud).na.drop()
      
    #Assembles to create features column
    assembler = VectorAssembler(inputCols = cols_features, outputCol = "F_%s" % magnitud)
    data_assembled = assembler.transform(df_datos_magnitud)
    
    #Seleccionamos las filas que vamos a utilizar
    data = data_assembled.filter(data_assembled["FECHA"] < hoy).select("F_%s" %magnitud, magnitud)
    
    #Creamos el indexer
    featureIndexer = VectorIndexer(inputCol="F_%s" % magnitud, outputCol="indexedFeatures", maxCategories=4).fit(data)
    #Partimos el dato
    (trainingData,testData) = data.randomSplit([0.7,0.3])
    # Train a GBT model.
    gbt = GBTRegressor(featuresCol="indexedFeatures", labelCol=magnitud,maxIter=20)
    
    #Pipeline
    pipeline = Pipeline(stages=[featureIndexer, gbt])
    
    # Train model.  This also runs the indexer.
    model = pipeline.fit(trainingData)
    
    # Make predictions.
    predictions = model.transform(testData)
    
    # Select example rows to display
    predictions.select("prediction", magnitud , "F_%s" % magnitud).show(5)
    
    # Select (prediction, true label) and compute test error
    evaluator = RegressionEvaluator(
        labelCol=magnitud, predictionCol="prediction", metricName="r2")
    r2 = evaluator.evaluate(predictions)
    print("R2 on test data = %g" % r2)
    
    gbtModel = model.stages[1]
    print(gbtModel) 

+------------------+----+--------------------+
|        prediction|   1|                 F_1|
+------------------+----+--------------------+
|  8.09823142558676| 6.0|[40.0,2001.0,1.0,...|
| 5.997196735618594| 7.0|[40.0,2001.0,1.0,...|
| 16.90881655236621|16.0|[40.0,2001.0,1.0,...|
| 17.42661617798765|18.0|[40.0,2001.0,1.0,...|
|18.057173961229466|19.0|[40.0,2001.0,1.0,...|
+------------------+----+--------------------+
only showing top 5 rows

R2 on test data = 0.856697
GBTRegressionModel (uid=GBTRegressor_89619ec469bc) with 20 trees
+------------------+----+--------------------+
|        prediction|  10|                F_10|
+------------------+----+--------------------+
|14.160286276612878|18.0|[47.0,2009.0,12.0...|
| 17.44686802301845|23.0|[47.0,2009.0,12.0...|
|11.254557636807066| 7.0|[47.0,2009.0,12.0...|
| 8.627652173751473|11.0|[47.0,2010.0,1.0,...|
|14.681367230449732|20.0|[47.0,2010.0,1.0,...|
+------------------+----+--------------------+
only showing top 5 rows

R2 on test d

# [4] - FORMATO

In [None]:
#Borramos las columnas utilizadas para relacionar estaciones de aire y clima
a_borrar = c_grupo_14 + c_estacionxmagnitud_19

In [None]:
pd_final = pd_datos_y_calendario.drop(columns = a_borrar)

# [5] - EXPORTAR

In [None]:
#Versiones
hoy = datetime.date.today().strftime("%Y-%m-%d")
pd_final.to_csv("/home/rulicering/Datos_Proyecto_Ozono/Procesado/Dato_Final/Datos_2014-NOW-" + hoy + ".csv")

In [None]:
pd_final.to_csv("/home/rulicering/Datos_Proyecto_Ozono/Procesado/Dato_Final/Datos_2014-NOW.csv")

# [EXTRA] - CHECKEO

In [None]:
#pd_chequeo = pd_datos[['CODIGO_CORTO', 'FECHA','E_AEMET','E_81', 'E_82', 'E_83', 'E_87', 'E_89', '81', '82', '83', '87', '89']]

In [None]:
#2014-2018
#pd_chequeo[(pd_datos["FECHA"]==20140101)].sort_values(by="E_AEMET")
#pd_clima[pd_clima["FECHA"]==20140101]

#2019-NOW
#pd_chequeo[(pd_datos["FECHA"]==20190101)]
#pd_clima[pd_clima["FECHA"]==20190101]