# [o3]- Proyecto Ozono - ETL_Join - v0

    1. Cargar:
        1.1 Estaciones
        1.2 Contaminacion
        1.3 Clima
        1.4 Calendario
    2. Unir :
        2.1 Contaminación con Clima USANDO info de Estaciones (CORE)
            2.1.1 Darle grupo de estaciones a los datos de contaminacion 
            2.1.2 Join datos de clima con los de estaciones
        2.2 Añadir calendario al resultado final

In [111]:
import findspark
findspark.init('/home/rulicering/BigData/spark-2.4.5-bin-hadoop2.7')
from pyspark.sql import SparkSession
from pyspark.sql import functions as F
import pandas as pd
from pyspark.sql.types import StructField,StringType,IntegerType,StructType,FloatType
import re as reg
import numpy as np

In [2]:
spark = SparkSession.builder.appName('contaminacion').getOrCreate()

In [117]:
df_aire = spark.read.csv('/home/rulicering/Datos_Proyecto_Ozono/Procesado/Contaminacion/Contaminacion_diaria_2014-NOW.csv',inferSchema= True,header=True)
df_clima = spark.read.csv('/home/rulicering/Datos_Proyecto_Ozono/Procesado/Clima/Clima_diario_2014-NOW.csv',inferSchema= True,header=True)
df_estaciones = spark.read.csv('/home/rulicering/Datos_Proyecto_Ozono/Procesado/Estaciones/Estaciones.csv',inferSchema= True,header=True)
df_calendario = spark.read.csv('/home/rulicering/Datos_Proyecto_Ozono/Procesado/Calendario/Calendario_2013-2020.csv',inferSchema= True,header=True)

In [271]:
pd_aire = df_aire.drop("_c0").toPandas()
pd_clima = df_clima.drop("_c0").toPandas()
pd_estaciones = df_estaciones.drop("_c0").toPandas()
pd_calendario = df_calendario.drop("_c0").toPandas()

## Tipos
    
    CODIGO_CORTO -> STRING/OBJECT
    ANO -> INTEGER
    MES -> INTEGER
    DIA -> INTEGER
    FECHA -> INTEGER
    MEDICIONES -> DOUBLE

### Estaciones

In [119]:
pd_estaciones = pd_estaciones.replace(('None',None),np.nan)

In [138]:
#2014
regex = reg.compile("COD_CLIMA")
c_grupo_14 = [elem for elem in list(filter(regex.search,df_estaciones.columns))]
c_grupo_14

['COD_CLIMA_14']

In [139]:
#2019
regex = reg.compile("E_\d\d")
c_estacionxmagnitud_19 = [elem for elem in list(filter(regex.search,df_estaciones.columns))]
c_estacionxmagnitud_19

['E_81', 'E_82', 'E_83', 'E_87', 'E_89']

In [135]:
for columna in c_estacionxmagnitud_19:
    pd_estaciones[columna] = pd_estaciones[columna].astype(str)

In [136]:
#pd_estaciones.dtypes

### Aire

In [122]:
pd_aire = pd_aire.replace(('None',None),np.nan)

In [123]:
pd_aire["CODIGO_CORTO"] = pd_aire["CODIGO_CORTO"].astype(str)

In [168]:
pd_aire = pd_aire.sort_values(by="FECHA")

In [124]:
#pd_aire.dtypes

### Clima

In [131]:
pd_clima = pd_clima.replace(('None',None),np.nan)

In [125]:
columnas_valoresmagnitudes = list(pd_clima.columns)[5:]

In [127]:
for columna in columnas_valoresmagnitudes:
    #Comas por puntos
    pd_clima[columna]  =  [reg.sub(',','.',str(x)) for x in pd_clima[columna]]
    # String to float
    pd_clima[columna] = pd_clima[columna].astype(float)

In [169]:
pd_clima = pd_clima.sort_values(by="FECHA")

In [129]:
#pd_clima.dtypes

### Calendario

In [132]:
pd_calendario = pd_calendario.replace(('None',None),np.nan)

## Darle grupo a estaciones de contaminacion (AIRE)

    2014-2018 -> COD_CLIMA_14
    
    2019-NOW -> 81,82,83,87,89

In [141]:
#Sacamos estaciones de aire y codigos de estaciones de clima asociadas
pd_estaciones_aire = pd_estaciones[pd_estaciones["MIDE_AIRE"]>0]

In [142]:
#Nos quedamos con las columnas que queremos
c_agrupamiento = ["CODIGO_CORTO"] + c_grupo_14 + c_estacionxmagnitud_19
pd_estaciones_aire = pd_estaciones_aire[c_agrupamiento]

In [143]:
#Unimos ambos datasets
pd_aire = pd_aire.merge(pd_estaciones_aire, on =["CODIGO_CORTO"])

## UNIR AIRE + CLIMA

In [232]:
#Datos 14-18
pd_datos_14_18 = pd_aire[pd_aire["FECHA"]<20190101]

In [233]:
#Datos 19-NOW
pd_datos_19_NOW = pd_aire[pd_aire["FECHA"]>=20190101]

### MERGE DE MAGNITUD 1 A 1

In [237]:
columnas = list(pd_clima.columns) 
c_info = columnas[:5]
c_magnitudes = columnas[5:]

In [238]:
for magnitud in c_magnitudes:
    cols = c_info.copy()
    cols.append(magnitud)
    
    pd_clima_magnitud = pd_clima[cols]

    #2014-2018
    pd_clima_magnitud_14_18 = pd_clima_magnitud.rename(columns={"CODIGO_CORTO":c_grupo_14[0]})
    pd_datos_14_18 = pd_datos_14_18.merge(pd_clima_magnitud_14_18,on = ["ANO", "MES", "DIA","FECHA",c_grupo_14[0]])
    
    #2019-NOW
    pd_clima_magnitud_19_NOW = pd_clima_magnitud.rename(columns={"CODIGO_CORTO":"E_%s"%magnitud})
    pd_datos_19_NOW = pd_datos_19_NOW.merge(pd_clima_magnitud_19_NOW,on = ["ANO", "MES", "DIA","FECHA","E_%s"%magnitud])

### UNIMOS PARTES

In [242]:
#pd_datos_14_18.dtypes

In [243]:
#pd_datos_19_NOW.dtypes

In [252]:
pd_datos = pd.concat([pd_datos_14_18,pd_datos_19_NOW])

# INCLUIR CALENDARIO

In [273]:
pd_datos_y_calendario = pd_datos.merge(pd_calendario, on = "FECHA")

In [275]:
#pd_datos_y_calendario.dtypes

# FORMATO + EXPORTAR

In [276]:
a_borrar = c_grupo_14 + c_estacionxmagnitud_19

In [277]:
pd_final = pd_datos_y_calendario.drop(columns = a_borrar)

In [278]:
pd_final.to_csv("/home/rulicering/Datos_Proyecto_Ozono/Procesado/Dato_Final/Datos_2014-NOW.csv")

# CHECKEO

In [262]:
#pd_chequeo = pd_datos[['CODIGO_CORTO', 'FECHA','COD_CLIMA_14','E_81', 'E_82', 'E_83', 'E_87', 'E_89', '81', '82', '83', '87', '89']]

In [261]:
#2014-2018
#pd_chequeo[(pd_datos["FECHA"]==20140101)].sort_values(by="COD_CLIMA_14")
#pd_clima[pd_clima["FECHA"]==20140101]

#2019-NOW
#pd_chequeo[(pd_datos["FECHA"]==20190101)]
#pd_clima[pd_clima["FECHA"]==20190101]