## PREPARACION DE LOS DATOS

**Resumen**
La base de datos en crudo proporcionada por la institucion de Conagua en la region Sur de Jalisco cuenta con las siguientes variables/columnas:

1. **unnamed: 0**
2. **dia**
3. **t.s : Termometro Seco**
4. **t.h : Termometro Humedo**
5. **t.v : Tension De Vapor**
6. **max : Temperatura Maxima**
7. **min : Temperatura Minima**
8. **p.r : Punto De Rocio**
9. **h.r : Humedad Relativa**
10. **max.1: Humedad Maxima**
11. **min.1: Humedad Minima**
12. **psen: Presion De La Estacion**
13. **max.2 : Presion De La Estacion Maxima**
14. **min.2 : Presion De La Estacion Minima**
15. **osc :** 
16. **prnm: Presion Residual Al Nivel Del Mar**
17. **max.3: Presion Residual Al Nivel Del Mar Maxima**
18. **min.3 : Presion Residual Al Nivel Del Mar Minima**
19. **osc.1**
20. **aneroide**
21. **cn**
22. **ok**
23. **direcc. :**
24. **dia.1**
25. **noche**
26. **direcc : Direccion Dominante**
27. **vel : Velocidad Dominante**
28. **direcc.1 : Direcciom Maxima**
29. **vel.1 : Velocidad Maxima**
30. **media : Velocidad Media**
31. **p**
32. **h**
33. **p.1**
34. **evap**
35. **max.4 : Evaporacion Maxima**
36. **min.4 : Evaporacion Minima**
37. **osc.2**
38. **inten**
39. **niebla**
40. **rocio** 
41. **lluvia**
42. **helada**
43. **calima**
44. **humo**
45. **halo** 
46. **arco Iris**
47. **chubascos**
48. **truenos** 
49. **relampagos**
50. **temp.elec.**
51. **eficiencia**


In [None]:
# Importacion de librerias
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from tabulate import tabulate
import io

# import pyeto library
import pyeto

# import datetime
import datetime

# Determinar numero de dias en year/month
from calendar import monthrange

# Apagamos algunos mensajes de warning
pd.options.mode.chained_assignment = None  # default='warn'

In [None]:
# Definicion de lista con meses disponibles en archivo anualizado Conagua
month_list=['ENERO','FEBRERO','MARZO','ABRIL','MAYO','JUNIO','JULIO','AGOSTO','SEPTIEMBRE','OCTUBRE','NOVIEMBRE','DICIEMBRE']

# Definicion de anio y mes para busqueda de archivo de Conagua con datos 
year = 2019
month = 5

# Definicion de latitud, longitude, altitude, coastal de la base meteorologica 
# latitude in degrees
latitude = 19.59216667

# longitud in degrees
longitude = -103.59075

# altitude in meters
altitude = 1408.99

# coastal – 
# True si la base meteorologica se encuentra en la costa
# False si la base meteorologica se encuentra adyacente a la costa o fuera de la costa 
coastal = False

In [None]:
# Creación del dataframe a partir del archivo excel del 2019 usando el tab/mes de febrero
xls = pd.ExcelFile('/home/adan/Documents/programacion_analisis_datos/codigos/requerimiento_agua_tomate_rojo/datos/conagua/clima_'+str(year)+'.xlsx')
conagua_df = pd.read_excel(xls, month_list[month-1]) 

# Renombrado de encabezado de columnas de mayusculas a minusculas
conagua_df.columns = [col.lower() for col in conagua_df]

# Impresion de columnas presentes en el archivo Conagua
#print(conagua_df.columns)

# Renombrado de encabezados de columnas principales para eliminar sus acronimos
conagua_df.rename(columns={
                            't.s': 'termometro seco', 
                            't.h': 'termometro humedo',
                            't.v': 'tension de vapor',
                            'max': 'temperatura maxima',
                            'min': 'temperatura minima',
                            'p.r': 'punto de rocio',
                            'h.r': 'humedad relativa',
                            'max.1': 'humedad maxima',
                            'min.1': 'humedad minima',
                            'psen':'presion de la estacion',
                            'max.2': 'presion de la estacion maxima',
                            'min.2': 'presion de la estacion minima',
                            'prnm':'presion residual al nivel del mar',
                            'max.3': 'presion residual al nivel del mar maxima',
                            'min.3': 'presion residual al nivel del mar minima',
                            'max.4': 'evaporacion maxima',
                            'min.4': 'evaporacion minima',
                            'direcc': 'direccion dominante',
                            'vel' : 'velocidad dominante',
                            'direcc.1' : 'direcciom maxima',
                            'vel.1' : 'velocidad maxima',
                            'media' : 'velocidad media'
}, inplace=True)

# Impresión de los resultados
print("El dataframe correspondiente a %s del %s" %(month_list[month-1],year))

In [None]:
# Visualizacion de dataframe conagua
conagua_df

In [None]:
# Impresión de los Resultados
print("La Información del dataframe es:\n")
conagua_df.info()

In [None]:
# Definicion de lista que contiene las columnas dentro de conagua_df
columns_conagua_df = list(conagua_df.columns)
#print(columns_conagua_df)

# Definimos la lista que contiene el nombre de las columnas preservar dentro de conagua_df
columns_remaining = [
                    'dia',
                    'tension de vapor',
                    'temperatura maxima',
                    'temperatura minima',
                    'humedad relativa',
                    'humedad minima',
                    'humedad maxima',
                    'inten',
                    'velocidad dominante',
                    'presion de la estacion'
]

# A traves de la funcion set realizamos la substraccion
# Cada elemento de columns_conagua_df se buscara dentro de columns_remaining
# Si no se encuentra coincidencia alguna esta se guarda como elemento de columns_to_drop
columns_to_drop_set = set(columns_conagua_df)-set(columns_remaining)
columns_to_drop = sorted(columns_to_drop_set, key = lambda k : columns_conagua_df.index(k))

# Impresion de columns_to_drop
# print(columns_to_drop)

# Removemos columns_to_drop de conagua_df y guardamos en conagua_df
conagua_df.drop(columns=columns_to_drop,inplace=True)

In [None]:
# Impresion del dataframe con columnas removidas
print("La Información del dataframe haciendo drop te aquellas columas no requeridas es:\n")
conagua_df.info()

In [None]:
# https://eto.readthedocs.io/en/latest/package_references.html
# Renombramiento de columnas requeridas para calculacion de ET0 
conagua_df.rename(columns={
                            'tension de vapor': 'e_a',
                            'temperatura maxima': 'T_max', 
                            'temperatura minima': 'T_min',
                            'humedad relativa': 'RH_mean',
                            'humedad minima': 'RH_min',
                            'humedad maxima': 'RH_max',
                            'inten': 'n_sun',
                            'velocidad dominante': 'U_z',
                            'presion de la estacion': 'P'
}, inplace=True)


In [None]:
# Impresion 
print("La Información del dataframe haciendo drop de aquellas columas no requeridas es:\n")
print(conagua_df.info())

# Visualizacion de dataframe conagua
conagua_df

In [None]:
# Seteando el index para la columna dia
#conagua_df.set_index('dia', inplace = True)

conagua_df['dia_index'] = ''
conagua_df['dia_index'] = conagua_df['dia']

conagua_df.set_index('dia_index', inplace = True)

# Calcular dias disponibles en el mes para acotar los contenidos extras a la tabla de referencia Conagua
# Obtencion de numeros de dias en el mes a evaluar
monthrange_result = monthrange(year,month) 
weekday_of_first_day_of_month = monthrange_result[0]
number_of_days_in_month = monthrange_result[1]

# Obtencion de columnas y renglones en conagua_df
conagua_rows, conagua_columns = conagua_df.shape
conagua_df = conagua_df.iloc[1:number_of_days_in_month+1]

# Remplazamor cualquier 0 tipo int/string por Nan 
conagua_df[conagua_df.columns] = conagua_df[conagua_df.columns].replace({'0':np.nan, 0:np.nan})

# OBtenemos informaacion del total de valores nulos presentes en conagua_df
conagua_isnull = conagua_df.isnull().sum()

# Lista de columnas con valores NaN presentes 
conagua_columns_isnull = list(conagua_isnull.index.values.tolist())

# Definicion de lista vacia con informacion de las columnas a remover que tengan un valor NaN
conagua_columns_nan = []

# Checamos que columnas cuentan con valores nulos y lo agregamos a conagua_columns_dropna
for i in range(0,len(conagua_isnull)):
    if conagua_isnull[conagua_columns_isnull[i]] > 0:
        print("La columna %s tiene valores nulos" % (conagua_columns_isnull[i]),conagua_isnull[conagua_columns_isnull[i]])
        conagua_columns_nan.append(conagua_columns_isnull[i])

# Realizamos la imputacion de aquellos valores NaN en la columna tomando el valor anterior
for each in conagua_columns_nan:
    conagua_df[each].fillna(method = 'ffill', inplace = True) 

# Visualizacion de dataframe conagua
conagua_df

In [None]:
# Creacion de la columna date a partir de concatenar anio/mes/dia 
conagua_df['date'] = ''

for i in range(conagua_df['dia'][1],len(conagua_df['dia'])+1):
    print(conagua_df['dia'][i])
    print(str(year)+'-'+str(month)+'-'+str(conagua_df['dia'][i]))
    conagua_df['date'][i] = str(year)+'-'+str(month)+'-'+str(conagua_df['dia'][i])

#Conversión de la columna "date" al formato de serie de tiempo
conagua_df['date'] = pd.to_datetime(conagua_df['date'])

# Visualizacion de dataframe conagua
conagua_df

In [None]:
# Examinando el tipo de dato de cada columna dentro del dataframe
conagua_df.dtypes

In [None]:
def calculate_rad_solar_from_temp(year, month, day, latitude, longitude, altitude, coastal, temp_min, temp_max):
    
    # calculate day of the year
    day_of_year = datetime.date(year,month,day).timetuple().tm_yday
    #print(year,month,day)
    
    # pre-calculus data for estimating solar radiation from temperatures 
    # latitude conversion from degrees to radians
    latitude_rad = pyeto.deg2rad(latitude)

    # longitude conversion from degrees to radians
    longitude_rad = pyeto.deg2rad(longitude)

    # calculate solar declination from day of the year
    sol_dec = pyeto.sol_dec(day_of_year)

    # calculate sunset hour angle (Ws) from latitude and solar declination
    sha = pyeto.sunset_hour_angle(latitude_rad, sol_dec)

    # calculate the inverse relative distance between earth and sun from day of the year.
    ird = pyeto.inv_rel_dist_earth_sun(day_of_year)

    # estimate daily extraterrestrial radiation (Ra, ‘top of the atmosphere radiation’).
    et_rad = pyeto.et_rad(latitude_rad, sol_dec, sha, ird)

    # estimate clear sky radiation from altitude and extraterrestrial radiation
    cs_rad = pyeto.cs_rad(altitude, et_rad)
    
    # Estimate incoming solar (or shortwave) radiation, Rs, 
    # (radiation hitting a horizontal plane after scattering by the atmosphere) 
    # from min and max temperature together with an empirical adjustment coefficient for ‘interior’ and ‘coastal’ 
    # regions.
    sol_rad_from_t = pyeto.sol_rad_from_t(et_rad, cs_rad, temp_min, temp_max, coastal)
    #print("sol_rad_from_t = %s " % sol_rad_from_t)
    # Solar Radiation Equivalence -> 1 W m-2 = 0.0864 MJ m-2 day-1
    #watts_meter_2 = sol_rad_from_t / 0.0864
    
    #print("solar radiation calculated from temperatures = %s MJ m-2 day-1" % sol_rad_from_t)
    #print("solar radiation calculated from temperatures = %s W m-2" % watts_meter_2)
    
    return sol_rad_from_t

In [None]:
# Hacemos una inspeccion para la seccion de temperaturas diarias
# garantizando que la T_max sea mayor que la T_min
# En caso de no cumplirse se invertiran los valores
# y evitar problemas en el apartado del calculo de radiacion solar. 
for day in conagua_df['dia']:
    #print(day)
    #print(conagua_df['T_min'][day],conagua_df['T_max'][day])
    if (conagua_df['T_max'][day] < conagua_df['T_min'][day]):
        temp_t_max = conagua_df['T_max'][day]
        temp_t_min = conagua_df['T_min'][day]
        conagua_df['T_max'][day] = temp_t_min
        conagua_df['T_min'][day] = temp_t_max
        
conagua_df

In [None]:
# Agregando columna para depositar valores calculados de Radiacion Solar a partir de Temperaturas
conagua_df['R_s'] = ''

# Anadimos para cada registro de la tabla su radiacion solar a partir de temperaturas
for day in conagua_df['dia']:
    conagua_df['R_s'][day] = calculate_rad_solar_from_temp(year,month,day,latitude,longitude,altitude,coastal,conagua_df['T_min'][day],conagua_df['T_max'][day])

In [None]:
# Visualizacion de dataframe conagua
conagua_df

In [None]:
# Arreglamos cualquier error producido por datos tipo flotante en columna de radiacion solar
conagua_df['R_s'] = conagua_df['R_s'].astype(float, errors = 'raise')

# Conversion de Hecto Pascales a Kilo Pascales en tension de vapor
#1 hectopascal [hPa] = 0.1 kilopascal [kPa]
conagua_df['e_a'] = conagua_df['e_a']*0.1

# Conversion de Hecto Pascales a Kilo Pascales en presion de la estacion
conagua_df['P'] = conagua_df['P']*0.1

In [None]:
# Eliminacion de la columna dia
conagua_df.drop(columns=['dia'],inplace=True)

# Seteando el index para la columna dia
conagua_df.set_index('date', inplace = True)

# Redondeamos todos los valores de los parametros a 2 decimales
conagua_df[conagua_df.columns] = conagua_df[conagua_df.columns].round(2)

# Guardado de dataframe resultante en archivo CSV
conagua_df.to_csv('../output/conagua_'+str(year)+'_'+month_list[month-1].lower()+'_et0_req.csv')

In [None]:
# Visualizacion del dataframe
conagua_df