# Climatología de Lluvia Observada

## Importar librerias

In [13]:
import glob
import pandas as pd
import seaborn as sns
import os
import zipfile
from datetime import datetime
import matplotlib.pyplot as plt
import numpy as np

## Abrir todos los archivos excel por cuenca

Cargar los archivos. La variable "filenames" contiene una ruta de archivo en Windows que apunta a archivos con extensión ".xlsx" relacionados con datos observados de lluvia en diferentes cuencas.

In [14]:
filenames = 'C:/Users/arias/OneDrive/Documentos/UCR/TFG/Climatologia/Observado/Lluvia/Cuencas/Cuenca*.xlsx'

Se crea un diccionario vacío llamado `dat` para almacenar los datos de cada archivo. Luego, se utiliza un bucle para recorrer cada archivo de Excel que coincide con el patrón especificado en "filenames" utilizando la función `glob`. Los datos de cada archivo se leen utilizando la biblioteca pandas y se almacenan en el diccionario "dat", utilizando el nombre del archivo como clave.

In [15]:
dat = {}

for file in glob.glob(filenames):
    dat[file] = pd.read_excel(file)

Se accede a los datos de cada archivo dentro del diccionario `dat` utilizando su nombre de archivo como clave. Los datos se extraen y se agregan a una lista llamada `data_new`.

In [16]:
data_new = []

for file, data in dat.items():
    data_new.append(data)

In [19]:
data_new

[       CUENCA ESTACION      FECHA  LLUVIA_DIARIA
 0         100      633 2004-02-12           0.00
 1         100      633 2004-02-13           1.78
 2         100      633 2004-02-14           0.51
 3         100      633 2004-02-15           0.00
 4         100      633 2004-02-16           0.00
 ...       ...      ...        ...            ...
 29854     100      655 2022-12-27           0.20
 29855     100      655 2022-12-28           0.00
 29856     100      655 2022-12-29           7.80
 29857     100      655 2022-12-30           0.60
 29858     100      655 2022-12-31           0.20
 
 [29859 rows x 4 columns],
       CUENCA ESTACION      FECHA  LLUVIA_DIARIA
 0        200      002 2002-01-01            6.0
 1        200      002 2002-01-02            1.3
 2        200      002 2002-01-03            1.6
 3        200      002 2002-01-04           42.2
 4        200      002 2002-01-05            0.0
 ...      ...      ...        ...            ...
 6636     200      009 2018-

## Arreglar datos

Se realiza un bucle utilizando la función `enumerate()` para recorrer los elementos de la lista `data_new`, donde cada elemento es un marco de datos. Dentro del bucle, se define una función llamada `formatear_valor()` que toma un valor y lo formatea añadiendo ceros a la izquierda según su magnitud. Luego, se aplica esta función a la columna 'ESTACION' del marco de datos actual utilizando el método `apply()`, modificando los valores de esa columna en su lugar. Esto se realiza para garantizar que todos los valores en la columna 'ESTACION' tengan una longitud específica con ceros a la izquierda.

In [18]:
for i, df in enumerate(data_new):
    def formatear_valor(valor):
        if valor < 10:
            return '00' + str(valor)
        elif valor < 100:
            return '0' + str(valor)
        else:
            return str(valor)

    # Aplicar la función a la tabla
    data_new[i]['ESTACION'] = data_new[i]['ESTACION'].apply(formatear_valor)

Se utiliza un bucle `for` con `enumerate()` para iterar sobre los elementos de la lista `data_new`, donde cada elemento es un DataFrame. Dentro del bucle, se crea una nueva columna llamada 'ESTACION_NEW' en el DataFrame actual. Esta columna combina las columnas 'CUENCA' y 'ESTACION' del DataFrame actual, convirtiendo los valores a tipo `str` (cadena de texto) y concatenándolos juntos. El resultado es una nueva columna que contiene la combinación de los valores de 'CUENCA' y 'ESTACION'.

In [20]:
for i, df in enumerate(data_new):
    data_new[i]['ESTACION_NEW'] = data_new[i]['CUENCA'].astype(str) + data_new[i]['ESTACION'].astype(str)

In [21]:
data_new

[       CUENCA ESTACION      FECHA  LLUVIA_DIARIA ESTACION_NEW
 0         100      633 2004-02-12           0.00       100633
 1         100      633 2004-02-13           1.78       100633
 2         100      633 2004-02-14           0.51       100633
 3         100      633 2004-02-15           0.00       100633
 4         100      633 2004-02-16           0.00       100633
 ...       ...      ...        ...            ...          ...
 29854     100      655 2022-12-27           0.20       100655
 29855     100      655 2022-12-28           0.00       100655
 29856     100      655 2022-12-29           7.80       100655
 29857     100      655 2022-12-30           0.60       100655
 29858     100      655 2022-12-31           0.20       100655
 
 [29859 rows x 5 columns],
       CUENCA ESTACION      FECHA  LLUVIA_DIARIA ESTACION_NEW
 0        200      002 2002-01-01            6.0       200002
 1        200      002 2002-01-02            1.3       200002
 2        200      002 2002-0

Se utiliza un bucle `for` con `enumerate()` para iterar sobre los elementos de la lista `data_new`, donde cada elemento es un DataFrame. Dentro del bucle, se utiliza el método `pop()` para eliminar las columnas 'CUENCA' y 'ESTACION' del DataFrame actual.

In [22]:
data_new = [tabla[['ESTACION_NEW', 'FECHA', 'LLUVIA_DIARIA']] for tabla in data_new]

In [23]:
data_new

[      ESTACION_NEW      FECHA  LLUVIA_DIARIA
 0           100633 2004-02-12           0.00
 1           100633 2004-02-13           1.78
 2           100633 2004-02-14           0.51
 3           100633 2004-02-15           0.00
 4           100633 2004-02-16           0.00
 ...            ...        ...            ...
 29854       100655 2022-12-27           0.20
 29855       100655 2022-12-28           0.00
 29856       100655 2022-12-29           7.80
 29857       100655 2022-12-30           0.60
 29858       100655 2022-12-31           0.20
 
 [29859 rows x 3 columns],
      ESTACION_NEW      FECHA  LLUVIA_DIARIA
 0          200002 2002-01-01            6.0
 1          200002 2002-01-02            1.3
 2          200002 2002-01-03            1.6
 3          200002 2002-01-04           42.2
 4          200002 2002-01-05            0.0
 ...           ...        ...            ...
 6636       200009 2018-03-04            0.0
 6637       200009 2018-03-05            0.0
 6638       20

## Agrupar datos por estación

Se crea una lista llamada "my_list" que contiene números del 0 al 21 utilizando la función `np.arange()`. Luego, se inicializa una lista vacía llamada "porestacion". A continuación, se realiza un bucle `for` para iterar sobre los elementos de "my_list". Dentro del bucle, se utiliza el método `groupby()` para agrupar los datos del DataFrame por la columna 'ESTACION_NEW'.

In [35]:
data_por_estacion = []

for df in data_new:
    grupos = df.groupby('ESTACION_NEW')
    
    for ESTACION, grupo in grupos:
        data_por_estacion.append(grupo)

In [36]:
data_por_estacion

[     ESTACION_NEW      FECHA  LLUVIA_DIARIA
 0          100633 2004-02-12           0.00
 1          100633 2004-02-13           1.78
 2          100633 2004-02-14           0.51
 3          100633 2004-02-15           0.00
 4          100633 2004-02-16           0.00
 ...           ...        ...            ...
 6508       100633 2022-12-27           7.00
 6509       100633 2022-12-28           2.20
 6510       100633 2022-12-29          27.20
 6511       100633 2022-12-30           2.00
 6512       100633 2022-12-31           7.60
 
 [6513 rows x 3 columns],
       ESTACION_NEW      FECHA  LLUVIA_DIARIA
 6513        100641 2007-03-09            0.9
 6514        100641 2007-03-10            1.9
 6515        100641 2007-03-11            8.5
 6516        100641 2007-03-12           12.5
 6517        100641 2007-03-13            0.0
 ...            ...        ...            ...
 11976       100641 2022-12-27            0.8
 11977       100641 2022-12-28           11.6
 11978       10064

Se realiza una copia profunda de la lista y modifica cada elemento para que contenga un único valor de la columna en la posición (0, 2) del DataFrame correspondiente.

In [37]:
NUMERO = [df.iloc[0, 0] for df in data_por_estacion]

Eliminar la columna 'ESTACION_NEW' de cada DataFrame en la lista "porestacion".

In [40]:
for i, df in enumerate(data_por_estacion):
    data_por_estacion[i].pop('ESTACION_NEW')

Se filtra cada DataFrame en la lista "data_por_estacion" para incluir solo las filas donde el valor de 'LLUVIA_DIARIA' es mayor o igual a 0.

In [41]:
for i, df in enumerate(data_por_estacion):
    data_por_estacion[i] = df.loc[df['LLUVIA_DIARIA'] >= 0] 

In [42]:
data_por_estacion

[          FECHA  LLUVIA_DIARIA
 0    2004-02-12           0.00
 1    2004-02-13           1.78
 2    2004-02-14           0.51
 3    2004-02-15           0.00
 4    2004-02-16           0.00
 ...         ...            ...
 6508 2022-12-27           7.00
 6509 2022-12-28           2.20
 6510 2022-12-29          27.20
 6511 2022-12-30           2.00
 6512 2022-12-31           7.60
 
 [6513 rows x 2 columns],
            FECHA  LLUVIA_DIARIA
 6513  2007-03-09            0.9
 6514  2007-03-10            1.9
 6515  2007-03-11            8.5
 6516  2007-03-12           12.5
 6517  2007-03-13            0.0
 ...          ...            ...
 11976 2022-12-27            0.8
 11977 2022-12-28           11.6
 11978 2022-12-29           15.6
 11979 2022-12-30            0.0
 11980 2022-12-31           65.8
 
 [5468 rows x 2 columns],
            FECHA  LLUVIA_DIARIA
 11981 2009-12-11            1.4
 11982 2009-12-12            0.2
 11983 2009-12-13            0.0
 11984 2009-12-14            0.5

* Para asegurar que las fechas estén ordenadas de manera adecuada, se utiliza la función `sort_values` de Pandas.

In [43]:
# Crear la nueva lista vacía
data_por_estacion_total = []

# Iterar a través de las tablas en la lista original
for df in data_por_estacion:
    # Ordenar la tabla por la columna deseada (en este ejemplo, 'LLUVIA_DIARIA')
    df_ordenado = df.sort_values('FECHA', ascending=True)
    # Agregar la tabla ordenada a la nueva lista
    data_por_estacion_total.append(df_ordenado)

* Volver la columna 'FECHA' un dateintex

In [44]:
for i, df in enumerate(data_por_estacion_total):
    data_por_estacion_total[i] = data_por_estacion_total[i].set_index('FECHA')

## Obtener los estadisticos diarios

* Eliminar los valores Nan

In [45]:
for i, df in enumerate(data_por_estacion_total):
    data_por_estacion_total[i] = data_por_estacion_total[i].dropna(subset=['LLUVIA_DIARIA'])

* (media, mediana, máximo, mínimo, q05 y q95)

In [54]:
#Obtener el promedio diario
diario_min = []
diario_max = []
diario_mean = []
diario_median = []
diario_p5 = []
diario_p95 = []
for i, df in enumerate(data_por_estacion_total):
    media = data_por_estacion_total[i].groupby(data_por_estacion_total[i].index.strftime("%m%d")).mean()
    mediana = data_por_estacion_total[i].groupby(data_por_estacion_total[i].index.strftime("%m%d")).median()
    maximo = data_por_estacion_total[i].groupby(data_por_estacion_total[i].index.strftime("%m%d")).max()
    minimo = data_por_estacion_total[i].groupby(data_por_estacion_total[i].index.strftime("%m%d")).min()
    p5 = data_por_estacion_total[i].groupby(data_por_estacion_total[i].index.strftime("%m%d")).quantile(0.05)
    p95 = data_por_estacion_total[i].groupby(data_por_estacion_total[i].index.strftime("%m%d")).quantile(0.95)
    #groupby() se usa agrupando por mes y por día a la vez
    diario_mean.append(media)
    diario_median.append(mediana)
    diario_max.append(maximo)
    diario_min.append(minimo)
    diario_p5.append(p5)
    diario_p95.append(p95)

* Crear una lista con los estadisticos

In [55]:
diario_estadisticos = [diario_min, diario_max, diario_mean, diario_median, diario_p5, diario_p95]

* Seleccionar solo la columna que interesa

In [56]:
diario_columnas = [[tabla['LLUVIA_DIARIA'] for tabla in lista] for lista in diario_estadisticos]

* Convertir en dataframe cada lista de estaciones

In [57]:
diario_dataframes = [pd.DataFrame(tabla) for tabla in diario_columnas]

* Transponer cada dataframe de estaciones

In [58]:
diario_dataframes_transpuestos = [tabla.transpose() for tabla in diario_dataframes]

* Renombrar las columnas

In [59]:
# Cambiar los nombres de las columnas en cada DataFrame
for df in diario_dataframes_transpuestos:
    df.columns = NUMERO

* Guardar estadisticos diarios en excel

In [60]:
# Crear el objeto ExcelWriter
writer = pd.ExcelWriter('Climatologia_Diaria_Observada_Lluvia.xlsx', engine='xlsxwriter')

# Escribir los DataFrames en diferentes hojas
diario_dataframes_transpuestos[0].to_excel(writer, sheet_name='min', index=True)
diario_dataframes_transpuestos[1].to_excel(writer, sheet_name='max', index=True)
diario_dataframes_transpuestos[2].to_excel(writer, sheet_name='mean', index=True)
diario_dataframes_transpuestos[3].to_excel(writer, sheet_name='median', index=True)
diario_dataframes_transpuestos[4].to_excel(writer, sheet_name='p5', index=True)
diario_dataframes_transpuestos[5].to_excel(writer, sheet_name='p95', index=True)


# Guardar el archivo Excel
writer.save()

## Obtener los estadisticos mensuales

In [61]:
#Obtener el promedio diario
mensual_min = []
mensual_max = []
mensual_mean = []
mensual_median = []
mensual_p5 = []
mensual_p95 = []
for i, df in enumerate(data_por_estacion_total):
    media = data_por_estacion_total[i].groupby(data_por_estacion_total[i].index.strftime("%m")).mean()
    mediana = data_por_estacion_total[i].groupby(data_por_estacion_total[i].index.strftime("%m")).median()
    maximo = data_por_estacion_total[i].groupby(data_por_estacion_total[i].index.strftime("%m")).max()
    minimo = data_por_estacion_total[i].groupby(data_por_estacion_total[i].index.strftime("%m")).min()
    p5 = data_por_estacion_total[i].groupby(data_por_estacion_total[i].index.strftime("%m")).quantile(0.05)
    p95 = data_por_estacion_total[i].groupby(data_por_estacion_total[i].index.strftime("%m")).quantile(0.95)
    #groupby() se usa agrupando por mes y por día a la vez
    mensual_min.append(minimo)
    mensual_max.append(maximo)
    mensual_mean.append(media)
    mensual_median.append(mediana)
    mensual_p5.append(p5)
    mensual_p95.append(p95)

In [62]:
#Crear lista de estadisticos
mensual_estadisticos = [mensual_min, mensual_max, mensual_mean, mensual_median, mensual_p5, mensual_p95]

#Seleccionar columnas que interesan
mensual_columnas = [[tabla['LLUVIA_DIARIA'] for tabla in lista] for lista in mensual_estadisticos]

#Convertir en dataframe
mensual_dataframes = [pd.DataFrame(tabla) for tabla in mensual_columnas]

#Transponer cada dataframe
mensual_dataframes_transpuestos = [tabla.transpose() for tabla in mensual_dataframes]

* Renombrar las columnas

In [63]:
# Cambiar los nombres de las columnas en cada DataFrame
for df in mensual_dataframes_transpuestos:
    df.columns = NUMERO

* Guardar estadisticos mensuales en excel

In [64]:
# Crear el objeto ExcelWriter
writer = pd.ExcelWriter('Climatologia_Mensual_Observada_Lluvia.xlsx', engine='xlsxwriter')

# Escribir los DataFrames en diferentes hojas
mensual_dataframes_transpuestos[0].to_excel(writer, sheet_name='min', index=True)
mensual_dataframes_transpuestos[1].to_excel(writer, sheet_name='max', index=True)
mensual_dataframes_transpuestos[2].to_excel(writer, sheet_name='mean', index=True)
mensual_dataframes_transpuestos[3].to_excel(writer, sheet_name='median', index=True)
mensual_dataframes_transpuestos[4].to_excel(writer, sheet_name='p5', index=True)
mensual_dataframes_transpuestos[5].to_excel(writer, sheet_name='p95', index=True)

# Guardar el archivo Excel
writer.save()