### Cuaderno de exploración del analisis estadistico
Este cuaderno desarrolla la exploración de las fuentes con datos, que anteriormente fueron separadas en archivos independientes por cada estación.

Empezamos leyendo las fuentes independientes generadas por el paso de Lectura de Fuentes y separación por archivos.

In [34]:
import shutil
import os
import pandas as pd
import warnings
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

warnings.filterwarnings('ignore')

def annotate_boxplot_outliers(data, x_col, y_col, label_col, ax):
    cont = 0
    for i, row in data.iterrows():
        x = row[x_col]
        y = row[y_col]
        label = row[label_col]

        # Calcular los percentiles para detectar outliers
        Q1 = data[data[x_col] == x][y_col].quantile(0.25)
        Q3 = data[data[x_col] == x][y_col].quantile(0.75)
        IQR = Q3 - Q1
        lower_bound = Q1 - 1.5 * IQR
        upper_bound = Q3 + 1.5 * IQR

        if y < lower_bound or y > upper_bound:
            cont += 1
            orient = (10, 0) if cont % 2 == 0 else (-30, 0)
            ax.annotate(label, (x, y), textcoords="offset points", xytext=orient, ha='left', va='center')

In [30]:
lista_zonas = ['MAGDALENA_MEDIO']
path = '../datos/separados_por_estacion/'

In [98]:
for zona in lista_zonas:
    print('Zona:',zona)
    path_zone = path+zona

    for file in os.listdir(path_zone):
        print('Archivo:',file)
        col = file.split('.')[0]

        shutil.rmtree(f'../salidas/{zona}/{col}/graficos_descriptivos/', ignore_errors=True)
        path_outputs = f'../salidas/{zona}/{col}/graficos_descriptivos/'

        file_path = path_zone + '/' + file
        df = pd.read_csv(file_path, sep=',')

        # Descripcion de los datos
        print('Estadisticas:',df.describe()) # Revisar que valores guardar a nivel de estadisticas
        print('Nulos:',df.isnull().sum())

        # Generamos bloxplot por mes
        plt.figure(figsize=(14, 6))
        ax = sns.boxplot(y=col, x='Mes', data=df, whis=1.5)
        annotate_boxplot_outliers(df, 'Mes', col, 'Año', ax)
        plt.title(f'Boxplot de precipitación de la estación {col} por Mes')
        plt.xlabel("Estacion: "+ col)
        plt.ylabel('Precipitación (mm)')
        os.makedirs(path_outputs, exist_ok=True)
        plt.legend()
        plt.savefig(f'{path_outputs}{col}.png')
        plt.close()

        # Generamos diagramas de barras por cada año
        os.makedirs(path_outputs + "graficos_barras/", exist_ok=True)
        for year in df['Año'].unique():
            plt.figure(figsize=(14, 6))
            sns.barplot(x='Mes', y=col, data=df[df['Año'] == year], palette='viridis')
            plt.title(f'Precipitación por mes en la estación {col}, para el año {year}')
            plt.xlabel(year)
            plt.ylabel('Precipitación (mm)')
            plt.savefig(f'{path_outputs}graficos_barras/{col}_{year}.png')
            plt.close()
            plt.show()

Zona: MAGDALENA_MEDIO
Archivo: 23010020.csv
Estadisticas:                Año    23010020
count   240.000000  222.000000
mean   2009.500000  223.220270
std       5.778332  128.692542
min    2000.000000    0.000000
25%    2004.750000  132.925000
50%    2009.500000  223.400000
75%    2014.250000  317.275000
max    2019.000000  601.500000
Nulos: Fecha        0
Mes          0
Año          0
23010020    18
dtype: int64
Archivo: 23010080.csv
Estadisticas:                Año    23010080
count   240.000000  231.000000
mean   2009.500000   98.061905
std       5.778332   79.351405
min    2000.000000    0.000000
25%    2004.750000   35.300000
50%    2009.500000   84.900000
75%    2014.250000  149.300000
max    2019.000000  356.800000
Nulos: Fecha       0
Mes         0
Año         0
23010080    9
dtype: int64
Archivo: 23020080.csv
Estadisticas:                Año    23020080
count   240.000000  239.000000
mean   2009.500000  274.178243
std       5.778332  138.838370
min    2000.000000   13.100000
2