In [21]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from src.data_prep import RecomendadorClimatico

In [22]:
path = '../data/raw/'

In [23]:
# 2.Importación fuente de datos

In [24]:
#Lectura datos históricos
df = pd.read_csv(path+'df_con_ph.csv',encoding = "ISO-8859-1",delimiter=',')

In [None]:
"""
Fuente: NASA/POWER – Resolución nativa mensual y anual
Fechas (mes/día/año): del 01/01/1981 al 31/12/2025 en hora solar local (LST)
Ubicación: Latitud 9.8062  Longitud -83.8448
Elevación según MERRA-2: Promedio para una región de 0.5 x 0.625 grados de latitud/longitud = 1064.94 metros
Valor para datos faltantes que no pueden ser calculados o que están fuera del rango de disponibilidad de las fuentes: -999
Parámetro(s):
- PRECTOTCORR: Precipitación corregida de MERRA-2 (mm/día)
- PRECTOTCORR_SUM: Suma de la precipitación corregida de MERRA-2 (mm/día)
- QV2M: Humedad específica a 2 metros según MERRA-2 (g/kg)
- RH2M: Humedad relativa a 2 metros según MERRA-2 (%)
- T2M: Temperatura a 2 metros según MERRA-2 (°C)
- T2M_MAX: Temperatura máxima a 2 metros según MERRA-2 (°C)
- T2M_MIN: Temperatura mínima a 2 metros según MERRA-2 (°C)
"""

In [25]:
df.head()

Unnamed: 0,PARAMETER,YEAR,JAN,FEB,MAR,APR,MAY,JUN,JUL,AUG,...,MAR_PH_SUELO,APR_PH_SUELO,MAY_PH_SUELO,JUN_PH_SUELO,JUL_PH_SUELO,AUG_PH_SUELO,SEP_PH_SUELO,OCT_PH_SUELO,NOV_PH_SUELO,DEC_PH_SUELO
0,PRECTOTCORR,1981,2.64,3.32,1.72,6.02,6.66,11.86,3.34,9.65,...,6.5,6.7,7.6,6.9,4.2,5.1,7.2,7.4,4.6,8.0
1,PRECTOTCORR,1982,3.3,2.99,1.35,3.71,8.9,2.92,8.43,4.88,...,7.0,6.1,6.5,5.5,6.1,4.2,5.2,4.9,4.5,6.7
2,PRECTOTCORR,1983,1.38,0.09,0.93,3.76,3.01,4.61,5.27,5.66,...,4.2,7.1,4.8,7.2,4.6,4.2,5.7,6.3,4.4,6.6
3,PRECTOTCORR,1984,0.69,1.01,0.6,2.72,4.78,5.78,4.8,6.55,...,5.3,7.0,5.0,5.2,5.6,6.7,6.0,7.0,4.6,7.5
4,PRECTOTCORR,1985,1.94,0.41,0.5,0.84,2.21,8.02,5.41,4.31,...,5.2,5.5,7.7,7.0,6.6,5.1,5.1,7.1,5.2,7.1


In [26]:
df.tail()

Unnamed: 0,PARAMETER,YEAR,JAN,FEB,MAR,APR,MAY,JUN,JUL,AUG,...,MAR_PH_SUELO,APR_PH_SUELO,MAY_PH_SUELO,JUN_PH_SUELO,JUL_PH_SUELO,AUG_PH_SUELO,SEP_PH_SUELO,OCT_PH_SUELO,NOV_PH_SUELO,DEC_PH_SUELO
310,T2M_MIN,2021,13.59,15.41,13.38,15.34,15.95,15.07,16.23,15.62,...,4.8,5.7,4.8,5.4,5.7,6.3,4.8,5.5,7.9,5.2
311,T2M_MIN,2022,15.2,12.54,14.26,15.8,16.22,15.3,16.29,15.27,...,6.5,7.2,5.0,4.5,4.6,7.8,5.8,4.3,7.4,4.1
312,T2M_MIN,2023,14.71,13.53,15.29,14.76,16.99,15.81,16.89,17.24,...,5.2,5.4,7.0,7.6,7.0,7.6,6.2,5.4,5.3,4.5
313,T2M_MIN,2024,15.93,13.93,14.21,14.95,16.76,17.71,16.85,17.28,...,5.3,4.9,4.4,7.3,4.3,5.1,6.4,5.5,6.6,5.2
314,T2M_MIN,2025,14.9,15.61,15.96,16.5,-999.0,-999.0,-999.0,-999.0,...,7.0,4.3,5.8,4.1,6.6,4.2,6.2,4.2,5.2,6.3


In [27]:
#Notamos que anno 2025 como NO ha fanilizado tiene valores -999, esto afectaria el molode
#por lo que el grupo decide eliminar esta columna

In [28]:
# Filtrar los datos para eliminar el año 2025
df = df[df['YEAR'] != 2025]

In [29]:
df.to_csv(path+"/df_sin_2025.csv", index=False)

In [None]:
# 3.Análisis de Datos (EDA) + Preprocesado

In [30]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 308 entries, 0 to 313
Data columns (total 27 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   PARAMETER     308 non-null    object 
 1   YEAR          308 non-null    int64  
 2   JAN           308 non-null    float64
 3   FEB           308 non-null    float64
 4   MAR           308 non-null    float64
 5   APR           308 non-null    float64
 6   MAY           308 non-null    float64
 7   JUN           308 non-null    float64
 8   JUL           308 non-null    float64
 9   AUG           308 non-null    float64
 10  SEP           308 non-null    float64
 11  OCT           308 non-null    float64
 12  NOV           308 non-null    float64
 13  DEC           308 non-null    float64
 14  ANN           308 non-null    float64
 15  JAN_PH_SUELO  308 non-null    float64
 16  FEB_PH_SUELO  308 non-null    float64
 17  MAR_PH_SUELO  308 non-null    float64
 18  APR_PH_SUELO  308 non-null    float

In [31]:
df.isnull().sum() #Verificamos si hay valores nulos en alguna columna del dataframe

PARAMETER       0
YEAR            0
JAN             0
FEB             0
MAR             0
APR             0
MAY             0
JUN             0
JUL             0
AUG             0
SEP             0
OCT             0
NOV             0
DEC             0
ANN             0
JAN_PH_SUELO    0
FEB_PH_SUELO    0
MAR_PH_SUELO    0
APR_PH_SUELO    0
MAY_PH_SUELO    0
JUN_PH_SUELO    0
JUL_PH_SUELO    0
AUG_PH_SUELO    0
SEP_PH_SUELO    0
OCT_PH_SUELO    0
NOV_PH_SUELO    0
DEC_PH_SUELO    0
dtype: int64

In [32]:
df.describe().transpose()

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
YEAR,308.0,2002.5,12.71909,1981.0,1991.75,2002.5,2013.25,2024.0
JAN,308.0,35.017695,41.495773,0.02,13.525,18.945,36.1275,367.34
FEB,308.0,30.712468,30.396151,0.09,13.2225,19.04,29.1725,122.54
MAR,308.0,30.98461,33.185741,0.16,13.0875,19.605,29.55,222.83
APR,308.0,37.819416,43.030779,0.39,14.105,20.865,47.5225,292.17
MAY,308.0,55.654286,85.253147,1.06,15.335,21.245,82.925,785.07
JUN,308.0,57.761169,87.373877,2.47,15.5275,20.82,87.6875,768.48
JUL,308.0,55.178247,80.151263,2.41,15.0525,20.305,89.7925,539.28
AUG,308.0,53.434481,70.722279,2.08,15.145,20.37,89.855,384.7
SEP,308.0,53.965,73.755661,2.65,15.18,20.405,88.89,434.19


In [33]:
df

Unnamed: 0,PARAMETER,YEAR,JAN,FEB,MAR,APR,MAY,JUN,JUL,AUG,...,MAR_PH_SUELO,APR_PH_SUELO,MAY_PH_SUELO,JUN_PH_SUELO,JUL_PH_SUELO,AUG_PH_SUELO,SEP_PH_SUELO,OCT_PH_SUELO,NOV_PH_SUELO,DEC_PH_SUELO
0,PRECTOTCORR,1981,2.64,3.32,1.72,6.02,6.66,11.86,3.34,9.65,...,6.5,6.7,7.6,6.9,4.2,5.1,7.2,7.4,4.6,8.0
1,PRECTOTCORR,1982,3.30,2.99,1.35,3.71,8.90,2.92,8.43,4.88,...,7.0,6.1,6.5,5.5,6.1,4.2,5.2,4.9,4.5,6.7
2,PRECTOTCORR,1983,1.38,0.09,0.93,3.76,3.01,4.61,5.27,5.66,...,4.2,7.1,4.8,7.2,4.6,4.2,5.7,6.3,4.4,6.6
3,PRECTOTCORR,1984,0.69,1.01,0.60,2.72,4.78,5.78,4.80,6.55,...,5.3,7.0,5.0,5.2,5.6,6.7,6.0,7.0,4.6,7.5
4,PRECTOTCORR,1985,1.94,0.41,0.50,0.84,2.21,8.02,5.41,4.31,...,5.2,5.5,7.7,7.0,6.6,5.1,5.1,7.1,5.2,7.1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
309,T2M_MIN,2020,16.08,13.96,15.73,15.52,17.21,15.56,14.07,14.97,...,6.2,6.0,6.9,5.9,6.8,4.8,4.9,4.9,7.3,6.6
310,T2M_MIN,2021,13.59,15.41,13.38,15.34,15.95,15.07,16.23,15.62,...,4.8,5.7,4.8,5.4,5.7,6.3,4.8,5.5,7.9,5.2
311,T2M_MIN,2022,15.20,12.54,14.26,15.80,16.22,15.30,16.29,15.27,...,6.5,7.2,5.0,4.5,4.6,7.8,5.8,4.3,7.4,4.1
312,T2M_MIN,2023,14.71,13.53,15.29,14.76,16.99,15.81,16.89,17.24,...,5.2,5.4,7.0,7.6,7.0,7.6,6.2,5.4,5.3,4.5


In [34]:
recomendador = RecomendadorClimatico(path+"df_sin_2025.csv", path+"datos_con_recomendaciones_completo.csv")
recomendador.procesar()

✅ Archivo generado: ../data/raw/datos_con_recomendaciones_completo.csv
