*Maestría de Ciencia de Datos - UNAJ*

# Trabajo Final: Aplicaciones de Ciencia de datos

*Febrero 2026*

## Integrantes
- Raul Burgos
- Mauro Cejas Marcovecchio
- Raul Muñoz
- Mirta Soto

## Descripción

El objetivo del siguiente trabajo es el análisis exploratorio, preprocesamiento de datos y el desarrollo de modelos de machine
learning sobre el dataset provisto por el Sistema de Información y Gestión Agrometeorológica (SIGA), del [Instituto Nacional de Tecnología Agropecuaria (INTA)](https://siga.inta.gob.ar/). Esta base de datos contiene información agrometeorológica de la Provincia de Corrientes, Argentina.


In [None]:
# Apuntes de clase:

# Tenemos que unificar los tres archivos
# Los datasets tienen fecha del 08-12-2025, están actualizados.
# Estos provienen de tres estaciones meteorológicas distintas, aunque cercanas.
# En la pestaña 'Datos estacion' nos da más información sobre cada estación.
# Los valores están tomados con medidas diarias, no corresponden a un momento específico del día.

# Variable objetivo: El valor que más nos va a interesar es la radiación global (columna AB)
# De las 500 estaciones meteorológicas del INTA, solo 40 tienen información sobre radiación global.
# ¿Podríamos predecir la radiación con menos cantidad de información que la que tenemos?
# Falta de sentido de agregar muchas variables. 
# Nos van a pedir que nos quedemos con las 4, 5, 6 variables que más servirían para modelar la radiación solar..

# Fecha: es fundamental por la época del año, aunque también se refleja en el resto de los parámetros.
# Podríamos hacer un análisis completo, o un análisis estacional 
# (filtrando los datos por estación codificando los valores de las fechas, por ejemplo).

# Vacíos en la variable Radiación_Global: vamos a tener que considerar solo aquellas filas que tengan valor en dicha columna para poder
# hacer el entrenamiento y el testeo. 

# Ver si rinde sumar el dato de latitud y longitud sobre los que se ubiquen las estaciones meteorológicas.

# No va  a haber algo que esté mal o que esté bien, sino que lo importante va a ser la explicación que demos de las decisiones que tomemos.
# El objetivo no es que las métricas sean perfectas, sino que empecemos a entender la aplicación de la ciencia de datos
# e ir aplicando las distintas herramientas que fuimos aprendiendo a lo largo de la maeestría
# El objetivo no es obtener las métricas óptimas, sino el desarrollo del trabajo.
# Preparación para la tesis.

In [None]:
# Apuntes 17/12:

# Últimas 4 clases del curso van a ser después del carnaval. 
# Las primeras dos clases van a ser de consulta y las otras dos de presentación
# Si ya tenemos cerrado el trabajo, se puede presentarlo durante la primera semana para sacarnoslo de encima.

# Con que un solo integrante lo suba al espacio de entrega, estamos bien. 

# Presentaciones de 10/15 min de largo. Resumidas. En Power Point.
# Fecha de entrega máxima: 22 de febrero, para que los profesores puedan leer el informe.
# Comprimido en winrar con apellidos de los integrantes.

## EDA y Preprocesamiento

In [None]:
# (Al finalizar la Parte I se debe contar con un dataset listo 
# para ser utilizado con algoritmos de aprendizaje automático).

In [1]:
# Importar librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [2]:
# Primero que nada, tenemos que importar al entorno los tres archivos provistos.
# Debido a que se trata de archivos .xls, tenemos que utilizar el engine 'xlrd' al momento de importarlos.
# El problema es que la librería xlrd ya no soporta archivos xls a partir de su versión 2.0.1
# Por lo tanto, deberíamos crear un entorno virtual con una versión anterior de xlrd (1.2.0)
# De todas formas, vamos a optar por el camino más sencillo, que es guardar los archivos en formato .xlsx manualmente y luego importarlos.

dataset1 = pd.read_excel('data/A872950.xlsx')
dataset2 = pd.read_excel('data/A872951.xlsx')
dataset3 = pd.read_excel('data/A872952.xlsx')

In [3]:
print("Dimensiones:", dataset1.shape)
print("Dimensiones:", dataset2.shape)
print("Dimensiones:", dataset3.shape)

Dimensiones: (3939, 30)
Dimensiones: (3714, 30)
Dimensiones: (2220, 30)


In [4]:
print("Categorías de los datasets:")
print(dataset1.columns)
print(dataset2.columns)
print(dataset3.columns)

# De esta manera, vamos a poder ver que las tres tablas tienen las mismas columnas y tipos de datos.
# Por lo tanto, podemos proceder a unificarlas en un solo dataset.

Categorías de los datasets:
Index(['Fecha', 'Temperatura_Abrigo_150cm', 'Temperatura_Abrigo_150cm_Maxima',
       'Temperatura_Abrigo_150cm_Minima', 'Temperatura_Intemperie_5cm_Minima',
       'Temperatura_Intemperie_50cm_Minima', 'Temperatura_Suelo_5cm_Media',
       'Temperatura_Suelo_10cm_Media', 'Temperatura_Inte_5cm',
       'Temperatura_Intemperie_150cm_Minima', 'Humedad_Suelo',
       'Precipitacion_Pluviometrica', 'Precipitacion_Cronologica',
       'Precipitacion_Maxima_30minutos', 'Heliofania_Efectiva',
       'Heliofania_Relativa', 'Tesion_Vapor_Media', 'Humedad_Media',
       'Humedad_Media_8_14_20', 'Rocio_Medio', 'Duracion_Follaje_Mojado',
       'Velocidad_Viento_200cm_Media', 'Direccion_Viento_200cm',
       'Velocidad_Viento_1000cm_Media', 'Direccion_Viento_1000cm',
       'Velocidad_Viento_Maxima', 'Presion_Media', 'Radiacion_Global',
       'Horas_Frio', 'Unidades_Frio'],
      dtype='object')
Index(['Fecha', 'Temperatura_Abrigo_150cm', 'Temperatura_Abrigo_150cm_Maxi

In [27]:
df = pd.concat([dataset1, dataset2, dataset3], ignore_index=True)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9873 entries, 0 to 9872
Data columns (total 30 columns):
 #   Column                               Non-Null Count  Dtype  
---  ------                               --------------  -----  
 0   Fecha                                9873 non-null   object 
 1   Temperatura_Abrigo_150cm             9508 non-null   float64
 2   Temperatura_Abrigo_150cm_Maxima      9493 non-null   float64
 3   Temperatura_Abrigo_150cm_Minima      9487 non-null   float64
 4   Temperatura_Intemperie_5cm_Minima    0 non-null      float64
 5   Temperatura_Intemperie_50cm_Minima   1404 non-null   float64
 6   Temperatura_Suelo_5cm_Media          0 non-null      float64
 7   Temperatura_Suelo_10cm_Media         9116 non-null   float64
 8   Temperatura_Inte_5cm                 0 non-null      float64
 9   Temperatura_Intemperie_150cm_Minima  1412 non-null   float64
 10  Humedad_Suelo                        0 non-null      float64
 11  Precipitacion_Pluviometrica   

- ¿Cuántos registros y variables contiene el dataset?
- ¿Qué tipo de variables están presentes?
- ¿Existen valores faltantes, duplicados o inconsistencias?
- ¿Se identifican valores atípicos relevantes?

Tal como podemos observar mediante la descripción del dataset que aglutina a los tres archivos, disponemos de un total de 9873 registros y 30 variables. 

De todas formas, aquellas variables vinculadas a la medición de la temperatura a la intemperie y el suelo a 5 cm, como también la humedad del suelo, no tendrán valores válidos. Por lo tanto, las quitaremos del dataset utilizado, junto a las variables vinculadas a la Heliofanía, quedándonos con solo 24 variables. La mayoría de ellas serán de tipo numérico, a excepción de las vinculadas a la dirección del viento y la fecha, cuyo tipo deberemos corregir.

In [28]:
# Vamos a descartar todas las columnas cuyos valores sean nulos en su totalidad, ya que no aportan información alguna.
# También, vamos a descartar las columnas referidas a la Heliofania, tal como se indicó en el enunciado.

df = df.dropna(axis=1, how='all')
df = df.drop(columns=['Heliofania_Efectiva', 'Heliofania_Relativa'])


In [29]:
df.head()

Unnamed: 0,Fecha,Temperatura_Abrigo_150cm,Temperatura_Abrigo_150cm_Maxima,Temperatura_Abrigo_150cm_Minima,Temperatura_Intemperie_50cm_Minima,Temperatura_Suelo_10cm_Media,Temperatura_Intemperie_150cm_Minima,Precipitacion_Pluviometrica,Precipitacion_Cronologica,Precipitacion_Maxima_30minutos,...,Duracion_Follaje_Mojado,Velocidad_Viento_200cm_Media,Direccion_Viento_200cm,Velocidad_Viento_1000cm_Media,Direccion_Viento_1000cm,Velocidad_Viento_Maxima,Presion_Media,Radiacion_Global,Horas_Frio,Unidades_Frio
0,2013-09-03 00:00:00.0,,,,,,,,,,...,,,,,,,,,,
1,2013-09-04 00:00:00.0,13.49305,23.5,5.4,,17.35556,,0.0,0.0,0.0,...,,,C,,C,,,,3.153999,0.498
2,2013-09-05 00:00:00.0,17.53334,28.9,9.7,,18.86459,,0.0,0.0,0.0,...,,,C,,C,,,,0.0,-9.129999
3,2013-09-06 00:00:00.0,22.60834,34.1,13.8,,21.49792,,0.0,0.0,0.0,...,,,C,,C,,,,0.0,-16.84902
4,2013-09-07 00:00:00.0,26.51389,36.3,20.3,,23.58055,,0.0,0.0,0.0,...,,,C,,C,,,,0.0,-23.90403


In [30]:
# Vamos a convertir la columna 'Fecha' en un objeto datetime de pandas, para facilitar su manipulación posterior.
df['Fecha'] = pd.to_datetime(df['Fecha'])

In [31]:
display(df.describe())
display(df.describe(include=['object']))

Unnamed: 0,Fecha,Temperatura_Abrigo_150cm,Temperatura_Abrigo_150cm_Maxima,Temperatura_Abrigo_150cm_Minima,Temperatura_Intemperie_50cm_Minima,Temperatura_Suelo_10cm_Media,Temperatura_Intemperie_150cm_Minima,Precipitacion_Pluviometrica,Precipitacion_Cronologica,Precipitacion_Maxima_30minutos,...,Humedad_Media_8_14_20,Rocio_Medio,Duracion_Follaje_Mojado,Velocidad_Viento_200cm_Media,Velocidad_Viento_1000cm_Media,Velocidad_Viento_Maxima,Presion_Media,Radiacion_Global,Horas_Frio,Unidades_Frio
count,9873,9508.0,9493.0,9487.0,1404.0,9116.0,1412.0,9149.0,9129.0,8324.0,...,9475.0,8754.0,9041.0,8998.0,8998.0,9049.0,9041.0,9041.0,9426.0,9427.0
mean,2020-03-09 04:26:19.580674304,21.293295,27.986853,15.902951,-12.185541,23.690962,14.837252,3.006695,3.016639,1.188011,...,73.168338,16.477594,3.56528,4.479905,5.599881,22.070803,1004.726982,15.510097,0.530281,-15.872573
min,2013-09-03 00:00:00,3.411111,9.5,-28.1,-30.0,-6.8,-29.0,0.0,0.0,0.0,...,3.0,-7.962359,0.0,0.0,0.0,0.0,986.2761,0.02172,0.0,-23.90403
25%,2017-06-08 00:00:00,17.36337,23.6,12.1,-28.1,19.157812,11.0,0.0,0.0,0.0,...,62.0,12.848688,0.0,2.221701,2.777127,16.1,1000.378,9.58722,0.0,-23.90403
50%,2020-03-20 00:00:00,21.935415,28.5,16.7,-23.0,23.941665,15.6,0.0,0.0,0.0,...,75.0,17.068095,1.083333,3.951736,4.939671,20.7,1004.11,15.1689,0.0,-21.33102
75%,2023-01-05 00:00:00,25.55173,32.7,20.2,8.5,27.848092,19.3,0.0,0.0,0.0,...,86.0,20.685068,6.766665,6.188195,7.735243,26.8,1008.708,22.13724,0.0,-10.624
max,2025-12-06 00:00:00,42.95832,60.0,43.3,27.1,50.0,29.2,169.0,220.0,58.2,...,100.0,34.39104,23.99998,18.63473,23.29341,176.6,1033.712,32.27273,18.92402,19.50502
std,,5.623973,6.378189,5.751355,18.710997,5.825771,6.099829,11.224704,11.647958,4.363469,...,17.093648,5.583937,4.575034,3.036514,3.795643,10.144486,6.122959,7.863327,2.067324,10.680907


Unnamed: 0,Direccion_Viento_200cm,Direccion_Viento_1000cm
count,9873,9873
unique,9,2
top,C,C
freq,4726,9566


In [32]:
na_count = df.isnull().sum().sort_values(ascending=False)
print("Valores faltantes por columna:")
print(na_count)

Valores faltantes por columna:
Temperatura_Intemperie_50cm_Minima     8469
Temperatura_Intemperie_150cm_Minima    8461
Precipitacion_Maxima_30minutos         1549
Rocio_Medio                            1119
Velocidad_Viento_1000cm_Media           875
Velocidad_Viento_200cm_Media            875
Radiacion_Global                        832
Presion_Media                           832
Duracion_Follaje_Mojado                 832
Velocidad_Viento_Maxima                 824
Temperatura_Suelo_10cm_Media            757
Precipitacion_Cronologica               744
Precipitacion_Pluviometrica             724
Horas_Frio                              447
Unidades_Frio                           446
Tesion_Vapor_Media                      436
Humedad_Media_8_14_20                   398
Temperatura_Abrigo_150cm_Minima         386
Temperatura_Abrigo_150cm_Maxima         380
Humedad_Media                           371
Temperatura_Abrigo_150cm                365
Direccion_Viento_200cm                    0
D

In [None]:
# Vamos a contar y generar un dataframe específico con los registros duplicados.

duplicadas = df.duplicated(keep=False)
df_duplicados = df[duplicadas]

dup_count = df.duplicated().sum()
print("Filas duplicadas:", dup_count)


Filas duplicadas: 42


En cuanto a las inconsistencias, en primer lugar, tendremos un total de 21 filas duplicadas, es decir, 42 registros. Al almacenarlos en un dataframe especial, veremos que los valores de todas sus variables serán nulos, espacios o estarán vacíos. Por lo tanto, vamos a eliminarlos.

In [34]:
df = df.drop_duplicates(keep=False)

In [None]:
# Estaría bueno saber por qué el valor de la dirección del viento a 1000 cm es únicamente C
# ¿C significará 'Calma'? 

print(df['Direccion_Viento_200cm'].unique())
print(df['Direccion_Viento_1000cm'].unique())

['  ' 'C ' 'S ' 'W ' 'E ' 'SE' 'NE' 'N ' 'NW']
['  ' 'C ']


A su vez, resulta interesante notar que los valores de la categoría referida a la dirección del viento a 1000 cm son nulos o una 'C'. Ésto es diferente a lo que ocurre en el caso de esta misma medición a 200 cm, que correctamente integra los distintos puntos cardinales. Más allá de suponer que la 'C' significa viento 'calmo' y, considerando que el 97% de los valores de esa categoría toman el mismo valor, procederemos a dejarla de lado.

In [35]:
df = df.drop(columns=['Direccion_Viento_1000cm'])


Resumir estadísticamente los datos: obtener las principales medidas de posición y de
dispersión de cada variable.

Generar visualizaciones que permitan realizar un análisis univariado, bivariado y
multivariado, justificando brevemente la elección de cada tipo de gráfico.

Realizar un preprocesamiento y limpieza avanzada de datos.

Elaborar conclusiones parciales que sinteticen los principales hallazgos del análisis
exploratorio y las decisiones de preprocesamiento adoptadas.

## Modelado, Evaluación e Interpretabilidad

### Selección de modelos

Seleccionar al menos dos algoritmos de machine learning adecuados para el problema
planteado y justificar su elección.

### Entrenamiento, validación y optimización de modelos

Realizar el entrenamiento de los modelos seleccionados, incorporando técnicas de
validación cruzada (cross-validation) y la optimización de hiperparámetros mediante algún
método de búsqueda (por ejemplo, Grid Search, Random Search u otros).

Describir el esquema de validación utilizado y los principales hiperparámetros optimizados.

### Evaluación y análisis de resultados

Evaluar y comparar el desempeño de los modelos utilizando métricas adecuadas para el
problema.

Visualizar y analizar el output de los modelos, incluyendo comparaciones entre valores
reales y predichos sobre el conjunto de test.

Detallar y representar gráficamente la “confianza” o incertidumbre asociada a las
predicciones, cuando corresponda.

### Interpretabilidad de los modelos

Realizar un análisis de interpretabilidad de los modelos entrenados, identificando las variables
más relevantes y discutiendo su impacto en las predicciones.

### Conclusiones

Elaborar conclusiones integradoras a partir de los resultados obtenidos, destacando
fortalezas, limitaciones y posibles mejoras
