**Universidad de Buenos Aires**
 \
**Laboratorio de Sistemas Embebidos**
 \
**Especialización en Inteligencia Artificial**
 \
**Analisis de Datos**
\
\
Integrantes:
 \
<b>Martín, Matías</b>
 \
<b>Rodríguez, Joaquín</b>
 \
<b>Querales, Gabriel</b>
\
\
Dataset:
<b>Datos meteorológicos de Argentina</b>

## Imports

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import requests
from bs4 import BeautifulSoup
from sqlalchemy import create_engine, MetaData, text
import json
from io import StringIO

---

## Carga de los dataset

### Carga el primer dataset (datos metereológicos desde 1991 a 2020) desde un archivo excel que obtuvimos del sitio oficial

In [None]:
# Optamos por cargar el primer dataset (datos metereológicos desde 1991 a 2020) desde un archivo excel que obtuvimos del sitio oficial
# del SMN: https://www.smn.gob.ar/descarga-de-datos. 

df_91_20_wide = pd.read_excel("Estadísticas normales Datos abiertos 1991-2020.xlsx")
# Exploramos las primeras filas del dataframe para entender su estructura
df_91_20_wide.head(12)

In [None]:
# Exploramos las ultimas filas del dataframe para ver si hay datos faltantes o inconsistencias
df_91_20_wide.tail()

### Observamos que será necesario eliminar las primeras 4 filas del DataFrame para poder analizarlo correctamente. Luego, se procederá a cargar y analizar el segundo dataset, correspondiente a los registros de temperatura de los últimos 365 días, a partir de un archivo de texto obtenido del mismo sitio web.

In [None]:
# Cargamos el archivo de temperaturas de los últimos 365 días usando formato de ancho fijo
df_365 = pd.read_fwf("registro_temperatura365d_smn.txt", encoding="latin1")

# Mostramos las primeras filas del DataFrame
df_365.head()

In [None]:
# Mostramos las últimas filas del DataFrame para verificar la estructura
df_365.tail()

In [None]:
# Saltamos las primeras 4 filas porque contienen información no relevante para el análisis.
df_91_20_wide = pd.read_excel("Estadísticas normales Datos abiertos 1991-2020.xlsx", skiprows=4)

#Salteamos las primeras 3 filas que contienen información no relevante y renombramos las columnas para que coincidan.
df_365 = pd.read_fwf("registro_temperatura365d_smn.txt", skiprows=3, names=["FECHA", "Temperatura Máx.", "Temperatura Mín.", "Estación"], encoding="latin1")


---

## Arreglo de los dataset

### Dataset 1991-2020

Encontramos dos problemas iniciales con este dataset: 
1. La forma en que se indican los datos faltantes es con la indicación "S/D", no reconocida por Pandas. 

2. La información se encuentra en un formato ancho ("wide format") donde no cumple con el formato "tidy" ideal para modelos de ML. 

In [None]:
# Primero solucionamos el problema de la referencia a los valores faltantes.
for col in df_91_20_wide.columns[2:]:
    df_91_20_wide[col] = (
        df_91_20_wide[col]
        .replace("S/D", pd.NA)          
    )

In [None]:
#Ahora solucionamos el segundo problema transformando el dataset en un formato long en el que cada variable tenga su propia columna 
# y cada observación su propia fila.

# Convertimos de formato wide a long con el método melt de pandas.
df_long= df_91_20_wide.melt(id_vars=['Estación', 'Valor Medio de'], var_name='Mes', value_name='Valor')
# Ahora pivoteamos para que las métricas sean columnas
df_91_20_tidy = df_long.pivot_table(index=['Estación', 'Mes'], columns='Valor Medio de', values='Valor').reset_index()

#Simplificamos algunos nombres de columnas.
df_91_20_tidy.rename(columns={
    'Humedad relativa (%)': 'Humedad relativa',
    'Nubosidad total (octavos)': 'Nubosidad total',
    'Precipitación (mm)': 'Precipitación',
    'Frecuencia de días con Precipitación superior a 1.0 mm': 'Prec. > a 1.0 mm',
    'Temperatura (°C)': 'Temperatura',
    'Temperatura máxima (°C)': 'Temperatura Máx.',
    'Temperatura mínima (°C)': 'Temperatura Mín.',
    'Velocidad del Viento (km/h) (2011-2020)': 'Viento'
}, inplace=True)

df_91_20_tidy.head()

Luego de esto podemos ver la diferencia entre cómo estaban arreglados los datos antes y cómo lo están ahora:

Arreglo inicial: 
![image.png](attachment:image.png)

Arreglo tidy: 
![image-4.png](attachment:image-4.png)

Puede notarse cómo ahora cada variable tiene su propia columna haciendo más fácil la selección de los Features y de la variable objetivo para el entrenamiento. Las primeras dos columnas actúan como una doble ID para las entradas, formadas por "Estación" + "Mes", de esta manera cada observación
corresponde a una estación determinada en un mes determinado. 

### Dataset de los últimos 365 días

Ahora debemos acomodar este segundo dataset para que sea compatible con el primero ya que vamos a hacer comparaciones entre ambos.

Observaciones: 

1. En los dos dataset figuran los datos de temperatura máxima y mínima que son los datos que vamos a comparar.


2. En el dataset de los últimos 365 días los datos están acomodados por día, a diferencia de las mediciones mensuales del primer dataset. Para solucionar esto elegimos agrupar las mediciones del segundo dataset en meses contando hasta el mes pasado (abril de 2025) ya que mayo no está completo.

3. También nos enfrentamos al problema de las estaciones en donde se realizaron las mediciones, en ambos dataset los nombres de algunas estaciones varían y también, como puede verse a continuación, la cantidad de estaciones es diferente.  

In [None]:
print("Cantidad de estaciones en dataset 91-20: ", df_91_20_tidy["Estación"].nunique())
print("Cantidad de estaciones en dataset 365: ", df_365["Estación"].nunique())

Por esta razón hemos decidido promediar las mediciones entre todas las estaciones para cada dataset a la hora de establecer las comparaciones entre ellos más adelante.

In [None]:
# Primero convertimos FECHA al formato datetime y agrupamos por meses.
df_365["FECHA"] = pd.to_datetime(df_365["FECHA"], format="%d%m%Y", errors='coerce')
df_365["Mes"] = df_365["FECHA"].dt.to_period("M")

# Eliminamos las filas correspondientes a mayo de 2025 y a enero, febrero, marzo y abril de 2024, para no tener mediciones de meses repetidas.
meses_a_excluir = ["2025-05", "2024-01", "2024-02", "2024-03", "2024-04"]
df_365 = df_365[~df_365["Mes"].isin(meses_a_excluir)]

#Eliminamos los datos faltantes. Siendo sólo el 1% de los datos, no es un problema para el análisis.
df_365 = df_365.dropna(axis=0)

#Ahora reemplazamos los valores de la columna "Mes" por los nombres de los meses para que coincida a cómo está en el otro dataframe.
meses = {
    '01': 'Ene',
    '02': 'Feb',
    '03': 'Mar',
    '04': 'Abr',
    '05': 'May',
    '06': 'Jun',
    '07': 'Jul',
    '08': 'Ago',
    '09': 'Sep',
    '10': 'Oct',
    '11': 'Nov',
    '12': 'Dic'
}

df_365['Mes'] = df_365['FECHA'].dt.strftime('%m').map(meses)

# Calculamos el promedio mensual de las temperaturas máximas y mínimas entre todas las estaciones juntas
df_365_tidy = df_365.groupby("Mes")[["Temperatura Máx.", "Temperatura Mín."]].mean().round(1)

df_365_tidy.head()

Finalmente quedamos con los dos dataset en un formato compatible para la comparación de las temperaturas máximas y mínimas promediadas mensualmente.

El EDA que realizaremos a continuación, de todas maneras, estará centrado en el dataset 91-20 ya que es mucho más rico en información que el otro, al que sólo usaremos para dicha comparación. 



In [None]:
#Para finalizar renombramos ambos datasets para trabajar con ellos y reordenamos las columnas de df_91_20. 
df_91_20 = df_91_20_tidy

nuevo_orden = ['Estación',                   #Variables de id      
               'Mes',                               
               'Precipitación',              #Variables climáticas
               'Prec. > a 1.0 mm', 
               'Humedad relativa', 
               'Nubosidad total', 
               'Viento',              
               'Temperatura',                #Variables de temperatura
               'Temperatura Máx.',
               'Temperatura Mín.',
]

df_91_20 = df_91_20_tidy[nuevo_orden]

*Nota: entendemos que las mediciones de temperatura también son consideradas parte del clima, pero elegimos esta clasificación para diferenciar aquellas variables estrictamente ligadas a la temperatura de las demás.*

---

## EDA

#### Descripción del dataset 91-20
Todas las variables son de tipo **numéricas continuas** salvo las dos primeras columnas que son **categóricas**.

| Columna            | Descripción                                                                         |
| -------------      | ------------------------------------------------------------------------------------|
| `Estación`         | El nombre de la estación desde donde se tomaron los datos.                          |
| `Mes`              | El mes al que corresponden las mediciones.                                          |
| Mediciones         | ------------------------------------------------------------------------------------|
| `Precipitación`    | La precipitación, en milímetros.                                                    | 
| `Prec. > a 1.0 mm` | Cantidad de días que llovió más de 1 milímetro.                                     |
| `Humedad relativa` | La humedad relativa.                                                                | 
| `Nubosidad total`  | La nubosidad, expresada en octavos.                                                 | 
| `Viento`           | La velocidad del viento, en km/h.                                                   | 
| `Temperatura`      | La temperatura promedio, en °C.                                                     | 
| `Temperatura Máx.` | La temperatura máxima, en °C.                                                       | 
| `Temperatura Mín.` | La temperatura mínima, en °C.                                                       | 

**Ahora vemos la cantidad de entradas del dataset junto con una muestra del mismo.**


In [None]:
# Ahora vemos la cantidad de entradas del dataset.
print("Cantidad de muestras: ", df_91_20.shape[0])
print("Muestra: ")
df_91_20.head(10)


**Ajustamos los tipos de datos de las columnas numéricas que en este momento siguen siendo de tipo *object***.

In [None]:
df_91_20['Precipitación'] = df_91_20['Precipitación'].astype('float64')
df_91_20['Prec. > a 1.0 mm'] = df_91_20['Prec. > a 1.0 mm'].astype('float64')
df_91_20['Humedad relativa'] = df_91_20['Humedad relativa'].astype('float64')
df_91_20['Nubosidad total'] = df_91_20['Nubosidad total'].astype('float64')
df_91_20['Viento'] = df_91_20['Viento'].astype('float64')
df_91_20['Temperatura'] = df_91_20['Temperatura'].astype('float64')
df_91_20['Temperatura Máx.'] = df_91_20['Temperatura Máx.'].astype('float64')
df_91_20['Temperatura Mín.'] = df_91_20['Temperatura Mín.'].astype('float64')

df_91_20.info()

---

## Exploración de las variables categóricas

**Variable 'Estaciones':** 

Como ya hemos dicho antes esta variable tiene 98 valores únicos cada uno correspondiente a una estación desde donde se registraron los datos del dataset. Para nosotros esta variable no reviste mucho interés porque no se puede extraer demasiado significado de ella, sería interesante por ejemplo, que las estaciones estuvieran agrupadas por provincia o región del país para poder sacar conclusiones más significativas pero lamentablemente no es el caso. 

**Variable 'Meses':**

Esta variable es simplemente una variable categórica que representa los meses del año y se puede utilizar para hacer análisis interesantes y sacar conclusiones sobre cómo varían las diferentes facetas del clima en función de ellos y de las estaciones del año.

Dado que ambas variables funcionan como Id no tienen valores faltantes.

In [None]:
print(df_91_20["Estación"].isna().sum())
print(df_91_20["Mes"].isna().sum())

---

## Exploración de las variables numéricas

Primero realizamos una descripción general de las mismas.



In [None]:
df_91_20.describe()

---

### Variables numéricas "climáticas" (no relacionadas a la temperatura)
**Viento:**


A simple vista se puede ver que la variable **viento** tiene una gran cantidad de valores nulos.

In [None]:

print("Porcentaje de datos faltantes en la columna viento: ", (df_91_20["Viento"].isna().sum()*100/df_91_20.shape[0]).__round__(2), "%")

El porcentaje de entradas que no tienen un valor de viento es del 39%. Tenemos la sospecha de que esto pueda deberse a que haya estaciones donde directamente no se haya realizado esa medición, y no porque las mediciones hayan sido erráticas, verifiquemos:

In [None]:
# Filtramos las estaciones que tienen datos de viento.
estaciones_con_viento = df_91_20[df_91_20["Viento"].notnull()]["Estación"].unique()

# Contamos el porcentaje de estaciones que tienen datos de viento.
porcentaje_estaciones_con_viento = (len(estaciones_con_viento) / df_91_20["Estación"].nunique()) * 100

print("Porcentaje de estaciones que no midieron el viento:", 100 - porcentaje_estaciones_con_viento.__round__(2), "%")

Dado que el porcentaje de estaciones que no midieron el viento coincide casi exactamente con el porcentaje de datos faltantes en esa columna podemos aventurarnos a asegurar que la falta de esos datos se debe a esa razón. Elegimos representar esto con una flag que indique si el viento fue medido o no. 

Lamentablemente la cantidad de faltantes es muy elevada como para realizar una imputación.

In [None]:
df_91_20["Viento_medido"] = df_91_20["Viento"].notnull()

**Precipitación y Prec. > a 1.0 mm:**

Otras variables que llamaron nuestra atención son **precipitación** y **prec. > a 1.0 mm**, ambas tienen también una cantidad considerable de datos faltantes:

In [None]:
print("Porcentaje de datos faltantes en la columna Precipitación: ", (df_91_20["Precipitación"].isna().sum()*100/df_91_20.shape[0]).__round__(2), "%")
print("Porcentaje de datos faltantes en la columna Prec. > a 1.0 mm: ", (df_91_20["Prec. > a 1.0 mm"].isna().sum()*100/df_91_20.shape[0]).__round__(2), "%")


Como era esperable el porcentaje de faltantes entre ambas columnas coincide. Decidimos imputar ambos valores utilizando la media mensual (durante los años de medición del dataset) para las dos columnas ya que el porcentaje de valores faltantes es bajo:

In [None]:
df_91_20['Precipitación'] = df_91_20.groupby('Mes')['Precipitación'].transform(lambda x: x.fillna(x.mean()))
df_91_20['Prec. > a 1.0 mm'] = df_91_20.groupby('Mes')['Prec. > a 1.0 mm'].transform(lambda x: x.fillna(x.mean()))

**Humedad relativa:** 

In [None]:
print("Porcentaje de datos faltantes en la columna Humedad relativa: ", (df_91_20["Humedad relativa"].isna().sum()*100/df_91_20.shape[0]).__round__(2), "%")

Usando el mismo criterio que para las dos variables anteriores imputamos este 5% de datos faltantes con la media:

In [None]:
df_91_20['Humedad relativa'] = df_91_20.groupby('Mes')['Humedad relativa'].transform(lambda x: x.fillna(x.mean()))

**Promedios mensuales:**

In [None]:
# Queremos ver un gráfico que represente el promedio de precipitaciones por mes entre 1991 y 2020 
# junto con la cantidad de días con mediciones mayores a 1mm.

# Para eso primero sacamos el promedio para cada mes. 
df_prom_mensual_precipitacion = df_91_20.groupby('Mes')['Precipitación'].mean()
df_prom_mensual_prec_gt_1mm = df_91_20.groupby('Mes')["Prec. > a 1.0 mm"].mean()

# Reodrenamos los dataset
meses_orden = ['Ene', 'Feb', 'Mar', 'Abr', 'May', 'Jun', 
               'Jul', 'Ago', 'Sep', 'Oct', 'Nov', 'Dic']
df_prom_mensual_ordenado = df_prom_mensual_precipitacion.reindex(meses_orden)
df_prec_gt1_ordenado = df_prom_mensual_prec_gt_1mm.reindex(meses_orden)


# Gráficamos
fig, ax1 = plt.subplots(figsize=(10, 5))

# Barras: Precipitación
ax1.bar(df_prom_mensual_ordenado.index, df_prom_mensual_ordenado.values, color='skyblue', edgecolor='black', label='Precipitación (mm)')
ax1.set_xlabel('Mes')
ax1.set_ylabel('Precipitación (mm)', color='skyblue')
ax1.tick_params(axis='y', labelcolor='skyblue')

# Línea de Prec. > 1.0 mm
ax2 = ax1.twinx()
ax2.plot(df_prec_gt1_ordenado.index, df_prec_gt1_ordenado.values, color='orange', marker='o', label='Prec. > 1.0 mm')
ax2.set_ylabel('Días con Prec. > 1.0 mm', color='orange')
ax2.tick_params(axis='y', labelcolor='orange')

plt.title('Promedio mensual de precipitaciones y días con Prec. > 1.0 mm')
fig.tight_layout()
plt.show()

Este gráfico puede sugerir que tan distribuídas se hayan las lluvias en cada mes, viendose que en los meses desde mayo a septiembre no sólo llueve menos si no que dichas lluvias se hayan más distribuídas entre los días del mes. 

---

### Variables numéricas de temperatura
**Vamos a tratar y analizar las tres variables que miden la temperatura juntas:**

In [None]:
df_91_20[['Temperatura', 'Temperatura Máx.', 'Temperatura Mín.']].describe()

Encontramos que las mediciones de temperatura mínima tienen una cantidad de nulos del 4%, nos llama la atención que no se encuentre ese mismo fenómeno en las otras dos variables, sobre todo en la temperatura máxima puesto a que es una variable que se esperaría que "haga juego" con la temperatura mínima:

In [None]:
print("Porcentaje de datos faltantes en la columna viento: ", (df_91_20["Temperatura"].isna().sum()*100/df_91_20.shape[0]).__round__(2), "%")
print("Porcentaje de datos faltantes en la columna viento: ", (df_91_20["Temperatura Máx."].isna().sum()*100/df_91_20.shape[0]).__round__(2), "%")
print("Porcentaje de datos faltantes en la columna viento: ", (df_91_20["Temperatura Mín."].isna().sum()*100/df_91_20.shape[0]).__round__(2), "%")

Partimos de la hipótesis de que, tal vez, esa falta de datos en las temperaturas mínimas se debieran a temperaturas muy bajas que por algún motivo técnico impidieran las mediciones en los lugares más fríos. Para ello, como puede verse a continuación, agrupamos los valores nulos de esta variable por mes para ver si el % de faltantes se agrupa en los meses más fríos:

In [None]:
# Contamos la cantidad de registros por mes
total_por_mes = df_91_20['Mes'].value_counts().sort_index()

# Cuántos nulos hay en la temperatura mínima por mes
nulos_temp_min_por_mes = df_91_20[df_91_20['Temperatura Mín.'].isnull()]['Mes'].value_counts().sort_index()

# Calculamos el porcentaje de nulos por mes
porcentaje_nulos_por_mes = (nulos_temp_min_por_mes / total_por_mes * 100).fillna(0)


plt.figure(figsize=(10, 5))
plt.bar(porcentaje_nulos_por_mes.index, porcentaje_nulos_por_mes.values, color='crimson', edgecolor='black')
plt.title('Porcentaje de nulos en temperatura mínima por mes')
plt.xlabel('Mes')
plt.ylabel('% de nulos')
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.tight_layout()
plt.show()


A raíz del resultado no sólo vemos que nuestra hipótesis no es válida si no que se presenta el caso opuesto: el mes más frío del año posee la menor cantidad de datos nulos de temperatura mínima. Esto pareciera indicar que los valores faltantes no se deben a la incapacidad de medición para valores muy fríos si no que tal vez sea una cuestión de interés, donde en el mes más frío sea más importante medir las temperaturas mínimas, por supuesto, todo esto dentro del campo de la especulación. 

**Graficamos la distribución de las cariables de temperatura:**

In [None]:

fig, axs = plt.subplots(1, 3, figsize=(18, 5))
columnas = ['Temperatura', 'Temperatura Máx.', 'Temperatura Mín.']

for i, col in enumerate(columnas):
    axs[i].hist(df_91_20[col].dropna(), bins=30, color='skyblue', edgecolor='black')
    axs[i].set_title(f'Distribución de {col}')
    axs[i].set_xlabel('°C')
    axs[i].set_ylabel('Frecuencia')
    media = df_91_20[col].mean()
    mediana = df_91_20[col].median()
    axs[i].axvline(media, color='red', linestyle='dotted', linewidth=1, label='Media')
    axs[i].axvline(mediana, color='green', linestyle='dotted', linewidth=1, label='Mediana')
    axs[i].legend()

plt.tight_layout()
plt.show()

La distribución en los tres casos muestra una pronunciada skewness hacia la izquierda (sesgo negativo), lo que indica que hay algunos días fríos extremos inculso en las mediciones de temperatura máxima. Además la media se encuentra siempre a la izquierda de la mediana, lo que confirma el sesgo negativo.

---

## Analisis de Outliers

### Métodos de detección

In [None]:
# Método 1: IQR (Rango por Intercuartílico)
def detect_outliers_iqr(data, column):
    Q1 = data[column].quantile(0.25)
    Q3 = data[column].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    return data[(data[column] < lower_bound) | (data[column] > upper_bound)]

### Visualización

In [None]:
# Analizar outliers para múltiples variables
variables = ['Temperatura', 'Temperatura Máx.', 'Temperatura Mín.']

for var in variables:
    # Boxplots con outliers marcados
    plt.figure(figsize=(12, 6))
    sns.boxplot(data=df_91_20, y=var)
    plt.title(f'Distribución con Outliers - {var}')
    plt.show()
    
    # Crear el df sin outliers
    df_sin_outliers = df_91_20.copy()
    outliers = detect_outliers_iqr(df_91_20, var)
    df_sin_outliers = df_sin_outliers.drop(outliers.index)

    # Histogramas antes y después de remover outliers
    fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 5))
    sns.histplot(data=df_91_20, x=var, ax=ax1)
    ax1.set_title(f'Con outliers - {var}')
    sns.histplot(data=df_sin_outliers, x=var, ax=ax2) 
    ax2.set_title(f'Sin outliers - {var}')
    plt.show()

### Análisis

In [None]:
# Ejemplo de análisis contextual
def analyze_outliers_context(outliers_df, variable):
    print(f"Análisis de outliers para {variable}:")
    print("\nEstadísticas descriptivas:")
    print(outliers_df[variable].describe())

    print("\nDistribución por estación:")
    print(outliers_df.groupby('Estación')[variable].count())
    
    print("\nDistribución temporal:")
    print(outliers_df.groupby('Mes')[variable].count())

# Variables
variables = ['Temperatura', 'Temperatura Máx.', 'Temperatura Mín.']
outliers = detect_outliers_iqr(df_91_20, var)

for var in variables:
    analyze_outliers_context(outliers, var)

### Conclusiones y evaluaciones sobre outliers
En el análisis de outliers por variable, encontramos diferentes patrones de valores atípicos. Para la temperatura general, los outliers se distribuyen en ambos extremos de la distribución. En el caso de la temperatura máxima, se observa una mayor concentración de valores atípicos en el extremo superior, mientras que para la temperatura mínima los outliers tienden a concentrarse en los valores más bajos. Esta distribución sugiere una asimetría natural en el comportamiento de los extremos térmicos.Las causas de estos valores atípicos pueden atribuirse a diversos factores. Los eventos climáticos extremos, como olas de calor o frío intenso, son una causa natural principal. También pueden deberse a errores en los instrumentos de medición o en el proceso de registro de datos. Los cambios estacionales pronunciados y la influencia de fenómenos meteorológicos específicos como frentes fríos o cálidos intensos también pueden generar estos valores extremos.
El impacto de estos outliers en el análisis es significativo. Afectan directamente las medidas de tendencia central y pueden distorsionar la interpretación de la variabilidad de los datos. Las correlaciones entre variables también pueden verse sesgadas por estos valores extremos, lo que podría llevar a conclusiones incorrectas si no se manejan adecuadamente. Además, estos valores atípicos pueden afectar la precisión de cualquier modelo estadístico que se intente ajustar a los datos.

### Medidas a tomar
Para el tratamiento de estos outliers, se recomienda un enfoque equilibrado. En análisis generales, el método de recorte (clipping) resulta apropiado ya que mantiene la estructura general de los datos mientras controla el efecto de los valores extremos. Sin embargo, es importante evaluar cada caso en su contexto específico, considerando factores temporales y geográficos, para determinar si corresponden a eventos climáticos reales o a errores de medición. Se sugiere mantener un registro detallado de los casos extremos para análisis posteriores y posibles estudios de eventos climáticos excepcionales.



---

## Preguntas a responder

### 1. ¿Cómo varía la amplitud térmica de acuerdo a las estaciones del año?

In [None]:
#Primero eliminamos las filas con datos faltantes en las columnas de temperatura para evitar que afecten el cálculo de la amplitud térmica.

df_temp = df_91_20.dropna(subset=['Temperatura Máx.', 'Temperatura Mín.']).copy()
df_temp['Amplitud térmica'] = df_temp['Temperatura Máx.'] - df_temp['Temperatura Mín.']

In [None]:
#Definimos una función para asignar la estación del año según el mes.
def mes_a_estacion(mes):
    if mes in ['Dic', 'Ene', 'Feb']:
        return 'Verano'
    elif mes in ['Mar', 'Abr', 'May']:
        return 'Otoño'
    elif mes in ['Jun', 'Jul', 'Ago']:
        return 'Invierno'
    elif mes in ['Sep', 'Oct', 'Novi']:
        return 'Primavera'
df_temp['Estación_año'] = df_91_20['Mes'].apply(mes_a_estacion)

promedios = df_temp.groupby('Estación_año')['Amplitud térmica'].mean().sort_values()
print(promedios)

In [None]:
#Graficamos.
orden_estaciones = ['Verano', 'Otoño', 'Invierno', 'Primavera']

plt.figure(figsize=(8, 5))
sns.barplot(x=promedios.index, y=promedios.values, hue=promedios.index, order=orden_estaciones, palette='coolwarm', legend=False)

plt.title('Amplitud Térmica Promedio por Estación', fontsize=14, weight='bold')
plt.ylabel('Amplitud térmica (°C)')
plt.xlabel('Estación del año')
plt.ylim(0, max(promedios.values) + 2)
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.tight_layout()
plt.show()

### 2. ¿En qué meses se observan los valores más extremos de temperatura, humedad, viento y precipitación?

In [None]:
# Agrupamos por mes y calculamos la media para cada variable
medias_mensuales = df_91_20.groupby('Mes').agg({
    'Temperatura': 'mean',
    'Temperatura Máx.': 'mean', 
    'Temperatura Mín.': 'mean',
    'Humedad relativa': 'mean',
    'Viento': 'mean',
    'Precipitación': 'mean'
}).round(4)

# Encontramos los valores máximos y mínimos para cada variable
maximos = medias_mensuales.idxmax()
minimos = medias_mensuales.idxmin()

print("Valores máximos por mes:")
for variable, mes in maximos.items():
    valor = medias_mensuales.loc[mes, variable]
    print(f"{variable}: {valor} en {mes}")

print("\nValores mínimos por mes:")
for variable, mes in minimos.items():
    valor = medias_mensuales.loc[mes, variable]
    print(f"{variable}: {valor} en {mes}")


In [None]:
# Agrupamos por mes y seleccionamos el máximo y mínimo para cada variable
extremos_mensuales = df_91_20.groupby('Mes', observed=False).agg({
    'Temperatura': ['max', 'min'],
    'Temperatura Máx.': ['max', 'min'],
    'Temperatura Mín.': ['max', 'min'], 
    'Humedad relativa': ['max', 'min'],
    'Viento': ['max', 'min'],
    'Precipitación': ['max', 'min']
}).round(4)

# Encontramos los valores máximos y mínimos absolutos para cada variable
maximos_absolutos = extremos_mensuales.xs('max', axis=1, level=1).idxmax()
minimos_absolutos = extremos_mensuales.xs('min', axis=1, level=1).idxmin()

print("Valores máximos absolutos por mes:")
for variable, mes in maximos_absolutos.items():
    valor = extremos_mensuales.xs('max', axis=1, level=1).loc[mes, variable]
    print(f"{variable}: {valor} en {mes}")

print("\nValores mínimos absolutos por mes:")
for variable, mes in minimos_absolutos.items():
    valor = extremos_mensuales.xs('min', axis=1, level=1).loc[mes, variable]
    print(f"{variable}: {valor} en {mes}")


In [None]:
# Graficamos
# Creamos una figura con subplots para cada variable
fig, axes = plt.subplots(2, 3, figsize=(18, 10))
fig.suptitle('Distribución de Variables Meteorológicas por Mes', fontsize=16, weight='bold', y=1.02)

# Aplanamos los ejes para iterar más fácilmente
axes_flat = axes.flatten()

# Variables a graficar
variables = ['Temperatura', 'Temperatura Máx.', 'Temperatura Mín.', 
            'Humedad relativa', 'Viento', 'Precipitación']

# Definimos el orden cronológico de los meses
orden_meses = ['Ene', 'Feb', 'Mar', 'Abr', 'May', 'Jun', 'Jul', 'Ago', 'Sep', 'Oct', 'Nov', 'Dic']

# Reordenamos los meses en el dataframe
df_91_20['Mes'] = pd.Categorical(df_91_20['Mes'], categories=orden_meses, ordered=True)

# Creamos un boxplot para cada variable
for i, variable in enumerate(variables):
    sns.boxplot(data=df_91_20, x='Mes', y=variable, ax=axes_flat[i])
    axes_flat[i].set_title(variable)
    axes_flat[i].grid(True, linestyle='--', alpha=0.7)
    axes_flat[i].tick_params(axis='x', rotation=45)

plt.tight_layout()
plt.show()


#### Análisis por variable
Las **temperaturas** muestran sus valores máximos durante el verano, con la temperatura máxima alcanzando picos de hasta más de 35°C, mientras que la temperatura mínima llega a poco más de 22°C en los días más cálidos. En contraste, durante el invierno se registran los valores más bajos, con mínimas que pueden descender hasta -25°C y máximas que apenas alcanzan los -17°C o un poco menos en los días más fríos. La temperatura media refleja este patrón estacional, oscilando entre aproximadamente -21°C en su punto más bajo y poco más de 27°C en su punto más alto.

La **humedad relativa** presenta su máximo valor en torno al 75% durante los meses de invierno, particularmente en junio y julio, mientras que sus mínimos se sitúan alrededor del 65% durante los meses más secos y cálidos del verano, especialmente en diciembre y enero. A pesar de esta variación, los niveles de humedad se mantienen relativamente altos durante todo el año, con una leve disminución en los meses de verano. Esta relación inversa con la temperatura es un patrón característico del clima de la región.

El **viento** muestra sus valores más intensos durante el verano, con máximas que superan los 36 km/h, especialmente en diciembre y enero. Los períodos de menor intensidad se registran durante el otoño e invierno, con mínimas por debajo de los 5 km/h, lo que indica una variación significativa en la intensidad del viento a lo largo del año.

Las **precipitaciones** exhiben una gran variabilidad, con valores máximos que superan los 100mm mensuales durante el verano y principios de otoño, particularmente en enero con mas de 117mm. Los mínimos se registran con valores cercanos a 0mm, principalmente durante los meses de invierno, aunque la presencia de valores atípicos sugiere que pueden ocurrir eventos de lluvia intensa en cualquier época del año.



### 3. ¿Cómo se compara el último año con la media de los últimos 30 años?

In [None]:
# Filtramos la variable de temperatura promedio mensual
df_temp = df_91_20.groupby('Mes', observed=True)['Temperatura'].mean()

# Definimos los nombres de los meses
meses = ['Ene', 'Feb', 'Mar', 'Abr', 'May', 'Jun',
         'Jul', 'Ago', 'Sep', 'Oct', 'Nov', 'Dic']

# Reordenamos la serie para que los meses estén en orden correcto
df_temp = df_temp.reindex(meses)

# Graficamos la temperatura promedio mensual
plt.figure(figsize=(10, 5))
plt.plot(meses, df_temp.values, marker='o', color='crimson')
plt.title("Temperatura promedio mensual en Argentina (1991–2020)")
plt.xlabel("Mes")
plt.ylabel("Temperatura (°C)")
plt.grid(True)
plt.tight_layout()
plt.show()

#### Interpretación

El gráfico muestra una clara estacionalidad térmica:

- **Verano (Dic–Feb)**: temperaturas más altas en promedio, superando los 21 °C.
- **Invierno (Jun–Ago)**: temperaturas mínimas cercanas a los 8 °C.
- La transición entre estaciones es progresiva y refleja un patrón climático templado.

Esto confirma que existe una **variación marcada de la temperatura a lo largo del año**, en línea con el comportamiento estacional esperado.

In [None]:
# El promedio mensual de las temperaturas máximas y mínimas entre todas las estaciones juntas de los ultimos 365 días organizados por mes (Enero-mayo).

# Graficamos
plt.figure(figsize=(10, 6))
plt.plot(df_365_tidy.index, df_365_tidy["Temperatura Máx."], marker='o', color='crimson', label='Temp. Máx.')
plt.plot(df_365_tidy.index, df_365_tidy["Temperatura Mín."], marker='o', color='royalblue', label='Temp. Mín.')
plt.title("Temperatura promedio mensual (últimos 365 días)")
plt.xlabel("Mes")
plt.ylabel("Temperatura (°C)")
plt.grid(True)
plt.legend()
plt.tight_layout()
plt.show()

In [None]:
# Temperatura máxima promedio más alta
mes_max_temp_max = df_365_tidy["Temperatura Máx."].idxmax()
valor_max_temp_max = df_365_tidy["Temperatura Máx."].max()

# Temperatura máxima promedio más baja
mes_min_temp_min = df_365_tidy["Temperatura Mín."].idxmin()
valor_min_temp_min = df_365_tidy["Temperatura Mín."].min()

# Mostrar resultados
print(f"Máxima promedio más alta: {valor_max_temp_max:.1f}°C en {mes_max_temp_max}")
print(f"Mínima promedio más baja: {valor_min_temp_min:.1f}°C en {mes_min_temp_min}")


El análisis muestra que enero fue el mes más cálido con una máxima promedio de 29.4 °C, mientras que julio fue el más frío con una mínima promedio de 1.1 °C, reflejando la fuerte variación estacional del clima en Argentina.

Realizmos la compracion entre los graficos

In [None]:
meses = ['Ene', 'Feb', 'Mar', 'Abr', 'May', 'Jun',
         'Jul', 'Ago', 'Sep', 'Oct', 'Nov', 'Dic']
df_temp_hist = df_91_20.groupby('Mes', observed=True)['Temperatura'].mean().reindex(meses)

# Asegurar mismo orden en df_365_tidy
df_365_tidy = df_365_tidy.reindex(meses)
# Gráfico combinado
plt.figure(figsize=(10, 6))
plt.plot(df_365_tidy.index, df_365_tidy["Temperatura Máx."], marker='o', color='crimson', label='Temp. Máx. (últ. año)')
plt.plot(df_365_tidy.index, df_365_tidy["Temperatura Mín."], marker='o', color='royalblue', label='Temp. Mín. (últ. año)')
plt.plot(df_temp_hist.index, df_temp_hist.values, marker='o', color='darkgreen', label='Temp. Prom. 1991–2020')

plt.title("Comparación de temperaturas mensuales\nMáx. y mín. del último año vs. promedio histórico")
plt.xlabel("Mes")
plt.ylabel("Temperatura (°C)")
plt.grid(True)
plt.legend()
plt.tight_layout()
plt.show()

### Comparación de temperaturas mensuales: últimos 365 días vs. promedio histórico (1991–2020)

En el gráfico se comparan tres curvas:

- **Temperatura máxima promedio mensual del último año** (línea roja).
- **Temperatura mínima promedio mensual del último año** (línea azul).
- **Temperatura promedio mensual histórica (1991–2020)** (línea verde).

Esta visualización permite identificar desviaciones entre los valores actuales y los promedios históricos. Por ejemplo, si las temperaturas máximas recientes están por encima del promedio histórico, puede sugerir un patrón de calentamiento. Del mismo modo, si las mínimas actuales están más cercanas o incluso por encima del promedio, también puede reflejar una menor oscilación térmica o noches más cálidas.

### 4. ¿En que estaciones se encuentran registrados los valores mas extremos de temperatura?

In [None]:
# Temperatura máxima más alta registrada
temp_max_valor = df_365["Temperatura Máx."].max()
fila_max = df_365[df_365["Temperatura Máx."] == temp_max_valor]

# Temperatura mínima más baja registrada
temp_min_valor = df_365["Temperatura Mín."].min()
fila_min = df_365[df_365["Temperatura Mín."] == temp_min_valor]

# Mostramos los resultados
print(f" Temperatura máxima más alta registrada: {temp_max_valor:.1f}°C")
print(f" Estación: {fila_max.iloc[0]['Estación']} – Fecha: {fila_max.iloc[0]['FECHA'].date()}")

print(f" Temperatura mínima más baja registrada: {temp_min_valor:.1f}°C")
print(f" Estación: {fila_min.iloc[0]['Estación']} – Fecha: {fila_min.iloc[0]['FECHA'].date()}")


Analizando los datos de los últimos 365 días, observamos que:

La temperatura máxima más alta registrada fue de 46.5 °C en la Estación Rivadavia, ubicada en la provincia de Salta, una zona conocida por su clima cálido. Esta estación registró la temperatura maxima durante el mes de febrero de 2025, durante el verano.

La temperatura mínima más baja registrada fue de –37.6 °C en la Base Belgrano II, una estación científica argentina situada en la Antártida, caracterizada por sus condiciones climáticas extremadamente frías. Esta estación registró la temperatura minima durante el mes de agosto de 2024, durante el invierno.

Estas dos estaciones representan los extremos opuestos geograficos del país. Refleja la diversidad climática de Argentina, desde el norte hasta territorios antárticos en el sur.

# Segunda Parte 
---

In [None]:
df_91_20

### Variable Target

Para abordar el problema como una tarea de clasificación, se definió como variable objetivo la temperatura media anual de cada estación, representada por la variable 'Temperatura'. A partir de su valor promedio anual, se clasificaron las estaciones meteorológicas en cuatro categorías:

Frías: promedio menor a 10 °C

Templadas frescas: entre 10 °C y 15 °C

Templadas cálidas: entre 15 °C y 20 °C

Cálidas: promedio mayor a 20 °C

Esta clasificación busca representar de manera más precisa la variabilidad climática del país. A continuación, se agruparon las observaciones por estación y se asignó una etiqueta a cada una según el promedio de temperatura.

In [None]:
# Agrupamos por estación y calculamos el promedio de temperatura
df_temperatura_estacion = df_91_20.groupby("Estación")["Temperatura"].mean().reset_index()

# Creamos la variable target
def clasificar_temp(temperatura):
    if temperatura < 10:
        return "fría"
    elif temperatura < 15:
        return "templada fresca"
    elif temperatura < 20:
        return "templada cálida"
    else:
        return "cálido"

df_temperatura_estacion["CLASE"] = df_temperatura_estacion["Temperatura"].apply(clasificar_temp)

# Vemos la distribución de clases
print("Distribución de clases:\n", df_temperatura_estacion["CLASE"].value_counts())

# Merge
df_clasificado = df_91_20.merge(df_temperatura_estacion[["Estación", "CLASE"]], on="Estación")


df_clasificado.head()




Se nota un fuerte desbalance de clases siendo la clase "templada cálida" fuertemente predominante. Graficamos para mayor claridad: 

In [None]:

sns.countplot(data=df_temperatura_estacion, x="CLASE", palette="coolwarm")
plt.title("Distribución de clases por estación")
plt.xlabel("Clase térmica")
plt.ylabel("Cantidad de estaciones")
plt.show()
