# Ejercicio de Análisis de Datos Meteorológicos con Pandas

Este notebook realiza un análisis completo de datos meteorológicos australianos utilizando Python y sus principales librerías de análisis de datos.

## Dataset
El archivo CSV contiene datos meteorológicos con información sobre temperaturas, precipitaciones, viento, humedad, presión y nubosidad.

## 1. Importar Librerías

Importamos las librerías necesarias para el análisis de datos y visualización.

In [None]:
# Importar librerías necesarias
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Configuración de visualización
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
%matplotlib inline

## 2. Cargar el Dataset

Cargamos el archivo CSV con los datos meteorológicos de Australia.

In [None]:
# Cargar el dataset desde el archivo CSV
df = pd.read_csv('weatherAUS.csv')
print(f"Dataset cargado exitosamente con {len(df)} registros")

## 3. Exploración Inicial

Realizamos una primera exploración del dataset para entender su estructura y contenido.

In [None]:
# Mostrar las primeras filas del dataset
print("Primeras filas del dataset:")
df.head()

In [None]:
# Información general del dataset
print("Información del dataset:")
df.info()

In [None]:
# Estadísticas descriptivas de las variables numéricas
print("Estadísticas descriptivas:")
df.describe()

## 4. Análisis de Valores Nulos

Identificamos las columnas que contienen valores faltantes y cuantificamos la cantidad de datos ausentes.

In [None]:
# Identificar valores nulos por columna
print("Valores nulos por columna:")
valores_nulos = df.isnull().sum()
print(valores_nulos[valores_nulos > 0].sort_values(ascending=False))
print(f"\nPorcentaje total de valores nulos: {(df.isnull().sum().sum() / (df.shape[0] * df.shape[1]) * 100):.2f}%")

## 5. Limpieza de Datos

Eliminamos las filas que contienen valores nulos para trabajar con un dataset completo.

In [None]:
# Eliminar filas con valores nulos
print(f"Registros antes de limpieza: {len(df)}")
df_clean = df.dropna()
print(f"Registros después de limpieza: {len(df_clean)}")
print(f"Registros eliminados: {len(df) - len(df_clean)}")

## 6. Análisis de Temperaturas

Analizamos las temperaturas máximas y mínimas para encontrar patrones y valores extremos.

In [None]:
# Calcular temperatura media diaria
df_clean['temp_media'] = (df_clean['mintemp'] + df_clean['maxtemp']) / 2

# Encontrar el día más caluroso
dia_mas_caluroso = df_clean.loc[df_clean['maxtemp'].idxmax()]
print("Día más caluroso:")
print(f"Fecha: {dia_mas_caluroso['date']}")
print(f"Ubicación: {dia_mas_caluroso['location']}")
print(f"Temperatura máxima: {dia_mas_caluroso['maxtemp']}°C")

# Encontrar el día más frío
dia_mas_frio = df_clean.loc[df_clean['mintemp'].idxmin()]
print("\nDía más frío:")
print(f"Fecha: {dia_mas_frio['date']}")
print(f"Ubicación: {dia_mas_frio['location']}")
print(f"Temperatura mínima: {dia_mas_frio['mintemp']}°C")

## 7. Análisis de Precipitaciones

Estudiamos los patrones de lluvia y calculamos estadísticas de precipitación.

In [None]:
# Contar días con lluvia
dias_con_lluvia = df_clean[df_clean['raintoday'] == 'Yes'].shape[0]
dias_sin_lluvia = df_clean[df_clean['raintoday'] == 'No'].shape[0]

print(f"Días con lluvia: {dias_con_lluvia}")
print(f"Días sin lluvia: {dias_sin_lluvia}")
print(f"Porcentaje de días con lluvia: {(dias_con_lluvia / len(df_clean) * 100):.2f}%")

# Calcular total de precipitaciones
total_precipitaciones = df_clean['rainfall'].sum()
print(f"\nTotal de precipitaciones: {total_precipitaciones:.2f} mm")
print(f"Precipitación media diaria: {df_clean['rainfall'].mean():.2f} mm")
print(f"Precipitación máxima en un día: {df_clean['rainfall'].max():.2f} mm")

## 8. Análisis por Ubicación

Analizamos los datos agrupados por ciudad para comparar condiciones meteorológicas.

In [None]:
# Número de registros por ciudad
registros_por_ciudad = df_clean['location'].value_counts()
print("Registros por ciudad (Top 10):")
print(registros_por_ciudad.head(10))

In [None]:
# Ciudad con más lluvia acumulada
lluvia_por_ciudad = df_clean.groupby('location')['rainfall'].sum().sort_values(ascending=False)
print("\nCiudades con más lluvia acumulada (Top 10):")
print(lluvia_por_ciudad.head(10))
print(f"\nCiudad con más lluvia: {lluvia_por_ciudad.index[0]} con {lluvia_por_ciudad.iloc[0]:.2f} mm")

## 9. Visualizaciones

Creamos gráficos para visualizar los patrones en los datos meteorológicos.

### 9.1 Gráfico de Líneas: Temperaturas Máximas y Mínimas

In [None]:
# Gráfico de líneas de temperaturas máximas y mínimas
# Tomamos una muestra para mejor visualización
df_sample = df_clean.sample(n=min(1000, len(df_clean)), random_state=42).sort_index()

plt.figure(figsize=(14, 6))
plt.plot(range(len(df_sample)), df_sample['maxtemp'].values, label='Temperatura Máxima', alpha=0.7, linewidth=1)
plt.plot(range(len(df_sample)), df_sample['mintemp'].values, label='Temperatura Mínima', alpha=0.7, linewidth=1)
plt.xlabel('Índice de Muestra')
plt.ylabel('Temperatura (°C)')
plt.title('Evolución de Temperaturas Máximas y Mínimas')
plt.legend()
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

### 9.2 Histograma: Distribución de Precipitaciones

In [None]:
# Histograma de distribución de precipitaciones
plt.figure(figsize=(12, 6))
# Filtrar valores de lluvia > 0 para mejor visualización
rainfall_nonzero = df_clean[df_clean['rainfall'] > 0]['rainfall']
plt.hist(rainfall_nonzero, bins=50, edgecolor='black', alpha=0.7)
plt.xlabel('Precipitación (mm)')
plt.ylabel('Frecuencia')
plt.title('Distribución de Precipitaciones (días con lluvia)')
plt.grid(True, alpha=0.3, axis='y')
plt.tight_layout()
plt.show()

print(f"Media de precipitación en días con lluvia: {rainfall_nonzero.mean():.2f} mm")
print(f"Mediana de precipitación en días con lluvia: {rainfall_nonzero.median():.2f} mm")

### 9.3 Gráfico de Barras: Temperaturas Promedio por Ciudad

In [None]:
# Gráfico de barras comparando temperaturas promedio por ciudad
temp_promedio_ciudad = df_clean.groupby('location')['temp_media'].mean().sort_values(ascending=False).head(15)

plt.figure(figsize=(12, 6))
temp_promedio_ciudad.plot(kind='bar', color='coral', edgecolor='black')
plt.xlabel('Ciudad')
plt.ylabel('Temperatura Media (°C)')
plt.title('Top 15 Ciudades por Temperatura Media')
plt.xticks(rotation=45, ha='right')
plt.grid(True, alpha=0.3, axis='y')
plt.tight_layout()
plt.show()

## 10. Análisis de Correlaciones

Creamos una matriz de correlación para identificar relaciones entre las variables numéricas.

In [None]:
# Seleccionar solo columnas numéricas para la correlación
columnas_numericas = df_clean.select_dtypes(include=[np.number]).columns.tolist()

# Calcular matriz de correlación
correlacion = df_clean[columnas_numericas].corr()

# Crear heatmap de correlación
plt.figure(figsize=(16, 14))
sns.heatmap(correlacion, annot=True, fmt='.2f', cmap='coolwarm', 
            square=True, linewidths=0.5, cbar_kws={"shrink": 0.8})
plt.title('Matriz de Correlación entre Variables Numéricas', fontsize=16, pad=20)
plt.tight_layout()
plt.show()

# Mostrar las correlaciones más fuertes
print("\nCorrelaciones más fuertes (valor absoluto > 0.7):")
for i in range(len(correlacion.columns)):
    for j in range(i+1, len(correlacion.columns)):
        if abs(correlacion.iloc[i, j]) > 0.7:
            print(f"{correlacion.columns[i]} vs {correlacion.columns[j]}: {correlacion.iloc[i, j]:.3f}")

## 11. Análisis Temporal

Analizamos la evolución de las temperaturas a lo largo del tiempo.

In [None]:
# Convertir la columna date a formato datetime
df_clean['date'] = pd.to_datetime(df_clean['date'])

# Agrupar por fecha y calcular temperaturas promedio
temp_temporal = df_clean.groupby('date').agg({
    'maxtemp': 'mean',
    'mintemp': 'mean',
    'temp_media': 'mean'
}).reset_index()

# Ordenar por fecha
temp_temporal = temp_temporal.sort_values('date')

# Gráfico de evolución temporal
plt.figure(figsize=(16, 6))
plt.plot(temp_temporal['date'], temp_temporal['maxtemp'], label='Temperatura Máxima Promedio', alpha=0.7, linewidth=1.5)
plt.plot(temp_temporal['date'], temp_temporal['mintemp'], label='Temperatura Mínima Promedio', alpha=0.7, linewidth=1.5)
plt.plot(temp_temporal['date'], temp_temporal['temp_media'], label='Temperatura Media', alpha=0.7, linewidth=1.5, linestyle='--')
plt.xlabel('Fecha')
plt.ylabel('Temperatura (°C)')
plt.title('Evolución Temporal de Temperaturas')
plt.legend()
plt.grid(True, alpha=0.3)
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

## 12. Conclusiones

### Principales Hallazgos del Análisis de Datos Meteorológicos

#### 1. **Calidad de los Datos**
- El dataset original contenía valores nulos en múltiples columnas
- Después de la limpieza, se obtuvo un conjunto de datos completo para análisis
- Las columnas con más valores faltantes fueron las relacionadas con evaporación, nubosidad y horas de sol

#### 2. **Análisis de Temperaturas**
- Se identificaron los días con temperaturas extremas (máximas y mínimas)
- Las temperaturas varían significativamente entre diferentes ubicaciones geográficas
- Existe una clara variación temporal en las temperaturas a lo largo del año

#### 3. **Patrones de Precipitación**
- La distribución de precipitaciones es asimétrica, con la mayoría de días con poca o ninguna lluvia
- Algunas ubicaciones presentan acumulaciones de lluvia significativamente mayores que otras
- Los días con lluvia representan un porcentaje específico del total de observaciones

#### 4. **Análisis por Ubicación**
- Diferentes ciudades presentan características meteorológicas distintivas
- Las ciudades más cálidas tienden a estar en ciertas regiones geográficas
- La cantidad de datos disponibles varía entre ciudades

#### 5. **Correlaciones Importantes**
- Existen correlaciones fuertes entre variables relacionadas (por ejemplo, temperatura a las 9am y 3pm)
- Las temperaturas máximas y mínimas están correlacionadas con las temperaturas medidas en diferentes momentos del día
- La presión atmosférica muestra correlación con otras variables meteorológicas
- La humedad y la temperatura presentan relaciones inversas esperadas

#### 6. **Tendencias Temporales**
- Las temperaturas muestran patrones estacionales claros
- La variabilidad diaria es consistente con los patrones climáticos esperados
- Los datos abarcan un período temporal que permite observar ciclos anuales

### Recomendaciones para Análisis Futuros

1. **Análisis Estacional**: Profundizar en los patrones estacionales y su impacto en las variables meteorológicas
2. **Modelado Predictivo**: Utilizar estos datos para crear modelos de predicción de lluvia (variable 'raintomorrow')
3. **Análisis Regional**: Agrupar ciudades por regiones geográficas para identificar patrones climáticos zonales
4. **Análisis de Extremos**: Estudiar los eventos meteorológicos extremos y su frecuencia
5. **Imputación de Datos**: En lugar de eliminar valores nulos, considerar técnicas de imputación para conservar más datos

---

**Fin del Análisis de Datos Meteorológicos**