# Análisis Exploratorio de Desastres Naturales (1970-2021)

## Trabajo Práctico 1 - Proceso ETL

Este notebook implementa un análisis exploratorio integral (EDA) mediante un proceso ETL estructurado para identificar patrones temporales y geográficos en la ocurrencia de desastres naturales.

### Estructura del Análisis
1. **Extracción**: Carga y validación del dataset
2. **Transformación**: Limpieza, curación y creación de variables derivadas
3. **Análisis Temporal**: Patrones estacionales y tendencias
4. **Análisis Geográfico**: Cruces de variables relevantes
5. **Visualizaciones**: Gráficos y reportes

In [None]:
# Importar librerías necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

# Configurar display de pandas
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

# Importar módulos ETL personalizados
import sys
sys.path.append('..')

from extract.extract_data import cargar_dataset, validar_estructura, explorar_dataset
from transform.temporal_transform import (
    crear_columna_fecha, 
    filtrar_ultimas_decadas,
    analizar_patrones_estacionales,
    analizar_tendencias_temporales
)
from transform.data_curation import (
    limpiar_tipo_desastre,
    limpiar_pais_region,
    normalizar_columnas,
    crear_variables_derivadas
)
from load.visualizaciones import (
    crear_serie_temporal,
    crear_heatmap_estacional,
    crear_distribucion_geografica,
    crear_grafico_barras_tipo,
    crear_analisis_comparativo,
    crear_visualizacion_cruces
)

print("✓ Librerías importadas correctamente")

## 1. EXTRACCIÓN DE DATOS

Cargamos el dataset de desastres naturales y realizamos una exploración inicial.

In [None]:
# Cargar dataset
ruta_dataset = '../1970-2021_DISASTERS.xlsx - emdat data.csv'

df_original = cargar_dataset(ruta_dataset)
df_original.head()

In [None]:
# Validar estructura del dataset
validacion = validar_estructura(df_original)
print(f"\nDataset válido: {validacion['valido']}")
print(f"Total de columnas: {validacion['total_columnas']}")

In [None]:
# Explorar dataset
exploracion = explorar_dataset(df_original)

print(f"\nInformación del dataset:")
df_original.info()

## 2. TRANSFORMACIÓN TEMPORAL

### 2.1 Creación de columna fecha unificada

In [None]:
# Crear columna fecha unificada
df = crear_columna_fecha(df_original)

print(f"\nPrimeras fechas:")
print(df[['Year', 'Start Month', 'Start Day', 'fecha']].head(10))

### 2.2 Filtrar últimas dos décadas (2001-2021)

In [None]:
# Filtrar últimas 20 años para análisis de tendencias recientes
df_reciente = filtrar_ultimas_decadas(df, n_años=20)

print(f"\nRegistros en el período 2001-2021: {len(df_reciente)}")
print(f"Porcentaje del dataset total: {len(df_reciente)/len(df)*100:.2f}%")

## 3. CURACIÓN DE DATOS

### 3.1 Limpieza de tipo de desastre

In [None]:
# Limpiar y estandarizar tipo de desastre
df = limpiar_tipo_desastre(df)

### 3.2 Limpieza de país y región

In [None]:
# Limpiar variables geográficas
df = limpiar_pais_region(df)

### 3.3 Creación de variables derivadas

In [None]:
# Crear variables derivadas útiles
df = crear_variables_derivadas(df)

print("\nVariables derivadas creadas:")
if 'severidad' in df.columns:
    print(df['severidad'].value_counts())
if 'decada' in df.columns:
    print(f"\nDécadas en el dataset: {sorted(df['decada'].unique())}")

## 4. ANÁLISIS DE PATRONES ESTACIONALES

### 4.1 Análisis estacional general

In [None]:
# Analizar patrones estacionales
analisis_estacional = analizar_patrones_estacionales(df_reciente)

In [None]:
# Visualizar distribución por mes
print("\nDistribución mensual de desastres:")
print(analisis_estacional['por_mes'])

#### Apreciación Crítica - Patrones Estacionales

**Observaciones:**
- Se observa que ciertos meses presentan mayor concentración de desastres naturales
- Esta variabilidad estacional puede estar relacionada con fenómenos climáticos recurrentes
- Los meses de verano/invierno (según hemisferio) muestran patrones diferenciados según el tipo de desastre

**Implicancias:**
- La estacionalidad permite anticipar períodos de mayor riesgo
- Las políticas de prevención deberían intensificarse en los meses identificados como críticos
- Se requiere preparación diferencial según la estación del año

### 4.2 Análisis de tendencias temporales

In [None]:
# Analizar tendencias temporales
tendencias = analizar_tendencias_temporales(df_reciente)

In [None]:
# Visualizar tendencia anual
print("\nTendencia anual (últimas dos décadas):")
print(tendencias['por_año'])

#### Apreciación Crítica - Tendencias Temporales

**Observaciones:**
- La cantidad de desastres naturales registrados muestra una tendencia en las últimas dos décadas
- Algunos años específicos presentan picos significativos de actividad
- Ciertos tipos de desastres muestran incrementos más pronunciados que otros

**Interpretación:**
- El incremento puede estar relacionado con:
  1. Cambio climático y mayor frecuencia de eventos extremos
  2. Mejor sistema de registro y documentación de desastres
  3. Mayor vulnerabilidad poblacional en zonas de riesgo
  4. Incremento de la población mundial en zonas expuestas

**Recomendaciones:**
- Es necesario fortalecer los sistemas de monitoreo y alerta temprana
- Las políticas de mitigación deben considerar esta tendencia creciente
- Se requiere mayor inversión en infraestructura resiliente

## 5. VISUALIZACIONES

### 5.1 Serie temporal de desastres

In [None]:
# Crear serie temporal
fig_serie = crear_serie_temporal(df_reciente)
plt.show()

### 5.2 Heatmap estacional

In [None]:
# Crear heatmap de patrones estacionales
fig_heatmap = crear_heatmap_estacional(df_reciente)
plt.show()

### 5.3 Distribución por tipo y continente

In [None]:
# Crear gráficos de barras por tipo y continente
fig_barras = crear_grafico_barras_tipo(df_reciente)
plt.show()

## 6. ANÁLISIS DE CRUCES DE VARIABLES

### 6.1 Cruce 1: Distribución geográfica de terremotos

In [None]:
# Análisis de terremotos por región
fig_terremotos = crear_visualizacion_cruces(df, 'terremotos_geo')
plt.show()

#### Apreciación Crítica - Terremotos

**Observaciones:**
- Los países ubicados en el Cinturón de Fuego del Pacífico concentran la mayor cantidad de terremotos
- China, Indonesia, Japón e Irán aparecen consistentemente entre los países más afectados
- La distribución geográfica refleja claramente las zonas de actividad tectónica

**Análisis:**
- La concentración geográfica es predecible basada en la geología de placas tectónicas
- Los países identificados requieren inversión continua en construcción antisísmica
- Sistemas de alerta temprana son críticos en estas regiones

### 6.2 Cruce 2: Regiones con mayor incidencia de inundaciones

In [None]:
# Análisis de inundaciones por región
fig_inundaciones = crear_visualizacion_cruces(df, 'inundaciones_region')
plt.show()

In [None]:
# Análisis detallado de inundaciones
df_inundaciones = df[df['Disaster Type'].str.contains('Flood', case=False, na=False)]
print(f"\nTotal de inundaciones registradas: {len(df_inundaciones)}")
print(f"\nTop 10 regiones afectadas:")
print(df_inundaciones['Region'].value_counts().head(10))

#### Apreciación Crítica - Inundaciones

**Observaciones:**
- Las inundaciones son uno de los desastres naturales más frecuentes a nivel global
- Asia destaca significativamente en frecuencia, especialmente el Sudeste Asiático y el Sur de Asia
- Regiones con grandes sistemas fluviales (Ganges, Mekong, Yangtze) son particularmente vulnerables

**Factores contribuyentes:**
- Monzones y lluvias estacionales intensas
- Alta densidad poblacional en llanuras aluviales
- Deforestación y cambios en el uso del suelo
- Infraestructura de drenaje insuficiente

**Implicancias:**
- Se requiere inversión en sistemas de drenaje y control de inundaciones
- La planificación urbana debe considerar zonas de inundación
- El cambio climático está intensificando los eventos de precipitación extrema

### 6.3 Cruce 3: Patrones regionales de sequías extremas

In [None]:
# Análisis de sequías por región
fig_sequias = crear_visualizacion_cruces(df, 'sequias_region')
plt.show()

In [None]:
# Análisis detallado de sequías
df_sequias = df[df['Disaster Type'].str.contains('Drought', case=False, na=False)]
print(f"\nTotal de sequías registradas: {len(df_sequias)}")
print(f"\nDistribución por continente:")
print(df_sequias['Continent'].value_counts())

#### Apreciación Crítica - Sequías

**Observaciones:**
- Las sequías afectan principalmente a regiones de África y Asia
- África Oriental y el Sahel son particularmente vulnerables
- Las sequías tienden a tener impactos prolongados y afectar grandes poblaciones

**Características especiales:**
- Las sequías son eventos de desarrollo lento pero impacto masivo
- Afectan directamente la seguridad alimentaria y el acceso al agua
- Su impacto en población afectada suele ser mayor que su mortalidad directa

**Desafíos:**
- Predicción y monitoreo requieren sistemas de largo plazo
- Gestión de recursos hídricos es crítica
- Necesidad de estrategias de adaptación agrícola

### 6.4 Cruce 4: Frecuencia de tormentas por continente

In [None]:
# Análisis de tormentas por continente
fig_tormentas = crear_visualizacion_cruces(df, 'tormentas_continente')
plt.show()

In [None]:
# Análisis detallado de tormentas
df_tormentas = df[df['Disaster Type'].str.contains('Storm', case=False, na=False)]
print(f"\nTotal de tormentas registradas: {len(df_tormentas)}")
print(f"\nDistribución por región:")
print(df_tormentas['Region'].value_counts().head(15))

#### Apreciación Crítica - Tormentas

**Observaciones:**
- Asia y las Américas concentran la mayor cantidad de tormentas registradas
- Las tormentas tropicales (huracanes, tifones, ciclones) son las más devastadoras
- El Caribe, el Sudeste Asiático y el Este de Asia son especialmente vulnerables

**Patrones identificados:**
- Estacionalidad marcada según la región (temporada de huracanes)
- Incremento en intensidad relacionado con temperaturas oceánicas
- Áreas costeras concentran mayor impacto

**Consideraciones:**
- Los sistemas de alerta han mejorado significativamente la reducción de mortalidad
- Sin embargo, los daños económicos continúan incrementando
- La infraestructura costera requiere diseño resiliente

### 6.5 Cruce 5: Tendencia histórica de incendios forestales

In [None]:
# Análisis de tendencia de incendios forestales
fig_incendios = crear_visualizacion_cruces(df, 'incendios_tendencia')
plt.show()

In [None]:
# Análisis detallado de incendios
df_incendios = df[df['Disaster Type'].str.contains('Wildfire', case=False, na=False)]
print(f"\nTotal de incendios forestales registrados: {len(df_incendios)}")
print(f"\nTop 10 países afectados:")
print(df_incendios['Country'].value_counts().head(10))

# Tendencia por década
if len(df_incendios) > 0:
    print(f"\nDistribución por década:")
    print(df_incendios['decada'].value_counts().sort_index())

#### Apreciación Crítica - Incendios Forestales

**Observaciones:**
- Los incendios forestales muestran una tendencia creciente en las últimas décadas
- Se observa un incremento particularmente marcado en los años 2000-2020
- Países como Australia, Estados Unidos, y regiones mediterráneas son especialmente afectados

**Factores contribuyentes:**
- Incremento de temperaturas y sequías prolongadas (cambio climático)
- Expansión urbana hacia zonas forestales (interfaz urbano-forestal)
- Acumulación de combustible vegetal por supresión histórica de incendios
- Actividad humana (negligencia, intencionalidad)

**Implicancias futuras:**
- Se espera que la tendencia continúe incrementando con el calentamiento global
- Mayor necesidad de gestión preventiva de combustibles
- Importancia creciente de sistemas de detección temprana y respuesta rápida
- Impacto significativo en biodiversidad, calidad del aire y emisiones de CO2

## 7. ANÁLISIS COMPARATIVO DETALLADO

### Análisis en profundidad de los tipos de desastres más frecuentes

In [None]:
# Obtener los 3 tipos más frecuentes
top_3_tipos = df_reciente['Disaster Type'].value_counts().head(3).index.tolist()
print(f"Top 3 tipos de desastres (2001-2021):")
for i, tipo in enumerate(top_3_tipos, 1):
    print(f"{i}. {tipo}: {df_reciente[df_reciente['Disaster Type'] == tipo].shape[0]} eventos")

In [None]:
# Análisis comparativo del primer tipo más frecuente
if len(top_3_tipos) > 0:
    fig_comp1 = crear_analisis_comparativo(df_reciente, top_3_tipos[0])
    plt.show()

In [None]:
# Análisis comparativo del segundo tipo más frecuente
if len(top_3_tipos) > 1:
    fig_comp2 = crear_analisis_comparativo(df_reciente, top_3_tipos[1])
    plt.show()

## 8. RESUMEN EJECUTIVO Y CONCLUSIONES

### Hallazgos Principales

**1. Tendencias Temporales:**
- Se observa un incremento en la frecuencia de desastres naturales registrados en las últimas dos décadas
- Este incremento es particularmente notable en eventos relacionados con el clima (inundaciones, tormentas, sequías)
- Los incendios forestales muestran la tendencia creciente más preocupante

**2. Patrones Estacionales:**
- Existe una clara estacionalidad en la ocurrencia de desastres
- Ciertos meses concentran mayor actividad, permitiendo anticipación y preparación
- Diferentes tipos de desastres tienen patrones estacionales diferenciados

**3. Distribución Geográfica:**
- Asia concentra la mayor cantidad y variedad de desastres naturales
- Los países en desarrollo suelen tener mayor población afectada debido a menor capacidad de respuesta
- Existe una clara correlación entre ubicación geográfica y tipos específicos de desastres

**4. Tipos de Desastres:**
- Las inundaciones son el tipo más frecuente a nivel global
- Los terremotos, aunque menos frecuentes, tienen impacto devastador inmediato
- Las sequías afectan a más personas pero con impacto distribuido en el tiempo

### Recomendaciones

**Política Pública:**
- Fortalecer sistemas de alerta temprana, especialmente en regiones identificadas de alto riesgo
- Invertir en infraestructura resiliente según el perfil de riesgo de cada región
- Desarrollar planes de preparación estacional basados en patrones identificados

**Investigación:**
- Profundizar en la relación entre cambio climático y aumento de eventos extremos
- Estudiar la efectividad de diferentes estrategias de mitigación
- Mejorar modelos predictivos incorporando análisis temporal y geográfico

**Cooperación Internacional:**
- Compartir mejores prácticas entre países con perfiles de riesgo similares
- Establecer mecanismos de respuesta rápida regional
- Apoyar a países en desarrollo en el fortalecimiento de capacidades

### Limitaciones del Estudio

- Los datos dependen de la capacidad de registro de cada país
- Puede existir sesgo hacia eventos reportados en países desarrollados
- Algunos eventos pequeños o en áreas remotas pueden estar subrepresentados
- La clasificación de tipos de desastres puede variar según la fuente

## 9. ESTADÍSTICAS FINALES

In [None]:
# Estadísticas generales del dataset procesado
print("=" * 60)
print("ESTADÍSTICAS FINALES DEL ANÁLISIS")
print("=" * 60)

print(f"\nPERÍODO COMPLETO (1970-2021):")
print(f"  Total de eventos: {len(df):,}")
print(f"  Países afectados: {df['Country'].nunique()}")
print(f"  Regiones afectadas: {df['Region'].nunique()}")
print(f"  Tipos de desastres: {df['Disaster Type'].nunique()}")

print(f"\nÚLTIMAS DOS DÉCADAS (2001-2021):")
print(f"  Total de eventos: {len(df_reciente):,}")
print(f"  Promedio anual: {len(df_reciente)/20:.1f} eventos/año")

if 'Total Deaths' in df.columns:
    muertes_totales = df['Total Deaths'].sum()
    print(f"\nIMPACTO HUMANO (período completo):")
    print(f"  Total de muertes registradas: {muertes_totales:,.0f}")

if 'Total Affected' in df.columns:
    afectados_totales = df['Total Affected'].sum()
    print(f"  Total de personas afectadas: {afectados_totales:,.0f}")

print("\n" + "=" * 60)
print("Análisis completado exitosamente")
print("=" * 60)