# Analisis de datos - Desastres Naturales

## ETL (Extraccion, transformacion, carga)

### Extraccion

In [None]:
from google.colab import drive
import pandas as pd
import chardet


drive.mount('/content/drive', force_remount=True)

ruta_archivo = '/content/drive/MyDrive/global_disaster_response_2018_2024.csv'
with open(ruta_archivo, 'rb') as f:
    result = chardet.detect(f.read())
print(result['encoding'])

try:
  df = pd.read_csv(ruta_archivo, encoding=result['encoding'])
  print('Extraccion de datos exitosa')
except FileNotFoundError:
  print(f'El archivo no se encuentra en la ruta: {ruta_archivo}')

Mounted at /content/drive
ascii
Extraccion de datos exitosa


In [None]:
## Registro completo de los desastres naturales y ambientales que ocurrieron
# en todo el mundo entre 2018 y 2024

# severity_index: Medida numérica de la intensidad o impacto del desastre
# casualties: Número de personas afectadas, fallecidas
# economic_loss_usd: Pérdida financiera en USD
# response_time_hours: Tiempo necesario para responder a la ayuda
# aid_amount_usd: Ayuda de la cantidad proporcionada en USD
# response_efficiency_score: Puntuación de evaluación que
# representa la eficacia de la respuesta
# recovery_days: Recuperación en cuántos días




# Muestra las primeras 10 filas del DataFrame
df.head(10)

Unnamed: 0,date,country,disaster_type,severity_index,casualties,economic_loss_usd,response_time_hours,aid_amount_usd,response_efficiency_score,recovery_days,latitude,longitude
0,2021-01-31,Brazil,Earthquake,5.99,111,7934365.71,15.62,271603.79,83.21,67,-30.613,-122.557
1,2018-12-23,Brazil,Extreme Heat,6.53,100,8307648.99,5.03,265873.81,96.18,55,10.859,-159.194
2,2020-08-10,India,Hurricane,1.55,22,765136.99,32.54,49356.49,60.4,22,0.643,-160.978
3,2022-09-15,Indonesia,Extreme Heat,4.55,94,1308251.31,7.83,237512.88,86.41,47,-33.547,30.35
4,2022-09-28,United States,Wildfire,3.8,64,2655864.36,21.9,188910.69,72.81,42,-19.17,-117.137
5,2019-01-15,France,Flood,2.56,56,51588.22,12.12,137988.29,91.57,26,-14.409,-47.947
6,2020-12-19,Germany,Storm Surge,4.77,81,1243386.99,6.47,194502.18,98.82,49,36.855,78.109
7,2022-03-31,Greece,Flood,1.47,34,1190129.51,29.18,91727.22,75.97,19,-50.544,-70.319
8,2024-06-22,Spain,Drought,3.32,56,3871721.46,19.33,134246.08,79.74,27,-36.925,-146.351
9,2018-11-23,Mexico,Tornado,2.61,73,4375843.52,18.05,182715.32,83.76,22,42.638,124.604


### Transformacion

In [None]:
# Resumen de la información del Dataframe
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 12 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   date                       50000 non-null  object 
 1   country                    50000 non-null  object 
 2   disaster_type              50000 non-null  object 
 3   severity_index             50000 non-null  float64
 4   casualties                 50000 non-null  int64  
 5   economic_loss_usd          50000 non-null  float64
 6   response_time_hours        50000 non-null  float64
 7   aid_amount_usd             50000 non-null  float64
 8   response_efficiency_score  50000 non-null  float64
 9   recovery_days              50000 non-null  int64  
 10  latitude                   50000 non-null  float64
 11  longitude                  50000 non-null  float64
dtypes: float64(7), int64(2), object(3)
memory usage: 4.6+ MB


In [None]:
# Renombrar columnas a español
df.rename(columns={
    'date': 'fecha',
    'country': 'pais',
    'disaster_type': 'tipo_desastre',
    'severity_index': 'indice_gravedad',
    'casualties': 'bajas',
    'economic_loss_usd': 'perdida_economica_usd',
    'response_time_hours': 'tiempo_respuesta_horas',
    'aid_amount_usd': 'cantidad_ayuda_usd',
    'response_efficiency_score': 'eficiencia_respuesta',
    'recovery_days': 'dias_recuperacion',
    'latitude': 'latitud',
    'longitude': 'longitud'
}, inplace=True)


In [None]:
#df.describe(include='all')
# Estadísticas Básicas

df.describe()

Unnamed: 0,indice_gravedad,bajas,perdida_economica_usd,tiempo_respuesta_horas,cantidad_ayuda_usd,eficiencia_respuesta,dias_recuperacion,latitud,longitud
count,50000.0,50000.0,50000.0,50000.0,50000.0,50000.0,50000.0,50000.0,50000.0
mean,5.015769,100.59114,5068593.0,12.183027,250000.3,87.574025,49.68256,0.231205,0.089889
std,1.942843,65.052064,3268541.0,9.259081,143227.5,10.188961,20.098944,34.759662,98.380208
min,1.0,0.0,527.39,1.0,16.6,29.75,2.0,-59.994,-169.998
25%,3.66,51.0,2585513.0,6.27,142966.3,83.06,36.0,-29.84825,-85.55175
50%,4.99,91.0,4548351.0,10.51,230536.5,89.18,49.0,0.2675,0.3905
75%,6.34,138.0,6950615.0,15.45,335225.9,94.7,63.0,30.48825,85.665
max,10.0,524.0,24456240.0,63.1,1126465.0,100.0,112.0,59.997,169.999


In [None]:
# Fecha a datetime
df['fecha'] = pd.to_datetime(df['fecha'], format='%Y-%m-%d')


In [None]:
# Verificar duplicados
duplicados = df.duplicated().sum()
print("Cantidad de filas duplicadas:", duplicados)

# Cómo eliminarlos si existen
#df = df.drop_duplicates()


Cantidad de filas duplicadas: 0


In [None]:
# Crear columna de ubicación usando longitud y altitud
df['ubicacion'] = df['latitud'].astype(str) + ", " + df['longitud'].astype(str)



print("Transformación de datos completada exitosamente")
df.head()

Transformación de datos completada exitosamente


Unnamed: 0,fecha,pais,tipo_desastre,indice_gravedad,bajas,perdida_economica_usd,tiempo_respuesta_horas,cantidad_ayuda_usd,eficiencia_respuesta,dias_recuperacion,latitud,longitud,ubicacion,impacto_total
0,2021-01-31,Brazil,Earthquake,5.99,111,7934365.71,15.62,271603.79,83.21,67,-30.613,-122.557,"-30.613, -122.557",7934476.71
1,2018-12-23,Brazil,Extreme Heat,6.53,100,8307648.99,5.03,265873.81,96.18,55,10.859,-159.194,"10.859, -159.194",8307748.99
2,2020-08-10,India,Hurricane,1.55,22,765136.99,32.54,49356.49,60.4,22,0.643,-160.978,"0.643, -160.978",765158.99
3,2022-09-15,Indonesia,Extreme Heat,4.55,94,1308251.31,7.83,237512.88,86.41,47,-33.547,30.35,"-33.547, 30.35",1308345.31
4,2022-09-28,United States,Wildfire,3.8,64,2655864.36,21.9,188910.69,72.81,42,-19.17,-117.137,"-19.17, -117.137",2655928.36


### Carga

In [None]:
# Definir la ruta de salida para guardar el nuevo CSV
ruta_salida = '/content/drive/MyDrive/desastres_mundiales_transformado_2018_2024.csv'

# Guardar el dataframe transformado en un nuevo archivo CSV en Drive
df.to_csv(ruta_salida, index=False, sep=',')

print(f'Archivo CSV guardado en: {ruta_archivo}')

## EDA (Analisis exploratorio de datos)

In [25]:
# Exploracion dataset

print(df.head())
print(df.info())
print(df.describe())
print(df.isnull().sum())
print(df.duplicated().sum())

       fecha           pais tipo_desastre  indice_gravedad  bajas  \
0 2021-01-31         Brazil    Earthquake             5.99    111   
1 2018-12-23         Brazil  Extreme Heat             6.53    100   
2 2020-08-10          India     Hurricane             1.55     22   
3 2022-09-15      Indonesia  Extreme Heat             4.55     94   
4 2022-09-28  United States      Wildfire             3.80     64   

   perdida_economica_usd  tiempo_respuesta_horas  cantidad_ayuda_usd  \
0             7934365.71                   15.62           271603.79   
1             8307648.99                    5.03           265873.81   
2              765136.99                   32.54            49356.49   
3             1308251.31                    7.83           237512.88   
4             2655864.36                   21.90           188910.69   

   eficiencia_respuesta  dias_recuperacion  latitud  longitud  \
0                 83.21                 67  -30.613  -122.557   
1                 96.1

In [24]:
# Categorias

print(df['tipo_desastre'].value_counts())
print(df['pais'].value_counts())
print(df['indice_gravedad'].value_counts())
print(df['perdida_economica_usd'].value_counts())

tipo_desastre
Landslide            5130
Earthquake           5068
Flood                5039
Hurricane            5002
Extreme Heat         5001
Storm Surge          4988
Volcanic Eruption    4983
Wildfire             4954
Tornado              4939
Drought              4896
Name: count, dtype: int64
pais
Brazil           2591
Australia        2563
Turkey           2554
Bangladesh       2553
Spain            2543
China            2539
Chile            2529
Nigeria          2528
Germany          2526
India            2509
Greece           2503
Italy            2503
South Africa     2497
Japan            2472
Indonesia        2467
Canada           2438
Philippines      2437
Mexico           2433
United States    2413
France           2402
Name: count, dtype: int64
indice_gravedad
1.00     1160
10.00     301
4.93      123
4.99      121
4.40      121
         ... 
9.65        3
9.86        3
9.67        3
9.92        2
9.99        2
Name: count, Length: 901, dtype: int64
perdida_economica_us

In [21]:
# Preguntas

# Desastre que oocurrió más veces
frecuencia_desastres = df['tipo_desastre'].value_counts()
print(f'Desastre ocurrido más veces: {frecuencia_desastres.idxmax()}')

# Desastre que causó más bajas
desastre_bajas = df.groupby('tipo_desastre')['bajas'].sum()
print(f'Desastre que causó más bajas en total: {desastre_bajas.idxmax()}')

# Desastre más grave
desastre_grave = df.loc[df['indice_gravedad'].idxmax()]
print(f'Desastre más grave: {desastre_grave["tipo_desastre"]}')

#

Desastre ocurrido más veces: Landslide
Desastre que causó más bajas en total: Landslide
Desastre más grave: Flood
