# DESASTRES NATURALES ENTRE 1970-2021

Los impactos de los desastres climáticos globales se hacen cada día más patentes. 
Comprender los parámetros generados por la crisis climática nos ayudará a decidir las medidas necesarias para combatirla.

En este conjunto de datos, verá los desastres naturales de todos los países.

## ANÁLISIS EXPLORATORIO DE LOS DATOS: INFORME EDA

Las columnas que encontramos en el DataFrame del archivo "1970-2021_natural_disasters-emdat_data.csv" son:

- Dis No – Código único de desastre.

- Year – Año del desastre.

- Seq – Número de secuencia en el año según la base de datos EM-DAT. 

- Glide – Identificador GLIDE (Global Unique Disaster Identifier). 

- Disaster Group – Grupo principal (ej. Natural, Technological).

- Disaster Subgroup – Subgrupo (ej. Meteorological, Hydrological).

- Disaster Type – Tipo (ej. Storm, Flood).

- Disaster Subtype – Subtipo (ej. Tropical cyclone).

- Disaster Subsubtype – Sub-subtipo (si aplica). 

- Event Name – Nombre del evento (si existe).

- Country – País afectado.

- ISO – Código ISO del país. 

- Region – Región (ej. Americas, Asia). 

- Continent – Continente.

- Location – Lugar específico.

- Origin – Origen del desastre (ej. Natural, Industrial).

- Associated Dis – Desastres asociados (1). 

- Associated Dis2 – Desastres asociados (2). 

- OFDA Response – Respuesta de la Office of U.S. Foreign Disaster Assistance.

- Appeal – Si hubo apelación internacional.

- Declaration – Declaración oficial de desastre.

- Aid Contribution – Contribución de ayuda (si se registró). 

- Dis Mag Value – Valor de magnitud (ej. magnitud sísmica).

- Dis Mag Scale – Escala de magnitud (ej. Richter, Mercalli).

- Latitude – Latitud del evento.

- Longitude – Longitud del evento.

- Local Time – Hora local del inicio del desastre.

- River Basin – Cuenca hidrográfica (si aplica).

- Start Year – Año de inicio.

- Start Month – Mes de inicio.

- Start Day – Día de inicio.

- End Year – Año de finalización. 

- End Month – Mes de finalización.

- End Day – Día de finalización.

- Total Deaths – Número total de fallecidos.

- No Injured – Número de heridos.

- No Affected – Número de afectados.

- No Homeless – Número de personas sin hogar.

- Total Affected – Total de personas afectadas (suma de afectados, heridos, sin hogar).

- Reconstruction Costs ('000 US$) – Costos de reconstrucción (en miles de USD). 

- Insured Damages ('000 US$) – Daños asegurados (en miles de USD).

- Total Damages ('000 US$) – Daños totales (en miles de USD). 

- CPI – Índice de precios al consumidor (para ajuste económico). 

- Adm Level – Nivel administrativo (ej. nacional, regional).

- Admin1 Code – Código de primera división administrativa (ej. estado, provincia).

- Admin2 Code – Código de segunda división administrativa (ej. municipio).

- Geo Locations – Ubicaciones geográficas adicionales.

Este conjunto de datos proporciona información clara sobre eventos de desastre natural a nivel regional, lo que lo hace útil para el mapeo, los estudios de riesgo y la planificación de respuestas a desastres.

## INFORME DE TRANSFORMACIÓN DE LOS DATOS

Incluye la limpieza de datos, la normalización, la conversión de tipos de datos y revisión específica de datos nulos. Las transformaciones se han realizado mediante funciones de Python aplicados a los datos extraídos.

In [1]:
# Importamos las librerias a utilizar
import pandas as pd
import numpy as np


# Configuración para poder visualizar todas las columnas del DataFrame
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None)

In [2]:
df = pd.read_csv("1970-2021_natural_disasters-emdat_data.csv", index_col=0)
df.head()

Unnamed: 0_level_0,Year,Seq,Glide,Disaster Group,Disaster Subgroup,Disaster Type,Disaster Subtype,Disaster Subsubtype,Event Name,Country,ISO,Region,Continent,Location,Origin,Associated Dis,Associated Dis2,OFDA Response,Appeal,Declaration,Aid Contribution,Dis Mag Value,Dis Mag Scale,Latitude,Longitude,Local Time,River Basin,Start Year,Start Month,Start Day,End Year,End Month,End Day,Total Deaths,No Injured,No Affected,No Homeless,Total Affected,Reconstruction Costs ('000 US$),Insured Damages ('000 US$),Total Damages ('000 US$),CPI,Adm Level,Admin1 Code,Admin2 Code,Geo Locations
Dis No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1,Unnamed: 31_level_1,Unnamed: 32_level_1,Unnamed: 33_level_1,Unnamed: 34_level_1,Unnamed: 35_level_1,Unnamed: 36_level_1,Unnamed: 37_level_1,Unnamed: 38_level_1,Unnamed: 39_level_1,Unnamed: 40_level_1,Unnamed: 41_level_1,Unnamed: 42_level_1,Unnamed: 43_level_1,Unnamed: 44_level_1,Unnamed: 45_level_1,Unnamed: 46_level_1
1970-0013-ARG,1970,13,,Natural,Hydrological,Flood,,,,Argentina,ARG,South America,Americas,Mendoza,,,,,,,,,Km2,,,,,1970,1.0,4.0,1970,1.0,4.0,36.0,,,,,,,25000.0,15.001282,,,,
1970-0109-AUS,1970,109,,Natural,Meteorological,Storm,Tropical cyclone,,Ada,Australia,AUS,Australia and New Zealand,Oceania,Queensland,,,,,,,,,Kph,,,,,1970,1.0,,1970,1.0,,13.0,,,,,,,72475.0,15.001282,,,,
1970-0044-BEN,1970,44,,Natural,Hydrological,Flood,,,,Benin,BEN,Western Africa,Africa,Atacora region,,,,Yes,,,,,Km2,,,,,1970,9.0,,1970,9.0,,,,,,,,,200.0,15.001282,,,,
1970-0063-BGD,1970,63,,Natural,Meteorological,Storm,Tropical cyclone,,,Bangladesh,BGD,Southern Asia,Asia,"Khulna, Chittagong",,,,Yes,,,,,Kph,,,,,1970,11.0,12.0,1970,11.0,12.0,300000.0,,3648000.0,,3648000.0,,,86400.0,15.001282,,,,
1970-0026-BGD,1970,26,,Natural,Meteorological,Storm,,,,Bangladesh,BGD,Southern Asia,Asia,,,,,,,,,,Kph,,,,,1970,4.0,13.0,1970,4.0,13.0,17.0,,110.0,,110.0,,,,15.001282,,,,


In [3]:
df = df.reset_index()

In [5]:
df.head(2)

Unnamed: 0,Dis No,Year,Seq,Glide,Disaster Group,Disaster Subgroup,Disaster Type,Disaster Subtype,Disaster Subsubtype,Event Name,Country,ISO,Region,Continent,Location,Origin,Associated Dis,Associated Dis2,OFDA Response,Appeal,Declaration,Aid Contribution,Dis Mag Value,Dis Mag Scale,Latitude,Longitude,Local Time,River Basin,Start Year,Start Month,Start Day,End Year,End Month,End Day,Total Deaths,No Injured,No Affected,No Homeless,Total Affected,Reconstruction Costs ('000 US$),Insured Damages ('000 US$),Total Damages ('000 US$),CPI,Adm Level,Admin1 Code,Admin2 Code,Geo Locations
0,1970-0013-ARG,1970,13,,Natural,Hydrological,Flood,,,,Argentina,ARG,South America,Americas,Mendoza,,,,,,,,,Km2,,,,,1970,1.0,4.0,1970,1.0,4.0,36.0,,,,,,,25000.0,15.001282,,,,
1,1970-0109-AUS,1970,109,,Natural,Meteorological,Storm,Tropical cyclone,,Ada,Australia,AUS,Australia and New Zealand,Oceania,Queensland,,,,,,,,,Kph,,,,,1970,1.0,,1970,1.0,,13.0,,,,,,,72475.0,15.001282,,,,


In [6]:
print(f"El número de filas que tenemos es {df.shape[0]}, y el número de columnas es {df.shape[1]}")

El número de filas que tenemos es 14644, y el número de columnas es 47


Vamos a realizar la transformación columna por columna.

#### COLUMNA Dis No: Código único de desastre

- Índice 1
- Datos de tipo objeto (string)
- Incluye el año, Seq y ISO

In [7]:
df['Dis No'].value_counts()

Dis No
1970-0013-ARG    1
1970-0109-AUS    1
1970-0044-BEN    1
1970-0063-BGD    1
1970-0026-BGD    1
                ..
2021-0449-YEM    1
2021-0075-ZAF    1
2021-0599-COD    1
2021-0020-SRB    1
2021-0481-SSD    1
Name: count, Length: 14644, dtype: int64

#### COLUMNA Year: Año del desastre

- Índice 2
- Pensamos dejarla si conseguimos calcular la Duration para facilitar visualizaciones 

In [9]:
df['Year'].sample()

10077    2010
Name: Year, dtype: int64

#### COLUMNA Seq – Número de secuencia en el año según la base de datos EM-DAT.
- Índice 3
- La eliminamos ya que no aporta información extra al Dis No

#### COLUMNA Glide: Global Unique Disaster Identifier

- Índice 4
- 89% de nulos y datos sin valor. La eliminamos.

#### COLUMNA Disaster Group – Grupo principal (ej. Natural, Technological)

- Índice 5
- Datos de tipo objeto (string)
- No hay valores nulos, pero todos los valores son "Natural". Eliminamos la columna.

In [10]:
df['Disaster Group'].value_counts()

Disaster Group
Natural    14644
Name: count, dtype: int64

#### COLUMNA Disaster Subgroup – Subgrupo (ej. Meteorological, Hydrological)

- Índice 6
- Datos de tipo objeto (string)
- No hay valores nulos, pero sí observamos categorías del desastre.

In [11]:
df['Disaster Subgroup'].value_counts()

Disaster Subgroup
Hydrological         5985
Meteorological       4589
Biological           1530
Geophysical          1400
Climatological       1139
Extra-terrestrial       1
Name: count, dtype: int64

#### COLUMNA Disaster Type – Tipo (ej. Storm, Flood)

- Índice 7
- Datos de tipo objeto (string)
- No hay valores nulos, encontramos valores concretos sobre el tipo de desastre

In [12]:
df['Disaster Type'].value_counts()

Disaster Type
Flood                    5272
Storm                    4005
Epidemic                 1436
Earthquake               1137
Landslide                 713
Drought                   685
Extreme temperature       584
Wildfire                  452
Volcanic activity         222
Insect infestation         93
Mass movement (dry)        41
Glacial lake outburst       2
Impact                      1
Animal accident             1
Name: count, dtype: int64

#### COLUMNA Disaster Subtype – Subtipo (ej. Tropical cyclone)

- Índice 8
- Datos de tipo objeto (string)
- 2747 nulos - Repetimos información de "Disaster Type" para conservar los que sí tenemos info.

In [13]:
df["Disaster Subtype"] = df["Disaster Subtype"].fillna(df["Disaster Type"])

In [14]:
print("Nulos después:", df["Disaster Subtype"].isna().sum())

Nulos después: 0


#### COLUMNA Disaster Subsubtype – Sub-subtipo (si aplica)

- índice 9
- 93% de nulos, la eliminamos. Todos los subtypes tienen subsubtype, no nos ayuda para resolver los nulos de la columna anterior.

#### COLUMNA Event Name – Nombre del evento (si existe)

- Índice 10
- 75% de nulos - DE MOMENTO DEJAMOS como NAN

- Todos los Disaster Type tienen al menos un nulo en Event Name

* La mayoría provienen de "Flood" - 5261, siguiendo "Storm" - 1840 y "Earthquake" - 1136
* No la eliminamos, de las 3645 filas que tenemos nombre posteriormente podemos sacar info/gráficas.  

In [15]:
df['Event Name'].isnull().sum()

np.int64(10999)

In [16]:
nulos_por_type = (
    df.groupby("Disaster Type")["Event Name"]
      .apply(lambda x: x.isna().sum())
      .reset_index(name="Nombre nulo")
)

nulos_por_type

Unnamed: 0,Disaster Type,Nombre nulo
0,Animal accident,1
1,Drought,685
2,Earthquake,1136
3,Epidemic,268
4,Extreme temperature,583
5,Flood,5261
6,Glacial lake outburst,2
7,Impact,1
8,Insect infestation,36
9,Landslide,711


#### COLUMNA Country – País afectado

- Índice 11
- Datos de tipo objeto (string)
- No disponemos de valores nulos.
- El país que encabeza nuestra lista es USA, seguido de China.
- Filtrado realizado para evitar reiteraciones y algunos nombres antiguos resueltos (Checoslovaquia - Rep Checa). URSS conservada ya que no abarcaba sólo Rusia.

In [17]:
# Diccionario de normalización de países
replace_dict = {
    # Congo
    "Congo (the Democratic Republic of the)": "Democratic Republic of the Congo",
    "Congo (the)": "Republic of the Congo",

    # Czechia / Checoslovaquia
    "Czech Republic (the)": "Czech Republic",
    "Czechoslovakia": "Czech Republic",  # ya no existe, se fusiona con Czechia

    # Alemania
    "Germany Fed Rep": "Germany",
    "Germany Dem Rep": "Germany",

    # Guinea
    "Guinea-Bissau": "Guinea-Bissau",
    "Guinea": "Guinea",

    # Yemen
    "Yemen Arab Rep": "Yemen",
    "Yemen P Dem Rep": "Yemen",
}

# Aplicar reemplazo
df["Country"] = df["Country"].replace(replace_dict)

In [18]:
df["Country"].value_counts().head(20)

Country
United States of America (the)    949
China                             906
India                             658
Philippines (the)                 612
Indonesia                         528
Bangladesh                        317
Japan                             272
Mexico                            262
Viet Nam                          241
Australia                         240
Brazil                            227
Pakistan                          213
Iran (Islamic Republic of)        205
Afghanistan                       200
Colombia                          188
Peru                              178
France                            173
Russian Federation (the)          173
Thailand                          155
Italy                             147
Name: count, dtype: int64

#### COLUMNA ISO – Código ISO del país

- Índice 12
- Ya que aparece incluído en 'Dis No' y podemos averiguarlo, eliminamos.

#### COLUMNA Region – Región (ej. Americas, Asia)

- Índice 13
- Datos de tipo objeto (string)
- No disponemos de valores nulos. Completa la información de "Continente". Dejamos ambas para facilitar las visualizaciones (por si queremos filtrar por Continente o región posteriormente).

In [19]:
# Tabla de frecuencia cruzada
tabla_region_cont = pd.crosstab(df['Region'], df['Continent'])

tabla_region_cont

Continent,Africa,Americas,Asia,Europe,Oceania
Region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Australia and New Zealand,0,0,0,0,312
Caribbean,0,530,0,0,0
Central America,0,751,0,0,0
Central Asia,0,0,141,0,0
Eastern Africa,1128,0,0,0,0
Eastern Asia,0,0,1578,0,0
Eastern Europe,0,0,0,535,0
Melanesia,0,0,0,0,232
Micronesia,0,0,0,0,43
Middle Africa,421,0,0,0,0


#### COLUMNA Continent - Continente

- Índice 14
- Datos de tipo objeto (string)
- No tenemos valores nulos

#### COLUMNA Location – Lugar específico

- Índice 15
- 1346 nulos. Los modifico reiterando la información de "Region", para no perder información pero eliminar los nulos (similar a lo que hice con Types y Subtypes)

In [20]:
df["Location"] = df["Location"].fillna(df["Region"])

In [21]:
print("Nulos después:", df["Location"].isna().sum())

Nulos después: 0


#### COLUMNA Origin – Origen del desastre (ej. Natural, Industrial)

- Índice 16
- 10864 nulos, he intentado agrupar por categorías pero es imposible ya que agrupa muchos en "Other" debido a typos y textos largos. De momento la dejo por si queremos revisar algún dato concreto.

In [22]:
df["Origin"].unique()

array([nan, 'Typhoon ', 'Heavy rains', 'Landslide', 'Heavy rain',
       'Earthquake and landslide', 'Famine', 'El Nino',
       'Extra-tropical cyclone', 'Brief torrential rain',
       'Heavy rains and thunderstorms', 'Monsoonal rain',
       'Monssonal rain', 'Heavy rains, tremor', 'Brief torrential rains',
       'Monsoon rain', 'Tropical cyclone', 'Drought period',
       'Prolonged drought', 'Monsoon rains',
       'Volcanic activity, tropical rainstorms and ash from the eruptions',
       'monsoonal rain', 'Heavy rain and Snowmelt',
       'Snowmelt and Heavy rains', 'Rain, snowmelt', 'Earthquake',
       'Snowmelt', 'Hevay rain', 'Typhoon Gali', 'Mosoonal rain',
       'Heavy rain and brief torrential rain',
       'Breakdown water supply, poor hygiene practices and increase of number of displaced perdons',
       'Flood', 'Heavy rains, melting snow', 'Continous rainfall',
       'Snow storm and heavy winds', 'Rain and snowmelt', 'Lack rainfall',
       'Food consumed', 'El Nin

#### COLUMNA Associated Dis – Desastres asociados (1)

- Índice 17
- 78% de nulos, intento de rellenar con la info de Associated Dis2 pero tenemos 95% nulos en esa. Aun así, nos falta mucha info (11403). 

#### COLUMNA Associated Dis2 – Desastres asociados (2)

- Índice 18
- 95% de nulos. Tras intentar sacar info para completar la anterior, eliminamos.

In [23]:
df["Associated Dis"] = df["Associated Dis"].fillna(df["Associated Dis2"])

#### COLUMNA OFDA Response – Respuesta de la Office of U.S. Foreign Disaster Assistance

- Índice 19
- 13194 nulos. Eliminamos. 

#### COLUMNA Appeal – Si hubo apelación internacional

- Índice 20
- 12204 nulos. Eliminamos.

#### COLUMNA Declaration – Declaración oficial de desastre.

- Índice 21
- 11517 nulos. Podemos considerar que la mayoría no se consideraron oficialmente, o no disponemos de registros. Eliminamos.

#### COLUMNA Aid Contribution – Contribución de ayuda (si se registró)

- Índice 22
- 95% de nulos y muchos sin registrar. Eliminamos

#### COLUMNA DIS MAG VALUE: Valor de magnitud (ej. magnitud sísmica)

- Índice 23 
- Datos de tipo float que muestran la magnitud asociada
- Encontramos muchos nulos (10.075) pero mantenemos el dato por su importancia.

In [24]:
df['Dis Mag Value'].isnull().sum()

np.int64(10075)

#### COLUMNA DIS MAG SCALE: Escala de magnitud (ej. Richter, Mercalli)

- Índice 24 
- Datos de tipo objeto que representan unidades de medida de distintos tipos de eventos, donde:
    - '°C' (grados centígrados) son Disaster Type = 'Extreme temperature' por Disaster Subtype = 'Cold wave' o 'Heat wave' (584 filas)
    - 'Vaccinated' (vacunados) son Disaster Type = 'Epidemic' por Disaster Subtype = 'Bacterial disease' o 'Viral disease' (1.436 filas)
    - 'Richter' (escala de magnitud de liberación de energía del sismo) son Disaster Type = 'Earthquake' por Disaster Subtype = 'Ground movement' (1.137 filas)
    - 'Kph' (Km por hora, velocidad del viento) son Disaster Type = 'Storm' por Disaster Subtype = 'Tropical cyclone' o 'Convective storm' (4.005 filas)
    - 'Km2' son Disaster Type = 'Flood', por Disaster Subtype = 'Flash flood' o NaN, o 'Drought', por Disaster Subtype = 'Drought' o NaN (6.409 filas)
- Encontramos nulos (1.073 filas) que también representan desastres aunque sin magnitud:
    - Disaster Type = 'Landslide' por Disaster Subtype = 'Avalanche' o 'Landslide' 
    - Disaster Type = 'Mass movement (dry)' por Disaster Subtype = 'Landslide'
    - Disaster Type = 'Volcanic activity' por Disaster Subtype = 'Lava flow' o 'Pyroclastic flow'

In [25]:
df['Dis Mag Scale'].unique()

array(['Km2', 'Kph', nan, 'Richter', 'Vaccinated', '°C'], dtype=object)

#### COLUMNA LATITUDE: Latitud del evento

- Índice 25 
- Datos de tipo objeto (string) con valores positivos (hemisferio norte, de 0° a + 90°) y negativos (hemisferio sur, de 0° a -90°)
- Los datos aparecen con puntos (.) en lugar de comas (,), formato necesario para que la Latitud se pueda leer en Tableau, por lo que aplicamos un str.replace('.',',') 
- Encontramos muchos nulos (12.313) pero mantenemos el dato para mapear

In [26]:
df['Latitude'] = df['Latitude'].str.replace('.',',') 
df['Latitude'].unique()

array([nan, '24,185', '6,375', ..., '-331,035', '492,688', '132,586'],
      shape=(2092,), dtype=object)

#### COLUMNA LONGITUDE: Longitud del evento

- Índice 26 
- Datos de tipo objeto (string). La longitud se mide desde el meridiano de Greenwich (0°) hacia el este y hacia el oeste, con valores positivos (hemisferio este, de 0° a +180°) y negativos (hemisferio oeste, de 0° a -180°). 
- Los datos aparecen con puntos (.) en lugar de comas (,), formato necesario para que la Longitud se pueda leer en Tableau, por lo que aplicamos un str.replace('.',',') 
- Encontramos muchos nulos (12.309) pero mantenemos el dato para mapear

In [27]:
df['Longitude'] = df['Longitude'].str.replace('.',',') 
df['Longitude'].unique()

array([nan, '102,543', '-77,438', ..., '-560,461', '23,628', '444,372'],
      shape=(2096,), dtype=object)

#### COLUMNA LOCAL TIME: Hora local del inicio del desastre

- Índice 27 
- Datos de tipo objeto
- Encontramos muchos nulos (13.879) y no es un dato relevante. Eliminamos.

#### COLUMNA RIVER BASIN: Cuenca hidrográfica (si aplica)

- Índice 28 
- Datos de tipo objeto
- Encontramos muchos nulos (13.359) y no es un dato relevante. Eliminamos.

#### COLUMNAS START YEAR (Año de inicio), START MONTH (Mes de inicio) Y START DAY (Día de inicio)

- Índices 29, 30 y 31 
- Datos de tipo integer o float que representan la fecha inicial del suceso pero aparecen en 3 columnas
- Encontramos nulos (valores faltantes) en mes y día

##### SOLUCIÓN:
- Unimos las 3 columnas para generar una única columna de Fecha de inicio "Start Date"
- Seguimos encontrando 3.069 nulos que aparecen como NaT

#### COLUMNAS END YEAR (Año de fin), END MONTH (Mes de fin) Y END DAY (Día de fin)

- Índices 32, 33 y 34 
- Datos de tipo integer o float que representan la fecha final del suceso pero aparecen en 3 columnas
- Encontramos nulos (valores faltantes) en mes y día

##### SOLUCIÓN:
- Unimos las 3 columnas para generar una única columna de Fecha de fin, "End Date"
- Seguimos encontrando 2.999 nulos que aparecen como NaT
- Generamos una columna más, Duración del suceso, "Duration"
- Seguimos encontrando 3.179 nulos que aparecen como NaT

In [28]:
# Función para construir fechas solo si hay año, mes y día
def construir_fecha(year, month, day):
    if pd.notna(year) and pd.notna(month) and pd.notna(day):
        try:
            return pd.Timestamp(int(year), int(month), int(day))
        except:
            return pd.NaT
    return pd.NaT
# NaT (“Not a Time”) → es la versión especial de NaN, pero para valores de tipo fecha/hora

# Crear columnas de fecha de inicio y fin
df["Start Date"] = df.apply(lambda row: construir_fecha(row["Start Year"], row["Start Month"], row["Start Day"]), axis=1)
df["End Date"] = df.apply(lambda row: construir_fecha(row["End Year"], row["End Month"], row["End Day"]), axis=1)

In [29]:
# Fechas de inicio:
df["Start Date"]

0       1970-01-04
1              NaT
2              NaT
3       1970-11-12
4       1970-04-13
           ...    
14639   2021-07-16
14640   2021-02-01
14641   2021-09-07
14642   2021-01-11
14643          NaT
Name: Start Date, Length: 14644, dtype: datetime64[ns]

In [30]:
# Fechas de fin:
df["End Date"] 

0       1970-01-04
1              NaT
2              NaT
3       1970-11-12
4       1970-04-13
           ...    
14639   2021-08-07
14640   2021-02-15
14641   2021-09-13
14642   2021-01-12
14643   2021-10-07
Name: End Date, Length: 14644, dtype: datetime64[ns]

In [31]:
# Sacamos la Duración del suceso:
df["Duration"] = (df["End Date"] - df["Start Date"]).dt.days + 1
df["Duration"]
# .dt.days convierte el Timedelta en número de días (entero)

0         1.0
1         NaN
2         NaN
3         1.0
4         1.0
         ... 
14639    23.0
14640    15.0
14641     7.0
14642     2.0
14643     NaN
Name: Duration, Length: 14644, dtype: float64

#### COLUMNA TOTAL DEATHS (Número total de fallecidos)

- Índices 35  
- Datos de tipo float 
- Encontramos 4.445 nulos

In [32]:
df["Total Deaths"].isnull().sum()

np.int64(4445)

#### COLUMNAS Nº INJURED (Número de heridos), Nº AFFECTED (Número de afectados), Nº HOMELESS (Número de personas sin hogar) Y TOTAL AFFECTED (Total de personas afectadas (suma de afectados, heridos, sin hogar))

- Índices 36, 37, 38 y 39 
- Datos de tipo float todos relacionados con personas afectadas por los desastres naturales
- Encontramos nulos:
    - No Injured: 10.993 nulos
    - No Affected: 5.798 nulos
    - No Homeless: 12.395 nulos
    - Total Affected: 3.603 nulos
- Siendo "Total Affected" la suma de los otros 3, nos quedamos sólo con éste 

In [33]:
# Comprobamos si "Total Affected" es la suma de los 3, pero sale False cuando hay NaN: 
suma = df[["No Injured", "No Affected", "No Homeless"]].fillna(0).sum(axis=1)
df["check"] = suma == df["Total Affected"]
df["check"]

0        False
1        False
2        False
3         True
4         True
         ...  
14639     True
14640     True
14641     True
14642     True
14643     True
Name: check, Length: 14644, dtype: bool

#### COLUMNAS RECONSTRUCTION COSTS (Costes de reconstrucción, en miles de USD), INSURED DAMAGES (Daños asegurados, en miles de USD), TOTAL DAMAGES (Daños totales, en miles de USD) Y CPI (Índice de precios al consumidor)

- Índices 40, 41, 42 y 43 
- Datos de tipo float
- Encontramos nulos:
    - Reconstruction Costs ('000 US$): 100% nulos
    - Insured Damages ('000 US$): 95% nulos
    - Total Damages ('000 US$): 65% nulos
    - CPI: 315 nulos
- Eliminamos las 4 por la cantidad de nulos de las 3 primeras, y por no tener interés en el proyecto el CPI

COLUMNA Adm Level – Nivel administrativo (ej. nacional, regional)

- Índice 44
- 6789 nulos. La eliminamos ya que utilizaremos las otras columnas de localización.

In [34]:
df["Adm Level"].isna().sum()

6789

COLUMNA Admin1 Code – Código de primera división administrativa (ej. estado, provincia)

- Índice 45
- 10063 nulos. La eliminamos.

In [35]:
df["Admin1 Code"].isna().sum()

10063

COLUMNA Admin2 Code – Código de segunda división administrativa (ej. municipio)

- Índice 46
- 10679 nulos. La eliminamos.


In [36]:
df["Admin2 Code"].isna().sum()

10679

COLUMNA Geo Locations – Ubicaciones geográficas adicionales

- Índice 47
- La eliminamos ya que reitera la información de Location.

-------------------

COLUMNAS QUE ELIMINAMOS

In [None]:
# COLUMNAS AÑADIDAS:
["Duration", "End Date", "Start Date"]

#COLUMNAS ELIMINADAS:
df_revisado=df.drop(columns=['Seq', 'Glide', 'Disaster Group', 'Disaster Subsubtype', 'ISO', 'Associated Dis2','OFDA Response', 'Appeal', 'Declaration', 'Aid Contribution', 'Local Time', 'River Basin', 'Start Year', 'Start Month', 'Start Day', 'End Year', 'End Month', 'End Day', 'No Injured', 'No Affected', 'No Homeless', 'check', "Reconstruction Costs ('000 US$)", "Insured Damages ('000 US$)", "Total Damages ('000 US$)", 'CPI', 'Adm Level', 'Admin1 Code', 'Admin2 Code', 'Geo Locations'])


In [35]:
df_revisado.sample(5)

Unnamed: 0,Dis No,Year,Disaster Subgroup,Disaster Type,Disaster Subtype,Event Name,Country,Region,Continent,Location,Origin,Associated Dis,Dis Mag Value,Dis Mag Scale,Latitude,Longitude,Total Deaths,Total Affected,Start Date,End Date,Duration
4232,1995-0393-KOR,1995,Meteorological,Storm,Tropical cyclone,Faye,Korea (the Republic of),Eastern Asia,Asia,Yosu,,Transport accident,194.0,Kph,,,28.0,1450.0,1995-07-23,1995-07-23,1.0
5061,1998-0166-RUS,1998,Hydrological,Flood,Riverine flood,,Russian Federation (the),Eastern Europe,Europe,"Lenks, Sibary",,,,Km2,,,,20000.0,1998-05-17,1998-05-17,1.0
6596,2002-0344-CHN,2002,Hydrological,Flood,Flood,,China,Eastern Asia,Asia,"Tuokexun Xian area (Turfan district, Xinjiang ...",,,124900.0,Km2,,,22.0,7001.0,2002-05-23,2002-06-22,31.0
6378,2003-0087-CAN,2003,Hydrological,Flood,Riverine flood,,Canada,Northern America,Americas,"Badger town (Division No. 6 district, Newfound...",Ice jams,,1000.0,Km2,,,,1100.0,2003-02-15,2003-02-21,7.0
14446,2021-0015-MYS,2021,Hydrological,Flood,Flood,,Malaysia,South-Eastern Asia,Asia,"Beaufort, Kota Marudu, Kudat, Pitas (Sabah Sta...",Heavy rains,,,Km2,,,,6000.0,2021-01-11,2021-01-13,3.0


In [36]:
df_revisado.to_csv("datos_revisados.csv")