## **Limpieza de los archivos Excel de "Emergencias UNGRD"**
----

#### ***Importación de paquetes***

In [47]:
import pandas as pd

### ***Cargar los datasets mediante Pandas***

In [48]:
df_2003 = pd.read_excel('../Excel (2003 - 2018, 2023)/EMERGENCIAS-2003.xls', sheet_name='REPORTE DE EMERGENCIAS', skiprows=1)

## **Correspondiente a 2003**
---
#### ***Delimitar el dataset y visualizar una muestra de los datos***

In [49]:
df_2003 = df_2003[0:561]

#### ***Liberarnos de ciertas columnas***
Debido a que es un dataframe demasiado grande, solamente escogemos ciertas columnas de nuestro interés.

In [50]:
df_2003 = df_2003[["FECHA", "DEPTO", "MUNICIPIO", "EVENTO", "MUERTOS", "HERIDOS", "DESAPA.", "PERSONAS", "FAMILIAS", "VIV.DESTRU.", "VIAS", "HECTAREAS"]]
df_2003.head(5)

Unnamed: 0,FECHA,DEPTO,MUNICIPIO,EVENTO,MUERTOS,HERIDOS,DESAPA.,PERSONAS,FAMILIAS,VIV.DESTRU.,VIAS,HECTAREAS
0,2003-01-01 00:00:00,CHOCO,BAGADO,INUNDACION,1.0,,,700.0,175.0,,,
1,2003-01-01 00:00:00,CHOCO,MEDIO ATRATO,INUNDACION,,,,3161.0,691.0,,,
2,2003-01-01 00:00:00,CHOCO,LITORAL DEL SAN JUAN,VENDAVAL,,,,995.0,199.0,,,
3,2003-01-03 00:00:00,QUINDIO,LA TEBAIDA,INCENDIO FORESTAL,,,,,,,,
4,2003-01-03 00:00:00,CHOCO,LLORO,INUNDACION,,,,1076.0,269.0,,,


#### ***Corrección en formato de números***

In [51]:
df_2003.fillna(0, inplace=True)
df_2003 = df_2003.astype({'MUERTOS': int, 'HERIDOS': int, 'DESAPA.': int, 'PERSONAS': int, 'FAMILIAS': int, 'VIV.DESTRU.': int, 'VIAS': int, 'HECTAREAS': int})

df_2003

Unnamed: 0,FECHA,DEPTO,MUNICIPIO,EVENTO,MUERTOS,HERIDOS,DESAPA.,PERSONAS,FAMILIAS,VIV.DESTRU.,VIAS,HECTAREAS
0,2003-01-01 00:00:00,CHOCO,BAGADO,INUNDACION,1,0,0,700,175,0,0,0
1,2003-01-01 00:00:00,CHOCO,MEDIO ATRATO,INUNDACION,0,0,0,3161,691,0,0,0
2,2003-01-01 00:00:00,CHOCO,LITORAL DEL SAN JUAN,VENDAVAL,0,0,0,995,199,0,0,0
3,2003-01-03 00:00:00,QUINDIO,LA TEBAIDA,INCENDIO FORESTAL,0,0,0,0,0,0,0,0
4,2003-01-03 00:00:00,CHOCO,LLORO,INUNDACION,0,0,0,1076,269,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...
556,2003-12-10 00:00:00,NORTE DE SANTANDER,SAN CAYETANO,INUNDACION,0,0,0,172,59,0,0,0
557,2003-12-10 00:00:00,NORTE DE SANTANDER,EL CARMEN,DESLIZAMIENTO,0,0,0,135,41,0,0,0
558,2003-12-10 00:00:00,NORTE DE SANTANDER,PAMPLONA,DESLIZAMIENTO,1,4,0,152,38,0,0,0
559,2003-12-10 00:00:00,BOYACA,OTANCHE,INUNDACION,0,0,0,1500,300,0,0,0


#### ***Transformación de los datos correspondiente a la fecha y hora***

In [52]:
df_2003['FECHA'] = pd.to_datetime(df_2003['FECHA'])

df_2003['AÑO'] = df_2003['FECHA'].dt.year
df_2003['MES'] = df_2003['FECHA'].dt.month

# Reorganizar las columnas
cols = ['AÑO', 'MES'] + [col for col in df_2003.columns if col not in ['AÑO', 'MES']]
df_2003 = df_2003[cols]

df_2003

Unnamed: 0,AÑO,MES,FECHA,DEPTO,MUNICIPIO,EVENTO,MUERTOS,HERIDOS,DESAPA.,PERSONAS,FAMILIAS,VIV.DESTRU.,VIAS,HECTAREAS
0,2003,1,2003-01-01,CHOCO,BAGADO,INUNDACION,1,0,0,700,175,0,0,0
1,2003,1,2003-01-01,CHOCO,MEDIO ATRATO,INUNDACION,0,0,0,3161,691,0,0,0
2,2003,1,2003-01-01,CHOCO,LITORAL DEL SAN JUAN,VENDAVAL,0,0,0,995,199,0,0,0
3,2003,1,2003-01-03,QUINDIO,LA TEBAIDA,INCENDIO FORESTAL,0,0,0,0,0,0,0,0
4,2003,1,2003-01-03,CHOCO,LLORO,INUNDACION,0,0,0,1076,269,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
556,2003,12,2003-12-10,NORTE DE SANTANDER,SAN CAYETANO,INUNDACION,0,0,0,172,59,0,0,0
557,2003,12,2003-12-10,NORTE DE SANTANDER,EL CARMEN,DESLIZAMIENTO,0,0,0,135,41,0,0,0
558,2003,12,2003-12-10,NORTE DE SANTANDER,PAMPLONA,DESLIZAMIENTO,1,4,0,152,38,0,0,0
559,2003,12,2003-12-10,BOYACA,OTANCHE,INUNDACION,0,0,0,1500,300,0,0,0


#### ***Renombrar columnas***

In [53]:
df_2003 = df_2003.rename(columns={'DEPTO': 'DEPARTAMENTO',
                        'MUERTOS': 'FALLECIDOS',
                        'DESAPA.': 'DESAPARECIDOS',
                        'VIV.DESTRU.': 'VIVIENDAS'})
df_2003.columns.tolist()

['AÑO',
 'MES',
 'FECHA',
 'DEPARTAMENTO',
 'MUNICIPIO',
 'EVENTO',
 'FALLECIDOS',
 'HERIDOS',
 'DESAPARECIDOS',
 'PERSONAS',
 'FAMILIAS',
 'VIVIENDAS',
 'VIAS',
 'HECTAREAS']