# Sebastian Chaparro Jimenez
### *Fundación Universitaria los Libertadores*





## Limpieza de datos

A continuación se presenta una de las muchas maneras de limpiar bases de datos, cuando estas presentan caracteres que no corresponden al tipo de variable.

La base de datos Llamadas de urgencias y emergencias, contienen información registrada de las llamadas realizadas a la línea de emergencias, podemos encontrar información de la Fecha, el desplazamiento del móvil, código de la localidad, Localidad, Edad, unidad, género, red, tipo de urgencia, prioridad, mes, calificación final. 



In [101]:
# Librerias requeridas 
import pandas as pd
import numpy as np
from datetime import datetime


In [102]:
# Carga de datos
datos = pd.read_csv("C:/Users/sebas/OneDrive/Python/llamadas-de-urgencias-y-emergencias.csv",encoding="latin",
                    sep = ";" )


In [118]:
datos.head(10)

Unnamed: 0,FECHA_INCIDENTE,FECHA_INICIO_DESPLAZAMIENTO_MOVIL,CODIGO LOCALIDAD,LOCALIDAD,EDAD,UNIDAD,GENERO,RED,TIPO_INCIDENTE,PRIORIDAD,MES,CLASIFICACION FINAL
0,2019-01-01 00:00:18,2019-01-01 00:04:37,11,Suba,,,,Norte,Lesiones personales,ALTA,ENERO,Cancelado
1,2019-01-01 00:00:58,2019-01-01 00:08:06,16,Puente Aranda,,,,Sur,Accidente de tránsito con heridos/Muertos,ALTA,ENERO,Cancelado
2,2019-01-01 00:04:31,2019-01-01 00:07:41,3,Santa Fe,51.0,Años,FEMENINO,Norte,Dolor torácico,ALTA,ENERO,Traslado
3,2019-01-01 00:04:51,2019-01-01 00:07:46,10,Engativá,,,,Norte,Inconsciente/Paro Cardiorrespiratorio,ALTA,ENERO,Falsa Alarma
4,2019-01-01 00:08:40,2019-01-01 00:10:40,8,Kennedy,,,,Sur,Herido con pólvora,ALTA,ENERO,Cancelado
5,2019-01-01 00:08:40,2019-01-01 00:13:23,8,Kennedy,51.0,Años,FEMENINO,Sur,Herido con pólvora,ALTA,ENERO,Desistimiento
6,2019-01-01 00:09:48,2019-01-01 00:10:58,15,Antonio Nariño,,,,Sur,Inconsciente/Paro Cardiorrespiratorio,ALTA,ENERO,Cancelado
7,2019-01-01 00:09:48,2019-01-01 00:10:26,15,Antonio Nariño,,,,Norte,Inconsciente/Paro Cardiorrespiratorio,ALTA,ENERO,Cancelado
8,2019-01-01 00:10:25,2019-01-01 01:14:56,7,Bosa,,,,Sur,Intento de suicidio,ALTA,ENERO,Cancelado
9,2019-01-01 00:10:25,2019-01-01 00:11:37,7,Bosa,,,,Sur,Intento de suicidio,ALTA,ENERO,Cancelado


In [103]:
# Información de las variables. 
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 127314 entries, 0 to 127313
Data columns (total 12 columns):
 #   Column                             Non-Null Count   Dtype 
---  ------                             --------------   ----- 
 0   FECHA_INCIDENTE                    127314 non-null  object
 1   FECHA_INICIO_DESPLAZAMIENTO_MOVIL  127314 non-null  object
 2   CODIGO LOCALIDAD                   127314 non-null  int64 
 3   LOCALIDAD                          127314 non-null  object
 4   EDAD                               127314 non-null  object
 5   UNIDAD                             127314 non-null  object
 6   GENERO                             127314 non-null  object
 7   RED                                127314 non-null  object
 8   TIPO_INCIDENTE                     127314 non-null  object
 9   PRIORIDAD                          127286 non-null  object
 10  MES                                127314 non-null  object
 11  CLASIFICACION FINAL                127314 non-null  

La mayoría de las variables no corresponden al tipo requerido para realizar análisis posteriores, las fechas no son de tipo fecha, la edad, por ejemplo, debería estar en formato int o float, entre otras variables las cuales iremos analizando a medida que desarrollamos este código.

### Fechas: 

Las fechas se encuentran en distintos formatos, entre ellos encontramos fechas con formato "2019-01 01" donde falta "-","30/06/2019" y fechas no registradas como "0000-00-00 00:00:00" las cuales deberían ser Valores ausentes (null, Nan, Na) 


In [110]:
datos["FECHA_INCIDENTE"]

0         2019-01 01 00:00:18
1         2019-01 01 00:00:58
2         2019-01 01 00:04:31
3         2019-01 01 00:04:51
4         2019-01 01 00:08:40
                 ...         
127309       30/06/2019 23:41
127310       30/06/2019 23:52
127311       30/06/2019 23:53
127312       30/06/2019 23:54
127313       30/06/2019 23:56
Name: FECHA_INCIDENTE, Length: 127314, dtype: object

In [111]:
# Función que permite tratar los distintos formatos de fecha.

def mod_fecha(fecha_str):
    x = "/"
    if x in fecha_str:
        fecha_str = datetime.strptime(fecha_str, "%d/%m/%Y %H:%M")
        return fecha_str
    if "0000-00-00 00:00:00" in fecha_str:
        fecha_str = np.nan
        return fecha_str
    else:
        fecha_str = datetime.strptime(fecha_str, "%Y-%m %d %H:%M:%S")
        return fecha_str
        

datos['FECHA_INCIDENTE'] = datos['FECHA_INCIDENTE'].apply(mod_fecha)
datos['FECHA_INICIO_DESPLAZAMIENTO_MOVIL'] = datos['FECHA_INICIO_DESPLAZAMIENTO_MOVIL'].apply(mod_fecha)


Al aplicar la función las fechas quedan en formato Año-mes-día 

In [112]:
datos["FECHA_INCIDENTE"]

0        2019-01-01 00:00:18
1        2019-01-01 00:00:58
2        2019-01-01 00:04:31
3        2019-01-01 00:04:51
4        2019-01-01 00:08:40
                 ...        
127309   2019-06-30 23:41:00
127310   2019-06-30 23:52:00
127311   2019-06-30 23:53:00
127312   2019-06-30 23:54:00
127313   2019-06-30 23:56:00
Name: FECHA_INCIDENTE, Length: 127314, dtype: datetime64[ns]

### Valores ausentes "SIN_DATO"

Algunos valores ausentes presentes en la base de datos están referencias con la palabra "SIN_DATO", lo cual impide poder pasar la edad a int o float, por lo tanto, estos valores son cambiados por Nan y posteriormente cambiamos el tipo de variable

In [113]:
datos = datos.replace("SIN_DATO",np.nan)


In [114]:
datos["EDAD"] = datos["EDAD"].astype("float") 

### Localidad


La variable localidad tiene localidades repetidas, puesto que es diferente " Useme" que "Usme", por lo tanto, quitamos los espacios iniciales y finales

In [76]:
datos["LOCALIDAD"].unique()

array(['Suba', 'Puente Aranda', ' Santa Fe', 'Engativá', 'Kennedy',
       ' Antonio Nariño', ' Bosa', 'San Cristóbal', ' Ciudad Bolívar',
       ' Rafael Uribe Uribe', 'Tunjuelito', 'Fontibón', ' Usaquén',
       ' Chapinero', ' Usme', ' Barrios Unidos', ' Los Mártires',
       ' Teusaquillo', ' La Candelaria', ' Sumapaz', ' Kennedy',
       ' San Cristóbal', ' Suba', ' Puente Aranda', 'Usme', 'Usaquén',
       ' Engativá', 'Chapinero', ' Tunjuelito', ' Fontibón', 'Santa Fe',
       'Los Mártires', 'Rafael Uribe Uribe', 'Bosa', 'Ciudad Bolívar',
       'Barrios Unidos', 'Teusaquillo', 'Antonio Nariño', 'La Candelaria'],
      dtype=object)

In [81]:
datos["LOCALIDAD"] = datos["LOCALIDAD"].apply(lambda x: x.strip())

In [82]:
datos["LOCALIDAD"].unique()

array(['Suba', 'Puente Aranda', 'Santa Fe', 'Engativá', 'Kennedy',
       'Antonio Nariño', 'Bosa', 'San Cristóbal', 'Ciudad Bolívar',
       'Rafael Uribe Uribe', 'Tunjuelito', 'Fontibón', 'Usaquén',
       'Chapinero', 'Usme', 'Barrios Unidos', 'Los Mártires',
       'Teusaquillo', 'La Candelaria', 'Sumapaz'], dtype=object)

In [83]:
datos["GENERO"].unique()


array([nan, 'FEMENINO', 'MASCULINO'], dtype=object)

### RED 

La variable red tiene el inconveniente de presentar strings con minúsculas, mayúsculas. Esto impide tener una categoría por red. 

In [116]:
datos["RED"].unique()


array(['Norte', 'Sur', 'SUR', 'NORTE', 'sur'], dtype=object)

In [117]:
datos["RED"] = datos["RED"].apply(lambda x: x.capitalize() ) 
datos["RED"].unique()

array(['Norte', 'Sur'], dtype=object)