# LIMPIEZA DE DATOS PARA CREAR UN TABLERO RESUMEN SOBRE **ACCIDENTES DE TRÁNSITO EN MEDELLÍN EN EL 2022**

Los datos utilizados en este cuaderno para el ejercicio propuesto son datos georeferenciados de los accidentes e incidentes de tránsito ocurridos en toda la extensión del territorio de medellín incluyendo sus corregimientos.

*Estos están alojados en la plataforma de [GeoMedellín](https://www.medellin.gov.co/geomedellin/) de manera pública y son administrados por la  Secretaría de Movilidad de la Alcaldía de Medellín.*

los datos originales pueden ser accedidos desde este [enlace](https://geomedellin-m-medellin.opendata.arcgis.com/datasets/M-Medellin::incidentes-georreferenciados-2022-gdb/explore?location=6.247704%2C-75.588628%2C11.97)





<br>

####Objetivos propuestos

Con este ejercicio se pretende realizar un tratamiento y limpieza a los datos de la geodatabase con `Python` y sus librerias como `Pandas, Numpy, etc...` para crear un tablero resumen con información útil en `Power BI` y proponer alternativas de solución como respuesta a las decisiones que se deben tomar para reducir el número de accidentes en períodos futuros.




###Descripción de los datos utilizados
<br>

los datos están almacenados en un fichero CSV que tiene una extensión de **23.577** registros y contiene datos registrados entre el mes de Enero hasta Julio del 2022.
<br>



####Descripción de las Columnas
<br>
El fichero cuenta con 25 Atributos(Columnas) que contienen metadatos que complementan el número total de accidentes.



<br>

####Tabla de Descripción
<hr>

|Nombre |Tipo |
|--------|----------|
|RADICADO| Texto|
|X|Número|
|Y| Número|
|HORA| Texto|
|DIA |Texto|
|PERIODO |Texto|
|CLASE |Texto|
|DIRECCION|Texto|
|DIRECCION_ENC| Texto|
|CBML |Texto|
|TIPO_GEOCOD |Texto|
|EXPEDIENTE| Texto|
|GRAVEDAD |Texto|
|BARRIO |Texto|
|COMUNA| Texto|
|DISENO| Texto|
|MES |Texto|
|DIA| Texto|
|FECHA| Fecha u hora|
|MES_NOMBRE |Texto|
|X_MAGNAMED |Número|
|Y_MAGNAMED| Número|
|LONGITUD |Número|
|LATITUD| Número|

Una vez descritos los datos a tratar, realizamos todo el proceso de limpieza y tratamiento a través de Python y sus principales librerias para datos.

####Ejecución de código

Importamos las librerías necesarias para poder manipular los datos.

In [None]:
import pandas as pd
import numpy as np

Una vez que se carguen los datos en el cuaderno se guardan en un dataframe.

In [None]:
df = pd.read_csv('incidentes2022.csv')

Una vez cargados los datos en el dataframe se verifica que los datos si correspondan, al menos en sus primeras 5 filas con el método `.head()`

In [None]:
df.head()

Unnamed: 0,X,Y,OBJECTID,RADICADO,HORA,DIA_NOMBRE,PERIODO,CLASE,DIRECCION,DIRECCION_ENC,...,COMUNA,DISENO,MES,DIA,FECHA,MES_NOMBRE,X_MAGNAMED,Y_MAGNAMED,LONGITUD,LATITUD
0,-75.592351,6.243512,1,1783170,08:05:00,MIÉRCOLES,2022,Choque,Circular 2 Con Carrera 74,CQ 002 074 000 00000,...,Laureles Estadio,Interseccion,3,16,2022/03/16 00:00:00+00,MARZO,832338.65,1182399.08,-75.592351,6.243512
1,-75.579832,6.230514,2,1783476,17:30:00,MIÉRCOLES,2022,Choque,Carrera 55 Con Calle 29 C,CR 055 029 C 000 00000,...,Guayabal,Interseccion,3,16,2022/03/16 00:00:00+00,MARZO,833724.32,1180961.28,-75.579832,6.230514
2,-75.599001,6.269136,3,1789709,17:00:00,MIÉRCOLES,2022,Choque,Calle 54 Con Carrera 83,CL 054 083 000 00000,...,San Javier,Interseccion,5,4,2022/05/04 00:00:00+00,MAYO,831602.7,1185233.45,-75.599001,6.269136
3,-75.573979,6.232882,4,1793934,13:30:00,DOMINGO,2022,Choque,Carrera 49 Con Calle 31,CR 049 031 000 00000,...,La Candelaria,Tramo de via,6,12,2022/06/12 00:00:00+00,JUNIO,834372.23,1181223.19,-75.573979,6.232882
4,-75.703816,6.221806,5,1791043,06:45:00,MIÉRCOLES,2022,Otro,Carrera 30 Con Calle 8 A,0,...,,Lote o Predio,5,18,2022/05/18 00:00:00+00,MAYO,820000.0,1180000.0,-75.703816,6.221806


Ahora que tenemos los datos debemos empezar a eliminar las columnas que de momento no son relevantes para nuestro propósito, esto lo conseguimos con el método `.drop()`
al cual le pasamos el nombre de las columnas que deseamos eliminar entre comillas simples o dobles y separados por coma.

In [None]:
df = df.drop(['X','Y','EXPEDIENTE','TIPO_GEOCOD','CBML','DIRECCION_ENC','DIRECCION','PERIODO','HORA','OBJECTID','DIA','MES','DISENO','X_MAGNAMED','Y_MAGNAMED','DIA_NOMBRE','MES_NOMBRE'], axis = 1)
df.head()


Unnamed: 0,RADICADO,CLASE,GRAVEDAD,BARRIO,COMUNA,FECHA,LONGITUD,LATITUD
0,1783170,Choque,HERIDO,Bolivariana,Laureles Estadio,2022/03/16 00:00:00+00,-75.592351,6.243512
1,1783476,Choque,MUERTO,Tenche,Guayabal,2022/03/16 00:00:00+00,-75.579832,6.230514
2,1789709,Choque,SOLO DAÑOS,El Pesebre,San Javier,2022/05/04 00:00:00+00,-75.599001,6.269136
3,1793934,Choque,HERIDO,Perpetuo Socorro,La Candelaria,2022/06/12 00:00:00+00,-75.573979,6.232882
4,1791043,Otro,HERIDO,,,2022/05/18 00:00:00+00,-75.703816,6.221806


Luego de ejecutar el método `.drop()` podemos verificar ahora cual es la nueva dimensión del datafram con el método `.shape`

In [None]:
df.shape

(23577, 8)

Ahora es necesario verificar si los datos contienen duplicados y datos nulos

In [None]:
filas_duplicadas = df[df.duplicated()]
print("Número de filas duplicadas: ", filas_duplicadas.shape)

Número de filas duplicadas:  (0, 8)


Vemos que no hay dúplicados, es decir que de la columna RADICADO ninguno es igual.
Ahora ejecutemos el método `.count()` para ver un recuento de cada columna y ver si todas tienen el mismo número de filas

In [None]:
df.count()

RADICADO    23577
CLASE       23577
GRAVEDAD    23577
BARRIO      21794
COMUNA      21794
FECHA       23577
LONGITUD    23577
LATITUD     23577
dtype: int64

En las Columnas `BARRIO` y `COMUNA` se oberva que hay menos filas que en las demás por lo que posiblemente son datos nulos, para confirmarlo se ejecuta el método `isnull()` acompañado de `.sum()` y este mostrará el número de datos núlos por columna en nuestro dataframe.

In [None]:
print(df.isnull().sum())

RADICADO       0
CLASE          0
GRAVEDAD       0
BARRIO      1783
COMUNA      1783
FECHA          0
LONGITUD       0
LATITUD        0
dtype: int64


Se encuentra que en las columnas BARRIO y COMUNA hay 1783 datos nulos en cada una, procedemos a eliminarlos junto con toda la fila que los contiene, con el método `.dropna()`
junto con otras filas que contienen información incompleta como Sin Información o Información que para nuestro propósito no corresponde.

In [None]:
df = df.dropna()    # Eliminando los valores nulos.
df = df[df["BARRIO"] != " "]
df = df[df["COMUNA"] != " "]
df = df[df["COMUNA"] != "Sin inf"]
df = df[df["COMUNA"] != "Sin Inf"]
df = df[df["COMUNA"] != "AU"]
df = df[df["COMUNA"] != "In"]
df = df[df["COMUNA"] != "SN"]
df = df[df["BARRIO"] != "Sin inf"]
df = df[df["BARRIO"] != "Sin Inf"]
df.count()

RADICADO    20259
CLASE       20259
GRAVEDAD    20259
BARRIO      20259
COMUNA      20259
FECHA       20259
LONGITUD    20259
LATITUD     20259
dtype: int64

Se observa que en esta ocasión todas las columnas tienen el mísmo número de filas.

Ahora que se ha limpiado el dataframe se exporta a un nuevo archivo CSV que llamaremos `incidentes2022_clean.csv` con el método `.to_csv()` y será el que importemos en **Power BI** para crear el Tablero.

In [None]:
df.to_csv('incidentes2022_clean.csv', index = False)