## Limpieza dataset 2014
A continuación se limpia y analiza los datos correspondientes al dataset del año 2014. Este data set se compone de las siguientes columnas:
- X: longitud
- Y: Latitud
- FID: Número de indentificación del registro
- OBJECTID: Número de identificación del regisro
- ICOUNT: Indicador para siniestros que involucren ciclistas
- Región: Nombre de la región donde ocurrió el siniestro
- Comuna: Nombre de la comuna donde ocurrió el siniestro
- Match_Addr: Nombre de la dirección completa donde ocurrió el siniestro
- Calle1: Nombre de la calle donde ocurrió el siniestro
- Calle2: Nombre de la segunda calle donde ocurrió el siniestro, para el caso de los accidentes en intersecciones
- Número: Altura del domicilio
- Fallecidos: Cantidad de personas fallecidas
- Graves: Cantidad de personas graves
- Mgrave: Cantidad de personas en estado menos grave
- Leves: Cantidad de personas con heridas leves
- Ileso: Cantidad de personas ilesas

<hr>

El objetivo para este dataset es:
- Eliminar aquellas columnas que no aportan datos relevante o que no coincidan con las estructuras de las otros dataset.
- Normalizar los datos del dataset (por ejemplo: letras a mayúsculas y sin tildes o imputación de valores nulos).
- Añadir las columnas que correspondan.
- Exportar el dataset normalizado.
El dataset final, contiene sólo los datos de las columnas: X, Y, Comuna, Calle_Uno, Calle_Dos, Numero, Fallecidos, Graves, Menos_Grav, Leves.

In [1]:
# Importacion de librerias que se emplearan
import pandas as pd
import numpy as np
from datetime import datetime
import matplotlib.pyplot as plt
import re

# Configuracion de pandas para que no bloque asignaciones masivas
pd.options.mode.chained_assignment = None

# Lectura del dataset y previsualizacion de los datos
df = pd.read_excel("../data/siniestros atropello RM2014.xlsx")
df.head()

Unnamed: 0,X,Y,FID,OBJECTID,ICOUNT,Region,Comuna,Match_Addr,Calle1,Calle2,Numero,Fallecidos,Graves,Mgrave,Leve,Ileso
0,-70.797727,-33.456009,1,1,1,REGION METROPOLITANA,PUDAHUEL,"400 CAMINO LA FARFANA, PUDAHUEL",CAMINO LA FARFANA,,400,0,1,0,0,1
1,-70.796959,-33.516373,2,2,1,REGION METROPOLITANA,MAIPU,"1660 EL CONQUISTADOR, MAIPU",EL CONQUISTADOR,,1660,0,0,1,0,1
2,-70.795044,-33.516192,3,3,1,REGION METROPOLITANA,MAIPU,"2839 LAS TINAJAS, MAIPU",LAS TINAJAS,,2838,0,0,1,0,1
3,-70.794488,-33.514124,4,4,1,REGION METROPOLITANA,MAIPU,"1791 LA GALAXIA, MAIPU",LA GALAXIA,,1791,0,0,1,0,1
4,-70.793303,-33.532115,5,5,1,REGION METROPOLITANA,MAIPU,"4 PONIENTE & ALFREDO SILVA CARVALLO, MAIPU",4 PONIENTE,ALFREDO SILVA CARVALLO,0,0,0,0,1,1


In [2]:
df.describe()

Unnamed: 0,X,Y,FID,OBJECTID,ICOUNT,Numero,Fallecidos,Graves,Mgrave,Leve,Ileso
count,1690.0,1690.0,1690.0,1690.0,1690.0,1690.0,1690.0,1690.0,1690.0,1690.0,1690.0
mean,-70.634762,-33.468313,845.5,852.36213,1.213609,1037.079882,0.069231,0.339645,0.098817,0.769231,1.138462
std,0.064111,0.067435,488.005294,492.324623,0.683861,2665.474976,0.276256,0.568069,0.313971,0.804075,0.828589
min,-70.797727,-33.633271,1.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,-70.677022,-33.516328,423.25,426.25,1.0,0.0,0.0,0.0,0.0,0.0,1.0
50%,-70.630383,-33.45327,845.5,852.5,1.0,0.0,0.0,0.0,0.0,1.0,1.0
75%,-70.585909,-33.422451,1267.75,1276.75,1.0,256.25,0.0,1.0,0.0,1.0,1.0
max,-70.48242,-33.326072,1690.0,1703.0,11.0,40000.0,3.0,4.0,2.0,7.0,9.0


## Datos básicos del dataset

In [3]:
print("===================================================================")
print("Tamaño del dataframe:")
print(df.shape)
print("===================================================================")
print("Tipo de variable de las columnas:")
print(df.dtypes)
print("===================================================================")
print("Cantidad de valores nulos por columna:")
print(df.isna().sum())
print("===================================================================")

Tamaño del dataframe:
(1690, 16)
Tipo de variable de las columnas:
X             float64
Y             float64
FID             int64
OBJECTID        int64
ICOUNT          int64
Region         object
Comuna         object
Match_Addr     object
Calle1         object
Calle2         object
Numero          int64
Fallecidos      int64
Graves          int64
Mgrave          int64
Leve            int64
Ileso           int64
dtype: object
Cantidad de valores nulos por columna:
X             0
Y             0
FID           0
OBJECTID      0
ICOUNT        0
Region        0
Comuna        0
Match_Addr    0
Calle1        0
Calle2        0
Numero        0
Fallecidos    0
Graves        0
Mgrave        0
Leve          0
Ileso         0
dtype: int64


Para las columnas que son de tipo string, se determina el número de carácteres del texto más corto, texto más largo y el número de carácteres. Esto se hará para las siguientes columnas:
- Region
- Comuna
- Match_Addr
- Calle1
- Calle2

<hr>

Primero se deja en nulo aquellas columnas cuya cadena de caracteres sea un string vacío.

In [4]:
# Funcion para reemplazar por nulo los string vacios
def replace_null(col):
    if(col is not np.nan):
        if(len(col.strip()) == 0):
            return np.nan
        else:
            return col
    else:
        return np.nan

In [5]:
df["Region"] = df["Region"].apply(replace_null)
df["Comuna"] = df["Comuna"].apply(replace_null)
df["Match_Addr"] = df["Match_Addr"].apply(replace_null)
df["Calle1"] = df["Calle1"].apply(replace_null)
df["Calle2"] = df["Calle2"].apply(replace_null)

# Se vuelve a mostrar la cantidad de nulos resultantes
df.isna().sum()

X               0
Y               0
FID             0
OBJECTID        0
ICOUNT          0
Region          0
Comuna          0
Match_Addr      0
Calle1          0
Calle2        457
Numero          0
Fallecidos      0
Graves          0
Mgrave          0
Leve            0
Ileso           0
dtype: int64

In [6]:
# Funcion para obtener la mayor y menor cantidad de carácteres y la cantidad promedio de carácteres
def LargoCadena(lista):
    # Acumuladores y registros para las variables a determinar
    _min = 0
    _palabraMin = ""
    _max = 0
    _palabraMax = ""
    _i = 0
    _suma = 0
    _promedio = 0
    
    for e in lista:
        if(e is not np.nan):# elemento no nulo
            if(_i == 0):# Primer registro
                _min = len(e.strip())
                _max = len(e.strip())
                _palabraMin = e.strip()
                _palabraMax = e.strip()
                
            # Acumulador de sumas para calcular promedio posterior
            _suma = _suma + len(e.strip())
            
            # Re asignacion para largos maximo y minimo 
            if(len(e.strip()) < _min):
                _min = len(e.strip())
                _palabraMin = e.strip()
                
            if(len(e.strip()) > _max):
                _max = len(e.strip())
                _palabraMax = e.strip()
            
            # Contador para el calculo de promedio
            _i = _i + 1
            
    # Calculo del promedio fuera del bucle for
    _promedio = _suma / _i
    
    # Se muestra un breve reporte con la informacion
    print("====================================================================")
    print("Palabra más larga:")
    print(_palabraMax)
    print("Número de carácteres:")
    print(_max)
    print("====================================================================")
    print("Palabra más corta:")
    print(_palabraMin)
    print("Número de carácteres:")
    print(_min)
    print("====================================================================")
    print("Cantidad promedio de carácteres:")
    print(int(_promedio))
    print("Número de palabras evaluadas:")
    print(_i)
    print("====================================================================")

In [7]:
LargoCadena(df["Region"])
LargoCadena(df["Comuna"])
LargoCadena(df["Match_Addr"])
LargoCadena(df["Calle1"])
LargoCadena(df["Calle2"])

Palabra más larga:
REGION METROPOLITANA
Número de carácteres:
20
Palabra más corta:
REGION METROPOLITANA
Número de carácteres:
20
Cantidad promedio de carácteres:
20
Número de palabras evaluadas:
1690
Palabra más larga:
PEDRO AGUIRRE CERDA
Número de carácteres:
19
Palabra más corta:
MAIPU
Número de carácteres:
5
Cantidad promedio de carácteres:
9
Número de palabras evaluadas:
1690
Palabra más larga:
LIBERTADOR BERNARDO O`HIGGINS & OBISPO MANUEL UMANA SALINAS, ESTACION CENTRAL
Número de carácteres:
77
Palabra más corta:
1591 LOTA, RENCA
Número de carácteres:
16
Cantidad promedio de carácteres:
38
Número de palabras evaluadas:
1690
Palabra más larga:
GRAN AVDA JOSE MIGUEL CARRERA
Número de carácteres:
29
Palabra más corta:
LOTA
Número de carácteres:
4
Cantidad promedio de carácteres:
12
Número de palabras evaluadas:
1690
Palabra más larga:
MONS ESCRIVA DE BALAGUER NORTE
Número de carácteres:
30
Palabra más corta:
LOA
Número de carácteres:
3
Cantidad promedio de carácteres:
12
Número de p

## Eliminación de columnas innecesarias o que no coinciden con los otros dataset

In [8]:
# Eliminacion FID
del df["FID"]
# Eliminacion OBJECTID
del df["OBJECTID"]
# Elimiacion ICOUNT
del df["ICOUNT"]
# Eliminacion Region
del df["Region"]
# Eliminacion Match_Addr
del df["Match_Addr"]
# Eliminacion Ileso
del df["Ileso"]
df.head()

Unnamed: 0,X,Y,Comuna,Calle1,Calle2,Numero,Fallecidos,Graves,Mgrave,Leve
0,-70.797727,-33.456009,PUDAHUEL,CAMINO LA FARFANA,,400,0,1,0,0
1,-70.796959,-33.516373,MAIPU,EL CONQUISTADOR,,1660,0,0,1,0
2,-70.795044,-33.516192,MAIPU,LAS TINAJAS,,2838,0,0,1,0
3,-70.794488,-33.514124,MAIPU,LA GALAXIA,,1791,0,0,1,0
4,-70.793303,-33.532115,MAIPU,4 PONIENTE,ALFREDO SILVA CARVALLO,0,0,0,0,1


## Normalización de campos de texto

In [9]:
# Comunas
df["Comuna"].value_counts()

SANTIAGO               145
PUENTE ALTO            140
LAS CONDES             121
PROVIDENCIA            109
NUNOA                   85
LA FLORIDA              71
QUILICURA               69
QUINTA NORMAL           65
PENALOLEN               64
MACUL                   56
PUDAHUEL                54
LA PINTANA              48
EL BOSQUE               46
RECOLETA                45
VITACURA                45
ESTACION CENTRAL        45
CERRO NAVIA             44
PEDRO AGUIRRE CERDA     43
LO BARNECHEA            43
SAN JOAQUIN             42
SAN RAMON               38
MAIPU                   37
LA GRANJA               37
LA CISTERNA             36
LA REINA                32
CONCHALI                29
HUECHURABA              26
LO PRADO                24
RENCA                   21
SAN MIGUEL              12
INDEPENDENCIA           11
LO ESPEJO                7
Name: Comuna, dtype: int64

Se puede apreciar como las comunas de Peñalolén y Ñuñoa aparecen repetidas con diferente nombre, se normalizan estos campos para que tengan el mismo.

In [10]:
df["Comuna"] =  df["Comuna"].apply(lambda x: "PEÑALOLEN" if x == "PENALOLEN" else x)
df["Comuna"] =  df["Comuna"].apply(lambda x: "ÑUÑOA" if x == "NUNOA" else x)
df["Comuna"].value_counts()

SANTIAGO               145
PUENTE ALTO            140
LAS CONDES             121
PROVIDENCIA            109
ÑUÑOA                   85
LA FLORIDA              71
QUILICURA               69
QUINTA NORMAL           65
PEÑALOLEN               64
MACUL                   56
PUDAHUEL                54
LA PINTANA              48
EL BOSQUE               46
ESTACION CENTRAL        45
RECOLETA                45
VITACURA                45
CERRO NAVIA             44
LO BARNECHEA            43
PEDRO AGUIRRE CERDA     43
SAN JOAQUIN             42
SAN RAMON               38
LA GRANJA               37
MAIPU                   37
LA CISTERNA             36
LA REINA                32
CONCHALI                29
HUECHURABA              26
LO PRADO                24
RENCA                   21
SAN MIGUEL              12
INDEPENDENCIA           11
LO ESPEJO                7
Name: Comuna, dtype: int64

## Se eliminan los tildes y carácteres especiales

In [11]:
def normalizar_texto(texto):
    if(texto is not np.nan):
        texto = texto.upper()
        texto = re.sub("`", "", texto)
        texto = re.sub(r"Á|Ä|Â|À", "A", texto)
        texto = re.sub(r"É|Ë|Ê|È", "E", texto)
        texto = re.sub(r"Í|Ï|Î|Ì", "I", texto)
        texto = re.sub(r"Ó|Ö|Ô|Ò", "O", texto)
        texto = re.sub(r"Ú|Ü|Û|Ù", "U", texto)
        return texto
    else:
        return np.nan

df["Calle1"] = df["Calle1"].apply(normalizar_texto)
df["Calle2"] = df["Calle2"].apply(normalizar_texto)
df.head()

Unnamed: 0,X,Y,Comuna,Calle1,Calle2,Numero,Fallecidos,Graves,Mgrave,Leve
0,-70.797727,-33.456009,PUDAHUEL,CAMINO LA FARFANA,,400,0,1,0,0
1,-70.796959,-33.516373,MAIPU,EL CONQUISTADOR,,1660,0,0,1,0
2,-70.795044,-33.516192,MAIPU,LAS TINAJAS,,2838,0,0,1,0
3,-70.794488,-33.514124,MAIPU,LA GALAXIA,,1791,0,0,1,0
4,-70.793303,-33.532115,MAIPU,4 PONIENTE,ALFREDO SILVA CARVALLO,0,0,0,0,1


## Creación de la columna si fue en intersección el accidente y columna año
Esta nueva columna estará llena de 1's y 0's en función de si ocurrió o no en una intersección respectivamente. Esto se calcula en función de los valores de las columnas Calle1, Calle2 y Numero.

In [12]:
def Interseccion(numero):
    if(numero == 0):
        return 1
    else:
        return 0

df["Interseccion"] = df["Numero"].apply(Interseccion)
df["Anio"] = 2014
df.head()

Unnamed: 0,X,Y,Comuna,Calle1,Calle2,Numero,Fallecidos,Graves,Mgrave,Leve,Interseccion,Anio
0,-70.797727,-33.456009,PUDAHUEL,CAMINO LA FARFANA,,400,0,1,0,0,0,2014
1,-70.796959,-33.516373,MAIPU,EL CONQUISTADOR,,1660,0,0,1,0,0,2014
2,-70.795044,-33.516192,MAIPU,LAS TINAJAS,,2838,0,0,1,0,0,2014
3,-70.794488,-33.514124,MAIPU,LA GALAXIA,,1791,0,0,1,0,0,2014
4,-70.793303,-33.532115,MAIPU,4 PONIENTE,ALFREDO SILVA CARVALLO,0,0,0,0,1,1,2014


## Se renombran las columnas
Se dejan las columnas con los nombres de: X, Y, Anio, Comuna, Calle1, Calle2, Numero, Interseccion, Fallecidos, Graves, MenosGraves y Leves

In [13]:
nombres_col = {
    "Mgrave" : "MenosGraves",
    "Leve": "Leves"
}
df = df.rename(columns = nombres_col)
df.columns

Index(['X', 'Y', 'Comuna', 'Calle1', 'Calle2', 'Numero', 'Fallecidos',
       'Graves', 'MenosGraves', 'Leves', 'Interseccion', 'Anio'],
      dtype='object')

## Se reordenan las columnas a la siguiente secuencia:
- 1° X
- 2° Y
- 3° Anio
- 4° Comuna
- 5° Calle1
- 6° Calle2
- 7° Numero
- 8° Interseccion
- 9° Fallecidos
- 10° Graves
- 11° MenosGraves
- 12° Leves

In [14]:
df = df[[
    "X", 
    "Y", 
    "Anio", 
    "Comuna", 
    "Calle1", 
    "Calle2",
    "Numero", 
    "Interseccion", 
    "Fallecidos", 
    "Graves",
    "MenosGraves",
    "Leves"]]
df.columns

Index(['X', 'Y', 'Anio', 'Comuna', 'Calle1', 'Calle2', 'Numero',
       'Interseccion', 'Fallecidos', 'Graves', 'MenosGraves', 'Leves'],
      dtype='object')

## Se exporta el nuevo dataset

In [15]:
df_copia = df
df_copia.to_csv("../data_limpia/Dataset_2014_ordenado.csv", index = False)