## Limpieza dataset 2013
A continuación se limpia y analiza los datos correspondientes al dataset del año 2013. Este data set se compone de las siguientes columnas:
- X: longitud
- Y: Latitud
- FID: Número de indentificación del registro
- ICOUNT: Indicador para siniestros que involucren ciclistas
- Anho: Año de los registros
- Cód_Comuna: Código de la comuna donde ocurrió el siniestro
- Comuna: Nombre de la comuna donde ocurrió el siniestro
- Cód_Región: Código de la región donde ocurrió el siniestro
- Región: Nombre de la región donde ocurrió el siniestro
- Calle_Uno: Nombre de la calle donde ocurrió el siniestro
- Calle_Dos: Nombre de la segunda calle donde ocurrió el siniestro, para el caso de los accidentes en intersecciones
- Número: Altura del domicilio
- Dirección: Nombre de la dirección completa donde ocurrió el siniestro
- Fallecidos: Cantidad de personas fallecidas
- Graves: Cantidad de personas graves
- Menos_Grav: Cantidad de personas en estado menos grave
- Leves: Cantidad de personas con heridas leves
- Accidentes: Cantidad de accidentes

<hr>

El objetivo para este dataset es:
- Eliminar aquellas columnas que no aportan datos relevante o que no coincidan con las estructuras de las otros dataset.
- Normalizar los datos del dataset (por ejemplo: letras a mayúsculas y sin tildes o imputación de valores nulos).
- Exportar el dataset normalizado.
El dataset final, contiene sólo los datos de las columnas: X, Y, Comuna, Calle_Uno, Calle_Dos, Numero, Fallecidos, Graves, Menos_Grav, Leves.

In [3]:
# Importacion de librerias que se emplearan
import pandas as pd
import numpy as np
from datetime import datetime
import matplotlib.pyplot as plt
import re

# Configuracion de pandas para que no bloque asignaciones masivas
pd.options.mode.chained_assignment = None

# Lectura del dataset y previsualizacion de los datos
df = pd.read_csv("../data/siniestros atropello RM2013.csv")
df.head()

Unnamed: 0,X,Y,FID,ICOUNT,Año,Cód_Comuna,Comuna,Cód_Región,Región,Calle_Uno,Calle_Dos,Número,Dirección,Fallecidos,Graves,Menos_Grav,Leves,Accidentes
0,-70.714761,-33.621957,1,1,2013,13401,SAN BERNARDO,13,REGION METROPOLITANA,PRESIDENTE JORGE ALESSANDRI RODRIGUEZ,,12489,PRESIDENTE JORGE ALESSANDRI RODRIGUEZ 12489,1,0,0,0,1
1,-70.713433,-33.629206,2,1,2013,13401,SAN BERNARDO,13,REGION METROPOLITANA,PRESIDENTE JORGE ALESSANDRI RODRIGUEZ,,20040,PRESIDENTE JORGE ALESSANDRI RODRIGUEZ 20040,0,0,0,1,1
2,-70.712113,-33.601339,3,1,2013,13401,SAN BERNARDO,13,REGION METROPOLITANA,CALLE 1 DE MAYO,EYZAGUIRRE,0,CALLE 1 DE MAYO / EYZAGUIRRE,0,0,0,1,1
3,-70.710571,-33.601829,4,1,2013,13401,SAN BERNARDO,13,REGION METROPOLITANA,CALLE 1 DE MAYO,FIDEL PINOCHET,0,CALLE 1 DE MAYO / FIDEL PINOCHET,1,0,0,0,1
4,-70.707259,-33.636547,5,1,2013,13101,SANTIAGO,13,REGION METROPOLITANA,PORTALES,,3000,PORTALES 3000,0,1,0,0,1


In [4]:
df.describe()

Unnamed: 0,X,Y,FID,ICOUNT,Año,Cód_Comuna,Cód_Región,Número,Fallecidos,Graves,Menos_Grav,Leves,Accidentes
count,1768.0,1768.0,1768.0,1768.0,1768.0,1768.0,1768.0,1768.0,1768.0,1768.0,1768.0,1768.0,1768.0
mean,-70.644558,-33.472752,884.5,1.241516,2013.0,13132.382353,13.0,1046.214367,0.065611,0.305995,0.112557,0.8569,1.241516
std,0.062662,0.066489,510.521955,0.698398,0.0,60.047112,0.0,2633.841209,0.258844,0.541151,0.346868,0.820229,0.698398
min,-70.808948,-33.646083,1.0,1.0,2013.0,13101.0,13.0,0.0,0.0,0.0,0.0,0.0,1.0
25%,-70.68699,-33.523471,442.75,1.0,2013.0,13109.0,13.0,0.0,0.0,0.0,0.0,0.0,1.0
50%,-70.645409,-33.45392,884.5,1.0,2013.0,13119.0,13.0,0.0,0.0,0.0,0.0,1.0,1.0
75%,-70.598069,-33.428944,1326.25,1.0,2013.0,13126.0,13.0,234.25,0.0,1.0,0.0,1.0,1.0
max,-70.489369,-33.3259,1768.0,8.0,2013.0,13401.0,13.0,20040.0,2.0,5.0,3.0,7.0,8.0


## Datos básicos del dataset

In [5]:
print("===================================================================")
print("Tamaño del dataframe:")
print(df.shape)
print("===================================================================")
print("Tipo de variable de las columnas:")
print(df.dtypes)
print("===================================================================")
print("Cantidad de valores nulos por columna:")
print(df.isna().sum())
print("===================================================================")

Tamaño del dataframe:
(1768, 18)
Tipo de variable de las columnas:
X             float64
Y             float64
FID             int64
ICOUNT          int64
Año             int64
Cód_Comuna      int64
Comuna         object
Cód_Región      int64
Región         object
Calle_Uno      object
Calle_Dos      object
Número          int64
Dirección      object
Fallecidos      int64
Graves          int64
Menos_Grav      int64
Leves           int64
Accidentes      int64
dtype: object
Cantidad de valores nulos por columna:
X             0
Y             0
FID           0
ICOUNT        0
Año           0
Cód_Comuna    0
Comuna        0
Cód_Región    0
Región        0
Calle_Uno     0
Calle_Dos     0
Número        0
Dirección     0
Fallecidos    0
Graves        0
Menos_Grav    0
Leves         0
Accidentes    0
dtype: int64


Para las columnas que son de tipo string, se determina el número de carácteres del texto más corto, texto más largo y el número de carácteres. Esto se hará para las siguientes columnas:
- Comuna
- Región
- Calle_Uno
- Calle_Dos
- Dirección

<hr>

Primero se deja en nulo aquellas columnas cuya cadena de caracteres sea un string vacío.

In [53]:
# Funcion para reemplazar por nulo los string vacios
def replace_null(col):
    if(col is not np.nan):
        if(len(col.strip()) == 0):
            return np.nan
        else:
            return col
    else:
        return np.nan

In [54]:
df["Comuna"] = df["Comuna"].apply(replace_null)
df["Región"] = df["Región"].apply(replace_null)
df["Calle_Uno"] = df["Calle_Uno"].apply(replace_null)
df["Calle_Dos"] = df["Calle_Dos"].apply(replace_null)
df["Dirección"] = df["Dirección"].apply(replace_null)

# Se vuelve a mostrar la cantidad de nulos resultantes
df.isna().sum()

X               0
Y               0
FID             0
ICOUNT          0
Año             0
Cód_Comuna      0
Comuna          0
Cód_Región      0
Región          0
Calle_Uno       0
Calle_Dos     491
Número          0
Dirección       0
Fallecidos      0
Graves          0
Menos_Grav      0
Leves           0
Accidentes      0
dtype: int64

In [63]:
# Funcion para obtener la mayor y menor cantidad de carácteres y la cantidad promedio de carácteres
def LargoCadena(lista):
    # Acumuladores y registros para las variables a determinar
    _min = 0
    _palabraMin = ""
    _max = 0
    _palabraMax = ""
    _i = 0
    _suma = 0
    _promedio = 0
    
    for e in lista:
        if(e is not np.nan):# elemento no nulo
            if(_i == 0):# Primer registro
                _min = len(e.strip())
                _max = len(e.strip())
                _palabraMin = e.strip()
                _palabraMax = e.strip()
                
            # Acumulador de sumas para calcular promedio posterior
            _suma = _suma + len(e.strip())
            
            # Re asignacion para largos maximo y minimo 
            if(len(e.strip()) < _min):
                _min = len(e.strip())
                _palabraMin = e.strip()
                
            if(len(e.strip()) > _max):
                _max = len(e.strip())
                _palabraMax = e.strip()
            
            # Contador para el calculo de promedio
            _i = _i + 1
            
    # Calculo del promedio fuera del bucle for
    _promedio = _suma / _i
    
    # Se muestra un breve reporte con la informacion
    print("====================================================================")
    print("Palabra más larga:")
    print(_palabraMax)
    print("Número de carácteres:")
    print(_max)
    print("====================================================================")
    print("Palabra más corta:")
    print(_palabraMin)
    print("Número de carácteres:")
    print(_min)
    print("====================================================================")
    print("Cantidad promedio de carácteres:")
    print(int(_promedio))
    print("Número de palabras evaluadas:")
    print(_i)
    print("====================================================================")

In [64]:
LargoCadena(df["Comuna"])
LargoCadena(df["Región"])
LargoCadena(df["Calle_Uno"])
LargoCadena(df["Calle_Dos"])
LargoCadena(df["Dirección"])

Palabra más larga:
PEDRO AGUIRRE CERDA
Número de carácteres:
19
Palabra más corta:
MAIPU
Número de carácteres:
5
Cantidad promedio de carácteres:
9
Número de palabras evaluadas:
1768
Palabra más larga:
REGION METROPOLITANA
Número de carácteres:
20
Palabra más corta:
REGION METROPOLITANA
Número de carácteres:
20
Cantidad promedio de carácteres:
20
Número de palabras evaluadas:
1768
Palabra más larga:
PRESIDENTE JORGE ALESSANDRI RODRIGUEZ
Número de carácteres:
37
Palabra más corta:
SUR
Número de carácteres:
3
Cantidad promedio de carácteres:
13
Número de palabras evaluadas:
1768
Palabra más larga:
PRINCIPAL CAPITANIGNACIO CARRERA PINTO
Número de carácteres:
38
Palabra más corta:
GAY
Número de carácteres:
3
Cantidad promedio de carácteres:
12
Número de palabras evaluadas:
1277
Palabra más larga:
PRESIDENTE JORGE ALESSANDRI RODRIGUEZ / GENERAL VELASQUEZ
Número de carácteres:
57
Palabra más corta:
COLON 160
Número de carácteres:
9
Cantidad promedio de carácteres:
26
Número de palabras evalu

## Eliminación de columnas innecesarias o que no coinciden con los otros dataset

In [65]:
# Eliminacion de FID
del df["FID"]
# Elimiacion de ICOUNT
del df["ICOUNT"]
# Eliminacion de Cod_Comuna
del df["Cód_Comuna"]
# Eliminacion de Cod_Region
del df["Cód_Región"]
# Eliminacion de Region
del df["Región"]
# Eliminacion de Direccion
del df["Dirección"]
# Eliminacion de Accidentes
del df["Accidentes"]
df.head()

Unnamed: 0,X,Y,Año,Comuna,Calle_Uno,Calle_Dos,Número,Fallecidos,Graves,Menos_Grav,Leves
0,-70.714761,-33.621957,2013,SAN BERNARDO,PRESIDENTE JORGE ALESSANDRI RODRIGUEZ,,12489,1,0,0,0
1,-70.713433,-33.629206,2013,SAN BERNARDO,PRESIDENTE JORGE ALESSANDRI RODRIGUEZ,,20040,0,0,0,1
2,-70.712113,-33.601339,2013,SAN BERNARDO,CALLE 1 DE MAYO,EYZAGUIRRE,0,0,0,0,1
3,-70.710571,-33.601829,2013,SAN BERNARDO,CALLE 1 DE MAYO,FIDEL PINOCHET,0,1,0,0,0
4,-70.707259,-33.636547,2013,SANTIAGO,PORTALES,,3000,0,1,0,0


## Normalización de campos de texto

In [66]:
df["Comuna"].value_counts()

SANTIAGO               223
PUENTE ALTO            107
ÑUÑOA                  102
PROVIDENCIA             95
LAS CONDES              81
MAIPU                   74
QUINTA NORMAL           73
SAN BERNARDO            73
LA FLORIDA              71
ESTACION CENTRAL        59
VITACURA                54
LA GRANJA               50
LA PINTANA              49
RECOLETA                46
QUILICURA               45
PENALOLEN               45
PUDAHUEL                43
EL BOSQUE               42
LA REINA                40
PEDRO AGUIRRE CERDA     40
LA CISTERNA             37
SAN RAMON               37
LO PRADO                35
RENCA                   31
INDEPENDENCIA           30
CERRO NAVIA             29
CONCHALI                29
LO BARNECHEA            28
SAN JOAQUIN             27
MACUL                   25
HUECHURABA              20
LO ESPEJO               17
SAN MIGUEL               8
CERRILLOS                3
Name: Comuna, dtype: int64

Se puede apreciar que la comuna "Peñalolén" aparece 2 veces con nombre diferente, se normaliza a 1 solo

In [67]:
df["Comuna"] =  df["Comuna"].apply(lambda x: "PEÑALOLEN" if x == "PENALOLEN" else x)
df["Comuna"].value_counts()

SANTIAGO               223
PUENTE ALTO            107
ÑUÑOA                  102
PROVIDENCIA             95
LAS CONDES              81
MAIPU                   74
QUINTA NORMAL           73
SAN BERNARDO            73
LA FLORIDA              71
ESTACION CENTRAL        59
VITACURA                54
LA GRANJA               50
LA PINTANA              49
RECOLETA                46
PEÑALOLEN               45
QUILICURA               45
PUDAHUEL                43
EL BOSQUE               42
LA REINA                40
PEDRO AGUIRRE CERDA     40
SAN RAMON               37
LA CISTERNA             37
LO PRADO                35
RENCA                   31
INDEPENDENCIA           30
CERRO NAVIA             29
CONCHALI                29
LO BARNECHEA            28
SAN JOAQUIN             27
MACUL                   25
HUECHURABA              20
LO ESPEJO               17
SAN MIGUEL               8
CERRILLOS                3
Name: Comuna, dtype: int64

## Se eliminan los tíldes y carácteres especiales

In [68]:
def normalizar_texto(texto):
    if(texto is not np.nan):
        texto = texto.upper()
        texto = re.sub("`", "", texto)
        texto = re.sub(r"Á|Ä|Â|À", "A", texto)
        texto = re.sub(r"É|Ë|Ê|È", "E", texto)
        texto = re.sub(r"Í|Ï|Î|Ì", "I", texto)
        texto = re.sub(r"Ó|Ö|Ô|Ò", "O", texto)
        texto = re.sub(r"Ú|Ü|Û|Ù", "U", texto)
        return texto
    else:
        return np.nan
df["Calle_Uno"] = df["Calle_Uno"].apply(normalizar_texto)
df["Calle_Dos"] = df["Calle_Dos"].apply(normalizar_texto)

## Creación de columna de si ocurrió en intersección
Esta nueva columna estará llena de 1's y 0's en función de si ocurrió o no en una intersección respectivamente. Esto se calcula en función de los valores de las columnas Calle_Uno, Calle_Dos y Número.

In [69]:
def Interseccion(numero):
    if(numero == 0):# Interseccion
        return 1
    else:# Calle
        return 0
    
df["Interseccion"] = df["Número"].apply(Interseccion)
df.head()

Unnamed: 0,X,Y,Año,Comuna,Calle_Uno,Calle_Dos,Número,Fallecidos,Graves,Menos_Grav,Leves,Interseccion
0,-70.714761,-33.621957,2013,SAN BERNARDO,PRESIDENTE JORGE ALESSANDRI RODRIGUEZ,,12489,1,0,0,0,0
1,-70.713433,-33.629206,2013,SAN BERNARDO,PRESIDENTE JORGE ALESSANDRI RODRIGUEZ,,20040,0,0,0,1,0
2,-70.712113,-33.601339,2013,SAN BERNARDO,CALLE 1 DE MAYO,EYZAGUIRRE,0,0,0,0,1,1
3,-70.710571,-33.601829,2013,SAN BERNARDO,CALLE 1 DE MAYO,FIDEL PINOCHET,0,1,0,0,0,1
4,-70.707259,-33.636547,2013,SANTIAGO,PORTALES,,3000,0,1,0,0,0


## Se renombran las columnas

In [70]:
nombres_col = {
    "Año": "Anio",
    "Calle_Uno": "Calle1",
    "Calle_Dos": "Calle2",
    "Número": "Numero",
    "Menos_Grav": "MenosGraves"
}
df = df.rename(columns = nombres_col)
df.columns

Index(['X', 'Y', 'Anio', 'Comuna', 'Calle1', 'Calle2', 'Numero', 'Fallecidos',
       'Graves', 'MenosGraves', 'Leves', 'Interseccion'],
      dtype='object')

## Se reordenan las columnas a la siguiente secuencia:
- 1° X
- 2° Y
- 3° Anio
- 4° Comuna
- 5° Calle1
- 6° Calle2
- 7° Numero
- 8° Interseccion
- 9° Fallecidos
- 10° Graves
- 11° MenosGraves
- 12° Leves

In [71]:
df = df[[
    "X", 
    "Y", 
    "Anio", 
    "Comuna", 
    "Calle1", 
    "Calle2",
    "Numero",
    "Interseccion", 
    "Fallecidos", 
    "Graves",
    "MenosGraves",
    "Leves"]]
df.columns

Index(['X', 'Y', 'Anio', 'Comuna', 'Calle1', 'Calle2', 'Numero',
       'Interseccion', 'Fallecidos', 'Graves', 'MenosGraves', 'Leves'],
      dtype='object')

## Se exporta el nuevo dataset

In [72]:
df_copia = df
df_copia.to_csv("../data_limpia/Dataset_2013_ordenado.csv", index = False)