## Limpieza dataset 2016
A continuación se limpia y analiza los datos correspondiente al dataset del año 2016. Este dataset se compone de las siguientes columnas:
- X: Longitud
- Y: Latitud
- FID: Número de identificación
- ICOUNT: Indicador para siniestros que involucren ciclistas
- Comuna: Nombre de la comuna donde ocurrió el siniestro
- Anho: Año en que ocurrió el siniestro
- Clase_Acci: Indicador para la clase de accidente
- Cod_Comun: Código de la comuna donde ocurrió el siniestro
- Region: Nombre de la región donde ocurrió el siniestro
- Zona: Nombre del tipo de zona donde ocurrió el siniestro (urbana o rural)
- Cod_Ubica: Código del tipo de ubicación donde ocurrió el siniestro
- Ubicacion: Nombre del tipo de ubicación donde ocurrió el siniestro
- Cod_Calle: Código de la calle donde ocurrió el siniestro
- Calle_Uno: Nombre de la calle donde ocurrió el siniestro
- Cod_Cal_1: Código de la segunda calle donde ocurrió el siniestro para el caso de los accidentes en las intersecciones.
- Calle_Dos: Nombre de la segunda calle donde ocurrió el siniestro, para el caso de los accidentes en intersecciones.
- Numero: Altura del domicilio
- Intesecci: Nombre de las dos calles que se intersectan el la ubicación del siniestro
- Direcci_1: Nombre de la dirección completa donde ocurrió el siniestro
- Fallecidos: Cantidad de personas fallecidas
- Graves: Cantidad de personas en estado grave
- Menos_Grav: Cantidad de personas en estado menos grave
- Leves: Cantidad de personas con heridas leves

<hr>

El objetivo para este dataset es:
- Eliminar aquellas columnas que no aporta datos relevantes o que no coincidan con las estructuras de los otros dataset.
- Normalizad los datos del dataset (por ejemplo: letras a mayúsculas y sin tildes o imputación de valores nulos)
- Exportar el dataset normalizado. 

In [1]:
# Importacion de librerias que se emplearan
import pandas as pd
import numpy as np
from datetime import datetime
import matplotlib.pyplot as plt
import re

# Configuracion de pandas para que no bloque asignaciones masivas
pd.options.mode.chained_assignment = None

# Lectura del dataset y previsualizacion de los datos
df = pd.read_csv("../data/siniestros atropello RM2016.csv")
df.head()

Unnamed: 0,X,Y,FID,ICOUNT,Comuna,Año,Clase_Acci,Cód_Comun,Cód_Regi,Región,...,Calle_Uno,Cód_Cal_1,Calle_Dos,Número,Intersecci,Direcci_1,Fallecidos,Graves,Menos_Grav,Leves
0,-70.921865,-33.088773,1,1,TILTIL,2016,1,13303,13,REGION METROPOLITANA,...,EL ESPINO,,,39.0,- EL ESPINO,39 EL ESPINO,0.0,0.0,0.0,1.0
1,-70.918988,-33.089121,2,1,TILTIL,2016,1,13303,13,REGION METROPOLITANA,...,BARROS ARANA,,,10.0,- BARROS ARANA,10 BARROS ARANA,0.0,0.0,0.0,2.0
2,-70.881707,-33.278868,3,1,LAMPA,2016,1,13302,13,REGION METROPOLITANA,...,BAQUEDANO,,,65.0,- BAQUEDANO,65 BAQUEDANO,0.0,0.0,1.0,0.0
3,-70.873056,-33.28578,4,1,LAMPA,2016,1,13302,13,REGION METROPOLITANA,...,PEDRO AGUIRRE CERDA,133020235.0,SGTO ALDEA,,PEDRO AGUIRRE CERDA - SGTO ALDEA,PEDRO AGUIRRE CERDA @ SGTO ALDEA,0.0,0.0,0.0,1.0
4,-70.870458,-33.282819,5,1,LAMPA,2016,1,13302,13,REGION METROPOLITANA,...,PEDRO AGUIRRE CERDA,,,1370.0,- PEDRO AGUIRRE CERDA,1370 PEDRO AGUIRRE CERDA,0.0,0.0,0.0,1.0


In [2]:
df.describe()

Unnamed: 0,X,Y,FID,ICOUNT,Año,Clase_Acci,Cód_Comun,Cód_Regi,Cód_Ubica,Cód_Calle,Fallecidos,Graves,Menos_Grav,Leves
count,1875.0,1875.0,1875.0,1875.0,1875.0,1875.0,1875.0,1875.0,1875.0,1875.0,1618.0,1580.0,1553.0,1516.0
mean,-70.646371,-33.468583,938.0,1.2288,2016.0,1.0,13129.834667,13.0,8.8592,131298900.0,0.066131,0.332911,0.110109,0.778364
std,0.068453,0.078547,541.410196,0.737342,0.0,0.0,41.994173,0.0,7.989549,420046.8,0.26073,0.546095,0.340719,0.806545
min,-70.921865,-33.648727,1.0,1.0,2016.0,1.0,13101.0,13.0,1.0,131010000.0,0.0,0.0,0.0,0.0
25%,-70.69119,-33.518109,469.5,1.0,2016.0,1.0,13110.0,13.0,1.0,131100500.0,0.0,0.0,0.0,0.0
50%,-70.647091,-33.457626,938.0,1.0,2016.0,1.0,13119.0,13.0,11.0,131191800.0,0.0,0.0,0.0,1.0
75%,-70.589873,-33.423618,1406.5,1.0,2016.0,1.0,13126.0,13.0,14.0,131260400.0,0.0,1.0,0.0,1.0
max,-70.49318,-33.088773,1875.0,14.0,2016.0,1.0,13401.0,13.0,26.0,134011100.0,2.0,3.0,3.0,10.0


## Datos básicos del dataset

In [3]:
print("===================================================================")
print("Tamaño del dataframe:")
print(df.shape)
print("===================================================================")
print("Tipo de variable de las columnas:")
print(df.dtypes)
print("===================================================================")
print("Cantidad de valores nulos por columna:")
print(df.isna().sum())
print("===================================================================")

Tamaño del dataframe:
(1875, 24)
Tipo de variable de las columnas:
X             float64
Y             float64
FID             int64
ICOUNT          int64
Comuna         object
Año             int64
Clase_Acci      int64
Cód_Comun       int64
Cód_Regi        int64
Región         object
Zona           object
Cód_Ubica       int64
Ubicación      object
Cód_Calle       int64
Calle_Uno      object
Cód_Cal_1      object
Calle_Dos      object
Número         object
Intersecci     object
Direcci_1      object
Fallecidos    float64
Graves        float64
Menos_Grav    float64
Leves         float64
dtype: object
Cantidad de valores nulos por columna:
X               0
Y               0
FID             0
ICOUNT          0
Comuna          0
Año             0
Clase_Acci      0
Cód_Comun       0
Cód_Regi        0
Región          0
Zona            0
Cód_Ubica       0
Ubicación       0
Cód_Calle       0
Calle_Uno       0
Cód_Cal_1       0
Calle_Dos       0
Número          0
Intersecci      0
Direcci_1 

Para las columnas que son de tipo string, se determina el número de carácteres del texto más corto, texto más largo y el número de carácteres. Esto se hará para las siguientes columnas:
- Comuna
- Región
- Zona
- Ubicación
- Calle_Uno
- Cód_Cal_1
- Calle_Dos
- Número
- Intersecci
- Direcci_1

<hr>

Primero se deja en nulo aquellas columnas cuya cadena de caracteres sea un string vacío.

In [4]:
# Funcion para reemplazar por nulo los string vacios
def replace_null(col):
    if(col is not np.nan):
        if(len(col.strip()) == 0):
            return np.nan
        else:
            return col
    else:
        return np.nan

In [5]:
df["Comuna"] = df["Comuna"].apply(replace_null)
df["Región"] = df["Región"].apply(replace_null)
df["Zona"] = df["Zona"].apply(replace_null)
df["Ubicación"] = df["Ubicación"].apply(replace_null)
df["Calle_Uno"] = df["Calle_Uno"].apply(replace_null)
df["Cód_Cal_1"] = df["Cód_Cal_1"].apply(replace_null)
df["Calle_Dos"] = df["Calle_Dos"].apply(replace_null)
df["Número"] = df["Número"].apply(replace_null)
df["Intersecci"] = df["Intersecci"].apply(replace_null)
df["Direcci_1"] = df["Direcci_1"].apply(replace_null)

# Se vuelve a mostrar la cantidad de nulos resultantes
df.isna().sum()

X                0
Y                0
FID              0
ICOUNT           0
Comuna           0
Año              0
Clase_Acci       0
Cód_Comun        0
Cód_Regi         0
Región           0
Zona             0
Cód_Ubica        0
Ubicación        0
Cód_Calle        0
Calle_Uno        0
Cód_Cal_1      540
Calle_Dos      540
Número        1335
Intersecci       0
Direcci_1        6
Fallecidos     257
Graves         295
Menos_Grav     322
Leves          359
dtype: int64

In [6]:
# Funcion para obtener la mayor y menor cantidad de carácteres y la cantidad promedio de carácteres
def LargoCadena(lista):
    # Acumuladores y registros para las variables a determinar
    _min = 0
    _palabraMin = ""
    _max = 0
    _palabraMax = ""
    _i = 0
    _suma = 0
    _promedio = 0
    
    for e in lista:
        if(e is not np.nan):# elemento no nulo
            if(_i == 0):# Primer registro
                _min = len(e.strip())
                _max = len(e.strip())
                _palabraMin = e.strip()
                _palabraMax = e.strip()
                
            # Acumulador de sumas para calcular promedio posterior
            _suma = _suma + len(e.strip())
            
            # Re asignacion para largos maximo y minimo 
            if(len(e.strip()) < _min):
                _min = len(e.strip())
                _palabraMin = e.strip()
                
            if(len(e.strip()) > _max):
                _max = len(e.strip())
                _palabraMax = e.strip()
            
            # Contador para el calculo de promedio
            _i = _i + 1
            
    # Calculo del promedio fuera del bucle for
    _promedio = _suma / _i
    
    # Se muestra un breve reporte con la informacion
    print("====================================================================")
    print("Palabra más larga:")
    print(_palabraMax)
    print("Número de carácteres:")
    print(_max)
    print("====================================================================")
    print("Palabra más corta:")
    print(_palabraMin)
    print("Número de carácteres:")
    print(_min)
    print("====================================================================")
    print("Cantidad promedio de carácteres:")
    print(int(_promedio))
    print("Número de palabras evaluadas:")
    print(_i)
    print("====================================================================")

In [7]:
print("COMUNA")
LargoCadena(df["Comuna"])
print("REGION")
LargoCadena(df["Región"])
print("ZONA")
LargoCadena(df["Zona"])
print("UBICACION")
LargoCadena(df["Ubicación"])
print("CALLE_UNO")
LargoCadena(df["Calle_Uno"])
print("COD_CAL_1")
LargoCadena(df["Cód_Cal_1"])
print("CALLE_DOS")
LargoCadena(df["Calle_Dos"])
print("NUMERO")
LargoCadena(df["Número"])
print("INTERSECCI")
LargoCadena(df["Intersecci"])
print("DIRECCI_1")
LargoCadena(df["Direcci_1"])

COMUNA
Palabra más larga:
PEDRO AGUIRRE CERDA
Número de carácteres:
19
Palabra más corta:
LAMPA
Número de carácteres:
5
Cantidad promedio de carácteres:
9
Número de palabras evaluadas:
1875
REGION
Palabra más larga:
REGION METROPOLITANA
Número de carácteres:
20
Palabra más corta:
REGION METROPOLITANA
Número de carácteres:
20
Cantidad promedio de carácteres:
20
Número de palabras evaluadas:
1875
ZONA
Palabra más larga:
URBANA
Número de carácteres:
6
Palabra más corta:
RURAL
Número de carácteres:
5
Cantidad promedio de carácteres:
5
Número de palabras evaluadas:
1875
UBICACION
Palabra más larga:
CRUCE CON SEMAFORO FUNCIONANDO
Número de carácteres:
30
Palabra más corta:
PUENTE
Número de carácteres:
6
Cantidad promedio de carácteres:
22
Número de palabras evaluadas:
1875
CALLE_UNO
Palabra más larga:
PRINCIPAL CAP IGNACIO CARRERA PINTO
Número de carácteres:
35
Palabra más corta:
SUR
Número de carácteres:
3
Cantidad promedio de carácteres:
12
Número de palabras evaluadas:
1875
COD_CAL_1
Pala

## Eliminación de columnas innecesarias o que no coinciden con los otros dataset

In [8]:
# Eliminacion FID
del df["FID"]
# Eliminacion ICOUNT
del df["ICOUNT"]
# Elminiacion Clase_Acci
del df["Clase_Acci"]
# Eliminacion Cod_Comun
del df["Cód_Comun"]
# Eliminacion Region
del df["Región"]
# Eliminacion Zona
del df["Zona"]
# Eliminacion Cod_Ubica
del df["Cód_Ubica"]
# Eliminacion Ubicacion
del df["Ubicación"]
# Eliminacion Cod_Calle
del df["Cód_Calle"]
# Eliminacion Cod_Cal_1
del df["Cód_Cal_1"]
# Eliminacion Intersecci
del df["Intersecci"]
# Eliminacion Direcci_1
del df["Direcci_1"]
# Eliminacion Cod_Regi
del df["Cód_Regi"]
df.head()

Unnamed: 0,X,Y,Comuna,Año,Calle_Uno,Calle_Dos,Número,Fallecidos,Graves,Menos_Grav,Leves
0,-70.921865,-33.088773,TILTIL,2016,EL ESPINO,,39.0,0.0,0.0,0.0,1.0
1,-70.918988,-33.089121,TILTIL,2016,BARROS ARANA,,10.0,0.0,0.0,0.0,2.0
2,-70.881707,-33.278868,LAMPA,2016,BAQUEDANO,,65.0,0.0,0.0,1.0,0.0
3,-70.873056,-33.28578,LAMPA,2016,PEDRO AGUIRRE CERDA,SGTO ALDEA,,0.0,0.0,0.0,1.0
4,-70.870458,-33.282819,LAMPA,2016,PEDRO AGUIRRE CERDA,,1370.0,0.0,0.0,0.0,1.0


Se puede apreciar que el valor de la columna "Número" es nulo cuando el accidente ocurre en una intersección de calles, o sea, cuando Calle_Uno y Calle_Dos poseen un valor al mismo tiempo. Se dejará en "0" todos estos casos y luego se convierte la variable número a int64.

In [9]:
def ImputacionNumero(num):
    if (num is np.nan):
        return "0"
    else:
        return num

df["Número"] = df["Número"].apply(ImputacionNumero)
df["Número"] = df["Número"].astype("int64")
df["Número"].dtypes

dtype('int64')

## Normalización de campos de texto

In [10]:
df["Comuna"].value_counts()

SANTIAGO               207
PUENTE ALTO            178
MAIPU                  131
LAS CONDES             127
PROVIDENCIA             92
PENALOLEN               73
EL BOSQUE               63
LA FLORIDA              60
PUDAHUEL                57
ESTACION CENTRAL        52
QUILICURA               52
VITACURA                52
QUINTA NORMAL           52
SAN MIGUEL              48
RENCA                   43
ñuñoa                   42
COLINA                  40
MACUL                   37
LA PINTANA              34
INDEPENDENCIA           34
CERRO NAVIA             33
LA GRANJA               33
LO ESPEJO               31
LO BARNECHEA            30
RECOLETA                30
SAN JOAQUIN             30
SAN RAMON               29
LA CISTERNA             26
LA REINA                25
P. AGUIRRE CERDA        25
LO PRADO                23
CONCHALI                19
CERRILLOS               19
NUNOA                   18
HUECHURABA              11
SAN BERNARDO             7
LAMPA                    5
T

Se puede apreciar como es que las comunas de Peñalolen, ñuñoa y Pedro aguirre cerda están duplicadas o mal escritas

In [11]:
df["Comuna"] =  df["Comuna"].apply(lambda x: "PEÑALOLEN" if x == "PENALOLEN" else x)
df["Comuna"] =  df["Comuna"].apply(lambda x: "ÑUÑOA" if (x == "ñuñoa" or x == "NUNOA") else x)
df["Comuna"] =  df["Comuna"].apply(lambda x: "PEDRO AGUIRRE CERDA" if x == "P. AGUIRRE CERDA" else x)
df["Comuna"].value_counts()

SANTIAGO               207
PUENTE ALTO            178
MAIPU                  131
LAS CONDES             127
PROVIDENCIA             92
PEÑALOLEN               73
EL BOSQUE               63
ÑUÑOA                   60
LA FLORIDA              60
PUDAHUEL                57
ESTACION CENTRAL        52
QUINTA NORMAL           52
QUILICURA               52
VITACURA                52
SAN MIGUEL              48
RENCA                   43
COLINA                  40
MACUL                   37
INDEPENDENCIA           34
LA PINTANA              34
LA GRANJA               33
CERRO NAVIA             33
LO ESPEJO               31
LO BARNECHEA            30
SAN JOAQUIN             30
RECOLETA                30
SAN RAMON               29
PEDRO AGUIRRE CERDA     27
LA CISTERNA             26
LA REINA                25
LO PRADO                23
CERRILLOS               19
CONCHALI                19
HUECHURABA              11
SAN BERNARDO             7
LAMPA                    5
TILTIL                   3
P

## Se eliminan los tiles y carácteres especiales

In [12]:
def normalizar_texto(texto):
    if(texto is not np.nan):
        texto = texto.upper()
        texto = re.sub("`", "", texto)
        texto = re.sub(r"Á|Ä|Â|À", "A", texto)
        texto = re.sub(r"É|Ë|Ê|È", "E", texto)
        texto = re.sub(r"Í|Ï|Î|Ì", "I", texto)
        texto = re.sub(r"Ó|Ö|Ô|Ò", "O", texto)
        texto = re.sub(r"Ú|Ü|Û|Ù", "U", texto)
        return texto
    else:
        return np.nan

df["Calle_Uno"] = df["Calle_Uno"].apply(normalizar_texto)
df["Calle_Dos"] = df["Calle_Dos"].apply(normalizar_texto)
df.head()

Unnamed: 0,X,Y,Comuna,Año,Calle_Uno,Calle_Dos,Número,Fallecidos,Graves,Menos_Grav,Leves
0,-70.921865,-33.088773,TILTIL,2016,EL ESPINO,,39,0.0,0.0,0.0,1.0
1,-70.918988,-33.089121,TILTIL,2016,BARROS ARANA,,10,0.0,0.0,0.0,2.0
2,-70.881707,-33.278868,LAMPA,2016,BAQUEDANO,,65,0.0,0.0,1.0,0.0
3,-70.873056,-33.28578,LAMPA,2016,PEDRO AGUIRRE CERDA,SGTO ALDEA,0,0.0,0.0,0.0,1.0
4,-70.870458,-33.282819,LAMPA,2016,PEDRO AGUIRRE CERDA,,1370,0.0,0.0,0.0,1.0


## Creación de la columna si fue en intersección el accidente 
Esta nueva columna estará llena de 1's y 0's en función de si ocurrió o no en una intersección respectivamente. Esto se calcula en función de los valores de las columnas Calle_Uno, Calle_Dos y Numero.

In [13]:
def Interseccion(numero):
    if(numero == 0):
        return 1
    else:
        return 0

df["Interseccion"] = df["Número"].apply(Interseccion)
df.head()

Unnamed: 0,X,Y,Comuna,Año,Calle_Uno,Calle_Dos,Número,Fallecidos,Graves,Menos_Grav,Leves,Interseccion
0,-70.921865,-33.088773,TILTIL,2016,EL ESPINO,,39,0.0,0.0,0.0,1.0,0
1,-70.918988,-33.089121,TILTIL,2016,BARROS ARANA,,10,0.0,0.0,0.0,2.0,0
2,-70.881707,-33.278868,LAMPA,2016,BAQUEDANO,,65,0.0,0.0,1.0,0.0,0
3,-70.873056,-33.28578,LAMPA,2016,PEDRO AGUIRRE CERDA,SGTO ALDEA,0,0.0,0.0,0.0,1.0,1
4,-70.870458,-33.282819,LAMPA,2016,PEDRO AGUIRRE CERDA,,1370,0.0,0.0,0.0,1.0,0


## Imputación de valores
Como se puede observar, existen valores nulos en las columnas de Número, Fallecidos, Graves, Menos_Grav y Leves. Estos campos se imputan cuando se unan todos los datsets, para así tener un mayor espectro de registros usados para el entrenamiento del modelo. El modelo a emplear será un clasificador.

<hr>

## Se renombran las columnas
Se dejan las columnas con los nombres de: X, Y, Anio, Comuna, Calle1, Calle2, Numero, Interseccion, Fallecidos, Graves, MenosGraves y Leves.

In [14]:
nombre_col = {
    "Año" : "Anio",
    "Calle_Uno": "Calle1",
    "Calle_Dos": "Calle2",
    "Número": "Numero",
    "Menos_Grav": "MenosGraves"
}
df = df.rename(columns=nombre_col)
df.columns

Index(['X', 'Y', 'Comuna', 'Anio', 'Calle1', 'Calle2', 'Numero', 'Fallecidos',
       'Graves', 'MenosGraves', 'Leves', 'Interseccion'],
      dtype='object')

## Se reordenan las columnas a la siguiente secuencia:
- 1° X
- 2° Y
- 3° Anio
- 4° Comuna
- 5° Calle1
- 6° Calle2
- 7° Numero
- 8° Interseccion
- 9° Fallecidos
- 10° Graves
- 11° MenosGraves
- 12° Leves

In [15]:
df = df[[
    "X", 
    "Y", 
    "Anio", 
    "Comuna", 
    "Calle1", 
    "Calle2",
    "Numero", 
    "Interseccion", 
    "Fallecidos", 
    "Graves",
    "MenosGraves",
    "Leves"]]
df.columns

Index(['X', 'Y', 'Anio', 'Comuna', 'Calle1', 'Calle2', 'Numero',
       'Interseccion', 'Fallecidos', 'Graves', 'MenosGraves', 'Leves'],
      dtype='object')

## Se exporta el nuevo dataset

In [16]:
df_copia = df
df_copia.to_csv("../data_limpia/Dataset_2016_ordenado.csv", index = False)