## Limpieza dataset 2017
A continuación se limpia y analiza los datos correspondiente al dataset del año 2017. Este dataset se compone de las siguientes columnas:
- X: Longitud
- Y: Latitud
- FID: Número de identificación
- Intersecci: Nombre de las dos calles que se intersectan en la ubicación del siniestro
- Comuna: Nombre de la comuna donde ocurrió el siniestro
- Ciudad: Nombre de la ciudad donde ocurrió el siniestro
- País: Nombre del país donde ocurrió el siniestro
- Anho: Año en que ocurrió el siniestro
- Clase: Indicador para la clase de accidente
- Cod_Comun: Código de la comuna donde ocurrió el siniestro
- Region: Nombre de la región donde ocurrió el siniestro
- Cod_Tipo: Código del tipo de accidente
- Tipo_Accid: Nombre del tipo de accidente
- Cod_Tip_1: Código del tipo de accidente relacionado a la columna "Tipo_CONA"
- Tipo_CONA: Nombre del tipo de accidente
- Cod_Zona: Código del tipo de zona donde ocurrió el siniestro
- Zona: Nombre del tipo de zona donde ocurrió el siniestro (urbana o rural)
- Cod_Ubica: Código del tipo de ubicación donde ocurrió el siniestro
- Ubicacion: Nombre del tipo de ubicación donde ocurrió el siniestro
- Cod_Calle: Código de la calle donde ocurrió el siniestro
- Cod_Cal_1: Código de la segunda calle donde ocurrió el siniestro para el caso de accidentes en intersecciones
- Calle_1: Nombre de la calle donde ocurrió el siniestro
- Calle_Dos: Nombre de la segunda calle donde ocurrió el siniestro para el caso de  accidentes en intersecciones
- Numero: Altura del domicilio
- PiSANTAsde: Cantidad de pistas en dirección de la calle 1
- PiSANTAs_1: Cantidad de pistas en dirección de la calle 2
- Cod_Calzada: Código de la calzada
- Calzada: Dirección de la calzada
- Tipo_Calzada: Nombre del tipo de la calzada
- Fallecidos: Cantidad de personas fallecidas
- Graves: Cantidad de personas en estado grave
- Menos_Grav: Cantidad de personas en estado menos grave
- Leves: Cantidad de personas con heridas leves
- Accidentes: Cantidad de accidentes

<hr>

El objetivo para este dataset es:
- Eliminar aquellas columnas que no aporta datos relevantes o que no coincidan con las estructuras de los otros dataset.
- Normalizad los datos del dataset (por ejemplo: letras a mayúsculas y sin tildes o imputación de valores nulos)
- Exportar el dataset normalizado. 

In [19]:
# Importacion de librerias que se emplearan
import pandas as pd
import numpy as np
from datetime import datetime
import matplotlib.pyplot as plt
import re

# Configuracion de pandas para que no bloque asignaciones masivas
pd.options.mode.chained_assignment = None

# Lectura del dataset y previsualizacion de los datos
df = pd.read_csv("../data/siniestros atropello RM2017.csv")
df.head()

Unnamed: 0,X,Y,FID,Intersecci,Comuna,Ciudad,Pais,Año,Clase,Cód_Comun,...,PiSANTAsde,PiSANTAs_1,Cód_Calza,Calzada,Tipo_Calza,Fallecidos,Graves,Menos_Grav,Leves,Accidentes
0,-70.54222,-33.473719,2001,CONSISTORIAL @ TAGUA TAGUA,PEÑALOLEN,,,2017,1,13122,...,1.0,1.0,2.0,BIDIRECCIONAL,C,,,,,
1,-70.542197,-33.450019,2002,8622 VALENZUELA LLANOS,LA REINA,,,2017,1,13113,...,2.0,2.0,3.0,BIDIRECCIONAL CON BANDEJON,ASFALTO,0.0,0.0,0.0,1.0,1.0
2,-70.541772,-33.47686,2003,GRECIA / LOS MOLINEROS,PEÑALOLEN,SANTIAGO,CHILE,2017,1,13122,...,2.0,2.0,3.0,BIDIRECCIONAL CON BANDEJON,MIXTO,0.0,1.0,1.0,2.0,
3,-70.541637,-33.476406,2004,8735 GRECIA,PEÑALOLEN,,,2017,1,13122,...,1.0,1.0,2.0,BIDIRECCIONAL,CONCRETO,0.0,0.0,0.0,1.0,1.0
4,-70.541548,-33.46281,2005,DIP LAURA RODRIGUEZ / JOSE ARRIETA,PEÑALOLEN,SANTIAGO,CHILE,2017,1,13122,...,,,,,,,,,,


In [20]:
df.describe()

Unnamed: 0,X,Y,FID,Año,Clase,Cód_Comun,Cód_Tipo,Cód_Tip_1,Cód_Zona,Cód_Ubica,Cód_Calle,Cód_Cal_1,Cód_Calza,Fallecidos,Graves,Menos_Grav,Leves,Accidentes
count,2066.0,2066.0,2066.0,2066.0,2066.0,2066.0,2066.0,2066.0,2066.0,2066.0,2066.0,2066.0,1825.0,1072.0,1004.0,940.0,868.0,815.0
mean,-70.675102,-33.434299,1033.5,2017.0,1.0,13128.794288,10.0,10.0,1.005324,9.618587,131288500.0,95168660.0,1.907397,0.054104,0.332669,0.091489,0.711982,1.10184
std,1.137427,1.563165,596.547148,0.0,0.0,45.305899,0.0,0.0,0.072791,8.53483,453111.4,58617030.0,0.634079,0.234435,0.538534,0.299328,0.740955,0.397392
min,-122.260522,-33.636542,1.0,2017.0,1.0,13101.0,10.0,10.0,1.0,1.0,131010000.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0
25%,-70.693575,-33.515701,517.25,2017.0,1.0,13109.0,10.0,10.0,1.0,1.0,131090200.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0
50%,-70.648339,-33.457042,1033.5,2017.0,1.0,13119.0,10.0,10.0,1.0,11.0,131192000.0,131102700.0,2.0,0.0,0.0,0.0,1.0,1.0
75%,-70.595814,-33.42417,1549.75,2017.0,1.0,13126.0,10.0,10.0,1.0,15.0,131260400.0,131230300.0,2.0,0.0,1.0,0.0,1.0,1.0
max,-70.49839,37.507159,2066.0,2017.0,1.0,13604.0,10.0,10.0,2.0,26.0,136040100.0,136040100.0,3.0,2.0,3.0,2.0,6.0,7.0


## Datos básicos del dataset

In [3]:
print("===================================================================")
print("Tamaño del dataframe:")
print(df.shape)
print("===================================================================")
print("Tipo de variable de las columnas:")
print(df.dtypes)
print("===================================================================")
print("Cantidad de valores nulos por columna:")
print(df.isna().sum())
print("===================================================================")

Tamaño del dataframe:
(2066, 34)
Tipo de variable de las columnas:
X             float64
Y             float64
FID             int64
Intersecci     object
Comuna         object
Ciudad         object
Pais           object
Año             int64
Clase           int64
Cód_Comun       int64
Región         object
Cód_Tipo        int64
Tipo_Accid     object
Cód_Tip_1       int64
Tipo__CONA     object
Cód_Zona        int64
Zona           object
Cód_Ubica       int64
Ubicación      object
Cód_Calle       int64
Cód_Cal_1       int64
Calle_Uno      object
Calle_Dos      object
Número         object
PiSANTAsde     object
PiSANTAs_1     object
Cód_Calza     float64
Calzada        object
Tipo_Calza     object
Fallecidos    float64
Graves        float64
Menos_Grav    float64
Leves         float64
Accidentes    float64
dtype: object
Cantidad de valores nulos por columna:
X                0
Y                0
FID              0
Intersecci       0
Comuna           0
Ciudad           0
Pais             0

Para las columnas que son de tipo string, se determina el número de carácteres del texto más corto, texto más largo y el número de carácteres. Esto se hará para las siguientes columnas:
- Intersecci
- Comuna
- Ciudad
- Pais
- Región 
- Tipo_Accid
- Tipo__CONA
- Zona
- Ubicación
- Calle_Uno
- Calle_Dos
- Número
- PiSANTAsde
- PiSANTAs_1
- Calzada
- Tipo_Calza

<hr>

Primero se deja en nulo aquellas columnas cuya cadena de caracteres sea un string vacío.

In [21]:
# Funcion para reemplazar por nulo los string vacios
def replace_null(col):
    if(col is not np.nan):
        if(len(col.strip()) == 0):
            return np.nan
        else:
            return col
    else:
        return np.nan

In [22]:
df["Intersecci"] = df["Intersecci"].apply(replace_null)
df["Comuna"] = df["Comuna"].apply(replace_null)
df["Ciudad"] = df["Ciudad"].apply(replace_null)
df["Pais"] = df["Pais"].apply(replace_null)
df["Región"] = df["Región"].apply(replace_null)
df["Tipo_Accid"] = df["Tipo_Accid"].apply(replace_null)
df["Tipo__CONA"] = df["Tipo__CONA"].apply(replace_null)
df["Zona"] = df["Zona"].apply(replace_null)
df["Ubicación"] = df["Ubicación"].apply(replace_null)
df["Calle_Uno"] = df["Calle_Uno"].apply(replace_null)
df["Calle_Dos"] = df["Calle_Dos"].apply(replace_null)
df["Número"] = df["Número"].apply(replace_null)
df["PiSANTAsde"] = df["PiSANTAsde"].apply(replace_null)
df["PiSANTAs_1"] = df["PiSANTAs_1"].apply(replace_null)
df["Calzada"] = df["Calzada"].apply(replace_null)
df["Tipo_Calza"] = df["Tipo_Calza"].apply(replace_null)

# Se vuelve a mostrar la cantidad de nulos resultantes
df.isna().sum()

X                0
Y                0
FID              0
Intersecci       0
Comuna           0
Ciudad        1789
Pais          1789
Año              0
Clase            0
Cód_Comun        0
Región           0
Cód_Tipo         0
Tipo_Accid       0
Cód_Tip_1        0
Tipo__CONA       0
Cód_Zona         0
Zona             0
Cód_Ubica        0
Ubicación        0
Cód_Calle        0
Cód_Cal_1        0
Calle_Uno        0
Calle_Dos      610
Número        1498
PiSANTAsde     235
PiSANTAs_1     724
Cód_Calza      241
Calzada        288
Tipo_Calza     734
Fallecidos     994
Graves        1062
Menos_Grav    1126
Leves         1198
Accidentes    1251
dtype: int64

In [23]:
# Funcion para obtener la mayor y menor cantidad de carácteres y la cantidad promedio de carácteres
def LargoCadena(lista):
    # Acumuladores y registros para las variables a determinar
    _min = 0
    _palabraMin = ""
    _max = 0
    _palabraMax = ""
    _i = 0
    _suma = 0
    _promedio = 0
    
    for e in lista:
        if(e is not np.nan):# elemento no nulo
            if(_i == 0):# Primer registro
                _min = len(e.strip())
                _max = len(e.strip())
                _palabraMin = e.strip()
                _palabraMax = e.strip()
                
            # Acumulador de sumas para calcular promedio posterior
            _suma = _suma + len(e.strip())
            
            # Re asignacion para largos maximo y minimo 
            if(len(e.strip()) < _min):
                _min = len(e.strip())
                _palabraMin = e.strip()
                
            if(len(e.strip()) > _max):
                _max = len(e.strip())
                _palabraMax = e.strip()
            
            # Contador para el calculo de promedio
            _i = _i + 1
            
    # Calculo del promedio fuera del bucle for
    _promedio = _suma / _i
    
    # Se muestra un breve reporte con la informacion
    print("====================================================================")
    print("Palabra más larga:")
    print(_palabraMax)
    print("Número de carácteres:")
    print(_max)
    print("====================================================================")
    print("Palabra más corta:")
    print(_palabraMin)
    print("Número de carácteres:")
    print(_min)
    print("====================================================================")
    print("Cantidad promedio de carácteres:")
    print(int(_promedio))
    print("Número de palabras evaluadas:")
    print(_i)
    print("====================================================================")

In [10]:
LargoCadena(df["Intersecci"])
LargoCadena(df["Comuna"])
LargoCadena(df["Ciudad"])
LargoCadena(df["Pais"])
LargoCadena(df["Región"])
LargoCadena(df["Tipo_Accid"])
LargoCadena(df["Tipo__CONA"])
LargoCadena(df["Zona"])
LargoCadena(df["Ubicación"])
LargoCadena(df["Calle_Uno"])
LargoCadena(df["Calle_Dos"])
LargoCadena(df["Número"])
LargoCadena(df["PiSANTAsde"])
LargoCadena(df["PiSANTAs_1"])
LargoCadena(df["Calzada"])
LargoCadena(df["Tipo_Calza"])

Palabra más larga:
CENTRAL CARDENAL SILVA HENRIQUEZ @ CARDENAL JOSE MARIA CARO
Número de carácteres:
59
Palabra más corta:
260 OSSA
Número de carácteres:
8
Cantidad promedio de carácteres:
25
Número de palabras evaluadas:
2066
Palabra más larga:
PEDRO AGUIRRE CERDA
Número de carácteres:
19
Palabra más corta:
ÑUÑOA
Número de carácteres:
5
Cantidad promedio de carácteres:
9
Número de palabras evaluadas:
2066
Palabra más larga:
SANTIAGO
Número de carácteres:
8
Palabra más corta:
SANTIAGO
Número de carácteres:
8
Cantidad promedio de carácteres:
8
Número de palabras evaluadas:
277
Palabra más larga:
CHILE
Número de carácteres:
5
Palabra más corta:
CHILE
Número de carácteres:
5
Cantidad promedio de carácteres:
5
Número de palabras evaluadas:
277
Palabra más larga:
REGION METROPOLITANA
Número de carácteres:
20
Palabra más corta:
REGION METROPOLITANA
Número de carácteres:
20
Cantidad promedio de carácteres:
20
Número de palabras evaluadas:
2066
Palabra más larga:
ATROPELLO
Número de carácteres

## Eliminación de columnas innecesarias o que no coinciden con los otros datset

In [24]:
# Eliminacion FID
del df["FID"]
# Eliminacion Intersecci
del df["Intersecci"]
# Eliminacion Ciudad
del df["Ciudad"]
# Eliminacion Pais
del df["Pais"]
# Eliminacion Clase
del df["Clase"]
# Eliminacion Cod_Comun
del df["Cód_Comun"]
# Eliminacion Region
del df["Región"]
# Eliminacion Cod_Tipo
del df["Cód_Tipo"]
# Eliminacion TipoAccid
del df["Tipo_Accid"]
# Eliminacion Cod_Tip_1
del df["Cód_Tip_1"]
# Eliminacion Tipo_CONA
del df["Tipo__CONA"]
# Eliminacion Cod_Zona
del df["Cód_Zona"]
# Eliminacion Zona
del df["Zona"]
# Eliminacion Cod_Ubica
del df["Cód_Ubica"]
# Eliminacion Ubicacion
del df["Ubicación"]
# Eliminacion Cod_Calle
del df["Cód_Calle"]
# Eliminacion Cod_Cal_1
del df["Cód_Cal_1"]
# Eliminacion PiSANTAsde
del df["PiSANTAsde"]
# Eliminacion PiSANTAs_1
del df["PiSANTAs_1"]
# Eliminacion Cod_Calzada
del df["Cód_Calza"]
# Eliminacion Calzada
del df["Calzada"]
# Eliminacion Tipo_Calzada
del df["Tipo_Calza"]
# Eliminacion Accidentes
del df["Accidentes"]
df.head()

Unnamed: 0,X,Y,Comuna,Año,Calle_Uno,Calle_Dos,Número,Fallecidos,Graves,Menos_Grav,Leves
0,-70.54222,-33.473719,PEÑALOLEN,2017,CONSISTORIAL,TAGUA TAGUA,,,,,
1,-70.542197,-33.450019,LA REINA,2017,VALENZUELA LLANOS,,8622.0,0.0,0.0,0.0,1.0
2,-70.541772,-33.47686,PEÑALOLEN,2017,GRECIA,LOS MOLINEROS,,0.0,1.0,1.0,2.0
3,-70.541637,-33.476406,PEÑALOLEN,2017,GRECIA,,8735.0,0.0,0.0,0.0,1.0
4,-70.541548,-33.46281,PEÑALOLEN,2017,JOSE ARRIETA,DIPUTADA LAURA RODRIGUE,,,,,


Se puede apreciar que la columna "Número" es nulo cuando el accidente ocurre en una intersección de dos calles, o sea, cuando Calle_Uno y Calle_Dos poseen un valor al mismo tiempo. Se dejará en "0" todos estos casos y luego se convierte la variable "Número" a int64.

In [25]:
def ImputacionNumero(num):
    if (num is np.nan):
        return "0"
    else:
        return num

df["Número"] = df["Número"].apply(ImputacionNumero)
df["Número"] = df["Número"].astype("int64")
df["Número"].dtypes

dtype('int64')

## Normalización de campos de texto

In [26]:
df["Comuna"].value_counts()

SANTIAGO               205
PUENTE ALTO            172
MAIPU                  130
LAS CONDES             114
RECOLETA                95
PEÑALOLEN               89
PROVIDENCIA             87
LA FLORIDA              83
PUDAHUEL                79
ÑUÑOA                   71
ESTACION CENTRAL        66
QUINTA NORMAL           62
EL BOSQUE               61
QUILICURA               55
CERRO NAVIA             48
LA PINTANA              46
SAN MIGUEL              45
LO PRADO                39
PEDRO AGUIRRE CERDA     39
VITACURA                39
LA CISTERNA             39
RENCA                   35
COLINA                  34
INDEPENDENCIA           34
SAN RAMON               34
SAN JOAQUIN             32
MACUL                   30
CERRILLOS               30
CONCHALI                29
LA REINA                27
LO ESPEJO               27
HUECHURABA              25
LA GRANJA               23
LO BARNECHEA            21
LAMPA                    9
PADRE HURTADO            6
SAN BERNARDO             3
P

Se puede apreciar que las comunas no están repetidas o mal escritas, por lo que se procede a la eliminación de tildes y carácteres especiales.

In [27]:
def normalizar_texto(texto):
    if(texto is not np.nan):
        texto = texto.upper()
        texto = re.sub("`", "", texto)
        texto = re.sub(r"Á|Ä|Â|À", "A", texto)
        texto = re.sub(r"É|Ë|Ê|È", "E", texto)
        texto = re.sub(r"Í|Ï|Î|Ì", "I", texto)
        texto = re.sub(r"Ó|Ö|Ô|Ò", "O", texto)
        texto = re.sub(r"Ú|Ü|Û|Ù", "U", texto)
        return texto
    else:
        return np.nan

df["Calle_Uno"] = df["Calle_Uno"].apply(normalizar_texto)
df["Calle_Dos"] = df["Calle_Dos"].apply(normalizar_texto)
df.head()

Unnamed: 0,X,Y,Comuna,Año,Calle_Uno,Calle_Dos,Número,Fallecidos,Graves,Menos_Grav,Leves
0,-70.54222,-33.473719,PEÑALOLEN,2017,CONSISTORIAL,TAGUA TAGUA,0,,,,
1,-70.542197,-33.450019,LA REINA,2017,VALENZUELA LLANOS,,8622,0.0,0.0,0.0,1.0
2,-70.541772,-33.47686,PEÑALOLEN,2017,GRECIA,LOS MOLINEROS,0,0.0,1.0,1.0,2.0
3,-70.541637,-33.476406,PEÑALOLEN,2017,GRECIA,,8735,0.0,0.0,0.0,1.0
4,-70.541548,-33.46281,PEÑALOLEN,2017,JOSE ARRIETA,DIPUTADA LAURA RODRIGUE,0,,,,


## Creación de la columna si fue en intersección el accidente 
Esta nueva columna estará llena de 1's y 0's en función de si ocurrió o no en una intersección respectivamente. Esto se calcula en función de los valores de las columnas Calle_Uno, Calle_Dos y Numero.

In [28]:
def Interseccion(numero):
    if(numero == 0):
        return 1
    else:
        return 0

df["Interseccion"] = df["Número"].apply(Interseccion)
df.head()

Unnamed: 0,X,Y,Comuna,Año,Calle_Uno,Calle_Dos,Número,Fallecidos,Graves,Menos_Grav,Leves,Interseccion
0,-70.54222,-33.473719,PEÑALOLEN,2017,CONSISTORIAL,TAGUA TAGUA,0,,,,,1
1,-70.542197,-33.450019,LA REINA,2017,VALENZUELA LLANOS,,8622,0.0,0.0,0.0,1.0,0
2,-70.541772,-33.47686,PEÑALOLEN,2017,GRECIA,LOS MOLINEROS,0,0.0,1.0,1.0,2.0,1
3,-70.541637,-33.476406,PEÑALOLEN,2017,GRECIA,,8735,0.0,0.0,0.0,1.0,0
4,-70.541548,-33.46281,PEÑALOLEN,2017,JOSE ARRIETA,DIPUTADA LAURA RODRIGUE,0,,,,,1


## Imputación de valores
Como se puede observar, existen valores nulos en las columnas de Número, Fallecidos, Graves, Menos_Grav y Leves. Estos campos se imputan cuando se unan todos los datsets, para así tener un mayor espectro de registros usados para el entrenamiento del modelo. El modelo a emplear será un clasificador. <br>
A pesar de esto, igual existe un registro erróneo el cual, su ubicación de latitud y longitud hace que esté en Estados Unidos (esta información se detalla más adelante en el análisis estadístico y geoespacial que se realizó sobre el set de datos completo). Al ser un único registro, se elimina del dataset.

In [32]:
df[df["Calle_Uno"].str.contains("SAN CARLOS") & df["Calle_Dos"].str.contains("VICE PRESIDENTE BERNARDO L") & df["Comuna"].str.contains("PUENTE ALTO")]

Unnamed: 0,X,Y,Comuna,Año,Calle_Uno,Calle_Dos,Número,Fallecidos,Graves,Menos_Grav,Leves,Interseccion
1466,-122.260522,37.507159,PUENTE ALTO,2017,SAN CARLOS,VICE PRESIDENTE BERNARDO L,0,,,,,1


Se puede apreciar claramente que el valor de longitud no es coherente con la ubicación del país. Se procede a eliminar __solo este registro__.

In [33]:
df = df.drop([1466], axis = 0)
df.shape

(2065, 12)

## Se renombran las columnas
Se dejan las columnas con los nombres de: X, Y, Anio, Comuna, Calle1, Calle2, Numero, Interseccion, Fallecidos, Graves, MenosGraves y Leves

In [34]:
nombre_col = {
    "Año" : "Anio",
    "Calle_Uno": "Calle1",
    "Calle_Dos": "Calle2",
    "Número": "Numero",
    "Menos_Grav": "MenosGraves"
}
df = df.rename(columns=nombre_col)
df.columns

Index(['X', 'Y', 'Comuna', 'Anio', 'Calle1', 'Calle2', 'Numero', 'Fallecidos',
       'Graves', 'MenosGraves', 'Leves', 'Interseccion'],
      dtype='object')

## Se reordenan las columnas a la siguiente secuencia:
- 1° X
- 2° Y
- 3° Anio
- 4° Comuna
- 5° Calle1
- 6° Calle2
- 7° Numero
- 8° Interseccion
- 9° Fallecidos
- 10° Graves
- 11° MenosGraves
- 12° Leves

In [35]:
df = df[[
    "X", 
    "Y", 
    "Anio", 
    "Comuna", 
    "Calle1", 
    "Calle2",
    "Numero", 
    "Interseccion", 
    "Fallecidos", 
    "Graves",
    "MenosGraves",
    "Leves"]]
df.columns

Index(['X', 'Y', 'Anio', 'Comuna', 'Calle1', 'Calle2', 'Numero',
       'Interseccion', 'Fallecidos', 'Graves', 'MenosGraves', 'Leves'],
      dtype='object')

## Se exporta el nuevo dataset

In [36]:
df_copia = df
df_copia.to_csv("../data_limpia/Dataset_2017_ordenado.csv", index = False)