# Pre - procesamiento de los datos con Python
## Librerias y variables básicas
Lista todos los archivos *.csv en `./data` y crea un `DataFrame` de la libreria pandas

In [648]:
from datetime import datetime
import numpy as np
import glob
import pandas as pd
import math
allFiles = glob.glob("./data/Hurto*.csv") #obtiene los archivos del directorio ./data que empiecen por Hurto
frame = pd.DataFrame() #crea el DataFrame donde se almacenarán los archivos finales
list_ = [] # crea una lista vacía donde agregará un lector csv por cada archivo *.csv en ./data

## Imprimir lista de archivos que empiezan con 'Hurto'  en la carpeta `./data`

Imprime todos los archivos *.csv en ./data
<br>
<strong>Nota:</strong> todos los archivos que se van a concatenar tienen el mismo número de columnas, por lo tanto no es necesario hacer pre-procesamiento de las mismas por el momento. Además, se debe verificar que los archivos en allFiles sean los que deseamos concatenar

In [649]:
allFiles

['./data/Hurto_de_Automotores_2016.csv',
 './data/Hurto_de_motocicletas_2016.csv']

## Creando el `DataFrame` con todos los *.csv 
Se itera sobre todos los archivos *.csv en ./data luego, agrega a la lista creada previamente un  lectores de csv de panda por cada archivo *.csv 
<br>
Finalmente, en el `DataFrame` guarda la concatenación de todos los elementos contenidos en la lista.

In [650]:
for file_ in allFiles:
    df = pd.read_csv(file_,index_col=None, header=0)
    list_.append(df)
frame = pd.concat(list_)

## Verificando el   `DataFrame`
### Se verifica el contenido
Asegúrese de que el `DataFrame` contiene la información adecuada de los archivos *.csv en ./data


In [651]:
frame.head(0)
frame.head(1)
frame.head(2)

Unnamed: 0,Fecha,Departamento,Municipio,Día,Hora,Barrio,Zona,Clase de sitio,Arma empleada,Móvil Agresor,...,Clase de empleado,Profesión,Escolaridad,Código DANE,CLASE,MARCA,LINEA,MODELO,COLOR,Cantidad
0,01/01/2016 12:00:00 AM,ANTIOQUIA,ENVIGADO,Viernes,12/31/1899 01:30:00 AM,MESA,URBANA,FRENTE A EDIFICIO - VIA PUBLICA,LLAVE MAESTRA,A PIE,...,NO REPORTA,ADMINISTRADOR DE EMPRESAS,SUPERIOR,5266000,AUTOMOVIL,CHEVROLET,CRUZE,2013,NEGRO,1
1,01/01/2016 12:00:00 AM,ATLÁNTICO,BARRANQUILLA (CT),Viernes,12/31/1899 04:00:00 PM,ALTOS DEL LIMON,URBANA,CONJUNTO RESIDENCIAL,LLAVE MAESTRA,A PIE,...,EMPLEADO PARTICULAR,PSICOLOGO,SUPERIOR,8001000,AUTOMOVIL,NISSAN,VERSA,2013,GRIS,1


### Se verifica las filas y columnas 
En este caso el conjunto de datos tiene 39367 filas y 25 columnas

In [652]:
frame.shape

(39367, 25)

### Verificar atributos
Se verifican los atributos, es decir las columnas del dataset

In [654]:
frame.head(0)
frame.head(1)
frame.head(1)

Unnamed: 0,Fecha,Departamento,Municipio,Día,Hora,Barrio,Zona,Clase de sitio,Arma empleada,Móvil Agresor,...,Clase de empleado,Profesión,Escolaridad,Código DANE,CLASE,MARCA,LINEA,MODELO,COLOR,Cantidad
0,01/01/2016 12:00:00 AM,ANTIOQUIA,ENVIGADO,Viernes,12/31/1899 01:30:00 AM,MESA,URBANA,FRENTE A EDIFICIO - VIA PUBLICA,LLAVE MAESTRA,A PIE,...,NO REPORTA,ADMINISTRADOR DE EMPRESAS,SUPERIOR,5266000,AUTOMOVIL,CHEVROLET,CRUZE,2013,NEGRO,1


## Cambios sobre los atributos
Se identifica que se deben hacer cambios en varios de los atributos para el análisis correcto del conjunto de datos con Weka. Dichos cambios estan especificados en el documento.


### Eliminar columnas


In [655]:
del frame['Código DANE']
del frame['Estado civil']
del frame['Cantidad']
del frame['País de nacimiento']
del frame['Clase de empleado']
del frame['Profesión']
del frame['Escolaridad']
del frame['LINEA']

In [656]:
frame.columns

Index(['Fecha', 'Departamento', 'Municipio', 'Día', 'Hora', 'Barrio', 'Zona',
       'Clase de sitio', 'Arma empleada', 'Móvil Agresor', 'Móvil Victima',
       'Edad', 'Sexo', 'CLASE', 'MARCA', 'MODELO', 'COLOR'],
      dtype='object')

In [657]:
column_names = ['FECHA','DEPARTAMENTO', 'MUNICIPIO','DIA','HORA','BARRIO','ZONA','SITIO','ARMA','MOVIL_AGRESOR',
                 'MOVIL_VICTIMA','EDAD','SEXO','CLASE','MARCA','MODELO','COLOR']

#frame[columnas_str] = df[columnas_str].astype(str)

In [658]:
frame.columns = column_names
frame.columns

Index(['FECHA', 'DEPARTAMENTO', 'MUNICIPIO', 'DIA', 'HORA', 'BARRIO', 'ZONA',
       'SITIO', 'ARMA', 'MOVIL_AGRESOR', 'MOVIL_VICTIMA', 'EDAD', 'SEXO',
       'CLASE', 'MARCA', 'MODELO', 'COLOR'],
      dtype='object')

### Manejo de las fechas

#### Limpiando fecha  y hora
Dado que las fechas tienen hora pero todos tienen la hora a 00:00 y la columna de hora tiene fecha pero del 01/01/1899

In [659]:
col_loc_fecha = frame.columns.get_loc('FECHA')
col_loc_hora = frame.columns.get_loc('HORA')
 
for i in range(len(frame)):
    fecha_antes = frame.iloc[i, col_loc_fecha]
    fecha_despues = fecha_antes.split(' ')[0]
    frame.iloc[i, col_loc_fecha] = fecha_despues
   
    hora_antes = frame.iloc[i, col_loc_hora]
    hora_despues = hora_antes.split(' ', 1)[-1]
    frame.iloc[i, col_loc_hora] = hora_despues

In [660]:
frame.head(0)
frame.head(1)
frame.head(2)


Unnamed: 0,FECHA,DEPARTAMENTO,MUNICIPIO,DIA,HORA,BARRIO,ZONA,SITIO,ARMA,MOVIL_AGRESOR,MOVIL_VICTIMA,EDAD,SEXO,CLASE,MARCA,MODELO,COLOR
0,01/01/2016,ANTIOQUIA,ENVIGADO,Viernes,01:30:00 AM,MESA,URBANA,FRENTE A EDIFICIO - VIA PUBLICA,LLAVE MAESTRA,A PIE,A PIE,53,FEMENINO,AUTOMOVIL,CHEVROLET,2013,NEGRO
1,01/01/2016,ATLÁNTICO,BARRANQUILLA (CT),Viernes,04:00:00 PM,ALTOS DEL LIMON,URBANA,CONJUNTO RESIDENCIAL,LLAVE MAESTRA,A PIE,A PIE,33,MASCULINO,AUTOMOVIL,NISSAN,2013,GRIS


In [661]:
formato_fecha = '%m/%d/%Y'
meses = {
    1 : 'ENERO',
    2 : 'FEBRERO',
    3 : 'MARZO',
    4 : 'ABRIL',
    5 : 'MAYO',
    6 : 'JUNIO',
    7 : 'JULIO',
    8 : 'AGOSTO',
    9 : 'SEPTIEMBRE',
    10 : 'OCTUBRE',
    11 : 'NOVIEMBRE',
    12 : 'DICIEMBRE'  
}


### Agrupando horas

In [662]:
formato_hora = '%I:%M:%S %p'
horas_limite = {
    'madrugada_inicio': '1900-01-01 12:01 AM',
    'madrugada_final' : '1900-01-01 06:00 AM',
    'mov_matutina_inicio': '1900-01-01 06:01 AM',
    'mov_matutina_inicio': '1900-01-01 08:30 AM',
    'manhana_inicio': '1900-01-01 08:31 AM',
    'manhana_final': '1900-01-01 12:00 PM',
    'almuerzo_inicio': '1900-01-01 12:01 PM',
    'almuerzo_final': '1900-01-01 02:00 PM',
    'tarde_inicio': '1900-01-01 02:01 PM',
    'tarde_final': '1900-01-01 05:00 PM',
    'mov_vespertina_inicio': '1900-01-01 05:01 PM',
    'mov_vespertina_final': '1900-01-01 08:00 PM',
    'noche_inicio': '1900-01-01 08:01 PM',
    'noche_final': '1900-01-02 12:00 AM' # notese que aqui cambie al siguiente dia
}
def category_by_hour(hora):
    '''Da la categoría (de hora) del día dependiendo de la hora que mandemos como parámetro'''
    formato_hora_limite = '%Y-%m-%d %I:%M %p'    
    madrugada = datetime.strptime( horas_limite['madrugada_inicio'], formato_hora_limite)
    mov_matutina = datetime.strptime( horas_limite['mov_matutina_inicio'], formato_hora_limite)
    manhana = datetime.strptime( horas_limite['manhana_inicio'], formato_hora_limite)
    almuerzo = datetime.strptime( horas_limite['almuerzo_inicio'], formato_hora_limite)
    tarde = datetime.strptime( horas_limite['tarde_inicio'], formato_hora_limite)
    mov_vespertina = datetime.strptime( horas_limite['mov_vespertina_inicio'], formato_hora_limite)
    noche = datetime.strptime( horas_limite['noche_inicio'], formato_hora_limite)
   
    categoria = 'no-definida'
    if hora >= madrugada and hora < mov_matutina:
        categoria = 'MADRUGADA'
    elif hora >= mov_matutina and hora < manhana:
        categoria = 'MOVILIZACIONMATUTINA'
    elif hora >= manhana and hora < almuerzo:
        categoria = 'MANHANA'
    elif hora >= almuerzo and hora < tarde:
        categoria = 'ALMUERZO'
    elif hora >= tarde and hora < mov_vespertina:
        categoria = 'TARDE'
    elif hora >= mov_vespertina and hora < noche:
        categoria = 'MOVILIZACIONVESPERTINA'
    else:
        categoria  = 'NOCHE'
   
    return categoria

col_loc_fecha = frame.columns.get_loc('FECHA')
col_loc_hora = frame.columns.get_loc('HORA')

In [663]:
for i in range(len(frame)):
    fecha_string = frame.iloc[i, col_loc_fecha]
    fecha = datetime.strptime(fecha_string, formato_fecha)
    frame.iloc[i, col_loc_fecha] = meses[fecha.month]
   
    hora_string = frame.iloc[i, col_loc_hora]

    hora  = datetime.strptime(hora_string, formato_hora)
    frame.iloc[i, col_loc_hora] = category_by_hour(hora)


In [664]:
frame.head(0)
frame.head(1)
frame.head(2)


Unnamed: 0,FECHA,DEPARTAMENTO,MUNICIPIO,DIA,HORA,BARRIO,ZONA,SITIO,ARMA,MOVIL_AGRESOR,MOVIL_VICTIMA,EDAD,SEXO,CLASE,MARCA,MODELO,COLOR
0,ENERO,ANTIOQUIA,ENVIGADO,Viernes,MADRUGADA,MESA,URBANA,FRENTE A EDIFICIO - VIA PUBLICA,LLAVE MAESTRA,A PIE,A PIE,53,FEMENINO,AUTOMOVIL,CHEVROLET,2013,NEGRO
1,ENERO,ATLÁNTICO,BARRANQUILLA (CT),Viernes,TARDE,ALTOS DEL LIMON,URBANA,CONJUNTO RESIDENCIAL,LLAVE MAESTRA,A PIE,A PIE,33,MASCULINO,AUTOMOVIL,NISSAN,2013,GRIS


### Agrupando clase de sitio por popularidad

In [665]:
frame['SITIO'].value_counts()

VIAS PUBLICAS                              28722
FRENTE A RESIDENCIAS - VIA PUBLICA          2903
CARRETERA                                   1360
PARQUEADERO                                 1173
FINCAS Y SIMILARES                           693
CASAS DE HABITACION                          671
SOBRE ANDEN - VIA PUBLICA                    357
FRENTE CONJUNTO - VIA PUBLICA                290
TRAMO DE VIA                                 229
BAHIA                                        212
DENTRO DE LA VIVIENDA                        166
FRENTE CLINICA U HOSPITAL - VIA PUBLICA      143
TROCHA                                       116
CONJUNTO RESIDENCIAL                         115
FRENTE EMPRESA - VIA PUBLICA                 113
SEMÁFORO                                     112
FRENTE A DISCOTECAS                          105
FRENTE A COLEGIO - VIA PUBLICA                99
FRENTE A ALMACEN - VIA PUBLICA                92
GARAJE                                        87
PARQUES             

In [666]:
col_loc_sitio = frame.columns.get_loc('SITIO')

In [667]:
#indices_via_publica = np.where('VIA PUBLICA' in frame['Clase de sitio'])[0]
#indices_via_publica
count= 0
for i in range(len(frame['SITIO'])):
    cell_value = frame.iloc[i, col_loc_sitio]
    if 'VIA PUBLICA' in cell_value :
        frame.iloc[i, col_loc_sitio] = 'VIAS PUBLICAS'


In [668]:
arr = []
ite = 0
for i in frame['SITIO'].value_counts():
    if i < 101:
        arr.append(frame['SITIO'].value_counts().keys()[ite])
    ite = ite+1
print(arr)
for i in range(len(frame['SITIO'])):
    cell_value = frame.iloc[i,col_loc_sitio]
    if cell_value in arr:
        frame.iloc[i,col_loc_sitio] = 'OTRO'

['PARQUES', 'GARAJE', 'CALLEJÓN', 'LOCAL COMERCIAL', 'PLAZAS DE MERCADO', 'CANCHA DE FUTBOL', 'PERIMETRO URBANO', 'BARES, CANTINAS Y SIMILARES', 'CENTRO COMERCIAL', 'FRENTE RESTAURANTE', 'APARTAMENTO', 'COLEGIOS, ESCUELAS', 'FRENTE CENTRO COMERCIAL', 'TALLERES', 'ESTADERO', 'PUENTE', 'UNIVERSIDADES', 'BODEGAS Y SIMILARES', 'BOMBA DE GASOLINA', 'RIOS', 'SECTOR RESIDENCIAS', 'HOTELES, RESIDENCIAS, Y SIMILARES.', 'LAVA-AUTOS', 'TALLERES MECANICA', 'GALLERA', 'LOTE BALDIO', 'ALMACENES', 'GLORIETA', 'CLINICAS Y SIMILARES', 'EMPRESA', 'VEHICULO', 'CEMENTERIO', 'BILLARES', 'ESTACIONES DE SERVICIO', 'TIENDA', 'RESTAURANTES', 'FRENTE OFICINA', 'CONSTRUCCION', 'HOSPITALES', 'RANCHERIA', 'DISCOTECAS', 'IGLESIA', 'SUPERMERCADOS', 'TERMINAL DE TRANSPORTES', 'COMPRAVENTA', 'HACIENDA', 'COLISEO', 'CENTRO RECREACIONAL', 'INSTALACIONES DE LA POLICIA', 'CASA EN CONJUNTO CERRADO', 'ESCENARIOS DEPORTIVOS', 'ESTADIO', 'PELUQUERIA Y SIMILARES', 'OFICINAS', 'MINA', 'APARTAMENTO EN CONJUNTO CERRADO', 'NO DEFI

In [669]:
frame['SITIO'].value_counts()

VIAS PUBLICAS            32924
OTRO                      1491
CARRETERA                 1360
PARQUEADERO               1173
FINCAS Y SIMILARES         693
CASAS DE HABITACION        671
TRAMO DE VIA               229
BAHIA                      212
DENTRO DE LA VIVIENDA      166
TROCHA                     116
CONJUNTO RESIDENCIAL       115
SEMÁFORO                   112
FRENTE A DISCOTECAS        105
Name: SITIO, dtype: int64

### Agrupando arma empleada por popularidad

In [670]:
frame['ARMA'].value_counts()

col_loc_arma = frame.columns.get_loc('ARMA')

arma_jeringa = np.where(frame['ARMA'] == 'JERINGA')[0]
arma_cortante = np.where(frame['ARMA'] == 'CORTANTES')[0]
arma_cortopunzante = np.where(frame['ARMA'] == 'CORTOPUNZANTES')[0]
arma_punzante = np.where(frame['ARMA'] == 'PUNZANTES')[0]
arma_blanca = np.where(frame['ARMA'] == 'ARMAS BLANCAS')[0]

armas_cortopunzantes = np.concatenate((arma_jeringa, arma_cortante,arma_cortopunzante,arma_punzante,arma_blanca))

for arma in armas_cortopunzantes:
    frame.iloc[arma, col_loc_arma] = 'ARMA BLANCA / CORTOPUNZANTE'

In [671]:
frame['ARMA'].value_counts()

LLAVE MAESTRA                  19382
ARMA DE FUEGO                  11780
SIN EMPLEO DE ARMAS             5280
CONTUNDENTES                    1529
ARMA BLANCA / CORTOPUNZANTE     1200
ESCOPOLAMINA                     195
-                                  1
Name: ARMA, dtype: int64

### Agrupando Móvil agresor y victima por popularidad

In [672]:
frame['MOVIL_AGRESOR'].value_counts()

A PIE                    29293
PASAJERO MOTOCICLETA      6453
CONDUCTOR MOTOCICLETA     2431
CONDUCTOR VEHICULO         671
-                          137
PASAJERO TAXI              136
PASAJERO VEHICULO          116
CONDUCTOR TAXI              62
BICICLETA                   52
PASAJERO BUS                 7
PASAJERO METRO               6
CONDUCTOR BUS                2
TRIPULANTE AERONAVE          1
Name: MOVIL_AGRESOR, dtype: int64

In [673]:
col_movil_agresor= frame.columns.get_loc('MOVIL_AGRESOR')
for i in range(len(frame['MOVIL_AGRESOR'])):
    cell_value = frame.iloc[i, col_movil_agresor]
    if 'PASAJERO' in cell_value :
        frame.iloc[i, col_movil_agresor] = 'PASAJERO'
    elif 'CONDUCTOR' in cell_value :
        frame.iloc[i, col_movil_agresor] = 'CONDUCTOR'
    elif '-' in cell_value:
        frame.iloc[i, col_movil_agresor] = 'OTRO'
    elif 'TRIPULANTE AERONAVE' in cell_value:
        frame.iloc[i, col_movil_agresor] = 'OTRO'
        

In [495]:
frame['MOVIL_AGRESOR'].value_counts()

A PIE        29293
PASAJERO      6718
CONDUCTOR     3166
OTRO           138
BICICLETA       52
Name: MOVIL_AGRESOR, dtype: int64

In [674]:
frame['MOVIL_VICTIMA'].value_counts()

A PIE                    25180
CONDUCTOR MOTOCICLETA    11512
CONDUCTOR VEHICULO        2145
PASAJERO MOTOCICLETA       191
-                          161
CONDUCTOR TAXI             143
CONDUCTOR BUS               17
BICICLETA                   11
PASAJERO VEHICULO            6
PASAJERO TAXI                1
Name: MOVIL_VICTIMA, dtype: int64

In [675]:
col_movil_victima= frame.columns.get_loc('MOVIL_VICTIMA')
for i in range(len(frame['MOVIL_AGRESOR'])):
    cell_value = frame.iloc[i, col_movil_victima]
    if 'PASAJERO' in cell_value :
        frame.iloc[i, col_movil_victima] = 'PASAJERO'
    elif 'CONDUCTOR' in cell_value :
        frame.iloc[i, col_movil_victima] = 'CONDUCTOR'
    elif '-' in cell_value:
        frame.iloc[i, col_movil_victima] = 'OTRO'
    elif 'TRIPULANTE AERONAVE' in cell_value:
        frame.iloc[i, col_movil_victima] = 'OTRO'

In [676]:
frame['MOVIL_VICTIMA'].value_counts()

A PIE        25180
CONDUCTOR    13817
PASAJERO       198
OTRO           161
BICICLETA       11
Name: MOVIL_VICTIMA, dtype: int64

### Verificando rango de edad

In [677]:
frame['EDAD'].value_counts()
col_edad = frame.columns.get_loc('EDAD')
count_16_18 = 0
count_19_30 = 0
count_31_40 = 0
count_41_60 = 0
count_61 = 0
null=0
for i in range(len(frame['EDAD'])):
    cell_value = (frame.iloc[i, col_edad])
    if '-' not in cell_value:
        cell_value = int(cell_value)
        if cell_value < 19:
            #if int(cell_value) <19:
            count_16_18 = count_16_18+1
        elif cell_value < 31:
            count_19_30 = count_19_30+1
        elif cell_value < 40:
            count_31_40 = count_31_40+1
        elif cell_value < 61:
            count_41_60 = count_41_60+1
        else:
            count_61= count_61+1
    else:
        null=null+1
            
print(count_16_18, '0-18') #ADOLESCENTE
print(count_19_30, '19-30') # JOVEN
print(count_31_40, '31-40') #ADULTO_JOVEN
print(count_41_60, '41-60') # ADULTO_MAYOR
print(count_61, '61')   # ANCIANO
print(null, "Nulos")

666 0-18
16582 19-30
10534 31-40
10332 41-60
1106 61
147 Nulos


### Eliminar filas sin edad y con edad menor de 16
Se elimina por lógica de negocio ya que legalmente un menor de 16 años no puede manejar


In [678]:
print(len(frame))
indices_edad = frame['EDAD'] == '-'
frame = frame.drop(frame.index[indices_edad])
print(len(frame))

39367
39135


In [679]:
#tipo de columna a numerica
frame['EDAD']=frame['EDAD'].apply(pd.to_numeric)

In [680]:
print(len(frame))
indices_edad = frame['EDAD'] < 16
frame = frame.drop(frame.index[indices_edad])
print(len(frame))

39135
39052


In [681]:
for i in range(len(frame['EDAD'])):
    cell_value = (frame.iloc[i, col_edad])
    if cell_value < 19:
        frame.iloc[i, col_edad] = 'ADOLESCENTE'
    elif cell_value < 31:
        frame.iloc[i, col_edad] = 'JOVEN'
    elif cell_value < 40:
        frame.iloc[i, col_edad] = 'ADULTO_JOVEN'
    elif cell_value < 61:
        frame.iloc[i, col_edad] = 'ADULTO_CONTEMPORANEO'
    else:
        frame.iloc[i, col_edad] = 'ADULTO_MAYOR'

In [682]:
frame['EDAD'].value_counts()

JOVEN                   16548
ADULTO_JOVEN            10497
ADULTO_CONTEMPORANEO    10296
ADULTO_MAYOR             1102
ADOLESCENTE               609
Name: EDAD, dtype: int64

### Agrupando por Clase, Marca, modelo y color

In [505]:
frame['CLASE'].value_counts()

MOTOCICLETA              31057
AUTOMOVIL                 4747
CAMIONETA                 1814
CAMPERO                    444
CAMION                     376
VEHICULO-PANEL             130
TAXI                        98
MOTO-CARRO                  78
TRACTO_CAMION               63
VOLQUETA                    61
FURGON                      38
MICROBUS                    32
TRACTOMULA                  19
BUSETA                      16
TRACTOR                     15
RETROEXCAVADORA             15
BUS                         12
TRAILER                      6
GRUA                         6
MINICARGADOR                 4
CUATRIMOTO                   3
CARROTANQUE                  3
MONTACARGA                   2
MOTONIVELADORA               2
MEZCLADORA (VEHICULO)        2
BULDOZER                     2
COLECTIVO                    2
NIVELADORA                   1
BUS EJECUTIVO                1
VOLCO                        1
VOLTEO                       1
AMBULANCIA                   1
Name: CL

### Categorización
Se identifican varios conjuntos de automóviles. Entre estos:
- Transporte público [TAXI, MICROBUS, BUSETA, BUS, COLECTIVO, BUS EJECUTIVO]
- Transporte pesado [TRACTO_CAMION, VOLQUETA, FURGON, TRACTOMULA, TRACTOR, RETROEXCAVADORA, TRAILER, GRUA, CARROTANQUE, MONTACARGA, MEZCLADORA, BULDOZER, VOLTEO, NIVELADORA]
- Transporte liviano [AUTOMOVIL, CAMIONETA, CAMPERO, VEHICULO-PANEL, AMBULANCIA, MINICARGADOR, CUATRIMOTO, MOTONIVELADORA ]

In [506]:
col_loc_clase = frame.columns.get_loc('CLASE')
transporte_publico = ['TAXI', 'MICROBUS','BUSETA','BUS','COLECTIVO']
transporte_pesado = ['TRACTO','VOLQUETA','FURGON','RETRO','GRUA','TRAILER','CARROTANQUE','MONTACARGA','MEZCLADORA','BULDOZER','VOLTEO','VOLCO','NIVELADORA','CAMION']
transporte_liviano = ['AUTOMOVIL','CAMIONETA','CAMPERO','VEHICULO-PANEL','AMBULANCIA','MINICARGADOR','CUATRIMOTO','MOTONIVELADORA']
motocicleta_moto_carro= ['MOTO']

for i in range(len(frame['CLASE'])):
    cell_value = frame.iloc[i, col_loc_clase]
    for j in transporte_publico:
        if j in cell_value:
            frame.iloc[i,col_loc_clase] = 'TRANSPORTE_PUBLICO'
    for j in transporte_pesado:
        if j in cell_value:
            frame.iloc[i,col_loc_clase] = 'TRANSPORTE_PESADO'
    for j in transporte_liviano:
        if j in cell_value:
            frame.iloc[i,col_loc_clase] = 'TRANSPORTE_LIVIANO'
    for j in motocicleta_moto_carro:
        if j in cell_value:
            frame.iloc[i,col_loc_clase] = 'TRANSPORTE_BIPERSONAL'
            

In [507]:
frame['CLASE'].value_counts()

TRANSPORTE_BIPERSONAL    31140
TRANSPORTE_LIVIANO        7140
TRANSPORTE_PESADO          611
TRANSPORTE_PUBLICO         161
Name: CLASE, dtype: int64

In [508]:
frame['COLOR'].value_counts()

NEGRO                15617
BLANCO                5245
AZUL                  5115
ROJO                  4529
GRIS                  2194
NEGRO GRAFITO         1095
VERDE                  915
PLATA                  693
NEGRO Y BLANCO         542
NARANJA                418
AMARILLO               356
PLATEADO               274
ROJO - BLANCO          249
BEIGE                  214
AZUL BALTICO           189
VERDE OSCURO           153
PLATA NIQUEL           106
VIOLETA                 83
CHAMPAÑA                81
MORADO CORDOBES         78
BLANCO Y VERDE          68
VINOTINTO               63
AMARILLO Y NEGRO        60
AZUL Y BLANCO           49
MARRON                  48
PERLA                   47
CAFE                    46
GRIS PLATINO            46
NEGRO Y NIQUEL          46
ESTRATO DE PERLA        41
                     ...  
CLASICO                  2
ZAFIRO                   2
FIRMAMENTO               2
CLARO                    2
LIMON                    2
MENTA                    2
C

In [509]:
col_loc_color = frame.columns.get_loc('COLOR')
arr = []
ite = 0
for i in frame['COLOR'].value_counts():
    if i < 40:
        arr.append(frame['COLOR'].value_counts().keys()[ite])
    ite = ite+1
print(arr)
for i in range(len(frame['COLOR'])):
    cell_value = frame.iloc[i,col_loc_color]
    if cell_value in arr:
        frame.iloc[i,col_loc_color] = 'OTRO'

['ROSADO', 'VARIOS COLORES', 'DORADO', 'AMARILLO TRANSITO', 'STRATO PLATA', 'SILICE TORNADO', 'AZUL CIELO', 'HABANO', 'METALIZADO', 'MARRON Y NIQUEL', 'AZUL MEDIO', 'BRONCE', 'ROJO-MARRON-ROYAL', 'ORO', 'AZUL ZAFIRO', 'ACERO', 'CENIZA GRAFITO', 'PLATINO', 'ROJO-VERDE', 'CELESTE', 'ABANO', 'MARFIL', 'CREMA', 'CROMADO', 'QUARZO', 'LILA', 'TURQUEZA', 'MANDARINA', 'MOSTAZA', 'FUEGO', 'CINZA EJECUTIVO', 'ROBLE', '-', 'CLASICO', 'ZAFIRO', 'FIRMAMENTO', 'CLARO', 'LIMON', 'MENTA', 'COBRE', 'AMARILLO Y BLANCO', 'IMPERIAL', 'AZUL BAHIA', 'CEREZA', 'TERRANOVA', 'AZUL LISBOA', 'BOSQUE', 'PARDO LAGUNA', 'AZUL LAGUNA', 'SAFARI', 'BRUMA', 'ZAPOTE', 'CARAMELO', 'BAMBOO', 'PACIFICO', 'ACUARELA', 'COLONIAL', 'HINDU', 'DALI', 'TERRACOTA', 'GRAFITO', 'LADRILLO', 'FIESTA']


In [510]:
frame['COLOR'].value_counts()

NEGRO               15617
BLANCO               5245
AZUL                 5115
ROJO                 4529
GRIS                 2194
NEGRO GRAFITO        1095
VERDE                 915
PLATA                 693
NEGRO Y BLANCO        542
NARANJA               418
OTRO                  392
AMARILLO              356
PLATEADO              274
ROJO - BLANCO         249
BEIGE                 214
AZUL BALTICO          189
VERDE OSCURO          153
PLATA NIQUEL          106
VIOLETA                83
CHAMPAÑA               81
MORADO CORDOBES        78
BLANCO Y VERDE         68
VINOTINTO              63
AMARILLO Y NEGRO       60
AZUL Y BLANCO          49
MARRON                 48
PERLA                  47
GRIS PLATINO           46
CAFE                   46
NEGRO Y NIQUEL         46
ESTRATO DE PERLA       41
Name: COLOR, dtype: int64

In [683]:
frame['MODELO'].value_counts()

2016        6560
2015        5289
2014        4441
2013        3321
2012        2789
2017        1990
2011        1898
2008        1628
2010        1440
2007        1313
2009        1259
2006        1099
2005         641
2000         459
1998         432
1995         409
2004         390
1996         388
1994         372
1997         344
2003         316
1993         267
2002         207
1999         206
2001         183
1992         170
1990         149
1989         136
1991         129
1988         122
            ... 
1967           4
1959           3
0              3
1970           3
1952           3
1957           2
1954           2
1956           2
1960           2
1968           2
1964           2
1973           2
1963           2
1953           1
2051           1
1966           1
20017          1
11             1
10             1
1897           1
20114          1
20008          1
90             1
93             1
96             1
2102           1
15             1
20082008      

In [684]:
col_loc_modelo = frame.columns.get_loc('MODELO')
count_invalid = 0
for i in range(len(frame['MODELO'])):
    cell_value = frame.iloc[i, col_loc_modelo]
    if cell_value == '-':
        count_invalid = count_invalid+1
    elif len(cell_value) != 4:
        count_invalid = count_invalid+1
    elif int(cell_value) > 2017:
        count_invalid = count_invalid+1
print(count_not_4)

99


Eliminar todos los registros inválidos

In [685]:
#eliminar registros nulos
print(len(frame))
indices_modelo = frame['MODELO'] == '-'
frame = frame.drop(frame.index[indices_modelo])
print(len(frame))

39052
38944


In [686]:
arr_indexes = []
for i in range(len(frame['MODELO'])):
    cell = frame.iloc[i,col_loc_modelo]
    if len(cell) != 4:
        arr_indexes.append(i)
    if int(cell) > 2017:
        arr_indexes.append(i)
print(arr_indexes)
frame = frame.drop(frame.index[arr_indexes])

[120, 3647, 3647, 3899, 4335, 5742, 6500, 8018, 8050, 10699, 19378, 23111, 23111, 27529, 30517, 30517, 30762, 32102, 32633, 32633, 38395]


In [687]:
frame['MODELO'].value_counts()

2016    6557
2015    5287
2014    4439
2013    3318
2012    2787
2017    1990
2011    1895
2008    1626
2010    1438
2007    1313
2009    1256
2006    1099
2005     640
2000     459
1998     431
1995     409
2004     390
1996     386
1994     372
1997     343
2003     316
1993     265
2002     207
1999     205
2001     183
1992     170
1990     149
1989     136
1991     129
1988     121
        ... 
1986      62
1984      43
1981      39
1980      37
1983      33
1979      31
1978      27
1977      23
1974      14
1975      13
1976       9
1961       6
1969       5
1971       5
1972       5
1967       4
1959       3
1952       3
1970       3
1964       2
1956       2
1973       2
1957       2
1954       2
1963       2
1968       2
1960       2
1953       1
1897       1
1966       1
Name: MODELO, Length: 63, dtype: int64

### Eliminando caracteres que pueden causar error
-  =,',",*,-,%
- tildes
- ñ's

In [688]:
def replace_accent_marks(inp):
    text = inp
    text=text.replace('á','a')
    text=text.replace('é','e')
    text=text.replace('í','i')
    text=text.replace('ó','o')
    text=text.replace('ú','u')
    text=text.replace('Á','A')
    text=text.replace('É','E')
    text=text.replace('Í','I')
    text=text.replace('Ó','O')
    text=text.replace('Ú','U')
    text=text.replace('Ñ','N')
    text=text.replace('ñ','n')
    return text
def replace_conflicting_characters(inp):
    text = inp
    text=text.replace(',',' ')
    text=text.replace('=',' ')
    text=text.replace("\'",' ')
    text=text.replace('+',' ')
    text=text.replace('*',' ')
    text=text.replace('-',' ')
    text=text.replace('%',' ')
    text=text.replace('\"',' ')
    return text

In [689]:

col_locs = range(len(frame.columns))

for i in range(len(frame['DEPARTAMENTO'])):
    for j in col_locs:
        actual = frame.iloc[i,j]
        temp_str = replace_accent_marks(actual)
        final = replace_conflicting_characters(temp_str)
        #final = replace_conflicting_characters(actual)
        frame.iloc[i,j] = final
        

In [690]:
frame.head(0)
frame.head(1)
frame.head(2)

Unnamed: 0,FECHA,DEPARTAMENTO,MUNICIPIO,DIA,HORA,BARRIO,ZONA,SITIO,ARMA,MOVIL_AGRESOR,MOVIL_VICTIMA,EDAD,SEXO,CLASE,MARCA,MODELO,COLOR
0,ENERO,ANTIOQUIA,ENVIGADO,Viernes,MADRUGADA,MESA,URBANA,VIAS PUBLICAS,LLAVE MAESTRA,A PIE,A PIE,ADULTO_CONTEMPORANEO,FEMENINO,AUTOMOVIL,CHEVROLET,2013,NEGRO
1,ENERO,ATLANTICO,BARRANQUILLA (CT),Viernes,TARDE,ALTOS DEL LIMON,URBANA,CONJUNTO RESIDENCIAL,LLAVE MAESTRA,A PIE,A PIE,ADULTO_JOVEN,MASCULINO,AUTOMOVIL,NISSAN,2013,GRIS


## Exportando trabajo temporal en un archivo *.csv

In [691]:
frame.to_csv('data/pre_processed/pre_processed_hurto_automoviles.csv', mode='a', header=True)

In [692]:
frame['DEPARTAMENTO'].value_counts()

ANTIOQUIA             8427
VALLE                 6399
CUNDINAMARCA          5799
CAUCA                 2637
ATLANTICO             1800
NORTE DE SANTANDER    1504
CESAR                 1497
GUAJIRA               1305
NARINO                1008
SANTANDER              985
META                   962
HUILA                  921
CORDOBA                690
CASANARE               634
CAQUETA                560
MAGDALENA              532
SUCRE                  523
BOLIVAR                468
TOLIMA                 434
RISARALDA              344
CHOCO                  314
PUTUMAYO               255
QUINDIO                228
ARAUCA                 198
CALDAS                 171
BOYACA                 100
SAN ANDRES              94
AMAZONAS                50
GUAVIARE                47
VICHADA                 29
GUAINIA                  2
VAUPES                   1
Name: DEPARTAMENTO, dtype: int64

## Leyendo fuentes de datos alternativas
### Fiscalía
Los datos de la Fiscalía se obtuvieron haciendo un scraping sobre los gráficos  <a src="http://www.fiscalia.gov.co/atlas2014/">Fiscalía Atlas</a> de las gráficas de cobertura de fiscales por seccional y de cobertura población por seccional. A partir del archivo .xls generado se quitaron tildes y se exporto un archivo .csv para procesar acontinuación.

In [693]:
file_fiscalia ='./data/raw/datos_fiscalia.csv'
df_fiscalia = pd.read_csv(file_fiscalia,index_col=None, header=0)
#help(df_fiscalia)
df_fiscalia


Unnamed: 0,seccional,fiscales,poblacion
0,Amazonas,4,75388
1,Antioquia,17,6266961
2,Arauca,10,266165
3,Atlantico,18,60071
4,Bolivar,5,1897567
5,Boyaca,9,1213015
6,Cordoba,4,1683792
7,Caldas,6,1004428
8,Caqueta,8,471527
9,Casanare,9,350221


#### Limpieza de datos
A continuación se debe hacer la limpieza de datos sobre las columnas. Tener en cuenta que la columna de `fiscales` contiene el número de fiscales de una sección por cada cien mil habitantes mientras que la columna de `poblacion` contiene la población de dicha sección. Acontinuación se procede a eliminar los puntos de la columna de `poblacion` 

In [694]:
# num_fiscales_seccion = fiscales*(poblacion/100000)

In [695]:
col_loc_fiscales = df_fiscalia.columns.get_loc('fiscales')
col_loc_poblacion = df_fiscalia.columns.get_loc('poblacion')
col_loc_seccion = df_fiscalia.columns.get_loc('seccional')
for i in range(len(df_fiscalia['fiscales'])):
    cell = df_fiscalia.iloc[i,col_loc_fiscales]
    pob = int(df_fiscalia.iloc[i,col_loc_poblacion])/100000
    df_fiscalia.iloc[i,col_loc_fiscales] = math.floor(int(cell)*pob)
    df_fiscalia.iloc[i,col_loc_seccion] = df_fiscalia.iloc[i,col_loc_seccion].upper()



In [696]:
df_fiscalia

Unnamed: 0,seccional,fiscales,poblacion
0,AMAZONAS,3,75388
1,ANTIOQUIA,1065,6266961
2,ARAUCA,26,266165
3,ATLANTICO,10,60071
4,BOLIVAR,94,1897567
5,BOYACA,109,1213015
6,CORDOBA,67,1683792
7,CALDAS,60,1004428
8,CAQUETA,37,471527
9,CASANARE,31,350221


### Exportar trabajo temporal en un *.csv

In [697]:
df_fiscalia.to_csv('data/pre_processed/pre_processed_fiscalia.csv', mode='a', header=True)

### DANE
Para los datos del DANE se hizo un join de los atributos del 2016 para diferentes medidas relacionadas con la pobreza

In [698]:
file_dane ='./data/raw/datos_dane.csv'
df_dane = pd.read_csv(file_dane,index_col=None, header=0)
#Reemplazar los acentos


#for i in df_dane.columns:
#    df_dane[i] = df_dane[i].str.replace(',','')
df_dane

col_loc_seccion = df_dane.columns.get_loc('Departamento')
for i in range(len(df_dane['Departamento'])):
    df_dane.iloc[i,col_loc_seccion] = df_fiscalia.iloc[i,col_loc_seccion].upper()



In [699]:
df_dane

Unnamed: 0,Departamento,pobreza_monetaria,pobreza_monetaria_extrema,promedio_ingreso_per_capita,linea_pobreza,linea_pobreza_extrema,brecha_pobreza_monetaria,severidad_pobreza_monetaria,brecha_pobreza_monetaria_extrema,severidad_pobreza_monetaria_extrema
0,AMAZONAS,21.9,6.6,701607,246012,113694,8.4,4.7,2.6,1.6
1,ANTIOQUIA,25.0,3.1,583239,264814,121699,6.9,2.9,0.8,0.3
2,ARAUCA,11.6,2.3,1052592,260109,119134,3.9,2.1,1.1,0.8
3,ATLANTICO,41.0,11.0,444962,246135,115722,14.7,7.4,3.3,1.6
4,BOLIVAR,32.0,10.6,506044,219977,110332,12.1,6.5,4.2,2.4
5,BOYACA,27.6,7.2,567695,236394,112019,9.7,5.3,3.0,1.9
6,CORDOBA,35.8,8.7,411837,222269,111309,12.1,5.9,2.5,1.2
7,CALDAS,50.7,22.3,313872,201270,106301,20.2,10.7,7.1,3.3
8,CAQUETA,41.9,12.1,408188,241510,114640,15.9,8.5,4.5,2.6
9,CASANARE,59.8,34.7,293004,210045,107899,31.4,21.0,17.1,11.3


In [700]:
df_dane.to_csv('data/pre_processed/pre_processed_dane.csv', mode='a', header=True)

## Exportando el archivo final de CSV con el append de las columnas de los datos externos
Write a csv file with the merge of the files in the main directory

###  Exportando hurtos+datos de fiscalia

In [701]:
frame.head(0)
frame.head(1)
frame.head(2)

Unnamed: 0,FECHA,DEPARTAMENTO,MUNICIPIO,DIA,HORA,BARRIO,ZONA,SITIO,ARMA,MOVIL_AGRESOR,MOVIL_VICTIMA,EDAD,SEXO,CLASE,MARCA,MODELO,COLOR
0,ENERO,ANTIOQUIA,ENVIGADO,Viernes,MADRUGADA,MESA,URBANA,VIAS PUBLICAS,LLAVE MAESTRA,A PIE,A PIE,ADULTO_CONTEMPORANEO,FEMENINO,AUTOMOVIL,CHEVROLET,2013,NEGRO
1,ENERO,ATLANTICO,BARRANQUILLA (CT),Viernes,TARDE,ALTOS DEL LIMON,URBANA,CONJUNTO RESIDENCIAL,LLAVE MAESTRA,A PIE,A PIE,ADULTO_JOVEN,MASCULINO,AUTOMOVIL,NISSAN,2013,GRIS


In [702]:
#tres columnas del archivo de data_fiscalia
col_loc_d = df_fiscalia.columns.get_loc('seccional')
col_loc_fiscales = df_fiscalia.columns.get_loc('fiscales')
col_loc_poblacion = df_fiscalia.columns.get_loc('poblacion')
#columna dpto de hurtos
col_loc_departamento = frame.columns.get_loc('DEPARTAMENTO')
#dos arreglos para tener los atributos de cada registro de cada columna        
arr_fiscales = []
arr_poblacion = []
for j in range(len(frame['DEPARTAMENTO'])):
    cell_hurtos = frame.iloc[j,col_loc_departamento]
    found = False
    for i in range(len(df_fiscalia['seccional'])):
        if found:
            break
        cell = df_fiscalia.iloc[i,col_loc_d]
        if cell_hurtos in cell:
            found = True
            arr_fiscales.append(df_fiscalia.iloc[i,col_loc_fiscales])
            arr_poblacion.append(df_fiscalia.iloc[i,col_loc_poblacion])
    if not found:
        arr_fiscales.append(0)
        arr_poblacion.append(0)
        


df_fiscales_column = pd.DataFrame({'FISCALES': arr_fiscales})
df_poblacion_column = pd.DataFrame({'POBLACION': arr_poblacion})

In [703]:
df_new = df_fiscales_column.join(df_poblacion_column)
frame = frame.join(df_new)

In [704]:
frame.to_csv('data/pre_processed/pre_processed_hurtos_fiscalia.csv', mode='a', header=True)

###  Exportando hurtos+datos de fiscalia + datos DANE

In [705]:
df_dane

Unnamed: 0,Departamento,pobreza_monetaria,pobreza_monetaria_extrema,promedio_ingreso_per_capita,linea_pobreza,linea_pobreza_extrema,brecha_pobreza_monetaria,severidad_pobreza_monetaria,brecha_pobreza_monetaria_extrema,severidad_pobreza_monetaria_extrema
0,AMAZONAS,21.9,6.6,701607,246012,113694,8.4,4.7,2.6,1.6
1,ANTIOQUIA,25.0,3.1,583239,264814,121699,6.9,2.9,0.8,0.3
2,ARAUCA,11.6,2.3,1052592,260109,119134,3.9,2.1,1.1,0.8
3,ATLANTICO,41.0,11.0,444962,246135,115722,14.7,7.4,3.3,1.6
4,BOLIVAR,32.0,10.6,506044,219977,110332,12.1,6.5,4.2,2.4
5,BOYACA,27.6,7.2,567695,236394,112019,9.7,5.3,3.0,1.9
6,CORDOBA,35.8,8.7,411837,222269,111309,12.1,5.9,2.5,1.2
7,CALDAS,50.7,22.3,313872,201270,106301,20.2,10.7,7.1,3.3
8,CAQUETA,41.9,12.1,408188,241510,114640,15.9,8.5,4.5,2.6
9,CASANARE,59.8,34.7,293004,210045,107899,31.4,21.0,17.1,11.3


In [706]:
#columnas del archivo data_dane
cols = range(0,len(df_dane.columns))
name_cols = [df_dane.columns[x].upper() for x in cols]
#columna depto de hurtos
col_loc_departamento = frame.columns.get_loc('DEPARTAMENTO')
#arreglo de arreglos para los datos de cada uno de las columnas
arr_attributes = []
for i in cols:
    arr_attributes.append([])

In [707]:
for i in range(len(frame['DEPARTAMENTO'])):
    cell_hurtos = frame.iloc[i, col_loc_departamento]
    found = False
    for j in range(len(df_dane['Departamento'])):
        if found:
            break
        cell = df_dane.iloc[j,cols[0]]
        if cell_hurtos in cell:
            found = True
            for k in cols:
                arr_attributes[k].append(df_dane.iloc[j,k])
    if not found:
        for k in cols:
            arr_attributes[k].append(0)
    #delete for testing
    #if i>10:
    #    break


arr_df_columns = []
for i in cols:
    arr_df_columns.append([])
for i in cols:
    arr_df_columns[i] = pd.DataFrame({name_cols[i]:arr_attributes[i]})
            

In [708]:
df_total_col = pd.DataFrame()
for i in cols:
    df_total_col = arr_df_columns[i+1].join(df_total_col)
    if i == 8:
        break


In [709]:
df_total_col.head(0)
df_total_col.head(1)
df_total_col.head(2)

Unnamed: 0,SEVERIDAD_POBREZA_MONETARIA_EXTREMA,BRECHA_POBREZA_MONETARIA_EXTREMA,SEVERIDAD_POBREZA_MONETARIA,BRECHA_POBREZA_MONETARIA,LINEA_POBREZA_EXTREMA,LINEA_POBREZA,PROMEDIO_INGRESO_PER_CAPITA,POBREZA_MONETARIA_EXTREMA,POBREZA_MONETARIA
0,0.3,0.8,2.9,6.9,121699,264814,583239,3.1,25.0
1,0.3,0.8,2.9,6.9,121699,264814,583239,3.1,25.0


In [712]:
frame = frame.join(df_total_col)

In [715]:
frame.head(0)
frame.head(1)
frame.head(2)

Unnamed: 0,FECHA,DEPARTAMENTO,MUNICIPIO,DIA,HORA,BARRIO,ZONA,SITIO,ARMA,MOVIL_AGRESOR,...,POBLACION,SEVERIDAD_POBREZA_MONETARIA_EXTREMA,BRECHA_POBREZA_MONETARIA_EXTREMA,SEVERIDAD_POBREZA_MONETARIA,BRECHA_POBREZA_MONETARIA,LINEA_POBREZA_EXTREMA,LINEA_POBREZA,PROMEDIO_INGRESO_PER_CAPITA,POBREZA_MONETARIA_EXTREMA,POBREZA_MONETARIA
0,ENERO,ANTIOQUIA,ENVIGADO,Viernes,MADRUGADA,MESA,URBANA,VIAS PUBLICAS,LLAVE MAESTRA,A PIE,...,6266961,0.3,0.8,2.9,6.9,121699,264814,583239,3.1,25.0
0,ENERO,ANTIOQUIA,APARTADO,Viernes,MADRUGADA,OBRERO,URBANA,VIAS PUBLICAS,LLAVE MAESTRA,A PIE,...,6266961,0.3,0.8,2.9,6.9,121699,264814,583239,3.1,25.0


In [716]:
frame.to_csv('data/pre_processed/pre_processed_compilated.csv', mode='a', header=True)