# Analizando qué tan segura es cada estación. 

El propósito de este notebook es juntar la base de datos de los delitos con la base de datos que calculé (el csv es sublime_775_000.csv), en donde se muestra cuál es la estación más cercana para cada delito. A partir de ahí, la idea es analizar solo los delitos que entran en la categoría de "Asalto en Metro". Una vez que hice eso, 
puedo empezar a rankear las estaciones según qué tan seguras son y empezar a trabajar en eso. Todo lo iré detallando conforme avanzo. 

In [1]:
import pandas as pd 
import pymongo
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

In [4]:
estaciones_por_crimen = pd.read_csv('sublime_775_000.csv')

In [5]:
delitos = pd.read_csv('delitos_limpio_v1.csv')

In [6]:
data = pd.concat([delitos.iloc[:775000], estaciones_por_crimen], axis=1) #junto ambas partes.
data = data.drop(columns=['Unnamed: 0', 'index', 'calle_hechos', 'longitud', 'latitud', 'geo_punto', 
                          'stop_lat', 'stop_lon', 'alcaldia_hechos'])
data.head(10) 

Unnamed: 0,año_hechos,mes_hechos,fecha_hechos,delito,categoria_delito,colonia_hechos,nombre_estacion,primera_estacion,segunda_estacion,tercera_estacion,cuarta_estacion
0,2018.0,Abril,2018-04-13 13:30:00,ROBO DE DOCUMENTOS,DELITO DE BAJO IMPACTO,POLANCO,Polanco,Metro 7,Ninguna,Ninguna,Ninguna
1,2016.0,Agosto,2016-08-05 16:30:00,ROBO A TRANSEUNTE EN VIA PUBLICA CON VIOLENCIA,ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIO...,PLAZA COAPA,Lomas Estrella,Metro 12,Ninguna,Ninguna,Ninguna
2,2015.0,Octubre,2015-10-23 12:00:00,FRAUDE,DELITO DE BAJO IMPACTO,DOCTORES,Niños Héroes_1,Metro 3,Ninguna,Ninguna,Ninguna
3,2016.0,Marzo,2016-03-28 09:00:00,VIOLENCIA FAMILIAR,DELITO DE BAJO IMPACTO,AMPLIACIÓN CARACOL,Pantitlán_1_2,Metro 1,Metro 5,Metro 9,Metro A
4,2016.0,Enero,2016-01-06 11:30:00,ROBO DE OBJETOS,DELITO DE BAJO IMPACTO,INFONAVIT IZTACALCO,Apatlaco,Metro 8,Ninguna,Ninguna,Ninguna
5,2016.0,Enero,2016-01-04 23:00:00,ROBO A PASAJERO A BORDO DE TAXI CON VIOLENCIA,ROBO A PASAJERO A BORDO DE TAXI CON VIOLENCIA,JARDINES DEL PEDREGAL DE SAN ÁNGEL,Universidad,Metro 3,Ninguna,Ninguna,Ninguna
6,2016.0,Enero,2016-01-05 15:20:00,ROBO A TRANSEUNTE EN VIA PUBLICA CON VIOLENCIA,ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIO...,ROMA NORTE,Centro Médico_1,Metro 3,Metro 9,Ninguna,Ninguna
7,2016.0,Enero,2016-01-05 10:00:00,PRIVACION DE LA LIBERTAD PERSONAL,DELITO DE BAJO IMPACTO,IZTLAHUACÁN,Santa Marta,Metro A,Ninguna,Ninguna,Ninguna
8,2016.0,Enero,2016-01-03 13:00:00,ROBO A TRANSEUNTE DE CELULAR CON VIOLENCIA,DELITO DE BAJO IMPACTO,JUAN ESCUTIA,Tepalcates_1,Metro A,Ninguna,Ninguna,Ninguna
9,2016.0,Enero,2016-01-05 16:15:00,ROBO DE OBJETOS DEL INTERIOR DE UN VEHICULO,DELITO DE BAJO IMPACTO,LOS ÁNGELES (VILLA MILPA ALTA),Tláhuac,Metro 12,Ninguna,Ninguna,Ninguna


Notar que tenemos ya cada delito con su estación más cercana y a qué líneas pertenece esa estación. 

# Paso 1. Elegir solo los delitos que hayan sido en el metro. 

In [7]:
data.categoria_delito.unique()

#Nos interesa, para fines de este ejercicio, una sola categoría: "Robo a pasajero a bordo del metro con y
#sin violencia". Para ver un análisis con todas las categorías y cómo las clasifiqué más ordenadamente, ver 
#el jupyter notebook titulado 'Análisis por Colonias', en donde tuve que realizar operaciones muy distintas. 

array(['DELITO DE BAJO IMPACTO',
       'ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIOLENCIA',
       'ROBO A PASAJERO A BORDO DE TAXI CON VIOLENCIA',
       'HECHO NO DELICTIVO',
       'ROBO A PASAJERO A BORDO DEL METRO CON Y SIN VIOLENCIA',
       'ROBO A REPARTIDOR CON Y SIN VIOLENCIA',
       'ROBO DE VEHÍCULO CON Y SIN VIOLENCIA',
       'ROBO A NEGOCIO CON VIOLENCIA', 'HOMICIDIO DOLOSO', 'VIOLACIÓN',
       'ROBO A CASA HABITACIÓN CON VIOLENCIA',
       'ROBO A PASAJERO A BORDO DE MICROBUS CON Y SIN VIOLENCIA',
       'LESIONES DOLOSAS POR DISPARO DE ARMA DE FUEGO',
       'ROBO A TRANSPORTISTA CON Y SIN VIOLENCIA',
       'ROBO A CUENTAHABIENTE SALIENDO DEL CAJERO CON VIOLENCIA',
       'SECUESTRO'], dtype=object)

In [8]:
data = data[data.categoria_delito == "ROBO A PASAJERO A BORDO DEL METRO CON Y SIN VIOLENCIA"]

In [9]:
data.shape #nos quedamos con 5406 datos, menos del 1% de los datos totales, pero vale para lo que queremos

(5406, 11)

In [10]:
#podemos tirar la columna de delito y la del año, ya que no son relevantes para lo que queremos. 
data = data.drop(columns=['año_hechos'])

In [11]:
data.nombre_estacion.value_counts() #algo así ya nos da una idea de cuáles son las más peligrosas, pero
#hagámoslo más ordenado.

Hidalgo_1_2         361
Pino Suárez_1_2     344
Zócalo              254
Pantitlán_1_3       201
Bellas Artes_1_2    195
                   ... 
El Rosario_1          2
Santa Anita           2
Tezozómoc             1
Bondojito_1           1
Tlaltenco             1
Name: nombre_estacion, Length: 180, dtype: int64

# Paso 2. Ordenar las estaciones según qué tantos ataques haya habido y después darles un ranking.

In [12]:
data.delito = data.delito.apply(lambda x: 1 if x== "ROBO A PASAJERO A BORDO DE METRO SIN VIOLENCIA" else 2)

In [13]:
data_rank = data.groupby('nombre_estacion', as_index=False).agg('count')
data_rank = data_rank.rename(columns={'delito': 'numero_asaltos'})

In [14]:
data_rank = data_rank[['nombre_estacion', 'numero_asaltos']]

In [15]:
data_rank = data_rank.sort_values(by=['numero_asaltos']).reset_index()
data_rank = data_rank.drop(columns=['index'])
data_rank.head()

Unnamed: 0,nombre_estacion,numero_asaltos
0,Tlaltenco,1
1,Tezozómoc,1
2,Bondojito_1,1
3,Escuadrón 201,2
4,Juanacatlán,2


In [16]:
#ahora añadamos la columna del ranking. 
data_rank['ranking_estacion'] = [i for i in range(1, 181)]

In [17]:
data_rank.tail(10) #estas son las más peligrosas. #notar que hay 15 estaciones que no aparecen. 
#Nuestra base de datos original era de 195 estaciones y aquí hay 180. Eso es porque las otras 15 no tienen asaltos.


Unnamed: 0,nombre_estacion,numero_asaltos,ranking_estacion
170,Balderas_1,109,171
171,Pino Suárez_1,138,172
172,Hidalgo_1_3,139,173
173,Balderas_1_2,143,174
174,Chabacano_1_2,166,175
175,Bellas Artes_1_2,195,176
176,Pantitlán_1_3,201,177
177,Zócalo,254,178
178,Pino Suárez_1_2,344,179
179,Hidalgo_1_2,361,180


In [18]:
#Antes de proseguir con lo que quiero hacer, me gustaría agregar las otras 15 estaciones para tener todo un poco 
#más limpio y que en Mongo todas tengan el score y su ranking. 
estaciones_original = pd.read_csv('estaciones_limpias_v1.csv')

In [19]:
#Primero: veamos la lista original de todas las estaciones
estaciones_195 = list(estaciones_original.nombre_estacion.unique())
estaciones_195[:10]

['Colegio Militar',
 'Chapultepec',
 'Apatlaco',
 'Calle 11',
 'Oceanía',
 'Mixcoac',
 'Puebla',
 'La Raza_1_3',
 'Jamaica',
 'Cuauhtémoc_1_2']

In [20]:
print(len(estaciones_195)) 

195


In [21]:
#ahora consideremos las 180 que tenemos más arriba:
estaciones_180 = list(data_rank.nombre_estacion.unique())
estaciones_180[:10]

['Tlaltenco',
 'Tezozómoc',
 'Bondojito_1',
 'Escuadrón 201',
 'Juanacatlán',
 'Jamaica_1',
 'El Rosario_1',
 'Autobuses del Norte',
 'Azcapotzalco_1',
 'Santa Anita']

In [22]:
#calculemos la diferencia: 
estaciones_15 = [e for e in estaciones_195 if e not in estaciones_180]
len(estaciones_15)

15

In [23]:
estaciones_15[:] #necesito ver cuáles son para ver si salió bien lo próximo que haré. 

['Talismán_1_2',
 'Valle Gómez',
 'Impulsora',
 'Los Reyes',
 'Nezahualcóyotl',
 'Múzquiz',
 'Río de los Remedios_1',
 'Olímpica',
 'Consulado',
 'Tecnológico',
 'Aculco',
 'La Paz',
 'Zapotitlán',
 'Ciudad Azteca',
 'Plaza Aragón']

In [24]:
#convirtámoslo en un DataFrame para poder hacer operaciones
estaciones_faltantes = pd.DataFrame({'nombre_estacion': estaciones_15})
data_rank = pd.concat([data_rank, estaciones_faltantes])


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  This is separate from the ipykernel package so we can avoid doing imports until


In [25]:
data_rank = data_rank.fillna({'numero_asaltos': 0})
data_rank = data_rank.sort_values(by=['numero_asaltos'])
data_rank['ranking_estacion'] = [i for i in range(1,196)]
data_rank.head(20) #deberíamos ver las primeras 15 que imprimí más arriba
#en efecto quedó bien. 
#Ahora sí podemos proceder a calcular el score. 

Unnamed: 0,nombre_estacion,numero_asaltos,ranking_estacion
14,Plaza Aragón,0.0,1
12,Zapotitlán,0.0,2
11,La Paz,0.0,3
10,Aculco,0.0,4
9,Tecnológico,0.0,5
8,Consulado,0.0,6
7,Olímpica,0.0,7
6,Río de los Remedios_1,0.0,8
5,Múzquiz,0.0,9
4,Nezahualcóyotl,0.0,10


In [26]:
#Para el usuario no sería tan agradable ver el número de asaltos como tal, es mejor un score entre 1-100
# que indique el nivel de seguridad de la estación. 
from sklearn.preprocessing import MinMaxScaler
data_rank['score'] = MinMaxScaler().fit_transform(np.array(data_rank.numero_asaltos).reshape(-1,1))


In [27]:
data_rank.tail(10) #las más peligrosas obviamente están con el score más alto por cómo está 
#construida la función

Unnamed: 0,nombre_estacion,numero_asaltos,ranking_estacion,score
170,Balderas_1,109.0,186,0.301939
171,Pino Suárez_1,138.0,187,0.382271
172,Hidalgo_1_3,139.0,188,0.385042
173,Balderas_1_2,143.0,189,0.396122
174,Chabacano_1_2,166.0,190,0.459834
175,Bellas Artes_1_2,195.0,191,0.540166
176,Pantitlán_1_3,201.0,192,0.556787
177,Zócalo,254.0,193,0.703601
178,Pino Suárez_1_2,344.0,194,0.952909
179,Hidalgo_1_2,361.0,195,1.0


In [28]:
data_rank['calificacion_seguridad'] = data_rank.score.apply(lambda x: round((1-x)*100,2))
data_rank.head(10)

Unnamed: 0,nombre_estacion,numero_asaltos,ranking_estacion,score,calificacion_seguridad
14,Plaza Aragón,0.0,1,0.0,100.0
12,Zapotitlán,0.0,2,0.0,100.0
11,La Paz,0.0,3,0.0,100.0
10,Aculco,0.0,4,0.0,100.0
9,Tecnológico,0.0,5,0.0,100.0
8,Consulado,0.0,6,0.0,100.0
7,Olímpica,0.0,7,0.0,100.0
6,Río de los Remedios_1,0.0,8,0.0,100.0
5,Múzquiz,0.0,9,0.0,100.0
4,Nezahualcóyotl,0.0,10,0.0,100.0


In [29]:
data_rank.tail(10)

Unnamed: 0,nombre_estacion,numero_asaltos,ranking_estacion,score,calificacion_seguridad
170,Balderas_1,109.0,186,0.301939,69.81
171,Pino Suárez_1,138.0,187,0.382271,61.77
172,Hidalgo_1_3,139.0,188,0.385042,61.5
173,Balderas_1_2,143.0,189,0.396122,60.39
174,Chabacano_1_2,166.0,190,0.459834,54.02
175,Bellas Artes_1_2,195.0,191,0.540166,45.98
176,Pantitlán_1_3,201.0,192,0.556787,44.32
177,Zócalo,254.0,193,0.703601,29.64
178,Pino Suárez_1_2,344.0,194,0.952909,4.71
179,Hidalgo_1_2,361.0,195,1.0,0.0


In [30]:
#Finalmente, toca guardar este data frame en un csv una vez que le quité las columnas que no me interesan. 
#las que tienen 0 asaltos deberían estar empatas con ranking de 1 :

data_rank['ranking_estacion'] = np.where(data_rank.numero_asaltos==0, 1, data_rank.ranking_estacion)
data_rank['ranking_estacion'] = data_rank.ranking_estacion.apply(lambda x: x-14 if x>10 else x)
data_rank.head(20)

Unnamed: 0,nombre_estacion,numero_asaltos,ranking_estacion,score,calificacion_seguridad
14,Plaza Aragón,0.0,1,0.0,100.0
12,Zapotitlán,0.0,1,0.0,100.0
11,La Paz,0.0,1,0.0,100.0
10,Aculco,0.0,1,0.0,100.0
9,Tecnológico,0.0,1,0.0,100.0
8,Consulado,0.0,1,0.0,100.0
7,Olímpica,0.0,1,0.0,100.0
6,Río de los Remedios_1,0.0,1,0.0,100.0
5,Múzquiz,0.0,1,0.0,100.0
4,Nezahualcóyotl,0.0,1,0.0,100.0


In [31]:
#listo. Ahora podemos quitar las columnas que no necesitamos. 

data_final = data_rank.drop(columns=['numero_asaltos', 'score'])
data_final.head()

Unnamed: 0,nombre_estacion,ranking_estacion,calificacion_seguridad
14,Plaza Aragón,1,100.0
12,Zapotitlán,1,100.0
11,La Paz,1,100.0
10,Aculco,1,100.0
9,Tecnológico,1,100.0


In [32]:
data_final = data_final.reset_index()
data_final.head()

Unnamed: 0,index,nombre_estacion,ranking_estacion,calificacion_seguridad
0,14,Plaza Aragón,1,100.0
1,12,Zapotitlán,1,100.0
2,11,La Paz,1,100.0
3,10,Aculco,1,100.0
4,9,Tecnológico,1,100.0


In [33]:
data_final = data_final.drop(columns=['index'])
data_final.head()

Unnamed: 0,nombre_estacion,ranking_estacion,calificacion_seguridad
0,Plaza Aragón,1,100.0
1,Zapotitlán,1,100.0
2,La Paz,1,100.0
3,Aculco,1,100.0
4,Tecnológico,1,100.0


In [34]:
#ahora sí lo podemos guardar. 

estaciones_rankeadas = data_final.to_csv('estaciones_con_ranking_v2.csv')

In [35]:
data_final.tail(20) #dangerous

Unnamed: 0,nombre_estacion,ranking_estacion,calificacion_seguridad
175,San Lázaro_1_5,162,80.61
176,Guerrero_1_3,163,79.22
177,Zapata,164,79.22
178,Mixcoac_1,165,78.39
179,Merced,166,78.12
180,Revolución_1,167,77.01
181,Tacubaya_1_3,168,75.9
182,Tacubaya_1_2,169,75.9
183,Tacuba_1,170,74.79
184,Centro Médico_1_2,171,72.02
