# Objetivo: Complementar el csv 'estaciones_con_ranking' con el csv 'colonias_rankeadas' para añadir a qué colonia pertenecen, así como cuál es el ranking de seguridad de esa colonia.  

Para lograr esto tendré que usar como puente la base de datos que ya tiene delitos y estaciones juntas, ya que así podemos saber en qué colonia está cada estación. 

In [1]:
#primero importamos librerías
import pandas as pd
import numpy as np

In [2]:
#veamos la base de datos: 
estaciones = pd.read_csv('estaciones_con_ranking_v2.csv')
estaciones = estaciones.drop(columns=['Unnamed: 0'])
estaciones.head()

Unnamed: 0,nombre_estacion,ranking_estacion,calificacion_seguridad
0,Plaza Aragón,1,100.0
1,Zapotitlán,1,100.0
2,La Paz,1,100.0
3,Aculco,1,100.0
4,Tecnológico,1,100.0


In [3]:
#ahora la de las colonias rankeadas. 
colonias = pd.read_csv('colonias_rankeadas.csv')
colonias = colonias.drop(columns=['Unnamed: 0'])
colonias.head()

Unnamed: 0,id_colonia,colonia_hechos,safety_degree,ranking
0,287,CAMPO DE TIRO LOS GAMITOS,100.0,1
1,1424,SECTOR MARINA,100.0,2
2,1281,SAN JUAN TEPENAHUAC,100.0,3
3,1574,VILLA DE LA NORIA,100.0,4
4,800,LOMA BONITA,100.0,5


In [4]:
#Bien, todo en orden. Ahora lo que conviene hacer es descargar el csv que ya tiene delitos y estaciones juntas 

# Paso 1: Limpiar el DataFrame que tiene delitos y estaciones juntas para acercarme a mi objetivo (encontrar a qué colonia pertenece cada estación).

Olvidé guardar este DataFrame como un csv, pero podemos ver que es fácil obtenerlo con el código del Notebook 'Análisis por estaciones'

In [5]:
delitos = pd.read_csv('delitos_limpio_v1.csv')
estaciones_por_crimen = pd.read_csv('sublime_775_000.csv')
delitos_completo = pd.concat([delitos.iloc[:775000], estaciones_por_crimen], axis=1) #junto ambas partes.
delitos_completo = delitos_completo.drop(columns=['Unnamed: 0', 'index', 'calle_hechos', 'longitud', 'latitud', 'geo_punto', 
                          'stop_lat', 'stop_lon', 'alcaldia_hechos'])
delitos_completo.head()

Unnamed: 0,año_hechos,mes_hechos,fecha_hechos,delito,categoria_delito,colonia_hechos,nombre_estacion,primera_estacion,segunda_estacion,tercera_estacion,cuarta_estacion
0,2018.0,Abril,2018-04-13 13:30:00,ROBO DE DOCUMENTOS,DELITO DE BAJO IMPACTO,POLANCO,Polanco,Metro 7,Ninguna,Ninguna,Ninguna
1,2016.0,Agosto,2016-08-05 16:30:00,ROBO A TRANSEUNTE EN VIA PUBLICA CON VIOLENCIA,ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIO...,PLAZA COAPA,Lomas Estrella,Metro 12,Ninguna,Ninguna,Ninguna
2,2015.0,Octubre,2015-10-23 12:00:00,FRAUDE,DELITO DE BAJO IMPACTO,DOCTORES,Niños Héroes_1,Metro 3,Ninguna,Ninguna,Ninguna
3,2016.0,Marzo,2016-03-28 09:00:00,VIOLENCIA FAMILIAR,DELITO DE BAJO IMPACTO,AMPLIACIÓN CARACOL,Pantitlán_1_2,Metro 1,Metro 5,Metro 9,Metro A
4,2016.0,Enero,2016-01-06 11:30:00,ROBO DE OBJETOS,DELITO DE BAJO IMPACTO,INFONAVIT IZTACALCO,Apatlaco,Metro 8,Ninguna,Ninguna,Ninguna


In [6]:
#por si las, ahora sí lo guardaré en un csv. 
delitos_con_estaciones = delitos_completo.to_csv('delitos_con_estaciones.csv')

In [7]:
#Podemos tirar más columnas. Recordemos que solo necesito saber en qué colonia está cada estación. 
delitos_completo = delitos_completo.drop(columns=['año_hechos', 'mes_hechos', 'fecha_hechos', 'delito', 'categoria_delito'])

In [8]:
delitos_completo.head()

Unnamed: 0,colonia_hechos,nombre_estacion,primera_estacion,segunda_estacion,tercera_estacion,cuarta_estacion
0,POLANCO,Polanco,Metro 7,Ninguna,Ninguna,Ninguna
1,PLAZA COAPA,Lomas Estrella,Metro 12,Ninguna,Ninguna,Ninguna
2,DOCTORES,Niños Héroes_1,Metro 3,Ninguna,Ninguna,Ninguna
3,AMPLIACIÓN CARACOL,Pantitlán_1_2,Metro 1,Metro 5,Metro 9,Metro A
4,INFONAVIT IZTACALCO,Apatlaco,Metro 8,Ninguna,Ninguna,Ninguna


In [9]:
#queremos solo una colonia por estacion
delitos_completo = delitos_completo.drop_duplicates(subset=['nombre_estacion'])
delitos_completo.shape

(190, 6)

In [10]:
#podemos ver que hay 5 estaciones donde no han habido crímenes. 

# Paso 2. Hacer un merge de mi DataFrame 'estaciones' con este subset del DataFrame de delitos+estaciones para tener no solo el ranking de la estación, sino también a qué colonia pertenecen y con qué líneas hacen correspondencia. 

In [11]:
estaciones_con_colonias = pd.merge(estaciones, delitos_completo, on='nombre_estacion')
estaciones_con_colonias.head(10)

Unnamed: 0,nombre_estacion,ranking_estacion,calificacion_seguridad,colonia_hechos,primera_estacion,segunda_estacion,tercera_estacion,cuarta_estacion
0,Zapotitlán,1,100.0,LA DRAGA,Metro 12,Ninguna,Ninguna,Ninguna
1,La Paz,1,100.0,AMPLIACIÓN SANTA CATARINA,Metro A,Ninguna,Ninguna,Ninguna
2,Aculco,1,100.0,EL SIFÓN,Metro 8,Ninguna,Ninguna,Ninguna
3,Consulado,1,100.0,MÁRTIRES DE RÍO BLANCO,Metro 4,Metro 5,Ninguna,Ninguna
4,Río de los Remedios_1,1,100.0,SAN FELIPE DE JESÚS,Metro B,Ninguna,Ninguna,Ninguna
5,Nezahualcóyotl,1,100.0,AMPLIACIÓN PROVIDENCIA,Metro B,Ninguna,Ninguna,Ninguna
6,Los Reyes,1,100.0,SAN MIGUEL TEOTONGO,Metro A,Ninguna,Ninguna,Ninguna
7,Impulsora,1,100.0,SAN FELIPE DE JESÚS,Metro B,Ninguna,Ninguna,Ninguna
8,Valle Gómez,1,100.0,VALLE GÓMEZ,Metro 5,Ninguna,Ninguna,Ninguna
9,Talismán_1_2,1,100.0,GRANJAS MODERNAS,Metro 4,Ninguna,Ninguna,Ninguna


In [12]:
#vamos a renombrar las columnas porque al rato se va a poner confuso
estaciones_con_colonias = estaciones_con_colonias.rename(columns={'calificacion_seguridad': 'calif_estacion',
                                                                 })

In [13]:
#vamos ahora a añadir la info de las colonias rankeadas. 
estaciones_con_colonias = pd.merge(estaciones_con_colonias, colonias, on='colonia_hechos')

In [14]:
#de nuevo, renombramos columnas
estaciones_con_colonias = estaciones_con_colonias.rename(columns={'safety_degree': 'calif_colonia',
                                                                  'ranking': 'ranking_colonia'
                                                                 })

In [15]:
estaciones_con_colonias = estaciones_con_colonias.drop(columns=['id_colonia'])

In [16]:
estaciones_con_colonias = estaciones_con_colonias.rename(columns={'primera_estacion': 'primera_linea',
                                                                  'segunda_estacion': 'segunda_linea',
                                                                  'tercera_estacion': 'tercera_linea',
                                                                  'cuarta_estacion': 'cuarta_linea'
                                                                 })
estaciones_con_colonias.head()

Unnamed: 0,nombre_estacion,ranking_estacion,calif_estacion,colonia_hechos,primera_linea,segunda_linea,tercera_linea,cuarta_linea,calif_colonia,ranking_colonia
0,Zapotitlán,1,100.0,LA DRAGA,Metro 12,Ninguna,Ninguna,Ninguna,96.05,276
1,La Paz,1,100.0,AMPLIACIÓN SANTA CATARINA,Metro A,Ninguna,Ninguna,Ninguna,88.02,1427
2,Aculco,1,100.0,EL SIFÓN,Metro 8,Ninguna,Ninguna,Ninguna,88.93,1351
3,Consulado,1,100.0,MÁRTIRES DE RÍO BLANCO,Metro 4,Metro 5,Ninguna,Ninguna,86.59,1502
4,Río de los Remedios_1,1,100.0,SAN FELIPE DE JESÚS,Metro B,Ninguna,Ninguna,Ninguna,82.87,1594


In [17]:
#Se ve un poco feo que la colonia esté en mayúsculas, voy a poner mejor la colonia en 'Title', y la 
#voy a mover de lugar. 
estaciones_con_colonias.colonia_hechos = estaciones_con_colonias.colonia_hechos.apply(lambda x: str(x).title())
estaciones_con_colonias.head()

Unnamed: 0,nombre_estacion,ranking_estacion,calif_estacion,colonia_hechos,primera_linea,segunda_linea,tercera_linea,cuarta_linea,calif_colonia,ranking_colonia
0,Zapotitlán,1,100.0,La Draga,Metro 12,Ninguna,Ninguna,Ninguna,96.05,276
1,La Paz,1,100.0,Ampliación Santa Catarina,Metro A,Ninguna,Ninguna,Ninguna,88.02,1427
2,Aculco,1,100.0,El Sifón,Metro 8,Ninguna,Ninguna,Ninguna,88.93,1351
3,Consulado,1,100.0,Mártires De Río Blanco,Metro 4,Metro 5,Ninguna,Ninguna,86.59,1502
4,Río de los Remedios_1,1,100.0,San Felipe De Jesús,Metro B,Ninguna,Ninguna,Ninguna,82.87,1594


In [18]:
#mucho mejor. Ahora es tiempo de reordenar las columnas
estaciones_colonias_limpio = estaciones_con_colonias[['nombre_estacion', 'primera_linea', 'segunda_linea',
                                                     'tercera_linea', 'cuarta_linea', 'calif_estacion',
                                                     'ranking_estacion', 'colonia_hechos', 'calif_colonia',
                                                     'ranking_colonia']].copy()

In [19]:
estaciones_colonias_limpio = estaciones_colonias_limpio.rename(columns={'colonia_hechos': 'colonia'})
estaciones_colonias_limpio.head()

Unnamed: 0,nombre_estacion,primera_linea,segunda_linea,tercera_linea,cuarta_linea,calif_estacion,ranking_estacion,colonia,calif_colonia,ranking_colonia
0,Zapotitlán,Metro 12,Ninguna,Ninguna,Ninguna,100.0,1,La Draga,96.05,276
1,La Paz,Metro A,Ninguna,Ninguna,Ninguna,100.0,1,Ampliación Santa Catarina,88.02,1427
2,Aculco,Metro 8,Ninguna,Ninguna,Ninguna,100.0,1,El Sifón,88.93,1351
3,Consulado,Metro 4,Metro 5,Ninguna,Ninguna,100.0,1,Mártires De Río Blanco,86.59,1502
4,Río de los Remedios_1,Metro B,Ninguna,Ninguna,Ninguna,100.0,1,San Felipe De Jesús,82.87,1594


In [20]:
len(estaciones_colonias_limpio.nombre_estacion.unique())

190

# Paso 3. Ya tenemos bastante hecho. Queda añadir nada más las coordenadas de la estación y añadir también las 5 estaciones que quedaron fuera. 


In [21]:
estaciones_coordenadas = pd.read_csv('estaciones-metro.csv', sep=";")
estaciones_coordenadas = estaciones_coordenadas.drop(columns=[
    'Geometry', 'stop_id', 'stop_code', 'stop_desc', 'trip_heads', 'agency_id',
    'Geopoint'
])
estaciones_coordenadas.head()

Unnamed: 0,stop_name,stop_lat,stop_lon
0,Colegio Militar,19.448646,-99.171224
1,Chapultepec,19.420256,-99.176588
2,Apatlaco,19.378298,-99.10934
3,Calle 11,19.320256,-99.084867
4,Oceanía,19.445429,-99.086906


In [22]:
estaciones_coordenadas = estaciones_coordenadas.rename(columns={'stop_name': 'nombre_estacion'})

In [23]:
estaciones_colonias_limpio = pd.merge(estaciones_colonias_limpio, estaciones_coordenadas, on='nombre_estacion')
estaciones_colonias_limpio.head()

Unnamed: 0,nombre_estacion,primera_linea,segunda_linea,tercera_linea,cuarta_linea,calif_estacion,ranking_estacion,colonia,calif_colonia,ranking_colonia,stop_lat,stop_lon
0,Zapotitlán,Metro 12,Ninguna,Ninguna,Ninguna,100.0,1,La Draga,96.05,276,19.29639,-99.034023
1,La Paz,Metro A,Ninguna,Ninguna,Ninguna,100.0,1,Ampliación Santa Catarina,88.02,1427,19.350485,-98.960617
2,Aculco,Metro 8,Ninguna,Ninguna,Ninguna,100.0,1,El Sifón,88.93,1351,19.372926,-99.107398
3,Consulado,Metro 4,Metro 5,Ninguna,Ninguna,100.0,1,Mártires De Río Blanco,86.59,1502,19.45682,-99.113889
4,Río de los Remedios_1,Metro B,Ninguna,Ninguna,Ninguna,100.0,1,San Felipe De Jesús,82.87,1594,19.490241,-99.046351


In [24]:
#Podemos ver que va bien!
estaciones_colonias_limpio[estaciones_colonias_limpio.nombre_estacion=='Polanco']

Unnamed: 0,nombre_estacion,primera_linea,segunda_linea,tercera_linea,cuarta_linea,calif_estacion,ranking_estacion,colonia,calif_colonia,ranking_colonia,stop_lat,stop_lon
176,Polanco,Metro 7,Ninguna,Ninguna,Ninguna,87.81,150,Polanco,80.12,1603,19.43338,-99.190793


In [25]:
estaciones_colonias_limpio.head()

Unnamed: 0,nombre_estacion,primera_linea,segunda_linea,tercera_linea,cuarta_linea,calif_estacion,ranking_estacion,colonia,calif_colonia,ranking_colonia,stop_lat,stop_lon
0,Zapotitlán,Metro 12,Ninguna,Ninguna,Ninguna,100.0,1,La Draga,96.05,276,19.29639,-99.034023
1,La Paz,Metro A,Ninguna,Ninguna,Ninguna,100.0,1,Ampliación Santa Catarina,88.02,1427,19.350485,-98.960617
2,Aculco,Metro 8,Ninguna,Ninguna,Ninguna,100.0,1,El Sifón,88.93,1351,19.372926,-99.107398
3,Consulado,Metro 4,Metro 5,Ninguna,Ninguna,100.0,1,Mártires De Río Blanco,86.59,1502,19.45682,-99.113889
4,Río de los Remedios_1,Metro B,Ninguna,Ninguna,Ninguna,100.0,1,San Felipe De Jesús,82.87,1594,19.490241,-99.046351


## Descubramos cuáles son las 5 estaciones que quedaron fuera del juego.

In [26]:
estaciones_full = pd.read_csv('estaciones_limpias_v1.csv')

In [27]:
lista_completa = list(estaciones.nombre_estacion.unique())
len(lista_completa)

195

In [28]:
lista_parcial = list(estaciones_colonias_limpio.nombre_estacion.unique())
len(lista_parcial)

190

In [29]:
estaciones_restantes = [e for e in lista_completa if e not in lista_parcial]
estaciones_restantes

['Plaza Aragón', 'Tecnológico', 'Olímpica', 'Múzquiz', 'Ciudad Azteca']

In [30]:
estaciones_restantes_df = estaciones_full[(estaciones_full.nombre_estacion == 'Plaza Aragón') |
                                                 (estaciones_full.nombre_estacion == 'Tecnológico') |
                                                 (estaciones_full.nombre_estacion == 'Olímpica')|
                                                 (estaciones_full.nombre_estacion == 'Múzquiz')|
                                                 (estaciones_full.nombre_estacion == 'Ciudad Azteca')
                                                ]
                                                  
estaciones_restantes_df.head()

Unnamed: 0.1,Unnamed: 0,nombre_estacion,stop_lat,stop_lon,primera_estacion,segunda_estacion,tercera_estacion,cuarta_estacion
83,83,Múzquiz,19.500961,-99.041716,Metro B,Ninguna,Ninguna,Ninguna
99,99,Olímpica,19.520843,-99.032983,Metro B,Ninguna,Ninguna,Ninguna
139,139,Tecnológico,19.514705,-99.035686,Metro B,Ninguna,Ninguna,Ninguna
174,174,Ciudad Azteca,19.534443,-99.027114,Metro B,Ninguna,Ninguna,Ninguna
185,185,Plaza Aragón,19.528225,-99.029796,Metro B,Ninguna,Ninguna,Ninguna


In [31]:
#Listo, esas son las 5 que faltan. Solo queda añadirles el resto de columnas. 
estaciones_restantes_df.drop(columns=['Unnamed: 0'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  errors=errors,


In [32]:
estaciones_restantes_df.head()

Unnamed: 0,nombre_estacion,stop_lat,stop_lon,primera_estacion,segunda_estacion,tercera_estacion,cuarta_estacion
83,Múzquiz,19.500961,-99.041716,Metro B,Ninguna,Ninguna,Ninguna
99,Olímpica,19.520843,-99.032983,Metro B,Ninguna,Ninguna,Ninguna
139,Tecnológico,19.514705,-99.035686,Metro B,Ninguna,Ninguna,Ninguna
174,Ciudad Azteca,19.534443,-99.027114,Metro B,Ninguna,Ninguna,Ninguna
185,Plaza Aragón,19.528225,-99.029796,Metro B,Ninguna,Ninguna,Ninguna


In [33]:
estaciones_restantes_df = estaciones_restantes_df.rename(columns={'primera_estacion': 'primera_linea',
                                                                 'segunda_estacion': 'segunda_linea',
                                                                  'tercera_estacion': 'tercera_linea',
                                                                  'cuarta_estacion': 'cuarta_linea'
                                                                 })

In [34]:
estaciones_restantes_df['calif_estacion'] = [100.0, 100.0, 100.0, 100.0, 100.0]
estaciones_restantes_df['ranking_estacion'] = [1, 1, 1, 1, 1]
estaciones_restantes_df['colonia'] = ['No Disponible', 'No Disponible', 'No Disponible', 'No Disponible',
                                     'No Disponible']
estaciones_restantes_df['calif_colonia'] = ['No Disponible', 'No Disponible', 'No Disponible', 'No Disponible',
                                     'No Disponible']

estaciones_restantes_df['ranking_colonia'] = ['No Disponible', 'No Disponible', 'No Disponible', 'No Disponible',
                                     'No Disponible']
estaciones_restantes_df = estaciones_restantes_df[['nombre_estacion', 'primera_linea', 'segunda_linea',
                                                  'tercera_linea', 'cuarta_linea', 'calif_estacion',
                                                  'ranking_estacion', 'colonia', 'calif_colonia', 
                                                   'ranking_colonia', 'stop_lat', 'stop_lon']]

In [35]:
estaciones_restantes_df.head()

Unnamed: 0,nombre_estacion,primera_linea,segunda_linea,tercera_linea,cuarta_linea,calif_estacion,ranking_estacion,colonia,calif_colonia,ranking_colonia,stop_lat,stop_lon
83,Múzquiz,Metro B,Ninguna,Ninguna,Ninguna,100.0,1,No Disponible,No Disponible,No Disponible,19.500961,-99.041716
99,Olímpica,Metro B,Ninguna,Ninguna,Ninguna,100.0,1,No Disponible,No Disponible,No Disponible,19.520843,-99.032983
139,Tecnológico,Metro B,Ninguna,Ninguna,Ninguna,100.0,1,No Disponible,No Disponible,No Disponible,19.514705,-99.035686
174,Ciudad Azteca,Metro B,Ninguna,Ninguna,Ninguna,100.0,1,No Disponible,No Disponible,No Disponible,19.534443,-99.027114
185,Plaza Aragón,Metro B,Ninguna,Ninguna,Ninguna,100.0,1,No Disponible,No Disponible,No Disponible,19.528225,-99.029796


In [36]:
#Ahora sí, tiempo de concatenar data frames. 

estaciones_colonias_limpio = pd.concat([estaciones_colonias_limpio, estaciones_restantes_df])

In [37]:
#Chequemos si todo bien
len(estaciones_colonias_limpio.nombre_estacion.unique())

195

In [38]:
estaciones_colonias_limpio = estaciones_colonias_limpio.sort_values(by=['ranking_estacion']).reset_index()

In [39]:
estaciones_colonias_limpio = estaciones_colonias_limpio.drop(columns=['index'])
estaciones_colonias_limpio.head() #las más seguras 

Unnamed: 0,nombre_estacion,primera_linea,segunda_linea,tercera_linea,cuarta_linea,calif_estacion,ranking_estacion,colonia,calif_colonia,ranking_colonia,stop_lat,stop_lon
0,Zapotitlán,Metro 12,Ninguna,Ninguna,Ninguna,100.0,1,La Draga,96.05,276,19.29639,-99.034023
1,Tecnológico,Metro B,Ninguna,Ninguna,Ninguna,100.0,1,No Disponible,No Disponible,No Disponible,19.514705,-99.035686
2,Olímpica,Metro B,Ninguna,Ninguna,Ninguna,100.0,1,No Disponible,No Disponible,No Disponible,19.520843,-99.032983
3,Múzquiz,Metro B,Ninguna,Ninguna,Ninguna,100.0,1,No Disponible,No Disponible,No Disponible,19.500961,-99.041716
4,Ciudad Azteca,Metro B,Ninguna,Ninguna,Ninguna,100.0,1,No Disponible,No Disponible,No Disponible,19.534443,-99.027114


In [40]:
estaciones_colonias_limpio.tail() #las más peligrosas 

Unnamed: 0,nombre_estacion,primera_linea,segunda_linea,tercera_linea,cuarta_linea,calif_estacion,ranking_estacion,colonia,calif_colonia,ranking_colonia,stop_lat,stop_lon
190,Bellas Artes_1_2,Metro 2,Metro 8,Ninguna,Ninguna,45.98,177,Centro,25.73,1627,19.43596,-99.141558
191,Pantitlán_1_3,Metro 9,Metro 1,Metro 5,Metro A,44.32,178,Agrícola Pantitlan,79.29,1610,19.414885,-99.072516
192,Zócalo,Metro 2,Ninguna,Ninguna,Ninguna,29.64,179,Centro,25.73,1627,19.432602,-99.131879
193,Pino Suárez_1_2,Metro 1,Metro 2,Ninguna,Ninguna,4.71,180,Centro,25.73,1627,19.425953,-99.132686
194,Hidalgo_1_2,Metro 2,Metro 3,Ninguna,Ninguna,0.0,181,Guerrero,77.67,1612,19.4377,-99.147309


In [41]:
estaciones_colonias_limpio.dtypes

nombre_estacion      object
primera_linea        object
segunda_linea        object
tercera_linea        object
cuarta_linea         object
calif_estacion      float64
ranking_estacion      int64
colonia              object
calif_colonia        object
ranking_colonia      object
stop_lat            float64
stop_lon            float64
dtype: object

# Hemos concluido esta parte del ejercicio. Solo queda subir esta base a MongoAtlas, guardar el csv y proceder con el análisis en otro Notebook.

In [42]:
df_limpio = estaciones_colonias_limpio.to_csv('estaciones_con_colonias_CORRECTO.csv')