# Objetivo: Analizar la afluencia promedio de cada estación para poder darle aún más información al usuario. 

In [1]:
import pandas as pd
import numpy as np
import re

In [2]:
afluencia = pd.read_csv('afluencia-diaria-del-metro-cdmx.csv')
afluencia.head()

Unnamed: 0,Fecha,Dia,Mes,Año,Linea,Estacion,Afluencia
0,2013-08-26,26,agosto,2013,Linea 4,Santa Anita,2449.0
1,2013-08-26,26,agosto,2013,Linea 4,Jamaica,7626.0
2,2013-08-26,26,agosto,2013,Linea 4,Fray Servando,7194.0
3,2013-08-26,26,agosto,2013,Linea 4,Candelaria,6441.0
4,2013-08-26,26,agosto,2013,Linea 4,Canal del Norte,9088.0


In [3]:
list_afluencia = list(afluencia.Estacion.unique())

In [4]:
list_afluencia[:5] #ver cómo se imprime la de "Canal del Norte"

['Santa Anita', 'Jamaica', 'Fray Servando', 'Candelaria', 'Canal del Norte']

In [5]:
#Los nombres son distintos para muchos estaciones. podemos verlo con la otra base de datos.
estaciones = pd.read_csv('estaciones_con_colonias_CORRECTO.csv')
list_total = list(estaciones.nombre_estacion.unique())

In [6]:
interseccion = [e for e in list_total if e in list_afluencia]
len(interseccion)

106

In [7]:
not_there = [e for e in list_total if e not in list_afluencia]
not_there[:5]
#ver cómo se imprime la de 'Canal del Norte_1'

['Talismán_1_2',
 'Río de los Remedios_1',
 'Bondojito_1',
 'Tezozómoc',
 'Canal del Norte_1']

## Hay un patrón. 106 de las 195 estaciones coinciden perfectamente en el nombre con la base de datos de la afluencia, pero para las 89 estaciones restantes seguramente necesito quitar los números y los guiones bajos. 

    De todas maneras, es un hecho que hay menos registros en la base de datos de la afluencia. El mecanismo es el siguiente: seguramente en la lista de afluencia cuentan cosas como 'pantitlan_1', 'pantitlan_1_2' y 'pantitlan_1_5' solo como 'pantitlan', por lo que hay menos estaciones en general. 

In [8]:
#Antes de solucionar eso, primero lo primero. Agrupemos la estaciones por promedio de afluencia.

avg_afluencia = afluencia.groupby('Estacion', as_index=False).mean()
avg_afluencia = avg_afluencia.drop(columns=['Dia', 'Año'])
avg_afluencia = avg_afluencia.sort_values(by=['Afluencia'], ascending=False)
avg_afluencia.head()

#prestar atención al valor de Cuatro Caminos; después lo usaré como comprobación

Unnamed: 0,Estacion,Afluencia
39,Cuatro Caminos,115794.732591
65,Indios Verdes,115176.054581
33,Constitución de 1917,87142.289891
139,Tasqueña,86318.47452
106,Pantitlán,76179.70983


El primer paso para solucionar mi problema es crear una nueva columna en mi base de datos con las 195 estaciones en donde le quite a los nombres los guiones bajos y los números. 

In [9]:
def quitar_signos(x):
    """Esta función me ayudará a quitar los guiones bajos y los números de las estaciones. """
    x = str(x)
    if "_" in x:
        x = x.replace("_", "")
        x = re.sub(r'\d', "", x)
    return x

In [10]:
estaciones['Estacion'] = estaciones.nombre_estacion.apply(quitar_signos)
len(estaciones.Estacion.unique())
#no está mal, tengo 164 vs. 160 en la otra base. Vamos a unirlas. 

164

In [11]:
res = {}
lst_final = list(estaciones.Estacion.unique())
for e in lst_final:
    if e in list_afluencia:
        res[e] = avg_afluencia.Afluencia[avg_afluencia.Estacion==e].values[0]
    elif e not in list_afluencia:
        res[e] = 'No Disponible'


In [12]:
res #va bien.

{'Zapotitlán': 6293.883319409635,
 'Tecnológico': 28577.38485101643,
 'Olímpica': 18907.3029796714,
 'Múzquiz': 33639.77582846004,
 'Ciudad Azteca': 60232.78724589251,
 'Talismán': 6053.748816485659,
 'Valle Gómez': 4466.53522695628,
 'Plaza Aragón': 21277.271233639654,
 'Nezahualcóyotl': 24313.73767752715,
 'Impulsora': 26640.53439153439,
 'La Paz': 33650.321915900866,
 'Aculco': 9976.583124477862,
 'Consulado': 4804.211222500696,
 'Los Reyes': 18827.677527151212,
 'Río de los Remedios': 21593.766360345307,
 'Tlaltenco': 1400.7117794486217,
 'Bondojito': 6645.302144249513,
 'Tezozómoc': 'No Disponible',
 'Obrera': 13757.268448900028,
 'Canal del Norte': 8943.5104427736,
 'Santa Anita': 5043.117655249234,
 'Azcapotzalco': 8074.150375939849,
 'Autobuses del Norte': 23681.581453634084,
 'El Rosario': 27207.85923141186,
 'Jamaica': 9789.89209133946,
 'Juanacatlán': 12857.875800612643,
 'Escuadrón 201': 23929.658312447787,
 'Vallejo': 7008.799498746867,
 'Misterios': 8515.341687552214,
 'P

In [13]:
estaciones['Afluencia'] = estaciones.Estacion.map(res)
estaciones[estaciones.nombre_estacion == 'Cuatro Caminos']
#ver el valor de Afluencia en cuatro caminos. Sí funcionó esto. 

Unnamed: 0.1,Unnamed: 0,nombre_estacion,primera_linea,segunda_linea,tercera_linea,cuarta_linea,calif_estacion,ranking_estacion,colonia,calif_colonia,ranking_colonia,stop_lat,stop_lon,Estacion,Afluencia
30,30,Cuatro Caminos,Metro 2,Ninguna,Ninguna,Ninguna,99.17,17,San Joaquín,92.3,880,19.458454,-99.214643,Cuatro Caminos,115795


In [14]:
estaciones = estaciones.drop(columns=['Estacion', 'Unnamed: 0'])
estaciones = estaciones.rename(columns={'Afluencia': 'afluencia_promedio'})

# Listo. Ya tenemos el nivel de afluencia promedio para prácticamente todas las estaciones, ¿luego qué sigue? 

    Tenemos dos opciones. La primera es dejar el número así tal cual y dejar que el usuario interprete el dato así como venga, y la otra es hacer binning. Podemos etiquetar a las estaciones como 'Muy Concurridas', 'Más o menos concurridas', etc. Notar que Google siempre le ganará a nuestro análisis porque toma la información en vivo, mientras que nosotros solo nos basamos en el promedio histórico. 

In [15]:
estaciones.afluencia_promedio.describe()

count               195
unique              150
top       No Disponible
freq                 16
Name: afluencia_promedio, dtype: object

Decidimos dejar el número tal cual porque para el usuario eso le da una mayor impresión acerca de nuestro sistema. Se ve mucho más preciso (y lo es) dar un número distinto para cada estación que simplemente mencionar una de varias categorías preseleccionadas.

In [16]:
estaciones.afluencia_promedio = estaciones.afluencia_promedio.apply(lambda x: round(int(x), 0)  if x != "No Disponible" else x)

In [24]:
estaciones.tail(10)

Unnamed: 0,nombre_estacion,primera_linea,segunda_linea,tercera_linea,cuarta_linea,calif_estacion,ranking_estacion,colonia,calif_colonia,ranking_colonia,stop_lat,stop_lon,afluencia_promedio
185,Balderas_1,Metro 3,Metro 1,Ninguna,Ninguna,69.81,172,Doctores,57.0,1626,19.426924,-99.148811,14951
186,Pino Suárez_1,Metro 2,Metro 1,Ninguna,Ninguna,61.77,173,Centro,25.73,1627,19.425437,-99.13304,28565
187,Hidalgo_1_3,Metro 3,Metro 2,Ninguna,Ninguna,61.5,174,Centro,25.73,1627,19.436749,-99.146816,25881
188,Balderas_1_2,Metro 1,Metro 3,Ninguna,Ninguna,60.39,175,Centro,25.73,1627,19.427299,-99.149122,14951
189,Chabacano_1_2,Metro 2,Metro 8,Metro 9,Ninguna,54.02,176,Vista Alegre,90.09,1208,19.408913,-99.135422,14537
190,Bellas Artes_1_2,Metro 2,Metro 8,Ninguna,Ninguna,45.98,177,Centro,25.73,1627,19.43596,-99.141558,25048
191,Pantitlán_1_3,Metro 9,Metro 1,Metro 5,Metro A,44.32,178,Agrícola Pantitlan,79.29,1610,19.414885,-99.072516,76179
192,Zócalo,Metro 2,Ninguna,Ninguna,Ninguna,29.64,179,Centro,25.73,1627,19.432602,-99.131879,69174
193,Pino Suárez_1_2,Metro 1,Metro 2,Ninguna,Ninguna,4.71,180,Centro,25.73,1627,19.425953,-99.132686,28565
194,Hidalgo_1_2,Metro 2,Metro 3,Ninguna,Ninguna,0.0,181,Guerrero,77.67,1612,19.4377,-99.147309,25881


In [18]:
#podemos ya guardar el archivo! 
estaciones_con_afluencia = estaciones.to_csv('estaciones_afluencia_11_12.csv')