# Matriz Origen Destino

En el notebook anterior calculamos las trayectorias de los usuarios de Twitter. En este notebook vamos a obtener la matriz Origen-Destino a partir de dichas trayectorias.

In [1]:
%load_ext autoreload
%autoreload 2
import geopandas as gpd
from shapely.geometry import LineString, Point
from datetime import datetime, timedelta
import pandas as pd
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
from IPython.display import display, HTML

Leemos las trayectorias que calculamos

In [2]:
trayectorias = gpd.read_file("../output/trayectorias.gpkg")
trayectorias.geometry.crs = "EPSG:32614" # TODO: Resolver en 00-preproceso!!
trayectorias['dia'] = pd.to_datetime(trayectorias['dia'], format='%Y-%m-%dT%H:%M:%S')
trayectorias['intervalo'] = pd.to_datetime(trayectorias['intervalo'], format='%Y-%m-%dT%H:%M:%S')
trayectorias.set_index(['dia', 'intervalo', 'uname'], inplace=True)
trayectorias.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,separation,geometry
dia,intervalo,uname,Unnamed: 3_level_1,Unnamed: 4_level_1
2014-10-29,2014-10-29 10:00:00,AlejandroSordo,9237.812888,"LINESTRING (471865.220 2140838.487, 479166.515..."
2014-10-29,2014-10-29 10:00:00,GreenPistachio,669.068739,"LINESTRING (525419.137 2180731.374, 525190.231..."
2014-10-29,2014-10-29 10:00:00,MariinePa,738.825055,"LINESTRING (484571.596 2132370.418, 485244.847..."
2014-10-29,2014-10-29 10:00:00,PeRrOiMpOstOr,14826.892697,"LINESTRING (490924.227 2134725.016, 481962.962..."
2014-10-29,2014-10-29 14:00:00,23Tannie,4788.381689,"LINESTRING (483439.703 2144613.319, 485053.985..."


Y las zonas de análisis

In [3]:
zonas = gpd.read_file("../data/DistritosEODHogaresZMVM2017.shp")
zonas.head()

Unnamed: 0,Distrito,Descripcio,geometry
0,1,Centro HistÃ³rico,"POLYGON ((485707.699 2149605.446, 485792.518 2..."
1,2,Buenavista-Reforma,"POLYGON ((485002.129 2152136.266, 485069.252 2..."
2,3,Tlatelolco,"POLYGON ((486206.963 2152150.606, 486612.741 2..."
3,4,Morelos,"POLYGON ((488510.758 2150946.712, 488607.167 2..."
4,5,"Moctezuma, Terminal de Autobuses de Oriente (T...","POLYGON ((489445.177 2150604.177, 489535.192 2..."


## Un dia y un intervalo

Primero vamos a calcular la matriz para un sólo dia y un intervalo. 

In [35]:
prueba = trayectorias.loc['2014-11-26', '2014-11-26 06:00',:].copy()
prueba.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,separation,geometry
dia,intervalo,uname,Unnamed: 3_level_1,Unnamed: 4_level_1
2014-11-26,2014-11-26 06:00:00,APaulinaCM,13630.270452,"LINESTRING (492666.157 2145640.730, 492659.230..."
2014-11-26,2014-11-26 06:00:00,ARMAND_SOSA,12326.778546,"LINESTRING (484135.756 2132479.009, 483626.976..."
2014-11-26,2014-11-26 06:00:00,ASTRIDDIXIE,10496.000395,"LINESTRING (488482.463 2141106.261, 482065.330..."
2014-11-26,2014-11-26 06:00:00,AleeMijaangos,5086.64928,"LINESTRING (485333.721 2135830.200, 482768.977..."
2014-11-26,2014-11-26 06:00:00,Alewarhol,19502.382121,"LINESTRING (485525.936 2179115.244, 480706.258..."


Para cada usuario tenemos que encontrar los puntos de origen y destino de las trayectorias, para eso podemos crear dos dataframes diferentes, una para los orígenes y otra para los destinos.

In [50]:
origen = prueba['geometry'].apply(lambda l: Point(l.coords[0])).reset_index()
origen.crs = "EPSG:32614"
destino = prueba['geometry'].apply(lambda l: Point(l.coords[-1])).reset_index()
destino.crs = "EPSG:32614"

Y asignamos las zonas a cada uno de ellos 

In [51]:
origen = gpd.sjoin(origen.reset_index(), zonas).drop(['index', 'index_right', 'Descripcio'], axis=1)
destino = gpd.sjoin(destino.reset_index(), zonas).drop(['index','index_right', 'Descripcio'], axis=1)
origen.head()

Unnamed: 0,dia,intervalo,uname,geometry,Distrito
0,2014-11-26,2014-11-26 06:00:00,APaulinaCM,POINT (492666.157 2145640.730),35
6,2014-11-26,2014-11-26 06:00:00,AmandaPatrizi16,POINT (493000.139 2148084.367),35
171,2014-11-26,2014-11-26 06:00:00,nayma0,POINT (493694.128 2145000.106),35
1,2014-11-26,2014-11-26 06:00:00,ARMAND_SOSA,POINT (484135.756 2132479.009),68
78,2014-11-26,2014-11-26 06:00:00,PacoLopezGalvez,POINT (482701.897 2131614.354),68


Realmente sólo necesitamos conservar los índices temporales (día e intervalo), el `uname` y los distritos de origen y destino. Cada viaje está identificado por el `uname`

In [56]:
origen_destino = origen[['dia', 'intervalo', 'uname' , 'Distrito']].merge(destino[['uname' , 'Distrito']], on='uname')
origen_destino.rename({'Distrito_x':'distrito_origen', 'Distrito_y':'distrito_destino'}, axis=1, inplace=True)
origen_destino.head()

Unnamed: 0,dia,intervalo,uname,distrito_origen,distrito_destino
0,2014-11-26,2014-11-26 06:00:00,APaulinaCM,35,57
1,2014-11-26,2014-11-26 06:00:00,AmandaPatrizi16,35,36
2,2014-11-26,2014-11-26 06:00:00,nayma0,35,36
3,2014-11-26,2014-11-26 06:00:00,ARMAND_SOSA,68,10
4,2014-11-26,2014-11-26 06:00:00,PacoLopezGalvez,68,1


Ya sólo necesitamos agregar por origen y destino y contar la cantidad de viajes en cada grupo

In [58]:
origen_destino = origen_destino.groupby(['distrito_origen', 'distrito_destino']).count()
origen_destino.head(20)

Unnamed: 0_level_0,Unnamed: 1_level_0,dia,intervalo,uname
distrito_origen,distrito_destino,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,58,1,1,1
1,70,1,1,1
2,1,2,2,2
2,2,5,5,5
2,8,1,1,1
2,15,2,2,2
2,59,1,1,1
2,110,1,1,1
3,2,1,1,1
5,2,1,1,1


Esto que hicimos fua sólo para un dia y un intervalo, ahora hay que hacerlo para todos. En el `DataFrame` resulante tenemos que tener, para cada dia e intervalo, un resultado igual al que tenemos arriba en `origen_destino`

## Para todos los dias

Lo único que necesitamos hacer para obtener el resultado que buuscamos es definir una fución de agregación que regrese, para cada dia e intervalo, un `DataFrame` como el que tenemos arriba

In [4]:
def get_od(df, zonas):    
    origen = df['geometry'].apply(lambda l: Point(l.coords[0])).reset_index()
    origen.crs = "EPSG:32614"
    destino = df['geometry'].apply(lambda l: Point(l.coords[-1])).reset_index()
    destino.crs = "EPSG:32614"
    origen = gpd.sjoin(origen.reset_index(), zonas).drop(['index', 'index_right', 'Descripcio'], axis=1)
    destino = gpd.sjoin(destino.reset_index(), zonas).drop(['index','index_right', 'Descripcio'], axis=1)
    origen_destino = origen[['dia', 'intervalo', 'uname' , 'Distrito']].merge(destino[['uname' , 'Distrito']], on='uname')
    origen_destino.rename({'Distrito_x':'distrito_origen', 'Distrito_y':'distrito_destino'}, axis=1, inplace=True)
    origen_destino = origen_destino.groupby(['distrito_origen', 'distrito_destino']).count()
    return origen_destino

od_final = trayectorias.groupby(level=['dia', 'intervalo']).apply(get_od, zonas=zonas)

Vamos a seleccionar el mismo dia e intervalos que usamos arriba y comparemos

In [74]:
od_final.loc['2014-11-26', '2014-11-26 06:00',:].head(20)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,dia,intervalo,uname
dia,intervalo,distrito_origen,distrito_destino,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2014-11-26,2014-11-26 06:00:00,1,58,1,1,1
2014-11-26,2014-11-26 06:00:00,1,70,1,1,1
2014-11-26,2014-11-26 06:00:00,2,1,2,2,2
2014-11-26,2014-11-26 06:00:00,2,2,5,5,5
2014-11-26,2014-11-26 06:00:00,2,8,1,1,1
2014-11-26,2014-11-26 06:00:00,2,15,2,2,2
2014-11-26,2014-11-26 06:00:00,2,59,1,1,1
2014-11-26,2014-11-26 06:00:00,2,110,1,1,1
2014-11-26,2014-11-26 06:00:00,3,2,1,1,1
2014-11-26,2014-11-26 06:00:00,5,2,1,1,1


In [67]:
origen_destino.head(20)

Unnamed: 0_level_0,Unnamed: 1_level_0,dia,intervalo,uname
distrito_origen,distrito_destino,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,58,1,1,1
1,70,1,1,1
2,1,2,2,2
2,2,5,5,5
2,8,1,1,1
2,15,2,2,2
2,59,1,1,1
2,110,1,1,1
3,2,1,1,1
5,2,1,1,1


Perfecto! Son iguales.
Arreglemos los nombres de las columnas, en realidad todas son iguales y representan el número de viajes.

In [5]:
od_final = od_final[['dia']]
od_final.rename({'dia':'viajes'}, axis=1, inplace=True)
od_final.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,viajes
dia,intervalo,distrito_origen,distrito_destino,Unnamed: 4_level_1
2014-10-29,2014-10-29 10:00:00,43,1,1
2014-10-29,2014-10-29 10:00:00,44,68,1
2014-10-29,2014-10-29 10:00:00,59,58,1
2014-10-29,2014-10-29 10:00:00,171,171,1
2014-10-29,2014-10-29 14:00:00,1,1,10


## Agregados por semana

Para cada dia las muestras son relativamente pequeñas, entonces vamos a sacar primero los agregados para cada semana y luego obtener el promedio final. Recordemos que aquí tenemos todos los dias del periodo muestreado y que, en principio vamos a tener dos tipos dew comportamiento diferentes: dias laborales y fines de semana. Entonces, primero, vamos a obtener la matriz sólo para los días laborales. Antes de eso tenemos que ajustar el índice de intervalo porque incluye el dia, entonces no podemos agrupar bien

In [6]:
od_final = od_final.reset_index()
od_final['intervalo_time'] = od_final['intervalo'].apply(lambda x: x.strftime('%H:%M:%S'))
od_final = (od_final.drop(['intervalo'], axis=1)
            .rename({'intervalo_time':'intervalo'}, axis=1)
            .set_index(['dia', 'intervalo', 'distrito_origen'])
           )
od_final

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,distrito_destino,viajes
dia,intervalo,distrito_origen,Unnamed: 3_level_1,Unnamed: 4_level_1
2014-10-29,10:00:00,043,001,1
2014-10-29,10:00:00,044,068,1
2014-10-29,10:00:00,059,058,1
2014-10-29,10:00:00,171,171,1
2014-10-29,14:00:00,001,001,10
...,...,...,...,...
2015-04-10,07:00:00,170,170,1
2015-04-10,07:00:00,171,171,1
2015-04-10,07:00:00,178,207,1
2015-04-10,07:00:00,191,191,1


Seleccionemos los dias laborales

In [7]:
od_laborales = od_final.loc[od_final.index.get_level_values('dia').weekday.isin(range(0,5)),:,:]

Agrupemos estos datos por semana 

In [8]:
laborales_semana = od_final.groupby([pd.Grouper(level='dia', freq='W'), 'intervalo', 'distrito_origen', 'distrito_destino']).sum()
laborales_semana

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,viajes
dia,intervalo,distrito_origen,distrito_destino,Unnamed: 4_level_1
2014-11-02,02:00:00,001,001,4
2014-11-02,02:00:00,001,002,2
2014-11-02,02:00:00,001,010,1
2014-11-02,02:00:00,001,017,1
2014-11-02,02:00:00,002,002,3
...,...,...,...,...
2015-04-12,23:00:00,174,174,2
2015-04-12,23:00:00,188,186,1
2015-04-12,23:00:00,192,192,1
2015-04-12,23:00:00,195,195,1


Finalmente, calculemos los estadísticos (suma, media, desviación estándar) para cada uno de los intervalos sobre todo el periodo de estudio.

In [9]:
promedios_intervalo = laborales_semana.groupby(['intervalo', 'distrito_origen', 'distrito_destino']).agg(['sum', 'mean', 'std'])
promedios_intervalo

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,viajes,viajes,viajes
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,sum,mean,std
intervalo,distrito_origen,distrito_destino,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
02:00:00,001,001,45,2.250000,1.371707
02:00:00,001,002,24,1.411765,0.507300
02:00:00,001,003,3,1.000000,0.000000
02:00:00,001,004,1,1.000000,
02:00:00,001,006,2,1.000000,0.000000
...,...,...,...,...,...
23:00:00,174,174,2,2.000000,
23:00:00,188,186,1,1.000000,
23:00:00,192,192,1,1.000000,
23:00:00,195,195,1,1.000000,


Exportamos el resultado como csv

In [15]:
promedios_intervalo.reset_index(col_level=1).to_csv("../output/matriz_od_semana.csv")

In [16]:
import hvplot.pandas

ModuleNotFoundError: No module named 'hvplot'