# Datos tabulares con Pandas 
Los conjuntos de datos del mundo real son desordenados. No hay forma de evitarlo: los conjuntos de datos tienen datos faltantes, su formato no es el que deseamos (la cantidad de formatos en los que se pueden almacenar datos es infinita) y la mejor estructura para compartir datos no siempre es la óptima para analizarlos, de ahí la necesidad de limpiarlos, ordenarlos, parsearlos, o de acuerdo al término en ingles: [munge](http://dictionary.reference.com/browse/munge). Como se ha señalado correctamente en muchos puntos de venta ([por ej](http://www.nytimes.com/2014/08/18/technology/for-big-data-scientists-hurdle-to-insights-is-janitor-work.html?_r=0)), la mayor parte del tiempo [gastado](https://twitter.com/BigDataBorat/status/306596352991830016) en lo que se llama (Geo) Ciencia de Datos está relacionado no solo con el modelado sofisticado y perspicaz, pero tiene que ver con tareas mucho más básicas y menos exóticas, como obtener datos, procesarlos, convertirlos en una forma que haga posible el análisis y explorarlos para conocer sus propiedades básicas.

Por lo intensivo y relevante que es este aspecto, sorprendentemente se ha publicado muy poco sobre patrones, técnicas y mejores prácticas para una limpieza, manipulación y transformación de datos rápida y eficiente. En esta clase, usaremos algunos conjuntos de datos del mundo real y aprenderemos cómo procesarlos en Python para que puedan ser transformados y analizados. Para esto, presentaremos parte de lo fundamental del análisis de datos y la computación científica en Python. Estas son herramientas fundamentales que se utilizan constantemente en casi cualquier tarea relacionada con el análisis de datos.

Este *notebook* cubre lo básico y el contenido que se espera que sea aprendido por cada estudiante. Usamos un conjunto de datos preparado que nos ahorra gran parte del procesamiento más complejo que va más allá del nivel introductorio al que se dirige la clase. 

En este cuaderno, discutimos varios patrones para limpiar y estructurar los datos de manera adecuada, que incluyen ordenar, subconjuntos y agregar; y terminamos con una visualización básica. 

Antes de tener nuestras manos sucias de datos, permítanos importar todas las librerias adicionales que vamos a necesitar.

![Pandas](https://cdn.trendhunterstatic.com/phpthumbnails/88/88854/88854_1_600.jpeg)

In [None]:
#importamos las librerias necesarias
import numpy as np
import pandas as pd    # Pandas es la libreria de manipulacion de datos tabulares por excelencia


# 1 Dataframes de Pandas


Vamos a usar la data de molinetes del subte para el año 2019. Nosotros vamos a descargarlo directamente desde el notebook. Se puede descargar del [portal de datos abiertos del Gobierno de la Ciudad](https://data.buenosaires.gob.ar/dataset/subte-viajes-molinetes)


In [None]:
!wget 'http://cdn.buenosaires.gob.ar/datosabiertos/datasets/subte-viajes-molinetes/molinetes-2019.zip'

In [None]:
!unzip 'molinetes-2019.zip'

In [None]:
!ls

In [None]:
viajes = pd.read_csv('datahistorica122019.csv', sep = ',')
viajes.head()

Detengámonos un momento para saber cómo hemos leído el archivo. Estos son los aspectos principales a tener en cuenta:

* Estamos utilizando el método `read_csv` de la biblioteca `pandas`, que hemos importado con el alias `pd`.
* En esta forma simple, todo lo que se requiere es pasar la ruta al archivo que queremos leer, y en nuestro caso el separador que no es la coma tradicional, sino el punto y coma. Esto se debe a que nuestro separador decimal es la coma, mientras que el separador de miles es el punto. Por eso, en los portales de datos no anglosajones, se tiene a utilizar ese separador. Si no separaría, por ejemplo, el campo latitud con valor -58,89 en dos campos -58 y 89.
* Tiene *muchísimos* más parámetros que serán de mucha utilidad más adelante

Inspeccionamos el objeto y vemos a qué tipo pertenece

In [None]:
#siempre es util consultar la ayuda de una funcion, en especial de esta porque muchas tareas de limpieza y orden ya etsan en sus parametros
pd.read_csv?

In [None]:
#veamos el tipo
type(viajes)

Finalmente luego de tanto encerar y pulir, de listas, strings, etc. podemos dedicarnos a un objeto que nos resulta realmente útil para nuestra práctica cotidiana: una tabla de datos o *data frame*

In [None]:
import IPython.display as display
display.YouTubeVideo('fULNUr0rvEc')

In [None]:
#tambien se puede crear un data frame desde cero, utilizando diccionarios y listas de Python
ejemplo = pd.DataFrame(
    {
        'nombre':['Felipe','Juana','Diego'],
        'edad':[34,56,9]
     }
)
ejemplo

In [None]:
#vemos información básica como las columnas, que tipo de datos almacenan, cuantas filas, cuanta memoria ocupa, etc
viajes.info()

In [None]:
#podemos ver las dimensiones expresadas en (filas,columnas)
viajes.shape

In [None]:
#o de otro modo
len(viajes)

In [None]:
#un breve resumen de los valores de la tabla
viajes.describe()

Tenga en cuenta que el resultado también es un objeto `DataFrame`, por lo que puede hacer con él las mismas cosas que haría con la tabla original (por ejemplo, escribirla en un archivo).

En este caso, el resumen podría presentarse mejor si la tabla es "transpuesta":

In [None]:
viajes.describe().T

In [16]:
viajes.describe?

# 2 Seleccionar y filtrar datos

¡Ahora estamos listos para comenzar a jugar e interrogar al conjunto de datos! Lo que tenemos a nuestro alcance es una tabla que  muestra la cantidad de transacciones por molinete de las lineas de subte de Buenos Aires cada 15 minutos. Veremos como seleccionar variables y casos, recortarla horizontal o verticalmente.

* Inspeccionando cómo se ve. Podemos verificar los X primeros registros de la tabla pasando con el método `head` ( o los últimos con `tail`). Tambien es útil utilizar `sample` para traer una cantidad de casos random

In [18]:
viajes.head()

Unnamed: 0,periodo,fecha,desde,hasta,linea,molinete,estacion,pax_pagos,pax_pases_pagos,pax_franq,total
0,201901,2019-01-01,08:00:00,08:15:00,LineaA,LineaA_Lima_N_Turn02,Lima,1.0,0.0,0.0,1.0
1,201901,2019-01-01,08:00:00,08:15:00,LineaA,LineaA_Loria_N_Turn03,Loria,3.0,0.0,0.0,3.0
2,201901,2019-01-01,08:00:00,08:15:00,LineaA,LineaA_Miserere_Q_HALL_Turn01,Plaza Miserere,3.0,0.0,0.0,3.0
3,201901,2019-01-01,08:00:00,08:15:00,LineaA,LineaA_Miserere_S_Turn01,Plaza Miserere,6.0,0.0,0.0,6.0
4,201901,2019-01-01,08:00:00,08:15:00,LineaA,LineaA_Miserere_S_Turn03,Plaza Miserere,10.0,0.0,0.0,10.0


In [19]:
viajes.tail(2)

Unnamed: 0,periodo,fecha,desde,hasta,linea,molinete,estacion,pax_pagos,pax_pases_pagos,pax_franq,total
12662341,201912,2019-12-31,23:00:00,23:15:00,LineaE,LineaE_LaPlata_Turn02,Avenida La Plata,0.0,0.0,1.0,1.0
12662342,201912,2019-12-31,23:30:00,23:45:00,LineaE,LineaE_Catalinas_S_Turn02,Catalinas,0.0,0.0,1.0,1.0


In [20]:
viajes.sample(3)

Unnamed: 0,periodo,fecha,desde,hasta,linea,molinete,estacion,pax_pagos,pax_pases_pagos,pax_franq,total
1298606,201902,2019-02-08,08:45:00,09:00:00,LineaB,LineaB_Echeverria_Oeste_Turn02,Echeverria,40.0,0.0,0.0,40.0
6873358,201907,2019-07-23,16:00:00,16:15:00,LineaA,LineaA_Flores_Oeste_Turn02,Flores,14.0,0.0,3.0,17.0
8414650,201909,2019-09-04,10:00:00,10:15:00,LineaD,LineaD_Tribuna_O_Turn02,Tribunales,25.0,0.0,2.0,27.0


In [21]:
# que periodos tenemos?
viajes.periodo.unique()

array([201901, 201902, 201903, 201904, 201905, 201906, 201907, 201908,
       201909, 201910, 201911, 201912])

In [22]:
#cuantos casos en cada uno?
viajes['periodo'].value_counts()

201910    1128957
201908    1118999
201907    1113411
201909    1089313
201912    1075412
201911    1068553
201901    1048257
201903    1035160
201906    1017923
201905     998143
201904     996997
201902     971218
Name: periodo, dtype: int64

In [25]:
#cuantos casos en cada uno?
viajes.periodo.value_counts(normalize=True) * 100

201910    8.915862
201908    8.837219
201907    8.793088
201909    8.602776
201912    8.492994
201911    8.438825
201901    8.278539
201903    8.175106
201906    8.038978
201905    7.882767
201904    7.873717
201902    7.670129
Name: periodo, dtype: float64

In [27]:
#otra forma de hacer lo mismo
#redondeamos el resultado
round((viajes.periodo.value_counts() / len(viajes) * 100),2)

201910    8.92
201908    8.84
201907    8.79
201909    8.60
201912    8.49
201911    8.44
201901    8.28
201903    8.18
201906    8.04
201905    7.88
201904    7.87
201902    7.67
Name: periodo, dtype: float64

In [40]:
viajes.loc[:3,:]

Unnamed: 0,fecha,desde,hasta,linea,molinete,estacion,pax_pagos,pax_pases_pagos,pax_franq,total


In [31]:
#nos quedamos con el mes de octubre con el metodo LOC para seleccionar subset de datos
viajes = viajes.loc[(viajes.periodo == 201910),:] 
viajes.periodo.value_counts()

201910    1128957
Name: periodo, dtype: int64

In [32]:
#Si uno descompone lo que hicimos recien en las muñecas rusas que lo componen:

#primero esta el filtro que quisimos crear
filtro = viajes.periodo == 201910
filtro[:5]

9389421    True
9389422    True
9389423    True
9389424    True
9389425    True
Name: periodo, dtype: bool

`loc` nos permite filtrar filas utilizando una lista de Verdaderos y Falsos (True,False). También podemos filtrar columnas por el nombre. `loc` para filtrar utiliza listas `True` o `False` o los `indices` que veremos más adelante. Por lo pronto, veamos que podemos filtrar por las columnas utilizando sus nombres. 

In [33]:
#elimino periodo porque ya se que es todo febrero
viajes = viajes.loc[:,['fecha', 'desde', 'hasta', 'linea', 'molinete', 'estacion',
       'pax_pagos', 'pax_pases_pagos', 'pax_franq', 'total']]
viajes.head()									

Unnamed: 0,fecha,desde,hasta,linea,molinete,estacion,pax_pagos,pax_pases_pagos,pax_franq,total
9389421,2019-10-01,05:30:00,05:45:00,LineaA,LineaA_Alberti_Turn02,Alberti,1.0,0.0,1.0,2.0
9389422,2019-10-01,05:30:00,05:45:00,LineaA,LineaA_Carabobo_O_Turn02,Carabobo,1.0,0.0,0.0,1.0
9389423,2019-10-01,05:30:00,05:45:00,LineaA,LineaA_Carabobo_O_Turn03,Carabobo,2.0,0.0,0.0,2.0
9389424,2019-10-01,05:30:00,05:45:00,LineaA,LineaA_Congreso_S_Turn01,Congreso,0.0,0.0,1.0,1.0
9389425,2019-10-01,05:30:00,05:45:00,LineaA,LineaA_Congreso_S_Turn02,Congreso,2.0,0.0,0.0,2.0


In [34]:
#usamos true y false en columnas e indices en filas
viajes.loc[9389421:9389423,[True, False, False, False, False, False,
       False, False, False, True]]

Unnamed: 0,fecha,total
9389421,2019-10-01,2.0
9389422,2019-10-01,1.0
9389423,2019-10-01,2.0


In [39]:
viajes.loc[(viajes.estacion == 'Retiro') &  (viajes.linea == 'LineaC'),:]

Unnamed: 0,fecha,desde,hasta,linea,molinete,estacion,pax_pagos,pax_pases_pagos,pax_franq,total
9389603,2019-10-01,05:30:00,05:45:00,LineaC,LineaC_Retiro_Turn03,Retiro,1.0,0.0,0.0,1.0
9389604,2019-10-01,05:30:00,05:45:00,LineaC,LineaC_Retiro_Turn04,Retiro,1.0,0.0,0.0,1.0
9389605,2019-10-01,05:30:00,05:45:00,LineaC,LineaC_Retiro_Turn10,Retiro,11.0,0.0,0.0,11.0
9389610,2019-10-01,05:30:00,05:45:00,LineaC,LineaC_Retiro_Turn06,Retiro,2.0,0.0,0.0,2.0
9389638,2019-10-01,05:30:00,05:45:00,LineaC,LineaC_Retiro_Turn11,Retiro,25.0,0.0,1.0,26.0
...,...,...,...,...,...,...,...,...,...,...
10517941,2019-10-31,23:00:00,23:15:00,LineaC,LineaC_Retiro_Turn09,Retiro,4.0,0.0,0.0,4.0
10518188,2019-10-31,23:15:00,23:30:00,LineaC,LineaC_Retiro_Turn11,Retiro,2.0,0.0,0.0,2.0
10518192,2019-10-31,23:15:00,23:30:00,LineaC,LineaC_Retiro_Turn12,Retiro,10.0,0.0,0.0,10.0
10518198,2019-10-31,23:15:00,23:30:00,LineaC,LineaC_Retiro_Turn08,Retiro,0.0,0.0,1.0,1.0


In [42]:
viajes.loc[:9389423,:]

Unnamed: 0,fecha,desde,hasta,linea,molinete,estacion,pax_pagos,pax_pases_pagos,pax_franq,total
9389421,2019-10-01,05:30:00,05:45:00,LineaA,LineaA_Alberti_Turn02,Alberti,1.0,0.0,1.0,2.0
9389422,2019-10-01,05:30:00,05:45:00,LineaA,LineaA_Carabobo_O_Turn02,Carabobo,1.0,0.0,0.0,1.0
9389423,2019-10-01,05:30:00,05:45:00,LineaA,LineaA_Carabobo_O_Turn03,Carabobo,2.0,0.0,0.0,2.0


In [45]:
# si usamos ILOC no nos importan los indices, solo las posiciones y ordenes
viajes.iloc[2:5,:-3]

Unnamed: 0,fecha,desde,hasta,linea,molinete,estacion,pax_pagos
9389423,2019-10-01,05:30:00,05:45:00,LineaA,LineaA_Carabobo_O_Turn03,Carabobo,2.0
9389424,2019-10-01,05:30:00,05:45:00,LineaA,LineaA_Congreso_S_Turn01,Congreso,0.0
9389425,2019-10-01,05:30:00,05:45:00,LineaA,LineaA_Congreso_S_Turn02,Congreso,2.0


In [46]:
#otro modo de hacer esto mismo (vinculado a la advertencia previa):
viajes.reindex(columns = ['fecha', 'desde', 'hasta', 'linea','total']).head(5)

Unnamed: 0,fecha,desde,hasta,linea,total
9389421,2019-10-01,05:30:00,05:45:00,LineaA,2.0
9389422,2019-10-01,05:30:00,05:45:00,LineaA,1.0
9389423,2019-10-01,05:30:00,05:45:00,LineaA,2.0
9389424,2019-10-01,05:30:00,05:45:00,LineaA,1.0
9389425,2019-10-01,05:30:00,05:45:00,LineaA,2.0


Noten que el resultado anterior no se guardo en una variable (la misma o una nueva), con lo cual solo me **muestra** una tabla con menos columnas, no cambio la tabla original. Si veo la tabla original veo que sigue con las mismas columnas

In [47]:
viajes.sample(3)

Unnamed: 0,fecha,desde,hasta,linea,molinete,estacion,pax_pagos,pax_pases_pagos,pax_franq,total
10102400,2019-10-20,22:15:00,22:30:00,LineaH,LineaH_SantaFe_Sur_Turn02,Santa Fe,7.0,0.0,0.0,7.0
9799954,2019-10-11,20:15:00,20:30:00,LineaA,LineaA_Pasco_Turn02,Pasco,5.0,0.0,1.0,6.0
10377471,2019-10-28,13:00:00,13:15:00,LineaA,LineaA_CBarros_N_Turn03,Castro Barros,43.0,0.0,4.0,47.0


In [58]:
#tamiben puedo eliminar la variable molinete porque a lo sumo vamos a trabajar con datos por estacion, no quiero tanta desagregacion
viajes = viajes.drop(['molinete'],axis=1)
viajes.head()

Unnamed: 0,fecha,desde,hasta,linea,estacion,pax_pagos,pax_pases_pagos,pax_franq,total
9389421,2019-10-01,05:30:00,05:45:00,LineaA,Alberti,1.0,0.0,1.0,2.0
9389422,2019-10-01,05:30:00,05:45:00,LineaA,Carabobo,1.0,0.0,0.0,1.0
9389423,2019-10-01,05:30:00,05:45:00,LineaA,Carabobo,2.0,0.0,0.0,2.0
9389424,2019-10-01,05:30:00,05:45:00,LineaA,Congreso,0.0,0.0,1.0,1.0
9389425,2019-10-01,05:30:00,05:45:00,LineaA,Congreso,2.0,0.0,0.0,2.0


# 3 Cuadros de doble entrada

Vimos como obtener una distribución de frecuencias. Ahora podemos ver una tabla de doble entrada.

In [49]:
#podemos unservar una tabla de doble entrada, de la vual solo vamos a ver los primer 5 registros 
pd.crosstab(viajes.estacion,viajes.linea)


linea,LineaA,LineaB,LineaC,LineaD,LineaE,LineaH
estacion,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
9 de julio,0,0,0,11633,0,0
Acoyte,16875,0,0,0,0,0
AgÃÂ¼ero,0,0,0,8009,0,0
Alberti,6419,0,0,0,0,0
Angel Gallardo,0,11838,0,0,0,0
...,...,...,...,...,...,...
Tronador,0,6323,0,0,0,0
Urquiza,0,0,0,0,5621,0
Uruguay,0,14833,0,0,0,0
Varela,0,0,0,0,4137,0


In [50]:
#podemos verlo en porcentajes con el parametro 'normalize' que puede ser columns o index
tabla = pd.crosstab(viajes.estacion,viajes.linea,
                    normalize='columns',
                    margins=True,
                    margins_name='Totales') * 100
tabla.head() 

linea,LineaA,LineaB,LineaC,LineaD,LineaE,LineaH,Totales
estacion,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
9 de julio,0.0,0.0,0.0,5.146548,0.0,0.0,1.03042
Acoyte,7.28454,0.0,0.0,0.0,0.0,0.0,1.494742
AgÃÂ¼ero,0.0,0.0,0.0,3.543257,0.0,0.0,0.709416
Alberti,2.770931,0.0,0.0,0.0,0.0,0.0,0.568578
Angel Gallardo,0.0,4.637098,0.0,0.0,0.0,0.0,1.048578


In [51]:
#tomemos la linea B 
tabla.loc[tabla.LineaB > 0,['LineaB','Totales']].sort_values(by='LineaB',ascending=False)

linea,LineaB,Totales
estacion,Unnamed: 1_level_1,Unnamed: 2_level_1
Federico Lacroze,14.785204,3.343351
Rosas,8.821375,1.994762
Leandro N. Alem,6.869078,1.553292
Pueyrredon,5.853758,1.3237
Uruguay,5.810278,1.313868
Dorrego,5.715875,1.29252
Florida,5.63479,1.274185
Carlos Pellegrini,5.604237,1.267276
Malabia,5.58661,1.26329
Carlos Gardel,5.011575,1.133258


# 4 Elementos de un Pandas Dataframe

Ya hemos utilizado en alto nivel y de una manera utilitaria un dataframe haciendo algunas operaciones sencillas. Ahora vamos a intentar profundizar en los elementos que conforman un dataframe. Iremos desarmando las muñecas rusas. Volvamos a obtener la información del objeto

In [52]:
viajes.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1128957 entries, 9389421 to 10518377
Data columns (total 10 columns):
 #   Column           Non-Null Count    Dtype  
---  ------           --------------    -----  
 0   fecha            1128957 non-null  object 
 1   desde            1128957 non-null  object 
 2   hasta            1128957 non-null  object 
 3   linea            1128957 non-null  object 
 4   molinete         1128957 non-null  object 
 5   estacion         1128957 non-null  object 
 6   pax_pagos        1128957 non-null  float64
 7   pax_pases_pagos  1128957 non-null  float64
 8   pax_franq        1128957 non-null  float64
 9   total            1128957 non-null  float64
dtypes: float64(4), object(6)
memory usage: 94.7+ MB


Vemos primero el tipo: class pandas.core.frame.DataFrame. Luego podemos ver el primer elemento que lo conforma: un índice

In [53]:
viajes.index

Int64Index([ 9389421,  9389422,  9389423,  9389424,  9389425,  9389426,
             9389427,  9389428,  9389429,  9389430,
            ...
            10518368, 10518369, 10518370, 10518371, 10518372, 10518373,
            10518374, 10518375, 10518376, 10518377],
           dtype='int64', length=1128957)

El índice lo muestra en el notebook a la izquierda en negrita. Vemos que comienza en **9389421**. Si vuelven al comienzo cuando cargamos la tabla por primera vez verán que comenzaba en 0. Recuerden que filtramos los casos de febrero, por eso ya no comienza en 0. En muchas ocasiones, el índice no es más que un número que identifica cada registro, desde 0 hasta la cantidad de registros (menos 1). En otros análisis, se puede indexar por un atributo que tenga significado, como puede ser una serie de tiempo.  

El segundo elemento que muestra son las columnas

In [54]:
viajes.head(3)

Unnamed: 0,fecha,desde,hasta,linea,molinete,estacion,pax_pagos,pax_pases_pagos,pax_franq,total
9389421,2019-10-01,05:30:00,05:45:00,LineaA,LineaA_Alberti_Turn02,Alberti,1.0,0.0,1.0,2.0
9389422,2019-10-01,05:30:00,05:45:00,LineaA,LineaA_Carabobo_O_Turn02,Carabobo,1.0,0.0,0.0,1.0
9389423,2019-10-01,05:30:00,05:45:00,LineaA,LineaA_Carabobo_O_Turn03,Carabobo,2.0,0.0,0.0,2.0


In [55]:
#veamos que tambien constituyen un indice
viajes.columns

Index(['fecha', 'desde', 'hasta', 'linea', 'molinete', 'estacion', 'pax_pagos',
       'pax_pases_pagos', 'pax_franq', 'total'],
      dtype='object')

In [61]:
#creamos una copia de la original para mostrar como podemos cambiar los nombres de las columnas
viajes_copia = viajes.copy()

In [62]:
viajes_copia.columns = ['FECHA', 'DESDE', 'HASTA', 'LINEA', 'ESTACION', 'PAX_PAGOS',
       'PAX_PASES_PAGOS', 'PAX_FRANQ', 'TOTAL']
viajes_copia.sample(3)       

Unnamed: 0,FECHA,DESDE,HASTA,LINEA,ESTACION,PAX_PAGOS,PAX_PASES_PAGOS,PAX_FRANQ,TOTAL
9953668,2019-10-16,18:45:00,19:00:00,LineaD,Callao,31.0,0.0,0.0,31.0
9889580,2019-10-15,07:45:00,08:00:00,LineaH,Corrientes,25.0,0.0,6.0,31.0
10110811,2019-10-21,09:15:00,09:30:00,LineaB,Pueyrredon,54.0,0.0,0.0,54.0


In [63]:
viajes.sample()

Unnamed: 0,fecha,desde,hasta,linea,estacion,pax_pagos,pax_pases_pagos,pax_franq,total
10229569,2019-10-24,09:45:00,10:00:00,LineaA,Carabobo,29.0,0.0,0.0,29.0


In [65]:
viajes_copia.rename(columns = {'LINEA':'linea'},inplace=True)

In [66]:
viajes_copia.sample(3)

Unnamed: 0,FECHA,DESDE,HASTA,linea,ESTACION,PAX_PAGOS,PAX_PASES_PAGOS,PAX_FRANQ,TOTAL
9860030,2019-10-14,10:00:00,10:15:00,LineaB,Pasteur,4.0,0.0,0.0,4.0
9790311,2019-10-11,16:00:00,16:15:00,LineaA,Castro Barros,28.0,0.0,2.0,30.0
10389163,2019-10-28,18:00:00,18:15:00,LineaB,Pueyrredon,0.0,0.0,2.0,2.0


In [67]:
#podemos hacer lo mismo que haríamos con cualquier lista
viajes_copia.columns = viajes_copia.columns.map(str.lower)
viajes_copia.sample()

Unnamed: 0,fecha,desde,hasta,linea,estacion,pax_pagos,pax_pases_pagos,pax_franq,total
10146732,2019-10-22,07:45:00,08:00:00,LineaD,Ministro Carranza,83.0,0.0,5.0,88.0


Si observamos cada columna, vemos que cada una de ellas es un objeto del tipo **Pandas Series** 

In [68]:
type(viajes.fecha)

pandas.core.series.Series

Si observamos cada columna, vemos que cada una de ellas es un objeto del tipo **Pandas Series** 

In [69]:
viajes.fecha.head()

9389421    2019-10-01
9389422    2019-10-01
9389423    2019-10-01
9389424    2019-10-01
9389425    2019-10-01
Name: fecha, dtype: object

Si vemos las otras columnas, todas tienen el mismo indice:

In [70]:
viajes.desde.head()

9389421    05:30:00
9389422    05:30:00
9389423    05:30:00
9389424    05:30:00
9389425    05:30:00
Name: desde, dtype: object

In [71]:
viajes.loc[10146732]

fecha                     2019-10-22
desde                       07:45:00
hasta                       08:00:00
linea                         LineaD
estacion           Ministro Carranza
pax_pagos                         83
pax_pases_pagos                    0
pax_franq                          5
total                             88
Name: 10146732, dtype: object

Por lo tanto podemos pensar en que los **Dataframes** son un conjunto de **Series**, que comparten el mismo índice

# 5 Manipulacion de datos y crear columnas

Ahora vamos a ver el sentido de todo ese limar y pulir de la clase anterior. Queremos saber qué día es cada registro. Para eso vamos a tener que hacerle transformaciones a los datos.

In [72]:
#veamos un ejemplo
viajes.fecha.iloc[800000]

'2019-10-23'

In [73]:
#vemos que es un string
type(viajes.fecha.iloc[800000])

str

Como vemos es un texto simple. Pero hay diversas maneras de obtener el resultado que queremos. Comunmente no existe una única manera de solucionar un problema en Python, en cualquier lenguaje de programación, o en la vida misma. Esto da la sensación de libertad pero a la vez abruma.

Comencemos con el más sencillo. Sabemos que el día son los 2 primeros dígitos de la fecha.

In [74]:
viajes.fecha.iloc[800000][8:10]

'23'

In [75]:
#o tomando los ultimos 2
viajes.fecha.iloc[800000][-2:]

'23'

Pero nos gustaria que nos devuelva un número, no un caracter de texto

In [76]:
int(viajes.fecha.iloc[800000][-2:])

23

Perfecto, ahora que sabemos lo que tenemos que hacer con un caso típico, podemos hacerlo para todos los casos. ¿Cómo? En la clase anterior vimos 3 modos:

* for loop
* list comprehension 
* map

Tenemos que repetir una misma tarea rutinaria una y otra vez sobre toda una serie de elementos. Esto es una buena indicación de que deberíamos crear una función.

In [77]:
viajes.fecha.sample(3)

9735127     2019-10-10
10435620    2019-10-29
10095695    2019-10-20
Name: fecha, dtype: object

In [79]:
def obtener_el_dia(fecha):
    '''
    Esta función toma una fecha en texto en formato dd/mm/yyyy
    y devuelve el día en un numero entero
    '''
    return int(fecha[-2:])

In [81]:
obtener_el_dia(viajes.fecha.iloc[800000])

23

In [82]:
import time #esto nos va a permitir ver cuanto tarda en correr nuestro codigo y ver la diferencia en los 3 metodos

In [83]:
#aplicamos nuestra funcion a las fechas de los 3 modos
#NOTEN COMO PODEMOS UTILIZAR EL INDEX DEL PANDAS DATAFRAME Y COMO USAMOS LOC Y NO ILOC
start = time.time()
fechas_loop = []
for i in viajes.index:
    dia = obtener_el_dia(viajes.fecha.loc[i])
    fechas_loop.append(dia) 
    #noten como append modifica la lista fehcas_loop sin tener que guardar el resultado en una nueva variable
end = time.time()
print('tardo en ejecutar',round(end - start),'segundos')

tardo en ejecutar 30 segundos


Veamos otros metodos y sus tiempos:

In [84]:
obtener_el_dia(viajes.fecha.iloc[80000])

3

In [85]:
%time fechas_list_comp = [obtener_el_dia(viajes.fecha.loc[i]) for i in viajes.index]

CPU times: user 29.4 s, sys: 1.97 ms, total: 29.4 s
Wall time: 29.4 s


In [86]:
%time fechas_list_comp_v2 = [obtener_el_dia(fecha) for fecha in viajes.fecha]

CPU times: user 459 ms, sys: 804 µs, total: 459 ms
Wall time: 474 ms


In [87]:
#ambas producen la misma lista?
fechas_list_comp == fechas_loop

True

In [88]:
fechas_list_comp_v2 == fechas_loop

True

In [89]:
%time fechas_map = viajes.fecha.map(obtener_el_dia)

CPU times: user 569 ms, sys: 3.93 ms, total: 573 ms
Wall time: 576 ms


In [90]:
fechas_map == fechas_list_comp_v2

9389421     True
9389422     True
9389423     True
9389424     True
9389425     True
            ... 
10518373    True
10518374    True
10518375    True
10518376    True
10518377    True
Name: fecha, Length: 1128957, dtype: bool

In [92]:
type(fechas_map)

pandas.core.series.Series

In [93]:
fechas_map.head()

9389421    1
9389422    1
9389423    1
9389424    1
9389425    1
Name: fecha, dtype: int64

In [94]:
#produce lo mismo? si y no. El resultado es una serie de pandas, no una lista. 
#Al evaluarla contra la lista, evalua punto por punto
(fechas_map == fechas_list_comp).sum()

1128957

In [95]:
len(viajes)

1128957

In [96]:
#tambien podemos chequear si todos esos valores son True
all(fechas_map == fechas_loop)

True

In [None]:
#guardamos nuestros dias en una nueva columna de nuestro dataframe
viajes['dia'] = fechas_map

In [97]:
#esta es una forma mas correctares
viajes.loc[:,'dia'] = viajes.fecha.map(obtener_el_dia)

In [98]:
#y siempre, intenten chequear su trabajo
viajes.dia.value_counts(normalize=True) * 100

2     3.541322
3     3.536184
9     3.517760
31    3.510497
18    3.508548
11    3.506954
25    3.503499
24    3.501462
17    3.500753
30    3.500576
10    3.498893
1     3.486315
16    3.483924
23    3.482506
8     3.480469
28    3.476040
22    3.474357
29    3.469131
21    3.459742
7     3.455667
15    3.453985
4     3.440078
5     3.044846
19    3.021196
26    2.983905
14    2.815696
27    2.470245
6     2.417187
20    2.348805
13    2.329584
12    1.779873
Name: dia, dtype: float64

In [99]:
viajes.sample(3)

Unnamed: 0,fecha,desde,hasta,linea,estacion,pax_pagos,pax_pases_pagos,pax_franq,total,dia
10149831,2019-10-22,09:15:00,09:30:00,LineaA,San Pedrito,86.0,0.0,2.0,88.0,22
9504382,2019-10-03,21:00:00,21:15:00,LineaD,Congreso de Tucuman,12.0,0.0,1.0,13.0,3
10062033,2019-10-19,16:00:00,16:15:00,LineaE,Catalinas,6.0,0.0,0.0,6.0,19


Ahora, nosotros podemos saber si el dia fue el 1ero o el 15. Pero al analizar flujo de transporte, es más importante saber si fue lunes o domingo que si fue principio o fin de mes. Entonces queremos saber que dia de la semana fue ese dia

In [101]:
from datetime import datetime #esta es una nueva libreria que me deja manipular fechas

In [102]:
viajes.fecha.iloc[80000]

'2019-10-03'

In [103]:
fecha = datetime.strptime(viajes.fecha.iloc[80000],'%Y-%m-%d')
fecha

datetime.datetime(2019, 10, 3, 0, 0)

In [105]:
datetime.strptime?

In [104]:
type(fecha)

datetime.datetime

Una de esas propiedades es la de obtener el día calendario con el metodo o función `.weekday()`

In [106]:
fecha.weekday()

3

In [107]:
help(datetime.weekday)

Help on method_descriptor:

weekday(...)
    Return the day of the week represented by the date.
    Monday == 0 ... Sunday == 6



In [109]:
def obtener_dia_semana(fecha):
    return datetime.strptime(fecha,'%Y-%m-%d').weekday()

In [110]:
viajes.loc[:,'dia_semana'] = viajes.fecha.map(obtener_dia_semana)

In [111]:
type(viajes.dia_semana.iloc[0])

numpy.int64

In [112]:
viajes.sample(2)

Unnamed: 0,fecha,desde,hasta,linea,estacion,pax_pagos,pax_pases_pagos,pax_franq,total,dia,dia_semana
9768333,2019-10-11,06:15:00,06:30:00,LineaA,Pasco,7.0,0.0,1.0,8.0,11,4
9431957,2019-10-02,06:45:00,07:00:00,LineaH,Santa Fe,1.0,0.0,0.0,1.0,2,2


In [113]:
viajes.dia_semana.value_counts(normalize = True) * 100

3    17.547790
2    17.526088
1    17.364257
4    13.959079
0    13.207146
5    10.829819
6     9.565820
Name: dia_semana, dtype: float64

In [114]:
viajes.dia_semana = viajes.dia_semana.replace(
    {0:'lunes',
                                      1:'martes',
                                      2:'miercoles',
                                      3:'jueves',
                                      4:'viernes',
                                      5:'sabado',
                                      6:'domingo'}
                                      )

In [115]:
viajes.dia_semana.value_counts(normalize = True) * 100

jueves       17.547790
miercoles    17.526088
martes       17.364257
viernes      13.959079
lunes        13.207146
sabado       10.829819
domingo       9.565820
Name: dia_semana, dtype: float64

In [116]:
viajes.sample(3)

Unnamed: 0,fecha,desde,hasta,linea,estacion,pax_pagos,pax_pases_pagos,pax_franq,total,dia,dia_semana
9763436,2019-10-10,21:30:00,21:45:00,LineaC,General San Martin,1.0,0.0,1.0,2.0,10,jueves
10031791,2019-10-18,18:30:00,18:45:00,LineaC,San Juan,42.0,0.0,3.0,45.0,18,viernes
10238050,2019-10-24,13:15:00,13:30:00,LineaE,Retiro E,7.0,0.0,0.0,7.0,24,jueves


# 6 Agrupación, transformación, agregación

Una de las ventajas de conjuntos de datos ordenados es que permiten realizar transformaciones avanzadas de una manera más directa. Una de las más comunes es lo que se llama operaciones "grupales". Originadas en el mundo de las bases de datos, estas operaciones le permiten agrupar las observaciones en una tabla mediante una de sus etiquetas, índice o categoría, y aplicar operaciones en el grupo de datos por grupo.

Por ejemplo, dada nuestra tabla ordenada por linea, estacion, dia, calcular la suma total de transacciones agrupadas por diferentes categorias.

Para hacer esto en `pandas`, podemos usar uno de sus caballos de batalla, y también una de las razones por las que la biblioteca se ha vuelto tan popular: el operador` groupby`.


In [117]:
viajes.loc[viajes.estacion == 'General San Martin']

Unnamed: 0,fecha,desde,hasta,linea,estacion,pax_pagos,pax_pases_pagos,pax_franq,total,dia,dia_semana
9389624,2019-10-01,05:30:00,05:45:00,LineaC,General San Martin,1.0,0.0,0.0,1.0,1,martes
9389639,2019-10-01,05:30:00,05:45:00,LineaC,General San Martin,1.0,0.0,0.0,1.0,1,martes
9389653,2019-10-01,05:30:00,05:45:00,LineaC,General San Martin,2.0,0.0,0.0,2.0,1,martes
9390004,2019-10-01,05:45:00,06:00:00,LineaC,General San Martin,1.0,0.0,0.0,1.0,1,martes
9390017,2019-10-01,05:45:00,06:00:00,LineaC,General San Martin,0.0,0.0,2.0,2.0,1,martes
...,...,...,...,...,...,...,...,...,...,...,...
10517547,2019-10-31,22:45:00,23:00:00,LineaC,General San Martin,10.0,0.0,0.0,10.0,31,jueves
10517908,2019-10-31,23:00:00,23:15:00,LineaC,General San Martin,2.0,0.0,0.0,2.0,31,jueves
10517919,2019-10-31,23:00:00,23:15:00,LineaC,General San Martin,1.0,0.0,0.0,1.0,31,jueves
10517931,2019-10-31,23:00:00,23:15:00,LineaC,General San Martin,4.0,0.0,1.0,5.0,31,jueves


In [118]:
viajes_por_dia = viajes.loc[:,['dia_semana','total']]
viajes_por_dia = viajes_por_dia.groupby('dia_semana').sum()
viajes_por_dia

Unnamed: 0_level_0,total
dia_semana,Unnamed: 1_level_1
domingo,1142550.0
jueves,6726305.0
lunes,4204963.0
martes,6517033.0
miercoles,6636572.0
sabado,2018943.0
viernes,5256928.0


In [119]:
#tambien podemos elegir otras funciones
viajes.loc[:,['linea','total']].groupby(['linea']).describe()

Unnamed: 0_level_0,total,total,total,total,total,total,total,total
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
linea,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
LineaA,231655.0,26.175653,26.776324,1.0,7.0,19.0,36.0,248.0
LineaB,255289.0,31.740177,31.631977,1.0,7.0,22.0,46.0,229.0
LineaC,144592.0,32.6862,36.638532,1.0,7.0,19.0,45.0,571.0
LineaD,226035.0,34.094215,40.902555,1.0,8.0,25.0,52.0,12459.0
LineaE,148155.0,17.026,20.781122,1.0,3.0,9.0,24.0,244.0
LineaH,123231.0,27.44049,27.763789,1.0,5.0,19.0,41.0,229.0


In [120]:
viajes.reindex(columns = ['linea','total','pax_pagos'])\
        .groupby('linea')\
        .agg({'total':np.sum,
             'pax_pagos':np.max})

Unnamed: 0_level_0,total,pax_pagos
linea,Unnamed: 1_level_1,Unnamed: 2_level_1
LineaA,6063721.0,248.0
LineaB,8102918.0,229.0
LineaC,4726163.0,253.0
LineaD,7706486.0,242.0
LineaE,2522487.0,239.0
LineaH,3381519.0,224.0


In [121]:
#incluso podemos introducir diferentes funciones que querramos a eleccion
viajes.loc[:,['linea','total']].groupby(['linea']).agg([np.sum,np.std,np.mean])

Unnamed: 0_level_0,total,total,total
Unnamed: 0_level_1,sum,std,mean
linea,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
LineaA,6063721.0,26.776324,26.175653
LineaB,8102918.0,31.631977,31.740177
LineaC,4726163.0,36.638532,32.6862
LineaD,7706486.0,40.902555,34.094215
LineaE,2522487.0,20.781122,17.026
LineaH,3381519.0,27.763789,27.44049


In [122]:
#podemos agrupar por dos categorias
viajes_por_dia_linea = viajes.loc[:,['linea','dia_semana','total']].groupby(['linea','dia_semana']).sum()
viajes_por_dia_linea.sort_values(by=['linea','total'],ascending=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,total
linea,dia_semana,Unnamed: 2_level_1
LineaH,jueves,693347.0
LineaH,miercoles,682063.0
LineaH,martes,670132.0
LineaH,viernes,547197.0
LineaH,lunes,443802.0
LineaH,sabado,222189.0
LineaH,domingo,122789.0
LineaE,jueves,546082.0
LineaE,miercoles,532672.0
LineaE,martes,513831.0


Supongamos que queremos ver solamente las estaciones de la linea B para ver cuales son las que tienen la mayor cantidad de pasajeros. Vamos a encontrarnos con una dificultad.  

In [123]:
#si observamos las columnas vemos que no es ningun problema
viajes_por_dia_linea.columns

Index(['total'], dtype='object')

In [124]:
#pero cuando vemos el indice vemos que es diferente, es de tipo MultiIndex
viajes_por_dia_linea.index

MultiIndex([('LineaA',   'domingo'),
            ('LineaA',    'jueves'),
            ('LineaA',     'lunes'),
            ('LineaA',    'martes'),
            ('LineaA', 'miercoles'),
            ('LineaA',    'sabado'),
            ('LineaA',   'viernes'),
            ('LineaB',   'domingo'),
            ('LineaB',    'jueves'),
            ('LineaB',     'lunes'),
            ('LineaB',    'martes'),
            ('LineaB', 'miercoles'),
            ('LineaB',    'sabado'),
            ('LineaB',   'viernes'),
            ('LineaC',   'domingo'),
            ('LineaC',    'jueves'),
            ('LineaC',     'lunes'),
            ('LineaC',    'martes'),
            ('LineaC', 'miercoles'),
            ('LineaC',    'sabado'),
            ('LineaC',   'viernes'),
            ('LineaD',   'domingo'),
            ('LineaD',    'jueves'),
            ('LineaD',     'lunes'),
            ('LineaD',    'martes'),
            ('LineaD', 'miercoles'),
            ('LineaD',    'sabado'),
 

Todas las operaciones de tipo *groupby* por defecto devuelven tablas con indices multi-nivel. Si bien introduce una complejidad que enriquece para ciertas operaciones, en lo cotidiano puede resultar algo molesto. Para eso existe un modo sencillo de resolver el problema.  

In [125]:
tabla_simple = viajes_por_dia_linea.reset_index()
tabla_simple.head()

Unnamed: 0,linea,dia_semana,total
0,LineaA,domingo,187819.0
1,LineaA,jueves,1238304.0
2,LineaA,lunes,792513.0
3,LineaA,martes,1224947.0
4,LineaA,miercoles,1239896.0


Ese comando resetea el index, alojando el index anterior como columnas. Lo que nos devuelve un dataframe "tradicional" manipulable de manera más intuitiva. Aunque eso es relativo, si les interesa profundizar, a continuación hay una pequeña disgresión donde profundiza aún más y se relativiza lo "intuitivo". 

In [126]:
#o pasarlo en el parametro desde el vamos
viajes_por_dia_linea_no_index = viajes.loc[:,['linea','dia_semana','total']].groupby(['linea','dia_semana'],as_index=False).sum()
viajes_por_dia_linea_no_index.head()

Unnamed: 0,linea,dia_semana,total
0,LineaA,domingo,187819.0
1,LineaA,jueves,1238304.0
2,LineaA,lunes,792513.0
3,LineaA,martes,1224947.0
4,LineaA,miercoles,1239896.0


## Disgresión con más detalles sobre MultiIndex 

Los índices múltiples en realidad no son más tanto complejos, sólo que tienen un tratamiento algo diferente. Veamos como seleccionar datos en tablas con indices múltiples. En la tabla original, uno puede buscar primero por columna y luego por el indice de esa columna (recordemos que los **Dataframe** son **Series** ordenadas, esto sería buscar una **Serie** primero al nombrarla por el nombre de la columna y luego un indice dentro de la **Serie**) 

In [127]:
#asi buscamos un valor puntal en los dataframes. Pero en un dataframe con un indice simple, "dentro" de esta muñeca rusa,
# para una columna y una fila, hay una sola celda
viajes['fecha'][10310460]

'2019-10-26'

In [128]:
# podemos hacerlo mismo primero por columna y luego por fila. Solo que al ser un indice doble para las filas, 
# dentro de esa fila no hay una celda, sino una Serie
viajes_por_dia_linea['total']['LineaA']

dia_semana
domingo       187819.0
jueves       1238304.0
lunes         792513.0
martes       1224947.0
miercoles    1239896.0
sabado        385818.0
viernes       994424.0
Name: total, dtype: float64

In [129]:
#loc nos permitia hacer una operacion similar
viajes.loc[10310460,'fecha']

'2019-10-26'

In [130]:
viajes.loc[[10310460,10310461],'fecha']

10310460    2019-10-26
10310461    2019-10-26
Name: fecha, dtype: object

In [131]:
#buscamos con loc para un indice multiple
viajes_por_dia_linea.loc[['LineaB'],'total']

linea   dia_semana
LineaB  domingo        289707.0
        jueves        1674985.0
        lunes         1033721.0
        martes        1612633.0
        miercoles     1654819.0
        sabado         514539.0
        viernes       1322514.0
Name: total, dtype: float64

In [132]:
#buscamos mas de una linea
viajes_por_dia_linea.loc[['LineaB','LineaC'],'total']

linea   dia_semana
LineaB  domingo        289707.0
        jueves        1674985.0
        lunes         1033721.0
        martes        1612633.0
        miercoles     1654819.0
        sabado         514539.0
        viernes       1322514.0
LineaC  domingo        187066.0
        jueves         956943.0
        lunes          619969.0
        martes         934918.0
        miercoles      948235.0
        sabado         313983.0
        viernes        765049.0
Name: total, dtype: float64

In [133]:
#buscamos estaciones puntuales dentro de esas lineas. 
viajes_por_dia_linea.loc[[('LineaB','lunes'),('LineaC','lunes')],'total']

linea   dia_semana
LineaB  lunes         1033721.0
LineaC  lunes          619969.0
Name: total, dtype: float64

In [134]:
viajes_por_dia_linea.index.get_level_values(0)

Index(['LineaA', 'LineaA', 'LineaA', 'LineaA', 'LineaA', 'LineaA', 'LineaA',
       'LineaB', 'LineaB', 'LineaB', 'LineaB', 'LineaB', 'LineaB', 'LineaB',
       'LineaC', 'LineaC', 'LineaC', 'LineaC', 'LineaC', 'LineaC', 'LineaC',
       'LineaD', 'LineaD', 'LineaD', 'LineaD', 'LineaD', 'LineaD', 'LineaD',
       'LineaE', 'LineaE', 'LineaE', 'LineaE', 'LineaE', 'LineaE', 'LineaE',
       'LineaH', 'LineaH', 'LineaH', 'LineaH', 'LineaH', 'LineaH', 'LineaH'],
      dtype='object', name='linea')

In [135]:
viajes_por_dia_linea.index.get_level_values(1)

Index(['domingo', 'jueves', 'lunes', 'martes', 'miercoles', 'sabado',
       'viernes', 'domingo', 'jueves', 'lunes', 'martes', 'miercoles',
       'sabado', 'viernes', 'domingo', 'jueves', 'lunes', 'martes',
       'miercoles', 'sabado', 'viernes', 'domingo', 'jueves', 'lunes',
       'martes', 'miercoles', 'sabado', 'viernes', 'domingo', 'jueves',
       'lunes', 'martes', 'miercoles', 'sabado', 'viernes', 'domingo',
       'jueves', 'lunes', 'martes', 'miercoles', 'sabado', 'viernes'],
      dtype='object', name='dia_semana')

In [136]:
# se puede buscar por un valor de alguno de los niveles del indice
viajes_por_dia_linea.loc[viajes_por_dia_linea.index.get_level_values(0) == 'LineaB',:]

Unnamed: 0_level_0,Unnamed: 1_level_0,total
linea,dia_semana,Unnamed: 2_level_1
LineaB,domingo,289707.0
LineaB,jueves,1674985.0
LineaB,lunes,1033721.0
LineaB,martes,1612633.0
LineaB,miercoles,1654819.0
LineaB,sabado,514539.0
LineaB,viernes,1322514.0


Cuando usamos agg (corto para *aggregate*) nos queda una tabla con multiindice en las columnas. Los datos en estas tablas también pueden accederse con el mismo criterio.

In [137]:
resumen = viajes.loc[:,['linea','total','pax_pases_pagos']].groupby(['linea']).agg([np.mean,np.median,np.std])
resumen

Unnamed: 0_level_0,total,total,total,pax_pases_pagos,pax_pases_pagos,pax_pases_pagos
Unnamed: 0_level_1,mean,median,std,mean,median,std
linea,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
LineaA,26.175653,19.0,26.776324,0.20123,0.0,0.597043
LineaB,31.740177,22.0,31.631977,0.177818,0.0,0.549795
LineaC,32.6862,19.0,36.638532,0.084963,0.0,0.344953
LineaD,34.094215,25.0,40.902555,0.184662,0.0,0.780876
LineaE,17.026,9.0,20.781122,0.146785,0.0,0.488213
LineaH,27.44049,19.0,27.763789,0.164123,0.0,0.508961


In [138]:
resumen.index

Index(['LineaA', 'LineaB', 'LineaC', 'LineaD', 'LineaE', 'LineaH'], dtype='object', name='linea')

In [140]:
#podemos ver que en este caso el indice es util que sea la linea
resumen.loc['LineaB']

total            mean      31.740177
                 median    22.000000
                 std       31.631977
pax_pases_pagos  mean       0.177818
                 median     0.000000
                 std        0.549795
Name: LineaB, dtype: float64

In [141]:
resumen.columns

MultiIndex([(          'total',   'mean'),
            (          'total', 'median'),
            (          'total',    'std'),
            ('pax_pases_pagos',   'mean'),
            ('pax_pases_pagos', 'median'),
            ('pax_pases_pagos',    'std')],
           )

In [142]:
resumen.loc['LineaB',['total']]

total  mean      31.740177
       median    22.000000
       std       31.631977
Name: LineaB, dtype: float64

In [143]:
#o usando una tupla con (), porque para seleccion mas customizadas vamos a necesitar este tipo
resumen.loc['LineaB',('total','std')]

31.631976643639675

In [144]:
resumen.loc[['LineaB','LineaA'],('total','std')]

linea
LineaB    31.631977
LineaA    26.776324
Name: (total, std), dtype: float64

In [145]:
#para las dos lineas, y la misma variable podemos tomar los dos mismos estadisticos
resumen.loc[['LineaB','LineaA'],('total',('std','mean'))]

Unnamed: 0_level_0,total,total
Unnamed: 0_level_1,mean,std
linea,Unnamed: 1_level_2,Unnamed: 2_level_2
LineaB,31.740177,31.631977
LineaA,26.175653,26.776324


In [146]:
#en este caso, cuando el indice multiple esta en las columnas, siempre podemos modificar eliminano un nivel
resumen.columns = resumen.columns.droplevel(0)
resumen

Unnamed: 0_level_0,mean,median,std,mean,median,std
linea,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
LineaA,26.175653,19.0,26.776324,0.20123,0.0,0.597043
LineaB,31.740177,22.0,31.631977,0.177818,0.0,0.549795
LineaC,32.6862,19.0,36.638532,0.084963,0.0,0.344953
LineaD,34.094215,25.0,40.902555,0.184662,0.0,0.780876
LineaE,17.026,9.0,20.781122,0.146785,0.0,0.488213
LineaH,27.44049,19.0,27.763789,0.164123,0.0,0.508961


In [147]:
#si desean que la linea este en las columnas, pueden resetear el index de nuevo
resumen_reset = resumen.reset_index()
resumen_reset

Unnamed: 0,linea,mean,median,std,mean.1,median.1,std.1
0,LineaA,26.175653,19.0,26.776324,0.20123,0.0,0.597043
1,LineaB,31.740177,22.0,31.631977,0.177818,0.0,0.549795
2,LineaC,32.6862,19.0,36.638532,0.084963,0.0,0.344953
3,LineaD,34.094215,25.0,40.902555,0.184662,0.0,0.780876
4,LineaE,17.026,9.0,20.781122,0.146785,0.0,0.488213
5,LineaH,27.44049,19.0,27.763789,0.164123,0.0,0.508961


Pero en esto se puede ver la ventaja de usar indices que no sean simplemente números, si no que podemos indexar por algo significativo como la línea. De esta manera es más sencillo acceder a los datos

In [148]:
resumen.loc['LineaA']

mean      26.175653
median    19.000000
std       26.776324
mean       0.201230
median     0.000000
std        0.597043
Name: LineaA, dtype: float64

In [149]:
#en lugar de:
resumen_reset.loc[resumen_reset.linea == 'LineaA']

Unnamed: 0,linea,mean,median,std,mean.1,median.1,std.1
0,LineaA,26.175653,19.0,26.776324,0.20123,0.0,0.597043


In [150]:
#si lo queremos el output como DataFrame
resumen.loc[['LineaA']]

Unnamed: 0_level_0,mean,median,std,mean,median,std
linea,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
LineaA,26.175653,19.0,26.776324,0.20123,0.0,0.597043


Esta forma de indexar genera formas mas complejas y más potentes de acceder y organizar los datos. Como siempre, se trata de juzgar en qué medida esa complejidad es necesaria.

**Fin de disgresión con más detalles sobre MultiIndex** 

# 7 Formatos largos y anchos

Volvamos a nuestra dataframe que venimos trabajando para ver una cuestion de estructura de los datos. Los llamados formatos *anchos* y *largos*

In [151]:
viajes.sample(3)

Unnamed: 0,fecha,desde,hasta,linea,estacion,pax_pagos,pax_pases_pagos,pax_franq,total,dia,dia_semana
10154586,2019-10-22,11:15:00,11:30:00,LineaC,Avenida de Mayo,15.0,1.0,1.0,17.0,22,martes
9793101,2019-10-11,17:15:00,17:30:00,LineaA,Alberti,28.0,2.0,12.0,42.0,11,viernes
9493030,2019-10-03,16:00:00,16:15:00,LineaD,Juramento,36.0,0.0,1.0,37.0,3,jueves


In [152]:
#generamos primero un agregado por linea y estacion para obtener una suma por estacion para todo el mes
subset = viajes.loc[:,['linea','estacion','pax_pagos','pax_pases_pagos','pax_franq']]
subset = subset.groupby(['linea','estacion']).sum().reset_index()
subset.head()


Unnamed: 0,linea,estacion,pax_pagos,pax_pases_pagos,pax_franq
0,LineaA,Acoyte,381329.0,3628.0,37198.0
1,LineaA,Alberti,126903.0,1474.0,13110.0
2,LineaA,Carabobo,323850.0,3052.0,25594.0
3,LineaA,Castro Barros,257442.0,4183.0,21034.0
4,LineaA,Congreso,358874.0,3403.0,25263.0


In [153]:
#podemos convertir este formato "ancho" en "largo"
subset_long = pd.wide_to_long(df = subset,
                         stubnames = 'pax_',
                         i=['linea','estacion'],
                         j="tipo",
                         suffix='\w+').reset_index()
subset_long.head()

Unnamed: 0,linea,estacion,tipo,pax_
0,LineaA,Acoyte,pagos,381329.0
1,LineaA,Acoyte,pases_pagos,3628.0
2,LineaA,Acoyte,franq,37198.0
3,LineaA,Alberti,pagos,126903.0
4,LineaA,Alberti,pases_pagos,1474.0


In [155]:
subset_long.pax_.mean()

120382.57037037038

In [None]:
pd.wide_to_long?

In [156]:
#podemos hacer lo contrario y pasar de largo a ancho
subset_long.pivot_table(index=['linea','estacion'], columns='tipo', values='pax_')

Unnamed: 0_level_0,tipo,franq,pagos,pases_pagos
linea,estacion,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
LineaA,Acoyte,37198.0,381329.0,3628.0
LineaA,Alberti,13110.0,126903.0,1474.0
LineaA,Carabobo,25594.0,323850.0,3052.0
LineaA,Castro Barros,21034.0,257442.0,4183.0
LineaA,Congreso,25263.0,358874.0,3403.0
...,...,...,...,...
LineaH,Las Heras,17552.0,356468.0,2001.0
LineaH,Once,31283.0,431440.0,1614.0
LineaH,Patricios,29186.0,310879.0,2608.0
LineaH,Santa Fe,17385.0,321049.0,1448.0


## Procesamiento para la clase siguiente

Nuestro objetivo es ver como se comporta el subte de acuerdo al dia y al tipo de hora. Tenemos que obtener entonces la hora del dia

In [157]:
viajes.desde.iloc[10]

'05:30:00'

In [158]:
#que estamos haciendo con esta operación??
viajes['hora'] = viajes.desde.map(lambda x: int(x[:2])) 
viajes.hora.value_counts(normalize=True) * 100

13    6.030168
12    6.028662
16    6.026536
15    6.006606
14    5.997040
17    5.994117
11    5.979856
10    5.938756
18    5.830071
9     5.814659
19    5.759741
8     5.752212
20    5.548307
21    5.296039
7     5.172916
22    4.535248
6     4.353842
5     2.302479
23    1.544257
4     0.042871
0     0.025245
2     0.009212
1     0.005935
3     0.005226
Name: hora, dtype: float64

In [159]:
viajes.sample(3)

Unnamed: 0,fecha,desde,hasta,linea,estacion,pax_pagos,pax_pases_pagos,pax_franq,total,dia,dia_semana,hora
9880172,2019-10-14,20:30:00,20:45:00,LineaC,Retiro,3.0,0.0,0.0,3.0,14,lunes,20
9802109,2019-10-11,21:00:00,21:15:00,LineaH,Inclan,23.0,0.0,1.0,24.0,11,viernes,21
9930352,2019-10-16,08:30:00,08:45:00,LineaE,Correo Central,1.0,0.0,0.0,1.0,16,miercoles,8


## Otra, pero la ultima, disgresion

Podríamos haber utilizado las funciones (o métodos) de los objetos del tipo datetime y así como extrajimos el tipo de día, extraer la hora. Pero repasemos lo que hicimos previamente. Primero utilizamos una funcion 

`
def obtener_dia_semana(fecha):
    return datetime.strptime(fecha,'%d/%m/%Y').weekday()
`

y la aplicamos con `map()` a la columna FECHA, que era un *string*.

`db.loc[:,'dia_semana'] = db.FECHA.map(obtener_dia_semana)`

La función que creamos, toma cada elemento de la fecha, cada string que hay en la **Serie** *FECHA*, lo transforma en tipo **datetime** y obtiene el día de la semana *DEJANDO COMO STRING LOS DATOS ORIGINALES*.

Podríamos obtener la hora del siguiente modo:

In [160]:
datetime.strptime(viajes.fecha.iloc[0],'%Y-%m-%d').hour

0

En el campo fecha, no hay información sobre la hora. Esto se encuentra en los campos DESDE y HASTA

In [None]:
viajes.iloc[100]

Pero aún si conteniese dicha información, nuestra función tomaba el texto, lo convertía en un objeto del tipo **datetime** y nos devolvía la hora como número entero. Podríamos tomar el campo DESDE y hacer el mismo proceso de convertisión. Sin embargo, estaríamos haciendo dos veces el mismo trabajo (tomar un **string**, convertirlo a **datetime** y luego extraer la hora y el día). 

Entonces podemos introducir dos consejos del pensamiento computacional:

* Saber de antemano qué vamos a hacer, planificar claramente y luego ejecutar
* Cuando un proceso se repite varias veces, es una señal de que algo mal estamos haciendo

Si sabemos de antemano que queremos obtener el tipo de día y hora, podemos crear una columna que contenga toda la información que deseamos (fecha y hora), luego convertir esta nueva columna UNA SOLA VEZ en objeto **datetime** y ahi sí extraer la información que deseamos


In [161]:
viajes['fecha_hora'] = pd.to_datetime(viajes.fecha + ' ' + viajes.desde,format = '%Y-%m-%d %H:%M:%S')
viajes.sample(3)

Unnamed: 0,fecha,desde,hasta,linea,estacion,pax_pagos,pax_pases_pagos,pax_franq,total,dia,dia_semana,hora,fecha_hora
10311056,2019-10-26,12:00:00,12:15:00,LineaD,Facultad de Medicina,6.0,0.0,0.0,6.0,26,sabado,12,2019-10-26 12:00:00
10493540,2019-10-31,12:00:00,12:15:00,LineaC,Constitucion,53.0,0.0,0.0,53.0,31,jueves,12,2019-10-31 12:00:00
9839821,2019-10-13,15:15:00,15:30:00,LineaH,Humberto I,25.0,0.0,0.0,25.0,13,domingo,15,2019-10-13 15:15:00


In [162]:
viajes['hora_date'] = viajes.fecha_hora.map(lambda x: x.hour) 
viajes['dia_semana_date'] = viajes.fecha_hora.map(lambda x: x.weekday())

In [163]:
viajes.sample(3)

Unnamed: 0,fecha,desde,hasta,linea,estacion,pax_pagos,pax_pases_pagos,pax_franq,total,dia,dia_semana,hora,fecha_hora,hora_date,dia_semana_date
10478928,2019-10-31,05:15:00,05:30:00,LineaB,Callao.B,2.0,0.0,0.0,2.0,31,jueves,5,2019-10-31 05:15:00,5,3
10068372,2019-10-19,19:15:00,19:30:00,LineaD,Ministro Carranza,25.0,0.0,2.0,27.0,19,sabado,19,2019-10-19 19:15:00,19,5
10068662,2019-10-19,19:30:00,19:45:00,LineaB,Uruguay,67.0,0.0,0.0,67.0,19,sabado,19,2019-10-19 19:30:00,19,5


¿Por qué utilizamos `()` en `weekday()` mientras que no lo usamos en `hour`?

Esta diferencia responde a temas más profundos de lenguajes de programación orientados a objetos (Python es uno de ellos). La diferencia fundamental es que uno puede decidir cambiarle la hora, el día, el mes a un objeto. Podemos obligar a los datos a cambiar y que sean otros (supongamos que algún molinete tiene un error que suma 1 hora, entonces podríamos cambiarle la hora a todos los molinetes de esa estación). Pero el 9 de Octubre de 2018 es martes, si o si (por lo menos en el mundo occidental donde rige el [calendario gregoriano](https://en.wikipedia.org/wiki/List_of_calendars)).

Algo más en este [link](https://stackoverflow.com/questions/41617547/why-is-datetime-minute-an-attribute-while-datetime-weekday-is-a-function)

Sin embargo, el método que utilizamos de recortar los primeros 2 caracteres, también nos da la información que necesitamos. Nunca hay una solución única para un problema. Si encuentran una función efectiva, que resuelve el problema, aún cuando tarde más tiempo, es la solución correcta. 

**Fin de la ultima disgresion**

Para concluir, queremos agrupar tipo de día de la semana, hora y estacion (vamos a usar el campo ID, que veremos en la clase 3 el por qué de usar ID y no el nombre ESTACION). Pero más que si un día es lunes o sábado, queremos saber si es día de semana o día hábil ya que esperamos que el comportamiento sea diferente en ambos casos. Podríamos repetir un `replace()` donde reemplacemos *lunes* por *no*, *domingo* por *si* y así sucesivamente. O podemos usar una `list compehension` con clausulas `if - else` que ademas deje como resultado directamente True or False para luego usar como filtros

In [164]:
viajes['fin_de_semana'] = [True if ((dia == 'domingo') | (dia == 'sabado')) else False for dia in viajes.dia_semana]

In [165]:
pd.crosstab(viajes.dia_semana,viajes.fin_de_semana)

fin_de_semana,False,True
dia_semana,Unnamed: 1_level_1,Unnamed: 2_level_1
domingo,0,107994
jueves,198107,0
lunes,149103,0
martes,196035,0
miercoles,197862,0
sabado,0,122264
viernes,157592,0


In [168]:
data_insumo = viajes.loc[:,['fin_de_semana','hora','linea','estacion','total']].groupby(['fin_de_semana','hora','linea','estacion'],as_index=False).mean()
data_insumo.rename(columns = {'total':'promedio'},inplace=True)
data_insumo.sample(10)

Unnamed: 0,fin_de_semana,hora,linea,estacion,promedio
2090,True,6,LineaE,General Belgrano,4.0
2896,True,15,LineaE,Catalinas,1.957831
2456,True,10,LineaE,Pza. de los Virreyes,9.105263
1284,False,17,LineaE,San Jose,26.083333
434,False,8,LineaC,Avenida de Mayo,10.136015
2352,True,9,LineaD,Tribunales,7.376147
58,False,1,LineaH,Once,1.0
3141,True,18,LineaC,General San Martin,8.820513
2372,True,9,LineaH,Cordoba,10.880435
2249,True,8,LineaD,Bulnes,10.801325


In [170]:
data_insumo.to_csv('data_insumo_clase3.csv',index=False)