# Práctico 1 
Los conjuntos de datos del mundo real son desordenados. No hay forma de evitarlo: los conjuntos de datos tienen datos faltantes, su formato no es el que deseamos (la cantidad de formatos en los que se pueden almacenar datos es infinita) y la mejor estructura para compartir datos no siempre es la óptima para analizarlos, de ahí la necesidad de limpiarlos, ordenarlos, parsearlos, o de acuerdo al término en ingles: [munge](http://dictionary.reference.com/browse/munge). Como se ha señalado correctamente en muchos puntos de venta ([por ej](http://www.nytimes.com/2014/08/18/technology/for-big-data-scientists-hurdle-to-insights-is-janitor-work.html?_r=0)), la mayor parte del tiempo [gastado](https://twitter.com/BigDataBorat/status/306596352991830016) en lo que se llama (Geo) Ciencia de Datos está relacionado no solo con el modelado sofisticado y perspicaz, pero tiene que ver con tareas mucho más básicas y menos exóticas, como obtener datos, procesarlos, convertirlos en una forma que haga posible el análisis y explorarlos para conocer sus propiedades básicas.

Por lo intensivo y relevante que es este aspecto, sorprendentemente se ha publicado muy poco sobre patrones, técnicas y mejores prácticas para una limpieza, manipulación y transformación de datos rápida y eficiente. En esta clase, usaremos algunos conjuntos de datos del mundo real y aprenderemos cómo procesarlos en Python para que puedan ser transformados y analizados. Para esto, presentaremos parte de lo fundamental del análisis de datos y la computación científica en Python. Estas son herramientas fundamentales que se utilizan constantemente en casi cualquier tarea relacionada con el análisis de datos.

Este *notebook* cubre lo básico y el contenido que se espera que sea aprendido por cada estudiante. Usamos un conjunto de datos preparado que nos ahorra gran parte del procesamiento más complejo que va más allá del nivel introductorio al que se dirige la clase. 

En este cuaderno, discutimos varios patrones para limpiar y estructurar los datos de manera adecuada, que incluyen ordenar, subconjuntos y agregar; y terminamos con una visualización básica. 

Antes de tener nuestras manos sucias de datos, permítanos importar todas las librerias adicionales que vamos a necesitar.

In [None]:
#sumar grupy by lmabda primer elmento

In [1]:
import pandas as pd    # Pandas es la libreria de manipulacion de datos tabulares por excelencia
import IPython.display as display
import numpy as np

La libreria principal para trabajar tablas de datos como las que estamos acostumbrados/as se llama **Pandas**. 

# Dataframes de Pandas


Vamos a usar la data de molinetes del subte. Se puede descargar del [portal de datos abiertos del Gobierno de la Ciudad](https://data.buenosaires.gob.ar/dataset/subte-viajes-molinetes)


In [2]:
db = pd.read_csv('../data/molinetes_historico_2018.csv',sep=';')
db.head()

Unnamed: 0,PERIODO,FECHA,DESDE,HASTA,LINEA,MOLINETE,ESTACION,PAX_PAGOS,PAX_PASES_PAGOS,PAX_FRANQ,TOTAL,ID
0,201801,01/01/2018,08:00:00,08:15:00,LINEA_A,LINEA_A_CBARROS_S_TURN01,CASTRO BARROS,1,0,0,1,40
1,201801,01/01/2018,08:00:00,08:15:00,LINEA_A,LINEA_A_LIMA_S_TURN03,LIMA,4,0,0,4,33
2,201801,01/01/2018,08:00:00,08:15:00,LINEA_A,LINEA_A_PASCO_TURN01,PASCO,1,0,0,1,36
3,201801,01/01/2018,08:00:00,08:15:00,LINEA_A,LINEA_A_PERU_S_TURN01,PERU,4,0,0,4,31
4,201801,01/01/2018,08:00:00,08:15:00,LINEA_A,LINEA_A_PJUNTA_S_TURN02,PRIMERA JUNTA,2,0,0,2,43


In [4]:
pd.read_csv?

In [6]:
type(db)

pandas.core.frame.DataFrame

In [5]:
db.shape

(1947641, 12)

Finalmente luego de tanto encerar y pulir, de listas, strings, etc. podemos dedicarnos a un objeto que nos resulta realmente útil para nuestra práctica cotidiana: una tabla de datos o *data frame*

In [None]:
display.YouTubeVideo('fULNUr0rvEc')

Detengámonos un momento para saber cómo hemos leído el archivo. Estos son los aspectos principales a tener en cuenta:

* Estamos utilizando el método `read_csv` de la biblioteca `pandas`, que hemos importado con el alias `pd`.
* En esta forma simple, todo lo que se requiere es pasar la ruta al archivo que queremos leer, y en nuestro caso el separador que no es la coma tradicional, sino el punto y coma. Esto se debe a que nuestro separador decimal es la coma, mientras que el separador de miles es el punto. Por eso, en los portales de datos no anglosajones, se tiene a utilizar ese separador. Si no separaría, por ejemplo, el campo latitud con valor -58,89 en dos campos -58 y 89.
* Tiene *muchísimos* más parámetros que serán de mucha utilidad más adelante

Inspeccionamos el objeto y vemos a qué tipo pertenece

In [7]:
#tambien se puede crear un data frame desde cero, utilizando diccionarios y listas de Python
nueva = pd.DataFrame(
    {
        'nombre':[
            'Felipe','Juana','Diego'
        ],
        'edad':[
            34,56,9
        ]
}
)
nueva

Unnamed: 0,nombre,edad
0,Felipe,34
1,Juana,56
2,Diego,9


## 1 Primer resumen de nuestra tabla

In [8]:
#vemos que es un objeto dataframe. Más adelante veremos sus propiedades
type(db)

pandas.core.frame.DataFrame

In [9]:
#vemos información básica como las columnas, que tipo de datos almacenan, cuantas filas, cuanta memoria ocupa, etc
db.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1947641 entries, 0 to 1947640
Data columns (total 12 columns):
PERIODO            int64
FECHA              object
DESDE              object
HASTA              object
LINEA              object
MOLINETE           object
ESTACION           object
PAX_PAGOS          int64
PAX_PASES_PAGOS    int64
PAX_FRANQ          int64
TOTAL              int64
ID                 int64
dtypes: int64(6), object(6)
memory usage: 178.3+ MB


In [10]:
#podemos ver las dimensiones expresadas en (filas,columnas)
db.shape

(1947641, 12)

In [11]:
#podemos obtener la cantidad de registros solamente
db.shape[0]

1947641

In [12]:
#o de otro modo
len(db)

1947641

* Resumen de los valores de la tabla

In [13]:
db.describe()

Unnamed: 0,PERIODO,PAX_PAGOS,PAX_PASES_PAGOS,PAX_FRANQ,TOTAL,ID
count,1947641.0,1947641.0,1947641.0,1947641.0,1947641.0,1947641.0
mean,201801.5,22.8409,0.01503819,0.6732031,23.52914,44.39516
std,0.4992969,25.59934,0.1253787,1.201028,25.96725,25.46339
min,201801.0,0.0,0.0,0.0,0.0,1.0
25%,201801.0,5.0,0.0,0.0,6.0,21.0
50%,201801.0,15.0,0.0,0.0,15.0,42.0
75%,201802.0,31.0,0.0,1.0,32.0,69.0
max,201802.0,370.0,3.0,36.0,370.0,86.0


Tenga en cuenta que el resultado también es un objeto `DataFrame`, por lo que puede hacer con él las mismas cosas que haría con la tabla original (por ejemplo, escribirla en un archivo).

En este caso, el resumen podría presentarse mejor si la tabla es "transpuesta":

In [14]:
db.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
PERIODO,1947641.0,201801.473491,0.499297,201801.0,201801.0,201801.0,201802.0,201802.0
PAX_PAGOS,1947641.0,22.840898,25.599343,0.0,5.0,15.0,31.0,370.0
PAX_PASES_PAGOS,1947641.0,0.015038,0.125379,0.0,0.0,0.0,0.0,3.0
PAX_FRANQ,1947641.0,0.673203,1.201028,0.0,0.0,0.0,1.0,36.0
TOTAL,1947641.0,23.52914,25.967254,0.0,6.0,15.0,32.0,370.0
ID,1947641.0,44.395155,25.463393,1.0,21.0,42.0,69.0,86.0


## 2 Seleccionar y filtrar datos

¡Ahora estamos listos para comenzar a jugar e interrogar al conjunto de datos! Lo que tenemos a nuestro alcance es una tabla que  muestra la cantidad de transacciones por molinete de las lineas de subte de Buenos Aires cada 15 minutos. Veremos como seleccionar variables y casos, recortarla horizontal o verticalmente.

* Inspeccionando cómo se ve. Podemos verificar las líneas X (superiores) de la tabla pasando X al método `head` (` tail`). Por ejemplo, para las cinco líneas superiores e inferiores:

In [15]:
db.head(5)

Unnamed: 0,PERIODO,FECHA,DESDE,HASTA,LINEA,MOLINETE,ESTACION,PAX_PAGOS,PAX_PASES_PAGOS,PAX_FRANQ,TOTAL,ID
0,201801,01/01/2018,08:00:00,08:15:00,LINEA_A,LINEA_A_CBARROS_S_TURN01,CASTRO BARROS,1,0,0,1,40
1,201801,01/01/2018,08:00:00,08:15:00,LINEA_A,LINEA_A_LIMA_S_TURN03,LIMA,4,0,0,4,33
2,201801,01/01/2018,08:00:00,08:15:00,LINEA_A,LINEA_A_PASCO_TURN01,PASCO,1,0,0,1,36
3,201801,01/01/2018,08:00:00,08:15:00,LINEA_A,LINEA_A_PERU_S_TURN01,PERU,4,0,0,4,31
4,201801,01/01/2018,08:00:00,08:15:00,LINEA_A,LINEA_A_PJUNTA_S_TURN02,PRIMERA JUNTA,2,0,0,2,43


In [16]:
db.tail(2)

Unnamed: 0,PERIODO,FECHA,DESDE,HASTA,LINEA,MOLINETE,ESTACION,PAX_PAGOS,PAX_PASES_PAGOS,PAX_FRANQ,TOTAL,ID
1947639,201802,28/02/2018,23:30:00,23:45:00,LINEA_E,LINEA_E_EMITRE_TURN02,EMILIO MITRE,0,0,0,0,53
1947640,201802,28/02/2018,23:30:00,23:45:00,LINEA_H,LINEA_H_VENEZUELA_NORTE_TURN01,VENEZUELA,1,0,0,1,4


In [17]:
# que periodos tenemos?
db.PERIODO.unique()

array([201801, 201802])

In [18]:
#cuantos casos en cada uno?
db.PERIODO.value_counts()

201801    1025451
201802     922190
Name: PERIODO, dtype: int64

In [3]:
#podemos verlo como distribucion de frecuencias en porcentajes 
db.PERIODO.value_counts() / len(db) * 100

201801    52.650925
201802    47.349075
Name: PERIODO, dtype: float64

In [4]:
#redondeamos el resultado
round(db.PERIODO.value_counts() / len(db) * 100,2)

201801    52.65
201802    47.35
Name: PERIODO, dtype: float64

In [5]:
db.loc[:,:]

Unnamed: 0,PERIODO,FECHA,DESDE,HASTA,LINEA,MOLINETE,ESTACION,PAX_PAGOS,PAX_PASES_PAGOS,PAX_FRANQ,TOTAL,ID
0,201801,01/01/2018,08:00:00,08:15:00,LINEA_A,LINEA_A_CBARROS_S_TURN01,CASTRO BARROS,1,0,0,1,40
1,201801,01/01/2018,08:00:00,08:15:00,LINEA_A,LINEA_A_LIMA_S_TURN03,LIMA,4,0,0,4,33
2,201801,01/01/2018,08:00:00,08:15:00,LINEA_A,LINEA_A_PASCO_TURN01,PASCO,1,0,0,1,36
3,201801,01/01/2018,08:00:00,08:15:00,LINEA_A,LINEA_A_PERU_S_TURN01,PERU,4,0,0,4,31
4,201801,01/01/2018,08:00:00,08:15:00,LINEA_A,LINEA_A_PJUNTA_S_TURN02,PRIMERA JUNTA,2,0,0,2,43
...,...,...,...,...,...,...,...,...,...,...,...,...
1947636,201802,28/02/2018,23:30:00,23:45:00,LINEA_H,LINEAH_SANTAFE_SUR_TURN01,SANTA FE,1,0,0,1,86
1947637,201802,28/02/2018,23:30:00,23:45:00,LINEA_A,LINEA_A_CONGRESO_S_TURN03,CONGRESO,1,0,0,1,35
1947638,201802,28/02/2018,23:30:00,23:45:00,LINEA_B,LINEA_B_GALLARDO_S_TURN01,ANGEL GALLARDO,1,0,0,1,28
1947639,201802,28/02/2018,23:30:00,23:45:00,LINEA_E,LINEA_E_EMITRE_TURN02,EMILIO MITRE,0,0,0,0,53


In [6]:
#nos quedamos con la data mas reciente con el metodo LOC para seleccionar subset de datos
db = db.loc[(db.PERIODO == 201802) & (),:] 
db.PERIODO.value_counts()

ValueError: operands could not be broadcast together with shapes (1947641,) (0,) 

In [7]:
#Si uno descompone lo que hicimos recien en las muñecas rusas que lo componen:

#primero esta el filtro que quisimos crear
filtro = db.PERIODO == 201802
filtro[:5]

0    False
1    False
2    False
3    False
4    False
Name: PERIODO, dtype: bool

`loc` nos permite filtrar filas utilizando una lista de Verdaderos y Falsos (True,False). También podemos filtrar columnas por el nombre. `loc` para filtrar utiliza listas `True` o `False` o los `indices` que veremos más adelante. Por lo pronto, veamos que podemos filtrar por las columnas utilizando sus nombres. 

In [8]:
db.columns

Index(['PERIODO', 'FECHA', 'DESDE', 'HASTA', 'LINEA', 'MOLINETE', 'ESTACION',
       'PAX_PAGOS', 'PAX_PASES_PAGOS', 'PAX_FRANQ', 'TOTAL', 'ID'],
      dtype='object')

In [9]:
#elimino periodo porque ya se que es todo febrero
db = db.loc[:,['FECHA', 'DESDE', 'HASTA', 'LINEA', 'MOLINETE', 'ESTACION',
       'PAX_PAGOS', 'PAX_PASES_PAGOS', 'PAX_FRANQ', 'TOTAL', 'ID']]
db.head()

Unnamed: 0,FECHA,DESDE,HASTA,LINEA,MOLINETE,ESTACION,PAX_PAGOS,PAX_PASES_PAGOS,PAX_FRANQ,TOTAL,ID
0,01/01/2018,08:00:00,08:15:00,LINEA_A,LINEA_A_CBARROS_S_TURN01,CASTRO BARROS,1,0,0,1,40
1,01/01/2018,08:00:00,08:15:00,LINEA_A,LINEA_A_LIMA_S_TURN03,LIMA,4,0,0,4,33
2,01/01/2018,08:00:00,08:15:00,LINEA_A,LINEA_A_PASCO_TURN01,PASCO,1,0,0,1,36
3,01/01/2018,08:00:00,08:15:00,LINEA_A,LINEA_A_PERU_S_TURN01,PERU,4,0,0,4,31
4,01/01/2018,08:00:00,08:15:00,LINEA_A,LINEA_A_PJUNTA_S_TURN02,PRIMERA JUNTA,2,0,0,2,43


In [10]:
#usamos true y false en columnas
db.loc[:1025455,[True, False,False, False, False, False, False,
       False, False, False, True]]

Unnamed: 0,FECHA,ID
0,01/01/2018,40
1,01/01/2018,33
2,01/01/2018,36
3,01/01/2018,31
4,01/01/2018,43
...,...,...
1025451,01/02/2018,42
1025452,01/02/2018,37
1025453,01/02/2018,75
1025454,01/02/2018,40


In [11]:
db.iloc[:5,:3]

Unnamed: 0,FECHA,DESDE,HASTA
0,01/01/2018,08:00:00,08:15:00
1,01/01/2018,08:00:00,08:15:00
2,01/01/2018,08:00:00,08:15:00
3,01/01/2018,08:00:00,08:15:00
4,01/01/2018,08:00:00,08:15:00


In [12]:
#otro modo de hacer esto mismo (vinculado a la advertencia previa):
db.reindex(columns = ['FECHA', 'DESDE', 'HASTA',
                      'LINEA', 'ESTACION','TOTAL']).head(5)

Unnamed: 0,FECHA,DESDE,HASTA,LINEA,ESTACION,TOTAL
0,01/01/2018,08:00:00,08:15:00,LINEA_A,CASTRO BARROS,1
1,01/01/2018,08:00:00,08:15:00,LINEA_A,LIMA,4
2,01/01/2018,08:00:00,08:15:00,LINEA_A,PASCO,1
3,01/01/2018,08:00:00,08:15:00,LINEA_A,PERU,4
4,01/01/2018,08:00:00,08:15:00,LINEA_A,PRIMERA JUNTA,2


Noten que el resultado anterior no se guardo en una variable (la misma o una nueva), con lo cual solo me **muestra** una tabla con menos columnas, no cambio la tabla original. Si veo la tabla original veo que sigue con las mismas columnas

In [13]:
db.head()

Unnamed: 0,FECHA,DESDE,HASTA,LINEA,MOLINETE,ESTACION,PAX_PAGOS,PAX_PASES_PAGOS,PAX_FRANQ,TOTAL,ID
0,01/01/2018,08:00:00,08:15:00,LINEA_A,LINEA_A_CBARROS_S_TURN01,CASTRO BARROS,1,0,0,1,40
1,01/01/2018,08:00:00,08:15:00,LINEA_A,LINEA_A_LIMA_S_TURN03,LIMA,4,0,0,4,33
2,01/01/2018,08:00:00,08:15:00,LINEA_A,LINEA_A_PASCO_TURN01,PASCO,1,0,0,1,36
3,01/01/2018,08:00:00,08:15:00,LINEA_A,LINEA_A_PERU_S_TURN01,PERU,4,0,0,4,31
4,01/01/2018,08:00:00,08:15:00,LINEA_A,LINEA_A_PJUNTA_S_TURN02,PRIMERA JUNTA,2,0,0,2,43


In [14]:
#tamiben puedo eliminar la variable molinete porque a lo sumo vamos a trabajar con datos por estacion, no quiero tanta desagregacion
db = db.drop(['MOLINETE'],axis=1)
db.head()

Unnamed: 0,FECHA,DESDE,HASTA,LINEA,ESTACION,PAX_PAGOS,PAX_PASES_PAGOS,PAX_FRANQ,TOTAL,ID
0,01/01/2018,08:00:00,08:15:00,LINEA_A,CASTRO BARROS,1,0,0,1,40
1,01/01/2018,08:00:00,08:15:00,LINEA_A,LIMA,4,0,0,4,33
2,01/01/2018,08:00:00,08:15:00,LINEA_A,PASCO,1,0,0,1,36
3,01/01/2018,08:00:00,08:15:00,LINEA_A,PERU,4,0,0,4,31
4,01/01/2018,08:00:00,08:15:00,LINEA_A,PRIMERA JUNTA,2,0,0,2,43


## 3 Cuadros de doble entrada

Vimos como obtener una distribución de frecuencias. Ahora podemos ver una tabla de doble entrada.

In [15]:
#podemos unservar una tabla de doble entrada, de la vual solo vamos a ver los primer 5 registros 
pd.crosstab(db.ESTACION,db.LINEA).head()


LINEA,LINEA_A,LINEA_B,LINEA_C,LINEA_D,LINEA_E,LINEA_H
ESTACION,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
9 DE JULIO,0,0,0,21714,0,0
ACOYTE,31337,0,0,0,0,0
AGUERO,0,0,0,14501,0,0
ALBERTI,11668,0,0,0,0,0
ANGEL GALLARDO,0,22147,0,0,0,0


In [16]:
#podemos verlo en porcentajes con el parametro 'normalize' que puede ser columns o index
tabla = pd.crosstab(db.ESTACION,db.LINEA,
                    normalize='columns',
                    margins=True,
                    margins_name='Totales')
tabla.head() 

LINEA,LINEA_A,LINEA_B,LINEA_C,LINEA_D,LINEA_E,LINEA_H,Totales
ESTACION,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
9 DE JULIO,0.0,0.0,0.0,0.052506,0.0,0.0,0.011149
ACOYTE,0.074393,0.0,0.0,0.0,0.0,0.0,0.01609
AGUERO,0.0,0.0,0.0,0.035065,0.0,0.0,0.007445
ALBERTI,0.027699,0.0,0.0,0.0,0.0,0.0,0.005991
ANGEL GALLARDO,0.0,0.04762,0.0,0.0,0.0,0.0,0.011371


## 4 Elementos de un Pandas Dataframe

Ya hemos utilizado en alto nivel y de una manera utilitaria un dataframe haciendo algunas operaciones sencillas. Ahora vamos a intentar profundizar en los elementos que conforman un dataframe. Iremos desarmando las muñecas rusas. Volvamos a obtener la información del objeto

In [17]:
db.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1947641 entries, 0 to 1947640
Data columns (total 10 columns):
FECHA              object
DESDE              object
HASTA              object
LINEA              object
ESTACION           object
PAX_PAGOS          int64
PAX_PASES_PAGOS    int64
PAX_FRANQ          int64
TOTAL              int64
ID                 int64
dtypes: int64(5), object(5)
memory usage: 148.6+ MB


Vemos primero el tipo: class pandas.core.frame.DataFrame. Luego podemos ver el primer elemento que lo conforma: un índice

In [18]:
db.index

RangeIndex(start=0, stop=1947641, step=1)

In [19]:
db.head(3)

Unnamed: 0,FECHA,DESDE,HASTA,LINEA,ESTACION,PAX_PAGOS,PAX_PASES_PAGOS,PAX_FRANQ,TOTAL,ID
0,01/01/2018,08:00:00,08:15:00,LINEA_A,CASTRO BARROS,1,0,0,1,40
1,01/01/2018,08:00:00,08:15:00,LINEA_A,LIMA,4,0,0,4,33
2,01/01/2018,08:00:00,08:15:00,LINEA_A,PASCO,1,0,0,1,36


El índice lo muestra en el notebook a la izquierda en negrita. Vemos que comienza en 1025451. Si vuelven al comienzo cuando cargamos la tabla por primera vez verán que comenzaba en 0. Recuerden que filtramos los casos de febrero, por eso ya no comienza en 0. En muchas ocasiones, el índice no es más que un número que identifica cada registro, desde 0 hasta la cantidad de registros (menos 1). En otros análisis, se puede indexar por un atributo que tenga significado, como puede ser una serie de tiempo.  

El segundo elemento que muestra son las columnas

In [20]:
db.columns

Index(['FECHA', 'DESDE', 'HASTA', 'LINEA', 'ESTACION', 'PAX_PAGOS',
       'PAX_PASES_PAGOS', 'PAX_FRANQ', 'TOTAL', 'ID'],
      dtype='object')

In [21]:
#creamos una copia de la original para mostrar como podemos cambiar los nombres de las columnas
db_columnas = db.copy()

In [22]:
db_columnas.columns =  ['fecha','desde','hasta','linea','estacion','pagos','pases','franquicia','total','id']
db_columnas.head()

Unnamed: 0,fecha,desde,hasta,linea,estacion,pagos,pases,franquicia,total,id
0,01/01/2018,08:00:00,08:15:00,LINEA_A,CASTRO BARROS,1,0,0,1,40
1,01/01/2018,08:00:00,08:15:00,LINEA_A,LIMA,4,0,0,4,33
2,01/01/2018,08:00:00,08:15:00,LINEA_A,PASCO,1,0,0,1,36
3,01/01/2018,08:00:00,08:15:00,LINEA_A,PERU,4,0,0,4,31
4,01/01/2018,08:00:00,08:15:00,LINEA_A,PRIMERA JUNTA,2,0,0,2,43


In [23]:
#podemos hacer lo mismo que haríamos con cualquier lista
db_columnas.columns = db_columnas.columns.map(str.upper)
db_columnas.head()

Unnamed: 0,FECHA,DESDE,HASTA,LINEA,ESTACION,PAGOS,PASES,FRANQUICIA,TOTAL,ID
0,01/01/2018,08:00:00,08:15:00,LINEA_A,CASTRO BARROS,1,0,0,1,40
1,01/01/2018,08:00:00,08:15:00,LINEA_A,LIMA,4,0,0,4,33
2,01/01/2018,08:00:00,08:15:00,LINEA_A,PASCO,1,0,0,1,36
3,01/01/2018,08:00:00,08:15:00,LINEA_A,PERU,4,0,0,4,31
4,01/01/2018,08:00:00,08:15:00,LINEA_A,PRIMERA JUNTA,2,0,0,2,43


Si observamos cada columna, vemos que cada una de ellas es un objeto del tipo **Pandas Series** 

In [24]:
type(db.FECHA)

pandas.core.series.Series

Vemos tambien que tienen un indice:

In [25]:
db.FECHA.head()

0    01/01/2018
1    01/01/2018
2    01/01/2018
3    01/01/2018
4    01/01/2018
Name: FECHA, dtype: object

Si vemos las otras columnas, todas tienen el mismo indice:

In [26]:
db.DESDE.head()

0    08:00:00
1    08:00:00
2    08:00:00
3    08:00:00
4    08:00:00
Name: DESDE, dtype: object

Por lo tanto podemos pensar en que los **Dataframes** son un conjunto de **Series**, que comparten el mismo índice

##### Pequeña disgresión sobre *loc* e *iloc*
*iloc* sirve para obtener datos en base a su ubicación en la tabla, que es relativa, ya que uno puede ordenar la tabla de diferentes modos. *loc* selecciona en base a los valores 

In [48]:
#este comando devuelve error porque no existe el indice 0, porque lo filtramos previamente. 
#Si leemos el texto del error nos da indicios de esta situación

db.FECHA.loc[0]

KeyError: 0

In [49]:
#lo mismo vale para seleccionar dataframes
db.iloc[:2,:3]

Unnamed: 0,FECHA,DESDE,HASTA
1025451,01/02/2018,05:30:00,05:45:00
1025452,01/02/2018,05:30:00,05:45:00


In [None]:
#esto produce un error
#db.loc[:2,:3]

In [None]:
db.loc[[1025451,1025452],['FECHA','DESDE','HASTA']]

##### Fin de la pequeña disgresión sobre *loc* e *iloc*


## 5 Manipulacion de datos y crear columnas

Ahora vamos a ver el sentido de todo ese limar y pulir de la clase anterior. Queremos saber qué día es cada registro. Para eso vamos a tener que hacerle transformaciones a los datos.

In [50]:
db.FECHA.iloc[0]

'01/02/2018'

In [51]:
type(db.FECHA.iloc[0])

str

Como vemos es un texto simple. Pero hay diversas maneras de obtener el resultado que queremos. Comunmente no existe una única manera de solucionar un problema en Python, en cualquier lenguaje de programación, o en la vida misma. Esto da la sensación de libertad pero a la vez abruma.

Comencemos con el más sencillo. Sabemos que el día son los 2 primeros dígitos de la fecha.

In [52]:
db.FECHA.iloc[0][:2]

'01'

Pero nos gustaria que nos devuelva un número, no un caracter de texto

In [53]:
int(db.FECHA.iloc[0][:2])

1

Perfecto, ahora que sabemos lo que tenemos que hacer con un caso típico, podemos hacerlo para todos los casos. ¿Cómo? En la clase anterior vimos 3 modos:

* for loop
* list comprehension 
* map

Tenemos que repetir una misma tarea rutinaria una y otra vez sobre toda una serie de elementos. Esto es una buena indicación de que deberíamos crear una función.

In [28]:
def obtener_el_dia(fecha):
    '''
    Esta función toma una fecha en texto en formato dd/mm/yyyy
    y devuelve el día en un numero entero
    '''
    return int(fecha[:2])

Testeemos nuestra función

In [55]:
obtener_el_dia(db.FECHA.iloc[0])

1

In [56]:
help(obtener_el_dia)

Help on function obtener_el_dia in module __main__:

obtener_el_dia(fecha)
    Esta función toma una fecha en texto en formato dd/mm/yyyy
    y devuelve el día en un numero entero



In [30]:
import time #esto nos va a permitir ver cuanto tarda en correr nuestro codigo y ver la diferencia en los 3 metodos

In [58]:
#aplicamos nuestra funcion a las fechas de los 3 modos
#NOTEN COMO PODEMOS UTILIZAR EL INDEX DEL PANDAS DATAFRAME Y COMO USAMOS LOC Y NO ILOC
start = time.time()
fechas_loop = []
for i in db.index:
    dia = obtener_el_dia(db.FECHA.loc[i])
    fechas_loop.append(dia) 
    #noten como append modifica la lista fehcas_loop sin tener que guardar el resultado en una nueva variable
end = time.time()
print('tardo en ejecutar',round(end - start),'segundos')

tardo en ejecutar 21 segundos


In [59]:
#list comprehension
start = time.time()
fechas_list_comp = [obtener_el_dia(db.FECHA.loc[i]) for i in db.index]
end = time.time()
print('tardo en ejecutar',round(end - start),'segundos')

tardo en ejecutar 20 segundos


In [60]:
#ambas producen la misma lista?
fechas_list_comp == fechas_loop

True

In [31]:
#map
start = time.time()
fechas_map = db.FECHA.map(obtener_el_dia)
end = time.time()
print('tardo en ejecutar',round(end - start),'segundos')


tardo en ejecutar 1 segundos


In [32]:
type(fechas_list_comp)

NameError: name 'fechas_list_comp' is not defined

In [33]:
type(fechas_map)

pandas.core.series.Series

In [34]:
fechas_map == fechas_list_comp

NameError: name 'fechas_list_comp' is not defined

In [66]:
#produce lo mismo? si y no. El resultado es una serie de pandas, no una lista. 
#Al evaluarla contra la lista, evalua punto por punto
(fechas_map == fechas_list_comp).sum()

922190

In [67]:
db.shape

(922190, 10)

In [68]:
#si lo convertimos primero en una lista, ahi si podemos comparar peras con manzamas, lista con lista
list(fechas_map) == fechas_list_comp

True

In [35]:
#guardamos nuestros dias en una nueva columna de nuestro dataframe
db['dia'] = fechas_map

In [36]:
db['dia'] = db.FECHA.map(obtener_el_dia)


In [37]:
#esta es una forma mas correctares
db.loc[:,'dia'] = fechas_map

In [38]:
db.head()

Unnamed: 0,FECHA,DESDE,HASTA,LINEA,ESTACION,PAX_PAGOS,PAX_PASES_PAGOS,PAX_FRANQ,TOTAL,ID,dia
0,01/01/2018,08:00:00,08:15:00,LINEA_A,CASTRO BARROS,1,0,0,1,40,1
1,01/01/2018,08:00:00,08:15:00,LINEA_A,LIMA,4,0,0,4,33,1
2,01/01/2018,08:00:00,08:15:00,LINEA_A,PASCO,1,0,0,1,36,1
3,01/01/2018,08:00:00,08:15:00,LINEA_A,PERU,4,0,0,4,31,1
4,01/01/2018,08:00:00,08:15:00,LINEA_A,PRIMERA JUNTA,2,0,0,2,43,1


In [39]:
db.dia.value_counts()

26    72234
16    72154
22    72113
23    72074
5     71881
19    71682
8     71473
2     71397
9     71350
15    70946
24    67779
20    67712
27    67542
3     67437
10    67225
17    67015
6     66514
21    60733
25    60564
28    60527
7     60452
18    60024
12    59990
4     59206
11    59195
14    59083
1     56788
13    55005
31    36050
30    35887
29    35609
Name: dia, dtype: int64

Ahora, nosotros podemos saber si el dia fue el 1ero o el 15. Pero al analizar flujo de transporte, es más importante saber si fue lunes o domingo que si fue principio o fin de mes. Entonces queremos saber que dia de la semana fue ese dia

In [40]:
from datetime import datetime #esta es una nueva libreria que me deja manipular fechas

Esta librería nos va a dejar trabajar con objetos de tipo *datetime* que tienen algunas propiedades que nos van a resultar convenientes

In [41]:
fecha = datetime.strptime(db.FECHA.iloc[0],'%d/%m/%Y')
fecha

datetime.datetime(2018, 1, 1, 0, 0)

In [42]:
datetime.strptime?

In [43]:
type(fecha)

datetime.datetime

Una de esas propiedades es la de obtener el día calendario con el metodo o función *weekday()*

In [44]:
datetime.strptime(db.FECHA.iloc[0],'%d/%m/%Y').weekday()

0

In [45]:
help(datetime.weekday)

Help on method_descriptor:

weekday(...)
    Return the day of the week represented by the date.
    Monday == 0 ... Sunday == 6



In [46]:
def obtener_dia_semana(fecha):
    return datetime.strptime(fecha,'%d/%m/%Y').weekday()

In [47]:
db.loc[:,'dia_semana'] = db.FECHA.map(obtener_dia_semana)

In [48]:
type(db.dia_semana.iloc[0])

numpy.int64

In [49]:
db.dia_semana.unique()

array([0, 1, 2, 3, 4, 5, 6])

In [50]:
db.dia_semana.value_counts()

2    323695
1    309729
0    294745
4    288548
3    285973
5    251181
6    193770
Name: dia_semana, dtype: int64

In [51]:
db.dia_semana = db.dia_semana.replace({0:'lunes',
                                      1:'martes',
                                      2:'miercoles',
                                      3:'jueves',
                                      4:'viernes',
                                      5:'sabado',
                                      6:'domingo'})

In [52]:
db.dia_semana.value_counts()

miercoles    323695
martes       309729
lunes        294745
viernes      288548
jueves       285973
sabado       251181
domingo      193770
Name: dia_semana, dtype: int64

In [53]:
db.head()

Unnamed: 0,FECHA,DESDE,HASTA,LINEA,ESTACION,PAX_PAGOS,PAX_PASES_PAGOS,PAX_FRANQ,TOTAL,ID,dia,dia_semana
0,01/01/2018,08:00:00,08:15:00,LINEA_A,CASTRO BARROS,1,0,0,1,40,1,lunes
1,01/01/2018,08:00:00,08:15:00,LINEA_A,LIMA,4,0,0,4,33,1,lunes
2,01/01/2018,08:00:00,08:15:00,LINEA_A,PASCO,1,0,0,1,36,1,lunes
3,01/01/2018,08:00:00,08:15:00,LINEA_A,PERU,4,0,0,4,31,1,lunes
4,01/01/2018,08:00:00,08:15:00,LINEA_A,PRIMERA JUNTA,2,0,0,2,43,1,lunes


## 6 Agrupación, transformación, agregación

Una de las ventajas de conjuntos de datos ordenados es que permiten realizar transformaciones avanzadas de una manera más directa. Una de las más comunes es lo que se llama operaciones "grupales". Originadas en el mundo de las bases de datos, estas operaciones le permiten agrupar las observaciones en una tabla mediante una de sus etiquetas, índice o categoría, y aplicar operaciones en el grupo de datos por grupo.

Por ejemplo, dada nuestra tabla ordenada por linea, estacion, dia, calcular la suma total de transacciones agrupadas por diferentes categorias.

Para hacer esto en `pandas`, podemos usar uno de sus caballos de batalla, y también una de las razones por las que la biblioteca se ha vuelto tan popular: el operador` groupby`.


In [54]:
db.head()

Unnamed: 0,FECHA,DESDE,HASTA,LINEA,ESTACION,PAX_PAGOS,PAX_PASES_PAGOS,PAX_FRANQ,TOTAL,ID,dia,dia_semana
0,01/01/2018,08:00:00,08:15:00,LINEA_A,CASTRO BARROS,1,0,0,1,40,1,lunes
1,01/01/2018,08:00:00,08:15:00,LINEA_A,LIMA,4,0,0,4,33,1,lunes
2,01/01/2018,08:00:00,08:15:00,LINEA_A,PASCO,1,0,0,1,36,1,lunes
3,01/01/2018,08:00:00,08:15:00,LINEA_A,PERU,4,0,0,4,31,1,lunes
4,01/01/2018,08:00:00,08:15:00,LINEA_A,PRIMERA JUNTA,2,0,0,2,43,1,lunes


In [64]:
trx_por_dia = db.loc[:,['dia_semana','TOTAL']]
trx_por_dia = trx_por_dia.groupby('dia_semana').sum()
trx_por_dia

Unnamed: 0_level_0,TOTAL
dia_semana,Unnamed: 1_level_1
domingo,1679466
jueves,8158303
lunes,7299023
martes,8239672
miercoles,9261202
sabado,3200674
viernes,7987977


In [66]:
trx_por_dia = db.loc[:,['dia_semana','TOTAL']].groupby('dia_semana').sum()
trx_por_dia.sort_values(by='TOTAL')

Unnamed: 0_level_0,TOTAL
dia_semana,Unnamed: 1_level_1
domingo,1679466
sabado,3200674
lunes,7299023
viernes,7987977
jueves,8158303
martes,8239672
miercoles,9261202


In [67]:
#tambien podemos elegir otras funciones
db.loc[:,['LINEA','TOTAL']].groupby(['LINEA']).describe()

Unnamed: 0_level_0,TOTAL,TOTAL,TOTAL,TOTAL,TOTAL,TOTAL,TOTAL,TOTAL
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
LINEA,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
LINEA_A,421236.0,20.587253,22.728873,0.0,5.0,14.0,27.0,254.0
LINEA_B,465075.0,26.602531,28.625291,0.0,6.0,17.0,38.0,370.0
LINEA_C,258814.0,29.633548,34.653312,0.0,6.0,17.0,40.0,257.0
LINEA_D,413551.0,24.734103,24.087426,0.0,6.0,18.0,37.0,238.0
LINEA_E,182277.0,15.501089,17.202034,0.0,4.0,10.0,20.0,190.0
LINEA_H,206688.0,19.634285,19.270188,0.0,5.0,14.0,28.0,209.0


In [71]:
db.reindex(columns = ['LINEA','TOTAL','PAX_PAGOS'])\
        .groupby('LINEA')\
        .agg({'TOTAL':np.sum,
             'PAX_PAGOS':np.max})

Unnamed: 0_level_0,TOTAL,PAX_PAGOS
LINEA,Unnamed: 1_level_1,Unnamed: 2_level_1
LINEA_A,8672092,254
LINEA_B,12372172,370
LINEA_C,7669577,257
LINEA_D,10228813,234
LINEA_E,2825492,188
LINEA_H,4058171,209


In [68]:
#incluso podemos introducir diferentes funciones que querramos a eleccion
db.loc[:,['LINEA','TOTAL']].groupby(['LINEA']).agg([np.sum,np.std,np.mean])

Unnamed: 0_level_0,TOTAL,TOTAL,TOTAL
Unnamed: 0_level_1,sum,std,mean
LINEA,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
LINEA_A,8672092,22.728873,20.587253
LINEA_B,12372172,28.625291,26.602531
LINEA_C,7669577,34.653312,29.633548
LINEA_D,10228813,24.087426,24.734103
LINEA_E,2825492,17.202034,15.501089
LINEA_H,4058171,19.270188,19.634285


In [72]:
#podemos ordenar los datos
trx_por_dia.sort_values(by='TOTAL',ascending = False)

Unnamed: 0_level_0,TOTAL
dia_semana,Unnamed: 1_level_1
miercoles,9261202
martes,8239672
jueves,8158303
viernes,7987977
lunes,7299023
sabado,3200674
domingo,1679466


In [77]:
#podemos agrupar por dos categorias
trx_por_dia_linea = db.loc[:,['LINEA','dia_semana','TOTAL']].groupby(['LINEA','dia_semana']).sum()
trx_por_dia_linea.sort_values(by=['LINEA','TOTAL'],ascending=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,TOTAL
LINEA,dia_semana,Unnamed: 2_level_1
LINEA_H,miercoles,804054
LINEA_H,martes,714534
LINEA_H,jueves,706385
LINEA_H,viernes,693950
LINEA_H,lunes,627894
LINEA_H,sabado,338475
LINEA_H,domingo,172879
LINEA_E,miercoles,580512
LINEA_E,martes,510419
LINEA_E,jueves,503195


In [78]:
#o 3
trx_por_linea_estacion = db.loc[:,['LINEA','ESTACION','TOTAL']].groupby(['LINEA','ESTACION']).sum()
trx_por_linea_estacion.sort_values(by='TOTAL',ascending=False).head(10)

Unnamed: 0_level_0,Unnamed: 1_level_0,TOTAL
LINEA,ESTACION,Unnamed: 2_level_1
LINEA_C,CONSTITUCION,3579094
LINEA_C,RETIRO,1840136
LINEA_B,FEDERICO LACROZE,1371481
LINEA_D,CATEDRAL,1333319
LINEA_D,CONGRESO DE TUCUMAN,1298988
LINEA_A,SAN PEDRITO,1144383
LINEA_B,ROSAS,1136160
LINEA_B,LEANDRO N. ALEM,1105401
LINEA_B,FLORIDA,945432
LINEA_B,CARLOS PELLEGRINI,938292


Supongamos que queremos ver solamente las estaciones de la linea B para ver cuales son las que tienen la mayor cantidad de pasajeros. Vamos a encontrarnos con una dificultad.  

In [79]:
#si observamos las columnas vemos que no es ningun problema
trx_por_linea_estacion.columns

Index(['TOTAL'], dtype='object')

In [80]:
#pero cuando vemos el indice vemos que es diferente, es de tipo MultiIndex
trx_por_linea_estacion.index

MultiIndex([('LINEA_A',               'ACOYTE'),
            ('LINEA_A',              'ALBERTI'),
            ('LINEA_A',             'CARABOBO'),
            ('LINEA_A',        'CASTRO BARROS'),
            ('LINEA_A',             'CONGRESO'),
            ('LINEA_A',               'FLORES'),
            ('LINEA_A',                 'LIMA'),
            ('LINEA_A',                'LORIA'),
            ('LINEA_A',                'PASCO'),
            ('LINEA_A',                 'PERU'),
            ('LINEA_A',              'PIEDRAS'),
            ('LINEA_A',        'PLAZA DE MAYO'),
            ('LINEA_A',       'PLAZA MISERERE'),
            ('LINEA_A',        'PRIMERA JUNTA'),
            ('LINEA_A',                 'PUAN'),
            ('LINEA_A',       'RIO DE JANEIRO'),
            ('LINEA_A',           'SAENZ PEÑA'),
            ('LINEA_A',          'SAN PEDRITO'),
            ('LINEA_B',       'ANGEL GALLARDO'),
            ('LINEA_B',             'CALLAO.B'),
            ('LINEA_

Todas las operaciones de tipo *groupby* devuelven tablas con indices multi-nivel. Si bien introduce una complejidad que enriquece para ciertas operaciones, en lo cotidiano puede resultar algo molesto. Para eso existe un modo sencillo de resolver el problema.  

In [81]:
tabla_simple = trx_por_linea_estacion.reset_index()
tabla_simple.head()

Unnamed: 0,LINEA,ESTACION,TOTAL
0,LINEA_A,ACOYTE,589391
1,LINEA_A,ALBERTI,199236
2,LINEA_A,CARABOBO,486652
3,LINEA_A,CASTRO BARROS,380766
4,LINEA_A,CONGRESO,544381


In [85]:
tabla_simple.loc[tabla_simple.LINEA=='LINEA_A',:]

Unnamed: 0,LINEA,ESTACION,TOTAL
0,LINEA_A,ACOYTE,589391
1,LINEA_A,ALBERTI,199236
2,LINEA_A,CARABOBO,486652
3,LINEA_A,CASTRO BARROS,380766
4,LINEA_A,CONGRESO,544381
5,LINEA_A,FLORES,509561
6,LINEA_A,LIMA,333810
7,LINEA_A,LORIA,320843
8,LINEA_A,PASCO,167009
9,LINEA_A,PERU,614791


Ese comando resetea el index, alojando el index anterior como columnas. Lo que nos devuelve un dataframe "tradicional" manipulable de manera más intuitiva. Aunque eso es relativo, si les interesa profundizar, a continuación hay una pequeña disgresión donde profundiza aún más y se relativiza lo "intuitivo". 

In [86]:
tabla_simple.index

RangeIndex(start=0, stop=86, step=1)

In [87]:
tabla_simple.loc[tabla_simple.LINEA == 'LINEA_B',:].sort_values(by='TOTAL',ascending=False).head()

Unnamed: 0,LINEA,ESTACION,TOTAL
24,LINEA_B,FEDERICO LACROZE,1371481
32,LINEA_B,ROSAS,1136160
26,LINEA_B,LEANDRO N. ALEM,1105401
25,LINEA_B,FLORIDA,945432
21,LINEA_B,CARLOS PELLEGRINI,938292


### Disgresión con más detalles sobre MultiIndex 

Los índices múltiples en realidad no son más tanto complejos, sólo que tienen un tratamiento algo diferente. Veamos como seleccionar datos en tablas con indices múltiples. En la tabla original, uno puede buscar primero por columna y luego por el indice de esa columna (recordemos que los **Dataframe** son **Series** ordenadas, esto sería buscar una **Serie** primero al nombrarla por el nombre de la columna y luego un indice dentro de la **Serie**) 

In [None]:
#asi buscamos un valor puntal en los dataframes. Pero en un dataframe con un indice simple, "dentro" de esta muñeca rusa,
# para una columna y una fila, hay una sola celda
db['FECHA'][1025451]

In [88]:
# podemos hacerlo mismo primero por columna y luego por fila. Solo que al ser un indice doble para las filas, 
# dentro de esa fila no hay una celda, sino una Serie
trx_por_linea_estacion['TOTAL']['LINEA_B']

ESTACION
ANGEL GALLARDO        634704
CALLAO.B              688736
CARLOS GARDEL         750002
CARLOS PELLEGRINI     938292
DORREGO               508257
ECHEVERRIA            292023
FEDERICO LACROZE     1371481
FLORIDA               945432
LEANDRO N. ALEM      1105401
LOS INCAS             453328
MALABIA               837948
MEDRANO               714772
PASTEUR               534782
PUEYRREDON            553037
ROSAS                1136160
TRONADOR              254179
URUGUAY               653638
Name: TOTAL, dtype: int64

In [None]:
#loc nos permitia hacer una operacion similar
db.loc[1025451,'FECHA']

In [None]:
db.loc[[1025451,1025452],'FECHA']

In [None]:
#buscamos con loc para un indice multiple
trx_por_linea_estacion.loc[['LINEA_B'],'TOTAL']

In [None]:
#buscamos mas de una linea
trx_por_linea_estacion.loc[['LINEA_B','LINEA_C'],'TOTAL']

In [89]:
#buscamos estaciones puntuales dentro de esas lineas
trx_por_linea_estacion.loc[[('LINEA_B','CALLAO.B'),('LINEA_C','CONSTITUCION')],'TOTAL']

LINEA    ESTACION    
LINEA_B  CALLAO.B         688736
LINEA_C  CONSTITUCION    3579094
Name: TOTAL, dtype: int64

Cuando usamos agg (corto para *aggregate*) nos queda una tabla con multiindice en las columnas. Los datos en estas tablas también pueden accederse con el mismo criterio.

In [None]:
resumen = db.loc[:,['LINEA','TOTAL','PAX_PASES_PAGOS']].groupby(['LINEA']).describe()
resumen

In [None]:
resumen.index

In [None]:
db.columns

In [None]:
resumen.loc['LINEA_A',['TOTAL','PAX_PASES_PAGOS']]

In [None]:
resumen.loc['LINEA_A',('TOTAL','count')]

In [None]:
resumen.loc[['LINEA_A','LINEA_B'],('TOTAL','count')]

In [None]:
resumen.loc[['LINEA_A','LINEA_B'],('TOTAL',['count','mean'])]

In [None]:
resumen.loc[['LINEA_A','LINEA_B'],[('TOTAL','count'),('TOTAL','mean')]]

Sin embargo, la solución sencilla este caso que es resetar los indices, no arroja un resultado satisfactorio

In [None]:
resumen = db.loc[:,['LINEA','TOTAL']].groupby(['LINEA']).describe()


In [None]:
resumen.reset_index()

In [None]:
#vemos que tenemos un indice multiple a nivel de COLUMNAS 
resumen.reset_index().columns

In [None]:
#en este caso, cuando el indice multiple esta en las columnas, siempre podemos modificar eliminano un nivel
resumen.columns = resumen.columns.droplevel(0)
resumen

In [None]:
#si desean que la linea este en las columnas, pueden resetear el index de nuevo
resumen_reset = resumen.reset_index()
resumen_reset

Pero en esto se puede ver la ventaja de usar indices que no sean simplemente números, si no que podemos indexar por algo significativo como la línea. De esta manera es más sencillo acceder a los datos

In [None]:
resumen.loc[['LINEA_A'],:]

In [None]:
#en lugar de:
resumen_reset.loc[resumen_reset.LINEA == 'LINEA_A',:]

Esta forma de indexar genera formas mas complejas y más potentes de acceder y organizar los datos. Como siempre, se trata de juzgar en qué medida esa complejidad es necesaria.

### Fin de disgresión con más detalles sobre MultiIndex 

## 7 Formatos largos y anchos

Volvamos a nuestra dataframe que venimos trabajando para ver una cuestion de estructura de los datos. Los llamados formatos *anchos* y *largos*

In [90]:
db.head()

Unnamed: 0,FECHA,DESDE,HASTA,LINEA,ESTACION,PAX_PAGOS,PAX_PASES_PAGOS,PAX_FRANQ,TOTAL,ID,dia,dia_semana
0,01/01/2018,08:00:00,08:15:00,LINEA_A,CASTRO BARROS,1,0,0,1,40,1,lunes
1,01/01/2018,08:00:00,08:15:00,LINEA_A,LIMA,4,0,0,4,33,1,lunes
2,01/01/2018,08:00:00,08:15:00,LINEA_A,PASCO,1,0,0,1,36,1,lunes
3,01/01/2018,08:00:00,08:15:00,LINEA_A,PERU,4,0,0,4,31,1,lunes
4,01/01/2018,08:00:00,08:15:00,LINEA_A,PRIMERA JUNTA,2,0,0,2,43,1,lunes


In [91]:
#generamos primero un agregado por linea y estacion para obtener una suma por estacion para todo el mes
subset = db.loc[:,['LINEA','ESTACION','PAX_PAGOS','PAX_PASES_PAGOS','PAX_FRANQ']]
subset = subset.groupby(['LINEA','ESTACION']).sum().reset_index()
subset.head()


Unnamed: 0,LINEA,ESTACION,PAX_PAGOS,PAX_PASES_PAGOS,PAX_FRANQ
0,LINEA_A,ACOYTE,563107,346,25938
1,LINEA_A,ALBERTI,188828,150,10258
2,LINEA_A,CARABOBO,467108,396,19148
3,LINEA_A,CASTRO BARROS,365089,261,15416
4,LINEA_A,CONGRESO,524168,254,19959


In [92]:
#podemos convertir este formato "ancho" en "largo"
subset = pd.wide_to_long(df = subset,
                         stubnames = 'PAX_',
                         i=['LINEA','ESTACION'],
                         j="tipo",suffix='\w+')
subset = subset.reset_index()
subset.head()

Unnamed: 0,LINEA,ESTACION,tipo,PAX_
0,LINEA_A,ACOYTE,PAGOS,563107
1,LINEA_A,ACOYTE,PASES_PAGOS,346
2,LINEA_A,ACOYTE,FRANQ,25938
3,LINEA_A,ALBERTI,PAGOS,188828
4,LINEA_A,ALBERTI,PASES_PAGOS,150


In [None]:
#podemos hacer lo contrario y pasar de largo a ancho
subset.pivot_table(index=['LINEA','ESTACION'], columns='tipo', values='PAX_')

## Procesamiento para la clase siguiente

Nuestro objetivo es ver como se comporta el subte de acuerdo al dia y al tipo de hora. Tenemos que obtener entonces la hora del dia

In [93]:
#que estamos haciendo con esta operación??
db['hora'] = db.DESDE.map(lambda x: int(x[:2])) 
db.head()

Unnamed: 0,FECHA,DESDE,HASTA,LINEA,ESTACION,PAX_PAGOS,PAX_PASES_PAGOS,PAX_FRANQ,TOTAL,ID,dia,dia_semana,hora
0,01/01/2018,08:00:00,08:15:00,LINEA_A,CASTRO BARROS,1,0,0,1,40,1,lunes,8
1,01/01/2018,08:00:00,08:15:00,LINEA_A,LIMA,4,0,0,4,33,1,lunes,8
2,01/01/2018,08:00:00,08:15:00,LINEA_A,PASCO,1,0,0,1,36,1,lunes,8
3,01/01/2018,08:00:00,08:15:00,LINEA_A,PERU,4,0,0,4,31,1,lunes,8
4,01/01/2018,08:00:00,08:15:00,LINEA_A,PRIMERA JUNTA,2,0,0,2,43,1,lunes,8


### Otra, pero la ultima, disgresion

Podríamos haber utilizado las funciones (o métodos) de los objetos del tipo datetime y así como extrajimos el tipo de día, extraer la hora. Pero repasemos lo que hicimos previamente. Primero utilizamos una funcion 

`
def obtener_dia_semana(fecha):
    return datetime.strptime(fecha,'%d/%m/%Y').weekday()
`

y la aplicamos con `map()` a la columna FECHA, que era un *string*.

`db.loc[:,'dia_semana'] = db.FECHA.map(obtener_dia_semana)`

La función que creamos, toma cada elemento de la fecha, cada string que hay en la **Serie** *FECHA*, lo transforma en tipo **datetime** y obtiene el día de la semana *DEJANDO COMO STRING LOS DATOS ORIGINALES*.

Podríamos obtener la hora del siguiente modo:

In [None]:
datetime.strptime(db.FECHA.iloc[0],'%d/%m/%Y').hour

Parecería que es la hora 0, pero si observamos bien, no es así:

In [None]:
db.iloc[100]

En el campo fecha, no hay información sobre la hora. Esto se encuentra en los campos DESDE y HASTA

In [None]:
db.head()

Pero aún si conteniese dicha información, nuestra función tomaba el texto, lo convertía en un objeto del tipo **datetime** y nos devolvía la hora como número entero. Podríamos tomar el campo DESDE y hacer el mismo proceso de convertisión. Sin embargo, estaríamos haciendo dos veces el mismo trabajo (tomar un **string**, convertirlo a **datetime** y luego extraer la hora y el día). 

Entonces podemos introducir dos consejos del pensamiento computacional:

* Saber de antemano qué vamos a hacer, planificar claramente y luego ejecutar
* Cuando un proceso se repite varias veces, es una señal de que algo mal estamos haciendo

Si sabemos de antemano que queremos obtener el tipo de día y hora, podemos crear una columna que contenga toda la información que deseamos (fecha y hora), luego convertir esta nueva columna UNA SOLA VEZ en objeto **datetime** y ahi sí extraer la información que deseamos


In [None]:
db['fecha_hora'] = pd.to_datetime(db.FECHA + ' ' + db.DESDE,format = '%d/%m/%Y %H:%M:%S')
db['hora_date'] = db.fecha_hora.map(lambda x: x.hour) 
db['dia_semana_date'] = db.fecha_hora.map(lambda x: x.weekday())

In [None]:
db.head()

¿Por qué utilizamos `()` en `weekday()` mientras que no lo usamos en `hour`?

Esta diferencia responde a temas más profundos de lenguajes de programación orientados a objetos (Python es uno de ellos). La diferencia fundamental es que uno puede decidir cambiarle la hora, el día, el mes a un objeto. Podemos obligar a los datos a cambiar y que sean otros (supongamos que algún molinete tiene un error que suma 1 hora, entonces podríamos cambiarle la hora a todos los molinetes de esa estación). Pero el 9 de Octubre de 2018 es martes, si o si (por lo menos en el mundo occidental donde rige el [calendario gregoriano](https://en.wikipedia.org/wiki/List_of_calendars)).

Algo más en este [link](https://stackoverflow.com/questions/41617547/why-is-datetime-minute-an-attribute-while-datetime-weekday-is-a-function)

Sin embargo, el método que utilizamos de recortar los primeros 2 caracteres, también nos da la información que necesitamos. Nunca hay una solución única para un problema. Si encuentran una función efectiva, que resuelve el problema, aún cuando tarde más tiempo, es la solución correcta. 

### Fin de la ultima disgresión (de la clase)


Para concluir, queremos agrupar tipo de día de la semana, hora y estacion (vamos a usar el campo ID, que veremos en la clase 3 el por qué de usar ID y no el nombre ESTACION). Pero más que si un día es lunes o sábado, queremos saber si es día de semana o día hábil ya que esperamos que el comportamiento sea diferente en ambos casos. Podríamos repetir un `replace()` donde reemplacemos *lunes* por *no*, *domingo* por *si* y así sucesivamente. O podemos usar una `list compehension` con clausulas `if - else` que ademas deje como resultado directamente True or False para luego usar como filtros

In [94]:
db['fin_de_semana'] = [True if ((dia == 'domingo') | (dia == 'sabado')) else False for dia in db.dia_semana]

In [95]:
db.dia_semana.value_counts()

miercoles    323695
martes       309729
lunes        294745
viernes      288548
jueves       285973
sabado       251181
domingo      193770
Name: dia_semana, dtype: int64

In [96]:
#chequeamos que hayamos hecho bien el trabajo
db.fin_de_semana.value_counts()

False    1502690
True      444951
Name: fin_de_semana, dtype: int64

In [98]:
 251181+193770

444951

In [99]:
db.fin_de_semana.sum()

444951

In [100]:
db.loc[~db.fin_de_semana,'dia_semana'].value_counts()

miercoles    323695
martes       309729
lunes        294745
viernes      288548
jueves       285973
Name: dia_semana, dtype: int64

In [101]:
#finalmente podemos procesar los datos
dataInsumo = db.loc[:,['fin_de_semana','hora','LINEA','ID','TOTAL']].groupby(['fin_de_semana','hora','LINEA','ID',]).mean().reset_index()
#cambiamos la ultima columnad de nombre a promedio, sumando la palabra promedio a los nombres hasta el ultimo exclusive  
dataInsumo.columns = dataInsumo.columns[:-1].tolist() + ['promedio']
dataInsumo.head()

Unnamed: 0,fin_de_semana,hora,LINEA,ID,promedio
0,False,5,LINEA_A,31,1.807531
1,False,5,LINEA_A,32,1.729282
2,False,5,LINEA_A,33,2.037791
3,False,5,LINEA_A,34,1.874525
4,False,5,LINEA_A,35,2.972561


In [102]:
#luego agregamos los quintiles, pero queremos que comiencen desde 1 no desde 0
#(la convención en estadística es diferente a Python)
dataInsumo['q'] = pd.qcut(dataInsumo.promedio,5,labels=False) + 1
dataInsumo.head()

Unnamed: 0,fin_de_semana,hora,LINEA,ID,promedio,q
0,False,5,LINEA_A,31,1.807531,1
1,False,5,LINEA_A,32,1.729282,1
2,False,5,LINEA_A,33,2.037791,1
3,False,5,LINEA_A,34,1.874525,1
4,False,5,LINEA_A,35,2.972561,1


In [None]:
dataInsumo.to_csv('../data/dataInsumo.csv',index=False)

In [None]:
#tambien se puede guardar en excel
dataInsumo.to_excel('../data/dataInsumo.xlsx',index=False)

### En la proxima clase: Gráficos y mapas

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
dataInsumo.promedio.plot(kind = 'kde')

In [None]:
dataInsumo.loc[dataInsumo.fin_de_semana,'promedio'].plot(kind = 'kde')

In [None]:
dataInsumo.loc[dataInsumo.LINEA == 'LINEA_A','promedio'].plot(kind = 'kde')

In [None]:
dataInsumo.loc[dataInsumo.LINEA == 'LINEA_B','promedio'].plot(kind = 'kde',color='red')


---

Basado en :

<a rel="license" href="http://creativecommons.org/licenses/by-nc-sa/4.0/"><img alt="Creative Commons License" style="border-width:0" src="https://i.creativecommons.org/l/by-nc-sa/4.0/88x31.png" /></a><br /><span xmlns:dct="http://purl.org/dc/terms/" property="dct:title">Geographic Data Science'17 - Lab 1, part I</span> by <a xmlns:cc="http://creativecommons.org/ns#" href="http://darribas.org" property="cc:attributionName" rel="cc:attributionURL">Dani Arribas-Bel</a> is licensed under a <a rel="license" href="http://creativecommons.org/licenses/by-nc-sa/4.0/">Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License</a>.

