# Programación científica en Python: Pandas

## Contenidos

* [4. El paquete Pandas para análisis de datos en Python](#4.-El-paquete-Pandas-para-an%C3%A1lisis-de-datos-en-Python).
    + [4.1 La clase `Series`](#4.1-La-clase-Series).
        * [4.1.1 Creación de objetos de tipo `Series`](#4.1.1-Creación-de-objetos-de-tipo-Series).
        * [4.1.2 Indexación de objetos `Series`](#4.1.2-Indexación-de-objetos-Series).
        * [4.1.3 Operaciones con objetos `Series`](#4.1.3-Operaciones-con-objetos-Series).
    + [4.2 La clase `DataFrame`](#4.2-La-clase-DataFrame).
        * [4.2.1 Creación de objetos de tipo `DataFrame`](#4.2.1-Creación-de-objetos-de-tipo-DataFrame).
        * [4.2.2 Indexación de objetos `DataFrame`](#4.2.2-Indexación-de-objetos-DataFrame).
    + [4.3 La clase `Panel`](#4.3-La-clase-Panel).
        * [4.3.1 Creación de objetos de tipo `Panel`](#4.3.1-Creación-de-objetos-de-tipo-Panel).
        * [4.3.2 Indexación de objetos `Panel`](#4.3.2-Indexación-de-objetos-Panel).
    + [4.4 Importación de datos](#4.4-Importaci%C3%B3n-de-datos).
    + [4.5 Gestión de datos de series temporales: fechas y marcas de tiempo](#4.5-Gesti%C3%B3n-de-datos-de-series-temporales:-fechas-y-marcas-de-tiempo).
    + [4.6 Soporte para concatenación de operaciones](#4.6-Soporte-para-concatenaci%C3%B3n-de-operaciones).
    + [4.7 Ejemplo: Análisis de datos de servicios de taxis en NYC](#4.7-Ejemplo:-An%C3%A1lisis-de-datos-de-servicios-de-taxi-en-NYC).
    + [4.8 Referencias](#4.8-Referencias).

# 4. El paquete Pandas para análisis de datos en Python

Mientras que NumPy y SciPy proporcionan soporte para operaciones de programación científica a bajo nivel, la biblioteca [**Pandas**](http://pandas.pydata.org/pandas-docs/stable/) se sitúa en la cima del *stack* de programación científica en Python. Proporciona todas las operaciones principales para preparación de datos y limpieza, así como estructuras de datos y clases familiares para el científico de datos, tales como la clase **Series**, para **series de valores**, o la clase **DataFrame**.

El nombre de la biblioteca Pandas deriva en parte de los llamados **datos de panel** (pan(el)-da(ta)-s). Esta denominación se suele utilizar con frecuencia en econometría y ciencias sociales para denominar a los datos organizados en tablas similares a las de una base de datos relacional, con un caso por cada fila y tantas columnas como variables estamos midiendo para cada caso.

Las principales ventajas del empleo de Pandas para limpieza, preparación y análisis de datos radica en la gran flexibilidad que otorga para trabajar con **datos estructurados**, incluyendo datos procedentes de bases de datos relacionales, así como datos etiquetados.

Principales aplicaciones de Pandas:

* Trabajo con tablas de datos con columnas de tipos heterogéneos (pero homogéneos dentro de la misma columna), similares a los objetos `data.frame` en R.
* Trabajo con datos de series temporales, regulares o irregulares y no necesariamente ordenadas.
* Datos en formato matricial, con filas y columnas que pueden estar etiquetadas (de nuevo, similar a R).
* En general, es adecuado para tratar la mayoría de conjuntos de datos que encontramos en estudios y análisis de ciencia de datos.

Entre sus **características clave** podemos destacar:

* Capacidad para manejo de datos faltantes (*missing data*).
* El tamaño de los objetos es mutable, pudiendo añadir o eliminar columnas o filas de colecciones de objetos en múltiples dimensiones.
* Alineamiento de datos explícito, de acuerdo con una serie de etiquetas, o completamente automático.
* Posibilidad de aplicar operaciones de tipo *split-apply-combine*, similares a la filosofía de trabajo con las bibliotecas `dplyr` y `tidyr` en el lenguaje R.
* Potentes capacidades de indexado y creación de subconjuntos, que puede estar basado en etiquetas o categorías.
* Capacidad de unir e integrar conjuntos de datos (operaciones tipo *join* y *union*).
* Capacidad para cambiar tablas de datos de formato *long* a formato *wide* y viceversa (lo que se denomina *reshaping* y *pivoting* en el argot de Pandas).
* Etiquetado jerárquico de los ejes dimensionales.
* Gran variedad de funciones de E/S, que facilitan la lectura/escritura de ficheros de datos en diferentes formatos, tales como datos en texto plano (CSV/TSV), archivos MS Excel, bases de datos o HDF5.
* Soprte para operaciones con series temporales, como generación de datos en intervalos, conversión de frecuencia, estadísticas o regresión lineal aplicadas sobre ventanas deslizantes, desplazamiento y retardo de los datos, etc. (muchas funciones similares a las que econtramos en el paquete `xts` de R).

La documentación de la biblioteca Pandas ofrece un [paseo introductorio de 10 mins.](http://pandas.pydata.org/pandas-docs/stable/10min.html), con ejemplos que muestran algunas de sus funciones básicas.

Para comenzar a trabajar con Pandas, solo hay que importar la biblioteca siguiendo una convención similar a la de NumPy para acortar su identificador.

In [0]:
import numpy as np
import pandas as pd

En una primera aproximación podemos ver los objetos de Pandas como una versión mejorada de los arrays de NumPy, en los que las filas y columnas se identifican con etiquetas en lugar de simples índices enteros.  Como veremos a lo largo del presente NoteBook, Pandas ofrece una gran cantidad de herramientas, métodos y funciones útiles para trabajar con estructuras de datos. A continuación presentemos estas tres estructuras de datos fundamentales de Pandas: **Serie**, **DataFrame** e **Index**.

## 4.1 La clase `Series`

Los objetos de tipo `Series` contienen un **vector unidimensional de datos** (similar a un array de NumPy), pero además añaden **etiquetas que identifican a cada elemento** del vector, en lugar de usar exclusivamente un índice numérico para marcar el orden. Esto supone una gran ventaja, puesto que nos permite reordenar los valores de la serie de forma eficiente (usando las etiquetas), o encontrar valores dentro de la serie (para una etiqueta unívoca). Además, este tipo de estructura es ideal, como veremos más adelante, para gestionar **datos de series temporales**, en los que junto a cada valor tenemos la marca de fecha y hora en la que fue recogido.

### 4.1.1 Creación de objetos de tipo `Series`

Los objetos de [tipo `Series`](http://pandas.pydata.org/pandas-docs/stable/dsintro.html#series) se pueden crear a partir de diversos tipos de datos de entrada, recogidos por el argumento `data`, tales como un diccionario Python, un `ndarray` de NumPy o un valor escalar.

```python
mi_serie = pd.Series(data, index=my_index)
```
Además, debemos proporcionar un índice con un vector de etiquetas que identifican a cada uno de los valores de la serie, recogidos por el argumento `index`. Los índices pueden ser cualquier tipo de dato: int, string, ... Esto da lugar a diferentes casos.
Veamos como podemos definir una serie a partir de un **array unidimensional**:

In [0]:
# Si data es un ndarray entonces el vector de índices debe tener
# la misma longitud que el array de entrada, si no dará error. 
serie_1 = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])
serie_1

a   -1.483034
b    0.453253
c   -1.047157
d    1.549264
e    1.003559
dtype: float64

El tamaño del ndarray debe coincidir con el del vector de índices. En caso de que no coincida nos dará un error.

In [0]:
# El atributo index guarda el vector de etiquetas para cada
# valor de la serie
serie_1.index

In [0]:
serie_1.keys()

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [0]:
# El vector de valores está en el atributo values
serie_1.values

array([-0.1138011 ,  1.94758033, -0.07803558, -0.09637585, -0.69814674])

In [0]:
# Si no se proporciona un vector de índices, entonces se crea 
# uno automáticamente con los índices numéricos
serie_2 = pd.Series(np.random.rand(5))
serie_2

0    0.258389
1    0.509930
2    0.173399
3    0.575052
4    0.983090
dtype: float64

De acuerdo a esta forma de definir una serie, la podemos ver como una generalización de un array unidimensional. La diferencia entre un array de la clase ndarray y una serie de la clase `Seire` es que en los objetos de clase `Seire` podemos definir de forma explícita el índice de cada elemento, que además puede ser no secuenciales o no contiguos.

In [0]:
serie_3 = pd.Series([0.25, 0.5, 0.75, 1.0], index=[2, 5, 3, 7]) 
serie_3

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

Otra forma típica de definir una serie es a partir de un **diccionario**:

In [0]:
# Definición de una serie a partir de un diccionario
d = {'a': 1., 'b': 2., 'c': 3.0, 'd': 4. }
pd.Series(d)

a    1.0
b    2.0
c    3.0
d    4.0
dtype: float64

In [0]:
# Si data es un diccionario, entonces si pasamos un vector de
# índices se usará para tomar los elementos del diccionario de
# datos que se correspondan con las etiquetas proporcionadas,
# en el mismo orden que indique el vector de índices
# En caso de que algún índice no tenga valor, pondrá NaN
pd.Series(d, index = ['e', 'd', 'c', 'f', 'b', 'a'])

e    NaN
d    4.0
c    3.0
f    NaN
b    2.0
a    1.0
dtype: float64

Como decíamos al principio, también podemos construir una `Serie` a partir de un **valor escalar**. En este caso debe especificarse un array de índices y el valor escalar se repetirá tantas veces como índices haya.

In [0]:
pd.Series(3.5, index=['a', 'b', 'c', 'd'])

a    3.5
b    3.5
c    3.5
d    3.5
dtype: float64

In [0]:
# Finalmente, también podemos poner un nombre a la serie de valores
# y de índices con los argumentos name e index.name
serie_2.name = "Serie 2"
serie_2.index.name = "Ordinal"
serie_2

Ordinal
0    0.258389
1    0.509930
2    0.173399
3    0.575052
4    0.983090
Name: Serie 2, dtype: float64

### 4.1.2 Indexación de objetos `Series`

Las operaciones de indexación sobre el contenido de objetos de tipo `Series` son similares a las que podemos aplicar en arrays de NumPy: usando índices numéricos (individuales o *slicing* para intervalos), filtros con expresiones booleanas, etc. Adicionalmente, puesto que tenemos un vector de etiquetas análogo a los valores de la serie, que identifica a cada valor, también podemos usar estas etiquetas para indexar el contenido de estos objetos como si se tratase de un diccionario Python. Además, esta opción tiene la ventaja añadida de ser rápida (baja complejidad computacional) y el código queda muy legible, al usar identificadores con sentido para acceder a los valores.

In [0]:
# Indexamos empleando posiciones numércias individuales 
# Accedemos a un úncio elemento
serie_1[0]

-0.11380109993004527

In [0]:
# Indexamos empleando slicing
# Accedemos a un subconjunto mediante posiciones numéricas
# OJO: el último índice NO se incluye
serie_1[2:5]

c   -0.078036
d   -0.096376
e   -0.698147
dtype: float64

In [0]:
# Indexación directa mediante etiquetas de índices
# Accedemos a dos elementos concretos
serie_1[['a', 'b']]

a   -0.113801
b    1.947580
dtype: float64

In [0]:
# Slicing mediante etiquetas
# OJO: el último índice SI se incluye
serie_1['a':'c']

a   -0.113801
b    1.947580
c   -0.078036
dtype: float64

In [0]:
# Ejemplo de Funcy Indexing
serie_1[['a','e']]

a   -0.113801
e   -0.698147
dtype: float64

Resultan intersantes los atributos `loc` e `iloc` ya que nos permiten realizar indexación y slicing bien indicándoles las etiquetas de las filas o bien mediante el uso de offset numérico.

In [0]:
# Obtenemos el elemento etiquetado por 'a'
serie_1.loc['a']

-1.4830342807166128

In [0]:
# Obtenemos el elemento que se encuentra en la posición 0
serie_1.iloc[0]

-0.11380109993004527

In [0]:
# Obtenemos los elementos con las etiquetas dentro
# del rango indicando
serie_1.loc['a':'c']

a   -0.113801
b    1.947580
c   -0.078036
dtype: float64

In [0]:
# Obtenemos los elementos que se encuentran en el offset
# dentro del rango especificado
serie_1.iloc[0:3]

a   -0.113801
b    1.947580
c   -0.078036
dtype: float64

También se pueden utilizar **máscaras** para seleccionar un determinado conjunto de valores.

In [0]:
# Ejemplo de máscara
# Indexación empleando una expresión booleana
serie_1[serie_1 < 0]

a   -0.113801
c   -0.078036
d   -0.096376
e   -0.698147
dtype: float64

In [0]:
# Ejemplo de máscara
# También podemos usar expresiones más complejas
serie_2[serie_2 > serie_2.median()]

Ordinal
3    0.575052
4    0.983090
Name: Serie 2, dtype: float64

Además, si nos fijamos bien en los resultados de los ejemplos anteriores podemos comprobar cómo no solo obtenemos un subconjunto de los valores, sino también del vector de índices. Es decir, el *slicing* de la indexación se aplica a ambos arrays (valores e índices) dentro del objeto `Series`. De esta forma, indexamos sin perder ninguna de las propiedades del objeto (que sigue siendo de tipo `Series`).

Una `Serie` también puede ser modificada **añadiendo** nuevos elementos:

In [0]:
serie_1['f'] = 1.25893
serie_1

a   -0.113801
b    1.947580
c   -0.078036
d   -0.096376
e   -0.698147
f    1.258930
dtype: float64

También podemos preguntar si un determinado índice se encuentra dentro de la `Serie`.

In [0]:
'f' in serie_1

True

### 4.1.3 Operaciones con objetos `Series`

Es posible efectuar operaciones aritméticas o aplicar funciones a los valores almacenados en objetos de tipo `Series`, al igual que también podemos hacer con arrays de NumPy. Veamos algunos ejemplos:

In [0]:
np.log10(serie_2)

Ordinal
0   -0.587725
1   -0.292489
2   -0.760953
3   -0.240293
4   -0.007407
Name: Serie 2, dtype: float64

In [0]:
# Suma elemento a elemento, fijándonos en las etiquetas
# para efectuar el emparejamiento
serie_1 + serie_1

a   -0.227602
b    3.895161
c   -0.156071
d   -0.192752
e   -1.396293
f    2.517860
dtype: float64

Una diferencia fundamental entre Series y ndarray es que las operaciones entre series realizan una **alineación automáticamente** de los datos en función de su etiqueta. Por lo tanto, podremos realizar cálculos sin tener en cuenta si las Series involucradas tienen las mismas etiquetas. Veamos un ejemplo:

In [0]:
serie_A = pd.Series({'a':0.1, 'c':0.3, 'd':0.5, 'f':0.7})
print(serie_A)
serie_B = pd.Series({'a':0.8, 'b':0.4, 'd':0.6, 'e':0.1})
print(serie_B)
print(serie_A + serie_B)

a    0.1
c    0.3
d    0.5
f    0.7
dtype: float64
a    0.8
b    0.4
d    0.6
e    0.1
dtype: float64
a    0.9
b    NaN
c    NaN
d    1.1
e    NaN
f    NaN
dtype: float64


## 4.2 La clase `DataFrame`

La [clase `DataFrame`](http://pandas.pydata.org/pandas-docs/stable/dsintro.html#dataframe) de Pandas define una estructura de almacenamiento y tratamiento de datos completamente análoga a la ofrecida por los objetos `data.frame` en R. Se trata de una tabla de valores organizados por filas y columnas que están etiquetadas. También podemos ver los `DataFrame` como un **array 2-D con etiquetas**, que pueden ser de cualquier tipo, tomando valores enteros por defecto. Los nombres de las columnas corresponden a cada una de las variables disponibles, mientras que cada fila corresponde a un caso. Al igual que ocurría en R, si no tenemos valores para alguna de estas celdas tenemos un **dato faltante** y el hueco queda marcado explícitamente. Por tanto, se trata de un tipo de datos estructurado.

### 4.2.1 Creación de objetos de tipo `DataFrame`

Podemos crear objetos `DataFrame` a partir de diversos tipos de datos de entrada, incluyendo listas y diccionarios Python, objetos de tipo `ndarray` de NumPy, o también a partir de otros objetos `Series` o `DataFrame` de Pandas. Tanto las filas como las columnas suelen estar etiquetadas, especialmente las columnas, ya que identifican las variables que estamos midiendo en el análisis.
Como un `DataFrame`se puede construir de diversas maneras, veamos algunos ejemplos:

Construcción de un `DataFrame` a partir de un **diccionario**:

In [0]:
# Definimos los datos de entrada de formas diferentes para ilustrar
# algunos de los posibles formatos admitidos

# En caso de introducir un solo valor para alguna columna, el valor
# se replica tantas veces como sea preciso para rellenar la columna
data_1 = {
    'year': [2010, 2011, 2012, 2013, 2014] * 2,
    'group': ['A'] * 5 + ['B'] * 5,
    'intake': (55.3, 55.4, 55.3, 55.5, 54.4, 56.6, 57.7, 55.4, 57.9, 56),
    'output': 1.1,
    'collate': np.array([15, 5, 10, 40, 20, 12, 12, 12, 12, 12]),
    'gender': "M"
}
df_1 = pd.DataFrame(data_1)
df_1

Unnamed: 0,year,group,intake,output,collate,gender
0,2010,A,55.3,1.1,15,M
1,2011,A,55.4,1.1,5,M
2,2012,A,55.3,1.1,10,M
3,2013,A,55.5,1.1,40,M
4,2014,A,54.4,1.1,20,M
5,2010,B,56.6,1.1,12,M
6,2011,B,57.7,1.1,12,M
7,2012,B,55.4,1.1,12,M
8,2013,B,57.9,1.1,12,M
9,2014,B,56.0,1.1,12,M


In [0]:
# Listado de columnas en el DataFrame
df_1.columns

Index(['year', 'group', 'intake', 'output', 'collate', 'gender'], dtype='object')

In [0]:
# Listado de índices de las filas
df_1.index

RangeIndex(start=0, stop=10, step=1)

Construcción de un `DataFrame` a partir de un **subconjunto** de columnas de otro **`DataFrame`**:

In [0]:
# En caso de que haya columnas que no existan
# se rellena con marca de dato faltante 'NaN'
df_2 = pd.DataFrame(df_1, columns=['collate', 'group', 'intake', 'genotype'])
df_2

Unnamed: 0,collate,group,intake,genotype
0,15,A,55.3,
1,5,A,55.4,
2,10,A,55.3,
3,40,A,55.5,
4,20,A,54.4,
5,12,B,56.6,
6,12,B,57.7,
7,12,B,55.4,
8,12,B,57.9,
9,12,B,56.0,


Construcción de un `DataFrame` a partir de una **`Serie`**:

In [0]:
# A partir de un solo Serie
population_dict = {'California':36332521,'Texas':26448193,
                   'New York':19651127,'Florida':19552860,
                   'Illinois':12882135}
population = pd.Series(population_dict)
df_population = pd.DataFrame(population, columns=['population'])
df_population

Unnamed: 0,population
California,36332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


In [0]:
# A partir de dos Series, es decir, a partir de un diccionario de objetos Series
# Los datos faltantes siempre los marca como NaN
area_dict = {'California':423967,'Texas':695662,
             'New York':141297,'Illinois':149995}
area = pd.Series(area_dict)
df_states = pd.DataFrame({'population':population, 'area':area})
df_states

Unnamed: 0,population,area
California,36332521,423967.0
Florida,19552860,
Illinois,12882135,149995.0
New York,19651127,141297.0
Texas,26448193,695662.0


Atendiendo a esta forma de definir un `DataFrame` podemos verlo como un contenedor de objetos `Series`.

Construcción de un DataFrame a partir de un **array 2-D de `NumPy`**:

In [0]:
# Array multidimensional de 3 filas y 2 columnas
pd.DataFrame(np.random.rand(3,2), columns=['col1', 'col2'], index=['a', 'b', 'c'])

Unnamed: 0,col1,col2
a,0.325236,0.158458
b,0.175766,0.013471
c,0.09111,0.076466


### 4.2.2 Indexación de objetos `DataFrame`

Es posible indexar tanto subconjuntos de filas como de columnas. Para ello, podemos usar la sintáxis típica de *slicing* en Python (con índices numéricos) o bien utilizar los nombres de filas o columnas (si se han asignado). Resulta obvio pensar que si se selecciona una fila o una columna (ya sea por su etiqueta o por su índice), el resultado será otro objeto de la clase `Series`. Si se selecciona un subconjunto del `DataFrame` el resultado será otro `DataFrame`. 

In [0]:
# Indexación por nombre de columna
df_1['collate']

0    15
1     5
2    10
3    40
4    20
5    12
6    12
7    12
8    12
9    12
Name: collate, dtype: int32

In [0]:
# El resultado de la indexación es un objeto de tipo Series
type(df_1['collate'])

pandas.core.series.Series

Puede que de una columna solo nos interesen algunas filas. Para realizar esta operación, además de indicar el nombre de la columna tendremos que indicar las filas como se muestra en el siguiente ejemplo:

In [0]:
df_1['group'][:4]

0    A
1    A
2    A
3    A
Name: group, dtype: object

Si interpretamos un `DataFrame` como un array 2-D, nos puede resultar interesante obtener la matriz de datos subyacente mediante el uso del atributo `values`.

In [0]:
# Podemos obtener un array con todos los valores del DataFrame
df_2.values

array([[15, 'A', 55.3, nan],
       [5, 'A', 55.4, nan],
       [10, 'A', 55.3, nan],
       [40, 'A', 55.5, nan],
       [20, 'A', 54.4, nan],
       [12, 'B', 56.6, nan],
       [12, 'B', 57.7, nan],
       [12, 'B', 55.4, nan],
       [12, 'B', 57.9, nan],
       [12, 'B', 56.0, nan]], dtype=object)

In [0]:
# Podemos obtener los arrays que forman las filas
df_2.values[0]

array([15, 'A', 55.3, nan], dtype=object)

In [0]:
# La reindexación consiste en crear un nuevo objeto con sus índices
# siguiendo una nueva ordenación. También permite añadir o eliminar columnas
df_3 = df_2.reindex(columns=['intake', 'collate', 'group', 'genotype'])
df_3

Unnamed: 0,intake,collate,group,genotype
0,55.3,15,A,
1,55.4,5,A,
2,55.3,10,A,
3,55.5,40,A,
4,54.4,20,A,
5,56.6,12,B,
6,57.7,12,B,
7,55.4,12,B,
8,57.9,12,B,
9,56.0,12,B,


Resultan intersantes los atributos `loc` e `iloc` ya que nos permiten realizar slicing bien indicándoles el nombre de las filas y las columnas o bien indicáncoles los índices de las filas y las columnas.

In [0]:
# Ejemplo de uso del atributo loc
df_states.loc[:'Illinois', :'population']

Unnamed: 0,population
California,36332521
Florida,19552860
Illinois,12882135


In [0]:
# Ejemplo de uso del atributo iloc
df_states.iloc[:3, :2]

Unnamed: 0,population,area
California,36332521,423967.0
Florida,19552860,
Illinois,12882135,149995.0


Los `DataFrame` se pueden modificar añadiendo o eliminando filas o columnas.

In [0]:
# También podemos eliminar filas o columnas
# Ejemplo de eliminación de una columna
df_3 = df_3.drop('genotype', axis=1)
df_3

Unnamed: 0,intake,collate,group
0,55.3,15,A
1,55.4,5,A
2,55.3,10,A
3,55.5,40,A
4,54.4,20,A
5,56.6,12,B
6,57.7,12,B
7,55.4,12,B
8,57.9,12,B
9,56.0,12,B


In [0]:
# Ejemplo de eliminación de una fila
df_3 = df_3.drop(2, axis=0)
df_3

Unnamed: 0,intake,collate,group
0,55.3,15,A
1,55.4,5,A
3,55.5,40,A
4,54.4,20,A
5,56.6,12,B
6,57.7,12,B
7,55.4,12,B
8,57.9,12,B
9,56.0,12,B


In [0]:
# Ejemplo de añadir una columna
df_3['genotype'] = df_3['intake']/df_3['collate']
df_3

Unnamed: 0,intake,collate,group,genotype
0,55.3,15,A,3.686667
1,55.4,5,A,11.08
3,55.5,40,A,1.3875
4,54.4,20,A,2.72
5,56.6,12,B,4.716667
6,57.7,12,B,4.808333
7,55.4,12,B,4.616667
8,57.9,12,B,4.825
9,56.0,12,B,4.666667


In [0]:
# Ejemplo de añadir una fila
df_3.loc[10] = {'intake':56.3, 'collate':11, 'group':'C', 'genotype':5.1181}
df_3

Unnamed: 0,intake,collate,group,genotype
0,55.3,15,A,3.686667
1,55.4,5,A,11.08
3,55.5,40,A,1.3875
4,54.4,20,A,2.72
5,56.6,12,B,4.716667
6,57.7,12,B,4.808333
7,55.4,12,B,4.616667
8,57.9,12,B,4.825
9,56.0,12,B,4.666667
10,56.3,11,C,5.1181


También es posible el uso de **máscaras** para seleccionar los datos que cumplan con una determinada condición, la cual se indica mediante una expresión lógica.

In [0]:
# Mostramos solo los valores de las columnas intake y collate
# cuyas filas cumplen la condición que indica la máscara
df_4 = df_3.loc[df_3.intake>=56.0, ['intake', 'collate']]
df_4

Unnamed: 0,intake,collate
5,56.6,12
6,57.7,12
8,57.9,12
9,56.0,12
10,56.3,11


In [0]:
# Mostramos todas las filas que cumplen la condición
# expresada en la máscara
df_4 = df_3[df_3.group=='B']
df_4

Unnamed: 0,intake,collate,group,genotype
5,56.6,12,B,4.716667
6,57.7,12,B,4.808333
7,55.4,12,B,4.616667
8,57.9,12,B,4.825
9,56.0,12,B,4.666667


Para encontrar más ejemplos y ampliar la información sobre esta clase tan importante, se puede consultar la [documentación de `DataFrame`](http://pandas.pydata.org/pandas-docs/stable/dsintro.html#dataframe) en el proyecto Pandas, así como el [notebook de introducción a Pandas](https://github.com/fonnesbeck/Bios8366/blob/master/notebooks/Section2_1-Introduction-to-Pandas.ipynb) creado por C. Fonnesbeck (Vanderbilt Univ.).

## 4.3 La clase `Panel`

La clase `Panel` proporciona en Pandas una estructura de datos para el almacenamiento de arrays en 3 dimensiones. Cada uno de los tres ejes del objeto recibe un nombre particular:

* *items*: corresponde al eje 0 (`axis=0`); cada elemento a lo largo de este eje corresponde a un DataFrame, es decir, una tabla de datos en las dos dimensiones restantes.
* *major_axis*: corresponde al eje 1 (`axis=1`); para cada DataFrame, recorre cada una de sus filas, es decir, es el índice que marca el número de fila.
* *minor_axis*: corresponde al eje 2 (`axis=2`); para cada DataFrame, recorre las columnas de dicho DataFrame.

Por ejemplo, el índice `[0, 1, 2]` corresponde al elemento que está en el primer `DataFrame` del panel, y dentro de éste, en la segunda fila y tercera columna.

### 4.3.1 Creación de objetos de tipo `Panel`

In [0]:
# Panel que contiene dos DataFrame de dimensiones 5x4, ambas rellenas
# con valores extraidos de una distribución Gaussiana (o Normal), de
# media 0 y desviación típica 1, generando una malla de valores de
# dimensiones 2x5x4
wp = pd.Panel(np.random.randn(2, 5, 4), items=['Item1', 'Item2'],
              major_axis=pd.date_range('1/1/2000', periods=5),
              minor_axis=['A', 'B', 'C', 'D'])
wp

Panel is deprecated and will be removed in a future version.
The recommended way to represent these types of 3-dimensional data are with a MultiIndex on a DataFrame, via the Panel.to_frame() method
Alternatively, you can use the xarray package http://xarray.pydata.org/en/stable/.
Pandas provides a `.to_xarray()` method to help automate this conversion.

  exec(code_obj, self.user_global_ns, self.user_ns)


<class 'pandas.core.panel.Panel'>
Dimensions: 2 (items) x 5 (major_axis) x 4 (minor_axis)
Items axis: Item1 to Item2
Major_axis axis: 2000-01-01 00:00:00 to 2000-01-05 00:00:00
Minor_axis axis: A to D

In [0]:
# Mostramos el primer DataFrame del Panel
wp['Item1']

Unnamed: 0,A,B,C,D
2000-01-01,0.457383,0.553293,0.752688,-2.239233
2000-01-02,0.159402,-1.063356,1.01154,0.373947
2000-01-03,-0.747486,-0.296938,-0.010814,-0.016658
2000-01-04,0.661866,-0.46254,0.594857,1.630225
2000-01-05,0.21114,-0.193902,-1.517626,-0.187323


In [0]:
# Mostramos el segundo DataFrame del Panel
wp['Item2']

Unnamed: 0,A,B,C,D
2000-01-01,0.163438,-0.624466,-0.913512,0.141143
2000-01-02,0.067781,-0.742772,-0.52053,0.620743
2000-01-03,0.406436,-0.0976,0.240411,-1.144974
2000-01-04,1.053334,-0.465703,0.340933,0.380113
2000-01-05,1.026223,0.780204,0.584655,-0.735382


### 4.3.2 Indexación de objetos `Panel`

La indexación de determinados elementos en un `Panel` funciona siguiendo el mismo esquema visto hasta ahora. Veamos algunos ejemplos:

In [0]:
# Indexación mediante etiquetas
wp['Item1',:,'A':'C']

Unnamed: 0,A,B,C
2000-01-01,0.457383,0.553293,0.752688
2000-01-02,0.159402,-1.063356,1.01154
2000-01-03,-0.747486,-0.296938,-0.010814
2000-01-04,0.661866,-0.46254,0.594857
2000-01-05,0.21114,-0.193902,-1.517626


In [0]:
wp['Item2',:,:]

Unnamed: 0,A,B,C,D
2000-01-01,0.163438,-0.624466,-0.913512,0.141143
2000-01-02,0.067781,-0.742772,-0.52053,0.620743
2000-01-03,0.406436,-0.0976,0.240411,-1.144974
2000-01-04,1.053334,-0.465703,0.340933,0.380113
2000-01-05,1.026223,0.780204,0.584655,-0.735382


In [0]:
# Otra forma de indexación mediante etiquetas
wp.loc['Item2','1/3/2000','C':'D']

C    0.240411
D   -1.144974
Name: 2000-01-03 00:00:00, dtype: float64

In [0]:
# Indexación mediante posiciones
wp.iloc[0,:,1:3]

Unnamed: 0,B,C
2000-01-01,0.553293,0.752688
2000-01-02,-1.063356,1.01154
2000-01-03,-0.296938,-0.010814
2000-01-04,-0.46254,0.594857
2000-01-05,-0.193902,-1.517626


Para más información sobre estos objetos, se recomienda consultar la [documentación sobre la estructura de datos `Panel`](http://pandas.pydata.org/pandas-docs/stable/dsintro.html#panel) en la documentación oficial de Pandas.

## 4.4 Importación de datos

La biblioteca Pandas también incluye diversas funciones que facilitan la importación de archivos de datos desde otros programas, o utilizando diferentes estándares de representación.

In [0]:
# Carga de un archivo en formato CSV
air_data = pd.read_csv('data/Air_Quality.csv')
air_data.head()

Unnamed: 0,indicator_data_id,indicator_id,name,Measure,geo_type_name,geo_entity_id,geo_entity_name,year_description,data_valuemessage
0,130728,646,Air Toxics Concentrations- Average Benzene Con...,Average Concentration,Borough,1,Bronx,2005,2.8
1,130729,646,Air Toxics Concentrations- Average Benzene Con...,Average Concentration,Borough,2,Brooklyn,2005,2.8
2,130730,646,Air Toxics Concentrations- Average Benzene Con...,Average Concentration,Borough,3,Manhattan,2005,4.7
3,130731,646,Air Toxics Concentrations- Average Benzene Con...,Average Concentration,Borough,4,Queens,2005,1.9
4,130732,646,Air Toxics Concentrations- Average Benzene Con...,Average Concentration,Borough,5,Staten Island,2005,1.6


Algunas otras funciones de lectura de datos incluidas en Pandas son:
* `read_excel()` (para ficheros en formato MS Excel).
* `read_html()` (lectura de ficheros de datos en HTML).
* `read_json()` (lectura de ficheros de datos en JSON).
* `read_hdf()` (lecutra de ficheros de datos en HDF5).
* `read_pickle()` (lectura de ficheros de datos con objetos Python, serializados utilizando `cPickle`).

Análogamente, existen funciones similares para escritura de datos en disco. Se puede consultar más información sobre todas estas funcionalidades y métodos en la [documentación sobre E/S](http://pandas.pydata.org/pandas-docs/stable/io.html) de la biblioteca Pandas.

## 4.5 Gestión de datos de series temporales: fechas y marcas de tiempo

Un tipo de datos muy relevante son las **series temporales**, donde cada valor tiene asociada la información de la fecha (a veces fecha y hora) de su recogida. Con esta información podemos construir series de valores a lo largo del tiempo, ordenándolos de manera cronológica.

La biblioteca Pandas ofrece una [extensa colección de herramientas y operaciones para manejo de series temporales](http://pandas.pydata.org/pandas-docs/stable/timeseries.html), incluyendo muchas funciones ya presentes en otros paquetes y que se han consolidado en Pandas como herramienta multiusos para este propósito.

Esencialmente, existen dos tipos de formas básicas para definir en Pandas un vector de valores a lo largo del tiempo:

* *Timestamps*: son datos que marcan exactamente la fecha y hora asociada a cada punto. Se generan mediante la clase `Timestamp`. Sus índices asociados son de la clase `DatetimeIndex`.
* *Time spans*: representan un solo intervalo temporal, en el que indicamos el inicio y la frecuencia entre cada uno de los puntos que lo componen. Sus índices asociados son de tipo `PeriodIndex`.

Veamos algunos ejemplos:

In [0]:
from datetime import datetime
ts_1 = pd.Timestamp(datetime(2015, 1, 1))
ts_2 = pd.Timestamp(np.datetime64('2016-06-01'))
print(type(ts_1))

<class 'pandas._libs.tslibs.timestamps.Timestamp'>


In [0]:
ts_1

Timestamp('2015-01-01 00:00:00')

In [0]:
ts_2

Timestamp('2016-06-01 00:00:00')

In [0]:
# Podemos realizar directamente operaciones aritméticas
# como resta de Timestamps, que da como resultado un
# objeto Timedelta
ts_2 - ts_1

Timedelta('517 days 00:00:00')

En muchas ocasiones resulta más conveniente asociar determinados eventos, como pueden ser cambios de variables, a intervalos de tiempo. Para ello utilizaremos `Period`, donde se puede especificar el periodo explícitamente o se deduce a partir del formato de la cadena que recibe como parámetro.

In [0]:
periodo_1 = pd.Period('2011-01')
periodo_2 = pd.Period('2011-01-01')
periodo_1

Period('2011-01', 'M')

In [0]:
periodo_2

Period('2011-01-01', 'D')

In [0]:
# Utilización con el tipo Series para crear series temporales
dates = [pd.Timestamp('2016-05-01'), pd.Timestamp('2016-05-02'), pd.Timestamp('2016-05-03')]
serie_temporal_1 = pd.Series(np.random.randn(3), index=dates)
serie_temporal_1

2016-05-01   -0.521525
2016-05-02    1.641397
2016-05-03   -0.486863
dtype: float64

In [0]:
type(serie_temporal_1.index)

pandas.core.indexes.datetimes.DatetimeIndex

In [0]:
serie_temporal_1.index

DatetimeIndex(['2016-05-01', '2016-05-02', '2016-05-03'], dtype='datetime64[ns]', freq=None)

Una forma sencilla de generar un `DatetimeIndex` es mediante `date_range`. Esta función genera rangos de etiquetas en el tiempo a partir de una marca temporal de inicio, especificando la frecuencia de equiespaciado entre los puntos y el número de puntos:

In [0]:
# Generamos 48 horas a partir de las 00:00:00 del día 1 de enero de 2016
# freq -> 'H' horas, 'D' días, 'Min' minutos, 's' segundos, 'ms' mili segundos...
# freq por defecto -> 'D'
rng = pd.date_range('01/01/2016', periods=48, freq='H')
rng[:5]

DatetimeIndex(['2016-01-01 00:00:00', '2016-01-01 01:00:00',
               '2016-01-01 02:00:00', '2016-01-01 03:00:00',
               '2016-01-01 04:00:00'],
              dtype='datetime64[ns]', freq='H')

In [0]:
# Utilización de rangos temporales para indexar objetos Series, convirtiéndolos
# en series temporales (marca de tiempo/valor)
serie_4 = pd.Series(np.random.randn(len(rng)), index=rng)
serie_4.head()

2016-01-01 00:00:00   -0.573056
2016-01-01 01:00:00    0.687449
2016-01-01 02:00:00   -0.812299
2016-01-01 03:00:00   -1.368658
2016-01-01 04:00:00    0.493801
Freq: H, dtype: float64

Pandas ofrece una colección bastante completa de alias para poder definir diferentes frecuencias. Si la frecuencia que queremos utilizar no se ajusta a ninguna de estas opciones, podemos modificarla introduciendo un factor.

In [0]:
rng_4H = pd.date_range('01/01/2016', periods=4, freq='12H')
rng_4H[:]

DatetimeIndex(['2016-01-01 00:00:00', '2016-01-01 12:00:00',
               '2016-01-02 00:00:00', '2016-01-02 12:00:00'],
              dtype='datetime64[ns]', freq='12H')

Otra opción para definir la frecuencia deseada es utiizar offsets y combinarlos entre ellos.

In [0]:
from pandas.tseries.offsets import Hour, Minute
offset = Hour(2)+Minute(30)
rng_offset = pd.date_range('01/01/2016', periods=10, freq=offset)
rng_offset[:]

DatetimeIndex(['2016-01-01 00:00:00', '2016-01-01 02:30:00',
               '2016-01-01 05:00:00', '2016-01-01 07:30:00',
               '2016-01-01 10:00:00', '2016-01-01 12:30:00',
               '2016-01-01 15:00:00', '2016-01-01 17:30:00',
               '2016-01-01 20:00:00', '2016-01-01 22:30:00'],
              dtype='datetime64[ns]', freq='150T')

In [0]:
# utilizando strings del tipo a '2h30min'
rng_offset2 = pd.date_range('01/01/2016', periods=10, freq='2h30min')
rng_offset2[:]

DatetimeIndex(['2016-01-01 00:00:00', '2016-01-01 02:30:00',
               '2016-01-01 05:00:00', '2016-01-01 07:30:00',
               '2016-01-01 10:00:00', '2016-01-01 12:30:00',
               '2016-01-01 15:00:00', '2016-01-01 17:30:00',
               '2016-01-01 20:00:00', '2016-01-01 22:30:00'],
              dtype='datetime64[ns]', freq='150T')

Una vez generada una serie temporal, podemos modificar su frecuencia mediante la función `resample`.

In [0]:
dates = pd.date_range('01/01/2016', periods=10, freq='2D')
ts = pd.Series(np.random.randn(10), index=dates)
print(ts)
print("Aparecen NaN porque no tenemos valores")
ts.resample('D').asfreq()

2016-01-01   -0.015755
2016-01-03    0.013214
2016-01-05    0.969068
2016-01-07    0.453170
2016-01-09    0.667492
2016-01-11    0.416042
2016-01-13   -0.253666
2016-01-15   -0.838830
2016-01-17   -1.155258
2016-01-19    1.089449
Freq: 2D, dtype: float64
Aparecen NaN porque no tenemos valores


2016-01-01   -0.015755
2016-01-02         NaN
2016-01-03    0.013214
2016-01-04         NaN
2016-01-05    0.969068
2016-01-06         NaN
2016-01-07    0.453170
2016-01-08         NaN
2016-01-09    0.667492
2016-01-10         NaN
2016-01-11    0.416042
2016-01-12         NaN
2016-01-13   -0.253666
2016-01-14         NaN
2016-01-15   -0.838830
2016-01-16         NaN
2016-01-17   -1.155258
2016-01-18         NaN
2016-01-19    1.089449
Freq: D, dtype: float64

In [0]:
ts1 = ts.resample('D').sum()
ts1

2016-01-01   -0.777941
2016-01-02    0.000000
2016-01-03    0.511966
2016-01-04    0.000000
2016-01-05    0.324801
2016-01-06    0.000000
2016-01-07    0.268071
2016-01-08    0.000000
2016-01-09    1.526135
2016-01-10    0.000000
2016-01-11    0.298451
2016-01-12    0.000000
2016-01-13   -1.415181
2016-01-14    0.000000
2016-01-15   -0.161969
2016-01-16    0.000000
2016-01-17   -0.932666
2016-01-18    0.000000
2016-01-19   -0.706003
Freq: D, dtype: float64

Con una serie temporal puede resultarnos muy útil hacer slicing utilizando el time stamp. A la hora de especificarle el índice, puede recibir un string, un datetime o un timestamp, veamos algunos ejemplos:

In [0]:
ts[datetime(2016, 1, 15)]

-0.16196896765504962

In [0]:
# No muestra los 0.0 introducidos por el resample
ts['15/01/2016':]

2016-01-15   -0.161969
2016-01-17   -0.932666
2016-01-19   -0.706003
Freq: 2D, dtype: float64

El manejo de las zonas horarias es una tarea un tanto desagradable. En Python, la información de la zona horaria viene proporcionada por la librería `pytz`.

In [0]:
import pytz
rng = pd.date_range('3/9/2012', periods=6, freq='D')
ts2 = pd.Series(np.random.randn(len(rng)), index=rng)
ts2

2012-03-09   -0.273156
2012-03-10    0.556900
2012-03-11    0.891750
2012-03-12    1.436739
2012-03-13    2.461707
2012-03-14   -0.354499
Freq: D, dtype: float64

In [0]:
ts2 = ts2.tz_localize('UTC')
ts3 = ts2.tz_convert('America/New_York')
ts3

2012-03-08 19:00:00-05:00   -0.273156
2012-03-09 19:00:00-05:00    0.556900
2012-03-10 19:00:00-05:00    0.891750
2012-03-11 20:00:00-04:00    1.436739
2012-03-12 20:00:00-04:00    2.461707
2012-03-13 20:00:00-04:00   -0.354499
Freq: D, dtype: float64

Se pueden consultar detalles adicionales sobre el soporte para datos de series temporales e intervalos temporales en la correspondiente [página de documentación](http://pandas.pydata.org/pandas-docs/stable/timeseries.html) de la biblioteca Pandas. En particular, el soporte para series irregulares y con puntos de comienzo y fin arbitrarios todavía es muy limitado y se espera que mejore sustancialmente en futuras versiones. En este sentido, el soporte que proporcionan en otros lenguajes como R paquetes tales como `xts` es mucho más completo y robusto, actualmente.

## 4.6 Soporte para concatenación de operaciones

En el lenguaje de programación R la introducción de los paquetes `dplyr` y `tidyr` han supuesto una verdadera revolución a la hora de permitirnos definir flujos de procesado y transformación de datos explícitamente, mediante el código programado. Aprovechándonos de otros paquetes adicionales, como `magrittr` que proporciona el operador `%>%` (*forward pipe*), la sintaxis que define flujos de tratamiento de datos se vuelve todavía más explícita y legible para el programador.

En Python, la biblioteca Pandas no es ajena a esta influencia que comienza a imponerse en el mundo de la ciencia de datos. Así, operaciones como [group by](http://pandas.pydata.org/pandas-docs/stable/groupby.html) (con el paradigma *split-apply-combine*), [*merge*, *join* y concatenación](http://pandas.pydata.org/pandas-docs/stable/merging.html), así como las [transformaciones entre formato de datos *long* y *wide*](http://pandas.pydata.org/pandas-docs/stable/reshaping.html) también estan soportadas por una amplia colección de herramientas y métodos.

In [0]:
# Concatenación simple de Series con la función pd.concat()
ser_1 = pd.Series(['A','B','C'], index=[1,2,3])
ser_2 = pd.Series(['D','E','F'], index=[4,5,6])
ser_1

1    A
2    B
3    C
dtype: object

In [0]:
ser_2

4    D
5    E
6    F
dtype: object

In [0]:
ser_1_2 = pd.concat([ser_1, ser_2])
ser_1_2

1    A
2    B
3    C
4    D
5    E
6    F
dtype: object

In [0]:
# Concatenación simple de DataFrame con pd.concat()
dict_1 = {'A': ['A0', 'A1'],
     'B': ['B0', 'B1']}
df_1 = pd.DataFrame(dict_1)
df_1

Unnamed: 0,A,B
0,A0,B0
1,A1,B1


In [0]:
dict_2 = {'C': ['C0', 'C1'],
     'D': ['D0', 'D1']}
df_2 = pd.DataFrame(dict_2)
df_2

Unnamed: 0,C,D
0,C0,D0
1,C1,D1


In [0]:
df_1_2 = pd.concat([df_1, df_2], axis=0)
df_1_2

Unnamed: 0,A,B,C,D
0,A0,B0,,
1,A1,B1,,
0,,,C0,D0
1,,,C1,D1


In [0]:
df_1_2 = pd.concat([df_1, df_2], axis=1)
df_1_2

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1


In [0]:
# Ejemplo de pd.merge() con dos DataFrame
dict_1 = {'empleado': ['Ana', 'Juan', 'María', 'Carlos'],
       'dpto.': ['Contabilidad', 'RRHH', 'Marketing', 'RRHH']}
df_1 = pd.DataFrame(dict_1)
dict_2 = {'empleado': ['Ana', 'Juan', 'María', 'Carlos'],
       'ext.': [6895, 6745, 6855, 6746]}
df_2 = pd.DataFrame(dict_2)
df_1_2 = pd.merge(df_1, df_2)
df_1_2

Unnamed: 0,dpto.,empleado,ext.
0,Contabilidad,Ana,6895
1,RRHH,Juan,6745
2,Marketing,María,6855
3,RRHH,Carlos,6746


In [0]:
# Ejemplo de join() con dos DataFrame
dict_1 = {'dpto.': ['Contabilidad', 'RRHH', 'Marketing', 'RRHH']}
dict_2 = {'ext.': [6895, 6745, 6855, 6746]}
df_1 = pd.DataFrame(dict_1, index=['Ana', 'Juan', 'María', 'Carlos'])
df_2 = pd.DataFrame(dict_2, index=['Ana', 'Juan', 'María', 'Carlos'])
df_1.join(df_2)

Unnamed: 0,dpto.,ext.
Ana,Contabilidad,6895
Juan,RRHH,6745
María,Marketing,6855
Carlos,RRHH,6746


Notablemente, la **concatenación de operaciones y métodos** (similar a la que conseguimos en R con el operador `%>%`) se puede conseguir también en Pandas mediante la [**función `pipe()`**](http://pandas.pydata.org/pandas-docs/stable/basics.html?highlight=pipe#function-application):

```python
# f, g, y h son funciones que devuelven ``DataFrames``
>>> f(g(h(df), arg1=1), arg2=2, arg3=3)
```
```python
# Versión con operadores concatenados mediante pipe()
(df.pipe(h)
       .pipe(g, arg1=1)
       .pipe(f, arg2=2, arg3=3)
    )
```

## 4.7 Ejemplo: Análisis de datos de servicios de taxi en NYC

En este ejemplo, realizamos un análisis básico de datos públicos sobre el servicio de Yellow taxis en NYC, EE.UU., durante el mes de enero de 2015. Este ejemplo es similar al que presenta C. Doig (Senior Data Scientist en Continuum Analytics), en su [primer notebook del tutorial DSS](https://github.com/chdoig/dss-scaling-tutorial/blob/master/1-Scaling%20Data%20Analysis/1-pandas.ipynb) disponible en GitHub.

Nosotros usaremos una muestra del primer millón de filas (aprox. 150 MB) del archivo completo para dicho mes. En el apartado [4.8 Referencias](), ofrecemos la URL para descargar el dataset completo de ese mes, para que los alumnos que lo deseen descarguen el archivo completo y repliquen el análisis sobre todos los datos.

In [0]:
# Comprobar versión de Pandas que tenemos cargada
pd.__version__

'0.20.1'

In [0]:
df = pd.read_csv('data/yellow_tripdata_2015-01-excerpt.csv')

In [0]:
df.head()

Unnamed: 0,VendorID,tpep_pickup_datetime,tpep_dropoff_datetime,passenger_count,trip_distance,pickup_longitude,pickup_latitude,RateCodeID,store_and_fwd_flag,dropoff_longitude,dropoff_latitude,payment_type,fare_amount,extra,mta_tax,tip_amount,tolls_amount,improvement_surcharge,total_amount
0,2,2015-01-15 19:05:39,2015-01-15 19:23:42,1,1.59,-73.993896,40.750111,1,N,-73.974785,40.750618,1,12.0,1.0,0.5,3.25,0.0,0.3,17.05
1,1,2015-01-10 20:33:38,2015-01-10 20:53:28,1,3.3,-74.001648,40.724243,1,N,-73.994415,40.759109,1,14.5,0.5,0.5,2.0,0.0,0.3,17.8
2,1,2015-01-10 20:33:38,2015-01-10 20:43:41,1,1.8,-73.963341,40.802788,1,N,-73.95182,40.824413,2,9.5,0.5,0.5,0.0,0.0,0.3,10.8
3,1,2015-01-10 20:33:39,2015-01-10 20:35:31,1,0.5,-74.009087,40.713818,1,N,-74.004326,40.719986,2,3.5,0.5,0.5,0.0,0.0,0.3,4.8
4,1,2015-01-10 20:33:39,2015-01-10 20:52:58,1,3.0,-73.971176,40.762428,1,N,-74.004181,40.742653,2,15.0,0.5,0.5,0.0,0.0,0.3,16.3


In [0]:
# Información sobre todos los tipos de datos de cada columna
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000000 entries, 0 to 999999
Data columns (total 19 columns):
VendorID                 1000000 non-null int64
tpep_pickup_datetime     1000000 non-null object
tpep_dropoff_datetime    1000000 non-null object
passenger_count          1000000 non-null int64
trip_distance            1000000 non-null float64
pickup_longitude         1000000 non-null float64
pickup_latitude          1000000 non-null float64
RateCodeID               1000000 non-null int64
store_and_fwd_flag       1000000 non-null object
dropoff_longitude        1000000 non-null float64
dropoff_latitude         1000000 non-null float64
payment_type             1000000 non-null int64
fare_amount              1000000 non-null float64
extra                    1000000 non-null float64
mta_tax                  1000000 non-null float64
tip_amount               1000000 non-null float64
tolls_amount             1000000 non-null float64
improvement_surcharge    1000000 non-null float64

### Nombres de las columnas en el dataset

In [0]:
df.columns

Index(['VendorID', 'tpep_pickup_datetime', 'tpep_dropoff_datetime',
       'passenger_count', 'trip_distance', 'pickup_longitude',
       'pickup_latitude', 'RateCodeID', 'store_and_fwd_flag',
       'dropoff_longitude', 'dropoff_latitude', 'payment_type', 'fare_amount',
       'extra', 'mta_tax', 'tip_amount', 'tolls_amount',
       'improvement_surcharge', 'total_amount'],
      dtype='object')

### Número total de pasajeros ese mes

In [0]:
df.passenger_count.sum()
# Alternativamente
df['passenger_count'].sum()

1680560

### Diferentes métodos de pago, número de clientes que usó cada método

In [0]:
df.payment_type.unique()

array([1, 2, 3, 4], dtype=int64)

In [0]:
df.payment_type.value_counts()

1    617588
2    378448
3      3049
4       915
Name: payment_type, dtype: int64

### % de propina promedio, según la hora del día

In [0]:
# Ratio propina/valor de la carrera
# El tipo de pago 2 no tiene propina en muchos casos, así que lo filtramos
df2 = df[(df.payment_type != 2) & (df.fare_amount > 0)]
df2 = df2.assign(tip_fraction=df2.tip_amount / df2.fare_amount)  # ratio of tip to fare

df2.tpep_pickup_datetime = df2.tpep_pickup_datetime.astype('datetime64[ns]')
hour = df2.groupby(df2.tpep_pickup_datetime.dt.hour).tip_fraction.mean()

hour.head()

tpep_pickup_datetime
0    0.210879
1    0.330759
2    0.209751
3    0.212536
4    0.214229
Name: tip_fraction, dtype: float64

### Representación gŕafica con Bokeh

In [0]:
from bokeh.plotting import figure, output_notebook, show
output_notebook()

fig = figure(title='Tip Fraction', 
             x_axis_label='Hour of day', 
             y_axis_label='Tip Fraction')
fig.line(x=hour.index, y=hour, line_width=3)
fig.y_range.start = 0

show(fig)

## 4.8 Referencias

* [VanderPlas, 2015]. VanderPlas, J. *Python Data Science Handbook: Essential Tools for Working with Data*. O'Reilly Media, Aug. 2015.
* [McKinney, 2012] McKinney, W. *Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython*. O'Reilly Media, Oct. 2012. **Se espera la publicación de la segunda edición actualizada para abril de 2017**.
* [Fonnesbeck, 2014] Fonnesbeck, C. *Advanced Statistical Computing* (Bios8366) at Vanderbilt University's Department of Biostatistics. <https://github.com/fonnesbeck/Bios8366/tree/master/>
* [Doig, 2016] Doig, C. *Scaling Data Science in Python Tutorial* (notebook 1). Disponible en GitHub: <https://github.com/chdoig/dss-scaling-tutorial/blob/master/1-Scaling%20Data%20Analysis/1-pandas.ipynb>.
* [Schneider, 2016] Schneider, T. W. **Unified New York City Taxi and Uber data**: Colección de URLs para descargar los archivos de datos públicos sobre taxis de NYC. Nosotros nos concentramos en el archivo para el servicio Yellow Taxi, en el mes de enero de 2015, disponible en la URL: <https://s3.amazonaws.com/nyc-tlc/trip+data/yellow_tripdata_2015-01.csv> . Lista completa de URLs: <https://github.com/toddwschneider/nyc-taxi-data/blob/master/raw_data_urls.txt>.