# Pandas

> *Nota*: Los contenidos de esta sección fueron tomados de un tutorial dictado por Brandon Rhodes para la conferencia Pycon 2015. El contenido original puede verse [aquí](https://github.com/brandon-rhodes/pycon-pandas-tutorial).

Pandas es la librería más utilizada en Python para cargar, limpiar y analizar datos.

Para entender mejor todo lo que hace esta librería, puede decirse que Pandas es una especie de "Excel programable". Es decir, con Pandas es posible realizar las operaciones de filtrado, agrupación y análisis que es posible realizar en Excel, pero de forma programática y pudiendo abarcar conjuntos de datos con millones de filas y cientos de columnas en una sola operación.

En esta sección veremos algunas de las operaciones más utlizadas en Pandas. Para empezar, ...

La convención para importar Pandas es la siguiente:

In [2]:
import pandas as pd

## 1. Cargar datos

Pandas cuenta con una gran variedad de funciones para cargar datos desde distintas fuentes. Algunas de ellas son

    read_clipboard
    read_csv
    read_excel
    read_html
    read_json
    read_sas
    read_sql
    read_stata

El conjunto de datos con los que vamos a trabajar en este módulo están guardados en formato *CSV* (comma-separated values), un formato de texto plano bastante usado por su sencillez. Por ello vamos a usar la función `read_csv`.

Este conjunto corresponde a los títulos y actores de todas las películas de la historia del cine, el cual, para los estándares de hoy, es bastante pequeño (217.000 películas y 3'350.000 actores aproximadamente).

In [3]:
titulos = pd.read_csv('data/titles.csv')

In [5]:
actores = pd.read_csv('data/cast.csv')

## 2. Inspeccionar los contenidos de un Dataframe

La estructura de datos más importante de Pandas se conoce como Dataframe, y es la que se crea por defecto después de usar `read_csv`. En esta sección veremos algunas operaciones básicas para inspeccionar sus contenidos.

Si se está trabajando en el notebook, es posible evaluar un Dataframe en una celda, lo cual retorna una representación en forma de tabla del mismo, así:

In [7]:
titulos

Unnamed: 0,title,year
0,The Rising Son,1990
1,Ashes of Kukulcan,2016
2,The Thousand Plane Raid,1969
3,Crucea de piatra,1993
4,The 86,2015
5,Gaiking II,2011
6,Medusa (IV),2015
7,The Fresh Air Will Do You Good,2008
8,Alex in Wonderland,1970
9,Women's Prison,1955


Como se observa, esta operación no retorna todo el conjunto de títulos, sino tan sólo una pequeña fracción para inspeccionar sus contenidos.

Para observar los primeros títulos presentes en el Dataframe, se puede usar la operación `head`, así:

In [8]:
titulos.head()

Unnamed: 0,title,year
0,The Rising Son,1990
1,Ashes of Kukulcan,2016
2,The Thousand Plane Raid,1969
3,Crucea de piatra,1993
4,The 86,2015


In [9]:
titulos.head(20)

Unnamed: 0,title,year
0,The Rising Son,1990
1,Ashes of Kukulcan,2016
2,The Thousand Plane Raid,1969
3,Crucea de piatra,1993
4,The 86,2015
5,Gaiking II,2011
6,Medusa (IV),2015
7,The Fresh Air Will Do You Good,2008
8,Alex in Wonderland,1970
9,Women's Prison,1955


Para observar los últimos títulos, se usa en cambio la operación `tail`:

In [None]:
titulos.tail()

In [None]:
titulos.tail(10)

También es posible obtener la longitud de un Dataframe con `len`, lo cual nos retorna su número total de filas:

In [None]:
len(titulos)

## 3. Filtrado de datos

In [None]:
h = titles.head()

In [None]:
h

In [None]:
h['year']

In [None]:
h.year

In [None]:
h.year + 1000

In [None]:
h.year - 2000

In [None]:
h.year > 1960

In [None]:
h[h.year > 1990]

In [None]:
h[h.year > 1960 & h.year < 1970]

In [None]:
h[(h.year > 1960) & (h.year < 1970)]

In [None]:
h.year // 10 * 10

## 4. Clasificar datos

In [None]:
titles.sort('title', ascending=True)

In [None]:
titles.sort('year')

In [None]:
titles.sort(['year', 'title'])

## 5. Métodos de cadenas

In [None]:
h

In [None]:
h[h.title.str.contains('86')]

In [None]:
h.title.str.len()

## 6. Agregación

In [None]:
titles.year.value_counts()

In [None]:
titles.year.value_counts().plot()

In [None]:
titles.year.value_counts().sort_index().plot()

In [None]:
titles.year.value_counts().sort_index().plot(kind='bar')

## 7. Seleccionar columnas

In [None]:
c = cast

In [None]:
c = c[c.character == 'Kermit the Frog']

In [None]:
c

In [None]:
c = c[['year', 'n']]

In [None]:
c

## 8. La operación `groupby`

In [None]:
c = cast
c = c[c.name == 'Eddie Murphy']
c.head()

In [None]:
d = c.groupby(['year', 'title']).size()
d

In [None]:
d[d > 1]

In [None]:
c = cast
c = c[c.name == 'George Clooney']
c.groupby([c.year // 10 * 10]).size()

In [None]:
c = cast
c = c[c.name == 'George Clooney']
c.groupby(['year', 'title']).n.mean()

In [None]:
c.groupby?

In [None]:
c = cast
c = c[c.name == 'George Clooney']
c.groupby([c.year // 10 * 10]).size()

## 9. La operación `unstack`

In [None]:
c = cast
c = c[(c.character == 'Kermit the Frog') | (c.character == 'Oscar the Grouch')]
g = c.groupby(['character', c.year // 10 * 10]).size()
g

How can we compare years?  Unstack!

In [None]:
g.unstack('year')

In [None]:
g.unstack('character')

In [None]:
u = g.unstack('character')
u['difference'] = u['Kermit the Frog'] - u['Oscar the Grouch']
u

In [None]:
u = g.unstack('character').fillna(0)
u['difference'] = u['Kermit the Frog'] - u['Oscar the Grouch']
u

Use `stack` to come back

In [None]:
u.stack()

In [None]:
u = g.unstack('character')
total = u['Oscar the Grouch'] + u['Kermit the Frog']
u['difference'] = u['Oscar the Grouch'] / total
u.difference.plot(ylim=[0,1])