# Pandas

> *Nota*: Los contenidos de esta sección fueron tomados de un tutorial dictado por Brandon Rhodes para la conferencia Pycon 2015. El contenido original puede verse [aquí](https://github.com/brandon-rhodes/pycon-pandas-tutorial).

Pandas es la librería más utilizada en Python para cargar, limpiar y analizar datos.

Para entender mejor lo que hace esta librería, puede decirse que Pandas es una especie de "Excel programable". Es decir, con Pandas es posible realizar las operaciones de filtrado, agrupación y análisis que es posible realizar en Excel, pero de forma programática y pudiendo abarcar conjuntos de datos con millones de filas y cientos de columnas en una sola operación.

En esta sección veremos algunas de las operaciones más utlizadas en Pandas. Para empezar, vamos a importar Pandas usando la siguiente convención:

In [None]:
import pandas as pd

## 1. Cargar datos

Pandas cuenta con una gran variedad de funciones para cargar datos desde distintas fuentes. Algunas de ellas son

    read_csv
    read_excel
    read_html
    read_json
    read_sas
    read_sql
    read_stata

El conjunto de datos con los que vamos a trabajar en este módulo están guardados en formato *CSV* (comma-separated values), un formato de texto plano bastante usado por su sencillez. Por ello vamos a usar la función `read_csv`.

Este conjunto corresponde a los títulos y actores de todas las películas de la historia del cine, el cual, para los estándares de hoy, es bastante pequeño (217.000 películas y 3'350.000 personajes aproximadamente).

In [None]:
titulos = pd.read_csv('datos/titulos.csv')

In [None]:
personajes = pd.read_csv('datos/personajes.csv')

## 2. Dataframes y sus contenidos

La estructura de datos más importante de Pandas se conoce como Dataframe, y es la que se crea por defecto después de usar `read_csv`. En esta sección veremos algunas operaciones básicas para inspeccionar sus contenidos.

Si se está trabajando en el notebook, es posible evaluar un Dataframe en una celda, lo cual retorna una representación en forma de tabla del mismo, así:

In [None]:
titulos

Como se observa, esta operación no retorna todo el conjunto de títulos, sino tan sólo una pequeña fracción de los mismos, para inspeccionar sus contenidos.

Si desea observar únicamente los primeros títulos presentes en el Dataframe, se puede usar la operación `head`, así:

In [None]:
titulos.head()

In [None]:
titulos.head(20)

Para observar los últimos títulos, se usa en cambio la operación `tail`:

In [None]:
titulos.tail()

In [None]:
titulos.tail(10)

También es posible obtener la longitud de un Dataframe con la función `len`, lo cual nos retorna el número total de filas:

In [None]:
len(titulos)

## 3. Filtrado de datos

En esta sección vamos a realizar algunas operaciones básicas de filtrado. Para entender mejor cómo funcionan estas operaciones, vamos a utilizar un Dataframe más pequeño, en este caso el que nos retorna la operación `head`.

In [None]:
h = titulos.head()

In [None]:
h

Para seleccionar la columna `year` de estos datos, podemos hacerlo de las siguientes formas:

In [None]:
h['year']

In [None]:
h.year

Estas operaciones ya no retornan un Dataframe (por ello el formato de presentación no es el mismo), sino un objeto de tipo `Series`, como se observa al ejecutar la siguiente celda:

In [None]:
type(h.year)

Con esta columna podemos realizar las siguientes operaciones matemáticas:

In [None]:
h.year + 1000

In [None]:
h.year - 2000

In [None]:
h.year // 10 * 10

Además, también podemos generar máscaras de forma similar a como lo haríamos en Numpy:

In [None]:
h.year > 1990

Y usando estas máscaras podemos filtrar los contenidos de nuestro Dataframe original, usando distintos tipos de criterios:

In [None]:
h[h.year > 1990]

In [None]:
h[(h.year > 1960) & (h.year < 1970)]

## 4. Ordenar los datos

Para ordenar los datos de un dataframe se utiliza el método `sort_values`, aplicado a una columna específica. A continuación presentamos algunos ejemplos:

In [None]:
h.sort_values('title')

In [None]:
h.sort_values('title', ascending=False)

In [None]:
h.sort_values('year')

In [None]:
h.sort_values(['year', 'title'])

### Ejercicios

Al terminar esta sección, por favor abrir el notebook llamado `Ejercicios-1.ipynb` y resolver los problemas planteados en el mismo.

## 5. Métodos de cadenas

Si una columna tiene datos de tipo `string`, es posible realizar distintas operaciones sobre los mismos usando comandos de la forma `<dataframe>.<nombre_de_columna>.str.<operacion>`. A continuación se presentan algunos ejemplos de estas operaciones.

Esta operación selecciona todas las películas que contienen el texto `86` como parte del título:

In [None]:
h

In [None]:
h[h.title.str.contains('86')]

Mientras que esta operación selecciona las películas del dataframe `h` que contienen más de 15 caracteres en su título

In [None]:
h[h.title.str.len() > 15]

## 6. Agregación

Con Pandas también es posible realizar operaciones de agregación sobre los datos de distintas columnas, usando la operación `value_counts`. Esta función retorna un objeto `Series` que contiene el número de veces que se repite cada elemento en la columna, en orden descendente.

A continuación pueden verse algunos ejemplos del uso de `value_counts` aplicado al dataframe `titulos`.

In [None]:
titulos.year.value_counts()

Pandas cuenta con funciones internas que permiten graficar fácilmente los resultados de distintas operaciones. Por ejemplo, en este caso podemos generar una gráfica de años vs. número de películas, para observar como ha cambiado esta variable con el tiempo.

Para ello utilizamos el siguiente comando:

In [None]:
titulos.year.value_counts().plot()

¿Cuál es el problema con este gráfico? Si observamos nuevamente el resultado de `titulos.year.value_counts()`, especialmente los datos ubicados al final de la serie, veremos que estos no están ordenados por años, razón por la cual el gráfico no aparece como debería.

In [None]:
titulos.year.value_counts().tail(20)

Para ordenar la columna de los años (que corresponde al índice de la serie), usamos el siguiente comando:

In [None]:
titulos.year.value_counts().sort_index()

Al graficar esta serie podemos observar que el resultado, ahora sí, es el que esperaríamos:

In [None]:
titulos.year.value_counts().sort_index().plot()

También es posible cambiar las propiedades del gráfico para que aparezca como un histograma y no como una serie de tiempo. Para ello utilizamos el argumento opcional `kind` del método `plot`, de la siguiente forma:

In [None]:
titulos.year.value_counts().sort_index().plot(kind='bar')

### Ejercicios

Al terminar esta sección, por favor abrir el notebook llamado `Ejercicios-2.ipynb` y resolver los problemas planteados en el mismo.

## 7. Seleccionar columnas

Es posible seleccionar ciertas columnas de una dataframe se utiliza comandos de la forma

```python
dataframe[['col1', 'col2']]
```

A continuación usamos el dataframe de personajes, del cual extraemos únicamente los personajes llamados "Kermit the Frog" (La Rana René en inglés)

In [None]:
p = personajes[personajes.character == 'Kermit the Frog']

In [None]:
p

Para tomar de este dataframe sólo las columnas correspondientes al título y al año, realizamos la siguiente operación:

In [None]:
p[['year', 'title']]

## 8. La operación `groupby`

La operación `groupby` permite agrupar datos de distintas columnas y aplicarles una operación o un conjunto de operaciones a los mismos.

Veamos algunos ejemplos:

In [None]:
p = personajes[personajes.name == 'Eddie Murphy']
p.head()

In [None]:
d = p.groupby(['year', 'title']).size()
d

In [None]:
d[d > 1]

In [None]:
c = cast
c = c[c.name == 'George Clooney']
c.groupby([c.year // 10 * 10]).size()

In [None]:
c = cast
c = c[c.name == 'George Clooney']
c.groupby(['year', 'title']).n.mean()

In [None]:
c.groupby?

In [None]:
c = cast
c = c[c.name == 'George Clooney']
c.groupby([c.year // 10 * 10]).size()

## 9. La operación `unstack`

In [None]:
c = cast
c = c[(c.character == 'Kermit the Frog') | (c.character == 'Oscar the Grouch')]
g = c.groupby(['character', c.year // 10 * 10]).size()
g

How can we compare years?  Unstack!

In [None]:
g.unstack('year')

In [None]:
g.unstack('character')

In [None]:
u = g.unstack('character')
u['difference'] = u['Kermit the Frog'] - u['Oscar the Grouch']
u

In [None]:
u = g.unstack('character').fillna(0)
u['difference'] = u['Kermit the Frog'] - u['Oscar the Grouch']
u

Use `stack` to come back

In [None]:
u.stack()

In [None]:
u = g.unstack('character')
total = u['Oscar the Grouch'] + u['Kermit the Frog']
u['difference'] = u['Oscar the Grouch'] / total
u.difference.plot(ylim=[0,1])