05 Pandas
============================

Instruccions d'ús
-----------------

A continuació es presentaran explicacions i exemples d'ús de la
llibreria pandas. Recordeu que podeu anar executant els exemples per
obtenir-ne els resultats.

Introducció
-----------

Pandas és una llibreria de Python que ens ofereix una interfície d'alt
nivell per manipular i analitzar dades. Podeu trobar-ne la documentació
completa al següent
[enllaç](http://pandas.pydata.org/pandas-docs/stable/).

### Primers passos

Per poder utilitzar la llibreria, en primer lloc cal importar-la:

In [None]:
# A la línia següent, importem pandas i li donem un nom més curt 
# perquè ens sigui més còmode fer les crides.
import pandas as pd
# Importem també NumPy, ja que la farem servir en algun dels exemples.
import numpy as np

### Estructures de dades bàsiques

Pandas proveeix de tres estructures de dades: la sèrie, el _dataframe_ i
antigament el panell (ara, els _dataframes_ i les _sèries_ amb índexs multinivell). Vegem les característiques de cadascuna.

Una **sèrie** és un vector **unidimensional** amb **etiquetes** als eixos i
dades **homogènies**.

Repassem què impliquen cadascuna d'aquestes característiques amb uns
exemples.

La sèrie ens permet representar un conjunt de dades unidimensionals,
per exemple, una llista d'enters, decimals o de cadenes de caràcters:

In [None]:
print(pd.Series([1, 1, 2, 3, 5]))

In [None]:
print(pd.Series([1.5, 3.5, 4.75]))

Les dades d'una sèrie han de ser homogènies, és a dir, han de ser del
mateix tipus. Als exemples anteriors, la primera sèrie estava formada
per enters (int64), mentre que la segona contenia nombres en punt flotant
(float).

De totes maneres, si intentem crear una sèrie amb dades de diferents
tipus, podrem fer-ho, ja que pandas crearà una sèrie amb el tipus més
general:

In [None]:
# Barregem enters i 'floats', la sèrie és de tipus 'float'.
print(pd.Series([1, 2, 3.5]))

In [None]:
# Barregem enters, 'floats' i 'strings', la sèrie és de tipus 'object'.
print(pd.Series([1, 4.3, "data"]))

Finalment, la sèrie pot tenir etiquetes, de manera que podem accedir
als elements d'una sèrie tant a partir del seu índex com de la seva
etiqueta.

In [None]:
# Creem una sèrie etiquetada a partir d'un diccionari.
s = pd.Series({"alice" : 2, "bob": 3, "eve": 5})
print(s)

# Accedim als elements de la sèrie a partir de la seva etiqueta.
print(s["alice"])

# Accedim als elements de la sèrie a partir del seu índex.
print(s[0])

In [None]:
# Creem una sèrie etiquetada a partir de dos vectors, un amb les dades i un altre amb les etiquetes.
print(pd.Series([2, 3, 5], index = ["alice", "bob", "eve"]))

La segona estructura de dades de pandas que presentarem és el _dataframe_.

Un _**dataframe**_ és una taula **bidimensional** amb **etiquetes** als eixos
i dades potencialment **heterogènies**. El _dataframe_ és l' estructura
principal de treball amb la llibreria pandas.

Vegem les característiques principals d'un _dataframe_ amb alguns
exemples.

A diferència d'una sèrie, un _dataframe_ és bidimensional:

In [None]:
print(pd.DataFrame([[1, 2, 3], [4, 5, 6]]))

Igual que la sèrie, el _dataframe_ pot tenir etiquetes als eixos i podem
utilitzar diferents sintaxis per incloure les etiquetes al _dataframe_.

In [None]:
# Fem servir un diccionari per definir cada columna i una llista per indicar les etiquetes de les files.
d = {"alice" : [1953, 12, 3], "bob" : [1955, 11, 24], "eve" : [2011, 10, 10]}
print(pd.DataFrame(d, index=["year", "month", "day"]))

In [None]:
# Fem servir una llista de llistes per a introduir les dades i dues llistes addicionals 
# per a indicar les etiquetes de files i les columnes.
a = [[1953, 12, 3], [1955, 11, 24], [2011, 10, 10]]
print(pd.DataFrame(a, columns=["year", "month", "day"], index = ["alice", "bob", "eve"]))

Cadascuna de les columnes d'un _dataframe_ pot tenir tipus de dades
diferents, donant lloc a _dataframes_ heterogenis:

In [None]:
a = [[1953, "computer science", 3.5], [1955, "archeology", 3.8], [2011, "biology", 2.8]]
print(pd.DataFrame(a, columns=["year", "major", "average grade"], index = ["alice", "bob", "eve"]))

En versions anteriors de pandas, disposàvem del panell com a tercera estructura de dades. Un **panell** és una estructura de dades **tridimensional** que pot contenir **etiquetes** als eixos i pot ser **heterogènia**.

Actualment, l'ús dels panells està discontinuat, i fem servir sèries i _dataframes_ amb índexs multinivell per tal de representar estructures de dades de més de dues dimensions.

Vegem un exemple senzill d'ús d'índexs multinivell per a representar una
imatge.

In [None]:
img = [[[0, 0, 0], [0, 15, 0], [0, 0, 15], [15, 0, 0], [180, 180, 180]],
       [[200, 200, 200], [125, 1, 125], [100, 100, 2], [1, 152, 125], [15, 25, 20]]]

# Fem servir números per indexar les files i les columnes, i les lletres 
# "R", "G", "B" per indicar el contingut d'aquest color en cada píxel
index = pd.MultiIndex.from_product(
    [range(len(img)), range(len(img[0])), ["R", "G", "B"]], 
    names=['row', 'column', 'color'])

# Creem la sèrie amb l'índex multidimensional especificant les dades
# i els índex
s = pd.Series([x for row in img for col in row for x in col], 
               index=index)
s

Visualitzem gràficament la imatge per entendre millor la representació
escollida. La imatge té dues files i cinc columnes i per a cada píxel utilitzem
tres valors numèrics per representar-ne el color.

In [None]:
%pylab inline
from pylab import imshow
imshow(array(img, dtype=uint16), interpolation='nearest')

Operacions bàsiques sobre un _dataframe_
--------------------------------------

El _dataframe_ és l'estructura més usada a pandas. Vegem algunes de les
operacions que podem realitzar amb aquest.

### Lectura de dades d'un fitxer

Pandas ens permet carregar les dades d'un fitxer CSV directament a un
_dataframe_ a través de la funció `read_csv`. Aquesta funció és molt
versàtil i disposa de multitud de paràmetres per configurar amb tot
detall com dur a terme la importació. En molts casos, la configuració
per defecte ja ens oferirà els resultats desitjats.

Ara carregarem les dades del fitxer `marvel-wikia-data.csv`, que conté
dades sobre personatges de còmic de Marvel. El conjunt de dades va ser
creat pel web [FiveThirtyEight](https://fivethirtyeight.com/), que
escriu articles basats en dades sobre esports i notícies, i que posa a
disposició pública els [conjunts de
dades](https://github.com/fivethirtyeight/data) que recull per als seus
articles.

In [None]:
# Carreguem les dades del fitxer "marvel-wikia-data.csv" a un 'dataframe'.
data = pd.read_csv("data/marvel-wikia-data.csv")
print(type(data))

### Exploració del _dataframe_

Vegem algunes funcions que ens permeten explorar el _dataframe_ que acabem
de carregar.

In [None]:
# Mostrar les 3 primeres files.
data.head(n=3)

In [None]:
# Mostrar les etiquetes.
data.index

In [None]:
# Mostra estadístiques bàsiques de les columnes numèriques del 'dataframe'.
data.describe()

### Indexació i selecció de dades

Podem utilitzar les expressions habituals de Python (i NumPy) per
seleccionar dades de _dataframes_ o bé fer servir els operadors propis de
pandas. Aquests últims estan optimitzats, per la qual cosa el seu ús és
recomanat per treballar amb conjunts de dades grans o en situacions en què
l'eficiència sigui crítica.

In [None]:
# Seleccionem els noms dels deu primers personatges, és a dir, mostrem la columna "name" de les deu primeres files
# fent servir expressions Python.
data["name"][0:10]

In [None]:
# Seleccionem el nom, l'estat de la seva identitat i el color de cabell dels superherois 3 i 8
# amb l'operador d'accés de pandas .loc
data.loc[[3,8], ["name", "ID", "HAIR"]]

In [None]:
# Seleccionem files segons el gènere del superheroi utilitzant operadors binaris i expressions Python.
male = data[data.SEX == "Male Characters"]
female = data[data.SEX == "Female Characters"]
print(len(male))
print(len(female))

In [None]:
# Combinem operadors binaris per seleccionar els superherois amb identitat secreta que han aparegut més
# de dues mil vegades amb expressions Python.
secret_and_popular1 = data[(data.APPEARANCES > 1000) & (data.ID == "Secret Identity")]
print(len(secret_and_popular1))
print(secret_and_popular1["name"])

In [None]:
# Utilitzem el mètode 'where' de pandas per obtenir la mateixa informació:
secret_and_popular2 = data.where ((data.APPEARANCES> 1000) & (data.ID == "Secret Identity"))
# Fixeu-vos que en aquest cas el resultat té la mateixa mida que el 'dataframe original': els valors no seleccionats
# mostren NaN.
print(len(secret_and_popular2))
print(secret_and_popular2["name"][0:10])

In [None]:
# Podem eliminar les files que tinguin tots els valors NaN, de manera que obtindrem el mateix resultat que fent servir 
# operadors binaris.
print(secret_and_popular2.dropna(how="all")["name"])

### Agregació de dades

Pandas també permet crear grups de dades a partir dels valors d' una o
més columnes i després operar sobre els grups creats. Vegem alguns
exemples.

In [None]:
# Agrupem el 'dataframe' en funció de l'alineació del superheroi.
grouped = data.groupby("ALIGN")

# Visualitzem el nom i el nombre de files de cada grup.
for name, group in grouped:
    print(name, len(group))

In [None]:
# Agrupem el 'dataframe' en funció de l'alineació del superheroi i de l'ocultació de la seva identitat.
grouped = data.groupby(["ALIGN", "ID"])

# Visualitzem el nom i el nombre de files de cada grup.
for name, group in grouped:
    print(name, len(group))

In [None]:
# A partir de les dades agrupades, apliquem la funció d'agregació 'np.mean' (que calcula la mitjana).
grouped.aggregate(np.mean)

In [None]:
# Recuperem la informació d'un únic grup d'interès.
grouped.get_group(("Neutral Characters", "Known to Authorities Identity"))

### Escriptura de dades a un fitxer

D'una manera anàloga a com hem carregat les dades d'un fitxer a un
_dataframe_, podem escriure les dades d'un _dataframe_ a un fitxer CSV.

In [None]:
# Creem un 'dataframe' amb els noms dels superherois.
new_dataset = data[["name"]]
# Guardem el nou 'dataframe' a un fitxer, forçant la codificació a 'utf-8'.
new_dataset.to_csv("marvel-wikia-data-reduced.csv", encoding='utf-8')