<img src='https://srv.net.fje.edu/net2/images/logo_fje.svg' width='30%'><img src='https://avatars1.githubusercontent.com/u/305880?s=460&v=4' width='10%'>
####sergi.grau@fje.edu

# ![alt text](https://pandas.pydata.org/_static/pandas_logo.png)

## Introducció
Pandas és una biblioteca de Python que ens ofereix una interfície d'alt nivell per a manipular i analitzar dades. 
Disposem d'informació detallada a http://pandas.pydata.org/pandas-docs/stable/



## Utilització
El primer que cal fer és importar la biblioteca


In [0]:
# importem la biblioteca amb un alies
import pandas as pd
# moltes vegades amb Pandas ens caldrà la biblioteca NumPy, la importem doncs
import numpy as np


##Estructures de dades bàsiques: Sèrie

Pandas proveeix de dues estructures de dades: la sèrie i el dataframe són les més importants. Heu de recordar que l’alineació de dades és intrínseca. L’enllaç entre etiquetes i dades no es trencarà tret que ho feu explícitament.

Una **sèrie** és un vector unidimensional amb etiquetes en els eixos i dades homogenis.Una sèrie ens permet representar un conjunt de dades unidimensional. El mètode bàsic per crear una sèrie d'una llista d'enters, decimals o de cadenes de caràcters:

In [0]:
print(pd.Series([1, 1, 2, 3, 5]))

0    1
1    1
2    2
3    3
4    5
dtype: int64


In [0]:
pd.Series([1.5, 3.5, np.nan, 4.75])
#en el cas d'utilitzar un Jupyter Notebook, no cal utilitzar la funció print, i de fet l'entorn presenta millor les dades
#observem que utilitzem la biblioteca NumPy per a definir un NaN

0    1.50
1    3.50
2     NaN
3    4.75
dtype: float64

Els dades d’una sèrie tenen que ser homogènis, és a dir, tenen el mateix tipus. En els exemples anteriors, la primera sèrie està formada per enteros (int64) mentre que la segona quantitat de números en punt flotant (flotador).
De tots els modes, si volem crear una sèrie amb dades de diferents tipus, podrem fer, ja que Pandas crearà una sèrie amb el tipus més general:

In [0]:
  print(pd.Series([1, 2, 3.5])) #hem posat enters i reals a la sèrie, el tipus és real

0    1.0
1    2.0
2    3.5
dtype: float64


In [0]:
# si barregem els tipus la sèrie esdeve del tipus object
print(pd.Series([1, 4.3, "cadena"]))
 

0         1
1       4.3
2    cadena
dtype: object


Les etiquetes dels eixos es denominen col·lectivament índex, i les podem crear a partir d'un diccionari.

In [0]:
serie = pd.Series({"alice" : 2, "bob": 3, "eve": 5})
print(serie)
serie["alice"] #o serie[0]

alice    2
bob      3
eve      5
dtype: int64


2

També podem crear una sèrie d’etiquetes a partir de dos vectors, un amb les dades en format ndarray i altres amb les etiquetes. Els index haurien de tenir la mateixa longitud. En el primer exemple, com no hem passat els index s'utilitza una valors 0..n-1

In [0]:
print(pd.Series([2, 3, 5], index = ["alice", "bob", "eve"]))

alice    2
bob      3
eve      5
dtype: int64


In [0]:
d = {'a': 0., 'b': 1., 'c': 2.}
pd.Series(d, index=['b', 'c', 'd', 'a']) #exemple d'autocompleció d'elements que manquen en les dades


b    1.0
c    2.0
d    NaN
a    0.0
dtype: float64

In [0]:
pd.Series(5., index=['a', 'b', 'c', 'd', 'e'])

a    5.0
b    5.0
c    5.0
d    5.0
e    5.0
dtype: float64

##Estructures de dades bàsiques: DataFrame
Un **dataframe** és una taula bidimensional amb etiquetes en els eixos i dades potencialment heterogenis. El dataframe és l'estructura principal de treball amb la biblioteca Pandas.
Vegem les característiques principals d'un dataframe amb alguns exemples. A diferència d'una sèrie, un dataframe és bidimensional:

In [0]:
pd.DataFrame([[1, 0, 3], [4, 5, 6]]) #podeu provar de fer el mateix amb print(...)

Unnamed: 0,0,1,2
0,1,0,3
1,4,5,6


Igual que la sèrie, el dataframe pot tenir etiquetes en els eixos i podem utilitzar diferents sintaxi per incloure les etiquetes al dataframe.




In [0]:
# Fem servir un diccionari per definir cada columna i una llista per a indicar les etiquetes de les files.
d = {"alice" : [1953, 12, 3], "bob" : [1955, 11, 24], "eve" : [2011, 10, 10]} 
pd.DataFrame(d, index=["any", "mes", "dia"])

Unnamed: 0,alice,bob,eve
any,1953,1955,2011
mes,12,11,10
dia,3,24,10


In [0]:
# Fem servir una llista de llistes per a introduir les dades i dues llistes addicionals
# Per a indicar les etiquetes de files i les columnes.
a = [[1953, 12, 3], [1955, 11, 24], [2011, 10, 10]]
pd.DataFrame(a, columns=["any", "mes", "dia"], index = ["alice", "bob", "eve"])

Unnamed: 0,any,mes,dia
alice,1953,12,3
bob,1955,11,24
eve,2011,10,10


Cadascuna de les columnes d'un dataframe pot tenir tipus de dades diferents, donant lloc a dataframes heterogenis:

In [0]:
a = [[1953, "informàtica", 3.5], [1955, "economia", 3.8], [2011, "biologia", 2.8]]
pd.DataFrame(a, columns=["anys", "títol", "nota"], index = ["alice", "bob", "eve"])

Unnamed: 0,anys,títol,nota
alice,1953,informàtica,3.5
bob,1955,economia,3.8
eve,2011,biologia,2.8


## Operacions bàsiques sobre un dataframe

El dataframe és l'estructura més usada en Pandas.

### Lectura de dades d'un fitxer
Pandas ens permet carregar les dades d'un fitxer CSV directament a un dataframe a través de la funció read_csv. Aquesta funció és molt versàtil i disposa de multitud de paràmetres per configurar amb tot detall com realitzar la importació. En moltes ocasions, la configuració per defecte ja ens oferirà els resultats desitjats. Les dades les obtenim de la web FiveThirtyEight (https://fivethirtyeight.com/), que realitza articles basats en dades sobre esports i notícies, i que posa a disposició pública els conjunts de dades (https://github.com/fivethirtyeight/data) que recull per als seus articles.


In [0]:
# carreguem les dades en un dataframe. 
dades = pd.read_csv("https://raw.githubusercontent.com/fivethirtyeight/data/master/alcohol-consumption/drinks.csv")
dades.columns=["país", "consum_cervesa", "consum_espirtuoses", "consum_vi", "total_litres_alcohol_pur"]
print(type(dades))

<class 'pandas.core.frame.DataFrame'>


### Exploració del dataframe
Vegem algunes funcions que ens permeten explorar el dataframe que acabem de carregar.


In [0]:
# Mostrar les primeres 3 files
dades.head(n=3)

Unnamed: 0,país,consum_cervesa,consum_espirtuoses,consum_vi,total_litres_alcohol_pur
0,Afghanistan,0,0,0,0.0
1,Albania,89,132,54,4.9
2,Algeria,25,0,14,0.7


In [0]:
# Mostrar les etiquetes
dades.index

RangeIndex(start=0, stop=193, step=1)

In [0]:
# Mostrar estadístics bàsics de les columnes numèriques del dataframe 
dades.describe()

Unnamed: 0,consum_cervesa,consum_espirtuoses,consum_vi,total_litres_alcohol_pur
count,193.0,193.0,193.0,193.0
mean,106.160622,80.994819,49.450777,4.717098
std,101.143103,88.284312,79.697598,3.773298
min,0.0,0.0,0.0,0.0
25%,20.0,4.0,1.0,1.3
50%,76.0,56.0,8.0,4.2
75%,188.0,128.0,59.0,7.2
max,376.0,438.0,370.0,14.4


### Indexació i selecció de dades
Podem utilitzar les expressions habituals de Python (i NumPy) per seleccionar dades de dataframes o bé usar els operadors propis de Pandas. Aquests últims estan optimitzats, pel que el seu ús és recomanat per treballar amb conjunts de dades grans o en situacions on l'eficiència sigui crítica.

In [0]:
#Seleccionem els noms dels deu primers paisos, és a dir, vam mostrar la columna "country" expressions Python.
dades["país"][0:10]

0          Afghanistan
1              Albania
2              Algeria
3              Andorra
4               Angola
5    Antigua & Barbuda
6            Argentina
7              Armenia
8            Australia
9              Austria
Name: país, dtype: object

In [0]:
 # selecionem dels 3 i 8 a 7 estats, les columnes especificades
dades.loc[[3,8], ["país", "consum_cervesa"]]

Unnamed: 0,país,consum_cervesa
3,Andorra,245
8,Australia,261


In [0]:
#Seleccionem files operadors binaris i expressions Python.
poca_cervesa = dades[(dades.consum_cervesa <5)] 
poca_cervesa.país #len(poca_cervesa.país)


0           Afghanistan
13           Bangladesh
38              Comoros
40         Cook Islands
46          North Korea
73                Haiti
79                 Iran
90               Kuwait
97                Libya
103            Maldives
106    Marshall Islands
107          Mauritania
111              Monaco
123               Niger
128            Pakistan
137               Qatar
147          San Marino
149        Saudi Arabia
158             Somalia
168          Tajikistan
171         Timor-Leste
Name: país, dtype: object

In [0]:
# Combinem operadors binaris.
cervesa_alcohol = dades[(dades.consum_cervesa <5) & (dades.total_litres_alcohol_pur <2)]
len(cervesa_alcohol)
cervesa_alcohol["país"]

0           Afghanistan
13           Bangladesh
38              Comoros
46          North Korea
79                 Iran
90               Kuwait
97                Libya
103            Maldives
106    Marshall Islands
107          Mauritania
111              Monaco
123               Niger
128            Pakistan
137               Qatar
147          San Marino
149        Saudi Arabia
158             Somalia
168          Tajikistan
171         Timor-Leste
Name: país, dtype: object

In [0]:
# utilitzem el mètode where
cervesa_alcohol = dades.where((dades.consum_cervesa <5) & (dades.total_litres_alcohol_pur <2))
# Fixeu-vos que en aquest cas el resultat té la mateixa mida que el 'dataframe' original: els valors no seleccionats # mostren NaN.
len(cervesa_alcohol)
cervesa_alcohol["país"][0:15]

0     Afghanistan
1             NaN
2             NaN
3             NaN
4             NaN
5             NaN
6             NaN
7             NaN
8             NaN
9             NaN
10            NaN
11            NaN
12            NaN
13     Bangladesh
14            NaN
Name: país, dtype: object

In [0]:
#Podem eliminar les files que tinguin tots els valors NaN, obtenint així el mateix resultat que fent servir operadors binaris.
cervesa_alcohol.dropna(how="all")["país"]

0           Afghanistan
13           Bangladesh
38              Comoros
46          North Korea
79                 Iran
90               Kuwait
97                Libya
103            Maldives
106    Marshall Islands
107          Mauritania
111              Monaco
123               Niger
128            Pakistan
137               Qatar
147          San Marino
149        Saudi Arabia
158             Somalia
168          Tajikistan
171         Timor-Leste
Name: país, dtype: object

### Agregació de dades
Pandas també permet crear grups de dades a partir dels valors d'una o més columnes i després operar sobre els grups creats. Vegem alguns exemples.

In [0]:
#arrodonim la columna de consum_cervesa
dades.consum_cervesa = dades.consum_cervesa.round(-2)
#dades.consum_cervesa = dades.consum_cervesa.apply(lambda x: round(x, decimals))
print(dades[0:10])
# Agrupem el 'dataframe' en funció de l'alineació del país. 
agrupacio = dades.groupby("consum_cervesa")
# Visualitzem el nom i el nombre de files de cada grup.
for consum_cervesa, país in agrupacio: 
  print(consum_cervesa, len(país))

                país  consum_cervesa  ...  consum_vi  total_litres_alcohol_pur
0        Afghanistan               0  ...          0                       0.0
1            Albania             100  ...         54                       4.9
2            Algeria               0  ...         14                       0.7
3            Andorra             200  ...        312                      12.4
4             Angola             200  ...         45                       5.9
5  Antigua & Barbuda             100  ...         45                       4.9
6          Argentina             200  ...        221                       8.3
7            Armenia               0  ...         11                       3.8
8          Australia             300  ...        212                      10.4
9            Austria             300  ...        191                       9.7

[10 rows x 5 columns]
0 79
100 55
200 38
300 19
400 2


In [0]:
# A partir de les dades agrupades, apliquem la funció d'agregació np.mean (que calcula la mitjana).
agrupacio.aggregate(np.mean)

Unnamed: 0_level_0,consum_espirtuoses,consum_vi,total_litres_alcohol_pur
consum_cervesa,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,29.556962,6.518987,1.6
100,100.145455,47.309091,4.854545
200,139.842105,107.447368,8.244737
300,121.157895,116.263158,9.742105
400,86.5,67.5,9.3


In [0]:
dades.consum_vi = dades.consum_vi.round(-2)
# Agrupem el 'dataframe' en funció de l'alineació del país. 
dades.groupby("consum_vi").sum()


Unnamed: 0_level_0,consum_cervesa,consum_espirtuoses,total_litres_alcohol_pur
consum_vi,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,8600,8861,424.3
100,5800,4469,243.7
200,3600,1494,154.4
300,1500,657,76.2
400,100,151,11.8


### Escriptura de dades a un fitxer 
D'una manera anàloga a com hem carregat les dades d'un fitxer a un dataframe, podem escriure les dades d'un dataframe en un fitxer CSV.

In [0]:
from google.colab import files
# fem un 'dataframe' amb els noms dels paisos. 
nou_dataset = dades[["país"]]
nou_dataset.to_csv("paisos.csv, encoding='utf-8'")
#files.download('paisos.csv')