# Estructures de dades de pandas

## Sèries

Una sèrie (*Series*) és un objecte vectorial unidimensional que conté una seqüència de valors (de tipus semblants als tipus NumPy) i un vector associat d'etiquetes de dades, anomenat índex. La `Series` més simple es forma a partir d'un vector de dades.

In [None]:
import pandas as pd

obj = pd.Series([5, 7, -3, 1])
obj

La representació en cadena d'una sèrie mostra l'índex a l'esquerra (en aquest cas, de 0 a 3) i els valors a la dreta, els que hem introduït a la creació. Com que no hem especificat cap índex per a les dades, es fa servir el valor per defecte: de 0 a N-1, on N és la longitud de les dades. Podem consultar per separat els **valors** i l'**índex** de la sèrie.

In [None]:
obj.values

In [None]:
obj.index

De vegades interessarà crear una sèrie amb un índex que identifiqui cada punt de dades amb una etiqueta, entera o no. A l'exemple següent utilitzarem caràcters.

In [None]:
obj2 = pd.Series([3,7,-5,1],index=['d','b','a','c'])
obj2

In [None]:
obj2.index

Podem usar etiquetes a l'índex per seleccionar valors individuals o bé conjunts de valors. Vegem-ho.

In [None]:
obj2['a']

In [None]:
obj2[['a','b','c']]

Aquí, `['a','b','c']` s'interpreta com a llista d'índexs, tot i que conté cadenes de caràcters (*strings*) en comptes d'enters.

Quan utilitzem funcions NumPy o operacions de tipus NumPy, com per exemple filtrar amb un vector booleà, multiplicació per un escalar, o aplicació de funcions matemàtiques, es preservarà la relació índex-valor.

In [None]:
obj2 [ obj2 > 0]

In [None]:
2 * obj2

In [None]:
import numpy as np

# translates to: e^x where 'x' is the item to apply the method
np.exp( obj2 )

També podem pensar les sèries com un diccionari ordenat, de longitud fixa, ja que és un mapejat dels valors dels índexs als valors de les dades. La sèrie es pot usar en molts de contextos on podríem fer servir un diccionari (`dict`).

In [None]:
'b' in obj2

In [None]:
'e' in obj2

Si tenim unes dades com a diccionari Python, es pot crear una sèrie passant com a paràmetre el diccionari.

In [None]:
superficies = {'Mallorca': 3620, 'Menorca': 692, 'Eivissa': 577, 'Formentera': 83}

obj3 = pd.Series(superficies)

obj3

Podem definir en quin ordre volem els índexs. Definim un nou vector per als índexs.

In [None]:
illes = ['Menorca', 'Eivissa', 'Formentera', 'Cabrera']
obj4 = pd.Series (superficies, index=illes)
obj4

Observem dues coses: Mallorca ha quedat fora de la sèrie perquè no era a la llista d'índexs, i el valor de Cabrera és nul (NaN, Not A Number) perquè no formava part de la sèrie original.

Podem comprovar si ha valors nuls com aquest amb les funcions de pandas `isnull` i `notnull`.

In [None]:
pd.isnull(obj4)
# ~pd.isnull(obj4) # -> opposite expression or the same as notnull

In [None]:
pd.notnull(obj4)

Aquestes dues funcions també estan disponibles com a mètodes de `Series`.

In [None]:
obj4.isnull()

In [None]:
obj4.notnull()

Una característica interessant de Series és que s'alinea automàticament per índex, en les operacions aritmètiques.

In [None]:
obj3

In [None]:
obj4

In [None]:
obj3 + obj4

Aquesta suma és semblant a les operacions de **join** en bases de dades.

Tant la sèrie com l'índex tenen un nom, que s'integra amb altres funcions de pandas.

In [9]:
obj3.name='superficies'

In [10]:
obj3.index.name = 'illes'

In [None]:
obj3

Es pot canviar l'índex d'una sèrie per assignació.

In [None]:
obj3.index = ['Ma','Me','Ei','Fo']
obj3.index.name = 'illes_codi'
obj3