# Estructures de dades pandas

## DataFrame

Un DataFrame representa una taula rectangular de dades i conté una col·lecció ordenada de columnes, que poden ser cada una d'un tipus diferent (numèric, cadena, booleà, etc.). El DataFrame té un índex de filera i un altre de columna. El podem veure com un diccionari de Series que comparteixen totes un mateix índex.

Internament, les dades s'emmagatzemen com un o més blocs bidimensionals més que no com a list, dict, o qualsevol altra col·lecció de vectors unidimensionals.

Tot i que un DataFrame és bidimensional, es pot fer servir per representar dades multidimensionals en format tabular usant indexat jeràrquic. Això és un element important en algunes de les característiques més avançades de gestió de dades de pandas.

Hi ha moltes formes de construir un DataFrame. Una de les més freqüents és a partir d'un diccionari de llistes o vectors NumPy de la mateixa longitud.


In [None]:
import pandas as pd

dades = {
    'illa': ['Mallorca', 'Menorca', 'Eivissa', 'Formentera'],
    'superficie': [3620, 692, 577, 83],
    'poblacio': [ 923608, 94885, 147914, 11708]
}

df = pd.DataFrame(dades)
df

El DataFrame resultat té l'índex assignat automàticament, com a les sèries, i les columnes es mostren en ordre.

En conjunts de dades grans, podem veure només unes primeres fileres amb el mètode `head`, passant-hi com a paràmetre quantes en volem veure. El valor per defecte, quan no es passa paràmetre, és 5.

In [None]:
df.head(3)

Si especificam un ordre de columnes particular, el DataFrame s'hi ajustarà.

In [None]:
pd.DataFrame(dades, columns=['illa','poblacio','superficie'])

Si demanam una columna que no hi és, es crea amb valors nuls (NaN).

In [None]:
df2 = pd.DataFrame(dades, columns=['illa','poblacio','superficie','densitat'], index=['u','dos','tres','quatre'])
df2

In [None]:
df2.columns

Una columna d'un DataFrame es pot retornar com a Series amb notació de diccionari o com a atribut, amb el mateix resultat.

In [None]:
df2['poblacio']

In [None]:
df2.poblacio

Observem que `frame['columna']` funciona per a qualsevol nom de columna, mentre que `frame.columna` només si columna és un nom de variable vàlid en Python.

La Series de retorn té el mateix índex que el DataFrame, i el seu atribute `name` pren el valor adequat.

Les fileres es poden obtenir per posició o per nom amb l'atribut especial `loc`.

In [None]:
df2.loc['dos']

Les columnes es poden modificar per assignació. Per exemple, la columna buida densitat pot rebre un escalar o un vector de valors.

In [None]:
df2.densitat = 100
df2

In [None]:
df2.densitat = [255,	137, 256, 140]
df2

Quan s'assignen llistes o vectors a una columna, la longitud dels valors ha d'encaixar amb la longitud del DataFrame. Si s'assigna una sèrie, les etiquetes s'alinearan exactament amb les del DataFrame, inserint valors NaN a qualsevol buit.

In [None]:
densitat = pd.Series([255,137], index=['u','dos'])

df2.densitat = densitat
df2

Quan s'assigna una columna que no existeix se n'assigna una de nova. El mot reservat `del` esborra columnes com en un `dict`.

Creem dues columnes noves, per classificar les illes en Gimnèsies i Pitiüses.

In [None]:
df2['Gimnèsies']=[True, True, False, False]

df2['Pitiüses']=[False, False, True, True]

df2




Si en qualque moment decidim que una columna no ens interessa, la podem esborrar.

In [None]:
del df2['Gimnèsies']

df2

Una altra forma habitual que prenen les dades és com a diccionari de diccionaris imbricat.

In [None]:
dades = {
    'Mallorca': {'poblacio': 923608, 'superficie': 3620},
    'Menorca': {'poblacio': 94885	, 'superficie': 692},
    'Eivissa': {'poblacio': 147914, 'superficie': 577},
    'Formentera': {'poblacio': 11708, 'superficie': 83}
}

dades

Si el diccionari imbricat es passa com a paràmetre al DataFrame, pandas interpretarà les claus externes del diccionari com a columnes i les claus internes com a índexs de columna.

In [None]:
df3 = pd.DataFrame(dades)

df3

Es pot transposar un DataFrame (intercanviar fileres i columnes) amb una sintaxi similar a la dels vectors NumPy.

In [None]:
df3.T

Les claus dels diccionaris interiors es combinen i ordenen per formar l'índex del resultat.

Però això no és així si s'especifica un índex explícit.

In [None]:
pd.DataFrame(dades, index=['poblacio', 'superficie', 'densitat'])

Els diccionaris de sèries es tracten d'una forma semblant.

In [None]:
pdata = {
    'Mallorca': df3['Mallorca'][:], # complet
    'Menorca': df3['Menorca'][:1]   # només el primer camp
    }

pd.DataFrame(pdata)

Aquesta és una taula dels paràmetres que pot rebre el constructor de DataFrame

|Tipus|Explicació|
|-----|----------|
|ndarray 2D| Una matriu de dades, amb etiquetes opcionals de fileres i columnes|
|dict de vectors, llistes o tuples| Cada seqüència -de la mateixa longitud totes- esdevé una columna del DataFrame|
|vector de registres estructurat NumPy| Com el cas dict de vectors|
|dict de Series| Cada valor esdevé una columna; els índexs de cada Series s'uneixen per formar els índexs de filera del resultat, si no es passen índexs.|
|dict de dicts| Cada diccionari interior esdevé una columna; les claus s'uneixen per formar l'índex de fileres com en el cas `dict` de `Series`|
|Llista de dict o Series|Cada element esdevé una filera en el DataFrame; la unió de claus de diccionari o Series esdevenen les etiquetes de columna del DataFrame|
|Llista de llistes o tuples| Com el cas ndarray 2D|
|Un altre DataFrame|Es fan servir els índexs del DataFrame, llevat que se'n passin uns altres|
|MaskedArray de NumPy| Com el cas ndarray 2D, però els valors emmascarats queden NaN al DataFrame resultat|

Si en un DataFrame l'índex i les columnes tenen posats l'atribut `name`, es mostraran.

In [None]:
df3.index.name = "paràmetre"
df3.columns.name = "illa"

df3

Com amb les Series, l'atribut values retorna les dades contingudes al DataFrame com un ndarray bidimensional.

In [None]:
df3.values

Si les columnes del DataFrame són de diferents tipus, el dtype del vector de valors es triarà per adaptar-se a totes les columnes.

A les cel·les següents, veim que df3 té el tipus de les dades "enter de 64 bits", mentre que df2 el té "objecte", perquè són de diferents tipus.

In [None]:
df3.values

In [None]:
df3.values.dtype

In [None]:
df2.values

In [None]:
df2.values.dtype