## Introducció

### Pandas

Pandas és la llibreria més popular de Python per a l'anàlisi de dades. 

No podeu treballar amb dades si no les podeu llegir. En esta secció aprendrem a crear dades de forma estructurada, així com treballar amb dades preexistents.

Per començar a treballar amb pandas, el primer pas serà importar la llibrería. Al no formar part de les llibreries estàndar de Python, l'hauràs d'instal·lar (sobre l'entorn desitjat) amb:

```python
conda install pandas
```

Normalment, al igual que amb numpy, es comença amb:

In [180]:
import pandas as pd

In [181]:
pd.set_option('display.max_rows', 5) # Per a que ens mostre 5 files com a màxim

### Creació de dades

El dos objectes que formen el nucli de pandas són **DataFrame** i **Series**.

#### DataFrame

Un DataFrame és una taula. Conté un array de valors. Cada valor està situat en una coordenada donada per la seua fila i la seua columna.

In [182]:
pd.DataFrame({'Yes': [50, 21], 'No': [131, 2]})

Unnamed: 0,Yes,No
0,50,131
1,21,2


A diferència de numpy, pot contindre valors no numèrics:

In [183]:
pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 'Sue': ['Pretty good.', 'Bland.']})

Unnamed: 0,Bob,Sue
0,I liked it.,Pretty good.
1,It was awful.,Bland.


Estem utilitzant pd.DataFrame() per generar els objectes DataFrame. La sintaxi per declarar-los és un diccionari de Python on les claus seran el nom de les columnes i els valors són les llistes d'entrada de cada clau.

El constructor de tious diccionari assigna a les files els valors 0, 1, 2,... per a les etiquetes de fila. En la majoria de casos pot ser útil, però podem assignar etiquetes a cada fila.

La llista d'etiquetes de fila s'anomena **Index**, i és el paràmetre que podem utilitzar per assignar els seus valors:

In [184]:
pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 
              'Sue': ['Pretty good.', 'Bland.']},
             index=['Product A', 'Product B'])

Unnamed: 0,Bob,Sue
Product A,I liked it.,Pretty good.
Product B,It was awful.,Bland.


#### Series

Una Serie, per contra, és una seqüència de valors. Si un DataFrame és una taula, una Serie és una llista. I en realitat, pots crear una serie passant una llista de valors:

In [185]:
pd.Series([1, 2, 3, 4, 5])

0    1
1    2
2    3
3    4
4    5
dtype: int64

Una Serie és, bàsicament, una columna d'un DataFrame. Igual que al DataFrame, pots assignar etiquetes a les files de cada Serie passant el paràmetre index. No obstant, una Serie no té un nom de columna, sinó simplement un nom general:

In [186]:
pd.Series([30, 35, 40], index=['2015 Sales', '2016 Sales', '2017 Sales'], name='Product A')

2015 Sales    30
2016 Sales    35
2017 Sales    40
Name: Product A, dtype: int64

Com hauràs pogut deduir, les Series i els DataFrame estan molt relacionats, podent pensar que un DataFrame és un conjunt de Series unides. Ho veurem més endavant.

### Llegint dades d'arxius

La majoria de vegades no volem crear les dades manualment, sinó que volem treballar amb dades que ja existeixen.

Les dades poden estar allotjades en diferents formats, però una de les formes més freqüents i bàsiques és en format d'arxiu separat per comes o CSV.

```
Product A,Product B,Product C,
30,21,9,
35,34,1,
41,11,11
```

Per crear un DataFrame a partir d'un CSV utilitzarem la funció `pd.read_csv()`.

In [187]:
import os
directory = os.path.abspath('')
resource_path = os.path.join(directory,"data","winemag-data-130k-v2.csv")
reviews = pd.read_csv(resource_path, index_col=0)

## Indexació, selecció i assignació

### Getters natius

Els objectes de Python proporcionen una forma molt còmoda d'accedir al valor de les seues propietats. A pandas pots utilitzar el mateix mecnisme.

Per a accedir als valors de les columnes, pots utilitzar `objecte.columna`.

In [188]:
reviews.country

0            Italy
1         Portugal
            ...   
129969      France
129970      France
Name: country, Length: 129971, dtype: object

També podem accedir fent ús de la notació pròpia dels diccionaris de Python, és a dir, a través de les claus:

In [189]:
reviews['country']

0            Italy
1         Portugal
            ...   
129969      France
129970      France
Name: country, Length: 129971, dtype: object

Les dues formes d'accedir són igualment vàlides. Però accedir a través de la clau sempre funcionarà, mentre que en l'altre cas no. Si algun nom de columna té un nom no vàlid com a nom de variable, no funcionarà.

Per exemple, si tenim un objecte DataFrame `persones` amb una columna `principal ocupació`, `persona.principal ocupació` no funcionarà, mentre que, persones['principal ocupació'] si que funcionaria.

Com podeu observar, una Serie de pandas és com un diccionari, així que no és d'estranyar que, per llegir un únic valor específic, només necessitem utilitzar l'operador d'indexació [] una vegada més.

In [190]:
reviews['country'][0]

'Italy'

L'operador d'indexació i la selecció d'atributs són molt útils i fàcils d'utilitzar perquè funcionen igual que a la resta de l'ecosistema Python. No obstant, pandas té els seus propis operadors d'accés, loc i iloc, que les utilitzarem per a operacions més avançades.

#### Selecció basada en índexs 

La indexació de Pandas funciona en un dels dos paradigmes. El primer és la selecció basada en índexs, que utilitza `iloc`: seleccionar dades en funció de la seva posició numèrica a les dades. iloc segueix aquest paradigma. Per seleccionar la primera fila de dades en un DataFrame, podem utilitzar el següent:

In [191]:
reviews.iloc[0]

country                                                    Italy
description    Aromas include tropical fruit, broom, brimston...
                                     ...                        
variety                                              White Blend
winery                                                   Nicosia
Name: 0, Length: 13, dtype: object

Tant si utilitzem `loc` com si utilitzem `iloc` hem d'indicar primer la fila i després la columna, igual que a `numpy`. Això implica que és més fàcil recuperar files i més difícil recuperar columnes. Per obtenir una columna amb iloc, podem fer el següent:

In [192]:
reviews.iloc[:, 0]

0            Italy
1         Portugal
            ...   
129969      France
129970      France
Name: country, Length: 129971, dtype: object

<div class="admonition question">
  <p class="admonition-title">Pregunta</p>
  <p>
    Què estem seleccionant en el següent codi `reviews.iloc[:3, 0]`?
  </p>
</div>

El mateix resultat el podem obtindre utilitzant el *Fancy Indexing*.

In [193]:
reviews.iloc[[0, 1, 2], 0]

0       Italy
1    Portugal
2          US
Name: country, dtype: object

Finalment, també podem utilitzar números negatius per a seleccionar utilitzant índex. Començaran a indexar des del final en sentit ascendent.

In [194]:
reviews.iloc[-5:]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
129966,Germany,Notes of honeysuckle and cantaloupe sweeten th...,Brauneberger Juffer-Sonnenuhr Spätlese,90,28.0,Mosel,,,Anna Lee C. Iijima,,Dr. H. Thanisch (Erben Müller-Burggraef) 2013 ...,Riesling,Dr. H. Thanisch (Erben Müller-Burggraef)
129967,US,Citation is given as much as a decade of bottl...,,90,75.0,Oregon,Oregon,Oregon Other,Paul Gregutt,@paulgwine,Citation 2004 Pinot Noir (Oregon),Pinot Noir,Citation
129968,France,Well-drained gravel soil gives this wine its c...,Kritt,90,30.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Gresser 2013 Kritt Gewurztraminer (Als...,Gewürztraminer,Domaine Gresser
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


### Selecció basada en etiquetes

El segon paradigma per a selecció d'atributs és l'utilitzat per `loc`, que utilitza la selecció basada en etiquetes. En este paradigma s'utilitza el valor de les claus o etiquetes, no la seua posició, per seleccionar valors.

Per exemple:

In [195]:
reviews.loc[0, 'country']

'Italy'

`iloc` és conceptualment més senzill que `loc` perquè ignora els índexs del conjunt de dades. Quan utilitzem iloc, tractem el conjunt de dades com una gran matriu (una llista de llistes) que hem indexat per posició. `loc`, en canvi, utilitza la informació dels índexs, és a dir el valor de les etiquetes o claus, per fer la indexació. Com que el vostre conjunt de dades sol tenir índexs significatius, normalment és més fàcil fer les coses amb loc. 

Per exemple, hi ha una operacions que és molt més fàcil amb loc:

In [196]:
reviews.loc[:, ['taster_name', 'taster_twitter_handle', 'points']]

Unnamed: 0,taster_name,taster_twitter_handle,points
0,Kerin O’Keefe,@kerinokeefe,87
1,Roger Voss,@vossroger,87
...,...,...,...
129969,Roger Voss,@vossroger,90
129970,Roger Voss,@vossroger,90



<details class='success'>
<summary>Comprovar resposta</summary>
<p>
reviews.iloc[:, [8, 9, 3]]
</p>
<p>
Per a accedir mitjançant índex necessitem conèixer millor l'estructura de com està organitzada la informació.
</p>
</details>

#### Escollim entre `loc` i `iloc`

A l'hora de triar o fer el canvi entre loc i iloc, cal tindre en compte que els dos mètodes utilitzen esquemes d'indexació lleugerament diferents. 

`iloc` utilitza l'esquema d'indexació stdlib de Python, on s'inclou el primer element de l'interval i s'exclou l'últim. Així, 0:10 seleccionarà les entrades 0,...,9.

`loc`, per la seva banda, utilitza índexs inclusivament. Així, 0:10 seleccionarà les entrades 0,...,10. 

Per què el canvi? Recordeu que loc pot indexar qualsevol tipus stdlib: cadenes, per exemple. Si tenim un DataFrame amb valors d'índex Apples, ..., Potatoes, ..., i volem seleccionar "totes les opcions de fruita alfabètiques entre Apples i Potatoes", és molt més convenient indexar amb `df.loc['Apples':'Potatoes']` que indexar alguna cosa com `df.loc['Apples', 'Potatoet']` (t ve després de s a l'alfabet). 

Això és molt confús quan l'índex és una llista numèrica simple, p. 0,...,1000. En aquest cas, df.iloc[0:1000] retornarà 1000 entrades, mentre que df.loc[0:1000] en retornarà 1001. Per obtindre 1000 elements amb loc, haureu d'anar un més avall i utilitzar df.loc[0:999]. En cas contrari, la semàntica d'utilitzar loc és la mateixa que la d'iloc.

### Manipulant l'índex

La selecció basada en etiquetes obté el seu *poder* de les etiquetes a l'índex. Este índex, per sort, el podem manipular. Per fer-ho utilitzarem el mètode *set_index()*.

Mira què passa quan executem el següent codi:

In [197]:
reviews.set_index("title")

Unnamed: 0_level_0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,variety,winery
title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Nicosia 2013 Vulkà Bianco (Etna),Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,White Blend,Nicosia
Quinta dos Avidagos 2011 Avidagos Red (Douro),Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Portuguese Red,Quinta dos Avidagos
...,...,...,...,...,...,...,...,...,...,...,...,...
Domaine Marcel Deiss 2012 Pinot Gris (Alsace),France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Pinot Gris,Domaine Marcel Deiss
Domaine Schoffit 2012 Lieu-dit Harth Cuvée Caroline Gewurztraminer (Alsace),France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Gewürztraminer,Domaine Schoffit


Això és molt útil per a crear un índex per al conjunt de dades que siga millor que l'actual.

### Selecció condicional

Fins ara hem estat indexant utilitzant propietats estructurals del propi DataFrame. Per fer coses interessants amb les dades, no obstant, hem de fer seleccions en funció de determinades condicions. 

Per exemple, suposem que estem interessats específicament en vins millors que la mitjana produïts a Itàlia. Podem començar per comprovar si cada vi és italià o no:

In [198]:
reviews.country == 'Italy'

0          True
1         False
          ...  
129969    False
129970    False
Name: country, Length: 129971, dtype: bool

L'execució ens torna una sèrie de booleans `True/False` basat en el país de cada registre. Aquest resultat es pot utilitzar dins de loc per seleccionar les dades rellevants:

In [199]:
reviews.loc[reviews.country == 'Italy']

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
6,Italy,"Here's a bright, informal red that opens with ...",Belsito,87,16.0,Sicily & Sardinia,Vittoria,,Kerin O’Keefe,@kerinokeefe,Terre di Giurfo 2013 Belsito Frappato (Vittoria),Frappato,Terre di Giurfo
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129961,Italy,"Intense aromas of wild cherry, baking spice, t...",,90,30.0,Sicily & Sardinia,Sicilia,,Kerin O’Keefe,@kerinokeefe,COS 2013 Frappato (Sicilia),Frappato,COS
129962,Italy,"Blackberry, cassis, grilled herb and toasted a...",Sàgana Tenuta San Giacomo,90,40.0,Sicily & Sardinia,Sicilia,,Kerin O’Keefe,@kerinokeefe,Cusumano 2012 Sàgana Tenuta San Giacomo Nero d...,Nero d'Avola,Cusumano


Aquest DataFrame té uns 20.000 registres, mentre que l'original tenia uns 130.000. Això vol dir que al voltant del 15% dels vins són originaris d'Itàlia. 

També volíem saber quins són millors que la mitjana. Els vins es classifiquen en una escala de 80 a 100 punts, de manera que això podria significar vins que hagin acumulat almenys 90 punts. Podem utilitzar el signe `&` (and) per unir les dues condicions:

In [200]:
reviews.loc[(reviews.country == 'Italy') & (reviews.points >= 90)]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
120,Italy,"Slightly backward, particularly given the vint...",Bricco Rocche Prapó,92,70.0,Piedmont,Barolo,,,,Ceretto 2003 Bricco Rocche Prapó (Barolo),Nebbiolo,Ceretto
130,Italy,"At the first it was quite muted and subdued, b...",Bricco Rocche Brunate,91,70.0,Piedmont,Barolo,,,,Ceretto 2003 Bricco Rocche Brunate (Barolo),Nebbiolo,Ceretto
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129961,Italy,"Intense aromas of wild cherry, baking spice, t...",,90,30.0,Sicily & Sardinia,Sicilia,,Kerin O’Keefe,@kerinokeefe,COS 2013 Frappato (Sicilia),Frappato,COS
129962,Italy,"Blackberry, cassis, grilled herb and toasted a...",Sàgana Tenuta San Giacomo,90,40.0,Sicily & Sardinia,Sicilia,,Kerin O’Keefe,@kerinokeefe,Cusumano 2012 Sàgana Tenuta San Giacomo Nero d...,Nero d'Avola,Cusumano


Igual que hem utilitzat l'operador condicional `&` (and) podriem utilitzar altres, com `|` (or) o `!` (not).

Pandas inclou uns quants selectors condicionals integrats, dos dels quals destacarem. 

El primer és `isin`. isin us permet seleccionar dades el valor de les quals "es troba a" una llista de valors. 

Per exemple, a continuació es mostra com el podem utilitzar per seleccionar vins només d'Itàlia o França:

In [201]:
reviews.loc[reviews.country.isin(['Italy', 'France'])] 

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
6,Italy,"Here's a bright, informal red that opens with ...",Belsito,87,16.0,Sicily & Sardinia,Vittoria,,Kerin O’Keefe,@kerinokeefe,Terre di Giurfo 2013 Belsito Frappato (Vittoria),Frappato,Terre di Giurfo
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


<div class='admonition question'>
<p class='admonition-title'>Pregunta</p>
<p>
Com obtindries el mateix resultat però utilitzant l'operador `|` (or)?
</p>
</div>

<details class='success'>
<summary>Comprovar resposta</summary>
<p>
reviews.loc[(reviews.country == 'Italy') |  (reviews.country == 'France')]
</p>
</details>

El segon és `isnull` (i el seu company `notnull`). Aquests mètodes ens permeten recuperar valors que són (o no) buits (NaN). 

Per exemple, per saber els vins que no tenen una etiqueta de preu, és a dir, dels quals no tenim la informació del seu preu, faríem:

In [202]:
reviews.loc[reviews.price.isnull()]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
13,Italy,This is dominated by oak and oak-driven aromas...,Rosso,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Masseria Setteporte 2012 Rosso (Etna),Nerello Mascalese,Masseria Setteporte
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129893,Italy,"Aromas of passion fruit, hay and a vegetal not...",Corte Menini,91,,Veneto,Soave Classico,,Kerin O’Keefe,@kerinokeefe,Le Mandolare 2015 Corte Menini (Soave Classico),Garganega,Le Mandolare
129964,France,"Initially quite muted, this wine slowly develo...",Domaine Saint-Rémy Herrenweg,90,,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Ehrhart 2013 Domaine Saint-Rémy Herren...,Gewürztraminer,Domaine Ehrhart


### Assignació de valors

Per altra banda, podem assignar valors al *DataFrame* és senzill.

Per a incloure una nova columna, utilitzem una nova etiqueta i assignem valor.

In [203]:
reviews['critic'] = 'everyone'
reviews

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery,critic
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia,everyone
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos,everyone
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss,everyone
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit,everyone


In [204]:
reviews['index_backwards'] = range(len(reviews), 0, -1)
reviews['index_backwards']

0         129971
1         129970
           ...  
129969         2
129970         1
Name: index_backwards, Length: 129971, dtype: int64

Si volem assignar un valor concret a una cel·la concreta, seleccionem la cel·la (amb loc o iloc) i assignem el valor desitjat.

In [205]:
reviews.loc[0,'critic'] = "Ferran"
reviews

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery,critic,index_backwards
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia,Ferran,129971
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos,everyone,129970
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss,everyone,2
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit,everyone,1
