## Accessori Nativi
La selezione di valori specifici di un DataFrame o di una Serie di pandas su cui lavorare è un passo implicito in quasi tutte le operazioni sui dati che si eseguono, quindi una delle prime cose da imparare nel lavoro con i dati in Python è come selezionare i punti di dati rilevanti per noi in modo rapido ed efficace.

In [1]:
import pandas as pd
reviews = pd.read_csv("D:/Users/Alessio/OneDrive/Python/Kaggle/Pandas/winemag-data-130k-v2.csv", index_col=0)
pd.set_option('max_rows', 5)

Gli oggetti nativi di Python offrono buoni modi per indicizzare i dati. Pandas li ripropone tutti, il che facilita l'utilizzo iniziale.

Consideriamo questo DataFrame:

In [3]:
reviews

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


In Python, è possibile accedere alle proprietà di un oggetto come attributi. Un oggetto libro, per esempio, può avere una proprietà title, a cui si può accedere chiamando **book.title**. Le colonne di un DataFrame pandas funzionano allo stesso modo.

Quindi, per accedere alla proprietà **country** delle **reviews**, possiamo usare:

In [4]:
reviews.country

0            Italy
1         Portugal
            ...   
129969      France
129970      France
Name: country, Length: 129971, dtype: object

Se abbiamo un dizionario Python, possiamo accedere ai suoi valori usando l'operatore di `indicizzazione` (**[]**). Possiamo fare lo stesso con le colonne di un DataFrame:

In [5]:
reviews['country']

0            Italy
1         Portugal
            ...   
129969      France
129970      France
Name: country, Length: 129971, dtype: object

Questi sono i due modi per selezionare una serie specifica da un DataFrame. Nessuno dei due è più o meno valido dell'altro dal punto di vista sintattico, ma l'operatore di `indicizzazione` **[]** ha il vantaggio di poter gestire i nomi delle colonne con caratteri riservati (ad esempio, se avessimo una colonna provvidenza del paese, reviews.provvidenza del paese non funzionerebbe).

Una serie di pandas non assomiglia a un dizionario di fantasia? Lo è, quindi non c'è da stupirsi che, per arrivare a un singolo valore specifico, sia sufficiente utilizzare ancora una volta l'operatore di `indicizzazione` **[]**:

In [6]:
reviews['country'][0]

'Italy'

## Indicizzazione in Pandas
L'operatore di **indicizzazione** e la **selezione** degli attributi sono interessanti perché funzionano proprio come nel resto dell'ecosistema Python. Per un principiante, questo li rende facili da imparare e da usare. Tuttavia, pandas ha i suoi operatori di accesso, `loc` e `iloc`. Per le operazioni più avanzate, questi sono quelli che si dovrebbero usare.

### Selezione basata sull'indice
L'indicizzazione di Pandas funziona secondo due paradigmi. Il primo è la selezione basata sull'indice: selezionare i dati in base alla loro posizione numerica nei dati. `iloc` segue questo paradigma.

Per selezionare la prima **riga** di dati in un DataFrame, si può usare la seguente procedura:

In [7]:
reviews.iloc[0]

country                                                    Italy
description    Aromas include tropical fruit, broom, brimston...
                                     ...                        
variety                                              White Blend
winery                                                   Nicosia
Name: 0, Length: 13, dtype: object

Sia `lo`c che `iloc` sono row-first, column-second. Questo è l'opposto di quello che facciamo in Python nativo, che è **column-first**, **row-second**.

Ciò significa che è marginalmente più facile recuperare le righe e marginalmente più difficile recuperare le colonne. Per ottenere una colonna con iloc, si può fare come segue:

In [8]:
reviews.iloc[:, 0]

0            Italy
1         Portugal
            ...   
129969      France
129970      France
Name: country, Length: 129971, dtype: object

Da solo, l'operatore `:`, anch'esso proveniente da Python, significa "tutto". Tuttavia, se combinato con altri selettori, può essere usato per indicare un intervallo di valori. Ad esempio, per selezionare la colonna Paese solo dalla prima, seconda e terza riga, si dovrebbe fare:

In [9]:
reviews.iloc[:3, 0]

0       Italy
1    Portugal
2          US
Name: country, dtype: object

Oppure, per selezionare solo la seconda e la terza voce, si può fare:

In [10]:
reviews.iloc[1:3, 0]

1    Portugal
2          US
Name: country, dtype: object

È anche possibile passare un elenco:

In [11]:
reviews.iloc[[0, 1, 2], 0]

0       Italy
1    Portugal
2          US
Name: country, dtype: object

Infine, è bene sapere che i numeri negativi possono essere utilizzati nella selezione. Questo inizierà a contare in avanti dalla fine dei valori. Ad esempio, ecco gli ultimi cinque elementi del set di dati.

In [13]:
reviews.iloc[-5:]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
129966,Germany,Notes of honeysuckle and cantaloupe sweeten th...,Brauneberger Juffer-Sonnenuhr Spätlese,90,28.0,Mosel,,,Anna Lee C. Iijima,,Dr. H. Thanisch (Erben Müller-Burggraef) 2013 ...,Riesling,Dr. H. Thanisch (Erben Müller-Burggraef)
129967,US,Citation is given as much as a decade of bottl...,,90,75.0,Oregon,Oregon,Oregon Other,Paul Gregutt,@paulgwine,Citation 2004 Pinot Noir (Oregon),Pinot Noir,Citation
129968,France,Well-drained gravel soil gives this wine its c...,Kritt,90,30.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Gresser 2013 Kritt Gewurztraminer (Als...,Gewürztraminer,Domaine Gresser
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


### Selezione basata su label
Il secondo paradigma per la selezione degli attributi è quello seguito dall'operatore `loc`: la selezione basata sulle **etichette**. In questo paradigma, ciò che conta è il valore dell'indice dei dati, non la loro posizione.

Ad esempio, per ottenere la prima voce delle recensioni, si procede come segue:

In [14]:
reviews.loc[0, 'country']

'Italy'

`iloc` è concettualmente più semplice di `loc` perché ignora gli indici del dataset. Quando si usa `iloc`, si tratta il set di dati come una grande matrice (un elenco di elenchi), in cui si deve indicizzare per posizione. `loc`, al contrario, usa le informazioni contenute negli indici per fare il suo lavoro. Poiché l'insieme di dati ha di solito indici significativi, è più facile eseguire le operazioni utilizzando `loc`. Per esempio, ecco un'operazione che è molto più semplice utilizzando `loc`:

In [15]:
reviews.loc[:, ['taster_name', 'taster_twitter_handle', 'points']]

Unnamed: 0,taster_name,taster_twitter_handle,points
0,Kerin O’Keefe,@kerinokeefe,87
1,Roger Voss,@vossroger,87
...,...,...,...
129969,Roger Voss,@vossroger,90
129970,Roger Voss,@vossroger,90


**Scelta tra loc e iloc**
Quando si sceglie o si passa da `loc` a `iloc`, c'è un problema da tenere presente: i due metodi utilizzano schemi di indicizzazione leggermente diversi.

`Iloc` utilizza lo schema di indicizzazione di Python **stdlib**, in cui il primo elemento dell'intervallo è incluso e l'ultimo escluso. Quindi 0:10 selezionerà le voci 0,...,9. `loc`, invece, indicizza in modo inclusivo. Quindi 0:10 selezionerà le voci 0,...,10.

Perché questo cambiamento? Ricordate che `loc` può indicizzare qualsiasi tipo di stdlib: le stringhe, per esempio. Se abbiamo un DataFrame con valori di indice Mele, ..., Patate, ..., e vogliamo selezionare "tutte le scelte di frutta in ordine alfabetico tra Mele e Patate", è molto più comodo indicizzare `df.loc['Mele':'Patate']` che indicizzare qualcosa come `df.loc['Mele', 'Patateet']` (la t viene dopo la s nell'alfabeto).

Ciò crea particolare confusione quando l'indice del DataFrame è un semplice elenco numerico, ad esempio 0,...,1000. In questo caso `df.iloc[0:1000]` restituirà 1000 voci, mentre `df.loc[0:1000]` ne restituirà 1001! Per ottenere 1000 elementi utilizzando `loc`, è necessario scendere ancora un po' e chiedere `df.loc[0:999]`.

Per il resto, la semantica dell'uso di `loc` è la stessa di quella di `iloc`.

## Manipolare l'Indice
La selezione basata sulle etichette trae la sua forza dalle etichette dell'**indice**. L'**indice** che utilizziamo non è immutabile. Possiamo manipolare l'indice in qualsiasi modo riteniamo opportuno.

Per farlo, si può usare il metodo `set_index()`. Ecco cosa succede quando impostiamo `set_index` sul campo title:

In [16]:
reviews.set_index("title")

Unnamed: 0_level_0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,variety,winery
title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Nicosia 2013 Vulkà Bianco (Etna),Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,White Blend,Nicosia
Quinta dos Avidagos 2011 Avidagos Red (Douro),Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Portuguese Red,Quinta dos Avidagos
...,...,...,...,...,...,...,...,...,...,...,...,...
Domaine Marcel Deiss 2012 Pinot Gris (Alsace),France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Pinot Gris,Domaine Marcel Deiss
Domaine Schoffit 2012 Lieu-dit Harth Cuvée Caroline Gewurztraminer (Alsace),France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Gewürztraminer,Domaine Schoffit


È utile se si riesce a trovare un indice per il set di dati migliore di quello attuale.

## Selezione condizionale
Finora abbiamo indicizzato varie sezioni di dati, utilizzando le proprietà strutturali del DataFrame stesso. Per fare cose interessanti con i dati, tuttavia, spesso è necessario porre domande basate su condizioni.

Per esempio, supponiamo di essere interessati in particolare ai vini migliori della media prodotti in Italia.

Possiamo iniziare controllando se ogni vino è italiano o meno:

In [17]:
reviews.country == 'Italy'

0          True
1         False
          ...  
129969    False
129970    False
Name: country, Length: 129971, dtype: bool

Questa operazione ha prodotto una serie di booleani `True`/`False` basati sul paese di ciascun record. Questo risultato può essere utilizzato all'interno di `loc` per selezionare i dati pertinenti:

In [18]:
reviews.loc[reviews.country == 'Italy']

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
6,Italy,"Here's a bright, informal red that opens with ...",Belsito,87,16.0,Sicily & Sardinia,Vittoria,,Kerin O’Keefe,@kerinokeefe,Terre di Giurfo 2013 Belsito Frappato (Vittoria),Frappato,Terre di Giurfo
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129961,Italy,"Intense aromas of wild cherry, baking spice, t...",,90,30.0,Sicily & Sardinia,Sicilia,,Kerin O’Keefe,@kerinokeefe,COS 2013 Frappato (Sicilia),Frappato,COS
129962,Italy,"Blackberry, cassis, grilled herb and toasted a...",Sàgana Tenuta San Giacomo,90,40.0,Sicily & Sardinia,Sicilia,,Kerin O’Keefe,@kerinokeefe,Cusumano 2012 Sàgana Tenuta San Giacomo Nero d...,Nero d'Avola,Cusumano


Questo DataFrame ha circa 20.000 righe. L'originale ne aveva ~130.000. Ciò significa che circa il 15% dei vini proviene dall'Italia.

Volevamo anche sapere quali sono migliori della media. I vini sono recensiti su una scala da 80 a 100 punti, quindi si tratta di vini che hanno ottenuto almeno 90 punti.

Possiamo usare l'**ampersand** (`&`) per unire le due domande:

In [19]:
reviews.loc[(reviews.country == 'Italy') & (reviews.points >= 90)]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
120,Italy,"Slightly backward, particularly given the vint...",Bricco Rocche Prapó,92,70.0,Piedmont,Barolo,,,,Ceretto 2003 Bricco Rocche Prapó (Barolo),Nebbiolo,Ceretto
130,Italy,"At the first it was quite muted and subdued, b...",Bricco Rocche Brunate,91,70.0,Piedmont,Barolo,,,,Ceretto 2003 Bricco Rocche Brunate (Barolo),Nebbiolo,Ceretto
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129961,Italy,"Intense aromas of wild cherry, baking spice, t...",,90,30.0,Sicily & Sardinia,Sicilia,,Kerin O’Keefe,@kerinokeefe,COS 2013 Frappato (Sicilia),Frappato,COS
129962,Italy,"Blackberry, cassis, grilled herb and toasted a...",Sàgana Tenuta San Giacomo,90,40.0,Sicily & Sardinia,Sicilia,,Kerin O’Keefe,@kerinokeefe,Cusumano 2012 Sàgana Tenuta San Giacomo Nero d...,Nero d'Avola,Cusumano


Supponiamo di acquistare qualsiasi vino prodotto in Italia o che abbia una valutazione superiore alla media. A questo scopo utilizziamo una **pipa** (`|`):

In [20]:
reviews.loc[(reviews.country == 'Italy') | (reviews.points >= 90)]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
6,Italy,"Here's a bright, informal red that opens with ...",Belsito,87,16.0,Sicily & Sardinia,Vittoria,,Kerin O’Keefe,@kerinokeefe,Terre di Giurfo 2013 Belsito Frappato (Vittoria),Frappato,Terre di Giurfo
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


**Pandas** dispone di alcuni selettori condizionali incorporati, due dei quali saranno evidenziati qui.

Il primo è `isin`. `isin` consente di selezionare i dati il cui valore "si trova" in un elenco di valori. Per esempio, ecco come possiamo usarlo per selezionare solo vini italiani o francesi:

In [21]:
reviews.loc[reviews.country.isin(['Italy', 'France'])]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
6,Italy,"Here's a bright, informal red that opens with ...",Belsito,87,16.0,Sicily & Sardinia,Vittoria,,Kerin O’Keefe,@kerinokeefe,Terre di Giurfo 2013 Belsito Frappato (Vittoria),Frappato,Terre di Giurfo
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


Il secondo è `isnul`l (e il suo compagno `notnull`). Questi metodi consentono di evidenziare i valori che sono (o non sono) vuoti (**NaN**). Per esempio, per filtrare i vini privi di etichetta del prezzo nel set di dati, ecco cosa fare:

In [22]:
reviews.loc[reviews.price.notnull()]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


## Assegnazione di dati
L'**assegnazione di dati** a un DataFrame è semplice. È possibile assegnare un valore costante:

In [23]:
reviews['critic'] = 'everyone'
reviews['critic']

0         everyone
1         everyone
            ...   
129969    everyone
129970    everyone
Name: critic, Length: 129971, dtype: object

O con un'iterabile di valori:

In [25]:
reviews['index_backwards'] = range(len(reviews), 0, -1)
reviews['index_backwards']

0         129971
1         129970
           ...  
129969         2
129970         1
Name: index_backwards, Length: 129971, dtype: int64

## Esercizi
Eseguire la cella seguente per caricare i dati e alcune funzioni di utilità (compreso il codice per verificare le risposte).

In [28]:
import pandas as pd

reviews = pd.read_csv("D:/Users/Alessio/OneDrive/Python/Kaggle/Pandas/winemag-data-130k-v2.csv", index_col=0)
pd.set_option("display.max_rows", 5)

In [29]:
reviews.head()

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks


### Domanda 1
Selezionare la colonna `description` da `reviews` e assegnare il risultato alla variabile `desc`.   
`desc` è un oggetto pandas **Series**, con un **indice corrispondente** al DataFrame delle recensioni. In generale, quando si seleziona una singola colonna da un DataFrame, si ottiene una Serie

In [44]:
# Your code here
desc = reviews["description"]

# Check your answer
# q1.check()
desc

0         Aromas include tropical fruit, broom, brimston...
1         This is ripe and fruity, a wine that is smooth...
                                ...                        
129969    A dry style of Pinot Gris, this is crisp with ...
129970    Big, rich and off-dry, this is powered by inte...
Name: description, Length: 129971, dtype: object

### Domanda 2

Selezionare il primo valore dalla colonna description di `reviews`, assegnandolo alla variabile `first_description`.   
Si noti che, sebbene questo sia il modo preferito per ottenere la voce nel **DataFrame**, molte altre opzioni restituiranno un risultato valido, come `reviews.description.loc[0]`, `reviews.description[0]` e altre ancora!

In [31]:
first_description = reviews.description.iloc[0]

# Check your answer
# q2.check()
first_description

"Aromas include tropical fruit, broom, brimstone and dried herb. The palate isn't overly expressive, offering unripened apple, citrus and dried sage alongside brisk acidity."

### Domanda 3

Selezionare la prima riga di dati (il primo record) da `recensioni`, assegnandola alla variabile `first_row`.

In [33]:
first_row = reviews.iloc[0]

# Check your answer
# q3.check()
first_row

country                                                    Italy
description    Aromas include tropical fruit, broom, brimston...
                                     ...                        
variety                                              White Blend
winery                                                   Nicosia
Name: 0, Length: 13, dtype: object

### Domanda 4

Selezionare i primi 10 valori dalla colonna `description` di `reviews`, assegnando il risultato alla variabile `first_descriptions`. Formattare l'output come serie pandas.   
Si noti che molte altre opzioni restituiranno un risultato valido, come `desc.head(10)` e `reviews.loc[:9, "description"]`.

In [34]:
first_descriptions = reviews.description.iloc[:10]

# Check your answer
# q4.check()
first_descriptions

0    Aromas include tropical fruit, broom, brimston...
1    This is ripe and fruity, a wine that is smooth...
                           ...                        
8    Savory dried thyme notes accent sunnier flavor...
9    This has great depth of flavor with its fresh ...
Name: description, Length: 10, dtype: object

### Domanda 5

Selezionare i record con le etichette indice `1`, `2`, `3`, `5` e `8`, assegnando il risultato alla variabile `sample_reviews`.

In altre parole, generare il seguente DataFrame:

![](https://i.imgur.com/sHZvI1O.png)

In [35]:
indices = [1, 2, 3, 5, 8]
sample_reviews = reviews.loc[indices]

# Check your answer
# q5.check()
sample_reviews

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
5,Spain,Blackberry and raspberry aromas show a typical...,Ars In Vitro,87,15.0,Northern Spain,Navarra,,Michael Schachner,@wineschach,Tandem 2011 Ars In Vitro Tempranillo-Merlot (N...,Tempranillo-Merlot,Tandem
8,Germany,Savory dried thyme notes accent sunnier flavor...,Shine,87,12.0,Rheinhessen,,,Anna Lee C. Iijima,,Heinz Eifel 2013 Shine Gewürztraminer (Rheinhe...,Gewürztraminer,Heinz Eifel


### Domanda 6

Creare una variabile `df` contenente le colonne `country`, `province`, `region_1` e `region_2` dei record con le etichette indice `0`, `1`, `10` e `100`. In altre parole, generare il seguente DataFrame:

![](https://i.imgur.com/FUCGiKP.png)

In [36]:
cols = ['country', 'province', 'region_1', 'region_2']
indices = [0, 1, 10, 100]
df = reviews.loc[indices, cols]

# Check your answer
# q6.check()
df

Unnamed: 0,country,province,region_1,region_2
0,Italy,Sicily & Sardinia,Etna,
1,Portugal,Douro,,
10,US,California,Napa Valley,Napa
100,US,New York,Finger Lakes,Finger Lakes


### Domanda 7

Creare una variabile `df` contenente le colonne `country` e `variety` dei primi 100 record. 

Suggerimento: si può usare `loc` o `iloc`. Quando si lavora per rispondere a questa domanda e alle altre che seguiranno, bisogna tenere presente il seguente "problema" descritto nel tutorial:

> `iloc` utilizza lo schema di indicizzazione di Python stdlib, dove il primo elemento dell'intervallo è incluso e l'ultimo escluso. 
`loc`, invece, indicizza in modo inclusivo. 

> Questo crea particolare confusione quando l'indice del DataFrame è un semplice elenco numerico, ad esempio `0,...,1000`. In questo caso `df.iloc[0:1000]` restituirà 1000 voci, mentre `df.loc[0:1000]` ne restituirà 1001! Per ottenere 1000 elementi usando `loc`, è necessario scendere ancora un po' e chiedere `df.iloc[0:999]`. 

In [45]:
cols = ['country', 'variety']
df = reviews.loc[:99, cols]
df

Unnamed: 0,country,variety
0,Italy,White Blend
1,Portugal,Portuguese Red
...,...,...
98,Italy,Sangiovese
99,US,Bordeaux-style Red Blend


In [47]:
# Alternativa
cols_idx = [0, 11]
df = reviews.iloc[:100, cols_idx]

# Check your answer
# q7.check()
df

Unnamed: 0,country,variety
0,Italy,White Blend
1,Portugal,Portuguese Red
...,...,...
98,Italy,Sangiovese
99,US,Bordeaux-style Red Blend


### Domanda 8

Creare un DataFrame `italian_wines` contenente recensioni di vini prodotti in `Italia`. `recensioni.paese` è uguale a cosa?

In [48]:
italian_wines = reviews[reviews.country == 'Italy']

# Check your answer
# q8.check()
italian_wines

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
6,Italy,"Here's a bright, informal red that opens with ...",Belsito,87,16.0,Sicily & Sardinia,Vittoria,,Kerin O’Keefe,@kerinokeefe,Terre di Giurfo 2013 Belsito Frappato (Vittoria),Frappato,Terre di Giurfo
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129961,Italy,"Intense aromas of wild cherry, baking spice, t...",,90,30.0,Sicily & Sardinia,Sicilia,,Kerin O’Keefe,@kerinokeefe,COS 2013 Frappato (Sicilia),Frappato,COS
129962,Italy,"Blackberry, cassis, grilled herb and toasted a...",Sàgana Tenuta San Giacomo,90,40.0,Sicily & Sardinia,Sicilia,,Kerin O’Keefe,@kerinokeefe,Cusumano 2012 Sàgana Tenuta San Giacomo Nero d...,Nero d'Avola,Cusumano


### Domanda 9

Creare un DataFrame `top_oceania_wines` contenente tutte le recensioni con almeno 95 punti (su 100) per i vini dell'Australia o della Nuova Zelanda.

In [42]:
top_oceania_wines = reviews.loc[
    (reviews.country.isin(['Australia', 'New Zealand']))
    & (reviews.points >= 95)
]

# Check your answer
# q9.check()
top_oceania_wines

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
345,Australia,This wine contains some material over 100 year...,Rare,100,350.0,Victoria,Rutherglen,,Joe Czerwinski,@JoeCz,Chambers Rosewood Vineyards NV Rare Muscat (Ru...,Muscat,Chambers Rosewood Vineyards
346,Australia,"This deep brown wine smells like a damp, mossy...",Rare,98,350.0,Victoria,Rutherglen,,Joe Czerwinski,@JoeCz,Chambers Rosewood Vineyards NV Rare Muscadelle...,Muscadelle,Chambers Rosewood Vineyards
...,...,...,...,...,...,...,...,...,...,...,...,...,...
122507,New Zealand,"This blend of Cabernet Sauvignon (62.5%), Merl...",SQM Gimblett Gravels Cabernets/Merlot,95,79.0,Hawke's Bay,,,Joe Czerwinski,@JoeCz,Squawking Magpie 2014 SQM Gimblett Gravels Cab...,Bordeaux-style Red Blend,Squawking Magpie
122939,Australia,Full-bodied and plush yet vibrant and imbued w...,The Factor,98,125.0,South Australia,Barossa Valley,,Joe Czerwinski,@JoeCz,Torbreck 2013 The Factor Shiraz (Barossa Valley),Shiraz,Torbreck
