Non sempre i dati escono dalla memoria nel formato desiderato. A volte dobbiamo fare un po' di lavoro in più per riformattare i dati in base al compito da svolgere. Questa esercitazione illustra le diverse operazioni che possiamo applicare ai nostri dati per ottenere un input "giusto".

Per iniziare l'esercizio di questo argomento, fate clic qui.

Per la dimostrazione utilizzeremo i dati della rivista Wine Magazine.

In [2]:
import pandas as pd
pd.set_option('max_rows', 5)
import numpy as np
reviews = pd.read_csv("D:/Users/Alessio/OneDrive/Python/Kaggle/Pandas/winemag-data-130k-v2.csv", index_col=0)

In [3]:
reviews

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


## Funzioni Summary
Pandas fornisce molte semplici "**funzioni di riepilogo**" (non è un nome ufficiale) che ristrutturano i dati in modo utile. Ad esempio, si consideri il metodo `describe()`:

In [4]:
reviews.points.describe()

count    129971.000000
mean         88.447138
             ...      
75%          91.000000
max         100.000000
Name: points, Length: 8, dtype: float64

Questo metodo genera un riepilogo di alto livello degli attributi della colonna data. È consapevole del tipo di dati, il che significa che il suo output cambia in base al tipo di dati dell'input. L'output sopra riportato ha senso solo per i dati numerici; per i dati stringa ecco cosa si ottiene:

In [5]:
reviews.taster_name.describe()

count         103727
unique            19
top       Roger Voss
freq           25514
Name: taster_name, dtype: object

Se si desidera ottenere qualche semplice statistica di sintesi su una colonna di un DataFrame o di una serie, di solito c'è un'utile funzione di pandas che permette di farlo.

Ad esempio, per vedere la media dei punti assegnati (ad esempio, il punteggio medio di un vino), si può usare la funzione `mean()`:

In [7]:
reviews.points.mean()

88.44713820775404

Per visualizzare un elenco di valori unici si può usare la funzione `unique()`:

In [8]:
reviews.taster_name.unique()

array(['Kerin O’Keefe', 'Roger Voss', 'Paul Gregutt',
       'Alexander Peartree', 'Michael Schachner', 'Anna Lee C. Iijima',
       'Virginie Boone', 'Matt Kettmann', nan, 'Sean P. Sullivan',
       'Jim Gordon', 'Joe Czerwinski', 'Anne Krebiehl\xa0MW',
       'Lauren Buzzeo', 'Mike DeSimone', 'Jeff Jenssen',
       'Susan Kostrzewa', 'Carrie Dykes', 'Fiona Adams',
       'Christina Pickard'], dtype=object)

Per visualizzare un elenco di valori unici e la loro frequenza nel set di dati, è possibile utilizzare il metodo `value_counts()`:

In [9]:
reviews.taster_name.value_counts()

Roger Voss           25514
Michael Schachner    15134
                     ...  
Fiona Adams             27
Christina Pickard        6
Name: taster_name, Length: 19, dtype: int64

## Maps
Una **mappa** è un termine, mutuato dalla matematica, per indicare una funzione che prende un insieme di valori e li "mappa" in un altro insieme di valori. Nella scienza dei dati abbiamo spesso bisogno di creare nuove rappresentazioni a partire da dati esistenti, o di trasformare i dati dal formato in cui si trovano ora al formato in cui vogliamo che si trovino in seguito. Le mappe gestiscono questo lavoro e sono estremamente importanti per portare a termine il vostro lavoro!

Ci sono due metodi di mappatura che utilizzerete spesso.

`map()` è il primo, leggermente più semplice. Per esempio, supponiamo di voler rimisurare i punteggi ricevuti dai vini a 0. Possiamo farlo come segue:

In [10]:
review_points_mean = reviews.points.mean()
reviews.points.map(lambda p: p - review_points_mean)

0        -1.447138
1        -1.447138
            ...   
129969    1.552862
129970    1.552862
Name: points, Length: 129971, dtype: float64

La funzione che si passa a `map()` deve aspettarsi un singolo valore dalla Serie (un valore di punto, nell'esempio precedente) e restituire una versione trasformata di quel valore. `map()` restituisce una nuova Serie in cui tutti i valori sono stati trasformati dalla funzione.

`apply()` è il metodo equivalente se si vuole trasformare un intero DataFrame richiamando un metodo personalizzato su ogni riga.

In [11]:
def remean_points(row):
    row.points = row.points - review_points_mean
    return row

reviews.apply(remean_points, axis='columns')

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,-1.447138,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,-1.447138,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,1.552862,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,1.552862,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


Se avessimo chiamato `reviews.apply()` con `axis='index'`, invece di passare una funzione per trasformare ogni riga, dovremmo dare una funzione per trasformare ogni colonna.

Si noti che `map()` e `apply()` restituiscono rispettivamente nuove Serie e DataFrames trasformati. Non modificano i dati originali su cui sono stati chiamati. Se osserviamo la prima riga di **reviews**, possiamo notare che ha ancora il valore originale dei punti.

In [12]:
reviews.head(1)

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia


Pandas fornisce molte operazioni di mappatura comuni come `built-in`. Per esempio, ecco un modo più veloce per rimisurare la nostra colonna di punti:

In [13]:
review_points_mean = reviews.points.mean()
reviews.points - review_points_mean

0        -1.447138
1        -1.447138
            ...   
129969    1.552862
129970    1.552862
Name: points, Length: 129971, dtype: float64

In questo codice stiamo eseguendo un'operazione tra molti valori sul lato sinistro (tutto ciò che è presente nella serie) e un singolo valore sul lato destro (il valore medio). Pandas esamina questa espressione e capisce che dobbiamo sottrarre il valore medio da ogni valore della serie di dati.

Pandas capirà anche cosa fare se eseguiamo queste operazioni tra serie di uguale lunghezza. Per esempio, un modo semplice per **combinare le informazioni** sui paesi e sulle regioni nel set di dati sarebbe il seguente:

In [14]:
reviews.country + " - " + reviews.region_1

0            Italy - Etna
1                     NaN
               ...       
129969    France - Alsace
129970    France - Alsace
Length: 129971, dtype: object

Questi operatori sono più veloci di `map()` o `apply()` perché sfruttano la velocità incorporata in pandas. Tutti gli operatori standard di Python (`>`, `<`, `==` e così via) funzionano in questo modo.

Tuttavia, non sono flessibili come `map()` o `apply()`, che possono fare cose più avanzate, come applicare la logica condizionale, che non può essere fatta con le sole addizioni e sottrazioni.

## Esercizi


In [16]:
import pandas as pd
pd.set_option("display.max_rows", 5)
reviews = pd.read_csv("D:/Users/Alessio/OneDrive/Python/Kaggle/Pandas/winemag-data-130k-v2.csv", index_col=0)

In [17]:
reviews.head()

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks


### Domanda 1
Qual è la mediana della colonna `points` nel DataFrame `reviews`?

In [28]:
median_points = reviews.points.median()

# Check your answer
# q1.check()
median_points

88.0

### Domanda 2 
Quali Paesi sono rappresentati nel dataset? (La risposta non deve includere duplicati).

In [29]:
countries = reviews.country.unique()

# Check your answer
# q2.check()
countries

array(['Italy', 'Portugal', 'US', 'Spain', 'France', 'Germany',
       'Argentina', 'Chile', 'Australia', 'Austria', 'South Africa',
       'New Zealand', 'Israel', 'Hungary', 'Greece', 'Romania', 'Mexico',
       'Canada', nan, 'Turkey', 'Czech Republic', 'Slovenia',
       'Luxembourg', 'Croatia', 'Georgia', 'Uruguay', 'England',
       'Lebanon', 'Serbia', 'Brazil', 'Moldova', 'Morocco', 'Peru',
       'India', 'Bulgaria', 'Cyprus', 'Armenia', 'Switzerland',
       'Bosnia and Herzegovina', 'Ukraine', 'Slovakia', 'Macedonia',
       'China', 'Egypt'], dtype=object)

### Domanda 3
Con quale frequenza ogni paese appare nel set di dati? Creare una serie `reviews_per_country` che mappi i paesi al numero di recensioni di vini di quel paese.

In [30]:
reviews_per_country = reviews.country.value_counts()

# Check your answer
# q3.check()
reviews_per_country

US        54504
France    22093
          ...  
China         1
Egypt         1
Name: country, Length: 43, dtype: int64

### Domanda 4
Creare la variabile `centred_price` contenente una versione della colonna `price` con il prezzo medio sottratto.

(Nota: questa trasformazione di "centratura" è una fase comune di pre-elaborazione prima di applicare vari algoritmi di apprendimento automatico). 

In [31]:
centered_price = reviews.price - reviews.price.mean()

# Check your answer
# q4.check()
centered_price

0               NaN
1        -20.363389
            ...    
129969    -3.363389
129970   -14.363389
Name: price, Length: 129971, dtype: float64

### Domanda 5
Sono un acquirente di vino economico. Quale vino è il "miglior affare"? Creare una variabile `bargain_wine` con il titolo del vino con il più alto rapporto punti/prezzo nel dataset.

In [32]:
bargain_idx = (reviews.points / reviews.price).idxmax()
        # entrambi giusti
bargain_wine = reviews.loc[bargain_idx, 'title']

# Check your answer
# q5.check()
bargain_wine

'Bandit NV Merlot (California)'

### Domanda 6
Ci sono solo tante parole che si possono usare per descrivere una bottiglia di vino. È più probabile che un vino sia "tropicale" o "fruttato"? Creare una serie `descriptor_counts` che conti quante volte ciascuna di queste due parole appare nella colonna `description` del dataset. (Per semplicità, ignoriamo le versioni maiuscole di queste parole).

In [33]:
n_trop = reviews.description.map(lambda desc: "tropical" in desc).sum()
n_fruity = reviews.description.map(lambda desc: "fruity" in desc).sum()
descriptor_counts = pd.Series([n_trop, n_fruity], index=['tropical', 'fruity'])

# Check your answer
# q6.check()
descriptor_counts

tropical    3607
fruity      9090
dtype: int64

### Domanda 7
Vorremmo ospitare queste recensioni di vini sul nostro sito web, ma un sistema di valutazione che va da 80 a 100 punti è troppo difficile da capire - vorremmo tradurle in semplici valutazioni a stelle. Un punteggio di 95 o superiore vale 3 stelle, un punteggio di almeno 85 ma inferiore a 95 vale 2 stelle. Qualsiasi altro punteggio corrisponde a 1 stella.

Inoltre, la Canadian Vintners Association ha acquistato molti annunci sul sito, quindi tutti i vini canadesi dovrebbero ottenere automaticamente 3 stelle, indipendentemente dal punteggio.

Creare una serie `star_ratings` con il numero di stelle corrispondente a ogni recensione nel dataset.

In [27]:
def stars(row):
    if row.country == 'Canada':
        return 3
    elif row.points >= 95:
        return 3
    elif row.points >= 85:
        return 2
    else:
        return 1

star_ratings = reviews.apply(stars, axis='columns')

# Check your answer
#q7.check()