## Dtypes
Il tipo di dati di una colonna in un DataFrame o in una Serie è noto come `dtype`.

È possibile utilizzare la proprietà dtype per ottenere il tipo di una colonna specifica. Ad esempio, è possibile ottenere il tipo di colonna prezzo nel DataFrame recensioni:

In [3]:
import pandas as pd
reviews = pd.read_csv("D:/Users/Alessio/OneDrive/Python/Kaggle/Pandas/winemag-data-130k-v2.csv", index_col=0)
pd.set_option('max_rows', 5)

In [4]:
reviews.price.dtype

dtype('float64')

In alternativa, la proprietà `dtypes` restituisce il `dtype` di ogni colonna del DataFrame:

In [5]:
reviews.dtypes

country        object
description    object
                ...  
variety        object
winery         object
Length: 13, dtype: object

I **tipi di dati** ci dicono qualcosa sul modo in cui pandas memorizza i dati internamente. `float64` significa che sta usando un numero in virgola mobile a 64 bit; `int64` significa invece un intero di dimensioni simili e così via.

Una particolarità da tenere presente (e qui esposta in modo molto chiaro) è che le colonne composte interamente da stringhe non hanno un proprio tipo, ma gli viene assegnato il tipo di oggetto.

È possibile convertire una colonna di un tipo in un altro, quando la conversione ha senso, utilizzando la funzione `astype()`. Per esempio, possiamo trasformare la colonna punti dal suo tipo di dati `int64` in un tipo di dati `float64`:

In [6]:
reviews.points.astype('float64')

0         87.0
1         87.0
          ... 
129969    90.0
129970    90.0
Name: points, Length: 129971, dtype: float64

Anche l'indice di un DataFrame o di una Serie ha il proprio **tipo di dtype**:

In [7]:
reviews.index.dtype

dtype('int64')

Pandas supporta anche tipi di dati più esotici, come i **dati categorici** e le **serie temporali**. 

## Missing data
Ai **valori mancanti** delle voci viene attribuito il valore `NaN`, abbreviazione di "**Not a Number**". Per ragioni tecniche, i valori NaN sono sempre di tipo `float64`.

Pandas fornisce alcuni metodi specifici per i dati mancanti. Per selezionare le voci `NaN` si può usare `pd.isnull()` (o il suo compagno `pd.notnull())`. Questo metodo deve essere usato in questo modo:

In [8]:
reviews[pd.isnull(reviews.country)]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
913,,"Amber in color, this wine has aromas of peach ...",Asureti Valley,87,30.0,,,,Mike DeSimone,@worldwineguys,Gotsa Family Wines 2014 Asureti Valley Chinuri,Chinuri,Gotsa Family Wines
3131,,"Soft, fruity and juicy, this is a pleasant, si...",Partager,83,,,,,Roger Voss,@vossroger,Barton & Guestier NV Partager Red,Red Blend,Barton & Guestier
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129590,,"A blend of 60% Syrah, 30% Cabernet Sauvignon a...",Shah,90,30.0,,,,Mike DeSimone,@worldwineguys,Büyülübağ 2012 Shah Red,Red Blend,Büyülübağ
129900,,This wine offers a delightful bouquet of black...,,91,32.0,,,,Mike DeSimone,@worldwineguys,Psagot 2014 Merlot,Merlot,Psagot


La **sostituzione dei valori mancanti** è un'operazione comune. Pandas fornisce un metodo molto utile per questo problema: `fillna()`. `fillna()` fornisce alcune strategie diverse per attenuare tali dati. Ad esempio, si può semplicemente sostituire ogni `NaN` con un "**Unknown**":

In [9]:
reviews.region_2.fillna("Unknown")

0         Unknown
1         Unknown
           ...   
129969    Unknown
129970    Unknown
Name: region_2, Length: 129971, dtype: object

Oppure si può riempire ogni valore mancante con il primo valore non nullo che appare qualche tempo dopo il record dato nel database. Questa strategia è nota come `backfill`.

In alternativa, potremmo avere un valore non nullo che vorremmo sostituire. Ad esempio, supponiamo che da quando questo set di dati è stato pubblicato, il recensore Kerin O'Keefe abbia cambiato il suo account Twitter da @kerinokeefe a @kerino. Un modo per riflettere questo fatto nel set di dati è usare il metodo `replace()`:

In [10]:
reviews.taster_twitter_handle.replace("@kerinokeefe", "@kerino")

0            @kerino
1         @vossroger
             ...    
129969    @vossroger
129970    @vossroger
Name: taster_twitter_handle, Length: 129971, dtype: object

Il metodo `replace()` merita di essere menzionato perché è utile per sostituire i dati mancanti a cui è stato attribuito un qualche tipo di valore sentinella nel set di dati: cose come "**Unknown**", "**Undisclosed**", "**Invalid**" e così via.

## Esercizi
Eseguire la seguente cella per caricare i dati e alcune funzioni di utilità.

In [11]:
import pandas as pd

reviews = pd.read_csv("D:/Users/Alessio/OneDrive/Python/Kaggle/Pandas/winemag-data-130k-v2.csv", index_col=0)

### Domanda 1 
Qual è il tipo di dati della colonna `points` nel dataset?

In [16]:
# Your code here
dtype = reviews.points.dtype

# Check your answer
# q1.check()
dtype

dtype('int64')

### Domanda 2 
Creare una serie dalle voci della colonna `points`, ma convertire le voci in stringhe. Suggerimento: le stringhe sono `str` in Python nativo.

In [17]:
point_strings = reviews.points.astype(str)

# Check your answer
# q2.check()
point_strings

0         87
1         87
          ..
129969    90
129970    90
Name: points, Length: 129971, dtype: object

### Domanda 3
A volte la colonna prezzo è nulla. A quante recensioni del dataset manca il prezzo?

In [18]:
missing_price_reviews = reviews[reviews.price.isnull()]
n_missing_prices = len(missing_price_reviews)
# Cute alternative solution: if we sum a boolean series, True is treated as 1 and False as 0
n_missing_prices = reviews.price.isnull().sum()
# or equivalently:
n_missing_prices = pd.isnull(reviews.price).sum()

# Check your answer
# q3.check()
n_missing_prices

8996

## 4.
Quali sono le regioni produttrici di vino più comuni? Creare una serie contando il numero di volte in cui ciascun valore si presenta nel campo `region_1`. Questo campo è spesso mancante di dati, quindi sostituire i valori mancanti con `Unknown`. Ordinare in ordine decrescente. Il risultato dovrebbe essere simile a questo:

```
Sconosciuto 21247
Valle di Napa 4480
                           ...  
Bardolino Superiore 1
Primitivo del Tarantino 1
Nome: regione_1, Lunghezza: 1230, Tipo: int64
```

In [19]:
reviews_per_region = reviews.region_1.fillna('Unknown').value_counts().sort_values(ascending=False)

# Check your answer
# q4.check()
reviews_per_region

Unknown        21247
Napa Valley     4480
               ...  
Geelong            1
Paestum            1
Name: region_1, Length: 1230, dtype: int64