# Pandas
Pandas è la libreria Python più popolare per l'analisi dei dati. 
Durante il percorso, completerete diversi esercizi pratici con dati reali. 

Per utilizzare pandas, in genere si inizia con la seguente riga di codice.

In [1]:
import pandas as pd

## Creazione di dati
In pandas esistono due oggetti fondamentali: 
1. DataFrame
2. Series.

### DataFrame
Un **DataFrame** è una tabella. Contiene un array di singole voci, ognuna delle quali ha un determinato valore. Ogni voce corrisponde a una riga (o record) e a una colonna.

Ad esempio, si consideri il seguente semplice DataFrame:

In [2]:
pd.DataFrame({'Yes': [50, 21], 'No': [131, 2]})

Unnamed: 0,Yes,No
0,50,131
1,21,2


In questo esempio, la voce "0, No" ha il valore 131. La voce "0, Sì" ha il valore di 50 e così via.

Le **voci del DataFrame** non sono limitate ai numeri interi. Ad esempio, ecco un DataFrame i cui valori sono stringhe:

In [3]:
pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 'Sue': ['Pretty good.', 'Bland.']})

Unnamed: 0,Bob,Sue
0,I liked it.,Pretty good.
1,It was awful.,Bland.


Per generare questi **oggetti DataFrame** si utilizza il costruttore **pd.DataFrame()**. La sintassi per dichiararne uno nuovo è un dizionario le cui chiavi sono i nomi delle colonne (Bob e Sue in questo esempio) e i cui valori sono un elenco di voci. Questo è il modo standard di costruire un nuovo DataFrame e quello in cui è più probabile imbattersi.

Il costruttore **dizionario-elenco** assegna valori alle etichette delle colonne, ma utilizza solo un conteggio ascendente da 0 (0, 1, 2, 3, ...) per le etichette delle righe. A volte questo va bene, ma spesso vogliamo assegnare queste etichette da soli.

L'elenco delle etichette di riga utilizzate in un DataFrame è noto come **indice**. Possiamo assegnargli dei valori utilizzando un parametro indice nel nostro costruttore:

In [4]:
pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 
              'Sue': ['Pretty good.', 'Bland.']},
             index=['Product A', 'Product B'])

Unnamed: 0,Bob,Sue
Product A,I liked it.,Pretty good.
Product B,It was awful.,Bland.


### Series
Una **serie**, invece, è una sequenza di valori di dati. Se un DataFrame è una tabella, una Serie è un elenco. È possibile crearne una con nient'altro che un elenco:

In [5]:
pd.Series([1, 2, 3, 4, 5])

0    1
1    2
2    3
3    4
4    5
dtype: int64

Una **serie** è, in sostanza, una singola colonna di un DataFrame. Pertanto, è possibile assegnare le etichette delle righe alle serie nello stesso modo in cui si è fatto finora, utilizzando un parametro indice. Tuttavia, una serie non ha un nome di colonna, ma solo un nome complessivo:

In [6]:
pd.Series([30, 35, 40], index=['2015 Sales', '2016 Sales', '2017 Sales'], name='Product A')

2015 Sales    30
2016 Sales    35
2017 Sales    40
Name: Product A, dtype: int64

Le **Serie** e i **DataFrame** sono intimamente legati. È utile pensare a un DataFrame come a un insieme di Serie "incollate insieme".

## Leggere data file
È comodo poter creare a mano un DataFrame o una Serie. Tuttavia, la maggior parte delle volte non creeremo i nostri dati a mano. Si lavorerà invece con dati già esistenti.

I dati possono essere memorizzati in una serie di forme e formati diversi. Il più semplice di questi è l'umile file **CSV**. Quando si apre un file CSV, si ottiene qualcosa di simile a questo:

Un file CSV è una tabella di valori separati da virgole. Da qui il nome: "**Comma-Separated Values**", o CSV.

Mettiamo da parte i nostri dataset giocattolo e vediamo come appare un dataset reale quando lo leggiamo in un DataFrame. Utilizzeremo la funzione **pd.read_csv()** per leggere i dati in un DataFrame. Il procedimento è il seguente:

In [7]:
wine_reviews = pd.read_csv("D:/Users/Alessio/OneDrive/Python/Kaggle/Pandas/winemag-data-130k-v2.csv")

Si può usare l'attributo **shape** per verificare quanto è grande il DataFrame risultante:

In [8]:
wine_reviews.shape

(129971, 14)

Il nostro nuovo DataFrame contiene 130.000 record suddivisi in 14 colonne diverse. Sono quasi 2 milioni di voci!

Possiamo esaminare il contenuto del DataFrame risultante utilizzando il comando **head()**, che cattura le prime cinque righe:

In [9]:
wine_reviews.head()

Unnamed: 0.1,Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks


La funzione **pd.read_csv()** è ben dotata, con oltre 30 parametri opzionali che si possono specificare. Ad esempio, in questo set di dati si può notare che il file CSV ha un indice incorporato, che pandas non ha rilevato automaticamente. Per fare in modo che pandas utilizzi quella colonna per l'**indice** (invece di crearne una nuova da zero), possiamo specificare un **index_col**.

In [11]:
wine_reviews = pd.read_csv("D:/Users/Alessio/OneDrive/Python/Kaggle/Pandas/winemag-data-130k-v2.csv", index_col=0)
wine_reviews.head()

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks


## Esercizi
Il primo passo nella maggior parte dei progetti di analisi dei dati è la lettura del file di dati. In questo esercizio, creerete oggetti Serie e DataFrame, sia a mano che leggendo i file di dati.

Eseguire la cella di codice sottostante per caricare le librerie necessarie (compreso il codice per verificare le risposte).

In [25]:
import pandas as pd
pd.set_option('max_rows', 5)

from learntools.core import binder
binder.bind(globals())
from learntools.pandas.creating_reading_and_writing import *
print("Setup complete.")

### Domanda 1
Nella cella sottostante, creare un DataFrame `fruits` che assomigli a questo:

![](https://i.imgur.com/Ax3pp2A.png)

In [30]:
# Your code goes here. Create a dataframe matching the above diagram and assign it to the variable fruits.
fruits = pd.DataFrame([[30, 21]], columns=['Apples', 'Bananas'])

# Check your answer
# q1.check()
fruits

Unnamed: 0,Apples,Bananas
0,30,21


### Domanda 2
Creare un dataframe `fruit_sales` che corrisponda al diagramma seguente:

![](https://i.imgur.com/CHPn7ZF.png)

In [31]:
fruit_sales = pd.DataFrame([[35, 21], [41, 34]], columns=['Apples', 'Bananas'],
                index=['2017 Sales', '2018 Sales'])

In [33]:
# Your code goes here. Create a dataframe matching the above diagram and assign it to the variable fruit_sales.
fruit_sales = pd.DataFrame([[35, 21], [41, 34]], columns=['Apples', 'Bananas'],
                index=['2017 Sales', '2018 Sales'])

# Check your answer
# q2.check()
fruit_sales

Unnamed: 0,Apples,Bananas
2017 Sales,35,21
2018 Sales,41,34


### Domanda 3
Creare una variabile `ingredienti` con una serie che assomiglia a:
```
Flour     4 cups
Milk       1 cup
Eggs     2 large
Spam       1 can
Name: Dinner, dtype: object
```

In [37]:
quantities = ['4 cups', '1 cup', '2 large', '1 can']
items = ['Flour', 'Milk', 'Eggs', 'Spam']
ingredients = pd.Series(quantities, index=items, name='Dinner')


# Check your answer
# q3.check()
ingredients

Flour     4 cups
Milk       1 cup
Eggs     2 large
Spam       1 can
Name: Dinner, dtype: object

Leggere il seguente dataset csv di recensioni di vini in un DataFrame chiamato `reviews`:

![](https://i.imgur.com/74RCZtU.png)

Il percorso del file csv è `"D:/Users/Alessio/OneDrive/Python/Kaggle/Pandas/winemag-data_first150k.csv"`. Le prime righe appaiono come:

```
,country,description,designation,points,price,province,region_1,region_2,variety,winery
0,US,"This tremendous 100% varietal wine[...]",Martha's Vineyard,96,235.0,California,Napa Valley,Napa,Cabernet Sauvignon,Heitz
1,Spain,"Ripe aromas of fig, blackberry and[...]",Carodorum Selección Especial Reserva,96,110.0,Northern Spain,Toro,,Tinta de Toro,Bodega Carmen Rodríguez
```

In [39]:
reviews = pd.read_csv("D:/Users/Alessio/OneDrive/Python/Kaggle/Pandas/winemag-data_first150k.csv", index_col=0)
# Check your answer
# q4.check()
reviews

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,variety,winery
0,US,This tremendous 100% varietal wine hails from ...,Martha's Vineyard,96,235.0,California,Napa Valley,Napa,Cabernet Sauvignon,Heitz
1,Spain,"Ripe aromas of fig, blackberry and cassis are ...",Carodorum Selección Especial Reserva,96,110.0,Northern Spain,Toro,,Tinta de Toro,Bodega Carmen Rodríguez
...,...,...,...,...,...,...,...,...,...,...
150928,France,"A perfect salmon shade, with scents of peaches...",Grand Brut Rosé,90,52.0,Champagne,Champagne,,Champagne Blend,Gosset
150929,Italy,More Pinot Grigios should taste like this. A r...,,90,15.0,Northeastern Italy,Alto Adige,,Pinot Grigio,Alois Lageder


### Domanda 5
Eseguite la cella sottostante per creare e visualizzare un DataFrame chiamato `animals`:

In [40]:
animals = pd.DataFrame({'Cows': [12, 20], 'Goats': [22, 19]}, index=['Year 1', 'Year 2'])
animals

Unnamed: 0,Cows,Goats
Year 1,12,22
Year 2,20,19


Nella cella sottostante, scrivere il codice per salvare questo DataFrame su disco come file csv con il nome `cows_and_goats.csv`.

In [41]:
# Your code goes here
animals.to_csv("cows_and_goats.csv")

# Check your answer
# q5.check()