# **Esercizio su Pandas #2**
In questo esercizio ti verrà fornita una query SQL e dovrai convertirla in istruzioni di Pandas.

**NB:** Il file `products.csv` ha la seguente struttura tabellare:

|   **name**   | **qnt** | **origin** | **purchasePrice** | **salePrice** |
|--------------|--------:|------------|-----------------:|--------------:|
| Noci         |     227 | Giappone   |             3.09 |          3.46 |
| Sale         |     134 | Giappone   |             4.39 |          6.48 |
| Cipolle      |     231 | Cina       |             9.35 |         10.37 |
| Tortellini   |     426 | Brasile    |             4.89 |          6.85 |
| Gnocchi      |     215 | Brasile    |             3.56 |          4.15 |


**Punto 1.** Crea un `DataFrame` a partire dal file `products.csv` <!--  -->

In [11]:
# Importazione della libreria pandas e assegnamento come nome pd
import pandas as pd

# Lettura del file csv e inserimento dentro al dataframe pandas
df = pd.read_csv('products.csv')

df = pd.DataFrame(df)

# Stampa e visualizzazione del dataframe pandas
print(df)

                name  qnt    origin  purchasePrice  salePrice
0               Noci  227  Giappone           3.09       3.46
1               Sale  134  Giappone           4.39       6.48
2            Cipolle  231      Cina           9.35      10.37
3         Tortellini  426   Brasile           4.89       6.85
4            Gnocchi  215   Brasile           3.56       4.15
..               ...  ...       ...            ...        ...
95  Prosciutto crudo  299      Cina           5.28       6.72
96         Salsiccia  135    Grecia           9.47      11.53
97  Prosciutto crudo   38    Olanda           2.27       2.66
98            Gelato  356  Giappone           3.16       4.05
99        Crocchette  103    Olanda           8.12      11.74

[100 rows x 5 columns]


**Punto 2.** `SELECT * FROM products WHERE origin="Giappone";`

In [2]:

# Salvataggio dei prodotti provenienti dal Giappone nella variabile
prodotti = df[df['origin'] == 'Giappone']

# Stampo della variabile a schermo
print(prodotti)

                name  qnt    origin  purchasePrice  salePrice
0               Noci  227  Giappone           3.09       3.46
1               Sale  134  Giappone           4.39       6.48
6   Fette biscottate  393  Giappone           3.14       4.48
51        Marmellata  200  Giappone           5.41       6.41
53           Anguria  386  Giappone           1.20       1.64
73              Vino  207  Giappone           6.23       8.93
93            Salame  122  Giappone           7.49       8.81
98            Gelato  356  Giappone           3.16       4.05


**Punto 3.** `SELECT SUM(qnt) FROM products WHERE origin="Brasile";`

In [3]:

# Estrapolo nella variabile prodotti tutti i prodotti con provenienza dal Brasile
prodotti = df[df['origin'] == 'Brasile']

# Stampo la somma delle quantità
print(prodotti['qnt'].sum())



1572


**Punto 4.** `SELECT * FROM products WHERE salePrice=(SELECT MAX(salePrice) FROM products);`

In [4]:
# Identifico il prezzo di vendita maggiore dalla lista
massimo_prezzo = df['salePrice'].max()

# Trovo il prodotto corrispondente al prezzo massimo salvato nella variabile
prodotto = df[df['salePrice'] == massimo_prezzo]

# Mostro e stampo il prodotto
print(prodotto)

              name  qnt  origin  purchasePrice  salePrice
65  Pane al sesamo  179  Grecia           9.63      13.46


**Punto 5.** `SELECT origin, COUNT(*) FROM products GROUP BY origin ORDER BY COUNT(*) DESC;`

In [5]:

# Salvo dentro alla variabile gruppi, il raggruppamento di tutti i dati che hanno in comune il paese di origine e gli aggiugo di fianco una colonna "count"
gruppi = df.groupby(by = 'origin').size().reset_index(name='count')

# Prendo la variabile e la analizzo ordinando i prodotti in ordine decrescente
prodotti = gruppi.sort_values(by = 'count', ascending = False)

# Stampo a schermo i prodotti modificati nella nuova variabile di risultato
print(prodotti)

     origin  count
5    Grecia     16
7    Olanda     13
9       USA     11
1      Cina     10
6    Italia     10
3  Germania     10
0   Brasile      8
4  Giappone      8
2   Francia      7
8    Spagna      7


**Punto 6.** `SELECT * FROM products WHERE origin="Giappone";`

In [6]:

# Salvataggio dei prodotti provenienti dal Giappone nella variabile
prodotti = df[df['origin'] == 'Giappone']

# Stampo della variabile a schermo
print(prodotti)

                name  qnt    origin  purchasePrice  salePrice
0               Noci  227  Giappone           3.09       3.46
1               Sale  134  Giappone           4.39       6.48
6   Fette biscottate  393  Giappone           3.14       4.48
51        Marmellata  200  Giappone           5.41       6.41
53           Anguria  386  Giappone           1.20       1.64
73              Vino  207  Giappone           6.23       8.93
93            Salame  122  Giappone           7.49       8.81
98            Gelato  356  Giappone           3.16       4.05


**Punto 7.** `SELECT origin, AVG(salePrice) FROM products GROUP BY origin ORDER BY salePrice DESC LIMIT 3`

In [17]:

gruppo = df.groupby(by = 'origin').agg({'salePrice': 'mean'})

prodotti.columns = [ 'nome', 'qnt', 'purchasePrice', 'avgSalePrice']

prodotti = prodotti.sort_values(by='avgSalePrice', ascending=False).head(3)

print(prodotti)

                                                     nome   qnt  \
origin                                                            
Grecia  UovaZuccheroAcquaZuccheroTonnoMortadellaPenneV...  2829   
USA     PastaUovaBibiteCaffèBriocheVinoLatte di soiaCe...  2663   
Olanda  GnocchiZuccheroTacchinoBananePolpetteRisoLatte...  2765   

        purchasePrice  avgSalePrice  
origin                               
Grecia         106.05        138.28  
USA             80.69        106.39  
Olanda          69.50         88.30  


**Punto 8.** `SELECT origin, COUNT(*) FROM products GROUP BY origin HAVING COUNT(*) > 1;`

**Punto 9.** `SELECT name, salePrice FROM products WHERE salePrice > (SELECT AVG(salePrice) FROM products);`