# Introduzione a  Pandas

# Modulo 2: DataFrames

# Le basi - Parte 1
- Come creare un DataFrame. 
- Conoscere le proprietà e le informazioni del DataFrame.
- Selezione di una singola colonna.
- Aggiunta di nuove colonne a un DataFrame.
- Rinominare le colonne.
- Statistiche descrittive sulle colonne.

# Definizione
Un DataFrame è una **struttura dati bidimensionale** (simile a una tabella), utilizzata per la manipolazione e l'analisi dei dati.

### Caratteristiche principali:
* Organizzato in righe e colonne, come un foglio Excel o una tabella SQL.
* Ogni colonna può contenere un tipo di dato diverso (es. numeri, stringhe, date).
* Ha etichette (label) per le righe (indice) e per le colonne (nomi delle variabili).
* Supporta operazioni efficienti per filtrare, aggregare, trasformare e visualizzare dati.

> Un DataFrame è una collezione di dati bi-dimensionali come una lista di dizionari che hanno due dimensioni

In [1]:
import pandas as pd 
basket = [
    {"item": "mango", "quantity": 4, "price": 2.99},
    {"item": "bread", "quantity": 2, "price": 3.25},
    {"item": "juice", "quantity": 1, "price": 5.90},
    {"item": "orange", "quantity": 3, "price": 2.99},
    {"item": "lime", "quantity": 3, "price": 0.3},
]
basket

[{'item': 'mango', 'quantity': 4, 'price': 2.99},
 {'item': 'bread', 'quantity': 2, 'price': 3.25},
 {'item': 'juice', 'quantity': 1, 'price': 5.9},
 {'item': 'orange', 'quantity': 3, 'price': 2.99},
 {'item': 'lime', 'quantity': 3, 'price': 0.3}]

> Le colonne sono le `variabili` o caratteristiche, mentre le righe rappresentano le `osservazioni`.

In [3]:
df = pd.DataFrame(basket)
df

Unnamed: 0,item,quantity,price
0,mango,4,2.99
1,bread,2,3.25
2,juice,1,5.9
3,orange,3,2.99
4,lime,3,0.3


> Dizionario in cui le `chiavi` sono nomi di colonne, `item`, `quantity`, `price` mentre i `valori` sono associati alle relative celle di ogni colonna. Ogni chiave ha come valore una lista. 

In [4]:
basket = {
    "item": ["mango", "bread", "juice", "orange", "lime"],
    "quantity": [4, 2, 1, 3, 3],
    "price": [2.99, 3.25, 5.90, 2.99, 0.30]
}
basket

{'item': ['mango', 'bread', 'juice', 'orange', 'lime'],
 'quantity': [4, 2, 1, 3, 3],
 'price': [2.99, 3.25, 5.9, 2.99, 0.3]}

> Trasformiamo il dizionario in un DataFrame.

In [5]:
pd.DataFrame(basket)

Unnamed: 0,item,quantity,price
0,mango,4,2.99
1,bread,2,3.25
2,juice,1,5.9
3,orange,3,2.99
4,lime,3,0.3


# Esercitazione - Analisi di un Carrello della Spesa

* Creare un DataFrame da un dizionario
* Visualizzare i dati

In [None]:
basket = {
    "item": ["mango", "bread", "juice", "orange", "lime"],
    "quantity": [4, 2, 1, 3, 3],
    "price": [2.99, 3.25, 5.90, 2.99, 0.30]
}

|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>

In [7]:
import pandas as pd

# 1. Crea il DataFrame
basket = {
    "item": ["mango", "bread", "juice", "orange", "lime"],
    "quantity": [4, 2, 1, 3, 3],
    "price": [2.99, 3.25, 5.90, 2.99, 0.30]
}
df = pd.DataFrame(basket)

# 2. Visualizza le prime righe
print("PRIME RIGHE DEL DATAFRAME:")
print(df)

PRIME RIGHE DEL DATAFRAME:
     item  quantity  price
0   mango         4   2.99
1   bread         2   3.25
2   juice         1   5.90
3  orange         3   2.99
4    lime         3   0.30


# Creazione di un dataframe da un elenco di elenchi
* righe = osservazioni;
* colonne = variabili.

In [10]:
example = [
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
]

column_names = ["variable_a", "variable_b", "variable_c"]
row_names = ["observation_1", "observation_2", "observation_3"]

pd.DataFrame(example, columns=column_names, index=row_names)

Unnamed: 0,variable_a,variable_b,variable_c
observation_1,1,2,3
observation_2,4,5,6
observation_3,7,8,9


# Creazione di un DataFrame da zero
* Aggiunta di colonne in un `DataFrame`: qualsiasi tipo di dati simile ad un elenco può diventare una colonna. 
* Quando assegniamo le colonne in un `DataFrame`, le colonne diventano `Series`. 

In [12]:
df["item"] = pd.Series(["Mango", "Bread", "Juice", "Orange", "Lime"])
df["quantity"] = [2, 2, 1, 3, 3]
df["price"] = (2.99, 3.25, 5.90, 2.99, 0.30)
df

Unnamed: 0,item,quantity,price
0,Mango,2,2.99
1,Bread,2,3.25
2,Juice,1,5.9
3,Orange,3,2.99
4,Lime,3,0.3


# Esercitazione
* Crea un DataFrame vuoto.
* Aggiungi colonne una alla volta.
* Visualizza il risultato. 

1. Importa la libreria `pandas`.
2. Crea un DataFrame vuoto chiamato `df`.
3. Aggiungi le seguenti colonne:
* `"nome"` → una lista con 5 nomi a tua scelta.
* `"età"` → una lista con 5 numeri interi.
* `"classe"` → una tupla con 5 stringhe che indicano una classe scolastica (es: "3A", "2B", ...).
4. Stampa il DataFrame.

|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>

In [23]:
import pandas as pd

# 1. Creazione di un DataFrame vuoto
df = pd.DataFrame()

# 2. Aggiunta della colonna "nome"
df["nome"] = pd.Series(["Luca", "Sara", "Marta", "Giorgio", "Elisa"])

# 3. Aggiunta della colonna "età"
df["età"] = [16, 17, 16, 18, 17]

# 4. Aggiunta della colonna "classe"
df["classe"] = ("3A", "4B", "3A", "5C", "4B")

# 5. Visualizzazione del DataFrame
print(df)

      nome  età classe
0     Luca   16     3A
1     Sara   17     4B
2    Marta   16     3A
3  Giorgio   18     5C
4    Elisa   17     4B


### -----------------------------------------------------------------------------------------------

# `.shape`
Restituisce una tupla che indica la dimensione del DataFrame:
* righe;
* colonne.

In [1]:
import pandas as pd
basket = {
    "item": ["mango", "bread", "juice", "orange", "lime"],
    "quantity": [4, 2, 1, 3, 3],
    "price": [2.99, 3.25, 5.90, 2.99, 0.30]
}
df = pd.DataFrame(basket)

In [2]:
df.shape

(5, 3)

In [3]:
df.shape[0] # restituisce il numero di righe del DataFrame.

5

In [4]:
df.shape[1] # restituisce il numero di colonne del DataFrame. 

3

# `len`
Restituisce il numero di righe.

In [5]:
len(df)

5

# `.size`
Il metodo `size` viene usato per ottenere il numero totale di elementi (celle) in un DataFrame o in una Series.

In [6]:
df.size # righe * colonne

15

> Come aggiungere nuove colonne al DataFrame 

In [7]:
df["item"] = pd.Series(["Mango", "Bread", "Juice", "Orange", "Lime"])
df["quantity"] = [2, 2, 1, 3, 3]
df["price"] = (2.99, 3.25, 5.90, 2.99, 0.30)
df

Unnamed: 0,item,quantity,price
0,Mango,2,2.99
1,Bread,2,3.25
2,Juice,1,5.9
3,Orange,3,2.99
4,Lime,3,0.3


In [8]:
df["subtotal"] = df["quantity"] * df["price"]
df

Unnamed: 0,item,quantity,price,subtotal
0,Mango,2,2.99,5.98
1,Bread,2,3.25,6.5
2,Juice,1,5.9,5.9
3,Orange,3,2.99,8.97
4,Lime,3,0.3,0.9


# `.set_index()`
Il metodo `.set_index()` serve per impostare una colonna come indice del DataFrame, cioè per sostituire l'indice numerico predefinito (0, 1, 2, ...) con una colonna significativa.

In [9]:
df.set_index("item", inplace=True) # set_index può sovrascrivere l'indice predefinito
df

Unnamed: 0_level_0,quantity,price,subtotal
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Mango,2,2.99,5.98
Bread,2,3.25,6.5
Juice,1,5.9,5.9
Orange,3,2.99,8.97
Lime,3,0.3,0.9


# `.index`
`.index` rappresenta l’insieme delle etichette di riga (cioè l’indice) di un DataFrame. * Ogni riga in un DataFrame ha un’etichetta, che per impostazione predefinita è un numero intero crescente (0, 1, 2, ...), ma può essere modificata con `set_index()`.
* da accesso ai valori dell'indice. 

In [10]:
df.index

Index(['Mango', 'Bread', 'Juice', 'Orange', 'Lime'], dtype='object', name='item')

In [67]:
df.index = df.index.str.lower() # sovrascrive l'indice con una serie di uguale lunghezza

df

Unnamed: 0_level_0,quantity,price,subtotal
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
mango,2,2.99,5.98
bread,2,3.25,6.5
juice,1,5.9,5.9
orange,3,2.99,8.97
lime,3,0.3,0.9


# `.columns`
Accesso a tutte le colonne. 

In [69]:
df.columns

Index(['quantity', 'price', 'subtotal'], dtype='object')

> ## Altro esempio di creazione di una nuova colonna

In [70]:
df["tax"] = 0.07
df

Unnamed: 0_level_0,quantity,price,subtotal,tax
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
mango,2,2.99,5.98,0.07
bread,2,3.25,6.5,0.07
juice,1,5.9,5.9,0.07
orange,3,2.99,8.97,0.07
lime,3,0.3,0.9,0.07


> ## La colonna "costo totale" non esiste, ma questa sintassi tra parentesi la crea.


In [71]:
df["total cost"] = df["subtotal"] + (df["subtotal"] * df["tax"])
df

Unnamed: 0_level_0,quantity,price,subtotal,tax,total cost
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
mango,2,2.99,5.98,0.07,6.3986
bread,2,3.25,6.5,0.07,6.955
juice,1,5.9,5.9,0.07,6.313
orange,3,2.99,8.97,0.07,9.5979
lime,3,0.3,0.9,0.07,0.963


> ## Attraverso la sintassi dei punti possiamo chiamare una colonna esistente ma solo se la colonna esista già. 

In [72]:
df.price

item
mango     2.99
bread     3.25
juice     5.90
orange    2.99
lime      0.30
Name: price, dtype: float64

In [73]:
df.dtypes # emette i tipi di dati di tutte le colonne nel dataframe


quantity        int64
price         float64
subtotal      float64
tax           float64
total cost    float64
dtype: object

# `.info`
Strumento diagnostico molto utile che fornisce un riepilogo tecnico del DataFrame.

In [75]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, mango to lime
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   quantity    5 non-null      int64  
 1   price       5 non-null      float64
 2   subtotal    5 non-null      float64
 3   tax         5 non-null      float64
 4   total cost  5 non-null      float64
dtypes: float64(4), int64(1)
memory usage: 412.0+ bytes


# `.describe()`
Fornisce statistiche descrittive automatiche per tutte le colonne numeriche del DataFrame.

In [76]:
df.price.describe() # per singola colonna

count    5.000000
mean     3.086000
std      1.982783
min      0.300000
25%      2.990000
50%      2.990000
75%      3.250000
max      5.900000
Name: price, dtype: float64

In [77]:
df.describe() # statistiche descrittive per le colonne 

Unnamed: 0,quantity,price,subtotal,tax,total cost
count,5.0,5.0,5.0,5.0,5.0
mean,2.2,3.086,5.65,0.07,6.0455
std,0.83666,1.982783,2.935933,0.0,3.141448
min,1.0,0.3,0.9,0.07,0.963
25%,2.0,2.99,5.9,0.07,6.313
50%,2.0,2.99,5.98,0.07,6.3986
75%,3.0,3.25,6.5,0.07,6.955
max,3.0,5.9,8.97,0.07,9.5979


> ### Una colonna di un `DataFrame` è un oggetto `Series`.

In [78]:
type(df.quantity)

pandas.core.series.Series

# `.value_counts`
Restituisce il conteggio delle occorrenze uniche in una colonna di un DataFrame.

In [81]:
df.quantity.value_counts()

quantity
2    2
3    2
1    1
Name: count, dtype: int64

In [84]:
df.mean() # Posso eseguire Funzioni aggregate su tutti i valori numerici.

quantity      2.2000
price         3.0860
subtotal      5.6500
tax           0.0700
total cost    6.0455
dtype: float64

In [85]:
df.median()

quantity      2.0000
price         2.9900
subtotal      5.9800
tax           0.0700
total cost    6.3986
dtype: float64

In [86]:
df.std()

quantity      0.836660
price         1.982783
subtotal      2.935933
tax           0.000000
total cost    3.141448
dtype: float64

## Uso corretto dei nomi delle colonne in Pandas
Possiamo accedere alle colonne di un DataFrame usando le parentesi quadrate:
* `df["nome_colonna"]`

Sintassi necessaria quando:

* Il nome della colonna contiene spazi, ad esempio: `"media voti"`
* Il nome della colonna corrisponde a un metodo interno di Pandas, come `"count"`, `"mean"`, `"sum"`, ecc.

Non utilizzare nomi di metodi Pandas. 

In [89]:
df["shape"] = ["round", "loaf", "jug", "round", "round"]
df

Unnamed: 0_level_0,quantity,price,subtotal,tax,total cost,shape
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
mango,2,2.99,5.98,0.07,6.3986,round
bread,2,3.25,6.5,0.07,6.955,loaf
juice,1,5.9,5.9,0.07,6.313,jug
orange,3,2.99,8.97,0.07,9.5979,round
lime,3,0.3,0.9,0.07,0.963,round


In [90]:
df.shape # mostra numero righe e colonne


(5, 6)

In [91]:
df["shape"]

item
mango     round
bread      loaf
juice       jug
orange    round
lime      round
Name: shape, dtype: object

# `.rename`
Il metodo `.rename()` serve per rinominare colonne o righe (indici) in un DataFrame, senza modificare i dati.

In [92]:
df.rename(columns={"shape": "item_shape", "total cost": "total"}, inplace=True)
df

Unnamed: 0_level_0,quantity,price,subtotal,tax,total,item_shape
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
mango,2,2.99,5.98,0.07,6.3986,round
bread,2,3.25,6.5,0.07,6.955,loaf
juice,1,5.9,5.9,0.07,6.313,jug
orange,3,2.99,8.97,0.07,9.5979,round
lime,3,0.3,0.9,0.07,0.963,round


# Esercitazione - Analisi delle Vendite in Libreria
* Creare un DataFrame da una lista di dizionari
* Rinominare colonne
* Aggiungere una colonna personalizzata
* Pulire e convertire dati in formato numerico
* Calcolare e arrotondare ricavi totali

In [1]:
books = [
    {"book title": "Python 101", "price": "$29.90", "format": "paperback"},
    {"book title": "Data Science", "price": "$39.95", "format": "ebook"},
    {"book title": "AI for Beginners", "price": "$49.50", "format": "paperback"},
    {"book title": "ML Guide", "price": "$59.00", "format": "hardcover"},
    {"book title": "Statistics", "price": "$35.75", "format": "ebook"},
]


1. Crea un DataFrame chiamato `books_df` a partire dalla lista `books`.
2. Rinomina la colonna `"book title"` in `"book_title"`.
3. Aggiungi una colonna chiamata `copies_sold` con i valori: `[120, 340, 80, 60, 250]`.
4. Pulisci la colonna `price` rimuovendo il simbolo `$` e converti i valori in tipo `float`.
* Crea una nuova colonna `total_revenue` che moltiplica `price` per `copies_sold`.
* Arrotonda i valori della colonna `total_revenue` a due cifre decimali.

Usa `.rename()`, `.str.replace()`, `.astype(float)`, `round()`, e operazioni tra colonne.

In [2]:
import pandas as pd

# 1. Creazione del DataFrame
books = [
    {"book title": "Python 101", "price": "$29.90", "format": "paperback"},
    {"book title": "Data Science", "price": "$39.95", "format": "ebook"},
    {"book title": "AI for Beginners", "price": "$49.50", "format": "paperback"},
    {"book title": "ML Guide", "price": "$59.00", "format": "hardcover"},
    {"book title": "Statistics", "price": "$35.75", "format": "ebook"},
]

books_df = pd.DataFrame(books)

# 2. Rinomina colonna
books_df = books_df.rename(columns={"book title": "book_title"})

# 3. Aggiunta colonna 'copies_sold'
books_df["copies_sold"] = [120, 340, 80, 60, 250]

# 4. Pulizia e conversione colonna 'price'
books_df["price"] = books_df["price"].str.replace("$", "", regex=False).astype(float)

# 5. Calcolo ricavo totale
books_df["total_revenue"] = books_df["price"] * books_df["copies_sold"]

# 6. Arrotondamento a 2 decimali
books_df["total_revenue"] = books_df["total_revenue"].round(2)

# Visualizza risultato
print(books_df)

         book_title  price     format  copies_sold  total_revenue
0        Python 101  29.90  paperback          120         3588.0
1      Data Science  39.95      ebook          340        13583.0
2  AI for Beginners  49.50  paperback           80         3960.0
3          ML Guide  59.00  hardcover           60         3540.0
4        Statistics  35.75      ebook          250         8937.5
