# 🐼 Guide to Using Pandas Methods and Functions
This guide provides a practical overview of the main Pandas methods and functions for data analysis. From DataFrame management to cleaning and transformation, you will find useful examples to manipulate and analyze data in Python efficiently.

By [Enzo Schitini]('https://www.linkedin.com/in/enzoschitini/')

Data Scientist & Data Analyst • SQL • Expert Bubble.io • UX & UI @ Scituffy creator

Pandas is one of the most powerful and widely used libraries for manipulating and analyzing data in Python. Whether you are an aspiring data scientist, an experienced analyst, or simply someone who works with data, mastering Pandas can greatly improve your productivity and data processing skills. This guide aims to provide a comprehensive overview of Pandas' essential methods and functions, enabling you to tackle complex data operations with ease and efficiency.

In this guide, you will explore fundamental concepts such as data cleansing, transformation, aggregation, and visualization techniques using Pandas. Through practical examples and step-by-step instructions, you will gain a deeper understanding of how to leverage Pandas' full potential to simplify and enhance your data workflows.

### `Dataset:` For this guide, we will use data from an online store, although with fewer rows and columns than the original. We have 2022 rows and 10 columns.
Link Dataset: https://github.com/enzoschitini/Guide-to-Using-Pandas/blob/main/pandas_csv_guide.csv

| order_id                            | customer_state | product_category_name | product_weight_g | review_score | price | freight_value | payment_value | order_approved_at     | order_purchase_timestamp |
|-------------------------------------|----------------|-----------------------|------------------|--------------|-------|---------------|---------------|-----------------------|-------------------------|
| 00010242fe8c5a6d1ba2dd792cb16214    | RJ             | cool_stuff            | 650.0            | 5            | 58.9  | 13.29         | 72.19         | 2017-09-13 09:45:35   | 2017-09-13 08:59:02     |
| 130898c0987d1801452a8ed92a670612    | GO             | cool_stuff            | 650.0            | 5            | 55.9  | 17.96         | 73.86         | 2017-06-29 02:44:11   | 2017-06-28 11:52:20     |
| 532ed5e14e24ae1f0d735b91524b98b9    | MG             | cool_stuff            | 650.0            | 4            | 64.9  | 18.33         | 83.23         | 2018-05-18 12:31:43   | 2018-05-18 10:25:53     |
| 6f8c31653edb8c83e1a739408b5ff750    | PR             | cool_stuff            | 650.0            | 5            | 58.9  | 16.17         | 75.07         | 2017-08-01 18:55:08   | 2017-08-01 18:38:42     |
| 7d19f4ef4d04461989632411b7e588b9    | MG             | cool_stuff            | 650.0            | 5            | 58.9  | 13.29         | 72.19         | 2017-08-10 22:05:11   | 2017-08-10 21:48:40     |

### Description of columns:

- **order_id**: Unique identifier for the order. Each row represents a specific order made by the customer.

- **customer_state**: Brazilian state where the customer resides. It is represented by a two-letter code (e.g., RJ for Rio de Janeiro).

- **product_category_name**: Category of the purchased product. For example, "cool_stuff" indicates a specific product category.

- **product_weight_g**: Weight of the product in grams. This provides information about the weight of the ordered product.

- **review_score**: Review score given by the customer for the order, typically on a scale from 1 to 5.

- **price**: Price of the product in the local currency (Brazilian reais). This indicates the cost of the purchased product.

- **freight_value**: Shipping cost in the local currency. This represents the shipping charge for the order.

- **payment_value**: Total amount paid for the order, including the product price and the shipping cost.

- **order_approved_at**: Date and time when the order was approved for shipping.

- **order_purchase_timestamp**: Date and time when the order was placed by the customer.

``` python
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/enzoschitini/Guide-to-Using-Pandas/refs/heads/main/pandas_csv_guide.csv').drop(columns='Unnamed: 0')

```

## Argomenti da trattare in questa guida:  
Ho scelto i 10 argomenti che, secondo me, sono più utilizzati in Pandas per analizzare i dati.  

### 1. **Caricamento dei Dati**  

- `pd.read_csv()` – Carica dati da un file CSV.  
- `pd.read_excel()` – Carica dati da un file Excel.  
- `pd.read_sql()` – Carica dati da un database SQL.  
- `pd.read_json()` – Carica dati da un file JSON.  
- `pd.read_parquet()` – Carica dati da un file Parquet, utile per dataset di grandi dimensioni.  
- `pd.read_html()` – Analizza tabelle HTML da una pagina web.  
- `pd.read_pickle()` – Carica dati salvati in formato pickle di Python.  
- `pd.read_feather()` – Carica dati da un file in formato Feather, adatto per input/output veloci.  
- `pd.read_sas()` – Carica dati da file SAS.  
- `pd.read_hdf()` – Carica dati da file in formato HDF5.  

### 2. **Ispezione dei Dati**  

- `.head(n)` – Mostra le prime `n` righe del DataFrame (predefinito: 5).  
- `.tail(n)` – Mostra le ultime `n` righe del DataFrame.  
- `.shape` – Restituisce le dimensioni (righe, colonne) del DataFrame.  
- `.columns` – Elenca i nomi delle colonne.  
- `.info()` – Mostra informazioni sul DataFrame (tipi di colonna, conteggi non nulli).  
- `.describe()` – Fornisce statistiche descrittive per le colonne numeriche.  
- `.dtypes` – Restituisce i tipi di dati di tutte le colonne.  
- `.index` – Restituisce l'indice (etichette delle righe) del DataFrame.  
- `.value_counts()` – Conta i valori univoci in una colonna.  
- `.isnull()` / `.notnull()` – Controlla i valori mancanti.  
- `.duplicated()` – Controlla righe duplicate.  
- `.nunique()` – Conta il numero di valori univoci per colonna.  
- `.sample(n)` – Seleziona casualmente `n` righe dal DataFrame.  

### 3. **Selezione e Indicizzazione dei Dati**  

- `.loc[]` – Accede a gruppi di righe e colonne tramite etichette.  
- `.iloc[]` – Accede a gruppi di righe e colonne tramite posizioni (basate su interi).  
- `.at[]` – Accede a un singolo valore tramite una coppia etichetta riga/colonna.  
- `.iat[]` – Accede a un singolo valore tramite una coppia posizione riga/colonna.  
- `.filter()` – Sottoseleziona il DataFrame in base alle etichette di riga/colonna.  
- `.xs()` – Estrae sezioni trasversali da un MultiIndex.  
- `.query()` – Filtra il DataFrame usando un'espressione in formato stringa.  
- `.get()` – Recupera elementi da una Serie tramite chiave.  
- `.isin()` – Filtra righe in base alla presenza di valori in una lista.  
- `.where()` – Imposta valori in base a una condizione.  
- `.mask()` – Sostituisce valori dove una condizione è `True`.  
- `.squeeze()` – Converte un DataFrame con una sola colonna in una Serie.  

### 4. **Pulizia dei Dati**  

- `.drop()` – Rimuove etichette specificate da righe o colonne.  
- `.dropna()` – Elimina righe/colonne con valori mancanti.  
- `.fillna()` – Sostituisce i valori mancanti con un valore specificato.  
- `.replace()` – Sostituisce valori all'interno del DataFrame.  
- `.rename()` – Rinomina colonne o indici.  
- `.interpolate()` – Riempie valori NaN con valori interpolati.  
- `.bfill()` / `.ffill()` – Riempimento a ritroso o in avanti di valori NaN.  
- `.convert_dtypes()` – Converte colonne nei tipi di dati ottimali.  
- `.clip()` – Limita i valori al di sotto o al di sopra di una soglia.  
- `.abs()` – Calcola il valore assoluto delle colonne numeriche.  
- `.round(decimals)` – Arrotonda i valori a un numero specificato di decimali.  

### 5. **Trasformazione dei Dati**  

- `.astype()` – Cambia il tipo di dato delle colonne.  
- `.apply()` – Applica una funzione lungo un asse (righe/colonne).  
- `.applymap()` – Applica una funzione elemento per elemento.  
- `.map()` – Mappa valori da una colonna a un'altra.  
- `.sort_values()` – Ordina il DataFrame per colonne.  
- `.sort_index()` – Ordina il DataFrame per il suo indice.  
- `.reset_index()` – Reimposta l'indice del DataFrame.  
- `.pivot()` – Rimodella i dati in base ai valori delle colonne.  
- `.rank()` – Classifica i valori all'interno di ciascuna colonna.  
- `.cumsum()` / `.cumprod()` – Calcola somme/prodotti cumulativi.  
- `.diff()` – Calcola la differenza tra righe successive.  
- `.expanding()` – Applica trasformazioni progressive (es. somma cumulativa).  
- `.pipe()` – Applica funzioni personalizzate al DataFrame.  
- `.eval()` – Valuta un'espressione Python come colonna nel DataFrame.  

### 6. **Aggregazione e Raggruppamento**  

- `.groupby()` – Raggruppa il DataFrame in base a una o più colonne.  
- `.agg()` – Applica funzioni di aggregazione come somma, media, min, max sui dati raggruppati.  
- `.sum()`, `.mean()`, `.min()`, `.max()`, `.count()` – Calcola direttamente queste statistiche.  
- `.pivot_table()` – Crea una tabella pivot con righe, colonne e valori specificati.  
- `.transform()` – Applica funzioni a colonne raggruppate usando `groupby()`.  
- `.size()` – Restituisce la dimensione di ogni gruppo.  
- `.cumcount()` – Conta le occorrenze cumulative di valori univoci.  
- `.nsmallest(n, columns)` – Trova i `n` valori più piccoli in una colonna.  
- `.nlargest(n, columns)` – Trova i `n` valori più grandi in una colonna.  
- `.mad()` – Deviazione assoluta media per dati raggruppati.  
- `.rolling(window).apply()` – Applica una funzione su una finestra mobile.  

### 7. **Unione e Combinazione dei Dati**  

- `pd.merge()` – Unisce DataFrame su colonne specificate.  
- `.join()` – Unisce DataFrame sugli indici.  
- `pd.concat()` – Concatena DataFrame lungo righe o colonne.  

### 8. **Esplorazione dei Dati Temporali**  

- `.resample()` – Raggruppa e riassume i dati in base a una frequenza temporale.  
- `.to_datetime()` – Converte stringhe in oggetti datetime.  
- `.dt` accessor – Accede a componenti di data come anno, mese, giorno.  
- `.rolling()` – Applica operazioni su una finestra temporale mobile.  
- `.shift()` – Sposta i dati nel tempo (es. periodi).  
- `.diff()` – Calcola la differenza di valori successivi in una serie temporale.  
- `.asfreq()` – Cambia la frequenza di un indice temporale.  
- `.between_time()` – Estrae righe in base a un intervallo di tempo specifico.  
- `.at_time()` – Estrae righe per un'ora specifica.  
- `.truncate()` – Riduce righe prima o dopo una data specifica.  

### 9. **Esportazione dei Dati**  

- `.to_csv()` – Esporta i dati in un file CSV.  
- `.to_excel()` – Esporta i dati in un file Excel.  
- `.to_sql()` – Esporta i dati in un database SQL.  
- `.to_json()` – Esporta i dati in formato JSON.  
- `.to_parquet()` – Esporta i dati in formato Parquet.  
- `.to_pickle()` – Esporta i dati in un file pickle di Python.  
- `.to_html()` – Esporta i dati in una tabella HTML.  
- `.to_latex()` – Esporta i dati in formato LaTeX.  
- `.to_dict()` – Converte i dati in un dizionario Python.  
- `.to_markdown()` – Esporta i dati in formato Markdown.  
- `.to_clipboard()` – Copia i dati negli appunti.  
- `.to_string()` – Converte il DataFrame in una stringa.  
- `.to_records()` – Converte il DataFrame in un array di

### 9. **Esportazione dei Dati**  

- `.to_csv()` – Esporta i dati in un file CSV.  
- `.to_excel()` – Esporta i dati in un file Excel.  
- `.to_sql()` – Esporta i dati in un database SQL.  
- `.to_json()` – Esporta i dati in formato JSON.  
- `.to_parquet()` – Esporta i dati in formato Parquet.  
- `.to_pickle()` – Esporta i dati in un file pickle di Python.  
- `.to_html()` – Esporta i dati in una tabella HTML.  
- `.to_latex()` – Esporta i dati in formato LaTeX.  
- `.to_dict()` – Converte i dati in un dizionario Python.  
- `.to_markdown()` – Esporta i dati in formato Markdown.  
- `.to_clipboard()` – Copia i dati negli appunti.  
- `.to_string()` – Converte il DataFrame in una stringa.  
- `.to_records()` – Converte il DataFrame in un array di record.  
- `.to_feather()` – Esporta i dati in formato Feather.  

### 10. **Gestione degli Indici Multi-Livello (MultiIndex)**  

- `.set_index()` – Imposta una o più colonne come indice del DataFrame.  
- `.reset_index()` – Reimposta l'indice del DataFrame, spostando gli attuali indici nelle colonne.  
- `.sort_index()` – Ordina il DataFrame in base ai valori dell'indice.  
- `.swaplevel()` – Scambia i livelli di un MultiIndex.  
- `.stack()` – Comprime i livelli delle colonne in righe.  
- `.unstack()` – Espande i livelli delle righe in colonne.  
- `.reorder_levels()` – Riordina i livelli di un MultiIndex.  
- `.index.get_level_values()` – Estrae i valori di un livello specifico da un MultiIndex.  
- `.droplevel()` – Rimuove un livello da un MultiIndex.  
- `.groupby(level=...)` – Raggruppa i dati in base ai livelli del MultiIndex.  

## 🔥Let's get started!

In [1]:
import pandas as pd

# 1. Loading Data

In [2]:
def url_github(type):
    url_data = f'https://raw.githubusercontent.com/enzoschitini/Guide-to-Using-Pandas/refs/heads/main/Data/pandas_{type}_guide.{type}'
    return url_data

# pd.set_option('display.max_columns', None)

### Import CSV, Execel, parquet, feather, json

In [3]:
csv = pd.read_csv(url_github('csv')).drop(columns='Unnamed: 0')
excel = pd.read_excel(url_github('xlsx')).drop(columns='Unnamed: 0')
parquet = pd.read_parquet(url_github('parquet'))
feather = pd.read_feather(url_github('feather'))
json = pd.read_json(url_github('json'))

### Import SQL

In [4]:
import requests
import sqlite3

# Scarica il file dal link
url = 'https://raw.githubusercontent.com/enzoschitini/Guide-to-Using-Pandas/refs/heads/main/Data/pandas_sql_guide.db'
response = requests.get(url)
with open('pandas_sql_guide.db', 'wb') as f:
    f.write(response.content)

# Crea una connessione al database SQLite locale
conn = sqlite3.connect('pandas_sql_guide.db')

# Leggi la tabella SQL in un DataFrame pandas
df_importato = pd.read_sql('SELECT * FROM pandas_sql_guide', conn).drop(columns='Unnamed: 0')

# Chiudi la connessione
conn.close()

df_importato.head()


Unnamed: 0,order_id,customer_state,product_category_name,product_weight_g,review_score,price,freight_value,payment_value,order_approved_at,order_purchase_timestamp
0,00010242fe8c5a6d1ba2dd792cb16214,RJ,cool_stuff,650.0,5,58.9,13.29,72.19,2017-09-13 09:45:35,2017-09-13 08:59:02
1,130898c0987d1801452a8ed92a670612,GO,cool_stuff,650.0,5,55.9,17.96,73.86,2017-06-29 02:44:11,2017-06-28 11:52:20
2,532ed5e14e24ae1f0d735b91524b98b9,MG,cool_stuff,650.0,4,64.9,18.33,83.23,2018-05-18 12:31:43,2018-05-18 10:25:53
3,6f8c31653edb8c83e1a739408b5ff750,PR,cool_stuff,650.0,5,58.9,16.17,75.07,2017-08-01 18:55:08,2017-08-01 18:38:42
4,7d19f4ef4d04461989632411b7e588b9,MG,cool_stuff,650.0,5,58.9,13.29,72.19,2017-08-10 22:05:11,2017-08-10 21:48:40


In [5]:
"""import sqlite3  # or use other database connectors like SQLAlchemy for different databases

# Load your CSV file into a DataFrame
df = pd.read_csv('https://raw.githubusercontent.com/enzoschitini/Guide-to-Using-Pandas/refs/heads/main/Data/pandas_csv_guide.csv')

# Create a connection to a SQLite database (or another database)
conn = sqlite3.connect('pandas_sql_guide.db')  # Creates a database file if it doesn't exist

# Save the DataFrame to the SQL database
df.to_sql('pandas_sql_guide', conn, if_exists='replace', index=False)

# Close the connection
conn.close()"""

"import sqlite3  # or use other database connectors like SQLAlchemy for different databases\n\n# Load your CSV file into a DataFrame\ndf = pd.read_csv('https://raw.githubusercontent.com/enzoschitini/Guide-to-Using-Pandas/refs/heads/main/Data/pandas_csv_guide.csv')\n\n# Create a connection to a SQLite database (or another database)\nconn = sqlite3.connect('pandas_sql_guide.db')  # Creates a database file if it doesn't exist\n\n# Save the DataFrame to the SQL database\ndf.to_sql('pandas_sql_guide', conn, if_exists='replace', index=False)\n\n# Close the connection\nconn.close()"

### Import HTML

``` python
pip install lxml
```

In [6]:
list_of_dfs = pd.read_html('https://en.wikipedia.org/wiki/List_of_countries_by_GDP_(nominal)_per_capita')
list_of_dfs[1]

Unnamed: 0_level_0,Country/Territory,IMF[4][5],IMF[4][5],World Bank[6],World Bank[6],United Nations[7],United Nations[7]
Unnamed: 0_level_1,Country/Territory,Estimate,Year,Estimate,Year,Estimate,Year
0,Monaco,—,—,240862,2022,240535,2022
1,Liechtenstein,—,—,187267,2022,197268,2022
2,Luxembourg,135321,2024,128259,2023,125897,2022
3,Bermuda,—,—,123091,2022,117568,2022
4,Switzerland,106098,2024,99995,2023,93636,2022
...,...,...,...,...,...,...,...
218,Malawi,464,2024,673,2023,615,2022
219,Syria,—,—,421,2021,840,2022
220,Afghanistan,411,2023,353,2022,345,2022
221,South Sudan,341,2024,1072,2015,423,2022


### Create a Dataset

In [7]:
filename_features = "https://raw.githubusercontent.com/enzoschitini/Guide-to-Using-Pandas/refs/heads/main/Data/UCI%20HAR%20Dataset/features.txt"
filename_labels = "https://raw.githubusercontent.com/enzoschitini/Guide-to-Using-Pandas/refs/heads/main/Data/UCI%20HAR%20Dataset/activity_labels.txt"

filename_subtrain = "https://raw.githubusercontent.com/enzoschitini/Guide-to-Using-Pandas/refs/heads/main/Data/UCI%20HAR%20Dataset/train/subject_train.txt"
filename_xtrain = "https://raw.githubusercontent.com/enzoschitini/Guide-to-Using-Pandas/refs/heads/main/Data/UCI%20HAR%20Dataset/train/X_train.txt"
filename_ytrain = "https://raw.githubusercontent.com/enzoschitini/Guide-to-Using-Pandas/refs/heads/main/Data/UCI%20HAR%20Dataset/train/y_train.txt"

In [8]:
features = pd.read_csv(filename_features, header=None, sep="#")
features.columns = ['nome_var']
labels = pd.read_csv(filename_labels, delim_whitespace=True, header=None, names=['cod_label', 'label'])

In [9]:
"""subject_train = pd.read_csv(filename_subtrain, header=None, names=['subject_id'])
X_train = pd.read_csv(filename_xtrain, delim_whitespace=True, header=None, names=features['nome_var'].tolist())
y_train = pd.read_csv(filename_ytrain, header=None, names=['cod_label'])"""

"subject_train = pd.read_csv(filename_subtrain, header=None, names=['subject_id'])\nX_train = pd.read_csv(filename_xtrain, delim_whitespace=True, header=None, names=features['nome_var'].tolist())\ny_train = pd.read_csv(filename_ytrain, header=None, names=['cod_label'])"

In [10]:
#X_train.head()

In [11]:
#y_train.head()

# 2. Inspecting Data

## ``.head(n)`` – Shows the first n rows of the DataFrame (default: 5)

In [12]:
csv.head(n=5)

Unnamed: 0,order_id,customer_state,product_category_name,product_weight_g,review_score,price,freight_value,payment_value,order_approved_at,order_purchase_timestamp
0,00010242fe8c5a6d1ba2dd792cb16214,RJ,cool_stuff,650.0,5,58.9,13.29,72.19,2017-09-13 09:45:35,2017-09-13 08:59:02
1,130898c0987d1801452a8ed92a670612,GO,cool_stuff,650.0,5,55.9,17.96,73.86,2017-06-29 02:44:11,2017-06-28 11:52:20
2,532ed5e14e24ae1f0d735b91524b98b9,MG,cool_stuff,650.0,4,64.9,18.33,83.23,2018-05-18 12:31:43,2018-05-18 10:25:53
3,6f8c31653edb8c83e1a739408b5ff750,PR,cool_stuff,650.0,5,58.9,16.17,75.07,2017-08-01 18:55:08,2017-08-01 18:38:42
4,7d19f4ef4d04461989632411b7e588b9,MG,cool_stuff,650.0,5,58.9,13.29,72.19,2017-08-10 22:05:11,2017-08-10 21:48:40


## ``.tail(n)`` – Shows the last n rows of the DataFrame

In [13]:
csv.tail(n=5)

Unnamed: 0,order_id,customer_state,product_category_name,product_weight_g,review_score,price,freight_value,payment_value,order_approved_at,order_purchase_timestamp
2017,bb0c66e312ff8cb97698f012cd92553c,SP,perfumaria,350.0,5,56.99,8.72,65.71,2017-11-22 02:56:28,2017-11-19 17:05:09
2018,c0db7d31ace61fc360a3eaa34dd3457c,SP,perfumaria,350.0,5,56.99,8.72,65.71,2018-02-13 16:50:30,2018-02-13 16:36:56
2019,c0db7d31ace61fc360a3eaa34dd3457c,SP,perfumaria,350.0,5,56.99,8.72,65.71,2018-02-13 16:50:30,2018-02-13 16:36:56
2020,c90025afa3c59ad0768b713161777935,SP,perfumaria,350.0,5,56.99,8.72,65.71,2018-03-01 02:50:46,2018-02-28 12:59:08
2021,cc3336764b2bc18f4eaa8f17f86bfd53,SP,perfumaria,350.0,5,56.99,7.78,64.77,2017-06-11 17:55:17,2017-06-11 17:43:18


## ``.shape`` – Returns the dimensions (rows, columns) of the DataFrame

In [14]:
csv.shape

(2022, 10)

## ``.columns`` – Lists the column names

In [15]:
csv.columns

Index(['order_id', 'customer_state', 'product_category_name',
       'product_weight_g', 'review_score', 'price', 'freight_value',
       'payment_value', 'order_approved_at', 'order_purchase_timestamp'],
      dtype='object')

In [16]:
list_of_dfs[1].columns

MultiIndex([('Country/Territory', 'Country/Territory'),
            (        'IMF[4][5]',          'Estimate'),
            (        'IMF[4][5]',              'Year'),
            (    'World Bank[6]',          'Estimate'),
            (    'World Bank[6]',              'Year'),
            ('United Nations[7]',          'Estimate'),
            ('United Nations[7]',              'Year')],
           )

## ``.info()`` – Displays information about the DataFrame (column types, non-null counts)

In [17]:
csv.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2022 entries, 0 to 2021
Data columns (total 10 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   order_id                  2022 non-null   object 
 1   customer_state            2022 non-null   object 
 2   product_category_name     2022 non-null   object 
 3   product_weight_g          2022 non-null   float64
 4   review_score              2022 non-null   int64  
 5   price                     2022 non-null   float64
 6   freight_value             2022 non-null   float64
 7   payment_value             2022 non-null   float64
 8   order_approved_at         2022 non-null   object 
 9   order_purchase_timestamp  2022 non-null   object 
dtypes: float64(4), int64(1), object(5)
memory usage: 158.1+ KB


Il metodo `info()` di un oggetto DataFrame di Pandas fornisce un riepilogo conciso del contenuto del DataFrame, mostrando dettagli utili per l'analisi preliminare del dataset. I parametri principali di `info()` sono:

- `verbose`: (default `None`) Se impostato su `True`, mostrerà tutte le colonne, altrimenti una vista abbreviata (utile per dataset di grandi dimensioni).
- `buf`: (default `None`) Specifica l'output su un oggetto come un file. Se impostato su `None`, l'output viene stampato sulla console.
- `max_cols`: (default `None`) Limita il numero di colonne da visualizzare nel riepilogo.
- `memory_usage`: (default `True`) Mostra l'uso della memoria del DataFrame. Può essere impostato su `'deep'` per avere una stima più precisa.

In [18]:
csv.info(verbose=True, memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2022 entries, 0 to 2021
Data columns (total 10 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   order_id                  2022 non-null   object 
 1   customer_state            2022 non-null   object 
 2   product_category_name     2022 non-null   object 
 3   product_weight_g          2022 non-null   float64
 4   review_score              2022 non-null   int64  
 5   price                     2022 non-null   float64
 6   freight_value             2022 non-null   float64
 7   payment_value             2022 non-null   float64
 8   order_approved_at         2022 non-null   object 
 9   order_purchase_timestamp  2022 non-null   object 
dtypes: float64(4), int64(1), object(5)
memory usage: 727.2 KB


## ``.describe()`` – Provides descriptive statistics for numeric columns

In [19]:
csv.describe()

Unnamed: 0,product_weight_g,review_score,price,freight_value,payment_value
count,2022.0,2022.0,2022.0,2022.0,2022.0
mean,1154.325915,4.01731,73.512992,15.884327,100.126632
std,2643.718753,1.381362,63.045769,9.318311,111.499859
min,50.0,1.0,2.99,0.0,0.22
25%,203.75,3.0,51.9,11.68,65.71
50%,350.0,5.0,58.99,15.15,76.65
75%,950.0,5.0,84.99,17.68,106.38
max,30000.0,5.0,1050.0,185.73,1525.78


Il metodo `describe()` è utilizzato in Pandas per generare statistiche descrittive di un DataFrame o di una Serie. Per impostazione predefinita, restituisce le statistiche per le colonne numeriche, ma può essere utilizzato anche per dati categorici. Ecco una panoramica dei principali parametri:

#### Principali Parametri di `describe()`

1. **`percentiles`**: Specifica i percentili che vuoi calcolare. Per impostazione predefinita, include il 25°, 50° (mediana) e il 75° percentile. Puoi specificare una lista di percentuali per ottenere valori personalizzati.
    - *Tipo*: array-like di numeri tra 0 e 1.
    - *Valore predefinito*: `[0.25, 0.5, 0.75]`.
2. **`include`**: Specifica quali tipi di dati includere nella descrizione. Può essere impostato su `None` (comportamento predefinito, solo colonne numeriche), `all` (tutti i tipi di dati) oppure su un elenco di tipi di dati come `['object']` o `['number']`.
    - *Valore predefinito*: `None`.
3. **`exclude`**: Specifica quali tipi di dati escludere dall'analisi. Funziona in modo complementare a `include`.

In [20]:
csv.describe(percentiles=[0.1, 0.9])

Unnamed: 0,product_weight_g,review_score,price,freight_value,payment_value
count,2022.0,2022.0,2022.0,2022.0,2022.0
mean,1154.325915,4.01731,73.512992,15.884327,100.126632
std,2643.718753,1.381362,63.045769,9.318311,111.499859
min,50.0,1.0,2.99,0.0,0.22
10%,200.0,1.0,21.0,8.72,29.56
50%,350.0,5.0,58.99,15.15,76.65
90%,2245.0,5.0,118.9,23.161,162.07
max,30000.0,5.0,1050.0,185.73,1525.78


In [21]:
csv.describe(include='all')

Unnamed: 0,order_id,customer_state,product_category_name,product_weight_g,review_score,price,freight_value,payment_value,order_approved_at,order_purchase_timestamp
count,2022,2022,2022,2022.0,2022.0,2022.0,2022.0,2022.0,2022,2022
unique,1735,27,21,,,,,,1734,1735
top,370e2e6c1a9fd451eb7f0852daa3b006,SP,beleza_saude,,,,,,2017-03-11 18:34:44,2017-03-11 18:34:44
freq,11,849,766,,,,,,11,11
mean,,,,1154.325915,4.01731,73.512992,15.884327,100.126632,,
std,,,,2643.718753,1.381362,63.045769,9.318311,111.499859,,
min,,,,50.0,1.0,2.99,0.0,0.22,,
25%,,,,203.75,3.0,51.9,11.68,65.71,,
50%,,,,350.0,5.0,58.99,15.15,76.65,,
75%,,,,950.0,5.0,84.99,17.68,106.38,,


## ``.dtypes`` – Returns data types of all columns

In [22]:
csv.dtypes

order_id                     object
customer_state               object
product_category_name        object
product_weight_g            float64
review_score                  int64
price                       float64
freight_value               float64
payment_value               float64
order_approved_at            object
order_purchase_timestamp     object
dtype: object

## ``.index`` – Returns the index (row labels) of the DataFrame

In [23]:
csv.index

RangeIndex(start=0, stop=2022, step=1)

## ``.value_counts()`` – Counts unique values in a column

In [24]:
csv.value_counts()

order_id                          customer_state  product_category_name   product_weight_g  review_score  price  freight_value  payment_value  order_approved_at    order_purchase_timestamp
2f839b79d9954ebfedeeba654f0f3de8  SP              telefonia               150.0             5             7.00   7.39           71.95          2018-03-26 14:50:21  2018-03-26 14:40:10         5
8a8bd4a338e17ace44431e99a2add1d2  DF              dvds_blu_ray            2150.0            5             83.99  18.17          20.00          2018-05-15 21:54:02  2018-05-15 21:31:55         5
58346246ea802a21cb34124ed2326770  SP              perfumaria              200.0             5             44.99  7.58           210.28         2018-07-11 17:25:53  2018-07-11 17:17:37         4
05fcd933547be81890bc4d62357fdf3f  SP              informatica_acessorios  300.0             1             89.90  12.13          408.12         2017-07-19 10:30:13  2017-07-19 10:17:34         4
84ddfd4c559558c53b5a4c6765e49be8  S

Il metodo `.value_counts()` in Pandas è utilizzato per ottenere una distribuzione delle occorrenze uniche dei valori in una Serie (o in una colonna di un DataFrame). È molto utile per esplorare i dati categorici o per comprendere la distribuzione dei valori in una colonna.

#### Principali Parametri di `.value_counts()`

1. **`normalize`**: Se impostato a `True`, restituisce le frequenze relative dei valori invece dei conteggi assoluti.
    - *Tipo*: booleano (`True` o `False`).
    - *Valore predefinito*: `False`.
2. **`sort`**: Specifica se ordinare i risultati in base ai conteggi (in ordine decrescente). Se impostato a `False`, non ordina i valori.
    - *Tipo*: booleano (`True` o `False`).
    - *Valore predefinito*: `True`.
3. **`ascending`**: Se impostato a `True`, ordina i risultati in ordine crescente.
    - *Tipo*: booleano (`True` o `False`).
    - *Valore predefinito*: `False`.
4. **`bins`**: Consente di suddividere i dati numerici in intervalli (binning).
    - *Tipo*: intero.
    - *Valore predefinito*: `None`.
5. **`dropna`**: Se impostato a `False`, include i valori `NaN` nel conteggio.
    - *Tipo*: booleano (`True` o `False`).
    - *Valore predefinito*: `True`.

In [25]:
csv.value_counts('customer_state', normalize=True).head(5)

customer_state
SP    0.419881
MG    0.124135
RJ    0.112760
RS    0.048467
BA    0.044510
Name: proportion, dtype: float64

In [26]:
csv.value_counts('customer_state', ascending=True).head()

customer_state
AC    1
RR    2
AP    3
TO    3
SE    5
Name: count, dtype: int64

In [27]:
csv.value_counts('customer_state', dropna=False).head()

customer_state
SP    849
MG    251
RJ    228
RS     98
BA     90
Name: count, dtype: int64

In [28]:
csv['price'].value_counts(bins=3)

(1.9420000000000002, 351.993]    2007
(351.993, 700.997]                 10
(700.997, 1050.0]                   5
Name: count, dtype: int64

## ``.isnull() / .notnull()`` – Checks for missing values

I metodi `.isnull()` e `.notnull()` in Pandas sono utilizzati per identificare i valori mancanti (o nulli) in un DataFrame o una Serie. Entrambi i metodi restituiscono un oggetto della stessa forma con valori booleani (`True` o `False`), che indicano rispettivamente la presenza o l'assenza di valori nulli.

#### `.isnull()`

Questo metodo identifica i valori `NaN` (Not a Number) o `None` come `True` e gli altri valori come `False`.

#### Esempio di utilizzo di `.isnull()`

In [29]:
csv.isnull()

Unnamed: 0,order_id,customer_state,product_category_name,product_weight_g,review_score,price,freight_value,payment_value,order_approved_at,order_purchase_timestamp
0,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...
2017,False,False,False,False,False,False,False,False,False,False
2018,False,False,False,False,False,False,False,False,False,False
2019,False,False,False,False,False,False,False,False,False,False
2020,False,False,False,False,False,False,False,False,False,False


- I `True` indicano la presenza di valori mancanti (nulli).

#### Uso comune: Conteggio dei Valori Nulli

Puoi usare `.isnull().sum()` per contare il numero di valori nulli in ogni colonna.

In [30]:
csv.isnull().sum()

order_id                    0
customer_state              0
product_category_name       0
product_weight_g            0
review_score                0
price                       0
freight_value               0
payment_value               0
order_approved_at           0
order_purchase_timestamp    0
dtype: int64

## `.notnull()`

Questo metodo è l'opposto di `.isnull()`, identificando i valori **non nulli** (ossia `NaN` e `None` sono marcati come `False`, mentre gli altri valori come `True`).

#### Esempio di utilizzo di `.notnull()`

In [31]:
csv.notnull()

Unnamed: 0,order_id,customer_state,product_category_name,product_weight_g,review_score,price,freight_value,payment_value,order_approved_at,order_purchase_timestamp
0,True,True,True,True,True,True,True,True,True,True
1,True,True,True,True,True,True,True,True,True,True
2,True,True,True,True,True,True,True,True,True,True
3,True,True,True,True,True,True,True,True,True,True
4,True,True,True,True,True,True,True,True,True,True
...,...,...,...,...,...,...,...,...,...,...
2017,True,True,True,True,True,True,True,True,True,True
2018,True,True,True,True,True,True,True,True,True,True
2019,True,True,True,True,True,True,True,True,True,True
2020,True,True,True,True,True,True,True,True,True,True


- I `True` indicano la presenza di valori **non** nulli.

#### Esempi pratici

1. **Filtrare i valori non nulli in una colonna**

In [32]:
df_non_null = csv[csv['product_category_name'].notnull()]
df_non_null.head()

Unnamed: 0,order_id,customer_state,product_category_name,product_weight_g,review_score,price,freight_value,payment_value,order_approved_at,order_purchase_timestamp
0,00010242fe8c5a6d1ba2dd792cb16214,RJ,cool_stuff,650.0,5,58.9,13.29,72.19,2017-09-13 09:45:35,2017-09-13 08:59:02
1,130898c0987d1801452a8ed92a670612,GO,cool_stuff,650.0,5,55.9,17.96,73.86,2017-06-29 02:44:11,2017-06-28 11:52:20
2,532ed5e14e24ae1f0d735b91524b98b9,MG,cool_stuff,650.0,4,64.9,18.33,83.23,2018-05-18 12:31:43,2018-05-18 10:25:53
3,6f8c31653edb8c83e1a739408b5ff750,PR,cool_stuff,650.0,5,58.9,16.17,75.07,2017-08-01 18:55:08,2017-08-01 18:38:42
4,7d19f4ef4d04461989632411b7e588b9,MG,cool_stuff,650.0,5,58.9,13.29,72.19,2017-08-10 22:05:11,2017-08-10 21:48:40


2. **Verificare se ci sono valori nulli nel DataFrame**

In [33]:
csv.isnull().values.any()

False

3. **Contare i valori non nulli in ogni colonna**

In [34]:
csv.notnull().sum()

order_id                    2022
customer_state              2022
product_category_name       2022
product_weight_g            2022
review_score                2022
price                       2022
freight_value               2022
payment_value               2022
order_approved_at           2022
order_purchase_timestamp    2022
dtype: int64

#### Differenza tra i due

- **`.isnull()`**: Restituisce `True` per i valori nulli.
- **`.notnull()`**: Restituisce `True` per i valori **non** nulli.

Questi metodi sono molto utili per gestire i valori mancanti nei dataset, una parte essenziale dell'analisi dei dati e della pulizia dei dati. Se hai altre domande, sono qui per aiutarti!

## ``.duplicated()`` – Checks for duplicate rows

Il metodo `.duplicated()` in Pandas è utilizzato per identificare le righe duplicate in un DataFrame o gli elementi duplicati in una Serie. Restituisce una Serie di valori booleani in cui `True` indica che una riga o un elemento è un duplicato di una precedente e `False` indica che non lo è.

#### Principali Parametri di `.duplicated()`

1. **`subset`**: Specifica le colonne su cui controllare i duplicati. Se non viene specificato, il controllo viene eseguito su tutte le colonne.
    - *Tipo*: lista di stringhe (nomi di colonne).
    - *Valore predefinito*: `None`.
2. **`keep`**: Determina quale duplicato (se ce ne sono) contrassegnare come `True`.
    - `"first"`: Marca tutte le duplicazioni successive come `True`, mantenendo il primo valore come unico (`False`).
    - `"last"`: Marca tutte le duplicazioni precedenti come `True`, mantenendo l'ultimo valore come unico (`False`).
    - `False`: Marca **tutti** i duplicati come `True`.
    - *Valore predefinito*: `"first"`.

#### Esempio di Utilizzo di `.duplicated()`

#### Esempio 1: Identificare le righe duplicate in un DataFrame

In [35]:
csv.duplicated()

0       False
1       False
2       False
3       False
4       False
        ...  
2017    False
2018    False
2019     True
2020    False
2021    False
Length: 2022, dtype: bool

#### Esempio 2: Utilizzare il parametro `keep`

In [36]:
# Mantenere solo l'ultima occorrenza come unica
csv.duplicated(keep='last')

0       False
1       False
2       False
3       False
4       False
        ...  
2017    False
2018     True
2019    False
2020    False
2021    False
Length: 2022, dtype: bool

- In questo caso, vengono mantenute le ultime occorrenze e le precedenti vengono considerate duplicate.

#### Esempio 3: Identificare i duplicati basandosi su colonne specifiche

In [37]:
csv.duplicated(subset='product_category_name')

0       False
1        True
2        True
3        True
4        True
        ...  
2017     True
2018     True
2019     True
2020     True
2021     True
Length: 2022, dtype: bool

#### Esempio 4: Marcatura di **tutti** i duplicati

In [38]:
csv.duplicated(keep=False)

0       False
1       False
2       False
3       False
4       False
        ...  
2017    False
2018     True
2019     True
2020    False
2021    False
Length: 2022, dtype: bool

##### `.duplicated()`

In [39]:
df_unique = csv.drop_duplicates()

## ``.nunique()`` – Counts the number of unique values per column

Il metodo `.nunique()` in Pandas viene utilizzato per contare il numero di valori unici (distinti) presenti in ogni colonna di un DataFrame o in una Serie. Questo è utile per avere una rapida panoramica della varietà di dati all'interno di ogni colonna.

#### Principali Parametri di `.nunique()`

1. **`axis`**: Specifica se contare i valori unici per colonne o per righe.
    - *Valore predefinito*: `0` o `'index'` (conteggio dei valori unici per colonna).
    - Se `axis=1` o `'columns'`, conta i valori unici per ogni riga.
2. **`dropna`**: Indica se escludere (`True`) o includere (`False`) i valori mancanti (NaN) nel conteggio.
    - *Valore predefinito*: `True` (esclude i valori mancanti).

#### Esempi di Utilizzo di `.nunique()`

#### Esempio 1: Contare i valori unici in un DataFrame

In [40]:
csv.nunique()

order_id                    1735
customer_state                27
product_category_name         21
product_weight_g             119
review_score                   5
price                        229
freight_value                572
payment_value                902
order_approved_at           1734
order_purchase_timestamp    1735
dtype: int64

#### Esempio 2: Contare i valori unici, inclusi i valori nulli

In [41]:
csv.nunique(dropna=False)

order_id                    1735
customer_state                27
product_category_name         21
product_weight_g             119
review_score                   5
price                        229
freight_value                572
payment_value                902
order_approved_at           1734
order_purchase_timestamp    1735
dtype: int64

#### Esempio 3: Contare i valori unici lungo le righe (con axis=1)

In [42]:
csv.nunique(axis=1)

0       10
1       10
2       10
3       10
4       10
        ..
2017    10
2018    10
2019    10
2020    10
2021    10
Length: 2022, dtype: int64

## ``.sample(n)`` – Randomly selects n rows from the DataFrame

Il metodo `.sample()` in Pandas viene utilizzato per estrarre un campione casuale di righe o colonne da un DataFrame o da una Serie. Può essere utile per esplorare una parte dei dati in modo casuale o per generare un sottocampione per l'analisi.

#### Principali Parametri di `.sample()`

1. **`n`**: Specifica il numero di elementi (righe o colonne) da campionare.
    - *Tipo*: intero.
    - Non può essere utilizzato contemporaneamente con il parametro `frac`.
2. **`frac`**: Specifica la frazione di elementi da campionare rispetto al totale.
    - *Tipo*: float, ad esempio `frac=0.5` campiona il 50% degli elementi.
    - Non può essere utilizzato insieme al parametro `n`.
3. **`replace`**: Se `True`, consente il campionamento con ripetizione (ossia, gli stessi elementi possono essere estratti più di una volta).
    - *Tipo*: booleano.
    - *Valore predefinito*: `False`.
4. **`weights`**: Determina le probabilità con cui ogni elemento è campionato. Può essere una colonna del DataFrame o un array-like di pesi.
    - *Tipo*: array-like o nome di colonna.
5. **`random_state`**: Un seme o seed per la generazione di numeri casuali, che rende il campionamento riproducibile.
    - *Tipo*: intero.
6. **`axis`**: Specifica se campionare righe o colonne.
    - `axis=0` o `'index'` per campionare righe (valore predefinito).
    - `axis=1` o `'columns'` per campionare colonne.

#### Esempi di Utilizzo di `.sample()`

#### Esempio 1: Campionare un numero fisso di righe

In [43]:
csv.sample(n=2)

Unnamed: 0,order_id,customer_state,product_category_name,product_weight_g,review_score,price,freight_value,payment_value,order_approved_at,order_purchase_timestamp
81,1a6c3832fcc2947c38b41bd24fe0201e,CE,cool_stuff,650.0,5,45.9,35.67,81.57,2017-06-30 15:50:15,2017-06-30 15:31:51
1165,807e1137296f0952dc5038aadf9d1f76,MG,perfumaria,200.0,2,53.99,15.13,69.12,2018-02-07 02:55:55,2018-02-06 16:33:24


#### Esempio 2: Campionare una frazione di righe

In [44]:
csv.sample(frac=0.5)

Unnamed: 0,order_id,customer_state,product_category_name,product_weight_g,review_score,price,freight_value,payment_value,order_approved_at,order_purchase_timestamp
427,9b643bf8a8614206d936530d416aef57,PR,audio,167.0,2,19.90,14.10,34.00,2017-11-22 11:54:27,2017-11-22 11:42:43
242,bde305d08669a1b46554c10f03a85675,RJ,pet_shop,7300.0,5,29.90,17.93,47.83,2018-05-08 01:11:58,2018-05-08 00:45:50
113,7c3e480eb90c173aae4ffde40bbaec26,SP,cool_stuff,575.0,5,58.90,21.32,142.57,2017-08-23 02:55:54,2017-08-22 10:14:07
760,5ef2b9c9a5e997664dcaacc5fa769e07,PR,beleza_saude,1500.0,5,164.90,16.36,181.26,2017-03-25 02:10:41,2017-03-23 23:55:55
981,2f839b79d9954ebfedeeba654f0f3de8,SP,telefonia,150.0,5,7.00,7.39,71.95,2018-03-26 14:50:21,2018-03-26 14:40:10
...,...,...,...,...,...,...,...,...,...,...
1041,57c2914d78f0d7f4b76089b7844e77ea,SP,perfumaria,550.0,3,84.99,8.79,93.78,2017-07-11 21:36:01,2017-07-11 20:58:08
1074,bca3dc20a3ec02261c5b17dc270e9e65,MG,perfumaria,550.0,5,84.99,16.35,101.34,2017-12-06 02:50:38,2017-12-05 10:34:52
1603,8092a1edb9b302ea942c2671edf4737c,SP,beleza_saude,200.0,2,58.99,13.07,72.06,2018-06-29 16:11:39,2018-06-29 15:27:05
1768,d339c3ad62c16e15e4c2f3e39abd1abb,RS,perfumaria,400.0,4,56.99,16.10,73.09,2017-04-15 11:55:08,2017-04-15 11:44:00


#### Esempio 3: Campionamento con ripetizione

In [45]:
csv.sample(n=4, replace=True)

Unnamed: 0,order_id,customer_state,product_category_name,product_weight_g,review_score,price,freight_value,payment_value,order_approved_at,order_purchase_timestamp
18,d829ae9ca5e0a9749f2574b62eb7ac10,BA,cool_stuff,530.0,5,55.9,27.99,167.51,2017-07-13 02:56:03,2017-07-12 12:04:28
448,3823f120a83e20af66f49d377207bbeb,SP,audio,200.0,3,14.9,8.29,23.19,2018-07-18 03:05:22,2018-07-17 18:18:59
977,2909debcb57debbbdfe7034eaf7b28bc,SP,telefonia,150.0,5,7.0,11.85,18.85,2017-06-13 04:43:07,2017-06-10 17:06:01
1869,aeefcf3435f9cc6db2c0b8019f17ca7f,SP,perfumaria,250.0,5,49.99,8.29,58.28,2018-03-23 18:30:42,2018-03-23 18:15:49


#### Esempio 4: Campionamento riproducibile usando random_state

In [46]:
csv.sample(n=2, random_state=42)

Unnamed: 0,order_id,customer_state,product_category_name,product_weight_g,review_score,price,freight_value,payment_value,order_approved_at,order_purchase_timestamp
674,b0e2da4433a10c624a9f71b187e93915,SP,beleza_saude,400.0,5,99.9,9.51,109.41,2017-05-07 02:10:12,2017-05-06 21:55:41
1384,b45d11b61c2a68756bbbd7665d67e812,MG,beleza_saude,250.0,4,89.99,16.39,106.38,2017-10-13 15:56:25,2017-10-11 21:55:04


#### Esempio 5: Campionare colonne invece di righe

In [47]:
csv.sample(n=1, axis=1)

Unnamed: 0,order_approved_at
0,2017-09-13 09:45:35
1,2017-06-29 02:44:11
2,2018-05-18 12:31:43
3,2017-08-01 18:55:08
4,2017-08-10 22:05:11
...,...
2017,2017-11-22 02:56:28
2018,2018-02-13 16:50:30
2019,2018-02-13 16:50:30
2020,2018-03-01 02:50:46


# 3. Selecting and Indexing Data

## `.iloc[]` – Accede a gruppi di righe e colonne tramite posizioni (basate su interi)

Il metodo `.iloc[]` di Pandas consente di selezionare dati da un DataFrame o da una Serie in base alla **posizione numerica degli indici (e delle colonne)**. È utile per accedere a righe e colonne utilizzando indici numerici anziché etichette.

### Principali parametri e utilizzi

1. **`.iloc[<indice_riga>]`**
    - Specifica la riga da selezionare.
    - Può essere un singolo numero, una lista, uno slice (es. `:`), o una condizione.
2. **`.iloc[:, <indice_colonna>]`**
    - Specifica la colonna da selezionare.
    - Analogamente, può essere un singolo numero, una lista, uno slice o una condizione.
3. **Combinazione righe/colonne:**
    - `.iloc[<indice_riga>, <indice_colonna>]` accede direttamente a una cella, riga o gruppo di righe e colonne.

---

### Esempi pratici

### Dati di esempio

```python
import pandas as pd

data = {
    "Nome": ["Alice", "Bob", "Charlie"],
    "Età": [25, 30, 35],
    "Città": ["Roma", "Milano", "Napoli"]
}

df = pd.DataFrame(data)
print(df)

```

```
      Nome  Età   Città
0    Alice   25    Roma
1      Bob   30  Milano
2  Charlie   35  Napoli

```

---

### 1. Selezione di una singola riga

```python
# Seleziona la prima riga (indice 0)
print(df.iloc[0])

```

```
Nome     Alice
Età         25
Città     Roma
Name: 0, dtype: object

```

---

### 2. Selezione di un intervallo di righe

```python
# Seleziona le prime due righe
print(df.iloc[0:2])

```

```
    Nome  Età   Città
0  Alice   25    Roma
1    Bob   30  Milano

```

---

### 3. Selezione di specifiche colonne

```python
# Seleziona tutte le righe e la seconda colonna (indice 1)
print(df.iloc[:, 1])

```

```
0    25
1    30
2    35
Name: Età, dtype: int64

```

---

### 4. Selezione di una specifica cella

```python
# Seleziona la cella in posizione [1, 2] (riga 1, colonna 2)
print(df.iloc[1, 2])

```

```
Milano

```

---

### 5. Utilizzo con liste di indici

```python
# Seleziona la prima e l'ultima riga
print(df.iloc[[0, 2]])

```

```
      Nome  Età   Città
0    Alice   25    Roma
2  Charlie   35  Napoli

```

---

### 6. Uso combinato di righe e colonne

```python
# Seleziona le prime due righe e la prima colonna
print(df.iloc[0:2, 0])

```

```
0    Alice
1      Bob
Name: Nome, dtype: object

```

## `.at[]` – Accede a un singolo valore tramite una coppia etichetta riga/colonna

Il metodo `.at[]` di Pandas consente di accedere velocemente e in modo efficiente a **una singola cella** in un DataFrame o a un singolo elemento in una Serie, utilizzando **etichette** di riga e colonna. È simile a `.loc[]`, ma è ottimizzato per accedere a **un solo valore alla volta**.

---

### Principali parametri

1. **`.at[<etichetta_riga>, <etichetta_colonna>]`**
    - **`<etichetta_riga>`**: l'etichetta della riga di interesse (non la posizione numerica).
    - **`<etichetta_colonna>`**: il nome della colonna da selezionare.
2. **Supporta solo accessi singoli**: non è possibile utilizzarlo per selezionare più righe o colonne contemporaneamente.

---

### Vantaggi di `.at[]`

- **Più veloce di `.loc[]`** quando si accede a un singolo elemento.
- Chiaro e leggibile per accessi puntuali a dati.

---

### Esempi pratici

### Dati di esempio

```python
import pandas as pd

data = {
    "Nome": ["Alice", "Bob", "Charlie"],
    "Età": [25, 30, 35],
    "Città": ["Roma", "Milano", "Napoli"]
}

df = pd.DataFrame(data, index=["a", "b", "c"])
print(df)

```

```
      Nome  Età   Città
a    Alice   25    Roma
b      Bob   30  Milano
c  Charlie   35  Napoli

```

---

### 1. Selezionare un valore specifico

```python
# Accedi al valore nella riga "b" e colonna "Città"
print(df.at["b", "Città"])

```

```
Milano

```

---

### 2. Modificare un valore

```python
# Cambia il valore nella riga "a" e colonna "Età"
df.at["a", "Età"] = 28
print(df)

```

```
      Nome  Età   Città
a    Alice   28    Roma
b      Bob   30  Milano
c  Charlie   35  Napoli

```

---

### 3. Usare `.at[]` con una Serie

Se lavori con una Serie, `.at[]` usa solo l'etichetta della riga:

```python
# Estrarre un elemento da una Serie
serie = df["Età"]
print(serie)

```

```
a    28
b    30
c    35
Name: Età, dtype: int64

```

```python
# Accedere a un valore specifico
print(serie.at["b"])

```

```
30

```

---

### Confronto con `.loc[]`

```python
# Con .loc[]
print(df.loc["b", "Città"])  # Milano

# Con .at[]
print(df.at["b", "Città"])   # Milano

```

- **Differenze:**
    - `.loc[]` supporta selezioni più complesse (es. intervalli, array booleani, ecc.).
    - `.at[]` è più veloce per selezioni puntuali.

## `.iat[]` – Accede a un singolo valore tramite una coppia posizione riga/colonna

Il metodo `.iat[]` di Pandas consente di accedere velocemente e in modo efficiente a **una singola cella** in un DataFrame o a un singolo elemento in una Serie, utilizzando **posizioni numeriche** di riga e colonna. È simile a `.iloc[]`, ma ottimizzato per accedere a **un solo valore alla volta**.

---

### Principali parametri

1. **`.iat[<indice_riga>, <indice_colonna>]`**
    - **`<indice_riga>`**: la posizione numerica della riga di interesse.
    - **`<indice_colonna>`**: la posizione numerica della colonna da selezionare.
2. **Accesso a un singolo valore alla volta**: non supporta intervalli o array, a differenza di `.iloc[]`.

---

### Vantaggi di `.iat[]`

- **Molto più veloce di `.iloc[]`** per l'accesso puntuale.
- Utilizza un approccio diretto per accedere o modificare un singolo valore tramite indici numerici.

---

### Esempi pratici

### Dati di esempio

```python
import pandas as pd

data = {
    "Nome": ["Alice", "Bob", "Charlie"],
    "Età": [25, 30, 35],
    "Città": ["Roma", "Milano", "Napoli"]
}

df = pd.DataFrame(data)
print(df)

```

```
      Nome  Età   Città
0    Alice   25    Roma
1      Bob   30  Milano
2  Charlie   35  Napoli

```

---

### 1. Selezionare un valore specifico

```python
# Accedi alla cella nella riga 1 e colonna 2
print(df.iat[1, 2])

```

```
Milano

```

---

### 2. Modificare un valore

```python
# Cambia il valore nella riga 0 e colonna 1
df.iat[0, 1] = 28
print(df)

```

```
      Nome  Età   Città
0    Alice   28    Roma
1      Bob   30  Milano
2  Charlie   35  Napoli

```

---

### 3. Usare `.iat[]` con una Serie

Quando si lavora con una Serie, `.iat[]` utilizza solo l'indice numerico della riga:

```python
# Estrarre una Serie
serie = df["Età"]
print(serie)

```

```
0    28
1    30
2    35
Name: Età, dtype: int64

```

```python
# Accedere a un valore specifico
print(serie.iat[2])

```

```
35

```

---

### Confronto con `.iloc[]`

```python
# Con .iloc[]
print(df.iloc[1, 2])  # Milano

# Con .iat[]
print(df.iat[1, 2])   # Milano

```

- **Differenze:**
    - `.iloc[]` può selezionare intervalli o array, `.iat[]` è limitato a un solo valore.
    - `.iat[]` è più veloce quando si accede a un singolo elemento.

## `.filter()` – Sottoseleziona il DataFrame in base alle etichette di riga/colonna

Il metodo `.filter()` di Pandas consente di selezionare righe o colonne da un DataFrame o da una Serie in base a specifici criteri, come nomi di etichette, pattern o altri metodi di filtraggio.

---

### Principali parametri

1. **`items`**:
    - Specifica un elenco di etichette (nomi di colonne o righe) da mantenere.
    - Utile quando sai esattamente quali etichette vuoi includere.
2. **`like`**:
    - Filtra etichette che contengono un determinato substring o pattern.
    - È case-sensitive.
3. **`regex`**:
    - Consente di filtrare usando un'espressione regolare (regex).
    - Fornisce maggiore flessibilità rispetto a `like`.
4. **`axis`**:
    - Specifica se applicare il filtro a righe o colonne:
        - `axis=0`: applica il filtro alle **righe**.
        - `axis=1`: applica il filtro alle **colonne**.

---

### Esempi pratici

### Dati di esempio

```python
import pandas as pd

data = {
    "Nome": ["Alice", "Bob", "Charlie"],
    "Età": [25, 30, 35],
    "Città": ["Roma", "Milano", "Napoli"],
    "Paese": ["Italia", "Italia", "Italia"]
}

df = pd.DataFrame(data)
print(df)

```

```
      Nome  Età   Città   Paese
0    Alice   25    Roma  Italia
1      Bob   30  Milano  Italia
2  Charlie   35  Napoli  Italia

```

---

### 1. Usare `items` per selezionare colonne specifiche

```python
# Seleziona le colonne "Nome" e "Città"
result = df.filter(items=["Nome", "Città"], axis=1)
print(result)

```

```
      Nome   Città
0    Alice    Roma
1      Bob  Milano
2  Charlie  Napoli

```

---

### 2. Usare `like` per selezionare colonne con una sottostringa

```python
# Seleziona colonne che contengono "tà"
result = df.filter(like="tà", axis=1)
print(result)

```

```
    Età   Città
0   25    Roma
1   30  Milano
2   35  Napoli

```

---

### 3. Usare `regex` per pattern più complessi

```python
# Seleziona colonne che terminano con "e"
result = df.filter(regex="e$", axis=1)
print(result)

```

```
      Nome   Paese
0    Alice  Italia
1      Bob  Italia
2  Charlie  Italia

```

---

### 4. Applicare `.filter()` alle righe

```python
# Seleziona righe con indici specifici
result = df.filter(items=[0, 2], axis=0)
print(result)

```

```
      Nome  Età   Città   Paese
0    Alice   25    Roma  Italia
2  Charlie   35  Napoli  Italia

```

---

### Quando utilizzare `.filter()`?

- Quando devi **selezionare colonne o righe** basandoti su un sottoinsieme di nomi o pattern.
- È utile in operazioni dinamiche, come quando non conosci i nomi precisi ma vuoi lavorare su un gruppo di colonne/righe che condividono un tratto comune.

## `.xs()` – Estrae sezioni trasversali da un MultiIndex

Il metodo `.xs()` di Pandas consente di accedere a **sottomatrici** o **valori specifici** da un DataFrame o una Serie multi-indice, utilizzando un'etichetta lungo un determinato livello di indice. È particolarmente utile quando si lavora con indici gerarchici (MultiIndex).

---

### Principali parametri

1. **`key`**:
    - Valore dell'etichetta nel livello dell'indice da selezionare.
2. **`axis`**:
    - Indica l'asse su cui applicare il filtro:
        - `axis=0` (predefinito): applica il filtro alle righe.
        - `axis=1`: applica il filtro alle colonne.
3. **`level`**:
    - Specifica il livello del MultiIndex (numerico o nome) su cui applicare il filtro.
4. **`drop_level`**:
    - Se `True` (default), rimuove il livello selezionato dal risultato.
    - Se `False`, il livello selezionato viene mantenuto.

---

### Esempi pratici

### Dati di esempio

```python
import pandas as pd

# Creare un DataFrame con un MultiIndex
index = pd.MultiIndex.from_tuples(
    [("A", 1), ("A", 2), ("B", 1), ("B", 2)],
    names=["Lettera", "Numero"]
)
data = {
    "Valore1": [10, 20, 30, 40],
    "Valore2": [100, 200, 300, 400]
}
df = pd.DataFrame(data, index=index)
print(df)

```

```
                 Valore1  Valore2
Lettera Numero
A       1            10      100
        2            20      200
B       1            30      300
        2            40      400

```

---

### 1. Filtrare righe per un valore di un livello

```python
# Selezionare tutte le righe dove il livello "Lettera" è "A"
result = df.xs(key="A", level="Lettera")
print(result)

```

```
        Valore1  Valore2
Numero
1            10      100
2            20      200

```

---

### 2. Filtrare righe per un valore di un livello senza rimuoverlo

```python
# Mantenere il livello "Lettera"
result = df.xs(key="A", level="Lettera", drop_level=False)
print(result)

```

```
                 Valore1  Valore2
Lettera Numero
A       1            10      100
        2            20      200

```

---

### 3. Filtrare colonne utilizzando `axis=1`

Se il MultiIndex è sulle colonne:

```python
# Creare un DataFrame con MultiIndex sulle colonne
columns = pd.MultiIndex.from_tuples(
    [("Categoria1", "Valore1"), ("Categoria1", "Valore2"), ("Categoria2", "Valore3")],
    names=["Categoria", "Tipo"]
)
df2 = pd.DataFrame([[10, 20, 30], [40, 50, 60]], columns=columns)
print(df2)

```

```
Categoria  Categoria1        Categoria2
Tipo        Valore1 Valore2    Valore3
0                10      20        30
1                40      50        60

```

```python
# Selezionare colonne dal livello "Categoria" con valore "Categoria1"
result = df2.xs(key="Categoria1", level="Categoria", axis=1)
print(result)

```

```
   Valore1  Valore2
0       10       20
1       40       50

```

---

### 4. Filtrare usando valori interni al livello

```python
# Selezionare tutte le righe dove il livello "Numero" è 1
result = df.xs(key=1, level="Numero")
print(result)

```

```
        Valore1  Valore2
Lettera
A            10      100
B            30      300

```

---

### Quando usare `.xs()`?

- Per lavorare con **MultiIndex** in modo efficiente, selezionando dati specifici lungo livelli di indici.
- È più chiaro e leggibile rispetto a combinazioni complesse di `.loc[]`.

## `.query()` – Filtra il DataFrame usando un'espressione in formato stringa

Il metodo `.query()` di Pandas consente di effettuare filtri su un DataFrame usando una sintassi simile al linguaggio SQL. È particolarmente utile per scrivere condizioni in modo leggibile e conciso, senza utilizzare esplicitamente gli operatori di indicizzazione come `.loc[]`.

---

### Principali parametri

1. **`expr`**:
    - L'espressione booleana da valutare per filtrare le righe. Può includere condizioni su colonne e operatori logici.
    - Esempi di operatori:
        - `&` per "AND"
        - `|` per "OR"
        - `==`, `!=`, `<`, `<=`, `>`, `>=`
2. **`inplace`** *(default: `False`)*:
    - Se impostato a `True`, modifica il DataFrame esistente invece di restituirne una copia.
3. **`engine`** *(default: `'python'`)*:
    - Specifica il motore per valutare l'espressione (`'python'` o `'numexpr'`).
4. **`parser`** *(opzionale)*:
    - Specifica il parser per l'espressione (`'pandas'` o `'python'`).
5. **`kwargs`**:
    - Altri argomenti per il motore scelto.

---

### Esempi pratici

### Dati di esempio

```python
import pandas as pd

data = {
    "Nome": ["Alice", "Bob", "Charlie", "Diana"],
    "Età": [25, 30, 35, 40],
    "Città": ["Roma", "Milano", "Napoli", "Torino"],
    "Salario": [50000, 60000, 55000, 70000]
}

df = pd.DataFrame(data)
print(df)

```

```
      Nome  Età   Città  Salario
0    Alice   25    Roma    50000
1      Bob   30  Milano    60000
2  Charlie   35  Napoli    55000
3    Diana   40  Torino    70000

```

---

### 1. Filtrare righe con una condizione semplice

Selezionare le righe in cui l'età è maggiore di 30:

```python
result = df.query("Età > 30")
print(result)

```

```
      Nome  Età   Città  Salario
2  Charlie   35  Napoli    55000
3    Diana   40  Torino    70000

```

---

### 2. Usare più condizioni con `&` e `|`

Selezionare le righe in cui l'età è maggiore di 30 **e** il salario è maggiore di 55000:

```python
result = df.query("Età > 30 & Salario > 55000")
print(result)

```

```
    Nome  Età   Città  Salario
3  Diana   40  Torino    70000

```

Selezionare righe in cui l'età è minore di 30 **o** la città è "Napoli":

```python
result = df.query("Età < 30 | Città == 'Napoli'")
print(result)

```

```
      Nome  Età   Città  Salario
0    Alice   25    Roma    50000
2  Charlie   35  Napoli    55000

```

---

### 3. Usare variabili esterne nel filtro

```python
# Variabile esterna
salario_minimo = 55000
result = df.query("Salario > @salario_minimo")
print(result)

```

```
      Nome  Età   Città  Salario
1      Bob   30  Milano    60000
3    Diana   40  Torino    70000

```

---

### 4. Filtrare righe basate su valori di stringhe

Selezionare righe in cui la città è "Milano" o "Roma":

```python
result = df.query("Città in ['Milano', 'Roma']")
print(result)

```

```
    Nome  Età   Città  Salario
0  Alice   25    Roma    50000
1    Bob   30  Milano    60000

```

---

### 5. Modificare il DataFrame in loco

Selezionare righe in cui l'età è maggiore di 30 e aggiornare il DataFrame originale:

```python
df.query("Età > 30", inplace=True)
print(df)

```

```
      Nome  Età   Città  Salario
2  Charlie   35  Napoli    55000
3    Diana   40  Torino    70000

```

---

### Quando utilizzare `.query()`?

- Quando vuoi scrivere condizioni in modo più leggibile rispetto a `.loc[]`.
- Per combinare più condizioni senza creare lunghi blocchi di codice.
- È utile in script dinamici, specialmente quando si usano variabili esterne.

## `.get()` – Recupera elementi da una Serie tramite chiave

Il metodo `.get()` è usato principalmente con oggetti **dizionario** (`dict`) in Python per accedere ai valori associati a una chiave, offrendo un modo sicuro per farlo senza rischiare errori se la chiave non esiste. È particolarmente utile per evitare l'errore `KeyError` che si verifica quando si tenta di accedere a una chiave inesistente usando la notazione delle parentesi quadre (`[]`).

---

### Principali parametri

1. **`key`** (obbligatorio):
    - La chiave che si desidera cercare nel dizionario.
2. **`default`** (opzionale):
    - Il valore da restituire se la chiave non esiste nel dizionario.
    - Se non specificato, il valore predefinito è `None`.

---

### Esempi pratici

### Dati di esempio

```python
# Un dizionario semplice
dizionario = {
    "nome": "Alice",
    "età": 30,
    "città": "Roma"
}

```

---

### 1. Recuperare il valore di una chiave esistente

```python
# Recuperare il valore associato alla chiave "nome"
valore = dizionario.get("nome")
print(valore)

```

```
Alice

```

---

### 2. Recuperare il valore di una chiave inesistente

Se la chiave non esiste, `.get()` restituisce il valore predefinito (`None` se non specificato):

```python
# Recuperare una chiave inesistente senza specificare un valore predefinito
valore = dizionario.get("professione")
print(valore)

```

```
None

```

---

### 3. Specificare un valore predefinito per chiavi inesistenti

```python
# Specificare un valore predefinito per una chiave inesistente
valore = dizionario.get("professione", "Sconosciuto")
print(valore)

```

```
Sconosciuto

```

---

### 4. Utilizzare `.get()` in un'operazione dinamica

```python
# Iterare su una lista di chiavi con valori predefiniti
chiavi = ["nome", "età", "professione"]
for chiave in chiavi:
    valore = dizionario.get(chiave, "Non disponibile")
    print(f"{chiave}: {valore}")

```

```
nome: Alice
età: 30
professione: Non disponibile

```

---

### 5. Differenza con `[]`

```python
# Usare [] per accedere a una chiave inesistente genera un errore
valore = dizionario["professione"]  # KeyError: 'professione'

```

Usando `.get()`:

```python
# Non genera errori
valore = dizionario.get("professione")
print(valore)

```

```
None

```

---

### Quando utilizzare `.get()`?

- Quando non sei sicuro che una chiave esista nel dizionario.
- Per fornire un valore predefinito per chiavi mancanti.
- Per evitare il rischio di eccezioni `KeyError` nel tuo codice.

## `.isin()` – Filtra righe in base alla presenza di valori in una lista

Il metodo `.isin()` di Pandas è utilizzato per verificare se gli elementi di una Serie o di un DataFrame appartengono a una lista, un array o una Serie di valori. Restituisce un oggetto di tipo booleano che indica per ogni elemento se è presente o meno nell'insieme di valori.

---

### Principali parametri

1. **`values`**:
    - La lista, l'array o la Serie di valori contro cui comparare gli elementi della Serie o del DataFrame.
    - Può essere una lista, un array NumPy, un oggetto Pandas `Series` o un dizionario.
2. **`level`** (opzionale):
    - Usato se si lavora con un DataFrame multi-indice. Permette di specificare il livello su cui eseguire il test.
3. **`dropna`** (opzionale, default: `True`):
    - Se impostato a `True`, ignora i valori `NaN` durante il confronto. Se impostato a `False`, considera i `NaN` come valori da confrontare.

---

### Esempi pratici

### Dati di esempio

```python
import pandas as pd

data = {
    "Nome": ["Alice", "Bob", "Charlie", "Diana"],
    "Età": [25, 30, 35, 40],
    "Città": ["Roma", "Milano", "Napoli", "Torino"]
}

df = pd.DataFrame(data)
print(df)

```

```
      Nome  Età   Città
0    Alice   25    Roma
1      Bob   30  Milano
2  Charlie   35  Napoli
3    Diana   40  Torino

```

---

### 1. Verificare se i valori di una colonna sono in una lista

Supponiamo di voler verificare se i valori della colonna "Città" sono tra "Roma" e "Milano":

```python
result = df["Città"].isin(["Roma", "Milano"])
print(result)

```

```
0     True
1     True
2    False
3    False
Name: Città, dtype: bool

```

---

### 2. Filtrare righe con `.isin()`

Usiamo `.isin()` per selezionare solo le righe in cui la città è "Roma" o "Milano":

```python
result = df[df["Città"].isin(["Roma", "Milano"])]
print(result)

```

```
    Nome  Età   Città
0  Alice   25    Roma
1    Bob   30  Milano

```

---

### 3. Verificare se i valori di più colonne appartengono a una lista

Puoi applicare `.isin()` su più colonne per eseguire un confronto su ciascuna di esse:

```python
result = df[["Nome", "Città"]].isin([["Alice", "Roma"], ["Bob", "Milano"]])
print(result)

```

```
    Nome  Città
0   True   True
1   True   True
2  False  False
3  False  False

```

---

### 4. Verifica per valori `NaN`

Se il DataFrame contiene valori `NaN`, puoi decidere se includerli nel confronto:

```python
df_with_nan = df.copy()
df_with_nan.loc[1, "Città"] = None  # Aggiungere un NaN

result = df_with_nan["Città"].isin(["Roma", "Milano"])
print(result)

```

```
0     True
1    False
2    False
3    False
Name: Città, dtype: bool

```

---

### 5. Utilizzare `.isin()` per selezionare più colonne

Supponiamo di voler verificare se i valori in entrambe le colonne "Nome" e "Città" appartengono a due liste:

```python
result = df[df["Nome"].isin(["Alice", "Bob"]) & df["Città"].isin(["Roma", "Milano"])]
print(result)

```

```
    Nome  Età   Città
0  Alice   25    Roma
1    Bob   30  Milano

```

---

### Quando utilizzare `.isin()`?

- Quando hai bisogno di verificare se i valori di una Serie o DataFrame appartengono a un insieme di valori.
- Per filtrare righe basandoti su una condizione di appartenenza a un insieme.
- Per confrontare facilmente una colonna o un gruppo di colonne con un insieme di valori predefiniti (come una lista o un array).

## `.where()` – Imposta valori in base a una condizione

Il metodo `.where()` in **Pandas** è utilizzato per applicare una condizione a un DataFrame o a una Serie. Restituisce un oggetto del tipo originale (DataFrame o Serie) in cui i valori che non soddisfano la condizione sono sostituiti con `NaN` (o un altro valore specificato). È particolarmente utile per mascherare o filtrare i dati, mantenendo la struttura originale, ma con la possibilità di cambiare o sostituire i valori che non soddisfano la condizione.

---

### Principali parametri

1. **`cond`** (obbligatorio):
    - Una condizione booleana (come un'espressione che restituisce `True` o `False`) che definisce quali valori devono essere mantenuti e quali devono essere sostituiti. La condizione può essere una Serie booleana, un array NumPy, o una condizione applicata direttamente alla colonna.
2. **`other`** (opzionale):
    - Il valore da sostituire nei punti in cui la condizione non è soddisfatta. Se non specificato, i valori verranno sostituiti con `NaN`.
3. **`inplace`** (opzionale, default: `False`):
    - Se `True`, modifica l'oggetto originale. Se `False` (default), viene restituito un nuovo oggetto con le modifiche.
4. **`axis`** (opzionale, default: `None`):
    - Indica se applicare la condizione lungo l'asse delle righe o delle colonne.

---

### Esempi pratici

### Dati di esempio

```python
import pandas as pd

data = {
    "Nome": ["Alice", "Bob", "Charlie", "Diana"],
    "Età": [25, 30, 35, 40],
    "Salario": [50000, 60000, 70000, 80000]
}

df = pd.DataFrame(data)
print(df)

```

```
      Nome  Età  Salario
0    Alice   25    50000
1      Bob   30    60000
2  Charlie   35    70000
3    Diana   40    80000

```

---

### 1. Sostituire i valori che non soddisfano una condizione con `NaN`

Ad esempio, vogliamo sostituire i valori della colonna "Salario" con `NaN` se sono inferiori a 70000:

```python
result = df["Salario"].where(df["Salario"] >= 70000)
print(result)

```

```
0     NaN
1     NaN
2  70000.0
3  80000.0
Name: Salario, dtype: float64

```

---

### 2. Sostituire i valori che non soddisfano la condizione con un altro valore

Possiamo sostituire i valori che non soddisfano la condizione con un altro valore, ad esempio 0:

```python
result = df["Salario"].where(df["Salario"] >= 70000, other=0)
print(result)

```

```
0    0
1    0
2    70000
3    80000
Name: Salario, dtype: int64

```

---

### 3. Applicare `.where()` a tutto un DataFrame

Se vogliamo applicare una condizione a tutte le colonne del DataFrame, possiamo farlo in modo simile:

```python
result = df.where(df >= 30)  # Mantieni solo valori >= 30
print(result)

```

```
      Nome   Età  Salario
0     NaN   25.0    NaN
1     NaN   30.0    NaN
2  Charlie   35.0  70000.0
3    Diana   40.0  80000.0

```

---

### 4. Utilizzare `inplace=True`

Se vogliamo modificare direttamente il DataFrame senza creare una copia, possiamo utilizzare `inplace=True`:

```python
df.where(df["Età"] > 30, inplace=True)
print(df)

```

```
      Nome   Età  Salario
0     NaN   NaN      NaN
1     NaN   NaN      NaN
2  Charlie  35.0  70000.0
3    Diana  40.0  80000.0

```

In questo caso, tutte le righe che non soddisfano la condizione (`Età > 30`) sono state sostituite con `NaN`.

---

### 5. Applicare la condizione su più colonne

Possiamo anche applicare condizioni su più colonne. Ad esempio, possiamo sostituire i valori di "Salario" con 0 se sono inferiori a 70000 e i valori di "Età" con 0 se sono inferiori a 30:

```python
df = df.where((df["Salario"] >= 70000) & (df["Età"] >= 30), other=0)
print(df)

```

```
      Nome   Età  Salario
0     0.0   0.0        0
1     0.0   0.0        0
2  Charlie   35.0  70000.0
3    Diana   40.0  80000.0

```

---

### Quando utilizzare `.where()`?

- Quando hai bisogno di applicare una condizione su un DataFrame o una Serie e vuoi mascherare o sostituire i valori che non soddisfano la condizione.
- Quando desideri mantenere la struttura dei dati (ad esempio, le dimensioni del DataFrame o della Serie) ma con valori sostituiti da `NaN` o un altro valore a tua scelta.
- Quando vuoi modificare in modo condizionale i dati senza alterare quelli che soddisfano la condizione.

## `.mask()` – Sostituisce valori dove una condizione è `True`

Il metodo `.mask()` in **Pandas** è simile al metodo `.where()`, ma con una differenza fondamentale: invece di mantenere i valori che soddisfano la condizione, `.mask()` sostituisce i valori che **non** soddisfano la condizione con un altro valore (come `NaN` o un valore personalizzato). In altre parole, applica una "maschera" che nasconde i valori che non rispettano una certa condizione, lasciando invariati quelli che la rispettano.

### Principali parametri

1. **`cond`** (obbligatorio):
    - Una condizione booleana che indica quali valori devono essere sostituiti. La condizione può essere una Serie booleana, un array NumPy o un'espressione che restituisce valori booleani.
2. **`other`** (opzionale):
    - Il valore con cui sostituire i valori che non soddisfano la condizione. Se non specificato, il valore di default è `NaN`.
3. **`inplace`** (opzionale, default: `False`):
    - Se impostato su `True`, modifica l'oggetto originale senza restituire una copia. Se impostato su `False` (default), restituisce una nuova Serie o DataFrame con i valori modificati.
4. **`axis`** (opzionale, default: `None`):
    - Indica l'asse lungo cui applicare la maschera (se usato con un DataFrame multi-indice).

---

### Esempi pratici

### Dati di esempio

```python
import pandas as pd

data = {
    "Nome": ["Alice", "Bob", "Charlie", "Diana"],
    "Età": [25, 30, 35, 40],
    "Salario": [50000, 60000, 70000, 80000]
}

df = pd.DataFrame(data)
print(df)

```

```
      Nome  Età  Salario
0    Alice   25    50000
1      Bob   30    60000
2  Charlie   35    70000
3    Diana   40    80000

```

---

### 1. Sostituire i valori che non soddisfano una condizione

Vogliamo sostituire i valori nella colonna "Salario" con `NaN` se sono inferiori a 70000:

```python
result = df["Salario"].mask(df["Salario"] < 70000)
print(result)

```

```
0     NaN
1     NaN
2  70000.0
3  80000.0
Name: Salario, dtype: float64

```

In questo caso, i valori inferiori a 70000 sono stati sostituiti con `NaN`.

---

### 2. Sostituire i valori che non soddisfano la condizione con un altro valore

Se vogliamo sostituire i valori che non soddisfano la condizione con un altro valore, ad esempio `0`, possiamo farlo così:

```python
result = df["Salario"].mask(df["Salario"] < 70000, other=0)
print(result)

```

```
0    0
1    0
2    70000
3    80000
Name: Salario, dtype: int64

```

In questo caso, i valori inferiori a 70000 sono stati sostituiti con `0`.

---

### 3. Applicare `.mask()` a tutto un DataFrame

Se vogliamo applicare una condizione a tutte le colonne del DataFrame e sostituire i valori che non soddisfano la condizione, possiamo farlo così:

```python
result = df.mask(df >= 30)
print(result)

```

```
      Nome   Età  Salario
0     NaN   NaN      NaN
1     NaN   NaN      NaN
2  Charlie   35.0  70000.0
3    Diana   40.0  80000.0

```

In questo caso, tutte le righe con valori inferiori a 30 sono state sostituite con `NaN`.

---

### 4. Utilizzare `inplace=True`

Per modificare direttamente il DataFrame originale senza creare una copia, possiamo usare `inplace=True`:

```python
df.mask(df["Età"] < 30, inplace=True)
print(df)

```

```
      Nome   Età  Salario
0     NaN   NaN      NaN
1     NaN   NaN      NaN
2  Charlie   35.0  70000.0
3    Diana   40.0  80000.0

```

Le righe con età inferiore a 30 sono state sostituite con `NaN` direttamente nel DataFrame `df`.

---

### 5. Applicare la maschera su più colonne

Possiamo applicare la maschera su più colonne contemporaneamente:

```python
df.mask((df["Salario"] < 70000) & (df["Età"] < 30), other=0, inplace=True)
print(df)

```

```
      Nome   Età  Salario
0    Alice   25    50000
1      Bob   30    60000
2  Charlie   35  70000.0
3    Diana   40  80000.0

```

In questo caso, la maschera sostituisce i valori di "Salario" con `0` se sono inferiori a 70000 e "Età" inferiore a 30.

---

### Quando utilizzare `.mask()`?

- Quando vuoi mascherare o nascondere i valori che non soddisfano una condizione, sostituendoli con un valore (ad esempio, `NaN` o un altro valore personalizzato).
- Quando desideri filtrare i dati in modo simile a `.where()`, ma con la logica invertita (mascherare invece che mantenere).
- Quando vuoi modificare direttamente il DataFrame o la Serie senza creare una copia (usando `inplace=True`).

## `.squeeze()` – Converte un DataFrame con una sola colonna in una Serie

Il metodo `.squeeze()` in **Pandas** è utilizzato per ridurre la dimensione di un oggetto DataFrame o Serie. Esso restituisce una versione "squeezed" dell'oggetto, cioè riduce le dimensioni quando possibile. Questo significa che, se un DataFrame ha una sola colonna o una sola riga, il risultato sarà una Serie invece di un DataFrame. Se non c'è una riduzione di dimensioni possibile (ad esempio, se l'oggetto ha più di una colonna o riga), l'oggetto rimarrà invariato.

### Principali parametri

1. **`axis`** (opzionale):
    - Se impostato su `0` (default), la riduzione avverrà lungo le righe (trasformando un DataFrame con una sola colonna in una Serie).
    - Se impostato su `1`, la riduzione avverrà lungo le colonne (trasformando un DataFrame con una sola riga in una Serie).
    - Se non è possibile ridurre l'oggetto lungo l'asse specificato, il risultato rimarrà invariato.

---

### Esempi pratici

### Dati di esempio

```python
import pandas as pd

data = {
    "Nome": ["Alice", "Bob", "Charlie"],
    "Età": [25, 30, 35],
}

df = pd.DataFrame(data)
print(df)

```

```
      Nome  Età
0    Alice   25
1      Bob   30
2  Charlie   35

```

---

### 1. Utilizzare `.squeeze()` su un DataFrame con una sola colonna

Se abbiamo un DataFrame con una sola colonna, `.squeeze()` trasformerà il DataFrame in una Serie:

```python
df_single_column = df[["Nome"]]  # DataFrame con una sola colonna
print(df_single_column)

squeezed = df_single_column.squeeze()
print(squeezed)

```

```
# DataFrame con una colonna
      Nome
0    Alice
1      Bob
2  Charlie

# Serie risultante
0      Alice
1        Bob
2    Charlie
Name: Nome, dtype: object

```

In questo caso, il DataFrame `df_single_column` è stato trasformato in una Serie contenente i nomi.

---

### 2. Utilizzare `.squeeze()` su un DataFrame con una sola riga

Se abbiamo un DataFrame con una sola riga, `.squeeze()` lo trasformerà in una Serie:

```python
df_single_row = df.iloc[0:1]  # DataFrame con una sola riga
print(df_single_row)

squeezed = df_single_row.squeeze()
print(squeezed)

```

```
# DataFrame con una riga
      Nome  Età
0    Alice   25

# Serie risultante
Nome    Alice
Età        25
dtype: object

```

In questo caso, il DataFrame con una sola riga è stato trasformato in una Serie con i valori delle colonne.

---

### 3. Utilizzare `.squeeze()` su una Serie

Se il DataFrame è già una Serie (ad esempio, una colonna estratta da un DataFrame), `.squeeze()` non cambierà nulla:

```python
series = df["Nome"]
print(series)

squeezed = series.squeeze()
print(squeezed)

```

```
# Serie
0      Alice
1        Bob
2    Charlie
Name: Nome, dtype: object

# La Serie resta invariata
0      Alice
1        Bob
2    Charlie
Name: Nome, dtype: object

```

---

### 4. Utilizzare `.squeeze()` per un DataFrame con più di una colonna

Se il DataFrame ha più di una colonna o più di una riga, il metodo `.squeeze()` non avrà alcun effetto:

```python
df_multiple_columns = df  # DataFrame con più di una colonna
squeezed = df_multiple_columns.squeeze()
print(squeezed)

```

```
# DataFrame originale (non cambia)
      Nome  Età
0    Alice   25
1      Bob   30
2  Charlie   35

```

In questo caso, il DataFrame con più di una colonna non verrà modificato.

---

### Quando utilizzare `.squeeze()`?

- Quando hai un DataFrame con una sola colonna o riga e desideri convertirlo automaticamente in una Serie, per ridurre la complessità dell'oggetto.
- Quando lavori con il risultato di operazioni che possono restituire DataFrame con una sola colonna o riga e desideri semplificarne la struttura.

# 4. Data Cleaning

## `.drop()` – Rimuove etichette specifiche da righe o colonne in un DataFrame

Il metodo `.drop()` di Pandas è usato per rimuovere righe o colonne da un DataFrame. Può essere utilizzato per rimuovere dati che non sono più necessari, come colonne obsolete o righe con valori che non servono all'analisi.

### Parametri principali:

1. **labels**:
    - Tipo: `str`, `list of str`
    - Descrizione: Specifica le etichette delle righe o delle colonne che si desidera rimuovere.
    - Esempio: `'colonna1'` o `['colonna1', 'colonna2']` per rimuovere più colonne.
2. **axis**:
    - Tipo: `int`, `str`
    - Descrizione: Indica se rimuovere righe (`axis=0` o `axis='index'`) o colonne (`axis=1` o `axis='columns'`).
    - Default: `axis=0` (per rimuovere righe).
    - Esempio: `axis=1` per rimuovere colonne, `axis=0` per rimuovere righe.
3. **inplace**:
    - Tipo: `bool`
    - Descrizione: Se impostato su `True`, l'operazione modifica il DataFrame originale senza restituirne una copia. Se impostato su `False` (comportamento predefinito), restituisce un nuovo DataFrame senza modificare quello originale.
    - Default: `False`.
    - Esempio: `inplace=True` se si desidera modificare il DataFrame direttamente.
4. **errors**:
    - Tipo: `{'raise', 'ignore'}`, default 'raise'
    - Descrizione: Se impostato su `'raise'` (predefinito), viene sollevata un'eccezione se le etichette non esistono. Se impostato su `'ignore'`, non viene sollevata alcuna eccezione se una o più etichette non vengono trovate.
    - Esempio: `errors='ignore'` per evitare eccezioni se le etichette non esistono.

### Esempi:

**1. Rimuovere una colonna dal DataFrame:**

```python
import pandas as pd

# Creazione di un DataFrame di esempio
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
})

# Rimuovi la colonna 'B'
df = df.drop('B', axis=1)
print(df)

```

**Output:**

```
   A  C
0  1  7
1  2  8
2  3  9

```

**2. Rimuovere più colonne:**

```python
df = df.drop(['A', 'C'], axis=1)
print(df)

```

**Output:**

```
Empty DataFrame
Columns: []
Index: [0, 1, 2]

```

**3. Rimuovere una riga dal DataFrame:**

```python
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
})

# Rimuovi la riga con l'indice 1
df = df.drop(1, axis=0)
print(df)

```

**Output:**

```
   A  B  C
0  1  4  7
2  3  6  9

```

**4. Modifica il DataFrame in loco (senza creare una copia):**

```python
df.drop('B', axis=1, inplace=True)
print(df)

```

**Output:**

```
   A  C
0  1  7
1  2  8
2  3  9

```

**5. Gestire l'errore se l'etichetta non esiste:**

```python
df = df.drop('D', axis=1, errors='ignore')
print(df)

```

**Output:**

```
   A  C
0  1  7
1  2  8
2  3  9

```

### Considerazioni finali:

- **Quando usarlo**: Utilizza `.drop()` quando desideri eliminare righe o colonne non necessarie da un DataFrame, ad esempio per rimuovere dati errati, fare pulizia o preparare il dataset per l'analisi.
- **Performance**: Se stai lavorando con un DataFrame molto grande e non hai bisogno di mantenere una copia, `inplace=True` può essere utile per evitare di creare una copia aggiuntiva in memoria.
- **Gestione degli errori**: Se non sei sicuro che una colonna o una riga esista, è una buona pratica usare `errors='ignore'` per evitare interruzioni non necessarie nel codice.

## `.dropna()` – Rimuove righe o colonne con valori mancanti

Il metodo `.dropna()` di Pandas è utilizzato per rimuovere righe o colonne che contengono valori mancanti (`NaN`). Questo è particolarmente utile quando si desidera rimuovere dati incompleti da un DataFrame per garantire che l'analisi successiva non venga influenzata da valori nulli.

### Parametri principali:

1. **axis**:
    - Tipo: `int` o `str`
    - Descrizione: Specifica se rimuovere righe (`axis=0` o `axis='index'`) o colonne (`axis=1` o `axis='columns'`).
    - Default: `axis=0` (per rimuovere righe).
    - Esempio: `axis=1` per rimuovere colonne, `axis=0` per rimuovere righe.
2. **how**:
    - Tipo: `{'any', 'all'}`, default `any`
    - Descrizione: Determina come deve essere gestito il valore mancante:
        - `'any'`: Rimuove la riga o la colonna se **qualsiasi** valore è `NaN`.
        - `'all'`: Rimuove la riga o la colonna solo se **tutti** i valori sono `NaN`.
    - Esempio: `how='all'` per rimuovere solo righe o colonne che contengono esclusivamente `NaN`.
3. **thresh**:
    - Tipo: `int`, default `None`
    - Descrizione: Richiede che almeno un certo numero di valori non `NaN` siano presenti. Se ad esempio si imposta `thresh=2` per rimuovere una riga, la riga verrà mantenuta solo se contiene almeno 2 valori non `NaN`.
    - Esempio: `thresh=2` per mantenere righe con almeno 2 valori non nulli.
4. **subset**:
    - Tipo: `array-like`, default `None`
    - Descrizione: Specifica le colonne su cui applicare l'operazione di rimozione dei valori mancanti. Se non specificato, l'operazione viene applicata a tutte le colonne.
    - Esempio: `subset=['colonna1', 'colonna2']` per rimuovere righe solo se i valori in queste colonne sono `NaN`.
5. **inplace**:
    - Tipo: `bool`
    - Descrizione: Se impostato su `True`, l'operazione modifica direttamente il DataFrame originale. Se impostato su `False` (comportamento predefinito), viene restituito un nuovo DataFrame senza modificare quello originale.
    - Default: `False`.
    - Esempio: `inplace=True` se desideri modificare il DataFrame direttamente.

### Esempi:

**1. Rimuovere righe con valori mancanti:**

```python
import pandas as pd

# Creazione di un DataFrame di esempio con valori mancanti
df = pd.DataFrame({
    'A': [1, 2, None, 4],
    'B': [None, 2, 3, 4],
    'C': [1, None, 3, 4]
})

# Rimuovere righe con almeno un valore mancante
df_cleaned = df.dropna(axis=0)
print(df_cleaned)

```

**Output:**

```
     A    B    C
3  4.0  4.0  4.0

```

**2. Rimuovere colonne con valori mancanti:**

```python
df_cleaned = df.dropna(axis=1)
print(df_cleaned)

```

**Output:**

```
     A
0  1.0
1  2.0
2  NaN
3  4.0

```

**3. Rimuovere righe dove tutte le colonne contengono valori mancanti:**

```python
df_cleaned = df.dropna(axis=0, how='all')
print(df_cleaned)

```

**Output:**

```
     A    B    C
0  1.0  NaN  1.0
1  2.0  2.0  NaN
2  NaN  3.0  3.0
3  4.0  4.0  4.0

```

**4. Mantenere righe con almeno 2 valori non nulli:**

```python
df_cleaned = df.dropna(axis=0, thresh=2)
print(df_cleaned)

```

**Output:**

```
     A    B    C
0  1.0  NaN  1.0
1  2.0  2.0  NaN
2  NaN  3.0  3.0
3  4.0  4.0  4.0

```

**5. Rimuovere righe con valori mancanti in colonne specifiche:**

```python
df_cleaned = df.dropna(axis=0, subset=['A', 'B'])
print(df_cleaned)

```

**Output:**

```
     A    B    C
1  2.0  2.0  NaN
2  NaN  3.0  3.0
3  4.0  4.0  4.0

```

**6. Modifica in loco (senza creare una copia):**

```python
df.dropna(axis=1, inplace=True)
print(df)

```

**Output:**

```
     A
0  1.0
1  2.0
2  NaN
3  4.0

```

### Considerazioni finali:

- **Quando usarlo**: Utilizza `.dropna()` quando i valori mancanti sono problematici per l'analisi o quando si desidera rimuovere righe o colonne incomplete per migliorare la qualità dei dati.
- **Performance**: Se il DataFrame è molto grande, l'uso di `inplace=True` può aiutare a risparmiare memoria, poiché evita di creare una copia del DataFrame.
- **Alternative**: Se i valori mancanti non sono troppi e non vuoi rimuoverli completamente, considera l'uso di metodi come `.fillna()` per sostituire i `NaN` con un valore di tua scelta, come la media o la mediana.
- **Attenzione**: Se usi `axis=0` (righe) e rimuovi troppe righe, il tuo dataset potrebbe diventare troppo piccolo. Assicurati che la rimozione dei `NaN` non comprometta troppo i tuoi dati.

## `.fillna()` – Sostituisce i valori mancanti con un valore specificato

Il metodo `.fillna()` di Pandas è utilizzato per sostituire i valori mancanti (`NaN`) in un DataFrame o una Serie con un valore specificato. È particolarmente utile quando si vuole riempire i dati mancanti con un valore di imputazione (come la media, la mediana, o un valore costante), per evitare che l'analisi venga influenzata dalla presenza di valori nulli.

### Parametri principali:

1. **value**:
    - Tipo: `scalar`, `dict`, `Series`, `DataFrame`
    - Descrizione: Specifica il valore con cui sostituire i valori mancanti. Può essere un singolo valore (ad esempio, un numero o una stringa) o una struttura di dati (come un dizionario o un DataFrame) che mappa le colonne ai valori da usare.
    - Esempio:
        - `value=0`: Sostituisce tutti i `NaN` con 0.
        - `value={'col1': 0, 'col2': 1}`: Sostituisce i `NaN` in `col1` con 0 e in `col2` con 1.
2. **axis**:
    - Tipo: `int`, `str`
    - Descrizione: Indica se applicare la sostituzione per righe (`axis=0` o `axis='index'`) o per colonne (`axis=1` o `axis='columns'`).
    - Default: `None`, che significa applicare il riempimento a tutte le righe e colonne.
    - Esempio: `axis=0` per riempire le righe, `axis=1` per riempire le colonne.
3. **method**:
    - Tipo: `{'ffill', 'bfill'}`, default `None`
    - Descrizione: Metodo di riempimento:
        - `'ffill'`: Propaga il valore precedente (forward fill).
        - `'bfill'`: Propaga il valore successivo (backward fill).
    - Esempio: `method='ffill'` per riempire i `NaN` con il valore precedente.
4. **limit**:
    - Tipo: `int`, default `None`
    - Descrizione: Limita il numero di valori da riempire. Se ad esempio si imposta `limit=1`, solo il primo valore mancante verrà sostituito.
    - Esempio: `limit=1` per riempire solo il primo valore `NaN`.
5. **inplace**:
    - Tipo: `bool`, default `False`
    - Descrizione: Se impostato su `True`, l'operazione modifica il DataFrame originale senza restituirne una copia. Se impostato su `False` (comportamento predefinito), viene restituito un nuovo DataFrame con i valori riempiti.
    - Esempio: `inplace=True` se si desidera modificare direttamente il DataFrame senza creare una copia.
6. **regex** (disponibile in alcune versioni di Pandas):
    - Tipo: `bool` o `str`
    - Descrizione: Se è un'espressione regolare, il riempimento avviene solo sulle colonne che soddisfano il pattern regex.
    - Esempio: `regex=True` per fare il riempimento basato su pattern.

### Esempi:

**1. Sostituire tutti i valori `NaN` con un valore costante (ad esempio, 0):**

```python
import pandas as pd

# Creazione di un DataFrame con valori mancanti
df = pd.DataFrame({
    'A': [1, None, 3, None],
    'B': [None, 2, None, 4],
    'C': [1, 2, 3, 4]
})

# Sostituire tutti i NaN con 0
df_filled = df.fillna(0)
print(df_filled)

```

**Output:**

```
     A    B  C
0  1.0  0.0  1
1  0.0  2.0  2
2  3.0  0.0  3
3  0.0  4.0  4

```

**2. Sostituire i valori `NaN` in colonne specifiche con valori diversi:**

```python
df_filled = df.fillna({'A': 0, 'B': 1})
print(df_filled)

```

**Output:**

```
     A    B  C
0  1.0  1.0  1
1  0.0  2.0  2
2  3.0  1.0  3
3  0.0  4.0  4

```

**3. Sostituire i `NaN` con il valore precedente (forward fill):**

```python
df_filled = df.fillna(method='ffill')
print(df_filled)

```

**Output:**

```
     A    B  C
0  1.0  NaN  1
1  1.0  2.0  2
2  3.0  2.0  3
3  3.0  4.0  4

```

**4. Sostituire i `NaN` con il valore successivo (backward fill):**

```python
df_filled = df.fillna(method='bfill')
print(df_filled)

```

**Output:**

```
     A    B  C
0  1.0  2.0  1
1  3.0  2.0  2
2  3.0  4.0  3
3  3.0  4.0  4

```

**5. Limite sul numero di sostituzioni (ad esempio, sostituire solo 1 valore `NaN`):**

```python
df_filled = df.fillna(0, limit=1)
print(df_filled)

```

**Output:**

```
     A    B  C
0  1.0  0.0  1
1  0.0  2.0  2
2  3.0  NaN  3
3  0.0  4.0  4

```

**6. Modifica in loco (senza creare una copia):**

```python
df.fillna(0, inplace=True)
print(df)

```

**Output:**

```
     A    B  C
0  1.0  0.0  1
1  0.0  2.0  2
2  3.0  0.0  3
3  0.0  4.0  4

```

### Considerazioni finali:

- **Quando usarlo**: Utilizza `.fillna()` quando i valori mancanti sono frequenti e vuoi riempirli con un valore significativo per l'analisi. Questo è utile quando i `NaN` potrebbero compromettere il processo di modellizzazione o l'analisi statistica.
- **Sostituzione con la media/mediana**: Una strategia comune è sostituire i `NaN` con la **media** o **mediana** della colonna, specialmente nei modelli di machine learning.
- **Metodo di propagazione**: Quando hai dati sequenziali (come serie temporali), il riempimento con valori precedenti (`ffill`) o successivi (`bfill`) può essere utile per evitare di introdurre distorsioni nei dati.
- **Attenzione**: Quando riempi i `NaN`, verifica che il valore scelto non distorca troppo l'analisi. Ad esempio, riempire con valori di media o mediana può mascherare informazioni utili. Considera anche l'uso di altre tecniche di imputazione se i `NaN` sono presenti in modo non casuale o se la sostituzione con un valore costante non è adeguata.

## `.replace()` – Sostituisce valori nel DataFrame

Il metodo `.replace()` di Pandas viene utilizzato per sostituire i valori in un DataFrame o in una Serie con altri valori specificati. È un'operazione molto utile quando si desidera modificare i dati in modo selettivo, come sostituire valori errati, sostituire categorie numeriche con etichette o altre trasformazioni simili.

### Parametri principali:

1. **to_replace**:
    - Tipo: `scalar`, `dict`, `list`, `Series`, o `DataFrame`
    - Descrizione: Il valore o i valori da sostituire. Può essere un singolo valore (come un numero o una stringa), una lista o un dizionario che mappa i valori da sostituire nelle colonne o righe specifiche.
    - Esempio: `to_replace=1` per sostituire tutte le occorrenze di 1.
2. **value**:
    - Tipo: `scalar`, `dict`, `list`, `Series`, o `DataFrame`
    - Descrizione: I nuovi valori con cui sostituire quelli indicati in `to_replace`. Se `to_replace` è un dizionario, anche `value` deve essere un dizionario che mappa le colonne o le righe ai nuovi valori.
    - Esempio: `value=10` per sostituire ogni occorrenza di `1` con `10`.
3. **inplace**:
    - Tipo: `bool`, default `False`
    - Descrizione: Se impostato su `True`, l'operazione modifica il DataFrame originale senza restituirne una copia. Se impostato su `False`, viene restituito un nuovo DataFrame con i valori sostituiti.
    - Esempio: `inplace=True` per modificare direttamente il DataFrame senza creare una copia.
4. **regex**:
    - Tipo: `bool` o `str`
    - Descrizione: Se impostato su `True` o su una stringa (espressione regolare), `.replace()` applicherà il valore di sostituzione a tutte le occorrenze che corrispondono al pattern regex fornito.
    - Esempio: `regex=True` per cercare e sostituire valori che corrispondono a un pattern.
5. **method**:
    - Tipo: `{'pad', 'ffill', 'bfill'}`, default `None`
    - Descrizione: Metodo per riempire i valori mancanti, quando è utilizzato in combinazione con `to_replace` e `value` che sono `NaN` o valori nulli. I metodi disponibili sono:
        - `'pad'` o `'ffill'`: Propaga il valore precedente.
        - `'bfill'`: Propaga il valore successivo.
    - Esempio: `method='ffill'` per riempire i `NaN` con il valore precedente.
6. **limit**:
    - Tipo: `int`, default `None`
    - Descrizione: Limita il numero di sostituzioni che devono essere effettuate. Questo è utile se vuoi sostituire solo un numero specifico di occorrenze.
    - Esempio: `limit=2` per sostituire solo le prime due occorrenze di `to_replace`.

### Esempi:

**1. Sostituire un valore singolo con un altro valore:**

```python
import pandas as pd

# Creazione di un DataFrame
df = pd.DataFrame({
    'A': [1, 2, 3, 4, 1],
    'B': [1, 1, 2, 2, 3]
})

# Sostituire 1 con 10 in tutto il DataFrame
df_replaced = df.replace(1, 10)
print(df_replaced)

```

**Output:**

```
    A   B
0  10  10
1   2  10
2   3   2
3   4   2
4  10   3

```

**2. Sostituire valori specifici in colonne diverse:**

```python
df_replaced = df.replace({'A': {1: 100, 4: 400}, 'B': {1: 10, 2: 20}})
print(df_replaced)

```

**Output:**

```
     A   B
0  100  10
1    2  10
2    3  20
3    4  20
4  400   3

```

**3. Sostituire più valori contemporaneamente con un dizionario:**

```python
df_replaced = df.replace({1: 100, 2: 200, 3: 300})
print(df_replaced)

```

**Output:**

```
     A    B
0  100  100
1  200  100
2  300  200
3    4  200
4  100  300

```

**4. Usare una lista di valori da sostituire con una lista di nuovi valori:**

```python
df_replaced = df.replace([1, 2, 3], [10, 20, 30])
print(df_replaced)

```

**Output:**

```
     A    B
0   10   10
1   20   10
2   30   20
3    4   20
4   10   30

```

**5. Sostituire usando espressioni regolari:**

```python
df_replaced = df.replace(r'^1$', 100, regex=True)
print(df_replaced)

```

**Output:**

```
     A    B
0  100  100
1    2  100
2    3    2
3    4    2
4  100    3

```

**6. Sostituire valori mancanti (`NaN`) con un valore specificato:**

```python
df = pd.DataFrame({
    'A': [1, 2, None, 4],
    'B': [None, 2, 3, 4]
})

# Sostituire i NaN con 0
df_filled = df.replace({None: 0})
print(df_filled)

```

**Output:**

```
     A  B
0  1.0  0
1  2.0  2
2  0.0  3
3  4.0  4

```

### Considerazioni finali:

- **Quando usarlo**: Usa `.replace()` quando hai bisogno di sostituire specifici valori in un DataFrame o una Serie, come per correggere errori nei dati, trasformare categorie numeriche in etichette o fare una mappatura di valori. È anche utile quando lavori con dati di testo o quando i dati contengono valori speciali che devono essere standardizzati.
- **Sostituzione selettiva**: `.replace()` è più utile quando vuoi essere selettivo nel sostituire solo determinati valori, come ad esempio valori specifici in determinate colonne o righe, rispetto ad altri metodi di sostituzione come `.fillna()` o `.dropna()`, che sono più generali.
- **Regex e `to_replace`**: L'uso di espressioni regolari è utile quando i valori da sostituire seguono uno schema complesso e non sono semplici valori costanti.
- **Limitazione delle sostituzioni**: Il parametro `limit` è utile se hai bisogno di sostituire solo un numero limitato di valori, per esempio quando hai valori ripetitivi e non vuoi modificare tutti i casi.
- **Inplace**: L'opzione `inplace=True` è molto utile se vuoi modificare direttamente il DataFrame originale senza creare una copia, ma fai attenzione a non alterare i dati originali se hai bisogno di conservarli per future analisi.

## `.rename()` – Rinomina colonne o indici

Il metodo `.rename()` di Pandas permette di rinominare le etichette delle righe (indici) o delle colonne di un DataFrame. È utile quando si desidera cambiare i nomi in modo selettivo o quando si lavora con dataset che contengono nomi di colonne non chiari o che necessitano di una standardizzazione.

### Parametri principali:

1. **columns**:
    - Tipo: `dict`, opzionale
    - Descrizione: Un dizionario che mappa i vecchi nomi delle colonne ai nuovi nomi. Se passato, solo le colonne indicate nel dizionario verranno rinominate.
    - Esempio: `columns={'old_name': 'new_name'}`.
2. **index**:
    - Tipo: `dict`, opzionale
    - Descrizione: Un dizionario che mappa i vecchi nomi degli indici ai nuovi nomi. Se passato, solo gli indici indicati nel dizionario verranno rinominati.
    - Esempio: `index={0: 'row1', 1: 'row2'}`.
3. **inplace**:
    - Tipo: `bool`, default `False`
    - Descrizione: Se impostato su `True`, modifica direttamente il DataFrame senza restituire una copia modificata. Se impostato su `False` (comportamento predefinito), viene restituito un nuovo DataFrame con i nomi aggiornati.
    - Esempio: `inplace=True` per aggiornare direttamente il DataFrame originale.
4. **level**:
    - Tipo: `int`, `str`, o `tuple`, opzionale
    - Descrizione: Specifica il livello da rinominare, se il DataFrame ha un MultiIndex. Se il DataFrame è a più livelli, questo parametro può essere usato per rinominare solo un livello specifico.
    - Esempio: `level=0` per rinominare solo il livello 0.
5. **axis**:
    - Tipo: `int` o `str`, opzionale
    - Descrizione: Specifica se rinominare le colonne (`axis=1` o `axis='columns'`) o gli indici (`axis=0` o `axis='index'`). Questo parametro è utile quando si vuole cambiare i nomi degli indici senza cambiare quelli delle colonne.
    - Esempio: `axis=1` per rinominare le colonne.

### Esempi:

**1. Rinominare colonne specifiche:**

```python
import pandas as pd

# Creazione di un DataFrame
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
})

# Rinominare le colonne 'A' e 'B'
df_renamed = df.rename(columns={'A': 'Alpha', 'B': 'Beta'})
print(df_renamed)

```

**Output:**

```
   Alpha  Beta  C
0      1     4  7
1      2     5  8
2      3     6  9

```

**2. Rinominare gli indici (righe):**

```python
df_renamed = df.rename(index={0: 'row_1', 1: 'row_2', 2: 'row_3'})
print(df_renamed)

```

**Output:**

```
      A  B  C
row_1  1  4  7
row_2  2  5  8
row_3  3  6  9

```

**3. Rinominare sia indici che colonne:**

```python
df_renamed = df.rename(index={0: 'row_1', 1: 'row_2'}, columns={'A': 'Alpha'})
print(df_renamed)

```

**Output:**

```
      Alpha  B  C
row_1     1  4  7
row_2     2  5  8
2         3  6  9

```

**4. Modificare direttamente il DataFrame usando `inplace=True`:**

```python
df.rename(columns={'A': 'Alpha', 'B': 'Beta'}, inplace=True)
print(df)

```

**Output:**

```
   Alpha  Beta  C
0      1     4  7
1      2     5  8
2      3     6  9

```

**5. Rinominare colonne in un DataFrame a più livelli (MultiIndex):**

```python
# Creazione di un DataFrame con MultiIndex
df_multi = pd.DataFrame({
    ('A', 'X'): [1, 2, 3],
    ('A', 'Y'): [4, 5, 6],
    ('B', 'X'): [7, 8, 9]
})

# Rinominare un livello del MultiIndex
df_multi_renamed = df_multi.rename(columns={('A', 'X'): ('Alpha', 'X')})
print(df_multi_renamed)

```

**Output:**

```
   (Alpha, X)  (A, Y)  (B, X)
0           1       4       7
1           2       5       8
2           3       6       9

```

### Considerazioni finali:

- **Quando usarlo**: Usa `.rename()` quando devi cambiare i nomi delle colonne o degli indici per rendere il tuo DataFrame più leggibile o standardizzato. Questo metodo è utile quando hai bisogno di rinominare solo alcune colonne o righe, invece di cambiare tutti i nomi del DataFrame.
- **Inplace vs nuovo DataFrame**: Se vuoi evitare di creare una nuova variabile, puoi usare `inplace=True`. Tuttavia, fai attenzione quando utilizzi questa opzione, perché modifica direttamente il DataFrame originale.
- **Uso con MultiIndex**: Quando lavori con DataFrame a più livelli (MultiIndex), `.rename()` ti permette di rinominare sia i livelli degli indici che delle colonne. In questo caso, puoi specificare esattamente quali livelli vuoi modificare.
- **Rinominare selettivamente**: È molto utile per rinominare solo una parte delle colonne o degli indici, piuttosto che dover rinominare tutto il DataFrame.

## `.interpolate()` – Sostituisce valori NaN con valori interpolati

Il metodo `.interpolate()` di Pandas è utilizzato per riempire i valori `NaN` (Not a Number) in un DataFrame o in una Serie con valori interpolati, cioè stimati in base ai dati circostanti. È una tecnica comune nel trattamento dei dati mancanti quando si vuole preservare la tendenza o il pattern dei dati senza introdurre valori arbitri.

### Parametri principali:

1. **method**:
    - Tipo: `str`, opzionale
    - Descrizione: Specifica il metodo di interpolazione da utilizzare. I metodi più comuni sono:
        - `'linear'`: Interpolazione lineare (default).
        - `'polynomial'`: Interpolazione polinomiale, richiede il parametro `order`.
        - `'spline'`: Interpolazione a splines, richiede il parametro `order`.
        - `'barycentric'`: Interpolazione baricentrica.
        - `'pchip'`: Interpolazione di tipo PCHIP (Piecewise Cubic Hermite Interpolating Polynomial).
        - `'nearest'`, `'zero'`, `'slinear'`, ecc.
    - Esempio: `method='linear'`.
2. **axis**:
    - Tipo: `int`, opzionale
    - Descrizione: Indica l'asse lungo il quale effettuare l'interpolazione:
        - `axis=0` per interpolare lungo le righe (default).
        - `axis=1` per interpolare lungo le colonne.
    - Esempio: `axis=1`.
3. **limit**:
    - Tipo: `int`, opzionale
    - Descrizione: Limita il numero massimo di valori `NaN` che possono essere sostituiti. Se non specificato, il metodo interpolerà tutti i valori `NaN`.
    - Esempio: `limit=2`.
4. **limit_direction**:
    - Tipo: `str`, opzionale
    - Descrizione: Definisce la direzione in cui applicare l'interpolazione:
        - `'forward'`: Interpolazione solo dai valori precedenti.
        - `'backward'`: Interpolazione solo dai valori successivi.
        - `'both'`: Interpolazione in entrambe le direzioni (predefinito).
    - Esempio: `limit_direction='forward'`.
5. **limit_area**:
    - Tipo: `str`, opzionale
    - Descrizione: Limita l'area su cui eseguire l'interpolazione:
        - `'inside'`: Interpolazione solo tra i valori numerici.
        - `'outside'`: Interpolazione solo per i valori esterni.
    - Esempio: `limit_area='inside'`.
6. **order**:
    - Tipo: `int`, opzionale
    - Descrizione: Usato con il metodo `'polynomial'` o `'spline'`, specifica l'ordine del polinomio o il grado del spline.
    - Esempio: `order=3` per un polinomio di terzo grado.
7. **downcast**:
    - Tipo: `bool`, opzionale
    - Descrizione: Se impostato su `True`, tenta di fare il "downcast" dei tipi di dati dopo l'interpolazione.
    - Esempio: `downcast=True`.

### Esempi:

**1. Interpolazione lineare (default):**

```python
import pandas as pd
import numpy as np

# Creazione di un DataFrame con valori NaN
data = {'A': [1, 2, np.nan, 4, 5],
        'B': [10, np.nan, 30, 40, 50]}
df = pd.DataFrame(data)

# Interpolazione lineare per riempire i valori NaN
df_interpolated = df.interpolate(method='linear')
print(df_interpolated)

```

**Output:**

```
     A     B
0  1.0  10.0
1  2.0  20.0
2  3.0  30.0
3  4.0  40.0
4  5.0  50.0

```

In questo caso, i valori `NaN` vengono riempiti tramite interpolazione lineare, ossia, il valore intermedio è calcolato come una media ponderata tra i valori precedenti e successivi.

**2. Interpolazione polinomiale (di ordine 2):**

```python
df_interpolated = df.interpolate(method='polynomial', order=2)
print(df_interpolated)

```

**Output:**

```
          A     B
0  1.000000  10.0
1  2.000000  20.0
2  3.000000  30.0
3  4.000000  40.0
4  5.000000  50.0

```

Qui, i valori `NaN` vengono riempiti utilizzando un polinomio di secondo grado che si adatta ai dati disponibili.

**3. Interpolazione solo in avanti:**

```python
df_interpolated = df.interpolate(method='linear', limit_direction='forward')
print(df_interpolated)

```

**Output:**

```
     A     B
0  1.0  10.0
1  2.0  20.0
2  3.0  30.0
3  4.0  40.0
4  5.0  50.0

```

In questo esempio, l'interpolazione avviene solo dai valori precedenti (in avanti) e non vengono utilizzati i dati successivi.

**4. Interpolazione limitata (2 valori al massimo):**

```python
df_interpolated = df.interpolate(method='linear', limit=2)
print(df_interpolated)

```

**Output:**

```
     A     B
0  1.0  10.0
1  2.0  20.0
2  3.0  30.0
3  4.0  40.0
4  5.0  50.0

```

In questo caso, vengono interpolati al massimo 2 valori `NaN`.

### Considerazioni finali:

- **Quando usarlo**: `.interpolate()` è utile quando si desidera riempire i valori `NaN` in un dataset in modo intelligente, mantenendo la tendenza e la coerenza dei dati. L'interpolazione è particolarmente utile per serie temporali, dove è importante preservare le relazioni tra i dati in sequenza.
- **Vantaggi**:
    - Permette di gestire valori mancanti senza ricorrere alla sostituzione con valori arbitrari (ad esempio, la media o la mediana).
    - È possibile scegliere tra vari metodi di interpolazione in base alla natura dei dati.
- **Svantaggi**:
    - L'interpolazione potrebbe non essere sempre appropriata per tutti i tipi di dati, ad esempio, se i dati sono altamente non lineari o contengono outlier significativi.
    - Può introdurre distorsioni se non viene scelto il metodo giusto.
- **Uso**:
    - Usa l'interpolazione quando hai dei valori `NaN` nei tuoi dati e desideri un riempimento basato sulla tendenza dei dati esistenti. È particolarmente utile in contesti di analisi di serie temporali o dati continui.
    - Evita di usarla quando i dati mancanti sono troppo numerosi o se l'interpolazione rischia di distorcere i risultati, come nei dati categorici o altamente discontinuativi.

## `.bfill()` / `.ffill()` – Riempimento all'indietro o in avanti dei valori NaN

I metodi `.bfill()` e `.ffill()` di Pandas vengono utilizzati per riempire i valori mancanti (`NaN`) nei DataFrame o nelle Serie. Questi metodi sono utili per completare i dati in modo rapido e intuitivo, utilizzando i valori circostanti.

### 1. **`.ffill()` (Forward Fill)**:

Il metodo **forward fill** riempie i valori `NaN` con il valore precedente nella stessa colonna o riga. In altre parole, se un valore `NaN` viene trovato, il valore non `NaN` più vicino prima di esso viene copiato al posto del `NaN`.

### Parametri principali:

- **axis**:
    - Tipo: `int`, opzionale
    - Descrizione: Specifica lungo quale asse applicare il riempimento.
        - `axis=0` per applicare lungo le righe (default).
        - `axis=1` per applicare lungo le colonne.
- **limit**:
    - Tipo: `int`, opzionale
    - Descrizione: Limita il numero di valori `NaN` da riempire.
- **inplace**:
    - Tipo: `bool`, opzionale
    - Descrizione: Se `True`, modifica il DataFrame in modo in-place, cioè senza creare una nuova copia.

### Esempio `.ffill()`:

```python
import pandas as pd
import numpy as np

# Creazione di un DataFrame con valori NaN
data = {'A': [1, np.nan, 3, np.nan, 5],
        'B': [np.nan, 2, np.nan, 4, 5]}
df = pd.DataFrame(data)

# Riempimento in avanti dei valori NaN
df_ffill = df.ffill()
print(df_ffill)

```

**Output:**

```
     A    B
0  1.0  2.0
1  1.0  2.0
2  3.0  2.0
3  3.0  4.0
4  5.0  5.0

```

In questo esempio, il valore `NaN` nella colonna 'A' alla posizione 1 viene riempito con il valore precedente (1.0). Allo stesso modo, i `NaN` nella colonna 'B' vengono riempiti in avanti con il valore più vicino disponibile.

### 2. **`.bfill()` (Backward Fill)**:

Il metodo **backward fill** riempie i valori `NaN` con il valore successivo nella stessa colonna o riga. Se un valore `NaN` viene trovato, il valore successivo non `NaN` viene copiato al suo posto.

### Parametri principali:

- **axis**:
    - Tipo: `int`, opzionale
    - Descrizione: Specifica lungo quale asse applicare il riempimento.
        - `axis=0` per applicare lungo le righe (default).
        - `axis=1` per applicare lungo le colonne.
- **limit**:
    - Tipo: `int`, opzionale
    - Descrizione: Limita il numero di valori `NaN` da riempire.
- **inplace**:
    - Tipo: `bool`, opzionale
    - Descrizione: Se `True`, modifica il DataFrame in modo in-place.

### Esempio `.bfill()`:

```python
# Riempimento all'indietro dei valori NaN
df_bfill = df.bfill()
print(df_bfill)

```

**Output:**

```
     A    B
0  1.0  2.0
1  3.0  2.0
2  3.0  4.0
3  5.0  4.0
4  5.0  5.0

```

In questo caso, il valore `NaN` nella colonna 'A' alla posizione 1 è riempito con il valore successivo (3.0). Allo stesso modo, i `NaN` nella colonna 'B' sono riempiti con il valore successivo disponibile.

### Considerazioni finali:

- **Quando usarli**:
    - `.ffill()` è utile quando si desidera riempire i valori mancanti con informazioni precedenti, ad esempio, in serie temporali dove i dati precedenti possono fornire una stima valida per i valori mancanti.
    - `.bfill()` è utile quando si desidera riempire i valori mancanti utilizzando informazioni future, spesso utilizzato quando si presume che i valori successivi possano essere rilevanti per il riempimento.
- **Vantaggi**:
    - Entrambi i metodi sono semplici e veloci da utilizzare per riempire i valori mancanti in modo consistente.
    - Possono essere utilizzati quando non si vuole interpolare i dati, ma si desidera semplicemente riempire i `NaN` con i valori vicini.
- **Svantaggi**:
    - I metodi non sono adatti per dati non sequenziali o per dataset dove i valori mancanti non possono essere presunti basati sui dati precedenti o successivi.
    - Non è possibile effettuare un riempimento accurato in presenza di molti `NaN` consecutivi, a meno che non si usi il parametro `limit`.
- **Uso**:
    - Usa `.ffill()` quando i valori passati (precedenti) possono ragionevolmente stimare i valori futuri. Ad esempio, se stai lavorando con dati di sensori o serie temporali.
    - Usa `.bfill()` quando i valori futuri sono preferibili per completare i valori mancanti, ad esempio, in serie temporali con previsione di valori futuri.

Entrambi i metodi sono comunemente usati nella preparazione dei dati prima dell'analisi o del training di modelli, in particolare quando si hanno valori mancanti in contesti sequenziali o temporali.

## `.convert_dtypes()` – Converte le colonne nei migliori tipi di dati possibili

Il metodo **`.convert_dtypes()`** di Pandas è uno strumento potente per ottimizzare e migliorare i tipi di dati nelle colonne di un DataFrame. Questo metodo permette di convertire automaticamente le colonne ai tipi più appropriati in base ai dati che contengono, migliorando l'efficienza della memoria e le prestazioni delle operazioni.

### Parametri principali:

- **infer_objects**:
    - Tipo: `bool`, opzionale
    - Descrizione: Se `True`, tenta di inferire il tipo di dati per le colonne che contengono oggetti (tipicamente stringhe). Impostato su `False`, non tenta di fare questa inferenza.
- **convert_string**:
    - Tipo: `bool`, opzionale
    - Descrizione: Se `True`, tenterà di convertire le colonne di tipo `object` in colonne di tipo `string` (Pandas ha il tipo di dati `string` a partire dalla versione 1.0).
- **convert_integer**:
    - Tipo: `bool`, opzionale
    - Descrizione: Se `True`, tenterà di convertire i valori interi che possono essere memorizzati in un tipo con una rappresentazione di memoria più compatta (ad esempio, `Int8`, `Int16`, ecc.).

### Funzionamento:

Il metodo `.convert_dtypes()` esamina automaticamente i dati nel DataFrame e applica il tipo di dato più appropriato per ciascuna colonna. Per esempio:

- Se una colonna contiene solo numeri interi, Pandas la convertirà in un tipo intero (`int` o `Int64`).
- Se una colonna contiene numeri con decimali, la convertirà in un tipo float.
- Se una colonna contiene solo valori booleani, verrà convertita in tipo `bool`.
- Se una colonna contiene solo stringhe o oggetti, la convertirà in tipo `string` se `convert_string=True`.

### Esempio di utilizzo di `.convert_dtypes()`:

```python
import pandas as pd

# Creazione di un DataFrame con tipi di dati misti
data = {'A': ['1', '2', '3'],
        'B': [1.5, 2.5, 3.5],
        'C': [True, False, True],
        'D': ['a', 'b', 'c']}

df = pd.DataFrame(data)

# Visualizzazione dei tipi di dati originali
print("Tipi di dati originali:")
print(df.dtypes)

# Converto i tipi di dati nei migliori tipi possibili
df_converted = df.convert_dtypes()

# Visualizzazione dei tipi di dati dopo la conversione
print("\nTipi di dati dopo la conversione:")
print(df_converted.dtypes)

```

**Output:**

```
Tipi di dati originali:
A     object
B    float64
C       bool
D     object
dtype: object

Tipi di dati dopo la conversione:
A     string
B    float64
C       bool
D     string
dtype: object

```

### Considerazioni finali:

- **Quando usarlo**:
    - Usa `.convert_dtypes()` quando hai un DataFrame con tipi di dati non ottimizzati o quando vuoi migliorare l'efficienza della memoria senza dover convertire manualmente ciascuna colonna. È utile soprattutto per ottimizzare la memoria, ridurre l'uso della RAM e migliorare la velocità di elaborazione.
    - È particolarmente utile quando i dati sono caricati da file CSV, Excel o da altre fonti dove i tipi di dati non sono sempre ideali.
- **Vantaggi**:
    - **Ottimizzazione della memoria**: La conversione ai tipi più appropriati riduce l'uso della memoria, migliorando le prestazioni, specialmente su grandi dataset.
    - **Automazione**: Non è necessario eseguire manualmente la conversione di ciascuna colonna. Pandas si occupa automaticamente di applicare i tipi di dati migliori.
    - **Compatibilità con nuovi tipi di dati**: Con l'introduzione di tipi come `string` e `Int64`, `.convert_dtypes()` facilita l'adattamento ai nuovi tipi di dati Pandas.
- **Svantaggi**:
    - In alcuni casi, la conversione automatica potrebbe non essere completamente corretta, specialmente se ci sono colonne con dati incoerenti. È sempre una buona pratica controllare i risultati dopo la conversione per assicurarsi che le colonne siano convertite come desiderato.
- **Uso**:
    - Dopo aver caricato i dati da file esterni, puoi utilizzare `.convert_dtypes()` per garantire che le colonne abbiano i tipi più adatti, riducendo il rischio di errori e ottimizzando l'elaborazione dei dati.

## `.clip()` – Limita i valori al di sotto o al di sopra di una soglia

Il metodo **`.clip()`** di Pandas è utilizzato per limitare (o "tagliare") i valori in un DataFrame o in una Serie. Questo significa che puoi sostituire i valori che sono al di sotto o al di sopra di una certa soglia con i limiti specificati. Questo metodo è molto utile quando hai bisogno di limitare i valori a un determinato intervallo o quando vuoi evitare outlier estremi in un dataset.

### Parametri principali:

- **lower**:
    - Tipo: `scalar` o `None`, opzionale
    - Descrizione: Specifica il valore minimo consentito. Tutti i valori sotto questo valore vengono sostituiti con `lower`. Se non viene specificato, non viene applicato alcun limite inferiore.
- **upper**:
    - Tipo: `scalar` o `None`, opzionale
    - Descrizione: Specifica il valore massimo consentito. Tutti i valori sopra questo valore vengono sostituiti con `upper`. Se non viene specificato, non viene applicato alcun limite superiore.
- **axis**:
    - Tipo: `int` o `None`, opzionale
    - Descrizione: Specifica lungo quale asse applicare il taglio. `axis=0` per righe e `axis=1` per colonne. Se non viene specificato, il taglio viene applicato a livello di elemento.
- **inplace**:
    - Tipo: `bool`, opzionale
    - Descrizione: Se `True`, modifica il DataFrame o la Serie in modo in-place (senza restituire una nuova copia). Il default è `False`.

### Funzionamento:

Il metodo `.clip()` applica i limiti sui valori nel DataFrame o nella Serie. I valori che sono inferiori al limite inferiore vengono impostati sul limite inferiore, mentre i valori superiori al limite superiore vengono impostati sul limite superiore.

### Esempio di utilizzo di `.clip()`:

```python
import pandas as pd

# Creazione di un DataFrame con valori di esempio
data = {'A': [1, 5, 10, 15, 20],
        'B': [3, 12, 18, 25, 30]}
df = pd.DataFrame(data)

# Limiti inferiori e superiori
df_clipped = df.clip(lower=5, upper=20)

print(df_clipped)

```

**Output:**

```
    A   B
0   5   5
1   5  12
2  10  18
3  15  20
4  20  20

```

In questo esempio:

- I valori inferiori a 5 nella colonna 'A' (1) sono stati sostituiti con 5.
- I valori superiori a 20 nella colonna 'A' (20) sono rimasti invariati.
- I valori superiori a 20 nella colonna 'B' (25, 30) sono stati sostituiti con 20.

### Considerazioni finali:

- **Quando usarlo**:
    - Usa `.clip()` quando vuoi limitare i valori di un dataset all'interno di un intervallo specificato. Questo è utile per evitare outlier o valori estremi che potrebbero influenzare negativamente l'analisi dei dati, come nelle applicazioni di machine learning o nella pulizia dei dati.
    - È utile anche in contesti in cui vuoi forzare un intervallo fisico, come ad esempio la limitazione di temperature, velocità, o altre misurazioni a valori realistici o pratici.
- **Vantaggi**:
    - **Semplicità**: È molto semplice da usare, basta fornire un valore per il limite inferiore e/o superiore.
    - **Controllo sui dati**: Ti consente di proteggere il tuo dataset da outlier estremi che potrebbero danneggiare la qualità del modello o dell'analisi.
- **Svantaggi**:
    - **Perdita di informazioni**: Limita i dati, il che significa che i valori originali estremi vengono sostituiti, il che potrebbe non essere sempre desiderabile.
    - **Non applicabile a tutti i casi**: In alcuni contesti, la sostituzione di valori estremi potrebbe non avere senso o potrebbe distorcere i dati.
- **Uso**:
    - Usa `.clip()` prima di applicare modelli statistici o di machine learning quando vuoi rimuovere gli outlier.
    - È anche utile per evitare errori o anomalie nei dati quando si lavora con sensori o misurazioni che potrebbero produrre valori fuori scala.

## `.abs()` – Calcola il valore assoluto delle colonne numeriche

Il metodo **`.abs()`** di Pandas viene utilizzato per calcolare il valore assoluto di ogni elemento in un DataFrame o in una Serie. In altre parole, converte tutti i numeri negativi in positivi, mantenendo invariati i numeri già positivi o uguali a zero. È utile quando si desidera analizzare le magnitudini di valori numerici indipendentemente dal segno.

### Funzionamento:

Il metodo `.abs()` è applicato a tutte le colonne numeriche di un DataFrame o a una Serie, restituendo il valore assoluto di ciascun elemento.

### Esempi di utilizzo di `.abs()`:

### Esempio 1: Applicazione su una Serie

```python
import pandas as pd

# Creazione di una Serie con valori positivi e negativi
s = pd.Series([-10, -5, 3, 8, -2])

# Calcolare il valore assoluto
s_abs = s.abs()

print(s_abs)

```

**Output:**

```
0    10
1     5
2     3
3     8
4     2
dtype: int64

```

In questo caso, tutti i valori negativi sono stati convertiti nei loro valori positivi.

### Esempio 2: Applicazione su un DataFrame

```python
# Creazione di un DataFrame con valori positivi e negativi
df = pd.DataFrame({
    'A': [-1, 2, -3],
    'B': [4, -5, 6]
})

# Calcolare il valore assoluto di tutte le colonne
df_abs = df.abs()

print(df_abs)

```

**Output:**

```
   A  B
0  1  4
1  2  5
2  3  6

```

In questo esempio, tutte le celle del DataFrame sono state convertite nei loro valori assoluti.

### Considerazioni finali:

- **Quando usarlo**:
    - Usa `.abs()` quando hai bisogno di lavorare con le magnitudini dei valori numerici e non ti interessa la direzione (positiva o negativa). È utile, ad esempio, quando si analizzano distanze, velocità, errori assoluti o in altre situazioni dove il segno non è importante.
    - È anche molto utile quando si vogliono rimuovere gli effetti dei numeri negativi o quando si preparano i dati per modelli che non gestiscono bene i valori negativi.
- **Vantaggi**:
    - **Semplicità**: È un metodo semplice e diretto per ottenere il valore assoluto di una colonna numerica.
    - **Efficiente**: Funziona velocemente su grandi dataset numerici e consente di manipolare i dati in modo pulito senza dover iterare manualmente.
- **Svantaggi**:
    - **Perdita di informazione**: Il valore assoluto rimuove il segno negativo, quindi se il segno ha un'importanza semantica, questa operazione potrebbe non essere adatta.
    - **Non adatto a tutti i dati**: Non è utile per dati categoriali o dati che richiedono il mantenimento del segno.
- **Uso**:
    - È molto comune nelle applicazioni di machine learning, dove spesso si desidera analizzare solo la magnitudine di un valore (ad esempio, in problemi di regressione dove si utilizzano errori assoluti per valutare le prestazioni).
    - È anche utile nelle statistiche quando si analizzano deviazioni da un valore medio o quando si calcolano errori senza preoccuparsi della direzione dell'errore.

## `.round(decimals)` – Arrotonda i valori a un determinato numero di decimali

Il metodo **`.round()`** di Pandas viene utilizzato per arrotondare i valori numerici di un DataFrame o di una Serie a un determinato numero di decimali. Questo metodo è utile quando si desidera una maggiore precisione o si desidera uniformare i dati numerici a un formato specifico, ad esempio per la visualizzazione o il calcolo di statistiche.

### Parametro principale:

- **decimals**:
    - Tipo: `int` o `dict`, opzionale
    - Descrizione: Il numero di decimali a cui arrotondare i valori. Se è un numero intero, viene applicato a tutte le colonne o righe del DataFrame o Serie. Se è un dizionario, può essere specificato un numero di decimali diverso per ogni colonna o riga.

### Funzionamento:

- Quando si applica `.round()`, Pandas arrotonda ogni valore numerico in base al numero di decimali specificato. Se il parametro `decimals` è un intero, l'arrotondamento verrà applicato uniformemente a tutte le colonne o righe numeriche. Se si utilizza un dizionario, è possibile definire il numero di decimali per ogni singola colonna.

### Esempi di utilizzo di `.round()`:

### Esempio 1: Arrotondare a un determinato numero di decimali in una Serie

```python
import pandas as pd

# Creazione di una Serie con valori decimali
s = pd.Series([3.14159, 2.71828, 1.61803, 0.57721])

# Arrotondare i valori a 2 decimali
s_rounded = s.round(2)

print(s_rounded)

```

**Output:**

```
0    3.14
1    2.72
2    1.62
3    0.58
dtype: float64

```

In questo esempio, tutti i valori nella Serie sono stati arrotondati a due decimali.

### Esempio 2: Arrotondare a numeri di decimali diversi per ciascuna colonna in un DataFrame

```python
# Creazione di un DataFrame con valori decimali
df = pd.DataFrame({
    'A': [3.14159, 2.71828, 1.61803],
    'B': [0.57721, 1.23456, 7.89101]
})

# Arrotondare la colonna 'A' a 2 decimali e la colonna 'B' a 3 decimali
df_rounded = df.round({'A': 2, 'B': 3})

print(df_rounded)

```

**Output:**

```
     A      B
0  3.14  0.577
1  2.72  1.235
2  1.62  7.891

```

In questo esempio:

- La colonna 'A' è stata arrotondata a 2 decimali.
- La colonna 'B' è stata arrotondata a 3 decimali.

### Considerazioni finali:

- **Quando usarlo**:
    - Usa `.round()` quando desideri arrotondare i valori numerici per una migliore visualizzazione, per la normalizzazione dei dati o quando desideri evitare lunghe sequenze di decimali che non aggiungono valore pratico.
    - È utile quando si stanno preparando i dati per report, grafici o altre applicazioni in cui la precisione oltre un certo numero di decimali non è necessaria.
- **Vantaggi**:
    - **Semplicità**: È un metodo semplice e veloce per arrotondare i valori numerici in un DataFrame o in una Serie.
    - **Controllo preciso**: Puoi arrotondare singole colonne a numeri di decimali diversi usando un dizionario, offrendo flessibilità.
    - **Ottimizzazione della visualizzazione**: Ridurre il numero di decimali è utile per migliorare la leggibilità dei dati nelle visualizzazioni.
- **Svantaggi**:
    - **Perdita di precisione**: L'arrotondamento potrebbe ridurre la precisione dei dati, il che potrebbe essere un problema per calcoli che richiedono alta precisione.
    - **Non utile per dati categorici**: Non è applicabile a dati non numerici, come stringhe o categorie.
- **Uso**:
    - È molto utile in contesti finanziari o di reporting, dove l'arrotondamento a due o tre decimali è standard.
    - Utilizza `.round()` anche quando lavorano con modelli di machine learning per migliorare la comprensione dei risultati, o per rendere più compatti i dati in output.

# 5. Data Transformation

## `.astype()` – Cambia il tipo di dati delle colonne

Il metodo `.astype()` in pandas viene utilizzato per cambiare il tipo di dati di una colonna o di un'intera struttura DataFrame o Serie. È particolarmente utile quando si ha bisogno di convergere i dati in un tipo specifico per l'analisi o per applicare operazioni che richiedono determinati tipi di dati.

### Sintassi:

```python
DataFrame.astype(dtype, copy=True, errors='raise')

```

### Parametri principali:

1. **`dtype`** (obbligatorio):
    
    Il tipo di dati a cui vuoi convertire la colonna. Può essere un singolo tipo (ad esempio, `int`, `float`, `str`, `datetime64`, ecc.) oppure un dizionario che associa i nomi delle colonne ai tipi di dati specifici.
    
2. **`copy`** (opzionale, default `True`):
    
    Se impostato su `True`, restituisce una nuova copia del DataFrame o della Serie con i dati convertiti. Se impostato su `False`, potrebbe restituire una vista dei dati (modificando i dati originali).
    
3. **`errors`** (opzionale, default `'raise'`):
    
    Determina il comportamento in caso di errore. Le opzioni sono:
    
    - `'raise'`: genera un errore se la conversione non è possibile.
    - `'ignore'`: ignora eventuali errori e restituisce l'oggetto originale se non è possibile effettuare la conversione.

### Esempi:

1. **Conversione di una colonna a un tipo numerico (ad esempio, da stringa a intero)**:

```python
import pandas as pd

# Creiamo un DataFrame di esempio
df = pd.DataFrame({'A': ['1', '2', '3', '4']})

# Convertiamo la colonna 'A' da stringa a intero
df['A'] = df['A'].astype(int)

print(df)

```

**Output**:

```
   A
0  1
1  2
2  3
3  4

```

1. **Conversione di un'intera colonna in float**:

```python
df['A'] = df['A'].astype(float)
print(df)

```

**Output**:

```
     A
0  1.0
1  2.0
2  3.0
3  4.0

```

1. **Uso di un dizionario per convertire più colonne**:

```python
df = pd.DataFrame({'A': ['1', '2', '3'], 'B': ['4.0', '5.1', '6.2']})

# Convertiamo 'A' in int e 'B' in float
df = df.astype({'A': 'int', 'B': 'float'})
print(df)

```

**Output**:

```
   A    B
0  1  4.0
1  2  5.1
2  3  6.2

```

1. **Gestione degli errori (se si tenta di convertire in un tipo non valido)**:

```python
df = pd.DataFrame({'A': ['1', 'abc', '3']})

# Tentiamo di convertire la colonna 'A' in interi, ma c'è un valore non numerico ('abc')
try:
    df['A'] = df['A'].astype(int)
except ValueError as e:
    print(f"Errore: {e}")

```

**Output**:

```
Errore: invalid literal for int() with base 10: 'abc'

```

### Considerazioni finali:

- **Quando usarlo**: `.astype()` è utile quando è necessario convertire i dati in un tipo specifico prima di eseguire operazioni, come calcoli, aggregazioni, o quando i dati vengono letti da file in formati non ideali (ad esempio, numeri letti come stringhe). È anche utile quando si lavora con tipi di dati complessi, come la conversione tra tipi numerici e di data/ora.
- **Performance**: Se il dataset è molto grande, la conversione di tipi di dati può essere costosa in termini di tempo di esecuzione e memoria, quindi è consigliabile farlo in modo mirato, solo per le colonne che ne necessitano davvero.
- **Errori comuni**: Fai attenzione agli errori di conversione, soprattutto quando cerchi di convertire stringhe in numeri o date. Puoi usare il parametro `errors='ignore'` per evitare che vengano sollevati errori, ma questo potrebbe non essere sempre la soluzione migliore.

In generale, è uno strumento potente per la gestione dei dati, che ti consente di manipolare e preparare i dati per analisi più avanzate.

## `.apply()` – Applica una funzione lungo un asse (righe/colonne)

Il metodo `.apply()` in pandas è uno strumento versatile che permette di applicare una funzione a livello di DataFrame o Serie, lungo un determinato asse (righe o colonne). È molto utile per eseguire operazioni più complesse rispetto a quelle che si possono fare con i metodi base come `sum()`, `mean()`, ecc.

### Sintassi:

```python
DataFrame.apply(func, axis=0, raw=False, result_type=None, args=(), **kwds)

```

### Parametri principali:

1. **`func`** (obbligatorio):
    
    La funzione da applicare. Può essere una funzione predefinita, una funzione lambda o una funzione personalizzata.
    
2. **`axis`** (opzionale, default `0`):
    
    Specifica lungo quale asse applicare la funzione:
    
    - `axis=0`: la funzione viene applicata **lungo le colonne** (default).
    - `axis=1`: la funzione viene applicata **lungo le righe**.
3. **`raw`** (opzionale, default `False`):
    
    Se impostato su `True`, la funzione viene applicata direttamente ai dati grezzi (come array NumPy) piuttosto che ai singoli valori delle righe/colonne del DataFrame. Questo può migliorare le prestazioni, ma la funzione applicata deve essere in grado di gestire array NumPy.
    
4. **`result_type`** (opzionale, default `None`):
    
    Può essere usato per definire come dovrebbe essere restituito il risultato:
    
    - `None`: restituirà un oggetto della stessa forma dell'input.
    - `'expand'`: espande il risultato (utile per restituire più colonne o righe).
    - `'reduce'`: riduce il risultato a una Serie (utile per aggregazioni).
    - `'broadcast'`: il risultato sarà un oggetto che mantiene la forma dell'originale.
5. **`args`** (opzionale):
    
    Una tupla di argomenti da passare alla funzione.
    
6. **`kwds`** (opzionale):
    
    Argomenti aggiuntivi da passare alla funzione.
    

### Esempi:

1. **Applicare una funzione di somma alle colonne**:

```python
import pandas as pd

df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
})

# Somma di ogni colonna
result = df.apply(sum, axis=0)
print(result)

```

**Output**:

```
A     6
B    15
C    24
dtype: int64

```

1. **Applicare una funzione lungo le righe**:

```python
# Somma di ogni riga
result = df.apply(sum, axis=1)
print(result)

```

**Output**:

```
0    12
1    15
2    18
dtype: int64

```

1. **Applicare una funzione personalizzata (per esempio, una funzione che calcola la somma e la moltiplicazione di due colonne)**:

```python
# Funzione personalizzata che somma e moltiplica 'A' e 'B'
def custom_func(row):
    return row['A'] + row['B'] * 2

# Applicare la funzione lungo le righe
result = df.apply(custom_func, axis=1)
print(result)

```

**Output**:

```
0     9
1    12
2    15
dtype: int64

```

1. **Uso di `lambda` per applicare una funzione**:

```python
# Applicare una funzione lambda per calcolare il quadrato dei valori di ogni colonna
result = df.apply(lambda x: x**2)
print(result)

```

**Output**:

```
   A   B   C
0  1  16  49
1  4  25  64
2  9  36  81

```

1. **Uso di `raw=True` per performance migliori**:

```python
# Applicare una funzione in modo grezzo (più veloce)
result = df.apply(sum, axis=0, raw=True)
print(result)

```

**Output**:

```
A     6
B    15
C    24
dtype: int64

```

### Considerazioni finali:

- **Quando usarlo**:
    
    `.apply()` è molto utile quando hai bisogno di eseguire operazioni complesse che non sono facilmente realizzabili con le funzioni predefinite di pandas. Può essere usato per manipolare i dati a livello di colonna o riga, applicare funzioni personalizzate o anche aggregare valori in modi non standard.
    
- **Performance**:
    
    Sebbene `.apply()` sia molto flessibile, non è sempre il metodo più veloce, specialmente su DataFrame molto grandi, poiché la funzione viene applicata riga per riga o colonna per colonna. Se la tua funzione può essere vettorizzata, è meglio usare operazioni dirette su pandas o NumPy, che sono più veloci. L'uso del parametro `raw=True` può migliorare le performance in alcuni casi, poiché evita il passaggio attraverso la struttura di pandas.
    
- **Alternative**:
    
    Per operazioni semplici come somme, medie, aggregazioni, o manipolazioni elementari, le funzioni predefinite come `sum()`, `mean()`, `applymap()` o `agg()` sono generalmente più rapide. `.apply()` è più adatto a situazioni in cui è necessaria una logica complessa che coinvolge più colonne o righe.
    

In generale, `.apply()` è uno degli strumenti più potenti di pandas per applicare funzioni personalizzate sui tuoi dati, ma va utilizzato con attenzione per evitare impatti sulle performance quando lavori con dataset grandi.

## `.applymap()` – Applica una funzione elemento per elemento

Il metodo `.applymap()` in pandas è simile a `.apply()`, ma viene utilizzato esclusivamente per applicare una funzione **a livello di singolo elemento** in un DataFrame. È utile quando vuoi eseguire operazioni che devono essere applicate a ciascun valore individuale del DataFrame, come trasformazioni o formattazioni specifiche.

### Sintassi:

```python
DataFrame.applymap(func)

```

### Parametri principali:

1. **`func`** (obbligatorio):
La funzione da applicare, che deve prendere un singolo valore e restituire un valore trasformato. La funzione verrà applicata a ogni singolo elemento nel DataFrame.

### Esempi:

1. **Applicare una funzione per elevare al quadrato ogni elemento del DataFrame**:

```python
import pandas as pd

df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
})

# Applicare una funzione per elevare al quadrato ogni elemento
df_squared = df.applymap(lambda x: x**2)
print(df_squared)

```

**Output**:

```
   A   B   C
0  1  16  49
1  4  25  64
2  9  36  81

```

1. **Applicare una funzione di formattazione (ad esempio, per aggiungere simboli monetari)**:

```python
# Applicare una funzione per formattare i numeri come valuta
df_formatted = df.applymap(lambda x: f"${x:.2f}")
print(df_formatted)

```

**Output**:

```
      A     B     C
0  $1.00  $4.00  $7.00
1  $2.00  $5.00  $8.00
2  $3.00  $6.00  $9.00

```

1. **Applicare una funzione che gestisce condizioni sui valori**:

```python
# Applicare una funzione che converte i valori pari in 'Even' e quelli dispari in 'Odd'
df_labels = df.applymap(lambda x: 'Even' if x % 2 == 0 else 'Odd')
print(df_labels)

```

**Output**:

```
     A    B    C
0  Odd  Even  Odd
1  Even  Odd  Even
2  Odd  Even  Odd

```

1. **Esegui una funzione di tipo "round" su un DataFrame con valori decimali**:

```python
df_float = pd.DataFrame({
    'A': [1.1234, 2.3456, 3.5678],
    'B': [4.7890, 5.6789, 6.9876]
})

# Arrotondare i valori a 2 decimali
df_rounded = df_float.applymap(lambda x: round(x, 2))
print(df_rounded)

```

**Output**:

```
      A     B
0  1.12  4.79
1  2.35  5.68
2  3.57  6.99

```

### Considerazioni finali:

- **Quando usarlo**:
    
    `.applymap()` è perfetto quando hai bisogno di applicare una funzione **a livello di elemento** su un intero DataFrame. È ideale per trasformazioni che coinvolgono ogni singolo valore, come formattazioni, arrotondamenti, operazioni matematiche o categorizzazioni basate sui valori.
    
- **Performance**:
    
    Anche se `.applymap()` è un metodo potente, è importante sapere che è **meno efficiente** rispetto ad altre operazioni di pandas o NumPy quando si tratta di grandi dataset. Questo perché la funzione viene applicata **singolarmente a ogni elemento** del DataFrame, il che può essere lento rispetto a operazioni vettorializzate. Se la tua funzione è semplice e può essere applicata in modo vettoriale, è meglio usare le operazioni pandas native o NumPy, che sono più performanti.
    
- **Alternative**:
    
    Se la tua funzione può essere applicata a intere righe o colonne, è preferibile usare `.apply()`. Se lavori con un singolo valore o una struttura che non è un DataFrame, considera l'uso di `apply()` su una Serie o funzioni NumPy per ottenere performance migliori.
    

In generale, `.applymap()` è molto utile per operazioni personalizzate sui dati di un DataFrame, ma va utilizzato con attenzione, specialmente su dataset di grandi dimensioni, a causa delle sue implicazioni sulle performance.

## `.map()` – Associa valori da una colonna a un'altra

Il metodo `.map()` in pandas è utilizzato per **mappare** o **sostituire** i valori in una Serie (una singola colonna) con nuovi valori provenienti da un altro dizionario, una Serie o una funzione. È molto utile quando si vuole sostituire o mappare valori specifici a partire da una colonna di dati, senza dover ricorrere a operazioni più complesse.

### Sintassi:

```python
Series.map(arg, na_action=None)

```

### Parametri principali:

1. **`arg`** (obbligatorio):
Questo può essere:
    - Un **dizionario** che mappa i vecchi valori ai nuovi valori.
    - Una **Serie** che ha lo stesso indice della Serie originale (i valori saranno sostituiti da quelli corrispondenti nella Serie).
    - Una **funzione** che viene applicata a ciascun valore nella Serie.
2. **`na_action`** (opzionale):
Se impostato su `ignore`, i valori `NaN` non saranno modificati. Se non è specificato (impostato su `None`), i valori `NaN` verranno sostituiti con `NaN`.

### Esempi:

1. **Mappare i valori tramite un dizionario**:
Supponiamo di avere una Serie di categorie e vogliamo sostituirle con nuovi nomi più descrittivi.

```python
import pandas as pd

# Creare una Serie di esempio
categories = pd.Series([0, 1, 2, 1, 0, 2, 1])

# Mappare i valori usando un dizionario
category_map = {0: 'A', 1: 'B', 2: 'C'}
mapped_categories = categories.map(category_map)
print(mapped_categories)

```

**Output**:

```
0    A
1    B
2    C
3    B
4    A
5    C
6    B
dtype: object

```

1. **Mappare i valori usando una funzione**:
Puoi usare una funzione per trasformare i valori della Serie. Ad esempio, se vogliamo raddoppiare ogni valore.

```python
# Funzione che raddoppia un numero
def double(x):
    return x * 2

# Applicare la funzione alla Serie
numbers = pd.Series([1, 2, 3, 4, 5])
doubled_numbers = numbers.map(double)
print(doubled_numbers)

```

**Output**:

```
0     2
1     4
2     6
3     8
4    10
dtype: int64

```

1. **Mappare valori mancanti (NaN)**:
Se la Serie contiene valori mancanti (`NaN`), questi possono essere trattati separatamente o lasciati invariati.

```python
# Serie con valori NaN
data = pd.Series([1, 2, 3, None, 5])

# Mappare i valori, ma lasciare invariati i NaN
mapped_data = data.map(lambda x: x * 10 if x is not None else x)
print(mapped_data)

```

**Output**:

```
0    10.0
1    20.0
2    30.0
3     NaN
4    50.0
dtype: float64

```

1. **Mappare tramite una Serie con lo stesso indice**:
Se hai un'altra Serie con lo stesso indice, puoi usarla per mappare i valori.

```python
# Serie di origine
source = pd.Series([1, 2, 3, 4, 5])

# Serie di mappatura
mapping = pd.Series({1: 'A', 2: 'B', 3: 'C', 4: 'D', 5: 'E'})

# Mappare i valori usando la Serie
mapped_values = source.map(mapping)
print(mapped_values)

```

**Output**:

```
0    A
1    B
2    C
3    D
4    E
dtype: object

```

### Considerazioni finali:

- **Quando usarlo**:
    
    `.map()` è molto utile quando hai una Serie e desideri sostituire o trasformare i valori in modo semplice ed efficiente. È ideale quando hai bisogno di mappare valori da un set predefinito (ad esempio, un dizionario di traduzioni o categorie), applicare una trasformazione su ogni elemento o fare il mapping tra due Serie con lo stesso indice.
    
- **Performance**:
    
    Il metodo `.map()` è generalmente veloce ed efficiente, soprattutto quando applicato a una Serie relativamente piccola. Tuttavia, su dataset molto grandi, l'uso di funzioni personalizzate o l'accesso a un altro oggetto (come un dizionario o una Serie) potrebbe rallentare l'operazione. Se si tratta di un'operazione semplice e vettorizzata (ad esempio, applicare una funzione semplice), è meglio considerare alternative come `.apply()`.
    
- **Alternative**:
    
    Se stai lavorando con un DataFrame e hai bisogno di mappare valori in più colonne o manipolare dati su più dimensioni (righe e colonne), potresti voler utilizzare `.apply()` o `.applymap()`. Inoltre, per operazioni di sostituzione massiva, il metodo `.replace()` può essere un'alternativa valida, soprattutto se hai bisogno di sostituire più valori contemporaneamente.
    

In generale, `.map()` è uno strumento potente per applicare mappature semplici e trasformazioni a una Serie, con un uso versatile in vari contesti di manipolazione dei dati.

## `.sort_values()` – Ordina il DataFrame in base alle colonne

Il metodo `.sort_values()` in pandas è utilizzato per ordinare un DataFrame in base ai valori di una o più colonne. Questo è utile quando vuoi riorganizzare i dati in un ordine crescente o decrescente in base a determinati criteri. L'ordinamento è eseguito su una o più colonne, ed è possibile specificare se l'ordinamento debba essere crescente o decrescente.

### Sintassi:

```python
DataFrame.sort_values(by, axis=0, ascending=True, inplace=False, na_position='last', ignore_index=False)

```

### Parametri principali:

1. **`by`** (obbligatorio):
    
    Una lista di colonne o una singola colonna in base alla quale ordinare. Se si vogliono ordinare i dati in base a più colonne, si può passare una lista di colonne.
    
2. **`axis`** (opzionale):
    
    Impostato su `0` per ordinare lungo le righe (default), e su `1` per ordinare lungo le colonne. Nella maggior parte dei casi, lavorerai con `axis=0` per ordinare le righe.
    
3. **`ascending`** (opzionale):
    
    Un valore booleano o una lista di valori booleani che specificano se ordinare in ordine crescente (`True`) o decrescente (`False`). Può essere una lista di lunghezza uguale a `by` se si stanno ordinando più colonne. Il valore di default è `True`.
    
4. **`inplace`** (opzionale):
    
    Se impostato su `True`, il DataFrame verrà modificato in loco, senza restituire un nuovo DataFrame ordinato. Se impostato su `False` (default), il metodo restituirà un nuovo DataFrame ordinato.
    
5. **`na_position`** (opzionale):
    
    Specifica dove mettere i valori `NaN` ("first" per metterli all'inizio, "last" per metterli alla fine). Il valore di default è `'last'`.
    
6. **`ignore_index`** (opzionale):
    
    Se impostato su `True`, i vecchi indici verranno ignorati e verrà assegnato un nuovo indice numerico al DataFrame ordinato.
    

### Esempi:

1. **Ordinare un DataFrame in base a una singola colonna (in ordine crescente)**:

```python
import pandas as pd

# Creare un DataFrame di esempio
df = pd.DataFrame({
    'Nome': ['Alice', 'Bob', 'Charlie', 'David'],
    'Età': [25, 30, 35, 20],
    'Salario': [50000, 60000, 55000, 45000]
})

# Ordinare in base alla colonna 'Età' in ordine crescente
df_sorted = df.sort_values(by='Età')
print(df_sorted)

```

**Output**:

```
      Nome  Età  Salario
3    David   20    45000
0    Alice   25    50000
1      Bob   30    60000
2  Charlie   35    55000

```

1. **Ordinare in ordine decrescente**:

```python
# Ordinare in base alla colonna 'Salario' in ordine decrescente
df_sorted_desc = df.sort_values(by='Salario', ascending=False)
print(df_sorted_desc)

```

**Output**:

```
      Nome  Età  Salario
1      Bob   30    60000
2  Charlie   35    55000
0    Alice   25    50000
3    David   20    45000

```

1. **Ordinare in base a più colonne**:

```python
# Ordinare in base a più colonne ('Età' e 'Salario')
df_sorted_multi = df.sort_values(by=['Età', 'Salario'], ascending=[True, False])
print(df_sorted_multi)

```

**Output**:

```
      Nome  Età  Salario
3    David   20    45000
0    Alice   25    50000
1      Bob   30    60000
2  Charlie   35    55000

```

1. **Ordinare mantenendo l'indice originale o resettandolo**:

```python
# Ordinare e ignorare l'indice originale
df_sorted_ignore_index = df.sort_values(by='Età', ignore_index=True)
print(df_sorted_ignore_index)

```

**Output**:

```
      Nome  Età  Salario
0    David   20    45000
1    Alice   25    50000
2      Bob   30    60000
3  Charlie   35    55000

```

1. **Ordinare con valori `NaN`**:

```python
# Creare un DataFrame con valori NaN
df_with_nan = pd.DataFrame({
    'Nome': ['Alice', 'Bob', 'Charlie', 'David'],
    'Età': [25, None, 35, 20],
    'Salario': [50000, 60000, None, 45000]
})

# Ordinare mettendo prima i valori NaN
df_sorted_nan_first = df_with_nan.sort_values(by='Età', na_position='first')
print(df_sorted_nan_first)

```

**Output**:

```
      Nome  Età  Salario
1      Bob  NaN    60000
3    David   20    45000
0    Alice   25    50000
2  Charlie   35     NaN

```

### Considerazioni finali:

- **Quando usarlo**:
    
    `.sort_values()` è utile quando desideri organizzare o riorganizzare i dati in un ordine specifico. Puoi usarlo per ordinare i dati in base a una o più colonne, sia in ordine crescente che decrescente, o per visualizzare i dati in modo più significativo (ad esempio, ordinando per età, salario o altre metriche).
    
- **Performance**:
    
    Il metodo è generalmente efficiente, ma quando si ordina un DataFrame molto grande, le operazioni di ordinamento possono diventare costose in termini di tempo di esecuzione. Pandas utilizza algoritmi di ordinamento efficienti, ma la complessità computazionale può crescere con l'aumentare delle dimensioni dei dati.
    
- **Alternative**:
    
    Se hai bisogno di ordinare solo una Serie, puoi usare `.sort_values()` direttamente sulla Serie, che è più efficiente in questo caso. Inoltre, se vuoi ordinare e mantenere intatti i dati originali, puoi utilizzare il parametro `inplace=True`, ma ricorda che ciò modificherà il DataFrame originale e non restituirà un nuovo oggetto.
    

In generale, `.sort_values()` è un metodo molto potente e flessibile per organizzare i dati in un DataFrame in base a uno o più criteri.

## `.sort_index()` – Ordina il DataFrame in base all'indice

Il metodo `.sort_index()` in pandas è utilizzato per ordinare un DataFrame (o una Serie) in base ai valori degli indici, anziché in base ai valori di una colonna specifica. Questo metodo è utile quando desideri riorganizzare i dati in base all'ordine degli indici, che può essere numerico o basato su etichette.

### Sintassi:

```python
DataFrame.sort_index(axis=0, level=None, ascending=True, inplace=False, kind='quicksort', na_position='last', ignore_index=False)

```

### Parametri principali:

1. **`axis`** (opzionale):
    
    Impostato su `0` per ordinare lungo le righe (default), e su `1` per ordinare lungo le colonne. La maggior parte delle volte lavorerai con `axis=0` per ordinare le righe.
    
2. **`level`** (opzionale):
    
    Se l'indice è multi-livello (MultiIndex), puoi ordinare in base a un livello specifico dell'indice. Puoi passare un intero (il livello da ordinare) o una lista di interi per ordinare su più livelli.
    
3. **`ascending`** (opzionale):
    
    Un valore booleano o una lista di valori booleani che specificano se l'ordinamento deve essere crescente (`True`) o decrescente (`False`). Il valore di default è `True`.
    
4. **`inplace`** (opzionale):
    
    Se impostato su `True`, il DataFrame verrà ordinato in loco, senza restituire un nuovo DataFrame ordinato. Se impostato su `False` (default), il metodo restituirà un nuovo DataFrame ordinato.
    
5. **`kind`** (opzionale):
    
    Il tipo di algoritmo di ordinamento da utilizzare. I valori possibili sono:
    
    - `'quicksort'` (default)
    - `'mergesort'`
    - `'heapsort'`
    - `'stable'`
6. **`na_position`** (opzionale):
    
    Se ci sono valori `NaN` nell'indice, puoi specificare se desideri metterli all'inizio (`'first'`) o alla fine (`'last'`, default).
    
7. **`ignore_index`** (opzionale):
    
    Se impostato su `True`, ignora gli indici originali e assegna un nuovo indice numerico al DataFrame ordinato. Il valore predefinito è `False`.
    

### Esempi:

1. **Ordinare un DataFrame in base all'indice (ordinamento crescente)**:

```python
import pandas as pd

# Creare un DataFrame di esempio
df = pd.DataFrame({
    'Nome': ['Alice', 'Bob', 'Charlie', 'David'],
    'Età': [25, 30, 35, 20],
    'Salario': [50000, 60000, 55000, 45000]
}, index=[3, 1, 4, 2])

# Ordinare in base all'indice in ordine crescente
df_sorted = df.sort_index()
print(df_sorted)

```

**Output**:

```
      Nome  Età  Salario
1      Bob   30    60000
2    David   20    45000
3    Alice   25    50000
4  Charlie   35    55000

```

1. **Ordinare in ordine decrescente**:

```python
# Ordinare in base all'indice in ordine decrescente
df_sorted_desc = df.sort_index(ascending=False)
print(df_sorted_desc)

```

**Output**:

```
      Nome  Età  Salario
4  Charlie   35    55000
3    Alice   25    50000
2    David   20    45000
1      Bob   30    60000

```

1. **Ordinare un DataFrame con MultiIndex**:

```python
# Creare un DataFrame con MultiIndex
arrays = [['A', 'A', 'B', 'B'], [1, 2, 1, 2]]
index = pd.MultiIndex.from_arrays(arrays, names=('lettera', 'numero'))

df_multi = pd.DataFrame({
    'Nome': ['Alice', 'Bob', 'Charlie', 'David'],
    'Età': [25, 30, 35, 20]
}, index=index)

# Ordinare in base al primo livello dell'indice (lettura)
df_sorted_multi = df_multi.sort_index(level='lettera')
print(df_sorted_multi)

```

**Output**:

```
               Nome  Età
lettera numero
A       1       Alice   25
        2         Bob   30
B       1     Charlie   35
        2       David   20

```

1. **Ordinare l'indice con `NaN`**:

```python
# Creare un DataFrame con NaN nell'indice
df_with_nan = pd.DataFrame({
    'Nome': ['Alice', 'Bob', 'Charlie', 'David'],
    'Età': [25, 30, 35, 20]
}, index=[3, None, 4, 2])

# Ordinare mettendo i NaN all'inizio
df_sorted_nan_first = df_with_nan.sort_index(na_position='first')
print(df_sorted_nan_first)

```

**Output**:

```
      Nome  Età
NaN   NaN  NaN
2    David   20
3    Alice   25
4  Charlie   35

```

1. **Ordinare ignorando l'indice originale**:

```python
# Ordinare e ignorare l'indice originale
df_sorted_ignore_index = df.sort_index(ignore_index=True)
print(df_sorted_ignore_index)

```

**Output**:

```
      Nome  Età  Salario
0    Bob   30    60000
1  David   20    45000
2  Alice   25    50000
3  Charlie   35    55000

```

### Considerazioni finali:

- **Quando usarlo**:
    
    `.sort_index()` è utile quando desideri riorganizzare il DataFrame in base all'ordine dell'indice. È spesso utilizzato quando l'indice ha un significato, come quando è un identificatore temporale, numerico o categorico, e vuoi che i dati siano ordinati secondo l'indice stesso, piuttosto che secondo i valori delle colonne.
    
- **Performance**:
    
    Come per `.sort_values()`, l'ordinamento basato sull'indice è relativamente efficiente, ma può diventare più lento quando si lavora con DataFrame di grandi dimensioni, specialmente se si utilizza un MultiIndex.
    
- **MultiIndex**:
    
    Se lavori con un MultiIndex, `.sort_index()` può essere utilizzato per ordinare i dati in base a uno o più livelli. Questo è utile quando vuoi controllare l'ordine su più dimensioni (ad esempio, anno e mese in un DataFrame con un MultiIndex temporale).
    
- **Alternative**:
    
    Se desideri ordinare un DataFrame in base ai valori di una colonna, allora `.sort_values()` è il metodo da utilizzare. Invece, `.sort_index()` è il metodo specifico per l'ordinamento basato sull'indice.
    

In generale, `.sort_index()` è molto utile per mantenere l'ordine degli indici o per ripristinare l'ordine naturale dell'indice, specialmente in contesti in cui l'indice ha una struttura significativa.

## `.reset_index()` – Reimposta l'indice del DataFrame

Il metodo `.reset_index()` in pandas viene utilizzato per reimpostare l'indice di un DataFrame e, se necessario, trasformare l'indice corrente in una colonna. Questo metodo è particolarmente utile quando hai manipolato un DataFrame (ad esempio, con operazioni di raggruppamento o ordinamento) e desideri ripristinare l'indice al suo stato originale o trasformarlo in una colonna normale.

### Sintassi:

```python
DataFrame.reset_index(level=None, drop=False, inplace=False, col_level=0, col_fill='')

```

### Parametri principali:

1. **`level`** (opzionale):
    
    Specifica quale livello dell'indice (nel caso di un `MultiIndex`) desideri ripristinare. Puoi fornire un singolo livello (un intero o una stringa) o una lista di livelli da ripristinare. Se non viene specificato, vengono ripristinati tutti i livelli dell'indice.
    
2. **`drop`** (opzionale):
    
    Se impostato su `True`, l'indice verrà semplicemente rimosso senza essere trasformato in una colonna. Il valore predefinito è `False`, il che significa che l'indice diventerà una colonna nel DataFrame.
    
3. **`inplace`** (opzionale):
    
    Se impostato su `True`, il DataFrame originale verrà modificato in loco, senza restituire un nuovo oggetto. Il valore predefinito è `False`, che restituisce un nuovo DataFrame con l'indice ripristinato.
    
4. **`col_level`** (opzionale):
    
    Se hai un `MultiIndex` nelle colonne, puoi specificare a quale livello della colonna deve essere applicata l'operazione di reset.
    
5. **`col_fill`** (opzionale):
    
    Questo parametro viene utilizzato quando si resetta l'indice di un `MultiIndex` e si deve riempire eventuali vuoti nel livello delle colonne con un determinato valore.
    

### Esempi:

1. **Reimpostare l'indice di un DataFrame (con l'indice trasformato in colonna)**:

```python
import pandas as pd

# Creare un DataFrame di esempio
df = pd.DataFrame({
    'Nome': ['Alice', 'Bob', 'Charlie', 'David'],
    'Età': [25, 30, 35, 20]
}, index=[3, 1, 4, 2])

# Reimpostare l'indice
df_reset = df.reset_index()
print(df_reset)

```

**Output**:

```
   index     Nome  Età
0      3    Alice   25
1      1      Bob   30
2      4  Charlie   35
3      2    David   20

```

In questo caso, l'indice originale è stato trasformato in una colonna chiamata `index`, mentre è stato creato un nuovo indice numerico predefinito.

1. **Reimpostare l'indice e rimuoverlo (senza trasformarlo in una colonna)**:

```python
# Reimpostare l'indice e rimuoverlo
df_reset_drop = df.reset_index(drop=True)
print(df_reset_drop)

```

**Output**:

```
      Nome  Età
0    Alice   25
1      Bob   30
2  Charlie   35
3    David   20

```

In questo caso, l'indice è stato reimpostato, ma non è stato aggiunto come colonna. Il nuovo indice numerico è stato creato automaticamente.

1. **Reimpostare l'indice di un DataFrame con MultiIndex**:

```python
# Creare un DataFrame con MultiIndex
arrays = [['A', 'A', 'B', 'B'], [1, 2, 1, 2]]
index = pd.MultiIndex.from_arrays(arrays, names=('lettera', 'numero'))

df_multi = pd.DataFrame({
    'Nome': ['Alice', 'Bob', 'Charlie', 'David'],
    'Età': [25, 30, 35, 20]
}, index=index)

# Reimpostare l'indice
df_multi_reset = df_multi.reset_index()
print(df_multi_reset)

```

**Output**:

```
  lettera  numero     Nome  Età
0       A       1    Alice   25
1       A       2      Bob   30
2       B       1  Charlie   35
3       B       2    David   20

```

Nel caso di un `MultiIndex`, entrambe le dimensioni dell'indice vengono trasformate in colonne nel DataFrame.

1. **Reimpostare solo uno dei livelli del MultiIndex**:

```python
# Reimpostare solo il livello 'lettera' del MultiIndex
df_multi_reset_level = df_multi.reset_index(level='lettera')
print(df_multi_reset_level)

```

**Output**:

```
  lettera     Nome  Età
0       A    Alice   25
1       A      Bob   30
2       B  Charlie   35
3       B    David   20

```

In questo esempio, solo il livello `lettera` è stato reimpostato come colonna, mentre il livello `numero` è rimasto come indice.

### Considerazioni finali:

- **Quando usarlo**:
    
    `.reset_index()` è utile quando si desidera ripristinare l'indice predefinito numerico (0, 1, 2, ...) dopo aver effettuato operazioni che modificano l'indice, come il raggruppamento (`groupby()`), l'ordinamento o il filtraggio. È anche utile quando si desidera trasformare un `MultiIndex` in colonne singole per facilitare la manipolazione dei dati.
    
- **Uso di `drop=True`**:
    
    Se non hai bisogno di conservare l'indice come colonna (ad esempio, dopo una operazione di raggruppamento), l'uso di `drop=True` è la soluzione ideale, poiché evita la creazione di una colonna extra.
    
- **MultiIndex**:
    
    In caso di `MultiIndex`, `.reset_index()` offre una buona flessibilità per lavorare con indici complessi, consentendo di scegliere quali livelli ripristinare.
    
- **Performance**:
    
    `.reset_index()` è una operazione leggera, ma può diventare più costosa in termini di memoria e velocità se lavoriamo con DataFrame molto grandi o con un `MultiIndex` complesso.
    

In generale, `.reset_index()` è uno strumento utile quando si desidera gestire l'indice del DataFrame in modo più esplicito, riportandolo alla sua forma numerica standard o trasformandolo in colonne normali per facilitare ulteriori manipolazioni.

## `.pivot()` – Ristruttura i dati in base ai valori delle colonne

Il metodo `.pivot()` di pandas permette di ristrutturare un DataFrame, trasformando le righe in colonne. È un'operazione che consente di cambiare la struttura del DataFrame, specificando una colonna per le righe, una per le colonne e una per i valori da inserire nella tabella risultante.

Questa operazione è particolarmente utile quando si desidera trasformare dati "lunghi" in dati "larghi", in modo che ogni combinazione unica di valori in una colonna diventi una colonna del DataFrame, con i corrispondenti valori nelle celle.

### Sintassi:

```python
DataFrame.pivot(index=None, columns=None, values=None)

```

### Parametri principali:

1. **`index`** (opzionale):
    
    La colonna (o le colonne) da utilizzare come indice nel DataFrame ristrutturato. Questi valori diventeranno le righe nel nuovo DataFrame.
    
2. **`columns`** (opzionale):
    
    La colonna (o le colonne) da utilizzare per creare le nuove colonne del DataFrame. Ogni valore unico in questa colonna diventerà una colonna separata nel DataFrame risultante.
    
3. **`values`** (opzionale):
    
    La colonna i cui valori vengono utilizzati per popolare le celle del nuovo DataFrame. Se non viene specificata, verranno utilizzati tutti i valori numerici presenti nel DataFrame.
    

### Esempi:

1. **Pivot di un DataFrame semplice**:
Supponiamo di avere un DataFrame con informazioni sui venditori, sui prodotti e sulle vendite.

```python
import pandas as pd

# DataFrame di esempio
df = pd.DataFrame({
    'Venditore': ['Alice', 'Bob', 'Alice', 'Bob', 'Alice', 'Bob'],
    'Prodotto': ['A', 'A', 'B', 'B', 'C', 'C'],
    'Vendite': [100, 200, 150, 250, 200, 300]
})

# Pivot del DataFrame
df_pivot = df.pivot(index='Venditore', columns='Prodotto', values='Vendite')
print(df_pivot)

```

**Output**:

```
Prodotto     A    B    C
Venditore
Alice     100  150  200
Bob       200  250  300

```

In questo esempio, abbiamo creato un DataFrame in cui le righe sono i venditori (`Venditore`), le colonne sono i prodotti (`Prodotto`), e i valori sono le vendite (`Vendite`). Ogni cella rappresenta il totale delle vendite di un prodotto specifico per ciascun venditore.

1. **Pivot con più colonne come indice**:
Se si desidera utilizzare più colonne come indice, è possibile farlo specificando una lista di colonne.

```python
# DataFrame con più colonne
df_multi = pd.DataFrame({
    'Anno': [2021, 2021, 2022, 2022, 2023, 2023],
    'Mese': ['Gennaio', 'Febbraio', 'Gennaio', 'Febbraio', 'Gennaio', 'Febbraio'],
    'Venditore': ['Alice', 'Bob', 'Alice', 'Bob', 'Alice', 'Bob'],
    'Vendite': [100, 200, 150, 250, 200, 300]
})

# Pivot con più colonne come indice
df_pivot_multi = df_multi.pivot(index=['Anno', 'Mese'], columns='Venditore', values='Vendite')
print(df_pivot_multi)

```

**Output**:

```
Venditore          Alice  Bob
Anno Mese
2021 Gennaio        100  200
     Febbraio       NaN  250
2022 Gennaio        150  NaN
     Febbraio       NaN  300
2023 Gennaio        200  NaN
     Febbraio       NaN  NaN

```

In questo esempio, abbiamo usato `Anno` e `Mese` come indice, e ogni venditore diventa una colonna separata. I valori rappresentano le vendite.

1. **Errore comune (duplicazione di valori)**:
Se i dati contengono più di una combinazione di valori per ogni coppia di indice e colonna, il metodo `.pivot()` solleva un errore. Ad esempio:

```python
# DataFrame con duplicati
df_duplicato = pd.DataFrame({
    'Anno': [2021, 2021, 2021, 2021],
    'Prodotto': ['A', 'A', 'B', 'B'],
    'Venditore': ['Alice', 'Bob', 'Alice', 'Bob'],
    'Vendite': [100, 150, 200, 250]
})

# Tentativo di pivot
try:
    df_duplicato_pivot = df_duplicato.pivot(index='Anno', columns='Prodotto', values='Vendite')
    print(df_duplicato_pivot)
except Exception as e:
    print(e)

```

**Output**:

```
ValueError: Index contains duplicate entries, cannot reshape

```

L'errore si verifica perché c'è una duplicazione nei valori per l'indice `Anno` e la colonna `Prodotto`. In questo caso, bisogna usare il metodo `.pivot_table()`, che permette di aggregare i dati duplicati.

### Considerazioni finali:

- **Quando usarlo**:
    
    `.pivot()` è molto utile quando hai un DataFrame con informazioni in forma lunga e desideri trasformarlo in una forma più ampia, in cui le colonne rappresentano categorie specifiche (come prodotti, venditori, date, ecc.), e i valori corrispondono ai dati che desideri visualizzare. È particolarmente utile per creare tabelle pivot simili a quelle che si trovano in Excel.
    
- **Limitazioni**:
    
    `.pivot()` non gestisce i dati duplicati. Se ci sono più valori per una combinazione di indice e colonna, si verificherà un errore. In questo caso, si dovrebbe usare `.pivot_table()`, che consente di specificare una funzione di aggregazione (ad esempio, `sum`, `mean`, ecc.) per gestire i duplicati.
    
- **Alternativa con `.pivot_table()`**:
    
    Se hai dati duplicati o vuoi applicare un'aggregazione, usa `.pivot_table()`. Ad esempio, se due venditori hanno venduto lo stesso prodotto nello stesso anno, puoi sommare le vendite o calcolare la media per quella combinazione.
    

In generale, `.pivot()` è uno strumento potente per ristrutturare i dati e ottenere una visualizzazione più chiara e organizzata delle informazioni in un formato tabellare.

## `.rank()` – Classifica i valori in ogni colonna

Il metodo `.rank()` di pandas è utilizzato per assegnare un "rank" (posizione) ai valori di una colonna o di un DataFrame. I valori vengono ordinati in ordine crescente o decrescente e a ciascun valore viene assegnato un numero che rappresenta la sua posizione relativa rispetto agli altri valori. È particolarmente utile per determinare il posizionamento dei dati in un determinato ordine, come per esempio nelle classifiche o quando si vogliono assegnare punteggi o ordini relativi.

### Sintassi:

```python
DataFrame.rank(axis=0, method='average', numeric_only=None, ascending=True, na_option='keep', pct=False)

```

### Parametri principali:

1. **`axis`**:
    - **0** (default): Classifica lungo le righe, quindi le posizioni vengono assegnate per ogni colonna.
    - **1**: Classifica lungo le colonne, quindi le posizioni vengono assegnate per ogni riga.
2. **`method`**:
    - **'average'** (default): In caso di valori duplicati, assegna a tutti gli elementi duplicati il rango medio.
    - **'min'**: Assegna a tutti i valori duplicati il rango minimo.
    - **'max'**: Assegna a tutti i valori duplicati il rango massimo.
    - **'first'**: Assegna ai valori duplicati il rango in base all'ordine di apparizione.
    - **'dense'**: I ranghi sono numerati senza interruzione. Se ci sono duplicati, i ranghi successivi sono numerati consecutivamente.
3. **`ascending`**:
    - **True** (default): Ordina i valori in ordine crescente (il valore più basso ottiene il rango 1).
    - **False**: Ordina in ordine decrescente (il valore più alto ottiene il rango 1).
4. **`na_option`**:
    - **'keep'** (default): Mantiene i valori `NaN` senza assegnare un rango.
    - **'top'**: Considera i `NaN` come i valori più piccoli.
    - **'bottom'**: Considera i `NaN` come i valori più alti.
5. **`pct`**:
    - **False** (default): Restituisce il rango assoluto.
    - **True**: Restituisce la percentuale del rango (i ranghi sono normalizzati tra 0 e 1).

### Esempi:

1. **Esempio base di `.rank()`**:
Supponiamo di avere un DataFrame con i punteggi di alcuni studenti e vogliamo assegnare loro un rango basato sui punteggi.

```python
import pandas as pd

# DataFrame di esempio
df = pd.DataFrame({
    'Studente': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
    'Punteggio': [85, 92, 78, 92, 88]
})

# Classifica i punteggi in ordine crescente
df['Rango'] = df['Punteggio'].rank()
print(df)

```

**Output**:

```
   Studente  Punteggio  Rango
0     Alice         85    4.0
1       Bob         92    1.5
2   Charlie         78    5.0
3     David         92    1.5
4       Eva         88    3.0

```

In questo esempio, Bob e David hanno ottenuto lo stesso punteggio (92), quindi entrambi ricevono lo stesso rango (1.5). I punteggi successivi sono assegnati un rango basato sul loro valore medio.

1. **Classifica con metodo `dense`**:
Utilizzando il metodo `dense`, i ranghi non saltano quando ci sono valori duplicati.

```python
df['Rango_dens'] = df['Punteggio'].rank(method='dense')
print(df)

```

**Output**:

```
   Studente  Punteggio  Rango  Rango_dens
0     Alice         85    4.0          4.0
1       Bob         92    1.5          1.0
2   Charlie         78    5.0          5.0
3     David         92    1.5          2.0
4       Eva         88    3.0          3.0

```

Nel metodo `dense`, i ranghi non saltano (ad esempio, dopo il rango 1, il rango successivo è 2, anche se ci sono duplicati).

1. **Classifica in ordine decrescente**:
Se si vuole ordinare in modo decrescente (il punteggio più alto ottiene il rango 1), si può impostare `ascending=False`.

```python
df['Rango_decrescente'] = df['Punteggio'].rank(ascending=False)
print(df)

```

**Output**:

```
   Studente  Punteggio  Rango  Rango_dens  Rango_decrescente
0     Alice         85    4.0          4.0                4.0
1       Bob         92    1.5          1.0                2.5
2   Charlie         78    5.0          5.0                5.0
3     David         92    1.5          2.0                2.5
4       Eva         88    3.0          3.0                3.0

```

Nel caso dell'ordine decrescente, i punteggi più alti hanno il rango 1.

1. **Classifica con `NaN`**:
Se ci sono valori `NaN`, puoi scegliere come trattarli utilizzando il parametro `na_option`.

```python
df['Punteggio_con_NaN'] = [85, 92, None, 92, 88]
df['Rango_con_NaN'] = df['Punteggio_con_NaN'].rank(na_option='top')
print(df)

```

**Output**:

```
   Studente  Punteggio  Rango  Rango_dens  Rango_decrescente  Punteggio_con_NaN  Rango_con_NaN
0     Alice         85    4.0          4.0                4.0               85.0            4.0
1       Bob         92    1.5          1.0                2.5               92.0            1.5
2   Charlie         78    5.0          5.0                5.0                NaN            1.0
3     David         92    1.5          2.0                2.5               92.0            1.5
4       Eva         88    3.0          3.0                3.0               88.0            3.0

```

In questo esempio, i valori `NaN` sono trattati come i valori più piccoli (grazie all'uso di `na_option='top'`), quindi ottengono un rango di 1.

### Considerazioni finali:

- **Quando usarlo**:
    
    `.rank()` è molto utile quando si ha bisogno di classificare i dati in base ai valori in una o più colonne. È spesso utilizzato in contesti come la creazione di classifiche, la valutazione delle performance (ad esempio, punteggi, vendite, ecc.), o quando si vogliono assegnare posizioni relative a dei valori.
    
- **Limitazioni**:
    - Quando si hanno duplicati nei dati, è importante scegliere il metodo di assegnazione dei ranghi (`method`) in modo che la classificazione riflettente la realtà. Se non viene scelto un metodo adeguato, potrebbero esserci conflitti nelle posizioni.
    - Il trattamento dei valori `NaN` deve essere configurato correttamente per evitare che influiscano negativamente sulla classificazione.

In generale, `.rank()` è uno strumento utile per analizzare e presentare i dati in modo da evidenziare le posizioni relative di ogni elemento in un determinato ordine.

## `.cumsum()` / `.cumprod()` – Calcola somma/prodotto cumulativi

I metodi `.cumsum()` e `.cumprod()` in pandas sono utilizzati per calcolare la somma cumulativa e il prodotto cumulativo di una serie o di un DataFrame lungo un determinato asse (righe o colonne). Questi metodi sono utili quando si desidera tenere traccia dei cambiamenti progressivi in un dataset, come nei calcoli di bilancio, analisi di crescita, o altre applicazioni che richiedono il monitoraggio di valori cumulativi.

### Sintassi:

```python
DataFrame.cumsum(axis=None, skipna=True, *args, **kwargs)
DataFrame.cumprod(axis=None, skipna=True, *args, **kwargs)

```

### Parametri principali:

1. **`axis`**:
    - **0** (default): Calcola la somma o il prodotto cumulativo lungo le righe (ovvero per ogni colonna).
    - **1**: Calcola lungo le colonne (ovvero per ogni riga).
2. **`skipna`**:
    - **True** (default): I valori `NaN` vengono ignorati nel calcolo. Se uno o più valori nella colonna o nella riga sono `NaN`, vengono esclusi dal calcolo.
    - **False**: Se c'è un `NaN`, l'intero risultato diventa `NaN` a partire dalla posizione del `NaN`.
3. **`args` e `*kwargs`**: Parametri aggiuntivi che possono essere passati per esigenze specifiche, ma generalmente non sono necessari per il calcolo di base.

### Differenze tra `.cumsum()` e `.cumprod()`:

- **`.cumsum()`** calcola la **somma cumulativa**: ogni elemento del risultato è la somma di tutti gli elementi precedenti (incluso l'elemento corrente).
- **`.cumprod()`** calcola il **prodotto cumulativo**: ogni elemento del risultato è il prodotto di tutti gli elementi precedenti (incluso l'elemento corrente).

### Esempi:

### 1. **Esempio di `.cumsum()`**:

Supponiamo di avere un DataFrame con i guadagni mensili di un'azienda e vogliamo calcolare i guadagni cumulativi nel tempo.

```python
import pandas as pd

# DataFrame di esempio
df = pd.DataFrame({
    'Mese': ['Gennaio', 'Febbraio', 'Marzo', 'Aprile'],
    'Guadagni': [100, 200, 150, 300]
})

# Calcolare la somma cumulativa dei guadagni
df['Guadagni_cumulativi'] = df['Guadagni'].cumsum()
print(df)

```

**Output**:

```
      Mese  Guadagni  Guadagni_cumulativi
0   Gennaio       100                  100
1  Febbraio       200                  300
2     Marzo       150                  450
3    Aprile       300                  750

```

In questo esempio, ogni valore della colonna `Guadagni_cumulativi` è la somma cumulativa dei guadagni fino a quel mese.

### 2. **Esempio di `.cumprod()`**:

Supponiamo ora di avere un DataFrame con un prodotto di crescita (ad esempio, un tasso di crescita mensile) e vogliamo calcolare il valore cumulativo nel tempo.

```python
# DataFrame di esempio con tassi di crescita
df = pd.DataFrame({
    'Mese': ['Gennaio', 'Febbraio', 'Marzo', 'Aprile'],
    'Tasso_di_crescita': [1.05, 1.10, 1.08, 1.06]
})

# Calcolare il prodotto cumulativo dei tassi di crescita
df['Crescita_cumulativa'] = df['Tasso_di_crescita'].cumprod()
print(df)

```

**Output**:

```
      Mese  Tasso_di_crescita  Crescita_cumulativa
0   Gennaio               1.05               1.05
1  Febbraio               1.10               1.155
2     Marzo               1.08               1.247
3    Aprile               1.06               1.320

```

In questo esempio, ogni valore della colonna `Crescita_cumulativa` è il prodotto cumulativo dei tassi di crescita fino a quel mese.

### 3. **Utilizzo con `skipna`**:

Se nel dataset ci sono valori mancanti (`NaN`), possiamo gestirli con il parametro `skipna`. Vediamo un esempio dove ci sono dei `NaN` nei dati.

```python
df = pd.DataFrame({
    'Mese': ['Gennaio', 'Febbraio', 'Marzo', 'Aprile'],
    'Guadagni': [100, None, 150, 200]
})

# Calcolare la somma cumulativa ignorando i NaN
df['Guadagni_cumulativi'] = df['Guadagni'].cumsum(skipna=True)
print(df)

```

**Output**:

```
      Mese  Guadagni  Guadagni_cumulativi
0   Gennaio       100                  100
1  Febbraio      NaN                  100
2     Marzo       150                  250
3    Aprile       200                  450

```

In questo caso, la funzione ha ignorato il `NaN` in Febbraio e ha continuato a calcolare la somma cumulativa per il resto dei mesi.

### Considerazioni finali:

- **Quando usarlo**:
    - `.cumsum()` è utile per tracciare progressi o accumuli, come in analisi finanziarie (somma dei guadagni nel tempo) o in altre aree in cui si vuole vedere un accumulo progressivo di valori.
    - `.cumprod()` è utile quando si lavora con crescite esponenziali o processi che coinvolgono moltiplicazioni successive, come nei calcoli finanziari (ad esempio, calcolare il valore cumulativo di un investimento che cresce a tassi composti).
- **Limitazioni**:
    - Se i dati contengono `NaN` e si sceglie `skipna=False`, il risultato sarà anch'esso `NaN` se si incontra un `NaN` nel calcolo.
    - Entrambi i metodi restituiscono una serie o DataFrame di dimensioni uguali a quelle originali, ma i valori risultanti potrebbero non essere direttamente interpretabili senza contesto (ad esempio, un prodotto cumulativo che diventa molto grande può non avere significato immediato).

In generale, questi metodi sono molto utili per analisi che richiedono la comprensione dell'accumulo o dell'effetto di cambiamenti successivi su un dato set di valori.

## `.diff()` – Calcola la differenza tra righe successive

Il metodo `.diff()` in pandas è utilizzato per calcolare la **differenza tra i valori di righe successive** in un DataFrame o una Serie. Questo è utile per analizzare i cambiamenti tra i valori in un dataset, come ad esempio il cambiamento nei prezzi, nei guadagni o nelle misure di performance tra periodi consecutivi.

### Sintassi:

```python
DataFrame.diff(periods=1, axis=0)

```

### Parametri principali:

1. **`periods`** (default = 1):
    - Indica di quante righe deve essere spostata la differenza. Se è impostato su 1 (default), calcola la differenza tra righe consecutive.
    - Se impostato su un valore maggiore (ad esempio 2), calcola la differenza tra la riga attuale e quella che si trova `n` righe sopra.
2. **`axis`** (default = 0):
    - **0**: Calcola la differenza lungo le righe (ovvero per ogni colonna).
    - **1**: Calcola la differenza lungo le colonne (ovvero per ogni riga). Questo non è comune, ma può essere utile in casi specifici.

### Esempi:

### 1. **Esempio di base con `.diff()`**:

Supponiamo di avere un DataFrame che mostra i guadagni mensili di un'azienda e vogliamo calcolare la differenza tra i guadagni di ciascun mese rispetto al mese precedente.

```python
import pandas as pd

# DataFrame di esempio
df = pd.DataFrame({
    'Mese': ['Gennaio', 'Febbraio', 'Marzo', 'Aprile'],
    'Guadagni': [100, 200, 150, 300]
})

# Calcolare la differenza tra i guadagni del mese corrente e quelli del mese precedente
df['Differenza_guadagni'] = df['Guadagni'].diff()
print(df)

```

**Output**:

```
      Mese  Guadagni  Differenza_guadagni
0   Gennaio       100                 NaN
1  Febbraio       200               100.0
2     Marzo       150              -50.0
3    Aprile       300               150.0

```

In questo esempio:

- La differenza per "Gennaio" è `NaN` perché non ci sono dati precedenti.
- La differenza per "Febbraio" è `200 - 100 = 100`.
- La differenza per "Marzo" è `150 - 200 = -50`.
- La differenza per "Aprile" è `300 - 150 = 150`.

### 2. **Esempio con `periods`**:

Supponiamo di voler calcolare la differenza tra un mese e il mese precedente, ma anche tra due mesi fa (ad esempio, calcolare la differenza a intervalli di due mesi).

```python
# Calcolare la differenza tra il mese corrente e il mese precedente (periodo=1)
df['Differenza_2_mesi'] = df['Guadagni'].diff(periods=2)
print(df)

```

**Output**:

```
      Mese  Guadagni  Differenza_guadagni  Differenza_2_mesi
0   Gennaio       100                 NaN                NaN
1  Febbraio       200               100.0                NaN
2     Marzo       150              -50.0               50.0
3    Aprile       300               150.0              100.0

```

In questo esempio, abbiamo:

- Per "Marzo", la differenza con il mese che si trova due posizioni indietro (`Febbraio` → `Gennaio`) è `150 - 100 = 50`.
- Per "Aprile", la differenza con il mese che si trova due posizioni indietro (`Marzo` → `Febbraio`) è `300 - 200 = 100`.

### 3. **Esempio con `axis=1`**:

Se desideriamo calcolare la differenza tra le colonne (non tra le righe), possiamo usare il parametro `axis=1`.

```python
df = pd.DataFrame({
    'A': [10, 20, 30, 40],
    'B': [5, 15, 25, 35],
    'C': [1, 2, 3, 4]
})

# Calcolare la differenza tra le colonne per ogni riga
df_diff = df.diff(axis=1)
print(df_diff)

```

**Output**:

```
    A   B  C
0 NaN  0.0 NaN
1 NaN  0.0 NaN
2 NaN  0.0 NaN
3 NaN  0.0 NaN

```

In questo esempio, la differenza tra le colonne viene calcolata per ogni riga. Poiché i valori sono in ordine crescente, il risultato della differenza tra le colonne per ciascuna riga è 0, ad eccezione dei valori `NaN` per le prime colonne.

### Considerazioni finali:

- **Quando usarlo**:
    - `.diff()` è utile quando si desidera analizzare la variazione tra i valori successivi di una colonna, come nei casi di:
        - Analisi di performance nel tempo (es. variazione giornaliera o mensile dei guadagni, prezzi, temperature, ecc.).
        - Analisi delle differenze tra periodi consecutivi per rilevare cambiamenti o trend.
    - Può essere utile anche per calcolare la variazione tra periodi distanti (utilizzando il parametro `periods`).
- **Limitazioni**:
    - Se c'è un valore `NaN` all'inizio o durante il calcolo, i risultati saranno anch'essi `NaN`.
    - Se i dati non sono ordinati temporalmente o in un ordine significativo, l'uso di `.diff()` potrebbe non avere senso o produrre risultati fuorvianti.

In generale, `.diff()` è un metodo potente per analizzare e visualizzare le variazioni nei dati tra righe consecutive o a intervalli specifici, rendendolo ideale per le analisi di serie temporali o altre applicazioni in cui è importante osservare i cambiamenti nel tempo.

## `.expanding()` – Applica trasformazioni espansive (es. somma cumulativa)

Il metodo `.expanding()` di pandas è utilizzato per applicare trasformazioni cumulative (o espansive) a un DataFrame o una Serie. Le operazioni cumulative calcolano valori basati su un intervallo che si espande progressivamente, prendendo in considerazione tutte le righe precedenti fino alla riga corrente.

### Sintassi:

```python
DataFrame.expanding(min_periods=1).funzione()

```

### Parametri principali:

1. **`min_periods`** (default = 1):
    - Imposta il numero minimo di periodi (righe) richiesti per calcolare il valore cumulativo. Se il numero di righe precedenti è inferiore a `min_periods`, restituirà `NaN` per quella riga.
    - È utile quando si desidera evitare calcoli cumulativi che non sono ancora "completi", come ad esempio la somma dei valori a partire dalla seconda riga.
2. **Funzioni applicabili**:
    - Le funzioni che possono essere applicate a un oggetto `.expanding()` includono funzioni statistiche e di aggregazione, come `.sum()`, `.mean()`, `.min()`, `.max()`, `.std()`, `.median()`, e altre funzioni personalizzate.

### Esempi:

### 1. **Esempio con la somma cumulativa (`.sum()`)**:

Supponiamo di avere un DataFrame che contiene vendite giornaliere e vogliamo calcolare la somma cumulativa delle vendite fino a ogni giorno.

```python
import pandas as pd

# DataFrame di esempio
df = pd.DataFrame({
    'Giorno': ['Lun', 'Mar', 'Mer', 'Gio', 'Ven'],
    'Vendite': [100, 200, 150, 300, 250]
})

# Somma cumulativa delle vendite
df['Somma_cumulativa'] = df['Vendite'].expanding().sum()
print(df)

```

**Output**:

```
  Giorno  Vendite  Somma_cumulativa
0    Lun      100               100
1    Mar      200               300
2    Mer      150               450
3    Gio      300               750
4    Ven      250              1000

```

In questo esempio:

- La somma cumulativa inizia da `100` (per il giorno "Lun").
- La somma cumulativa per "Mar" è `100 + 200 = 300`.
- E così via per gli altri giorni.

### 2. **Esempio con la media cumulativa (`.mean()`)**:

Supponiamo ora di voler calcolare la **media cumulativa** dei guadagni di ogni mese.

```python
# Media cumulativa delle vendite
df['Media_cumulativa'] = df['Vendite'].expanding().mean()
print(df)

```

**Output**:

```
  Giorno  Vendite  Somma_cumulativa  Media_cumulativa
0    Lun      100               100               100.0
1    Mar      200               300               150.0
2    Mer      150               450               150.0
3    Gio      300               750               187.5
4    Ven      250              1000               200.0

```

In questo esempio:

- La **media cumulativa** per il primo giorno è semplicemente il valore del giorno stesso (`100`).
- Per "Mar", la media cumulativa è `(100 + 200) / 2 = 150`.
- E così via per gli altri giorni.

### 3. **Esempio con `min()` e `max()`**:

Il metodo `.expanding()` può anche essere utilizzato con altre funzioni statistiche come `min()` e `max()` per ottenere il minimo e il massimo cumulativo fino alla riga corrente.

```python
# Minimo cumulativo
df['Min_cumulativo'] = df['Vendite'].expanding().min()

# Massimo cumulativo
df['Max_cumulativo'] = df['Vendite'].expanding().max()
print(df)

```

**Output**:

```
  Giorno  Vendite  Somma_cumulativa  Media_cumulativa  Min_cumulativo  Max_cumulativo
0    Lun      100               100               100.0             100             100
1    Mar      200               300               150.0             100             200
2    Mer      150               450               150.0             100             200
3    Gio      300               750               187.5             100             300
4    Ven      250              1000               200.0             100             300

```

In questo esempio:

- **Minimo cumulativo**: Il minimo resta `100` fino a "Ven", poiché `100` è il valore minimo per tutte le righe.
- **Massimo cumulativo**: Il massimo aumenta man mano che vengono inclusi valori più alti (ad esempio, `300` è il massimo tra tutte le vendite).

### Considerazioni finali:

- **Quando usarlo**:
    - `.expanding()` è utile quando si desidera applicare trasformazioni cumulative che si costruiscono progressivamente lungo il dataset.
    - Funziona bene per calcolare valori come la somma, la media, il massimo e il minimo, e può essere applicato per analisi su serie temporali o qualsiasi dataset dove è importante tracciare come cambiano i valori nel tempo o con l'aggiunta di nuove righe.
    - È particolarmente utile per analizzare come un aggregato si sviluppa o cambia con l'inclusione di più dati, senza dover ripetere i calcoli ogni volta che nuovi dati vengono aggiunti.
- **Limitazioni**:
    - L'uso di `.expanding()` è limitato a trasformazioni che hanno un senso cumulativo, come somme, medie e simili. Non è adatto per calcoli che dipendono solo dai dati correnti o per analisi che richiedono valori statici.
    - Se il dataset è molto grande, l'applicazione di trasformazioni cumulative potrebbe aumentare il tempo di esecuzione, soprattutto se la funzione applicata è complessa.

In generale, `.expanding()` è un potente strumento per applicare operazioni che devono essere eseguite su finestre che crescono nel tempo, rendendolo ideale per analisi temporali o di serie storiche.

### `.expanding()` – Applica trasformazioni espansive (es. somma cumulativa)

Il metodo `.expanding()` di pandas è utilizzato per applicare trasformazioni cumulative (o espansive) a un DataFrame o una Serie. Le operazioni cumulative calcolano valori basati su un intervallo che si espande progressivamente, prendendo in considerazione tutte le righe precedenti fino alla riga corrente.

### Sintassi:

```python
DataFrame.expanding(min_periods=1).funzione()

```

### Parametri principali:

1. **`min_periods`** (default = 1):
    - Imposta il numero minimo di periodi (righe) richiesti per calcolare il valore cumulativo. Se il numero di righe precedenti è inferiore a `min_periods`, restituirà `NaN` per quella riga.
    - È utile quando si desidera evitare calcoli cumulativi che non sono ancora "completi", come ad esempio la somma dei valori a partire dalla seconda riga.
2. **Funzioni applicabili**:
    - Le funzioni che possono essere applicate a un oggetto `.expanding()` includono funzioni statistiche e di aggregazione, come `.sum()`, `.mean()`, `.min()`, `.max()`, `.std()`, `.median()`, e altre funzioni personalizzate.

### Esempi:

### 1. **Esempio con la somma cumulativa (`.sum()`)**:

Supponiamo di avere un DataFrame che contiene vendite giornaliere e vogliamo calcolare la somma cumulativa delle vendite fino a ogni giorno.

```python
import pandas as pd

# DataFrame di esempio
df = pd.DataFrame({
    'Giorno': ['Lun', 'Mar', 'Mer', 'Gio', 'Ven'],
    'Vendite': [100, 200, 150, 300, 250]
})

# Somma cumulativa delle vendite
df['Somma_cumulativa'] = df['Vendite'].expanding().sum()
print(df)

```

**Output**:

```
  Giorno  Vendite  Somma_cumulativa
0    Lun      100               100
1    Mar      200               300
2    Mer      150               450
3    Gio      300               750
4    Ven      250              1000

```

In questo esempio:

- La somma cumulativa inizia da `100` (per il giorno "Lun").
- La somma cumulativa per "Mar" è `100 + 200 = 300`.
- E così via per gli altri giorni.

### 2. **Esempio con la media cumulativa (`.mean()`)**:

Supponiamo ora di voler calcolare la **media cumulativa** dei guadagni di ogni mese.

```python
# Media cumulativa delle vendite
df['Media_cumulativa'] = df['Vendite'].expanding().mean()
print(df)

```

**Output**:

```
  Giorno  Vendite  Somma_cumulativa  Media_cumulativa
0    Lun      100               100               100.0
1    Mar      200               300               150.0
2    Mer      150               450               150.0
3    Gio      300               750               187.5
4    Ven      250              1000               200.0

```

In questo esempio:

- La **media cumulativa** per il primo giorno è semplicemente il valore del giorno stesso (`100`).
- Per "Mar", la media cumulativa è `(100 + 200) / 2 = 150`.
- E così via per gli altri giorni.

### 3. **Esempio con `min()` e `max()`**:

Il metodo `.expanding()` può anche essere utilizzato con altre funzioni statistiche come `min()` e `max()` per ottenere il minimo e il massimo cumulativo fino alla riga corrente.

```python
# Minimo cumulativo
df['Min_cumulativo'] = df['Vendite'].expanding().min()

# Massimo cumulativo
df['Max_cumulativo'] = df['Vendite'].expanding().max()
print(df)

```

**Output**:

```
  Giorno  Vendite  Somma_cumulativa  Media_cumulativa  Min_cumulativo  Max_cumulativo
0    Lun      100               100               100.0             100             100
1    Mar      200               300               150.0             100             200
2    Mer      150               450               150.0             100             200
3    Gio      300               750               187.5             100             300
4    Ven      250              1000               200.0             100             300

```

In questo esempio:

- **Minimo cumulativo**: Il minimo resta `100` fino a "Ven", poiché `100` è il valore minimo per tutte le righe.
- **Massimo cumulativo**: Il massimo aumenta man mano che vengono inclusi valori più alti (ad esempio, `300` è il massimo tra tutte le vendite).

### Considerazioni finali:

- **Quando usarlo**:
    - `.expanding()` è utile quando si desidera applicare trasformazioni cumulative che si costruiscono progressivamente lungo il dataset.
    - Funziona bene per calcolare valori come la somma, la media, il massimo e il minimo, e può essere applicato per analisi su serie temporali o qualsiasi dataset dove è importante tracciare come cambiano i valori nel tempo o con l'aggiunta di nuove righe.
    - È particolarmente utile per analizzare come un aggregato si sviluppa o cambia con l'inclusione di più dati, senza dover ripetere i calcoli ogni volta che nuovi dati vengono aggiunti.
- **Limitazioni**:
    - L'uso di `.expanding()` è limitato a trasformazioni che hanno un senso cumulativo, come somme, medie e simili. Non è adatto per calcoli che dipendono solo dai dati correnti o per analisi che richiedono valori statici.
    - Se il dataset è molto grande, l'applicazione di trasformazioni cumulative potrebbe aumentare il tempo di esecuzione, soprattutto se la funzione applicata è complessa.

In generale, `.expanding()` è un potente strumento per applicare operazioni che devono essere eseguite su finestre che crescono nel tempo, rendendolo ideale per analisi temporali o di serie storiche.

## `.pipe()` – Utilizza funzioni personalizzate sul DataFrame

Il metodo `.pipe()` di pandas è un modo molto utile per applicare funzioni personalizzate a un DataFrame o una Serie. Esso permette di concatenare diverse trasformazioni in modo fluido, rendendo il codice più leggibile e facilmente estensibile, specialmente quando si desidera applicare più operazioni su un DataFrame in sequenza.

Il vantaggio principale di `.pipe()` è che consente di mantenere il flusso delle operazioni più chiaro e consente di utilizzare funzioni personalizzate con parametri, che possono essere facilmente incapsulate in una pipeline di trasformazione.

### Sintassi:

```python
DataFrame.pipe(func, *args, **kwargs)

```

### Parametri principali:

- **`func`**: La funzione che verrà applicata al DataFrame (o Serie). Può essere una funzione predefinita o una funzione personalizzata definita dall'utente.
- **`args`**: Argomenti aggiuntivi che verranno passati alla funzione.
- **`*kwargs`**: Argomenti keyword che verranno passati alla funzione.

La funzione `func` deve accettare un oggetto DataFrame o Serie come primo argomento (o uno specificato dall'utente) e restituire un DataFrame o una Serie come risultato.

### Esempi:

### 1. **Esempio base di utilizzo con `.pipe()`**:

Supponiamo di avere un DataFrame e di voler eseguire una serie di operazioni come il filtraggio dei valori e l'applicazione di una trasformazione.

```python
import pandas as pd

# Creazione del DataFrame di esempio
df = pd.DataFrame({
    'A': [1, 2, 3, 4, 5],
    'B': [5, 4, 3, 2, 1]
})

# Funzione personalizzata per sommare una costante a tutte le colonne
def add_constant(df, constant):
    return df + constant

# Applicazione della funzione tramite .pipe()
df_transformed = df.pipe(add_constant, 10)
print(df_transformed)

```

**Output**:

```
    A   B
0  11  15
1  12  14
2  13  13
3  14  12
4  15  11

```

In questo esempio, abbiamo creato una funzione `add_constant` che somma una costante a tutti i valori del DataFrame. Abbiamo utilizzato `.pipe()` per applicarla, passando il valore `10` come argomento.

### 2. **Esempio di concatenazione di operazioni con `.pipe()`**:

Supponiamo di voler applicare più trasformazioni, come la normalizzazione dei valori e poi l'applicazione di una funzione per calcolare il quadrato di tutti i valori.

```python
# Funzione per normalizzare un DataFrame
def normalize(df):
    return (df - df.mean()) / df.std()

# Funzione per elevare al quadrato i valori
def square(df):
    return df**2

# Concatenazione delle operazioni usando .pipe()
df_transformed = (df.pipe(normalize)
                  .pipe(square))
print(df_transformed)

```

**Output**:

```
          A         B
0  1.000000  1.000000
1  0.577350  0.577350
2  0.000000  0.000000
3  0.577350  0.577350
4  1.000000  1.000000

```

In questo esempio:

1. **`normalize()`**: Prima normalizza il DataFrame (standardizzazione dei valori).
2. **`square()`**: Poi eleva al quadrato i valori risultanti.

Usando `.pipe()`, possiamo concatenare le operazioni in un'unica sequenza leggibile.

### 3. **Esempio di utilizzo con funzioni che accettano argomenti personalizzati**:

Quando si desidera applicare una funzione con parametri personalizzati, `.pipe()` consente di passare gli argomenti in modo semplice.

```python
# Funzione che applica una moltiplicazione personalizzata
def multiply(df, multiplier):
    return df * multiplier

# Applicazione della funzione tramite .pipe() con argomento personalizzato
df_transformed = df.pipe(multiply, 2)
print(df_transformed)

```

**Output**:

```
   A   B
0  2  10
1  4  8
2  6  6
3  8  4
4  10 2

```

In questo caso, la funzione `multiply` prende il DataFrame e un parametro `multiplier` per moltiplicare tutti i valori del DataFrame per `2`.

### Considerazioni finali:

- **Quando usarlo**:
    - `.pipe()` è particolarmente utile quando si desidera creare una pipeline di trasformazioni fluida e leggibile, soprattutto se si vogliono applicare più funzioni personalizzate a un DataFrame.
    - È ideale quando si ha una serie di trasformazioni che devono essere applicate in sequenza e si vogliono evitare lunghe catene di metodi o la ripetizione di funzioni in un blocco di codice.
    - È anche utile quando si lavora con funzioni che richiedono parametri aggiuntivi e non si vuole passare continuamente questi parametri tra le chiamate di funzione.
- **Limitazioni**:
    - `.pipe()` può sembrare un po' più complesso da comprendere per i principianti, poiché si richiede l'uso di funzioni personalizzate e la gestione di argomenti extra.
    - È più adatto per operazioni che devono essere concatenare piuttosto che per operazioni di base. Non sempre è necessario utilizzare `.pipe()` se le operazioni sono semplici.

In generale, `.pipe()` è una funzionalità potente per applicare trasformazioni personalizzate e organizzare il flusso di lavoro in modo chiaro e modulare, migliorando la leggibilità e la manutenibilità del codice.

## `.eval()` – Valuta un'espressione Python come colonna del DataFrame

Il metodo `.eval()` di pandas consente di eseguire espressioni Python su un DataFrame in modo efficiente. In pratica, permette di calcolare valori e creare nuove colonne o modificare quelle esistenti usando espressioni scritte in una sintassi simile a quella di Python, ma operando direttamente sulle colonne del DataFrame.

Utilizzare `.eval()` può portare a un miglioramento delle prestazioni rispetto alla scrittura di operazioni su DataFrame con operazioni di tipo standard (ad esempio, `df['A'] + df['B']`), specialmente con DataFrame di grandi dimensioni.

### Sintassi:

```python
DataFrame.eval(expr, inplace=False, **kwargs)

```

### Parametri principali:

- **`expr`**: Una stringa che rappresenta l'espressione da valutare. Può essere un'espressione matematica, booleana o una combinazione di operazioni tra le colonne del DataFrame.
- **`inplace`**: Booleano che, se impostato su `True`, modifica direttamente il DataFrame originale. Se `False`, restituisce un nuovo DataFrame senza modificare quello originale. Il valore predefinito è `False`.
- **`*kwargs`**: Parametri opzionali che possono essere passati per gestire variabili esterne, ad esempio con il parametro `bindings` per associare variabili esterne all'espressione.

### Esempi:

### 1. **Esempio base di `.eval()` per operazioni matematiche**:

Supponiamo di avere un DataFrame con due colonne e di voler creare una nuova colonna che sia il risultato di una somma tra le due colonne.

```python
import pandas as pd

# Creazione del DataFrame di esempio
df = pd.DataFrame({
    'A': [1, 2, 3, 4],
    'B': [5, 6, 7, 8]
})

# Creazione della colonna 'C' come somma delle colonne 'A' e 'B'
df.eval('C = A + B', inplace=True)

print(df)

```

**Output**:

```
   A  B  C
0  1  5  6
1  2  6  8
2  3  7 10
3  4  8 12

```

In questo esempio, l'espressione `'C = A + B'` viene valutata direttamente e una nuova colonna `C` viene creata come somma delle colonne `A` e `B`.

### 2. **Esempio di `.eval()` per operazioni booleane**:

Puoi anche utilizzare `.eval()` per applicare condizioni booleane. Ad esempio, supponiamo di voler creare una nuova colonna che indichi se la somma di `A` e `B` è maggiore di un certo valore.

```python
# Creazione della colonna 'Flag' che verifica se la somma di A e B è maggiore di 10
df.eval('Flag = (A + B) > 10', inplace=True)

print(df)

```

**Output**:

```
   A  B  C  Flag
0  1  5  6  False
1  2  6  8  False
2  3  7 10   True
3  4  8 12   True

```

Qui, abbiamo utilizzato `.eval()` per creare la colonna `Flag`, che è `True` quando la somma delle colonne `A` e `B` è maggiore di `10`, e `False` altrimenti.

### 3. **Esempio di utilizzo di variabili esterne**:

Puoi anche passare variabili esterne all'interno dell'espressione. Questo è particolarmente utile quando hai bisogno di lavorare con valori che non sono nel DataFrame, ma che vuoi utilizzare per calcoli.

```python
# Variabile esterna
multiplier = 3

# Creazione della colonna 'D' come risultato della moltiplicazione di A e del valore esterno 'multiplier'
df.eval('D = A * @multiplier', inplace=True)

print(df)

```

**Output**:

```
   A  B  C  Flag  D
0  1  5  6  False  3
1  2  6  8  False  6
2  3  7 10   True  9
3  4  8 12   True 12

```

In questo esempio, abbiamo utilizzato il simbolo `@` per fare riferimento alla variabile esterna `multiplier` e moltiplicare la colonna `A` per questo valore.

### 4. **Esempio di utilizzo con `inplace=False`**:

Se non vuoi modificare direttamente il DataFrame originale, puoi impostare `inplace=False` per ottenere un nuovo DataFrame con le modifiche applicate.

```python
# Creazione di un nuovo DataFrame con la colonna 'E' come differenza tra 'B' e 'A'
df_new = df.eval('E = B - A', inplace=False)

print(df_new)

```

**Output**:

```
   A  B  C  Flag  D  E
0  1  5  6  False  3  4
1  2  6  8  False  6  4
2  3  7 10   True  9  4
3  4  8 12   True 12  4

```

In questo esempio, `df` non viene modificato, ma viene creato un nuovo DataFrame `df_new` con la colonna `E`.

### Considerazioni finali:

- **Quando usarlo**:
    - `.eval()` è particolarmente utile quando si desidera applicare espressioni matematiche o booleane su più colonne in modo conciso e leggibile.
    - È ideale per operazioni su grandi DataFrame dove l'uso di `.eval()` può migliorare le prestazioni rispetto a scrivere operazioni di calcolo tramite codice più complesso.
    - Può essere utile quando si lavora con variabili esterne che devono essere utilizzate all'interno delle espressioni.
- **Limitazioni**:
    - Non supporta tutte le operazioni, in particolare quelle che coinvolgono metodi complessi o funzioni non scalari che non possono essere rappresentati facilmente in una stringa di espressione.
    - Non tutte le funzioni personalizzate possono essere usate con `.eval()`, poiché l'espressione è limitata a operazioni matematiche e logiche basilari.

In generale, `.eval()` è un potente strumento che rende il calcolo di nuove colonne e operazioni tra colonne più efficiente e leggibile, soprattutto su DataFrame di grandi dimensioni.

# 6. Aggregation and Grouping

## `.groupby()` – Raggruppa il DataFrame in base a una o più colonne

Il comando `.groupby()` è uno dei metodi fondamentali di Pandas utilizzato per raggruppare i dati in un DataFrame in base a una o più colonne. Dopo aver effettuato il raggruppamento, è possibile eseguire operazioni aggregate, come somme, medie, conteggi, ecc., su ciascun gruppo.

### Principali parametri di `.groupby()`

1. **by**:
    - Descrizione: Indica la colonna o le colonne su cui si vuole effettuare il raggruppamento.
    - Tipo: Stringa o lista di stringhe.
    - Esempio:
        - Raggruppamento per una singola colonna: `df.groupby('colonna1')`
        - Raggruppamento per più colonne: `df.groupby(['colonna1', 'colonna2'])`
2. **axis**:
    - Descrizione: Specifica se il raggruppamento deve avvenire lungo le righe o le colonne. Di solito è impostato su `0` (per le righe), ma può essere cambiato su `1` per le colonne.
    - Tipo: Intero (0 o 1).
    - Esempio: `df.groupby('colonna', axis=0)` (questo è il comportamento predefinito).
3. **as_index**:
    - Descrizione: Se impostato su `True` (predefinito), l'indice del DataFrame risultante sarà il valore della colonna utilizzata per il raggruppamento. Se impostato su `False`, la colonna utilizzata per il raggruppamento non diventerà l'indice del DataFrame risultante.
    - Tipo: Booleano.
    - Esempio:
        - `df.groupby('colonna', as_index=True)`
        - `df.groupby('colonna', as_index=False)`
4. **sort**:
    - Descrizione: Determina se i gruppi devono essere ordinati o meno. Se `True`, i gruppi vengono ordinati per le chiavi. Se `False`, i gruppi non sono ordinati.
    - Tipo: Booleano.
    - Esempio: `df.groupby('colonna', sort=False)`
5. **group_keys**:
    - Descrizione: Se impostato su `True`, le chiavi del gruppo verranno incluse come indice del risultato.
    - Tipo: Booleano.
    - Esempio: `df.groupby('colonna', group_keys=True)`
6. **observed**:
    - Descrizione: Questo parametro è utilizzato per lavorare con variabili categoriali. Se `True`, l'output conterrà solo le categorie osservate nei dati. Se `False` (predefinito), includerà tutte le categorie possibili, anche quelle non presenti nei dati.
    - Tipo: Booleano.
    - Esempio: `df.groupby('colonna', observed=True)`

### Esempi

1. **Raggruppare per una colonna e calcolare la somma**:
    
    ```python
    import pandas as pd
    
    df = pd.DataFrame({
        'Categoria': ['A', 'B', 'A', 'B', 'A'],
        'Valore': [10, 20, 30, 40, 50]
    })
    
    grouped = df.groupby('Categoria')['Valore'].sum()
    print(grouped)
    
    ```
    
    **Output**:
    
    ```
    Categoria
    A    90
    B    60
    Name: Valore, dtype: int64
    
    ```
    
2. **Raggruppare per più colonne e calcolare la media**:
    
    ```python
    df = pd.DataFrame({
        'Gruppo': ['A', 'A', 'B', 'B', 'A'],
        'Sesso': ['M', 'F', 'M', 'F', 'M'],
        'Età': [23, 25, 30, 35, 40]
    })
    
    grouped = df.groupby(['Gruppo', 'Sesso'])['Età'].mean()
    print(grouped)
    
    ```
    
    **Output**:
    
    ```
    Gruppo  Sesso
    A       F        25.0
            M        31.5
    B       F        35.0
            M        30.0
    Name: Età, dtype: float64
    
    ```
    
3. **Raggruppare senza cambiare l'indice**:
    
    ```python
    grouped = df.groupby('Categoria', as_index=False)['Valore'].sum()
    print(grouped)
    
    ```
    
    **Output**:
    
    ```
      Categoria  Valore
    0         A      90
    1         B      60
    
    ```
    

### Considerazioni Finali

- **Quando usare `.groupby()`**:
    - Quando hai bisogno di aggregare i dati in base a una o più colonne e vuoi eseguire operazioni statistiche come somma, media, conteggio, ecc.
    - È utile quando si analizzano dataset complessi con più variabili e si vogliono ottenere insights sui vari gruppi di dati.
    - Utile anche per raggruppamenti gerarchici, come nei dati temporali o geografici.
- **Casi d'uso comuni**:
    - Raggruppamento di dati di vendite per prodotto, mese o anno.
    - Calcolo delle statistiche aggregate per ciascun gruppo (es. media del reddito per ogni fascia di età).
    - Operazioni con dati di clienti in base a diverse caratteristiche (es. numero di transazioni per tipo di cliente).

Usa `.groupby()` quando hai dati eterogenei e hai bisogno di aggregare, riassumere o estrarre informazioni da gruppi specifici in modo efficiente.

## `.agg()` – Applica funzioni di aggregazione come somma, media, min, max sui dati raggruppati

Il metodo `.agg()` di Pandas è utilizzato per applicare funzioni di aggregazione a un oggetto `GroupBy` (come quello creato con `.groupby()`). Consente di applicare più funzioni di aggregazione sui dati raggruppati e restituire risultati personalizzati.

### Principali parametri di `.agg()`

1. **func**:
    - Descrizione: Una funzione o una lista di funzioni da applicare ai dati raggruppati. Può essere:
        - Una singola funzione (ad esempio `'sum'`, `'mean'`, `'min'`, `'max'`).
        - Una lista di funzioni da applicare simultaneamente (ad esempio, `['sum', 'mean']`).
        - Un dizionario in cui ogni colonna ha una funzione specifica da applicare.
    - Tipo: Stringa, lista di stringhe, dizionario o funzione.
    - Esempio:
        - `df.groupby('colonna').agg('sum')`
        - `df.groupby('colonna').agg(['mean', 'min'])`
        - `df.groupby('colonna').agg({'colonna1': 'sum', 'colonna2': 'mean'})`
2. **axis**:
    - Descrizione: Determina se l'aggregazione deve essere applicata lungo le righe o le colonne. Impostato su `0` per le righe (comportamento predefinito).
    - Tipo: Intero (0 o 1).
    - Esempio: `df.groupby('colonna').agg('sum', axis=0)` (predefinito).

### Esempi

1. **Applicare una funzione di aggregazione (somma)**:
    
    ```python
    import pandas as pd
    
    df = pd.DataFrame({
        'Categoria': ['A', 'B', 'A', 'B', 'A'],
        'Valore': [10, 20, 30, 40, 50]
    })
    
    # Raggruppa per 'Categoria' e applica la somma sui valori
    grouped = df.groupby('Categoria').agg('sum')
    print(grouped)
    
    ```
    
    **Output**:
    
    ```
              Valore
    Categoria
    A                90
    B                60
    
    ```
    
2. **Applicare più funzioni di aggregazione (somma e media)**:
    
    ```python
    grouped = df.groupby('Categoria').agg(['sum', 'mean'])
    print(grouped)
    
    ```
    
    **Output**:
    
    ```
              Valore
                sum mean
    Categoria
    A                90   30.0
    B                60   30.0
    
    ```
    
3. **Usare un dizionario per applicare diverse funzioni su colonne specifiche**:
    
    ```python
    df = pd.DataFrame({
        'Categoria': ['A', 'B', 'A', 'B', 'A'],
        'Valore': [10, 20, 30, 40, 50],
        'Quantità': [1, 2, 3, 4, 5]
    })
    
    # Raggruppa per 'Categoria' e applica 'sum' su 'Valore' e 'mean' su 'Quantità'
    grouped = df.groupby('Categoria').agg({'Valore': 'sum', 'Quantità': 'mean'})
    print(grouped)
    
    ```
    
    **Output**:
    
    ```
              Valore  Quantità
    Categoria
    A                90        3.0
    B                60        3.0
    
    ```
    
4. **Applicare una funzione personalizzata**:
    
    ```python
    df = pd.DataFrame({
        'Categoria': ['A', 'B', 'A', 'B', 'A'],
        'Valore': [10, 20, 30, 40, 50]
    })
    
    # Raggruppa per 'Categoria' e applica una funzione personalizzata che calcola la deviazione standard
    grouped = df.groupby('Categoria').agg(lambda x: x.std())
    print(grouped)
    
    ```
    
    **Output**:
    
    ```
              Valore
    Categoria
    A                20.0
    B                14.142136
    
    ```
    

### Considerazioni Finali

- **Quando usare `.agg()`**:
    - Quando hai bisogno di applicare più funzioni di aggregazione su un `GroupBy` e ottenere risultati aggregati più complessi.
    - È utile quando vuoi ottenere statistiche descrittive su più colonne contemporaneamente, come somma, media, deviazione standard, minimo e massimo, per gruppi specifici.
    - Può essere usato per applicare funzioni personalizzate che non sono incluse tra le funzioni predefinite.
- **Casi d'uso comuni**:
    - Analisi dei dati di vendita: somma delle vendite e media degli importi per ogni categoria di prodotto.
    - Analisi dei punteggi degli studenti: somma dei punteggi e media dei tempi di studio per ogni classe.
    - Aggiornamento delle metriche finanziarie: minimo e massimo dei saldi dei conti bancari per ogni segmento di cliente.

**Nota**: L'uso di `.agg()` è particolarmente utile quando hai bisogno di più operazioni di aggregazione su un gruppo o quando le funzioni di aggregazione predefinite non sono sufficienti per le tue esigenze.

## `.sum()`, `.mean()`, `.min()`, `.max()`, `.count()` – Calcola direttamente queste statistiche

I metodi `.sum()`, `.mean()`, `.min()`, `.max()`, e `.count()` sono funzioni di aggregazione che vengono comunemente utilizzate in Pandas per calcolare statistiche dirette sui dati. Questi metodi sono generalmente utilizzati sui DataFrame o Series per ottenere informazioni aggregate in modo semplice e veloce.

### 1. **`.sum()`** - Calcola la somma degli elementi

- **Descrizione**: Restituisce la somma degli elementi di una colonna o riga del DataFrame o della Series.
- **Applicazione**: Può essere utilizzato per calcolare la somma totale dei valori numerici di una colonna (ad esempio, somma delle vendite, somma dei punteggi).
- **Tipo di ritorno**: Un singolo valore (se applicato su una Series), o un DataFrame con la somma per ogni colonna (se applicato su un DataFrame).
- **Esempio**:
**Output**:
    
    ```python
    df = pd.DataFrame({
        'Categoria': ['A', 'B', 'A', 'B', 'A'],
        'Vendite': [10, 20, 30, 40, 50]
    })
    
    somma = df['Vendite'].sum()
    print(somma)
    
    ```
    
    ```
    150
    
    ```
    

### 2. **`.mean()`** - Calcola la media degli elementi

- **Descrizione**: Restituisce la media (o la media aritmetica) dei valori numerici di una colonna o di una riga.
- **Applicazione**: Utile per calcolare la media dei punteggi, delle vendite o di qualsiasi altra variabile numerica.
- **Tipo di ritorno**: Un singolo valore (se applicato su una Series), o un DataFrame con la media per ogni colonna (se applicato su un DataFrame).
- **Esempio**:
**Output**:
    
    ```python
    media = df['Vendite'].mean()
    print(media)
    
    ```
    
    ```
    30.0
    
    ```
    

### 3. **`.min()`** - Restituisce il valore minimo

- **Descrizione**: Restituisce il valore minimo della colonna o della Series.
- **Applicazione**: Utilizzato per trovare il valore più basso, come il prezzo minimo di un prodotto, o il punteggio più basso tra gli studenti.
- **Tipo di ritorno**: Il valore minimo (per una Series) o una Series con il minimo per ogni colonna (per un DataFrame).
- **Esempio**:
**Output**:
    
    ```python
    minimo = df['Vendite'].min()
    print(minimo)
    
    ```
    
    ```
    10
    
    ```
    

### 4. **`.max()`** - Restituisce il valore massimo

- **Descrizione**: Restituisce il valore massimo di una colonna o Series.
- **Applicazione**: Utile per trovare il valore più alto, come il valore massimo di vendite o il punteggio più alto.
- **Tipo di ritorno**: Il valore massimo (per una Series) o una Series con il massimo per ogni colonna (per un DataFrame).
- **Esempio**:
**Output**:
    
    ```python
    massimo = df['Vendite'].max()
    print(massimo)
    
    ```
    
    ```
    50
    
    ```
    

### 5. **`.count()`** - Conta il numero di valori non nulli

- **Descrizione**: Restituisce il numero di valori non nulli (non NaN) in una colonna o in una Series.
- **Applicazione**: Utile per determinare quanti valori validi ci sono in una colonna, come il numero di risposte valide in un sondaggio.
- **Tipo di ritorno**: Il conteggio dei valori non nulli (per una Series) o una Series con il conteggio per ogni colonna (per un DataFrame).
- **Esempio**:
**Output**:
    
    ```python
    count = df['Vendite'].count()
    print(count)
    
    ```
    
    ```
    5
    
    ```
    

### Esempi pratici

1. **Esempio su un DataFrame con più colonne**:
    
    ```python
    df = pd.DataFrame({
        'Categoria': ['A', 'B', 'A', 'B', 'A'],
        'Vendite': [10, 20, 30, 40, 50],
        'Profitto': [5, 10, 15, 20, 25]
    })
    
    # Somma di tutte le colonne numeriche
    somma = df.sum()
    print(somma)
    
    ```
    
    **Output**:
    
    ```
    Categoria     ABA
    Vendite        150
    Profitto       75
    dtype: object
    
    ```
    
2. **Esempio con .groupby() e statistiche aggregate**:
    
    ```python
    df = pd.DataFrame({
        'Categoria': ['A', 'B', 'A', 'B', 'A'],
        'Vendite': [10, 20, 30, 40, 50],
        'Profitto': [5, 10, 15, 20, 25]
    })
    
    # Raggruppa per 'Categoria' e calcola somma e media
    result = df.groupby('Categoria').agg({
        'Vendite': 'sum',
        'Profitto': 'mean'
    })
    print(result)
    
    ```
    
    **Output**:
    
    ```
              Vendite  Profitto
    Categoria
    A                90      15.0
    B                60      15.0
    
    ```
    

### Considerazioni Finali

- **Quando usare `.sum()`, `.mean()`, `.min()`, `.max()`, `.count()`**:
    - **.sum()** è utile per ottenere il totale di una variabile, ad esempio il totale delle vendite o dei profitti.
    - **.mean()** è ideale quando hai bisogno di ottenere la media di una variabile numerica, come la media dei punteggi, dei saldi, o dei redditi.
    - **.min() e .max()** sono utili per trovare i valori estremi, come il minimo e il massimo dei prezzi, dei punteggi o delle vendite.
    - **.count()** è fondamentale per contare il numero di valori validi (non nulli) in una colonna o Serie, ad esempio per verificare il numero di transazioni o di risposte in un sondaggio.

Questi metodi sono semplici e molto veloci, quindi sono adatti per un'analisi iniziale dei dati. Quando hai bisogno di statistiche descrittive rapide su un DataFrame o una Serie, questi metodi sono gli strumenti perfetti da usare.

## `.pivot_table()` – Crea una tabella pivot con righe, colonne e valori specificati

Il metodo `.pivot_table()` di Pandas viene utilizzato per creare tabelle pivot, che sono una rappresentazione tabellare dei dati dove è possibile aggregare (riassumere) informazioni in base a righe, colonne e valori specifici. È molto utile per esplorare e analizzare grandi quantità di dati in modo sintetico.

### Principali parametri di `.pivot_table()`

1. **data**:
    - Descrizione: Il DataFrame su cui eseguire la pivot.
    - Tipo: DataFrame.
    - Esempio: `df` (un DataFrame contenente i dati).
2. **values**:
    - Descrizione: Le colonne per le quali calcolare le aggregazioni (ad esempio, somma, media).
    - Tipo: Stringa o lista di stringhe (nomi delle colonne).
    - Esempio: `'Vendite'`, `['Vendite', 'Profitto']`.
3. **index**:
    - Descrizione: Le colonne da usare come indice per le righe della tabella pivot.
    - Tipo: Stringa o lista di stringhe.
    - Esempio: `'Categoria'`, `['Categoria', 'Anno']`.
4. **columns**:
    - Descrizione: Le colonne da usare come intestazioni delle colonne della tabella pivot.
    - Tipo: Stringa o lista di stringhe.
    - Esempio: `'Mese'`.
5. **aggfunc**:
    - Descrizione: La funzione di aggregazione da utilizzare per calcolare i valori nella tabella pivot (ad esempio, somma, media, conteggio).
    - Tipo: Funzione (ad esempio, `'sum'`, `'mean'`, `'count'`, o una funzione personalizzata).
    - Default: `'mean'`.
    - Esempio: `np.sum`, `'mean'`, `'count'`.
6. **fill_value**:
    - Descrizione: Un valore con cui riempire i NaN (valori mancanti) nella tabella pivot.
    - Tipo: Qualsiasi (es. `0`, `'NA'`, ecc.).
    - Esempio: `0`, `'N/A'`.
7. **margins**:
    - Descrizione: Se `True`, aggiunge una colonna e una riga di margine con i totali (somme o medie).
    - Tipo: Booleano.
    - Default: `False`.
    - Esempio: `margins=True`.
8. **margins_name**:
    - Descrizione: Nome per le righe/colonne di margine, utilizzato quando `margins=True`.
    - Tipo: Stringa.
    - Esempio: `'Totale'`.

### Esempi pratici

1. **Creare una tabella pivot di base con somma**:
    
    ```python
    import pandas as pd
    
    # Creiamo un DataFrame di esempio
    df = pd.DataFrame({
        'Categoria': ['A', 'B', 'A', 'B', 'A'],
        'Mese': ['Gennaio', 'Gennaio', 'Febbraio', 'Febbraio', 'Marzo'],
        'Vendite': [10, 20, 30, 40, 50],
        'Profitto': [5, 10, 15, 20, 25]
    })
    
    # Creare una tabella pivot con le 'Categoria' come righe, 'Mese' come colonne e 'Vendite' come valori
    pivot = df.pivot_table(values='Vendite', index='Categoria', columns='Mese', aggfunc='sum', fill_value=0)
    print(pivot)
    
    ```
    
    **Output**:
    
    ```
    Mese      Febbraio  Gennaio  Marzo
    Categoria
    A               30       10     50
    B               40       20      0
    
    ```
    
    In questo esempio, la tabella pivot mostra la somma delle vendite per ogni categoria e mese. Se non ci sono dati per una combinazione, il valore viene sostituito con `0` grazie all'uso di `fill_value=0`.
    
2. **Aggiungere margini (totali)**:
    
    ```python
    pivot = df.pivot_table(values='Vendite', index='Categoria', columns='Mese', aggfunc='sum', margins=True, margins_name='Totale', fill_value=0)
    print(pivot)
    
    ```
    
    **Output**:
    
    ```
    Mese      Febbraio  Gennaio  Marzo  Totale
    Categoria
    A               30       10     50      90
    B               40       20      0      60
    Totale          70       30     50     150
    
    ```
    
    Qui, `margins=True` ha aggiunto una colonna e una riga che contengono i totali delle vendite per mese e per categoria.
    
3. **Usare più colonne di aggregazione (media e somma)**:
    
    ```python
    pivot = df.pivot_table(values=['Vendite', 'Profitto'], index='Categoria', columns='Mese', aggfunc={'Vendite': 'sum', 'Profitto': 'mean'}, margins=True, margins_name='Totale', fill_value=0)
    print(pivot)
    
    ```
    
    **Output**:
    
    ```
            Profitto                Vendite
    Mese       Febbraio Gennaio Marzo Febbraio Gennaio Marzo Totale
    Categoria
    A                15       5    25      30       10     50     90
    B                20      10     0      40       20      0     60
    Totale           35      15    25      70       30     50    150
    
    ```
    
    In questo caso, abbiamo specificato diverse funzioni di aggregazione per ogni colonna: la somma per `Vendite` e la media per `Profitto`.
    

### Considerazioni Finali

- **Quando usare `.pivot_table()`**:
    - **Analisi delle vendite**: Può essere utilizzato per aggregare vendite per categoria, mese o qualsiasi altra variabile.
    - **Analisi dei dati di performance**: Utilizzato per ottenere sintesi statistiche come somma, media o conteggio su gruppi di dati.
    - **Riassunti complessi**: Quando desideri ottenere riepiloghi complessi, con la possibilità di usare diverse funzioni di aggregazione (somma, media, minimo, massimo, ecc.) su colonne diverse.
- **Vantaggi**:
    - È molto potente quando si lavora con grandi quantità di dati e si desidera un riepilogo aggregato per gruppi.
    - I margini sono utili per vedere i totali globali dei dati.
    - La possibilità di usare più funzioni di aggregazione è estremamente versatile per ottenere diversi tipi di statistiche.
- **Casi d'uso comuni**:
    - Analisi delle vendite per categoria e mese.
    - Calcolare statistiche dei dati finanziari (come somme e medie) per diversi gruppi di clienti.
    - Creare report di sintesi sui dati di performance (ad esempio, il punteggio medio degli studenti per classe e materia).

Usare `.pivot_table()` è particolarmente utile quando devi riassumere i dati in modo chiaro e comprensibile, e quando desideri analizzare i dati attraverso diverse dimensioni.

## `.transform()` – Applica funzioni a colonne raggruppate usando `groupby()`

Il metodo `.transform()` di Pandas è utilizzato per applicare funzioni di trasformazione a colonne di un DataFrame che sono state raggruppate tramite il metodo `.groupby()`. A differenza di `.agg()`, che restituisce un risultato aggregato, `.transform()` mantiene la stessa forma del DataFrame originale, quindi l'output avrà lo stesso numero di righe del DataFrame iniziale. Questo è utile quando si vogliono applicare calcoli come la normalizzazione o altre trasformazioni su ogni gruppo, ma mantenendo i dati originali.

### Principali parametri di `.transform()`

1. **func**:
    - Descrizione: La funzione da applicare agli elementi di ciascun gruppo.
    - Tipo: Funzione (ad esempio, una funzione predefinita come `'sum'`, `'mean'`, oppure una funzione personalizzata).
    - Esempio: `np.mean`, `np.std`, una funzione definita dall'utente come `lambda x: x / x.sum()`.
2. **axis**:
    - Descrizione: L'asse lungo cui applicare la funzione. Se si sta usando un `groupby`, di solito si usa `axis=0` (lungo le righe).
    - Tipo: Intero (di solito `0` per righe).
    - Esempio: `axis=0`.
3. **raw**:
    - Descrizione: Se `True`, la funzione sarà applicata sugli array di Numpy invece che su un `DataFrame` o `Series`. Questo può migliorare le prestazioni, ma limita le funzionalità.
    - Tipo: Booleano.
    - Default: `False`.
    - Esempio: `raw=True`.
4. **level**:
    - Descrizione: Questo parametro è utilizzato quando si hanno indici multi-livello (MultiIndex). Indica quale livello usare per raggruppare.
    - Tipo: Intero o livello di indice.
    - Esempio: `level=0`.
5. **numeric_only**:
    - Descrizione: Se `True`, applica la funzione solo alle colonne numeriche.
    - Tipo: Booleano.
    - Default: `False`.
    - Esempio: `numeric_only=True`.

### Esempi pratici

1. **Applicare una funzione di trasformazione semplice**:
In questo esempio, vogliamo applicare la funzione `mean` su un gruppo, ma mantenere la stessa struttura del DataFrame.
    
    ```python
    import pandas as pd
    import numpy as np
    
    # DataFrame di esempio
    df = pd.DataFrame({
        'Gruppo': ['A', 'A', 'A', 'B', 'B', 'B'],
        'Valore': [10, 20, 30, 40, 50, 60]
    })
    
    # Raggruppare per 'Gruppo' e applicare la trasformazione della media
    df['Media_per_gruppo'] = df.groupby('Gruppo')['Valore'].transform('mean')
    
    print(df)
    
    ```
    
    **Output**:
    
    ```
      Gruppo  Valore  Media_per_gruppo
    0      A      10               20.0
    1      A      20               20.0
    2      A      30               20.0
    3      B      40               50.0
    4      B      50               50.0
    5      B      60               50.0
    
    ```
    
    Qui, abbiamo raggruppato i dati per la colonna `'Gruppo'` e applicato la funzione `mean` alla colonna `'Valore'`. Ogni riga ha il valore medio del proprio gruppo.
    
2. **Applicare una funzione personalizzata**:
In questo esempio, useremo una funzione personalizzata che normalizza i valori rispetto alla somma del gruppo.
    
    ```python
    # Funzione di normalizzazione
    def normalize(x):
        return x / x.sum()
    
    # Applicare la funzione di normalizzazione a 'Valore' per ogni gruppo
    df['Valore_normalizzato'] = df.groupby('Gruppo')['Valore'].transform(normalize)
    
    print(df)
    
    ```
    
    **Output**:
    
    ```
      Gruppo  Valore  Valore_normalizzato
    0      A      10                 0.333333
    1      A      20                 0.666667
    2      A      30                 1.000000
    3      B      40                 0.333333
    4      B      50                 0.416667
    5      B      60                 0.500000
    
    ```
    
    In questo esempio, la funzione personalizzata `normalize()` calcola la frazione di ciascun valore rispetto alla somma dei valori del gruppo.
    
3. **Applicare più funzioni usando `transform`**:
È possibile anche applicare più funzioni utilizzando `transform()` passando una lista di funzioni.
    
    ```python
    # Applicare più funzioni di trasformazione
    df[['Somma', 'Media']] = df.groupby('Gruppo')['Valore'].transform([np.sum, np.mean])
    
    print(df)
    
    ```
    
    **Output**:
    
    ```
      Gruppo  Valore  Somma  Media
    0      A      10     60   20.0
    1      A      20     60   20.0
    2      A      30     60   20.0
    3      B      40    150   50.0
    4      B      50    150   50.0
    5      B      60    150   50.0
    
    ```
    
    In questo caso, abbiamo calcolato la somma e la media dei valori per ciascun gruppo e abbiamo applicato entrambe le trasformazioni.
    

### Considerazioni Finali

- **Quando usare `.transform()`**:
    - **Per calcoli che mantengono la forma originale dei dati**: Quando si vogliono applicare trasformazioni ai dati raggruppati ma si desidera mantenere la stessa forma del DataFrame (senza ridurre il numero di righe come avviene con `.agg()`).
    - **Per normalizzazione o standardizzazione**: È utile quando si vuole normalizzare i valori rispetto al gruppo di appartenenza.
    - **Per applicare funzioni personalizzate**: Consente di applicare trasformazioni complesse che non sono coperte dalle funzioni di aggregazione predefinite.
- **Vantaggi**:
    - Mantenimento della struttura originale dei dati: La funzione di trasformazione restituisce un DataFrame con lo stesso numero di righe dell'originale.
    - Applicazione di funzioni personalizzate: È possibile applicare trasformazioni più avanzate, come normalizzazioni o altre operazioni specifiche.
- **Casi d'uso comuni**:
    - Applicare un calcolo a livello di gruppo, come il calcolo della media o somma, ma senza ridurre il DataFrame.
    - Trasformazioni per analisi dei dati temporali o di serie temporali, ad esempio calcolando il tasso di crescita o la variazione percentuale per ogni gruppo.
    - Normalizzazione dei dati per ogni gruppo (ad esempio, scala dei valori in un gruppo rispetto alla somma o alla media del gruppo).

In generale, `.transform()` è utile quando si desidera una trasformazione che non modifica il numero di righe del DataFrame e si desidera applicare calcoli più complessi sui gruppi.

## `.size()` – Restituisce la dimensione di ogni gruppo

Il metodo `.size()` di Pandas viene utilizzato per ottenere la dimensione di ogni gruppo in un oggetto `groupby`. Restituisce una Serie con l'indice che rappresenta i gruppi e i valori che rappresentano il numero di elementi in ciascun gruppo. Questo è utile quando si vuole sapere quanti record appartengono a ciascun gruppo, ma senza dover applicare alcuna funzione di aggregazione.

### Principali parametri di `.size()`

1. **level**:
    - Descrizione: Quando si ha un indice multi-livello (MultiIndex), il parametro `level` permette di specificare su quale livello effettuare il raggruppamento. Se non specificato, la funzione restituirà la dimensione di tutti i gruppi.
    - Tipo: Intero o livello di indice.
    - Esempio: `level=0` (se si ha un indice multi-livello).
2. **sort**:
    - Descrizione: Se impostato su `True`, i gruppi risultanti verranno ordinati in ordine crescente. Se impostato su `False`, i gruppi saranno restituiti nell'ordine in cui appaiono nel DataFrame originale.
    - Tipo: Booleano.
    - Default: `True`.
    - Esempio: `sort=False`.

### Esempio pratico di `.size()`

1. **Raggruppare e ottenere la dimensione di ogni gruppo**:
Supponiamo di avere un DataFrame in cui ogni gruppo rappresenta un tipo di prodotto, e vogliamo sapere quanti record ci sono per ciascun tipo di prodotto.
    
    ```python
    import pandas as pd
    
    # DataFrame di esempio
    df = pd.DataFrame({
        'Categoria': ['A', 'A', 'B', 'B', 'C', 'A', 'C'],
        'Prodotto': ['X', 'Y', 'Z', 'W', 'Q', 'X', 'W']
    })
    
    # Raggruppare per 'Categoria' e ottenere la dimensione di ogni gruppo
    gruppo_dimensione = df.groupby('Categoria').size()
    
    print(gruppo_dimensione)
    
    ```
    
    **Output**:
    
    ```
    Categoria
    A    3
    B    2
    C    2
    dtype: int64
    
    ```
    
    In questo esempio, abbiamo raggruppato i dati per la colonna `'Categoria'` e ottenuto il numero di elementi in ciascun gruppo. La Serie risultante mostra che ci sono 3 elementi nel gruppo `'A'`, 2 nel gruppo `'B'` e 2 nel gruppo `'C'`.
    
2. **Usare `level` per ottenere la dimensione su un indice multi-livello**:
Se il DataFrame ha un indice multi-livello, è possibile usare il parametro `level` per ottenere la dimensione su un livello specifico.
    
    ```python
    # DataFrame con MultiIndex
    df_multi = pd.DataFrame({
        'Categoria': ['A', 'A', 'B', 'B', 'C', 'A', 'C'],
        'Prodotto': ['X', 'Y', 'Z', 'W', 'Q', 'X', 'W'],
        'Prezzo': [10, 20, 30, 40, 50, 60, 70]
    }).set_index(['Categoria', 'Prodotto'])
    
    # Ottenere la dimensione dei gruppi per 'Categoria'
    gruppo_dimensione = df_multi.groupby('Categoria').size()
    
    print(gruppo_dimensione)
    
    ```
    
    **Output**:
    
    ```
    Categoria
    A    3
    B    2
    C    2
    dtype: int64
    
    ```
    

### Considerazioni Finali

- **Quando usare `.size()`**:
    - **Per conoscere la dimensione dei gruppi**: È utile quando si desidera sapere quante righe appartengono a ciascun gruppo senza applicare funzioni di aggregazione (come `sum()`, `mean()`, ecc.).
    - **Contare il numero di record in un gruppo**: In contesti dove il conteggio del numero di occorrenze per ogni gruppo è importante (ad esempio, per analizzare la distribuzione dei dati o per filtrare gruppi che soddisfano determinati criteri).
- **Vantaggi**:
    - Fornisce un rapido riepilogo del numero di record in ogni gruppo.
    - Può essere combinato facilmente con altre funzioni di raggruppamento per esplorare ulteriormente i dati.
- **Casi d'uso comuni**:
    - **Contare il numero di transazioni per ciascun cliente**.
    - **Verificare la distribuzione dei dati su diverse categorie o classi**.
    - **Contare la frequenza di ciascun valore in un DataFrame categoriale**.

In generale, `.size()` è uno strumento utile per ottenere rapidamente una panoramica delle dimensioni dei gruppi, senza applicare trasformazioni o aggregazioni sui dati.

## `.cumcount()` – Conta le occorrenze cumulative di valori univoci

Il metodo `.cumcount()` di Pandas è utilizzato per contare le occorrenze cumulative di valori unici all'interno di un DataFrame, generalmente dopo aver applicato un'operazione di raggruppamento tramite `.groupby()`. Restituisce una Serie con i conteggi cumulativi di ogni valore all'interno di ogni gruppo, a partire da zero.

### Principali Parametri di `.cumcount()`

- **`ascending`**:
    - Descrizione: Questo parametro indica se il conteggio deve essere eseguito in ordine crescente o decrescente all'interno di ciascun gruppo. Se `True`, il conteggio inizierà dall'inizio del gruppo. Se `False`, inizierà dalla fine del gruppo.
    - Tipo: Booleano.
    - Default: `True`.
    - Esempio: `ascending=False`.
- **`dropna`**:
    - Descrizione: Se impostato su `True`, i valori `NaN` (valori nulli) verranno esclusi dal conteggio. Se `False`, i `NaN` verranno conteggiati come parte della sequenza.
    - Tipo: Booleano.
    - Default: `True`.
    - Esempio: `dropna=False`.

### Esempio pratico di `.cumcount()`

1. **Contare le occorrenze cumulative all'interno di un gruppo**:
Immagina di avere un DataFrame con informazioni su categorie di prodotti e vuoi sapere quante volte ogni prodotto appare in ciascuna categoria, ma in modo cumulativo.
    
    ```python
    import pandas as pd
    
    # DataFrame di esempio
    df = pd.DataFrame({
        'Categoria': ['A', 'A', 'B', 'B', 'A', 'A', 'B'],
        'Prodotto': ['X', 'Y', 'X', 'Z', 'X', 'Y', 'Z']
    })
    
    # Raggruppare per 'Categoria' e ottenere il conteggio cumulativo
    df['Occorrenza_cumulativa'] = df.groupby('Categoria').cumcount()
    
    print(df)
    
    ```
    
    **Output**:
    
    ```
      Categoria Prodotto  Occorrenza_cumulativa
    0         A        X                     0
    1         A        Y                     1
    2         B        X                     0
    3         B        Z                     1
    4         A        X                     2
    5         A        Y                     3
    6         B        Z                     2
    
    ```
    
    In questo esempio, la colonna `'Occorrenza_cumulativa'` mostra il numero di volte che ogni prodotto è apparso all'interno della rispettiva categoria fino a quel punto. Ad esempio, il prodotto `'X'` nella categoria `'A'` è apparso tre volte, quindi l'ultima occorrenza ha il valore 2.
    
2. **Uso del parametro `ascending` per il conteggio in ordine inverso**:
Se vuoi che il conteggio inizi dalla fine del gruppo, puoi usare `ascending=False`:
    
    ```python
    # Conteggio cumulativo decrescente
    df['Occorrenza_cumulativa_decrescente'] = df.groupby('Categoria').cumcount(ascending=False)
    
    print(df)
    
    ```
    
    **Output**:
    
    ```
      Categoria Prodotto  Occorrenza_cumulativa  Occorrenza_cumulativa_decrescente
    0         A        X                     0                               2
    1         A        Y                     1                               1
    2         B        X                     0                               1
    3         B        Z                     1                               0
    4         A        X                     2                               0
    5         A        Y                     3                               3
    6         B        Z                     2                               2
    
    ```
    
    In questo caso, il conteggio inizia dalla fine del gruppo e cresce all'indietro.
    
3. **Contare le occorrenze cumulative con `dropna=False`**:
Se nel tuo DataFrame ci sono valori `NaN` e vuoi che vengano inclusi nel conteggio cumulativo, puoi impostare `dropna=False`:
    
    ```python
    # DataFrame con NaN
    df_na = pd.DataFrame({
        'Categoria': ['A', 'A', 'B', 'B', 'A', 'A', 'B', None],
        'Prodotto': ['X', 'Y', 'X', 'Z', 'X', 'Y', 'Z', 'X']
    })
    
    # Conteggio cumulativo inclusivo di NaN
    df_na['Occorrenza_cumulativa'] = df_na.groupby('Categoria').cumcount(dropna=False)
    
    print(df_na)
    
    ```
    
    **Output**:
    
    ```
      Categoria Prodotto  Occorrenza_cumulativa
    0         A        X                     0
    1         A        Y                     1
    2         B        X                     0
    3         B        Z                     1
    4         A        X                     2
    5         A        Y                     3
    6         B        Z                     2
    7      NaN        X                   NaN
    
    ```
    
    Qui, la riga con `NaN` nella colonna `'Categoria'` ha `NaN` come valore di `'Occorrenza_cumulativa'`.
    

### Considerazioni Finali

- **Quando usare `.cumcount()`**:
    - **Per calcolare le occorrenze cumulative all'interno di un gruppo**: È utile quando vuoi tracciare quante volte un elemento appare all'interno di un gruppo, sequenzialmente.
    - **Analisi di serie temporali o sequenziali**: Se hai dati temporali o sequenziali (ad esempio, ordini di prodotti, azioni di clienti), il conteggio cumulativo può essere un utile strumento per capire come i dati evolvono nel tempo.
- **Vantaggi**:
    - `.cumcount()` ti consente di tracciare l'andamento e l'ordine delle occorrenze, utile per l'analisi sequenziale.
    - Può essere usato in combinazione con `.groupby()` per ottenere conteggi personalizzati all'interno di gruppi specifici.
- **Casi d'uso comuni**:
    - **Monitoraggio della frequenza delle transazioni in una categoria di prodotti**.
    - **Conteggio cumulativo delle vendite o ordini per ciascun cliente o regione**.
    - **Rilevamento della sequenza di acquisto di un prodotto o di una categoria specifica**.

`.cumcount()` è particolarmente utile quando è necessario tracciare l'ordine o la frequenza di occorrenze in un gruppo, offrendo una visione più approfondita dei dati, soprattutto quando combinato con altre operazioni di aggregazione o analisi sequenziale.

## `.nsmallest(n, columns)` – Trova i `n` valori più piccoli in una colonna

Il metodo `.nsmallest(n, columns)` di Pandas permette di trovare i **n valori più piccoli** in una o più colonne di un DataFrame, restituendo le righe corrispondenti a quei valori. È un metodo utile per estrarre rapidamente i valori minori di una colonna, senza dover ordinare l'intero DataFrame.

### Principali Parametri di `.nsmallest()`

- **`n`**:
    - Descrizione: Indica il numero di valori più piccoli da restituire.
    - Tipo: Intero.
    - Esempio: `n=5` per ottenere i 5 valori più piccoli.
- **`columns`**:
    - Descrizione: La colonna (o le colonne) su cui basare il criterio di ordinamento. È possibile fornire una singola colonna o una lista di colonne.
    - Tipo: Stringa (per una singola colonna) o lista di stringhe (per più colonne).
    - Esempio: `columns='età'` oppure `columns=['età', 'salario']`.
- **`keep`** (opzionale):
    - Descrizione: Indica se mantenere il primo, l'ultimo o tutte le occorrenze di un valore uguale. I valori possibili sono:
        - `'first'`: Mantieni la prima occorrenza.
        - `'last'`: Mantieni l'ultima occorrenza.
        - `False`: Non mantenere alcuna occorrenza duplicata.
    - Tipo: Stringa o Booleano.
    - Default: `'first'`.
    - Esempio: `keep='last'`.

### Esempi di utilizzo di `.nsmallest()`

1. **Trova i 3 valori più piccoli in una colonna**:
Immagina di avere un DataFrame che contiene informazioni sui salari e desideri trovare i 3 salari più bassi.
    
    ```python
    import pandas as pd
    
    # DataFrame di esempio
    df = pd.DataFrame({
        'Nome': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
        'Salario': [3000, 1500, 2500, 1800, 2200]
    })
    
    # Trova i 3 salari più bassi
    df_salario_basso = df.nsmallest(3, 'Salario')
    
    print(df_salario_basso)
    
    ```
    
    **Output**:
    
    ```
        Nome  Salario
    1    Bob     1500
    3  David     1800
    4    Eva     2200
    
    ```
    
    In questo esempio, vengono restituiti i 3 salari più bassi nel DataFrame, insieme alle righe corrispondenti.
    
2. **Trova i 2 valori più piccoli in base a più colonne**:
Se vuoi trovare le righe con i salari più bassi e, in caso di pari salario, ordinare per nome, puoi usare una lista di colonne.
    
    ```python
    # Trova i 2 salari più bassi, ordinati anche per nome
    df_salario_basso_nome = df.nsmallest(2, ['Salario', 'Nome'])
    
    print(df_salario_basso_nome)
    
    ```
    
    **Output**:
    
    ```
        Nome  Salario
    1    Bob     1500
    3  David     1800
    
    ```
    
    Qui, il metodo seleziona i 2 salari più bassi, e in caso di pari salario (non presente in questo esempio), avrebbe ordinato anche per il nome.
    
3. **Gestire i duplicati con il parametro `keep`**:
Se ci sono valori duplicati e vuoi mantenere solo l'ultima occorrenza, puoi usare il parametro `keep`.
    
    ```python
    df = pd.DataFrame({
        'Nome': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
        'Salario': [3000, 1500, 1500, 1800, 1500]
    })
    
    # Trova i 3 salari più bassi, mantenendo l'ultima occorrenza in caso di duplicati
    df_salario_basso = df.nsmallest(3, 'Salario', keep='last')
    
    print(df_salario_basso)
    
    ```
    
    **Output**:
    
    ```
        Nome  Salario
    1    Bob     1500
    4    Eva     1500
    3  David     1800
    
    ```
    
    In questo caso, mantenendo l'ultima occorrenza dei salari uguali, Eva appare per ultima tra i salari di 1500.
    

### Considerazioni Finali

- **Quando usare `.nsmallest()`**:
    - **Se vuoi estrarre rapidamente i valori più piccoli di una colonna** senza dover ordinare tutto il DataFrame.
    - **Quando desideri ottenere una selezione limitata** di righe con i valori più bassi in base a una o più colonne, utile per analizzare le "performance più basse", i "salari più bassi", o i "punteggi più bassi".
    - **Quando i dati contengono duplicati** e vuoi definire quale occorrenza mantenere usando il parametro `keep`.
- **Vantaggi**:
    - Efficienza nel trovare i valori più piccoli senza dover ordinare tutto il DataFrame.
    - È possibile lavorare con dati che presentano duplicati o ordinare su più colonne per ottenere il risultato desiderato.
- **Casi d'uso comuni**:
    - Selezionare i 5 prodotti con il prezzo più basso.
    - Trovare le 10 persone con i punteggi più bassi in un test.
    - Identificare le 3 vendite con il ricavo più basso.

`.nsmallest()` è uno strumento potente per estrarre i valori minimi in modo efficiente, particolarmente utile per operazioni veloci su grandi dataset dove un ordinamento completo potrebbe essere troppo costoso in termini di tempo di esecuzione.

## `.nlargest(n, columns)` – Trova i `n` valori più grandi in una colonna

Il metodo `.nlargest(n, columns)` di Pandas è utilizzato per trovare i **n valori più grandi** in una colonna o in un insieme di colonne di un DataFrame. È l'opposto di `.nsmallest()`, ed è utile per estrarre rapidamente i valori più alti senza dover ordinare l'intero DataFrame.

### Principali Parametri di `.nlargest()`

- **`n`**:
    - Descrizione: Indica il numero di valori più grandi da restituire.
    - Tipo: Intero.
    - Esempio: `n=5` per ottenere i 5 valori più grandi.
- **`columns`**:
    - Descrizione: La colonna (o le colonne) su cui basare il criterio di ordinamento. Può essere una singola colonna o una lista di colonne.
    - Tipo: Stringa (per una singola colonna) o lista di stringhe (per più colonne).
    - Esempio: `columns='salario'` oppure `columns=['salario', 'età']`.
- **`keep`** (opzionale):
    - Descrizione: Indica come gestire i duplicati. I valori possibili sono:
        - `'first'`: Mantieni la prima occorrenza.
        - `'last'`: Mantieni l'ultima occorrenza.
        - `False`: Non mantenere alcuna occorrenza duplicata.
    - Tipo: Stringa o Booleano.
    - Default: `'first'`.
    - Esempio: `keep='last'`.

### Esempi di utilizzo di `.nlargest()`

1. **Trova i 3 valori più grandi in una colonna**:
Immagina di avere un DataFrame con informazioni sui salari e desideri trovare i 3 salari più alti.
    
    ```python
    import pandas as pd
    
    # DataFrame di esempio
    df = pd.DataFrame({
        'Nome': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
        'Salario': [3000, 1500, 2500, 1800, 2200]
    })
    
    # Trova i 3 salari più alti
    df_salario_alto = df.nlargest(3, 'Salario')
    
    print(df_salario_alto)
    
    ```
    
    **Output**:
    
    ```
        Nome  Salario
    0  Alice     3000
    2  Charlie     2500
    4    Eva     2200
    
    ```
    
    Qui, vengono restituiti i 3 salari più alti nel DataFrame, insieme alle righe corrispondenti.
    
2. **Trova i 2 valori più grandi in base a più colonne**:
Se vuoi trovare le righe con i salari più alti e, in caso di pari salario, ordinare per nome, puoi usare una lista di colonne.
    
    ```python
    # Trova i 2 salari più alti, ordinati anche per nome
    df_salario_alto_nome = df.nlargest(2, ['Salario', 'Nome'])
    
    print(df_salario_alto_nome)
    
    ```
    
    **Output**:
    
    ```
        Nome  Salario
    0  Alice     3000
    2  Charlie     2500
    
    ```
    
    In questo caso, il metodo seleziona i 2 salari più alti e, in caso di pari salario, li ordina anche per nome.
    
3. **Gestire i duplicati con il parametro `keep`**:
Se ci sono valori duplicati e vuoi mantenere solo l'ultima occorrenza, puoi usare il parametro `keep`.
    
    ```python
    df = pd.DataFrame({
        'Nome': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
        'Salario': [3000, 1500, 1500, 1800, 1500]
    })
    
    # Trova i 3 salari più alti, mantenendo l'ultima occorrenza in caso di duplicati
    df_salario_alto = df.nlargest(3, 'Salario', keep='last')
    
    print(df_salario_alto)
    
    ```
    
    **Output**:
    
    ```
        Nome  Salario
    0  Alice     3000
    2  Charlie     1500
    4    Eva     1500
    
    ```
    
    In questo caso, viene mantenuta l'ultima occorrenza del salario di 1500.
    

### Considerazioni Finali

- **Quando usare `.nlargest()`**:
    - **Se vuoi estrarre rapidamente i valori più alti di una colonna** senza dover ordinare tutto il DataFrame.
    - **Quando desideri ottenere una selezione limitata** di righe con i valori più alti in base a una o più colonne.
    - **Quando i dati contengono duplicati** e vuoi definire quale occorrenza mantenere usando il parametro `keep`.
- **Vantaggi**:
    - Efficienza nel trovare i valori più alti senza dover ordinare tutto il DataFrame.
    - È possibile lavorare con dati che presentano duplicati o ordinare su più colonne per ottenere il risultato desiderato.
- **Casi d'uso comuni**:
    - Selezionare i 5 prodotti con il prezzo più alto.
    - Trovare le 10 persone con i punteggi più alti in un test.
    - Identificare le 3 vendite con il ricavo più alto.

`.nlargest()` è molto utile per estrarre rapidamente i valori massimi, in particolare quando si lavora con dataset molto grandi dove ordinare l'intero DataFrame potrebbe risultare costoso. Risulta ideale per analizzare le performance migliori o identificare i record di interesse in modo veloce.

## `.mad()` – Deviazione assoluta media per dati raggruppati

Il metodo `.mad()` di Pandas calcola la **deviazione assoluta media** (Mean Absolute Deviation, MAD) di una serie di dati o di un DataFrame. La MAD misura quanto i dati si discostano mediamente dal valore centrale (tipicamente la mediana). È una misura di dispersione che non è influenzata da valori estremi (outlier) come la varianza o la deviazione standard.

Quando si applica su un DataFrame raggruppato tramite `.groupby()`, `.mad()` calcola la deviazione assoluta media per ciascun gruppo.

### Principali Parametri di `.mad()`

- **`axis`** (opzionale):
    - Descrizione: Specifica l'asse su cui applicare la funzione. Se non specificato, viene calcolato per ogni colonna.
    - Tipo: Intero (0 per righe, 1 per colonne), o `None` (per calcolare su tutte le dimensioni).
    - Default: `None`.
    - Esempio: `axis=0` per calcolare lungo le righe, `axis=1` per calcolare lungo le colonne.
- **`skipna`** (opzionale):
    - Descrizione: Se `True`, esclude i valori `NaN` dal calcolo. Se `False`, restituisce `NaN` se ci sono valori `NaN` nei dati.
    - Tipo: Booleano.
    - Default: `True`.
    - Esempio: `skipna=False` se non si desidera escludere `NaN`.

### Formula per la Deviazione Assoluta Media (MAD)

La MAD viene calcolata con la seguente formula:

MAD=1n∑i=1n∣xi−Mediana(x)∣\text{MAD} = \frac{1}{n} \sum_{i=1}^{n} |x_i - \text{Mediana}(x)|

dove:

- xix_i è un valore dei dati,
- Mediana(x)\text{Mediana}(x) è la mediana del set di dati,
- nn è il numero di dati.

### Esempi di utilizzo di `.mad()`

1. **Calcolare la MAD su una colonna di un DataFrame**:
Immagina di avere un DataFrame con informazioni sul salario e sull'età e vuoi calcolare la MAD per la colonna del salario.
    
    ```python
    import pandas as pd
    
    # DataFrame di esempio
    df = pd.DataFrame({
        'Nome': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
        'Salario': [3000, 1500, 2500, 1800, 2200]
    })
    
    # Calcola la MAD sul salario
    mad_salario = df['Salario'].mad()
    
    print(mad_salario)
    
    ```
    
    **Output**:
    
    ```
    366.6666666666667
    
    ```
    
    La MAD indica che, in media, i salari sono distanti dalla mediana di circa 367 unità monetarie.
    
2. **Calcolare la MAD su gruppi di dati raggruppati**:
Se il DataFrame contiene una colonna per il genere e vuoi calcolare la MAD sul salario per ciascun genere, puoi utilizzare `.groupby()` combinato con `.mad()`.
    
    ```python
    # DataFrame di esempio con genere
    df = pd.DataFrame({
        'Nome': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
        'Salario': [3000, 1500, 2500, 1800, 2200],
        'Genere': ['F', 'M', 'M', 'M', 'F']
    })
    
    # Raggruppa per 'Genere' e calcola la MAD sul salario
    mad_salario_genere = df.groupby('Genere')['Salario'].mad()
    
    print(mad_salario_genere)
    
    ```
    
    **Output**:
    
    ```
    Genere
    F    500.000000
    M    300.000000
    Name: Salario, dtype: float64
    
    ```
    
    In questo caso, per il genere femminile la MAD è 500, mentre per il genere maschile è 300. Questo significa che le donne hanno una maggiore dispersione salariale rispetto agli uomini.
    
3. **Gestire i valori NaN con `skipna`**:
Se ci sono valori `NaN` nel tuo DataFrame, puoi usare `skipna=False` per includere i `NaN` nel calcolo (restituendo `NaN` se ci sono valori mancanti).
    
    ```python
    df = pd.DataFrame({
        'Nome': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
        'Salario': [3000, None, 2500, 1800, 2200]
    })
    
    # Calcola la MAD sul salario con skipna=False
    mad_salario = df['Salario'].mad(skipna=False)
    
    print(mad_salario)
    
    ```
    
    **Output**:
    
    ```
    nan
    
    ```
    
    In questo caso, poiché c'è un valore `NaN`, la MAD restituisce `NaN` per l'intera colonna.
    

### Considerazioni Finali

- **Quando usare `.mad()`**:
    - **Misura della dispersione robusta**: La MAD è particolarmente utile quando si desidera una misura di dispersione che non sia influenzata da valori estremi o outlier.
    - **Quando non si vuole usare la varianza o la deviazione standard**: Se i dati contengono outlier o non sono distribuiti normalmente, la MAD può essere una scelta migliore.
    - **Per analisi su gruppi**: Utilizzando `.groupby()`, puoi calcolare la MAD per gruppi specifici, ad esempio per categoria, genere, regione, etc.
- **Vantaggi**:
    - È una misura semplice e robusta della dispersione.
    - Non è sensibile agli outlier, quindi è più affidabile per dataset che contengono valori estremi.
- **Casi d'uso comuni**:
    - Calcolare la dispersione di un set di dati senza che i valori estremi influenzino troppo il risultato.
    - Comparare la variabilità tra diversi gruppi o categorie (ad esempio, differenze salariali tra uomini e donne).

`.mad()` è una funzione utile per calcolare una misura robusta della dispersione dei dati, ideale quando i dati contengono outlier o non sono distribuiti normalmente.

## `.rolling(window).apply()` – Applica una funzione su una finestra mobile

Il metodo `.rolling(window).apply()` in Pandas viene utilizzato per applicare una funzione su una finestra mobile (sliding window) di dati all'interno di un DataFrame o di una Serie. Le finestre mobili sono utili per eseguire operazioni che coinvolgono un sottoinsieme di dati continui, come calcolare medie mobili, somme cumulative, deviazioni standard e altre statistiche su intervalli di dati.

### Principali Parametri di `.rolling(window).apply()`

1. **`window`**:
    - Descrizione: La dimensione della finestra mobile. Rappresenta il numero di osservazioni da includere in ogni "finestra".
    - Tipo: Intero o oggetto `timedelta` (per finestre basate sul tempo, ad esempio giorni).
    - Esempio: `window=3` per una finestra che considera 3 righe di dati alla volta.
2. **`min_periods`** (opzionale):
    - Descrizione: Il numero minimo di valori non `NaN` che devono essere presenti nella finestra per calcolare il risultato. Se il numero di valori validi è inferiore, il risultato sarà `NaN`.
    - Tipo: Intero o `None`.
    - Default: `None`.
    - Esempio: `min_periods=2` se vuoi calcolare il risultato solo se almeno 2 valori nella finestra sono validi.
3. **`axis`** (opzionale):
    - Descrizione: L'asse su cui applicare la finestra.
    - Tipo: Intero o `None`.
    - Default: `None`.
    - Esempio: `axis=0` per applicare la finestra sulle righe, `axis=1` per applicare la finestra sulle colonne.
4. **`raw`** (opzionale):
    - Descrizione: Se `True`, la funzione sarà applicata su array Numpy raw. Se `False` (default), la funzione verrà applicata sui dati come Pandas Series.
    - Tipo: Booleano.
    - Default: `False`.
    - Esempio: `raw=True` se si vuole passare i dati come array Numpy.
5. **`center`** (opzionale):
    - Descrizione: Se `True`, la finestra sarà centrata (la finestra includerà valori precedenti e successivi al punto corrente). Se `False`, la finestra si sposterà in avanti (i valori saranno solo quelli precedenti al punto corrente).
    - Tipo: Booleano.
    - Default: `False`.
    - Esempio: `center=True` per avere la finestra centrata.

### Funzionamento di `.rolling(window).apply()`

Il metodo `.rolling(window).apply()` crea una finestra mobile di dimensione specificata dal parametro `window`. Poi, applica una funzione su ogni finestra di dati. La funzione può essere qualsiasi funzione che accetti un array o una Serie come input, come la somma, la media, il calcolo della deviazione standard, ecc.

### Esempi di utilizzo di `.rolling(window).apply()`

1. **Calcolare la media mobile con `.apply()`**:
Supponiamo di avere una Serie con valori numerici e di voler calcolare la media mobile con una finestra di 3 periodi.
    
    ```python
    import pandas as pd
    
    # Serie di esempio
    data = pd.Series([10, 20, 30, 40, 50, 60, 70])
    
    # Calcolare la media mobile con una finestra di 3
    rolling_mean = data.rolling(window=3).apply(lambda x: x.mean())
    
    print(rolling_mean)
    
    ```
    
    **Output**:
    
    ```
    0     NaN
    1     NaN
    2    20.0
    3    30.0
    4    40.0
    5    50.0
    6    60.0
    dtype: float64
    
    ```
    
    La media mobile viene calcolata a partire dal terzo valore, poiché le prime due finestre hanno meno di 3 valori.
    
2. **Calcolare la somma mobile con `.apply()`**:
Utilizzando `.apply()`, puoi applicare qualsiasi funzione di aggregazione come la somma:
    
    ```python
    # Calcolare la somma mobile con una finestra di 4
    rolling_sum = data.rolling(window=4).apply(lambda x: x.sum())
    
    print(rolling_sum)
    
    ```
    
    **Output**:
    
    ```
    0     NaN
    1     NaN
    2     NaN
    3    100.0
    4    140.0
    5    180.0
    6    220.0
    dtype: float64
    
    ```
    
3. **Calcolare la deviazione standard mobile con `.apply()`**:
Se vuoi calcolare la deviazione standard mobile su una finestra di dati, puoi farlo con `.apply()`:
    
    ```python
    # Calcolare la deviazione standard mobile con una finestra di 3
    rolling_std = data.rolling(window=3).apply(lambda x: x.std())
    
    print(rolling_std)
    
    ```
    
    **Output**:
    
    ```
    0     NaN
    1     NaN
    2     10.0
    3     10.0
    4     10.0
    5     10.0
    6     10.0
    dtype: float64
    
    ```
    
4. **Finestra mobile centrata**:
Se vuoi che la finestra sia centrata attorno al valore corrente, puoi usare `center=True`:
    
    ```python
    # Media mobile centrata con una finestra di 3
    centered_rolling_mean = data.rolling(window=3, center=True).apply(lambda x: x.mean())
    
    print(centered_rolling_mean)
    
    ```
    
    **Output**:
    
    ```
    0     NaN
    1    15.0
    2    20.0
    3    30.0
    4    40.0
    5    50.0
    6     NaN
    dtype: float64
    
    ```
    
    In questo caso, la finestra mobile è centrata attorno a ciascun valore.
    

### Considerazioni Finali

- **Quando usare `.rolling(window).apply()`**:
    - **Calcolare statistiche mobili**: Se hai bisogno di calcolare statistiche che si riferiscono a finestre di dati contigue, come medie mobili, somme mobili, o deviazioni standard mobili.
    - **Finestra mobile personalizzata**: Quando hai bisogno di applicare funzioni personalizzate, non solo statistiche predefinite, come la somma o la media.
    - **Analisi temporale**: È particolarmente utile in serie temporali per calcolare statistiche che evolvono nel tempo su finestre mobili (ad esempio, media mobile su dati giornalieri).
- **Vantaggi**:
    - Ti permette di applicare funzioni molto personalizzate sui dati, al di là delle statistiche standard.
    - È ideale per analisi su serie temporali, trend e altri tipi di dati sequenziali.
- **Limitazioni**:
    - Potrebbe essere meno efficiente di operazioni predefinite come `.mean()` o `.sum()`, soprattutto per grandi set di dati.
    - Se la finestra è troppo grande, potrebbe aumentare notevolmente i tempi di calcolo.

In sintesi, `.rolling(window).apply()` è molto utile quando desideri applicare funzioni personalizzate su finestre di dati, come la media mobile o la somma mobile, e si adatta perfettamente a serie temporali e altre analisi sequenziali.

# 7. Merging and Combining Data

# 8. Exploring Temporal Data

# 9. Exporting Data

# 10. Handling Multi-Level Indices (MultiIndex)

# 11. Pandas Profiling

# 12. Method chaining

## Web Scraping [RACCOLTA]

##

<p align="center">
  Enzo Schitini
</p>

<p align="center">
  Data Scientist & Data Analyst • SQL • Expert Bubble.io • UX & UI @ Scituffy creator
</p>