# üêº Guide to Using Pandas Methods and Functions
This guide provides a practical overview of the main Pandas methods and functions for data analysis. From DataFrame management to cleaning and transformation, you will find useful examples to manipulate and analyze data in Python efficiently.

By [Enzo Schitini]('https://www.linkedin.com/in/enzoschitini/')

Data Scientist & Data Analyst ‚Ä¢ SQL ‚Ä¢ Expert Bubble.io ‚Ä¢ UX & UI @ Scituffy creator

Pandas √® una delle librerie pi√π potenti e ampiamente utilizzate per la manipolazione e l'analisi dei dati in Python. Che tu sia un aspirante data scientist, un analista esperto o semplicemente qualcuno che lavora con i dati, padroneggiare Pandas pu√≤ migliorare notevolmente la tua produttivit√† e le capacit√† di elaborazione dei dati. Questa guida ha l'obiettivo di fornire una panoramica completa dei metodi e delle funzioni essenziali di Pandas, permettendoti di affrontare operazioni complesse sui dati con facilit√† ed efficienza.

In questa guida esplorerai concetti fondamentali, come la pulizia dei dati, la trasformazione, l'aggregazione e le tecniche di visualizzazione utilizzando Pandas. Attraverso esempi pratici e istruzioni passo-passo, acquisirai una comprensione pi√π profonda di come sfruttare al massimo il potenziale di Pandas per semplificare e potenziare i tuoi flussi di lavoro con i dati. Iniziamo!

### `Useremo:` ddddddddddddddddd

| order_id                            | customer_state | product_category_name | product_weight_g | review_score | price | freight_value | payment_value | order_approved_at     | order_purchase_timestamp |
|-------------------------------------|----------------|-----------------------|------------------|--------------|-------|---------------|---------------|-----------------------|-------------------------|
| 00010242fe8c5a6d1ba2dd792cb16214    | RJ             | cool_stuff            | 650.0            | 5            | 58.9  | 13.29         | 72.19         | 2017-09-13 09:45:35   | 2017-09-13 08:59:02     |
| 130898c0987d1801452a8ed92a670612    | GO             | cool_stuff            | 650.0            | 5            | 55.9  | 17.96         | 73.86         | 2017-06-29 02:44:11   | 2017-06-28 11:52:20     |
| 532ed5e14e24ae1f0d735b91524b98b9    | MG             | cool_stuff            | 650.0            | 4            | 64.9  | 18.33         | 83.23         | 2018-05-18 12:31:43   | 2018-05-18 10:25:53     |
| 6f8c31653edb8c83e1a739408b5ff750    | PR             | cool_stuff            | 650.0            | 5            | 58.9  | 16.17         | 75.07         | 2017-08-01 18:55:08   | 2017-08-01 18:38:42     |
| 7d19f4ef4d04461989632411b7e588b9    | MG             | cool_stuff            | 650.0            | 5            | 58.9  | 13.29         | 72.19         | 2017-08-10 22:05:11   | 2017-08-10 21:48:40     |

``` python
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/enzoschitini/Guide-to-Using-Pandas/refs/heads/main/pandas_csv_guide.csv').drop(columns='Unnamed: 0')

```

In [8]:
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/enzoschitini/Guide-to-Using-Pandas/refs/heads/main/pandas_csv_guide.csv').drop(columns='Unnamed: 0')

[Link Data](https://github.com/enzoschitini/Guide-to-Using-Pandas/blob/main/pandas_csv_guide.csv)

### 1. **Caricamento dei Dati**

- `pd.read_csv()` ‚Äì Carica dati da un file CSV.
- `pd.read_excel()` ‚Äì Carica dati da un file Excel.
- `pd.read_sql()` ‚Äì Carica dati da un database SQL.
- `pd.read_json()` ‚Äì Carica dati da un file JSON.
- `pd.read_parquet()` ‚Äì Carica dati da un file Parquet, utile per grandi dataset.
- `pd.read_html()` ‚Äì Analizza le tabelle HTML da una pagina web.
- `pd.read_pickle()` ‚Äì Carica dati salvati in formato pickle di Python.
- `pd.read_feather()` ‚Äì Carica dati da un file in formato Feather, utile per input/output veloci.
- `pd.read_sas()` ‚Äì Carica dati da file SAS.
- `pd.read_hdf()` ‚Äì Carica dati da file in formato HDF5.

### 2. **Ispezione dei Dati**

- `.head(n)` ‚Äì Mostra le prime `n` righe del DataFrame (valore predefinito: 5).
- `.tail(n)` ‚Äì Mostra le ultime `n` righe del DataFrame.
- `.shape` ‚Äì Restituisce le dimensioni (righe, colonne) del DataFrame.
- `.columns` ‚Äì Elenca i nomi delle colonne.
- `.info()` ‚Äì Mostra informazioni sul DataFrame (tipi di colonne, conteggio dei valori non nulli).
- `.describe()` ‚Äì Fornisce statistiche descrittive per le colonne numeriche.
- `.dtypes` ‚Äì Restituisce i tipi di dati di tutte le colonne.
- `.index` ‚Äì Restituisce l'indice (etichette delle righe) del DataFrame.
- `.value_counts()` ‚Äì Conta le occorrenze di valori unici in una colonna.
- `.isnull()` / `.notnull()` ‚Äì Verifica la presenza di valori mancanti.
- `.duplicated()` ‚Äì Controlla le righe duplicate.
- `.nunique()` ‚Äì Conta il numero di valori unici per colonna.
- `.sample(n)` ‚Äì Estrae `n` righe casuali dal DataFrame.

### 3. **Selezione e Indicizzazione dei Dati**

- `.loc[]` ‚Äì Accede a gruppi di righe e colonne per etichette.
- `.iloc[]` ‚Äì Accede a gruppi di righe e colonne per posizione (basato su numeri interi).
- `.at[]` ‚Äì Accede a un singolo valore per una coppia di etichette riga/colonna.
- `.iat[]` ‚Äì Accede a un singolo valore per una coppia di posizione riga/colonna.
- `.filter()` ‚Äì Sottoselezione del DataFrame basata su etichette di righe/colonne.
- `.xs()` ‚Äì Ottieni sezioni trasversali da un MultiIndex.
- `.query()` ‚Äì Filtra il DataFrame con un'espressione stringa.
- `.get()` ‚Äì Recupera elementi da una Serie per chiave.
- `.isin()` ‚Äì Filtra righe in base al fatto che i valori siano in una lista.
- `.where()` ‚Äì Imposta valori in base a una condizione.
- `.mask()` ‚Äì Sostituisce i valori dove una condizione √® `True`.
- `.squeeze()` ‚Äì Converte un DataFrame con una sola colonna in una Serie.

### 4. **Pulizia dei Dati**

- `.drop()` ‚Äì Rimuove etichette specifiche da righe o colonne.
- `.dropna()` ‚Äì Rimuove righe/colonne con valori mancanti.
- `.fillna()` ‚Äì Sostituisce i valori mancanti con un valore specificato.
- `.replace()` ‚Äì Sostituisce valori nel DataFrame.
- `.rename()` ‚Äì Rinomina colonne o indici.
- `.interpolate()` ‚Äì Sostituisce valori NaN con valori interpolati.
- `.bfill()` / `.ffill()` ‚Äì Riempimento all'indietro o in avanti dei valori NaN.
- `.convert_dtypes()` ‚Äì Converte le colonne nei migliori tipi di dati possibili.
- `.clip()` ‚Äì Limita i valori al di sotto o al di sopra di una soglia.
- `.abs()` ‚Äì Calcola il valore assoluto delle colonne numeriche.
- `.round(decimals)` ‚Äì Arrotonda i valori a un determinato numero di decimali.

### 5. **Trasformazione dei Dati**

- `.astype()` ‚Äì Cambia il tipo di dati delle colonne.
- `.apply()` ‚Äì Applica una funzione lungo un asse (righe/colonne).
- `.applymap()` ‚Äì Applica una funzione elemento per elemento.
- `.map()` ‚Äì Associa valori da una colonna a un'altra.
- `.sort_values()` ‚Äì Ordina il DataFrame in base alle colonne.
- `.sort_index()` ‚Äì Ordina il DataFrame in base all'indice.
- `.reset_index()` ‚Äì Reimposta l'indice del DataFrame.
- `.pivot()` ‚Äì Ristruttura i dati in base ai valori delle colonne.
- `.rank()` ‚Äì Classifica i valori in ogni colonna.
- `.cumsum()` / `.cumprod()` ‚Äì Calcola somma/prodotto cumulativi.
- `.diff()` ‚Äì Calcola la differenza tra righe successive.
- `.expanding()` ‚Äì Applica trasformazioni espansive (es. somma cumulativa).
- `.pipe()` ‚Äì Utilizza funzioni personalizzate sul DataFrame.
- `.eval()` ‚Äì Valuta un'espressione Python come colonna del DataFrame.

### 6. **Aggregazione e Raggruppamento**

- `.groupby()` ‚Äì Raggruppa il DataFrame in base a una o pi√π colonne.
- `.agg()` ‚Äì Applica funzioni di aggregazione come somma, media, minimo, massimo sui dati raggruppati.
- `.sum()`, `.mean()`, `.min()`, `.max()`, `.count()` ‚Äì Calcola direttamente queste statistiche.
- `.pivot_table()` ‚Äì Crea una tabella pivot con righe, colonne e valori specificati.
- `.transform()` ‚Äì Applica funzioni a colonne raggruppate da `groupby()`.
- `.size()` ‚Äì Ottieni la dimensione di ogni gruppo.
- `.cumcount()` ‚Äì Conta le occorrenze cumulative di valori unici.
- `.nsmallest(n, columns)` ‚Äì Trova i `n` valori pi√π piccoli in una colonna.
- `.nlargest(n, columns)` ‚Äì Trova i `n` valori pi√π grandi in una colonna.
- `.mad()` ‚Äì Deviazione assoluta media per i dati raggruppati.
- `.rolling(window).apply()` ‚Äì Applica una funzione su una finestra mobile.

### 7. **Unione e Merging dei Dati**

- `pd.merge()` ‚Äì Unisce DataFrame su colonne specificate.
- `.join()` ‚Äì Unisce DataFrame sugli indici.
- `pd.concat()` ‚Äì Concatena DataFrame lungo righe o colonne.
- `.merge_as

### 8. **Esplorazione dei Dati Temporali**

- `.resample()` ‚Äì Raggruppa e riassume i dati basati su una frequenza temporale.
- `.to_datetime()` ‚Äì Converte le stringhe in oggetti datetime.
- `.dt` accessor ‚Äì Accede a componenti delle date come anno, mese, giorno.
- `.rolling()` ‚Äì Applica operazioni su finestre mobili temporali.
- `.shift()` ‚Äì Sposta i dati nel tempo (es., spostamento di periodi).
- `.diff()` ‚Äì Calcola la differenza di valori successivi in serie temporali.
- `.asfreq()` ‚Äì Modifica la frequenza di un indice di serie temporali.
- `.tshift()` (obsoleto) ‚Äì Sposta i dati lungo l'asse temporale.
- `.between_time()` ‚Äì Estrae righe in base a un intervallo di tempo specifico.
- `.at_time()` ‚Äì Estrae righe per un orario specifico.
- `.truncate()` ‚Äì Trancia le righe prima o dopo una data specificata.

### 9. **Esportazione dei Dati**

- `.to_csv()` ‚Äì Esporta i dati in un file CSV.
- `.to_excel()` ‚Äì Esporta i dati in un file Excel.
- `.to_sql()` ‚Äì Esporta i dati in un database SQL.
- `.to_json()` ‚Äì Esporta i dati in formato JSON.
- `.to_parquet()` ‚Äì Esporta i dati in formato Parquet.
- `.to_pickle()` ‚Äì Esporta i dati in un file pickle di Python.
- `.to_html()` ‚Äì Esporta i dati in una tabella HTML.
- `.to_latex()` ‚Äì Esporta i dati in formato LaTeX.
- `.to_dict()` ‚Äì Converte i dati in un dizionario Python.
- `.to_markdown()` ‚Äì Esporta i dati in formato Markdown.
- `.to_clipboard()` ‚Äì Copia i dati negli appunti per incollare altrove.
- `.to_string()` ‚Äì Converte il DataFrame in una stringa.
- `.to_records()` ‚Äì Converte il DataFrame in un array di record.
- `.to_feather()` ‚Äì Esporta i dati in formato Feather.

### 10. **Gestione degli Indici Multi-level (MultiIndex)**

- `.set_index()` ‚Äì Imposta una o pi√π colonne come indice del DataFrame.
- `.reset_index()` ‚Äì Reimposta l'indice di un DataFrame, riportando l'indice corrente come colonne.
- `.sort_index()` ‚Äì Ordina un DataFrame in base ai valori dell'indice.
- `.swaplevel()` ‚Äì Scambia i livelli di un MultiIndex.
- `.stack()` ‚Äì Comprime i livelli di colonne in righe.
- `.unstack()` ‚Äì Espande i livelli di righe in colonne.
- `.reorder_levels()` ‚Äì Riordina i livelli di un MultiIndex.
- `.index.get_level_values()` ‚Äì Estrae i valori di un livello specifico da un MultiIndex.
- `.droplevel()` ‚Äì Rimuove un livello da un MultiIndex.
- `.groupby(level=...)` ‚Äì Raggruppa i dati in base ai livelli di un MultiIndex.

In [9]:
df.head(11).to_clipboard()