# 🐼 Guide to Using Pandas Methods and Functions
This guide provides a practical overview of the main Pandas methods and functions for data analysis. From DataFrame management to cleaning and transformation, you will find useful examples to manipulate and analyze data in Python efficiently.

By [Enzo Schitini]('https://www.linkedin.com/in/enzoschitini/')

Data Scientist & Data Analyst • SQL • Expert Bubble.io • UX & UI @ Scituffy creator

Pandas is one of the most powerful and widely used libraries for manipulating and analyzing data in Python. Whether you are an aspiring data scientist, an experienced analyst, or simply someone who works with data, mastering Pandas can greatly improve your productivity and data processing skills. This guide aims to provide a comprehensive overview of Pandas' essential methods and functions, enabling you to tackle complex data operations with ease and efficiency.

In this guide, you will explore fundamental concepts such as data cleansing, transformation, aggregation, and visualization techniques using Pandas. Through practical examples and step-by-step instructions, you will gain a deeper understanding of how to leverage Pandas' full potential to simplify and enhance your data workflows.

### `Dataset:` For this guide, we will use data from an online store, although with fewer rows and columns than the original. We have 2022 rows and 10 columns.
Link Dataset: https://github.com/enzoschitini/Guide-to-Using-Pandas/blob/main/pandas_csv_guide.csv

| order_id                            | customer_state | product_category_name | product_weight_g | review_score | price | freight_value | payment_value | order_approved_at     | order_purchase_timestamp |
|-------------------------------------|----------------|-----------------------|------------------|--------------|-------|---------------|---------------|-----------------------|-------------------------|
| 00010242fe8c5a6d1ba2dd792cb16214    | RJ             | cool_stuff            | 650.0            | 5            | 58.9  | 13.29         | 72.19         | 2017-09-13 09:45:35   | 2017-09-13 08:59:02     |
| 130898c0987d1801452a8ed92a670612    | GO             | cool_stuff            | 650.0            | 5            | 55.9  | 17.96         | 73.86         | 2017-06-29 02:44:11   | 2017-06-28 11:52:20     |
| 532ed5e14e24ae1f0d735b91524b98b9    | MG             | cool_stuff            | 650.0            | 4            | 64.9  | 18.33         | 83.23         | 2018-05-18 12:31:43   | 2018-05-18 10:25:53     |
| 6f8c31653edb8c83e1a739408b5ff750    | PR             | cool_stuff            | 650.0            | 5            | 58.9  | 16.17         | 75.07         | 2017-08-01 18:55:08   | 2017-08-01 18:38:42     |
| 7d19f4ef4d04461989632411b7e588b9    | MG             | cool_stuff            | 650.0            | 5            | 58.9  | 13.29         | 72.19         | 2017-08-10 22:05:11   | 2017-08-10 21:48:40     |

### Description of columns:

- **order_id**: Unique identifier for the order. Each row represents a specific order made by the customer.

- **customer_state**: Brazilian state where the customer resides. It is represented by a two-letter code (e.g., RJ for Rio de Janeiro).

- **product_category_name**: Category of the purchased product. For example, "cool_stuff" indicates a specific product category.

- **product_weight_g**: Weight of the product in grams. This provides information about the weight of the ordered product.

- **review_score**: Review score given by the customer for the order, typically on a scale from 1 to 5.

- **price**: Price of the product in the local currency (Brazilian reais). This indicates the cost of the purchased product.

- **freight_value**: Shipping cost in the local currency. This represents the shipping charge for the order.

- **payment_value**: Total amount paid for the order, including the product price and the shipping cost.

- **order_approved_at**: Date and time when the order was approved for shipping.

- **order_purchase_timestamp**: Date and time when the order was placed by the customer.

``` python
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/enzoschitini/Guide-to-Using-Pandas/refs/heads/main/pandas_csv_guide.csv').drop(columns='Unnamed: 0')

```

## Argomenti da trattare in questa guida:  
Ho scelto i 10 argomenti che, secondo me, sono più utilizzati in Pandas per analizzare i dati.  

### 1. **Caricamento dei Dati**  

- `pd.read_csv()` – Carica dati da un file CSV.  
- `pd.read_excel()` – Carica dati da un file Excel.  
- `pd.read_sql()` – Carica dati da un database SQL.  
- `pd.read_json()` – Carica dati da un file JSON.  
- `pd.read_parquet()` – Carica dati da un file Parquet, utile per dataset di grandi dimensioni.  
- `pd.read_html()` – Analizza tabelle HTML da una pagina web.  
- `pd.read_pickle()` – Carica dati salvati in formato pickle di Python.  
- `pd.read_feather()` – Carica dati da un file in formato Feather, adatto per input/output veloci.  
- `pd.read_sas()` – Carica dati da file SAS.  
- `pd.read_hdf()` – Carica dati da file in formato HDF5.  

### 2. **Ispezione dei Dati**  

- `.head(n)` – Mostra le prime `n` righe del DataFrame (predefinito: 5).  
- `.tail(n)` – Mostra le ultime `n` righe del DataFrame.  
- `.shape` – Restituisce le dimensioni (righe, colonne) del DataFrame.  
- `.columns` – Elenca i nomi delle colonne.  
- `.info()` – Mostra informazioni sul DataFrame (tipi di colonna, conteggi non nulli).  
- `.describe()` – Fornisce statistiche descrittive per le colonne numeriche.  
- `.dtypes` – Restituisce i tipi di dati di tutte le colonne.  
- `.index` – Restituisce l'indice (etichette delle righe) del DataFrame.  
- `.value_counts()` – Conta i valori univoci in una colonna.  
- `.isnull()` / `.notnull()` – Controlla i valori mancanti.  
- `.duplicated()` – Controlla righe duplicate.  
- `.nunique()` – Conta il numero di valori univoci per colonna.  
- `.sample(n)` – Seleziona casualmente `n` righe dal DataFrame.  

### 3. **Selezione e Indicizzazione dei Dati**  

- `.loc[]` – Accede a gruppi di righe e colonne tramite etichette.  
- `.iloc[]` – Accede a gruppi di righe e colonne tramite posizioni (basate su interi).  
- `.at[]` – Accede a un singolo valore tramite una coppia etichetta riga/colonna.  
- `.iat[]` – Accede a un singolo valore tramite una coppia posizione riga/colonna.  
- `.filter()` – Sottoseleziona il DataFrame in base alle etichette di riga/colonna.  
- `.xs()` – Estrae sezioni trasversali da un MultiIndex.  
- `.query()` – Filtra il DataFrame usando un'espressione in formato stringa.  
- `.get()` – Recupera elementi da una Serie tramite chiave.  
- `.isin()` – Filtra righe in base alla presenza di valori in una lista.  
- `.where()` – Imposta valori in base a una condizione.  
- `.mask()` – Sostituisce valori dove una condizione è `True`.  
- `.squeeze()` – Converte un DataFrame con una sola colonna in una Serie.  

### 4. **Pulizia dei Dati**  

- `.drop()` – Rimuove etichette specificate da righe o colonne.  
- `.dropna()` – Elimina righe/colonne con valori mancanti.  
- `.fillna()` – Sostituisce i valori mancanti con un valore specificato.  
- `.replace()` – Sostituisce valori all'interno del DataFrame.  
- `.rename()` – Rinomina colonne o indici.  
- `.interpolate()` – Riempie valori NaN con valori interpolati.  
- `.bfill()` / `.ffill()` – Riempimento a ritroso o in avanti di valori NaN.  
- `.convert_dtypes()` – Converte colonne nei tipi di dati ottimali.  
- `.clip()` – Limita i valori al di sotto o al di sopra di una soglia.  
- `.abs()` – Calcola il valore assoluto delle colonne numeriche.  
- `.round(decimals)` – Arrotonda i valori a un numero specificato di decimali.  

### 5. **Trasformazione dei Dati**  

- `.astype()` – Cambia il tipo di dato delle colonne.  
- `.apply()` – Applica una funzione lungo un asse (righe/colonne).  
- `.applymap()` – Applica una funzione elemento per elemento.  
- `.map()` – Mappa valori da una colonna a un'altra.  
- `.sort_values()` – Ordina il DataFrame per colonne.  
- `.sort_index()` – Ordina il DataFrame per il suo indice.  
- `.reset_index()` – Reimposta l'indice del DataFrame.  
- `.pivot()` – Rimodella i dati in base ai valori delle colonne.  
- `.rank()` – Classifica i valori all'interno di ciascuna colonna.  
- `.cumsum()` / `.cumprod()` – Calcola somme/prodotti cumulativi.  
- `.diff()` – Calcola la differenza tra righe successive.  
- `.expanding()` – Applica trasformazioni progressive (es. somma cumulativa).  
- `.pipe()` – Applica funzioni personalizzate al DataFrame.  
- `.eval()` – Valuta un'espressione Python come colonna nel DataFrame.  

### 6. **Aggregazione e Raggruppamento**  

- `.groupby()` – Raggruppa il DataFrame in base a una o più colonne.  
- `.agg()` – Applica funzioni di aggregazione come somma, media, min, max sui dati raggruppati.  
- `.sum()`, `.mean()`, `.min()`, `.max()`, `.count()` – Calcola direttamente queste statistiche.  
- `.pivot_table()` – Crea una tabella pivot con righe, colonne e valori specificati.  
- `.transform()` – Applica funzioni a colonne raggruppate usando `groupby()`.  
- `.size()` – Restituisce la dimensione di ogni gruppo.  
- `.cumcount()` – Conta le occorrenze cumulative di valori univoci.  
- `.nsmallest(n, columns)` – Trova i `n` valori più piccoli in una colonna.  
- `.nlargest(n, columns)` – Trova i `n` valori più grandi in una colonna.  
- `.mad()` – Deviazione assoluta media per dati raggruppati.  
- `.rolling(window).apply()` – Applica una funzione su una finestra mobile.  

### 7. **Unione e Combinazione dei Dati**  

- `pd.merge()` – Unisce DataFrame su colonne specificate.  
- `.join()` – Unisce DataFrame sugli indici.  
- `pd.concat()` – Concatena DataFrame lungo righe o colonne.  

### 8. **Esplorazione dei Dati Temporali**  

- `.resample()` – Raggruppa e riassume i dati in base a una frequenza temporale.  
- `.to_datetime()` – Converte stringhe in oggetti datetime.  
- `.dt` accessor – Accede a componenti di data come anno, mese, giorno.  
- `.rolling()` – Applica operazioni su una finestra temporale mobile.  
- `.shift()` – Sposta i dati nel tempo (es. periodi).  
- `.diff()` – Calcola la differenza di valori successivi in una serie temporale.  
- `.asfreq()` – Cambia la frequenza di un indice temporale.  
- `.between_time()` – Estrae righe in base a un intervallo di tempo specifico.  
- `.at_time()` – Estrae righe per un'ora specifica.  
- `.truncate()` – Riduce righe prima o dopo una data specifica.  

### 9. **Esportazione dei Dati**  

- `.to_csv()` – Esporta i dati in un file CSV.  
- `.to_excel()` – Esporta i dati in un file Excel.  
- `.to_sql()` – Esporta i dati in un database SQL.  
- `.to_json()` – Esporta i dati in formato JSON.  
- `.to_parquet()` – Esporta i dati in formato Parquet.  
- `.to_pickle()` – Esporta i dati in un file pickle di Python.  
- `.to_html()` – Esporta i dati in una tabella HTML.  
- `.to_latex()` – Esporta i dati in formato LaTeX.  
- `.to_dict()` – Converte i dati in un dizionario Python.  
- `.to_markdown()` – Esporta i dati in formato Markdown.  
- `.to_clipboard()` – Copia i dati negli appunti.  
- `.to_string()` – Converte il DataFrame in una stringa.  
- `.to_records()` – Converte il DataFrame in un array di

### 9. **Esportazione dei Dati**  

- `.to_csv()` – Esporta i dati in un file CSV.  
- `.to_excel()` – Esporta i dati in un file Excel.  
- `.to_sql()` – Esporta i dati in un database SQL.  
- `.to_json()` – Esporta i dati in formato JSON.  
- `.to_parquet()` – Esporta i dati in formato Parquet.  
- `.to_pickle()` – Esporta i dati in un file pickle di Python.  
- `.to_html()` – Esporta i dati in una tabella HTML.  
- `.to_latex()` – Esporta i dati in formato LaTeX.  
- `.to_dict()` – Converte i dati in un dizionario Python.  
- `.to_markdown()` – Esporta i dati in formato Markdown.  
- `.to_clipboard()` – Copia i dati negli appunti.  
- `.to_string()` – Converte il DataFrame in una stringa.  
- `.to_records()` – Converte il DataFrame in un array di record.  
- `.to_feather()` – Esporta i dati in formato Feather.  

### 10. **Gestione degli Indici Multi-Livello (MultiIndex)**  

- `.set_index()` – Imposta una o più colonne come indice del DataFrame.  
- `.reset_index()` – Reimposta l'indice del DataFrame, spostando gli attuali indici nelle colonne.  
- `.sort_index()` – Ordina il DataFrame in base ai valori dell'indice.  
- `.swaplevel()` – Scambia i livelli di un MultiIndex.  
- `.stack()` – Comprime i livelli delle colonne in righe.  
- `.unstack()` – Espande i livelli delle righe in colonne.  
- `.reorder_levels()` – Riordina i livelli di un MultiIndex.  
- `.index.get_level_values()` – Estrae i valori di un livello specifico da un MultiIndex.  
- `.droplevel()` – Rimuove un livello da un MultiIndex.  
- `.groupby(level=...)` – Raggruppa i dati in base ai livelli del MultiIndex.  

## 🔥Let's get started!

In [1]:
import pandas as pd

# 1. Loading Data

In [2]:
def url_github(type):
    url_data = f'https://raw.githubusercontent.com/enzoschitini/Guide-to-Using-Pandas/refs/heads/main/Data/pandas_{type}_guide.{type}'
    return url_data

# pd.set_option('display.max_columns', None)

### Import CSV, Execel, parquet, feather, json

In [3]:
csv = pd.read_csv(url_github('csv')).drop(columns='Unnamed: 0')
excel = pd.read_excel(url_github('xlsx')).drop(columns='Unnamed: 0')
parquet = pd.read_parquet(url_github('parquet'))
feather = pd.read_feather(url_github('feather'))
json = pd.read_json(url_github('json'))

### Import SQL

In [4]:
import requests
import sqlite3

# Scarica il file dal link
url = 'https://raw.githubusercontent.com/enzoschitini/Guide-to-Using-Pandas/refs/heads/main/Data/pandas_sql_guide.db'
response = requests.get(url)
with open('pandas_sql_guide.db', 'wb') as f:
    f.write(response.content)

# Crea una connessione al database SQLite locale
conn = sqlite3.connect('pandas_sql_guide.db')

# Leggi la tabella SQL in un DataFrame pandas
df_importato = pd.read_sql('SELECT * FROM pandas_sql_guide', conn).drop(columns='Unnamed: 0')

# Chiudi la connessione
conn.close()

df_importato.head()


Unnamed: 0,order_id,customer_state,product_category_name,product_weight_g,review_score,price,freight_value,payment_value,order_approved_at,order_purchase_timestamp
0,00010242fe8c5a6d1ba2dd792cb16214,RJ,cool_stuff,650.0,5,58.9,13.29,72.19,2017-09-13 09:45:35,2017-09-13 08:59:02
1,130898c0987d1801452a8ed92a670612,GO,cool_stuff,650.0,5,55.9,17.96,73.86,2017-06-29 02:44:11,2017-06-28 11:52:20
2,532ed5e14e24ae1f0d735b91524b98b9,MG,cool_stuff,650.0,4,64.9,18.33,83.23,2018-05-18 12:31:43,2018-05-18 10:25:53
3,6f8c31653edb8c83e1a739408b5ff750,PR,cool_stuff,650.0,5,58.9,16.17,75.07,2017-08-01 18:55:08,2017-08-01 18:38:42
4,7d19f4ef4d04461989632411b7e588b9,MG,cool_stuff,650.0,5,58.9,13.29,72.19,2017-08-10 22:05:11,2017-08-10 21:48:40


In [5]:
"""import sqlite3  # or use other database connectors like SQLAlchemy for different databases

# Load your CSV file into a DataFrame
df = pd.read_csv('https://raw.githubusercontent.com/enzoschitini/Guide-to-Using-Pandas/refs/heads/main/Data/pandas_csv_guide.csv')

# Create a connection to a SQLite database (or another database)
conn = sqlite3.connect('pandas_sql_guide.db')  # Creates a database file if it doesn't exist

# Save the DataFrame to the SQL database
df.to_sql('pandas_sql_guide', conn, if_exists='replace', index=False)

# Close the connection
conn.close()"""

"import sqlite3  # or use other database connectors like SQLAlchemy for different databases\n\n# Load your CSV file into a DataFrame\ndf = pd.read_csv('https://raw.githubusercontent.com/enzoschitini/Guide-to-Using-Pandas/refs/heads/main/Data/pandas_csv_guide.csv')\n\n# Create a connection to a SQLite database (or another database)\nconn = sqlite3.connect('pandas_sql_guide.db')  # Creates a database file if it doesn't exist\n\n# Save the DataFrame to the SQL database\ndf.to_sql('pandas_sql_guide', conn, if_exists='replace', index=False)\n\n# Close the connection\nconn.close()"

### Import HTML

``` python
pip install lxml
```

In [6]:
list_of_dfs = pd.read_html('https://en.wikipedia.org/wiki/List_of_countries_by_GDP_(nominal)_per_capita')
list_of_dfs[1]

Unnamed: 0_level_0,Country/Territory,IMF[4][5],IMF[4][5],World Bank[6],World Bank[6],United Nations[7],United Nations[7]
Unnamed: 0_level_1,Country/Territory,Estimate,Year,Estimate,Year,Estimate,Year
0,Monaco,—,—,240862,2022,240535,2022
1,Liechtenstein,—,—,187267,2022,197268,2022
2,Luxembourg,135321,2024,128259,2023,125897,2022
3,Bermuda,—,—,123091,2022,117568,2022
4,Switzerland,106098,2024,99995,2023,93636,2022
...,...,...,...,...,...,...,...
218,Malawi,464,2024,673,2023,615,2022
219,Syria,—,—,421,2021,840,2022
220,Afghanistan,411,2023,353,2022,345,2022
221,South Sudan,341,2024,1072,2015,423,2022


### Create a Dataset

In [7]:
filename_features = "https://raw.githubusercontent.com/enzoschitini/Guide-to-Using-Pandas/refs/heads/main/Data/UCI%20HAR%20Dataset/features.txt"
filename_labels = "https://raw.githubusercontent.com/enzoschitini/Guide-to-Using-Pandas/refs/heads/main/Data/UCI%20HAR%20Dataset/activity_labels.txt"

filename_subtrain = "https://raw.githubusercontent.com/enzoschitini/Guide-to-Using-Pandas/refs/heads/main/Data/UCI%20HAR%20Dataset/train/subject_train.txt"
filename_xtrain = "https://raw.githubusercontent.com/enzoschitini/Guide-to-Using-Pandas/refs/heads/main/Data/UCI%20HAR%20Dataset/train/X_train.txt"
filename_ytrain = "https://raw.githubusercontent.com/enzoschitini/Guide-to-Using-Pandas/refs/heads/main/Data/UCI%20HAR%20Dataset/train/y_train.txt"

In [8]:
features = pd.read_csv(filename_features, header=None, sep="#")
features.columns = ['nome_var']
labels = pd.read_csv(filename_labels, delim_whitespace=True, header=None, names=['cod_label', 'label'])

In [9]:
"""subject_train = pd.read_csv(filename_subtrain, header=None, names=['subject_id'])
X_train = pd.read_csv(filename_xtrain, delim_whitespace=True, header=None, names=features['nome_var'].tolist())
y_train = pd.read_csv(filename_ytrain, header=None, names=['cod_label'])"""

"subject_train = pd.read_csv(filename_subtrain, header=None, names=['subject_id'])\nX_train = pd.read_csv(filename_xtrain, delim_whitespace=True, header=None, names=features['nome_var'].tolist())\ny_train = pd.read_csv(filename_ytrain, header=None, names=['cod_label'])"

In [10]:
#X_train.head()

In [11]:
#y_train.head()

# 2. Inspecting Data

## ``.head(n)`` – Shows the first n rows of the DataFrame (default: 5)

In [12]:
csv.head(n=5)

Unnamed: 0,order_id,customer_state,product_category_name,product_weight_g,review_score,price,freight_value,payment_value,order_approved_at,order_purchase_timestamp
0,00010242fe8c5a6d1ba2dd792cb16214,RJ,cool_stuff,650.0,5,58.9,13.29,72.19,2017-09-13 09:45:35,2017-09-13 08:59:02
1,130898c0987d1801452a8ed92a670612,GO,cool_stuff,650.0,5,55.9,17.96,73.86,2017-06-29 02:44:11,2017-06-28 11:52:20
2,532ed5e14e24ae1f0d735b91524b98b9,MG,cool_stuff,650.0,4,64.9,18.33,83.23,2018-05-18 12:31:43,2018-05-18 10:25:53
3,6f8c31653edb8c83e1a739408b5ff750,PR,cool_stuff,650.0,5,58.9,16.17,75.07,2017-08-01 18:55:08,2017-08-01 18:38:42
4,7d19f4ef4d04461989632411b7e588b9,MG,cool_stuff,650.0,5,58.9,13.29,72.19,2017-08-10 22:05:11,2017-08-10 21:48:40


## ``.tail(n)`` – Shows the last n rows of the DataFrame

In [13]:
csv.tail(n=5)

Unnamed: 0,order_id,customer_state,product_category_name,product_weight_g,review_score,price,freight_value,payment_value,order_approved_at,order_purchase_timestamp
2017,bb0c66e312ff8cb97698f012cd92553c,SP,perfumaria,350.0,5,56.99,8.72,65.71,2017-11-22 02:56:28,2017-11-19 17:05:09
2018,c0db7d31ace61fc360a3eaa34dd3457c,SP,perfumaria,350.0,5,56.99,8.72,65.71,2018-02-13 16:50:30,2018-02-13 16:36:56
2019,c0db7d31ace61fc360a3eaa34dd3457c,SP,perfumaria,350.0,5,56.99,8.72,65.71,2018-02-13 16:50:30,2018-02-13 16:36:56
2020,c90025afa3c59ad0768b713161777935,SP,perfumaria,350.0,5,56.99,8.72,65.71,2018-03-01 02:50:46,2018-02-28 12:59:08
2021,cc3336764b2bc18f4eaa8f17f86bfd53,SP,perfumaria,350.0,5,56.99,7.78,64.77,2017-06-11 17:55:17,2017-06-11 17:43:18


## ``.shape`` – Returns the dimensions (rows, columns) of the DataFrame

In [14]:
csv.shape

(2022, 10)

## ``.columns`` – Lists the column names

In [15]:
csv.columns

Index(['order_id', 'customer_state', 'product_category_name',
       'product_weight_g', 'review_score', 'price', 'freight_value',
       'payment_value', 'order_approved_at', 'order_purchase_timestamp'],
      dtype='object')

In [16]:
list_of_dfs[1].columns

MultiIndex([('Country/Territory', 'Country/Territory'),
            (        'IMF[4][5]',          'Estimate'),
            (        'IMF[4][5]',              'Year'),
            (    'World Bank[6]',          'Estimate'),
            (    'World Bank[6]',              'Year'),
            ('United Nations[7]',          'Estimate'),
            ('United Nations[7]',              'Year')],
           )

## ``.info()`` – Displays information about the DataFrame (column types, non-null counts)

In [17]:
csv.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2022 entries, 0 to 2021
Data columns (total 10 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   order_id                  2022 non-null   object 
 1   customer_state            2022 non-null   object 
 2   product_category_name     2022 non-null   object 
 3   product_weight_g          2022 non-null   float64
 4   review_score              2022 non-null   int64  
 5   price                     2022 non-null   float64
 6   freight_value             2022 non-null   float64
 7   payment_value             2022 non-null   float64
 8   order_approved_at         2022 non-null   object 
 9   order_purchase_timestamp  2022 non-null   object 
dtypes: float64(4), int64(1), object(5)
memory usage: 158.1+ KB


Il metodo `info()` di un oggetto DataFrame di Pandas fornisce un riepilogo conciso del contenuto del DataFrame, mostrando dettagli utili per l'analisi preliminare del dataset. I parametri principali di `info()` sono:

- `verbose`: (default `None`) Se impostato su `True`, mostrerà tutte le colonne, altrimenti una vista abbreviata (utile per dataset di grandi dimensioni).
- `buf`: (default `None`) Specifica l'output su un oggetto come un file. Se impostato su `None`, l'output viene stampato sulla console.
- `max_cols`: (default `None`) Limita il numero di colonne da visualizzare nel riepilogo.
- `memory_usage`: (default `True`) Mostra l'uso della memoria del DataFrame. Può essere impostato su `'deep'` per avere una stima più precisa.

In [18]:
csv.info(verbose=True, memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2022 entries, 0 to 2021
Data columns (total 10 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   order_id                  2022 non-null   object 
 1   customer_state            2022 non-null   object 
 2   product_category_name     2022 non-null   object 
 3   product_weight_g          2022 non-null   float64
 4   review_score              2022 non-null   int64  
 5   price                     2022 non-null   float64
 6   freight_value             2022 non-null   float64
 7   payment_value             2022 non-null   float64
 8   order_approved_at         2022 non-null   object 
 9   order_purchase_timestamp  2022 non-null   object 
dtypes: float64(4), int64(1), object(5)
memory usage: 727.2 KB


## ``.describe()`` – Provides descriptive statistics for numeric columns

In [19]:
csv.describe()

Unnamed: 0,product_weight_g,review_score,price,freight_value,payment_value
count,2022.0,2022.0,2022.0,2022.0,2022.0
mean,1154.325915,4.01731,73.512992,15.884327,100.126632
std,2643.718753,1.381362,63.045769,9.318311,111.499859
min,50.0,1.0,2.99,0.0,0.22
25%,203.75,3.0,51.9,11.68,65.71
50%,350.0,5.0,58.99,15.15,76.65
75%,950.0,5.0,84.99,17.68,106.38
max,30000.0,5.0,1050.0,185.73,1525.78


Il metodo `describe()` è utilizzato in Pandas per generare statistiche descrittive di un DataFrame o di una Serie. Per impostazione predefinita, restituisce le statistiche per le colonne numeriche, ma può essere utilizzato anche per dati categorici. Ecco una panoramica dei principali parametri:

#### Principali Parametri di `describe()`

1. **`percentiles`**: Specifica i percentili che vuoi calcolare. Per impostazione predefinita, include il 25°, 50° (mediana) e il 75° percentile. Puoi specificare una lista di percentuali per ottenere valori personalizzati.
    - *Tipo*: array-like di numeri tra 0 e 1.
    - *Valore predefinito*: `[0.25, 0.5, 0.75]`.
2. **`include`**: Specifica quali tipi di dati includere nella descrizione. Può essere impostato su `None` (comportamento predefinito, solo colonne numeriche), `all` (tutti i tipi di dati) oppure su un elenco di tipi di dati come `['object']` o `['number']`.
    - *Valore predefinito*: `None`.
3. **`exclude`**: Specifica quali tipi di dati escludere dall'analisi. Funziona in modo complementare a `include`.

In [20]:
csv.describe(percentiles=[0.1, 0.9])

Unnamed: 0,product_weight_g,review_score,price,freight_value,payment_value
count,2022.0,2022.0,2022.0,2022.0,2022.0
mean,1154.325915,4.01731,73.512992,15.884327,100.126632
std,2643.718753,1.381362,63.045769,9.318311,111.499859
min,50.0,1.0,2.99,0.0,0.22
10%,200.0,1.0,21.0,8.72,29.56
50%,350.0,5.0,58.99,15.15,76.65
90%,2245.0,5.0,118.9,23.161,162.07
max,30000.0,5.0,1050.0,185.73,1525.78


In [21]:
csv.describe(include='all')

Unnamed: 0,order_id,customer_state,product_category_name,product_weight_g,review_score,price,freight_value,payment_value,order_approved_at,order_purchase_timestamp
count,2022,2022,2022,2022.0,2022.0,2022.0,2022.0,2022.0,2022,2022
unique,1735,27,21,,,,,,1734,1735
top,370e2e6c1a9fd451eb7f0852daa3b006,SP,beleza_saude,,,,,,2017-03-11 18:34:44,2017-03-11 18:34:44
freq,11,849,766,,,,,,11,11
mean,,,,1154.325915,4.01731,73.512992,15.884327,100.126632,,
std,,,,2643.718753,1.381362,63.045769,9.318311,111.499859,,
min,,,,50.0,1.0,2.99,0.0,0.22,,
25%,,,,203.75,3.0,51.9,11.68,65.71,,
50%,,,,350.0,5.0,58.99,15.15,76.65,,
75%,,,,950.0,5.0,84.99,17.68,106.38,,


## ``.dtypes`` – Returns data types of all columns

In [22]:
csv.dtypes

order_id                     object
customer_state               object
product_category_name        object
product_weight_g            float64
review_score                  int64
price                       float64
freight_value               float64
payment_value               float64
order_approved_at            object
order_purchase_timestamp     object
dtype: object

## ``.index`` – Returns the index (row labels) of the DataFrame

In [23]:
csv.index

RangeIndex(start=0, stop=2022, step=1)

## ``.value_counts()`` – Counts unique values in a column

In [24]:
csv.value_counts()

order_id                          customer_state  product_category_name   product_weight_g  review_score  price  freight_value  payment_value  order_approved_at    order_purchase_timestamp
2f839b79d9954ebfedeeba654f0f3de8  SP              telefonia               150.0             5             7.00   7.39           71.95          2018-03-26 14:50:21  2018-03-26 14:40:10         5
8a8bd4a338e17ace44431e99a2add1d2  DF              dvds_blu_ray            2150.0            5             83.99  18.17          20.00          2018-05-15 21:54:02  2018-05-15 21:31:55         5
58346246ea802a21cb34124ed2326770  SP              perfumaria              200.0             5             44.99  7.58           210.28         2018-07-11 17:25:53  2018-07-11 17:17:37         4
05fcd933547be81890bc4d62357fdf3f  SP              informatica_acessorios  300.0             1             89.90  12.13          408.12         2017-07-19 10:30:13  2017-07-19 10:17:34         4
84ddfd4c559558c53b5a4c6765e49be8  S

Il metodo `.value_counts()` in Pandas è utilizzato per ottenere una distribuzione delle occorrenze uniche dei valori in una Serie (o in una colonna di un DataFrame). È molto utile per esplorare i dati categorici o per comprendere la distribuzione dei valori in una colonna.

#### Principali Parametri di `.value_counts()`

1. **`normalize`**: Se impostato a `True`, restituisce le frequenze relative dei valori invece dei conteggi assoluti.
    - *Tipo*: booleano (`True` o `False`).
    - *Valore predefinito*: `False`.
2. **`sort`**: Specifica se ordinare i risultati in base ai conteggi (in ordine decrescente). Se impostato a `False`, non ordina i valori.
    - *Tipo*: booleano (`True` o `False`).
    - *Valore predefinito*: `True`.
3. **`ascending`**: Se impostato a `True`, ordina i risultati in ordine crescente.
    - *Tipo*: booleano (`True` o `False`).
    - *Valore predefinito*: `False`.
4. **`bins`**: Consente di suddividere i dati numerici in intervalli (binning).
    - *Tipo*: intero.
    - *Valore predefinito*: `None`.
5. **`dropna`**: Se impostato a `False`, include i valori `NaN` nel conteggio.
    - *Tipo*: booleano (`True` o `False`).
    - *Valore predefinito*: `True`.

In [25]:
csv.value_counts('customer_state', normalize=True).head(5)

customer_state
SP    0.419881
MG    0.124135
RJ    0.112760
RS    0.048467
BA    0.044510
Name: proportion, dtype: float64

In [26]:
csv.value_counts('customer_state', ascending=True).head()

customer_state
AC    1
RR    2
AP    3
TO    3
SE    5
Name: count, dtype: int64

In [27]:
csv.value_counts('customer_state', dropna=False).head()

customer_state
SP    849
MG    251
RJ    228
RS     98
BA     90
Name: count, dtype: int64

In [28]:
csv['price'].value_counts(bins=3)

(1.9420000000000002, 351.993]    2007
(351.993, 700.997]                 10
(700.997, 1050.0]                   5
Name: count, dtype: int64

## ``.isnull() / .notnull()`` – Checks for missing values

I metodi `.isnull()` e `.notnull()` in Pandas sono utilizzati per identificare i valori mancanti (o nulli) in un DataFrame o una Serie. Entrambi i metodi restituiscono un oggetto della stessa forma con valori booleani (`True` o `False`), che indicano rispettivamente la presenza o l'assenza di valori nulli.

#### `.isnull()`

Questo metodo identifica i valori `NaN` (Not a Number) o `None` come `True` e gli altri valori come `False`.

#### Esempio di utilizzo di `.isnull()`

In [29]:
csv.isnull()

Unnamed: 0,order_id,customer_state,product_category_name,product_weight_g,review_score,price,freight_value,payment_value,order_approved_at,order_purchase_timestamp
0,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...
2017,False,False,False,False,False,False,False,False,False,False
2018,False,False,False,False,False,False,False,False,False,False
2019,False,False,False,False,False,False,False,False,False,False
2020,False,False,False,False,False,False,False,False,False,False


- I `True` indicano la presenza di valori mancanti (nulli).

#### Uso comune: Conteggio dei Valori Nulli

Puoi usare `.isnull().sum()` per contare il numero di valori nulli in ogni colonna.

In [30]:
csv.isnull().sum()

order_id                    0
customer_state              0
product_category_name       0
product_weight_g            0
review_score                0
price                       0
freight_value               0
payment_value               0
order_approved_at           0
order_purchase_timestamp    0
dtype: int64

## `.notnull()`

Questo metodo è l'opposto di `.isnull()`, identificando i valori **non nulli** (ossia `NaN` e `None` sono marcati come `False`, mentre gli altri valori come `True`).

#### Esempio di utilizzo di `.notnull()`

In [31]:
csv.notnull()

Unnamed: 0,order_id,customer_state,product_category_name,product_weight_g,review_score,price,freight_value,payment_value,order_approved_at,order_purchase_timestamp
0,True,True,True,True,True,True,True,True,True,True
1,True,True,True,True,True,True,True,True,True,True
2,True,True,True,True,True,True,True,True,True,True
3,True,True,True,True,True,True,True,True,True,True
4,True,True,True,True,True,True,True,True,True,True
...,...,...,...,...,...,...,...,...,...,...
2017,True,True,True,True,True,True,True,True,True,True
2018,True,True,True,True,True,True,True,True,True,True
2019,True,True,True,True,True,True,True,True,True,True
2020,True,True,True,True,True,True,True,True,True,True


- I `True` indicano la presenza di valori **non** nulli.

#### Esempi pratici

1. **Filtrare i valori non nulli in una colonna**

In [32]:
df_non_null = csv[csv['product_category_name'].notnull()]
df_non_null.head()

Unnamed: 0,order_id,customer_state,product_category_name,product_weight_g,review_score,price,freight_value,payment_value,order_approved_at,order_purchase_timestamp
0,00010242fe8c5a6d1ba2dd792cb16214,RJ,cool_stuff,650.0,5,58.9,13.29,72.19,2017-09-13 09:45:35,2017-09-13 08:59:02
1,130898c0987d1801452a8ed92a670612,GO,cool_stuff,650.0,5,55.9,17.96,73.86,2017-06-29 02:44:11,2017-06-28 11:52:20
2,532ed5e14e24ae1f0d735b91524b98b9,MG,cool_stuff,650.0,4,64.9,18.33,83.23,2018-05-18 12:31:43,2018-05-18 10:25:53
3,6f8c31653edb8c83e1a739408b5ff750,PR,cool_stuff,650.0,5,58.9,16.17,75.07,2017-08-01 18:55:08,2017-08-01 18:38:42
4,7d19f4ef4d04461989632411b7e588b9,MG,cool_stuff,650.0,5,58.9,13.29,72.19,2017-08-10 22:05:11,2017-08-10 21:48:40


2. **Verificare se ci sono valori nulli nel DataFrame**

In [33]:
csv.isnull().values.any()

False

3. **Contare i valori non nulli in ogni colonna**

In [34]:
csv.notnull().sum()

order_id                    2022
customer_state              2022
product_category_name       2022
product_weight_g            2022
review_score                2022
price                       2022
freight_value               2022
payment_value               2022
order_approved_at           2022
order_purchase_timestamp    2022
dtype: int64

#### Differenza tra i due

- **`.isnull()`**: Restituisce `True` per i valori nulli.
- **`.notnull()`**: Restituisce `True` per i valori **non** nulli.

Questi metodi sono molto utili per gestire i valori mancanti nei dataset, una parte essenziale dell'analisi dei dati e della pulizia dei dati. Se hai altre domande, sono qui per aiutarti!

## ``.duplicated()`` – Checks for duplicate rows

Il metodo `.duplicated()` in Pandas è utilizzato per identificare le righe duplicate in un DataFrame o gli elementi duplicati in una Serie. Restituisce una Serie di valori booleani in cui `True` indica che una riga o un elemento è un duplicato di una precedente e `False` indica che non lo è.

#### Principali Parametri di `.duplicated()`

1. **`subset`**: Specifica le colonne su cui controllare i duplicati. Se non viene specificato, il controllo viene eseguito su tutte le colonne.
    - *Tipo*: lista di stringhe (nomi di colonne).
    - *Valore predefinito*: `None`.
2. **`keep`**: Determina quale duplicato (se ce ne sono) contrassegnare come `True`.
    - `"first"`: Marca tutte le duplicazioni successive come `True`, mantenendo il primo valore come unico (`False`).
    - `"last"`: Marca tutte le duplicazioni precedenti come `True`, mantenendo l'ultimo valore come unico (`False`).
    - `False`: Marca **tutti** i duplicati come `True`.
    - *Valore predefinito*: `"first"`.

#### Esempio di Utilizzo di `.duplicated()`

#### Esempio 1: Identificare le righe duplicate in un DataFrame

In [35]:
csv.duplicated()

0       False
1       False
2       False
3       False
4       False
        ...  
2017    False
2018    False
2019     True
2020    False
2021    False
Length: 2022, dtype: bool

#### Esempio 2: Utilizzare il parametro `keep`

In [36]:
# Mantenere solo l'ultima occorrenza come unica
csv.duplicated(keep='last')

0       False
1       False
2       False
3       False
4       False
        ...  
2017    False
2018     True
2019    False
2020    False
2021    False
Length: 2022, dtype: bool

- In questo caso, vengono mantenute le ultime occorrenze e le precedenti vengono considerate duplicate.

#### Esempio 3: Identificare i duplicati basandosi su colonne specifiche

In [37]:
csv.duplicated(subset='product_category_name')

0       False
1        True
2        True
3        True
4        True
        ...  
2017     True
2018     True
2019     True
2020     True
2021     True
Length: 2022, dtype: bool

#### Esempio 4: Marcatura di **tutti** i duplicati

In [38]:
csv.duplicated(keep=False)

0       False
1       False
2       False
3       False
4       False
        ...  
2017    False
2018     True
2019     True
2020    False
2021    False
Length: 2022, dtype: bool

##### `.duplicated()`

In [39]:
df_unique = csv.drop_duplicates()

## ``.nunique()`` – Counts the number of unique values per column

Il metodo `.nunique()` in Pandas viene utilizzato per contare il numero di valori unici (distinti) presenti in ogni colonna di un DataFrame o in una Serie. Questo è utile per avere una rapida panoramica della varietà di dati all'interno di ogni colonna.

#### Principali Parametri di `.nunique()`

1. **`axis`**: Specifica se contare i valori unici per colonne o per righe.
    - *Valore predefinito*: `0` o `'index'` (conteggio dei valori unici per colonna).
    - Se `axis=1` o `'columns'`, conta i valori unici per ogni riga.
2. **`dropna`**: Indica se escludere (`True`) o includere (`False`) i valori mancanti (NaN) nel conteggio.
    - *Valore predefinito*: `True` (esclude i valori mancanti).

#### Esempi di Utilizzo di `.nunique()`

#### Esempio 1: Contare i valori unici in un DataFrame

In [40]:
csv.nunique()

order_id                    1735
customer_state                27
product_category_name         21
product_weight_g             119
review_score                   5
price                        229
freight_value                572
payment_value                902
order_approved_at           1734
order_purchase_timestamp    1735
dtype: int64

#### Esempio 2: Contare i valori unici, inclusi i valori nulli

In [41]:
csv.nunique(dropna=False)

order_id                    1735
customer_state                27
product_category_name         21
product_weight_g             119
review_score                   5
price                        229
freight_value                572
payment_value                902
order_approved_at           1734
order_purchase_timestamp    1735
dtype: int64

#### Esempio 3: Contare i valori unici lungo le righe (con axis=1)

In [42]:
csv.nunique(axis=1)

0       10
1       10
2       10
3       10
4       10
        ..
2017    10
2018    10
2019    10
2020    10
2021    10
Length: 2022, dtype: int64

## ``.sample(n)`` – Randomly selects n rows from the DataFrame

Il metodo `.sample()` in Pandas viene utilizzato per estrarre un campione casuale di righe o colonne da un DataFrame o da una Serie. Può essere utile per esplorare una parte dei dati in modo casuale o per generare un sottocampione per l'analisi.

#### Principali Parametri di `.sample()`

1. **`n`**: Specifica il numero di elementi (righe o colonne) da campionare.
    - *Tipo*: intero.
    - Non può essere utilizzato contemporaneamente con il parametro `frac`.
2. **`frac`**: Specifica la frazione di elementi da campionare rispetto al totale.
    - *Tipo*: float, ad esempio `frac=0.5` campiona il 50% degli elementi.
    - Non può essere utilizzato insieme al parametro `n`.
3. **`replace`**: Se `True`, consente il campionamento con ripetizione (ossia, gli stessi elementi possono essere estratti più di una volta).
    - *Tipo*: booleano.
    - *Valore predefinito*: `False`.
4. **`weights`**: Determina le probabilità con cui ogni elemento è campionato. Può essere una colonna del DataFrame o un array-like di pesi.
    - *Tipo*: array-like o nome di colonna.
5. **`random_state`**: Un seme o seed per la generazione di numeri casuali, che rende il campionamento riproducibile.
    - *Tipo*: intero.
6. **`axis`**: Specifica se campionare righe o colonne.
    - `axis=0` o `'index'` per campionare righe (valore predefinito).
    - `axis=1` o `'columns'` per campionare colonne.

#### Esempi di Utilizzo di `.sample()`

#### Esempio 1: Campionare un numero fisso di righe

In [43]:
csv.sample(n=2)

Unnamed: 0,order_id,customer_state,product_category_name,product_weight_g,review_score,price,freight_value,payment_value,order_approved_at,order_purchase_timestamp
81,1a6c3832fcc2947c38b41bd24fe0201e,CE,cool_stuff,650.0,5,45.9,35.67,81.57,2017-06-30 15:50:15,2017-06-30 15:31:51
1165,807e1137296f0952dc5038aadf9d1f76,MG,perfumaria,200.0,2,53.99,15.13,69.12,2018-02-07 02:55:55,2018-02-06 16:33:24


#### Esempio 2: Campionare una frazione di righe

In [44]:
csv.sample(frac=0.5)

Unnamed: 0,order_id,customer_state,product_category_name,product_weight_g,review_score,price,freight_value,payment_value,order_approved_at,order_purchase_timestamp
427,9b643bf8a8614206d936530d416aef57,PR,audio,167.0,2,19.90,14.10,34.00,2017-11-22 11:54:27,2017-11-22 11:42:43
242,bde305d08669a1b46554c10f03a85675,RJ,pet_shop,7300.0,5,29.90,17.93,47.83,2018-05-08 01:11:58,2018-05-08 00:45:50
113,7c3e480eb90c173aae4ffde40bbaec26,SP,cool_stuff,575.0,5,58.90,21.32,142.57,2017-08-23 02:55:54,2017-08-22 10:14:07
760,5ef2b9c9a5e997664dcaacc5fa769e07,PR,beleza_saude,1500.0,5,164.90,16.36,181.26,2017-03-25 02:10:41,2017-03-23 23:55:55
981,2f839b79d9954ebfedeeba654f0f3de8,SP,telefonia,150.0,5,7.00,7.39,71.95,2018-03-26 14:50:21,2018-03-26 14:40:10
...,...,...,...,...,...,...,...,...,...,...
1041,57c2914d78f0d7f4b76089b7844e77ea,SP,perfumaria,550.0,3,84.99,8.79,93.78,2017-07-11 21:36:01,2017-07-11 20:58:08
1074,bca3dc20a3ec02261c5b17dc270e9e65,MG,perfumaria,550.0,5,84.99,16.35,101.34,2017-12-06 02:50:38,2017-12-05 10:34:52
1603,8092a1edb9b302ea942c2671edf4737c,SP,beleza_saude,200.0,2,58.99,13.07,72.06,2018-06-29 16:11:39,2018-06-29 15:27:05
1768,d339c3ad62c16e15e4c2f3e39abd1abb,RS,perfumaria,400.0,4,56.99,16.10,73.09,2017-04-15 11:55:08,2017-04-15 11:44:00


#### Esempio 3: Campionamento con ripetizione

In [45]:
csv.sample(n=4, replace=True)

Unnamed: 0,order_id,customer_state,product_category_name,product_weight_g,review_score,price,freight_value,payment_value,order_approved_at,order_purchase_timestamp
18,d829ae9ca5e0a9749f2574b62eb7ac10,BA,cool_stuff,530.0,5,55.9,27.99,167.51,2017-07-13 02:56:03,2017-07-12 12:04:28
448,3823f120a83e20af66f49d377207bbeb,SP,audio,200.0,3,14.9,8.29,23.19,2018-07-18 03:05:22,2018-07-17 18:18:59
977,2909debcb57debbbdfe7034eaf7b28bc,SP,telefonia,150.0,5,7.0,11.85,18.85,2017-06-13 04:43:07,2017-06-10 17:06:01
1869,aeefcf3435f9cc6db2c0b8019f17ca7f,SP,perfumaria,250.0,5,49.99,8.29,58.28,2018-03-23 18:30:42,2018-03-23 18:15:49


#### Esempio 4: Campionamento riproducibile usando random_state

In [46]:
csv.sample(n=2, random_state=42)

Unnamed: 0,order_id,customer_state,product_category_name,product_weight_g,review_score,price,freight_value,payment_value,order_approved_at,order_purchase_timestamp
674,b0e2da4433a10c624a9f71b187e93915,SP,beleza_saude,400.0,5,99.9,9.51,109.41,2017-05-07 02:10:12,2017-05-06 21:55:41
1384,b45d11b61c2a68756bbbd7665d67e812,MG,beleza_saude,250.0,4,89.99,16.39,106.38,2017-10-13 15:56:25,2017-10-11 21:55:04


#### Esempio 5: Campionare colonne invece di righe

In [47]:
csv.sample(n=1, axis=1)

Unnamed: 0,order_approved_at
0,2017-09-13 09:45:35
1,2017-06-29 02:44:11
2,2018-05-18 12:31:43
3,2017-08-01 18:55:08
4,2017-08-10 22:05:11
...,...
2017,2017-11-22 02:56:28
2018,2018-02-13 16:50:30
2019,2018-02-13 16:50:30
2020,2018-03-01 02:50:46


# 3. Selecting and Indexing Data

spiegami i principali parametri per ogni comando che ti manderò e fammi alcuni esempi

## ``.loc[]`` – Accesses groups of rows and columns by labels.

Il metodo `.loc[]` in Pandas viene utilizzato per accedere e modificare dati in un DataFrame o in una Serie, in base a etichette di indice (o nomi di colonne). È particolarmente utile quando si desidera selezionare righe o colonne specifiche utilizzando le loro etichette piuttosto che la loro posizione numerica.

### Sintassi Generale di `.loc[]`

``` python
DataFrame.loc[righe, colonne]
```

- **`righe`**: Specifica le righe da selezionare utilizzando l’etichetta dell'indice.
- **`colonne`**: Specifica le colonne da selezionare utilizzando i nomi delle colonne.

### Principali Utilizzi e Esempi di `.loc[]`

1. **Selezionare una riga specifica**: Passando l'etichetta della riga.
2. **Selezionare più righe**: Utilizzando una lista di etichette o una condizione booleana.
3. **Selezionare una colonna specifica o più colonne**: Specificando il nome della colonna o una lista di nomi.
4. **Modificare valori**: `.loc[]` può essere utilizzato per aggiornare valori specifici in base a una condizione.

### Esempi di Utilizzo di `.loc[]`

### Esempio 1: Selezionare una specifica riga

In [48]:
csv.loc[1]

order_id                    130898c0987d1801452a8ed92a670612
customer_state                                            GO
product_category_name                             cool_stuff
product_weight_g                                       650.0
review_score                                               5
price                                                   55.9
freight_value                                          17.96
payment_value                                          73.86
order_approved_at                        2017-06-29 02:44:11
order_purchase_timestamp                 2017-06-28 11:52:20
Name: 1, dtype: object

### Esempio 2: Selezionare più righe

In [49]:
csv.loc[[1, 22]]

Unnamed: 0,order_id,customer_state,product_category_name,product_weight_g,review_score,price,freight_value,payment_value,order_approved_at,order_purchase_timestamp
1,130898c0987d1801452a8ed92a670612,GO,cool_stuff,650.0,5,55.9,17.96,73.86,2017-06-29 02:44:11,2017-06-28 11:52:20
22,7766424657aa0cfbf1703f9550144964,RJ,cool_stuff,400.0,5,55.9,9.27,65.17,2017-08-08 11:43:36,2017-08-08 11:24:19


### Esempio 3: Selezionare specifiche colonne di una riga

In [50]:
csv.loc[[1, 2], ['customer_state', 'order_id']]

Unnamed: 0,customer_state,order_id
1,GO,130898c0987d1801452a8ed92a670612
2,MG,532ed5e14e24ae1f0d735b91524b98b9


### Esempio 4: Selezionare righe basate su una condizione

In [51]:
csv.loc[csv['review_score'] >= 5].head()

Unnamed: 0,order_id,customer_state,product_category_name,product_weight_g,review_score,price,freight_value,payment_value,order_approved_at,order_purchase_timestamp
0,00010242fe8c5a6d1ba2dd792cb16214,RJ,cool_stuff,650.0,5,58.9,13.29,72.19,2017-09-13 09:45:35,2017-09-13 08:59:02
1,130898c0987d1801452a8ed92a670612,GO,cool_stuff,650.0,5,55.9,17.96,73.86,2017-06-29 02:44:11,2017-06-28 11:52:20
3,6f8c31653edb8c83e1a739408b5ff750,PR,cool_stuff,650.0,5,58.9,16.17,75.07,2017-08-01 18:55:08,2017-08-01 18:38:42
4,7d19f4ef4d04461989632411b7e588b9,MG,cool_stuff,650.0,5,58.9,13.29,72.19,2017-08-10 22:05:11,2017-08-10 21:48:40
5,a0f9acf0b6294ed8561e32cde1a966bc,BA,cool_stuff,650.0,5,55.9,26.93,82.83,2017-07-28 15:23:46,2017-07-27 15:11:51


### Esempio 5: Modificare valori con .loc[]

In [None]:
csv.loc[1, 'review_score'] = 6

## `.iloc[]` – Accede a gruppi di righe e colonne per posizione (basato su numeri interi).

Il metodo `.iloc[]` di Pandas consente di selezionare dati da un DataFrame o da una Serie in base alla **posizione numerica degli indici (e delle colonne)**. È utile per accedere a righe e colonne utilizzando indici numerici anziché etichette.

### Principali parametri e utilizzi

1. **`.iloc[<indice_riga>]`**
    - Specifica la riga da selezionare.
    - Può essere un singolo numero, una lista, uno slice (es. `:`), o una condizione.
2. **`.iloc[:, <indice_colonna>]`**
    - Specifica la colonna da selezionare.
    - Analogamente, può essere un singolo numero, una lista, uno slice o una condizione.
3. **Combinazione righe/colonne:**
    - `.iloc[<indice_riga>, <indice_colonna>]` accede direttamente a una cella, riga o gruppo di righe e colonne.

---

### Esempi pratici

### Dati di esempio

In [None]:
import pandas as pd

data = {
    "Nome": ["Alice", "Bob", "Charlie"],
    "Età": [25, 30, 35],
    "Città": ["Roma", "Milano", "Napoli"]
}

df = pd.DataFrame(data)
print(df)

### 1. Selezione di una singola riga

In [1]:
# Seleziona la prima riga (indice 0)
print(df.iloc[0])

NameError: name 'df' is not defined

### 2. Selezione di un intervallo di righe

In [None]:
# Seleziona le prime due righe
print(df.iloc[0:2])

### 3. Selezione di specifiche colonne

In [None]:
# Seleziona tutte le righe e la seconda colonna (indice 1)
print(df.iloc[:, 1])

### 4. Selezione di una specifica cella

# Seleziona la cella in posizione [1, 2] (riga 1, colonna 2)
print(df.iloc[1, 2])

### 5. Utilizzo con liste di indici

In [None]:
# Seleziona la prima e l'ultima riga
print(df.iloc[[0, 2]])

### 6. Uso combinato di righe e colonne

In [None]:
# Seleziona le prime due righe e la prima colonna
print(df.iloc[0:2, 0])

## `.at[]` – Accede a un singolo valore per una coppia di etichette riga/colonna.

## `.iat[]` – Accede a un singolo valore per una coppia di posizione riga/colonna.

## `.filter()` – Sottoselezione del DataFrame basata su etichette di righe/colonne.

## `.xs()` – Ottieni sezioni trasversali da un MultiIndex.

## `.query()` – Filtra il DataFrame con un'espressione stringa.

## `.get()` – Recupera elementi da una Serie per chiave.

## `.isin()` – Filtra righe in base al fatto che i valori siano in una lista.

## `.where()` – Imposta valori in base a una condizione.

## `.mask()` – Sostituisce i valori dove una condizione è `True`.

## `.squeeze()` – Converte un DataFrame con una sola colonna in una Serie.

# 4. Data Cleaning

# 5. Data Transformation

# 6. Aggregation and Grouping

# 7. Merging and Combining Data

# 8. Exploring Temporal Data

# 9. Exporting Data

# 10. Handling Multi-Level Indices (MultiIndex)

# 11. Pandas Profiling

# 12. Method chaining

## Web Scraping [RACCOLTA]

##

<p align="center">
  Enzo Schitini
</p>

<p align="center">
  Data Scientist & Data Analyst • SQL • Expert Bubble.io • UX & UI @ Scituffy creator
</p>