# Introduzione a Pandas
Pandas è una libreria open-source per la manipolazione e analisi dei dati in Python. Fornisce strutture dati e strumenti per lavorare con dataset tabulari, come DataFrame e Series.
Lo scopo del modulo pandas è quello di aggiungere a Python le astrazioni delle serie e dei frame di dati, inoltre pandas opera sulla base di numpy, del quale estende e, in parte reimplementa le funzionalità. 
Un frame di dati pandas è, in pratica, un foglio di lavoro “intelligente”: una tabella che riporta etichette per le colonne (le variabili), le righe (le osservazioni) e una ricca collezione di operazioni interne (qui una serie è semplicemente un frame avente una sola colonna). 
La parte della tabella dedicata ai dati (le celle) è implementata come un array numpy. 
Molte operazioni (come il cambio di forma dei dati e le funzioni di aggregazione e universali) somigliano alle versioni numpy. 
Le etichette di riga e di colonna forniscono un accesso comodo e “parlante” alle singole righe e colonne. 
Inoltre, le etichette di righe e colonne consentono a noi programmatori di combinare più frame unendoli e concatenandoli in senso “verticale” (uno sopra l’altro) o in “orizzontale” (fianco a fianco).

In [9]:
# Installazione della libreria (se non è già installata)
!pip install pandas

Defaulting to user installation because normal site-packages is not writeable


## 1. Importazione di Pandas
Per utilizzare Pandas, è necessario importarlo nel proprio script.

In [10]:
import pandas as pd
print("Pandas importato con successo!")

Pandas importato con successo!


## 2. Serie in Pandas
Una **Series** è un array unidimensionale etichettato che può contenere dati di qualsiasi tipo.

In [11]:
# Creazione di una Serie
s = pd.Series([10, 20, 30, 40], index=['a', 'b', 'c', 'd'])
print(s)

# Accesso agli elementi della Serie
print("Elemento con indice 'b':", s['b'])

# Operazioni matematiche su una Serie
print("Serie moltiplicata per 2:")
print(s * 2)

a    10
b    20
c    30
d    40
dtype: int64
Elemento con indice 'b': 20
Serie moltiplicata per 2:
a    20
b    40
c    60
d    80
dtype: int64


## 3. DataFrame in Pandas
Un **DataFrame** è una struttura dati bidimensionale, simile a una tabella.

In [12]:
# Creazione di un DataFrame da un dizionario
dati = {
    'Nome': ['Alice', 'Bob', 'Charlie'],
    'Età': [25, 30, 35],
    'Città': ['Roma', 'Milano', 'Napoli']
}

df = pd.DataFrame(dati)
print(df)

      Nome  Età   Città
0    Alice   25    Roma
1      Bob   30  Milano
2  Charlie   35  Napoli


## 4. Lettura e Scrittura di File CSV
Pandas può leggere e scrivere file CSV in modo semplice ed efficiente.

In [13]:
# Scrittura del DataFrame in un file CSV
df.to_csv('dati.csv', index=False)

# Lettura di un file CSV
df_letto = pd.read_csv('dati.csv')
print(df_letto)

      Nome  Età   Città
0    Alice   25    Roma
1      Bob   30  Milano
2  Charlie   35  Napoli


## 5. Operazioni di Base sui DataFrame
Vediamo alcune operazioni fondamentali.

In [14]:
# Mostrare le prime righe del DataFrame
print(df.head())

# Ottenere informazioni generali sul DataFrame
print(df.info())

# Descrizione statistica dei dati
print(df.describe())

      Nome  Età   Città
0    Alice   25    Roma
1      Bob   30  Milano
2  Charlie   35  Napoli
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Nome    3 non-null      object
 1   Età     3 non-null      int64 
 2   Città   3 non-null      object
dtypes: int64(1), object(2)
memory usage: 204.0+ bytes
None
        Età
count   3.0
mean   30.0
std     5.0
min    25.0
25%    27.5
50%    30.0
75%    32.5
max    35.0


## 6. Selezione di Dati
Possiamo selezionare colonne e righe specifiche.

In [15]:
# Selezionare una colonna
print(df['Nome'])

# Selezionare più colonne
print(df[['Nome', 'Età']])

# Selezionare righe specifiche
print(df.loc[1])  # Seleziona la seconda riga

0      Alice
1        Bob
2    Charlie
Name: Nome, dtype: object
      Nome  Età
0    Alice   25
1      Bob   30
2  Charlie   35
Nome        Bob
Età          30
Città    Milano
Name: 1, dtype: object


## 7. Filtraggio dei Dati
Possiamo filtrare i dati in base a condizioni specifiche.

In [16]:
# Selezionare righe dove l'età è maggiore di 28 anni
filtro = df[df['Età'] > 28]
print(filtro)

      Nome  Età   Città
1      Bob   30  Milano
2  Charlie   35  Napoli


## 8. Modifica dei Dati
Possiamo aggiornare i dati esistenti o aggiungere nuove colonne.

In [17]:
# Aggiungere una nuova colonna
df['Salario'] = [3000, 3500, 4000]
print(df)

# Modificare un valore specifico
df.loc[1, 'Età'] = 32
print(df)

      Nome  Età   Città  Salario
0    Alice   25    Roma     3000
1      Bob   30  Milano     3500
2  Charlie   35  Napoli     4000
      Nome  Età   Città  Salario
0    Alice   25    Roma     3000
1      Bob   32  Milano     3500
2  Charlie   35  Napoli     4000


## 9. Raggruppamento e Aggregazione
Possiamo raggruppare i dati e calcolare statistiche.

In [18]:
# Raggruppare per città e calcolare l'età media
df_grouped = df.groupby('Città')['Età'].mean()
print(df_grouped)

Città
Milano    32.0
Napoli    35.0
Roma      25.0
Name: Età, dtype: float64


## 10. Ordinamento dei Dati
Possiamo ordinare i dati in base a specifiche colonne.

In [19]:
# Ordinare i dati per età in ordine crescente
df_sorted = df.sort_values(by='Età')
print(df_sorted)

      Nome  Età   Città  Salario
0    Alice   25    Roma     3000
1      Bob   32  Milano     3500
2  Charlie   35  Napoli     4000


## Indicizzazione con Pandas

L'indicizzazione in Pandas è un aspetto fondamentale per la manipolazione e l'accesso ai dati all'interno di un DataFrame o di una Series. Ecco una panoramica su come gestire l'indicizzazione:

### 1. Indicizzazione di Base
- **Accesso per etichetta**: Utilizzando l'attributo `.loc`, è possibile accedere ai dati tramite le etichette delle righe e delle colonne.
    ```python
    df.loc[1, 'Nome']  # Accesso alla seconda riga e alla colonna 'Nome'
    ```
- **Accesso per posizione**: Utilizzando l'attributo `.iloc`, è possibile accedere ai dati tramite la posizione numerica delle righe e delle colonne.
    ```python
    df.iloc[1, 0]  # Accesso alla seconda riga e alla prima colonna
    ```

### 2. Slicing
- **Slicing di righe**: È possibile selezionare un intervallo di righe utilizzando `:`.
    ```python
    df.loc[1:3]  # Seleziona dalla seconda alla quarta riga (inclusa)
    ```
- **Slicing di colonne**: È possibile selezionare un intervallo di colonne.
    ```python
    df.loc[:, 'Nome':'Città']  # Seleziona tutte le righe e le colonne da 'Nome' a 'Città'
    ```

### 3. Filtraggio
- **Filtraggio con condizioni**: È possibile filtrare i dati in base a condizioni specifiche.
    ```python
    df[df['Età'] > 30]  # Seleziona le righe dove l'età è maggiore di 30
    ```

### 4. Impostazione di un nuovo indice
- **Impostazione di una colonna come indice**: È possibile impostare una colonna esistente come indice del DataFrame.
    ```python
    df.set_index('Nome', inplace=True)  # Imposta la colonna 'Nome' come indice
    ```
- **Ripristino dell'indice**: È possibile ripristinare l'indice predefinito.
    ```python
    df.reset_index(inplace=True)  # Ripristina l'indice numerico predefinito
    ```

### 5. MultiIndex
- **Creazione di un MultiIndex**: È possibile creare un indice gerarchico utilizzando più colonne.
    ```python
    df.set_index(['Città', 'Nome'], inplace=True)  # Imposta un indice gerarchico con 'Città' e 'Nome'
    ```
- **Accesso ai dati con MultiIndex**: È possibile accedere ai dati utilizzando il MultiIndex.
    ```python
    df.loc[('Roma', 'Alice')]  # Accesso ai dati per 'Roma' e 'Alice'
    ```

Questi sono alcuni dei metodi principali per gestire l'indicizzazione con Pandas. L'indicizzazione è uno strumento potente che consente di accedere, filtrare e manipolare i dati in modo efficiente.

In [20]:
# Indicizzazione di Base
# Accesso per etichetta
print("Accesso per etichetta:", df.loc[1, 'Nome'])  # Accesso alla seconda riga e alla colonna 'Nome'

# Accesso per posizione
print("Accesso per posizione:", df.iloc[1, 0])  # Accesso alla seconda riga e alla prima colonna

# Slicing
# Slicing di righe
print("Slicing di righe:\n", df.loc[1:2])  # Seleziona dalla seconda alla terza riga (inclusa)

# Slicing di colonne
print("Slicing di colonne:\n", df.loc[:, 'Nome':'Città'])  # Seleziona tutte le righe e le colonne da 'Nome' a 'Città'

# Filtraggio
# Filtraggio con condizioni
print("Filtraggio con condizioni:\n", df[df['Età'] > 30])  # Seleziona le righe dove l'età è maggiore di 30

# Impostazione di un nuovo indice
# Impostazione di una colonna come indice
df.set_index('Nome', inplace=True)
print("Impostazione di una colonna come indice:\n", df)

# Ripristino dell'indice
df.reset_index(inplace=True)
print("Ripristino dell'indice:\n", df)

# MultiIndex
# Creazione di un MultiIndex
df.set_index(['Città', 'Nome'], inplace=True)
print("Creazione di un MultiIndex:\n", df)

# Accesso ai dati con MultiIndex
print("Accesso ai dati con MultiIndex:\n", df.loc[('Roma', 'Alice')])

Accesso per etichetta: Bob
Accesso per posizione: Bob
Slicing di righe:
       Nome  Età   Città  Salario
1      Bob   32  Milano     3500
2  Charlie   35  Napoli     4000
Slicing di colonne:
       Nome  Età   Città
0    Alice   25    Roma
1      Bob   32  Milano
2  Charlie   35  Napoli
Filtraggio con condizioni:
       Nome  Età   Città  Salario
1      Bob   32  Milano     3500
2  Charlie   35  Napoli     4000
Impostazione di una colonna come indice:
          Età   Città  Salario
Nome                         
Alice     25    Roma     3000
Bob       32  Milano     3500
Charlie   35  Napoli     4000
Ripristino dell'indice:
       Nome  Età   Città  Salario
0    Alice   25    Roma     3000
1      Bob   32  Milano     3500
2  Charlie   35  Napoli     4000
Creazione di un MultiIndex:
                 Età  Salario
Città  Nome                 
Roma   Alice     25     3000
Milano Bob       32     3500
Napoli Charlie   35     4000
Accesso ai dati con MultiIndex:
 Età          25
Salario    3

## Reindicizzazione di una Series

La reindicizzazione di una Series in Pandas consente di cambiare l'ordine delle etichette dell'indice e di aggiungere nuove etichette. Quando si reindicizza una Series, 
è possibile specificare un nuovo set di etichette per l'indice. Se una delle nuove etichette non esiste nella Series originale, 
il valore corrispondente sarà impostato su NaN (Not a Number).

In [21]:
# Reindicizzazione di una Series
s_reindexed = s.reindex(['a', 'c', 'b', 'd', 'e'])
print(s_reindexed)

a    10.0
c    30.0
b    20.0
d    40.0
e     NaN
dtype: float64


### Per `Series.reindex`

- **index**: Lista o array-like, opzionale. Nuove etichette per l'indice. Se non specificato, l'indice originale viene mantenuto.
- **method**: Stringa, opzionale. Metodo di riempimento per i valori mancanti. Può essere:
    - `'pad'`/`'ffill'`: Riempie in avanti.
    - `'backfill'`/`'bfill'`: Riempie all'indietro.
    - `'nearest'`: Usa il valore più vicino.
- **copy**: Booleano, predefinito True. Se True, ritorna una copia dei dati.
- **level**: Int o nome, opzionale. Livello specifico (per MultiIndex) da reindicizzare.
- **fill_value**: Valore, opzionale. Valore da usare per riempire gli elementi mancanti.
- **limit**: Int, opzionale. Numero massimo di elementi da riempire.
- **tolerance**: Tolleranza per il riempimento, opzionale. Può essere un singolo valore o un array-like.
- **kwargs**: Argomenti aggiuntivi per la compatibilità futura.

### Per `DataFrame.reindex`

- **index**: Lista o array-like, opzionale. Nuove etichette per l'indice delle righe. Se non specificato, l'indice originale viene mantenuto.
- **columns**: Lista o array-like, opzionale. Nuove etichette per l'indice delle colonne. Se non specificato, l'indice originale viene mantenuto.
- **method**: Stringa, opzionale. Metodo di riempimento per i valori mancanti. Può essere:
    - `'pad'`/`'ffill'`: Riempie in avanti.
    - `'backfill'`/`'bfill'`: Riempie all'indietro.
    - `'nearest'`: Usa il valore più vicino.
- **copy**: Booleano, predefinito True. Se True, ritorna una copia dei dati.
- **level**: Int o nome, opzionale. Livello specifico (per MultiIndex) da reindicizzare.
- **fill_value**: Valore, opzionale. Valore da usare per riempire gli elementi mancanti.
- **limit**: Int, opzionale. Numero massimo di elementi da riempire.
- **tolerance**: Tolleranza per il riempimento, opzionale. Può essere un singolo valore o un array-like.
- **kwargs**: Argomenti aggiuntivi per la compatibilità futura.

In [25]:
# Esempi per tutti i parametri di reindex

# Creazione di una Series di esempio
s = pd.Series([10, 20, 30, 40], index=['a', 'b', 'c', 'd'])

# Esempio per il parametro 'index'
s_reindexed = s.reindex(['a', 'c', 'b', 'd', 'e'])
print("Esempio per 'index':\n", s_reindexed)

# Esempio per il parametro 'method'
s_reindexed_method = s.reindex(['a', 'c', 'b', 'd', 'e'], method='ffill')
print("\nEsempio per 'method':\n", s_reindexed_method)

# Esempio per il parametro 'copy'
s_reindexed_copy = s.reindex(['a', 'c', 'b', 'd', 'e'], copy=False)
print("\nEsempio per 'copy':\n", s_reindexed_copy)

# Esempio per il parametro 'level'
# Creazione di una Series con MultiIndex
arrays = [['a', 'a', 'b', 'b'], [1, 2, 1, 2]]
index = pd.MultiIndex.from_arrays(arrays, names=('letter', 'number'))
s_multi = pd.Series([10, 20, 30, 40], index=index)
s_reindexed_level = s_multi.reindex(['a', 'b'], level='letter')
print("\nEsempio per 'level':\n", s_reindexed_level)

# Esempio per il parametro 'fill_value'
s_reindexed_fill_value = s.reindex(['a', 'c', 'b', 'd', 'e'], fill_value=0)
print("\nEsempio per 'fill_value':\n", s_reindexed_fill_value)

# Esempio per il parametro 'limit'
# Assicurarsi che l'indice e il target siano monotoni
s_sorted = s.sort_index()
s_reindexed_limit = s_sorted.reindex(['a', 'b', 'c', 'd', 'e'], method='ffill', limit=1)
print("\nEsempio per 'limit':\n", s_reindexed_limit)

# Esempio per il parametro 'tolerance'
# Creazione di una Series con indici numerici
s_numeric = pd.Series([10, 20, 30, 40], index=[1, 2, 3, 4])
s_reindexed_tolerance = s_numeric.reindex([1, 2, 3, 4, 5], method='nearest', tolerance=1)
print("\nEsempio per 'tolerance':\n", s_reindexed_tolerance)

Esempio per 'index':
 a    10.0
c    30.0
b    20.0
d    40.0
e     NaN
dtype: float64

Esempio per 'method':
 a    10
c    30
b    20
d    40
e    40
dtype: int64

Esempio per 'copy':
 a    10.0
c    30.0
b    20.0
d    40.0
e     NaN
dtype: float64

Esempio per 'level':
 letter  number
a       1         10
        2         20
b       1         30
        2         40
dtype: int64

Esempio per 'fill_value':
 a    10
c    30
b    20
d    40
e     0
dtype: int64

Esempio per 'limit':
 a    10
b    20
c    30
d    40
e    40
dtype: int64

Esempio per 'tolerance':
 1    10
2    20
3    30
4    40
5    40
dtype: int64


## Stack e Pivot

Potete appiattire, in parte o in toto, un indice multilivello, introducendo però nomi di colonne multilivello. Potete appiattire, in parte o in toto, dei nomi di colonne multilivello, introducendo però un multiindice.

![stack_pivot](./stack-pivot.png)

### Stack

La funzione `stack()` incrementa il numero di livelli nell’indice e, simultaneamente, decrementa il numero di livelli nei nomi di colonne. Rende, pertanto, il frame più “alto” e più “stretto”. Se i nomi di colonne sono più “piatti”, restituisce una serie.

In [None]:
# Creazione di un DataFrame di esempio
df = pd.DataFrame({
    'A': ['foo', 'foo', 'bar', 'bar'],
    'B': ['one', 'two', 'one', 'two'],
    'C': [1, 2, 3, 4],
    'D': [5, 6, 7, 8]
})
print("DataFrame originale:\n", df)

# Esempio di stack
stacked = df.stack()
print("\nDataFrame dopo stack:\n", stacked)

# Creazione di un DataFrame di esempio per pivot
df_pivot = pd.DataFrame({
    'A': ['foo', 'foo', 'bar', 'bar'],
    'B': ['one', 'one', 'two', 'two'],
    'C': [1, 3, 2, 4]
})
print("\nDataFrame originale per pivot:\n", df_pivot)

# Esempio di pivot
pivoted = df_pivot.pivot(index='A', columns='B', values='C')
print("\nDataFrame dopo pivot:\n", pivoted)

### Identificazione dei Dati Mancanti

Solo raramente i dati sono “perfetti”. Alcuni valori sono sicuri (e non è necessario preoccuparsene); alcuni sono dubbi (e occorre trattarli con cautela); e alcuni sono semplicemente assenti. Tradizionalmente, pandas impiega valori numpy `nan` per rappresentare i dati mancanti, probabilmente per evitare ogni confusione con valori “plausibili”.

Per identificare i dati mancanti in un DataFrame, possiamo utilizzare i metodi `isna()` o `isnull()`, che restituiscono un DataFrame booleano della stessa forma, con `True` nei punti in cui i dati sono mancanti.

In [None]:
import pandas as pd

# Creazione di un DataFrame con dati mancanti
df_missing = pd.DataFrame({
    'A': [1, 2, None, 4],
    'B': [None, 2, 3, 4],
    'C': [1, None, None, 4]
})
print("DataFrame originale con dati mancanti:\n", df_missing)

# Identificazione dei dati mancanti
print("\nIdentificazione dei dati mancanti con isna():\n", df_missing.isna())
print("\nIdentificazione dei dati mancanti con isnull():\n", df_missing.isnull())

# Rimozione delle righe con dati mancanti
df_dropped_rows = df_missing.dropna()
print("\nDataFrame dopo la rimozione delle righe con dati mancanti:\n", df_dropped_rows)
# Esempi per tutti i parametri di dropna

# Esempio per il parametro 'axis'
df_dropped_axis_0 = df_missing.dropna(axis=0)
print("\nEsempio per 'axis=0' (rimozione righe):\n", df_dropped_axis_0)
df_dropped_axis_1 = df_missing.dropna(axis=1)
print("\nEsempio per 'axis=1' (rimozione colonne):\n", df_dropped_axis_1)

# Esempio per il parametro 'how'
df_dropped_how_any = df_missing.dropna(how='any')
print("\nEsempio per 'how=any' (rimozione se qualsiasi valore è NaN):\n", df_dropped_how_any)
df_dropped_how_all = df_missing.dropna(how='all')
print("\nEsempio per 'how=all' (rimozione se tutti i valori sono NaN):\n", df_dropped_how_all)

# Esempio per il parametro 'thresh'
df_dropped_thresh = df_missing.dropna(thresh=2)
print("\nEsempio per 'thresh=2' (almeno 2 valori non-NaN):\n", df_dropped_thresh)

# Esempio per il parametro 'subset'
df_dropped_subset = df_missing.dropna(subset=['A', 'B'])
print("\nEsempio per 'subset=['A', 'B']' (considera solo colonne A e B):\n", df_dropped_subset)

# Esempio per il parametro 'inplace'
df_missing.dropna(inplace=True)
print("\nEsempio per 'inplace=True' (modifica in loco):\n", df_missing)

# Rimozione delle colonne con dati mancanti
df_dropped_cols = df_missing.dropna(axis=1)
print("\nDataFrame dopo la rimozione delle colonne con dati mancanti:\n", df_dropped_cols)

# Sostituzione dei dati mancanti con un valore specifico
df_filled_value = df_missing.fillna(0)
print("\nDataFrame dopo la sostituzione dei dati mancanti con 0:\n", df_filled_value)

# Sostituzione dei dati mancanti con la media della colonna
df_filled_mean = df_missing.fillna(df_missing.mean())
print("\nDataFrame dopo la sostituzione dei dati mancanti con la media della colonna:\n", df_filled_mean)

# Interpolazione dei dati mancanti
df_interpolated = df_missing.interpolate()
print("\nDataFrame dopo l'interpolazione dei dati mancanti:\n", df_interpolated)

DataFrame originale con dati mancanti:
      A    B    C
0  1.0  NaN  1.0
1  2.0  2.0  NaN
2  NaN  3.0  NaN
3  4.0  4.0  4.0

Identificazione dei dati mancanti con isna():
        A      B      C
0  False   True  False
1  False  False   True
2   True  False   True
3  False  False  False

Identificazione dei dati mancanti con isnull():
        A      B      C
0  False   True  False
1  False  False   True
2   True  False   True
3  False  False  False

DataFrame dopo la rimozione delle righe con dati mancanti:
      A    B    C
3  4.0  4.0  4.0

Esempio per 'axis=0' (rimozione righe):
      A    B    C
3  4.0  4.0  4.0

Esempio per 'axis=1' (rimozione colonne):
 Empty DataFrame
Columns: []
Index: [0, 1, 2, 3]

Esempio per 'how=any' (rimozione se qualsiasi valore è NaN):
      A    B    C
3  4.0  4.0  4.0

Esempio per 'how=all' (rimozione se tutti i valori sono NaN):
      A    B    C
0  1.0  NaN  1.0
1  2.0  2.0  NaN
2  NaN  3.0  NaN
3  4.0  4.0  4.0

Esempio per 'thresh=2' (almeno 2 valo

## Sostituzione dei valori
La funzione `replace(val_or_list, new_val)` sostituisce un valore o una lista di valori con un altro valore o lista di valori. Nel caso delle liste, devono avere la stessa lunghezza. La funzione restituisce un nuovo frame o una nuova serie, a meno che si passi il parametro `inplace=True`.

La funzione `combine_first(pegs)` combina due frame (o due serie). Sostituisce i valori mancanti nell’oggetto frame/serie con i valori corrispondenti nell’oggetto frame/serie passato come argomento. In un certo senso, l’argomento funge da origine dei valori di default.

In [5]:
%pip install pandas
import pandas as pd

# Creazione di un DataFrame di esempio
df_replace = pd.DataFrame({
    'A': [1, 2, 3, 4],
    'B': [5, 6, 7, 8],
    'C': [9, 10, 11, 12]
})
print("DataFrame originale:\n", df_replace)

# Esempio di replace
df_replace_val = df_replace.replace(1, 100)
print("\nDataFrame dopo replace (1 -> 100):\n", df_replace_val)

df_replace_list = df_replace.replace([1, 2, 3], [100, 200, 300])
print("\nDataFrame dopo replace ([1, 2, 3] -> [100, 200, 300]):\n", df_replace_list)

# Creazione di un DataFrame con valori mancanti
df_combine_first_1 = pd.DataFrame({
    'A': [1, None, 3, None],
    'B': [None, 2, None, 4]
})
df_combine_first_2 = pd.DataFrame({
    'A': [5, 6, 7, 8],
    'B': [9, 10, 11, 12]
})
print("\nDataFrame 1 con valori mancanti:\n", df_combine_first_1)
print("\nDataFrame 2:\n", df_combine_first_2)

# Esempio di combine_first
df_combined = df_combine_first_1.combine_first(df_combine_first_2)
print("\nDataFrame dopo combine_first:\n", df_combined)

Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.
DataFrame originale:
    A  B   C
0  1  5   9
1  2  6  10
2  3  7  11
3  4  8  12

DataFrame dopo replace (1 -> 100):
      A  B   C
0  100  5   9
1    2  6  10
2    3  7  11
3    4  8  12

DataFrame dopo replace ([1, 2, 3] -> [100, 200, 300]):
      A  B   C
0  100  5   9
1  200  6  10
2  300  7  11
3    4  8  12

DataFrame 1 con valori mancanti:
      A    B
0  1.0  NaN
1  NaN  2.0
2  3.0  NaN
3  NaN  4.0

DataFrame 2:
    A   B
0  5   9
1  6  10
2  7  11
3  8  12

DataFrame dopo combine_first:
      A     B
0  1.0   9.0
1  6.0   2.0
2  3.0  11.0
3  8.0   4.0


## Combinare i dati
Una volta che i vostri dati si trovano in una serie o frame, potete aver bisogno di combinarli per prepararli per ulteriori elaborazioni, in quanto alcuni dati potrebbero trovarsi in un frame e altri in un altro frame. pandas offre alcune funzioni per unire e concatenare i frame.

### Unione

Unire dei frame è un po’ come unire le tabelle di un database: pandas combina le righe aventi indici identici (o valori identici in altre colonne designate) dai frame a sinistra e a destra. Quando esiste una sola corrispondenza nel frame a destra per ogni riga del frame a sinistra, si parla di unione uno-a-uno. Quando invece esiste più di una corrispondenza, si parla di unione uno-a-molti. In tal caso, pandas replica le righe del frame a sinistra in base alla necessità e la replicazione può provocare la duplicazione delle righe (ma vedremo come risolvere questo problema prima della fine di questa Unità). Quando vi sono più corrispondenze per più righe in entrambi i frame, si parla di unione molti-a-molti e, anche in questo caso, pandas replica le righe in base alle necessità e inserisce negli spazi vuoti dei numpy.nan. Se entrambi i frame hanno una colonna con lo stesso nome (la colonna chiave), potete unire i frame sulla base di tale colonna.

In [7]:
import pandas as pd

# Creazione di due DataFrame di esempio
df1 = pd.DataFrame({
    'A': ['A0', 'A1', 'A2', 'A3'],
    'B': ['B0', 'B1', 'B2', 'B3'],
    'C': ['C0', 'C1', 'C2', 'C3'],
    'D': ['D0', 'D1', 'D2', 'D3']
}, index=[0, 1, 2, 3])

df2 = pd.DataFrame({
    'A': ['A4', 'A5', 'A6', 'A7'],
    'B': ['B4', 'B5', 'B6', 'B7'],
    'C': ['C4', 'C5', 'C6', 'C7'],
    'D': ['D4', 'D5', 'D6', 'D7']
}, index=[4, 5, 6, 7])

print("DataFrame 1:\n", df1)
print("\nDataFrame 2:\n", df2)

# Concatenazione di DataFrame
df_concat = pd.concat([df1, df2])
print("\nDataFrame concatenato:\n", df_concat)

# Unione di DataFrame
left = pd.DataFrame({
    'key': ['K0', 'K1', 'K2', 'K3'],
    'A': ['A0', 'A1', 'A2', 'A3'],
    'B': ['B0', 'B1', 'B2', 'B3']
})

right = pd.DataFrame({
    'key': ['K0', 'K1', 'K2', 'K3'],
    'C': ['C0', 'C1', 'C2', 'C3'],
    'D': ['D0', 'D1', 'D2', 'D3']
})

print("\nDataFrame left:\n", left)
print("\nDataFrame right:\n", right)

# Unione uno-a-uno
df_merged = pd.merge(left, right, on='key')
print("\nDataFrame unito (uno-a-uno):\n", df_merged)

# Unione uno-a-molti
left = pd.DataFrame({
    'key': ['K0', 'K1', 'K2'],
    'A': ['A0', 'A1', 'A2']
})

right = pd.DataFrame({
    'key': ['K0', 'K1', 'K2', 'K0', 'K1', 'K2'],
    'B': ['B0', 'B1', 'B2', 'B3', 'B4', 'B5']
})

print("\nDataFrame left (uno-a-molti):\n", left)
print("\nDataFrame right (uno-a-molti):\n", right)

df_merged_one_to_many = pd.merge(left, right, on='key')
print("\nDataFrame unito (uno-a-molti):\n", df_merged_one_to_many)

# Unione molti-a-molti
left = pd.DataFrame({
    'key1': ['K0', 'K1', 'K2'],
    'key2': ['K0', 'K1', 'K0'],
    'A': ['A0', 'A1', 'A2']
})

right = pd.DataFrame({
    'key1': ['K0', 'K1', 'K2', 'K0', 'K1', 'K2'],
    'key2': ['K0', 'K0', 'K0', 'K1', 'K1', 'K1'],
    'B': ['B0', 'B1', 'B2', 'B3', 'B4', 'B5']
})

print("\nDataFrame left (molti-a-molti):\n", left)
print("\nDataFrame right (molti-a-molti):\n", right)

df_merged_many_to_many = pd.merge(left, right, on=['key1', 'key2'])
print("\nDataFrame unito (molti-a-molti):\n", df_merged_many_to_many)

DataFrame 1:
     A   B   C   D
0  A0  B0  C0  D0
1  A1  B1  C1  D1
2  A2  B2  C2  D2
3  A3  B3  C3  D3

DataFrame 2:
     A   B   C   D
4  A4  B4  C4  D4
5  A5  B5  C5  D5
6  A6  B6  C6  D6
7  A7  B7  C7  D7

DataFrame concatenato:
     A   B   C   D
0  A0  B0  C0  D0
1  A1  B1  C1  D1
2  A2  B2  C2  D2
3  A3  B3  C3  D3
4  A4  B4  C4  D4
5  A5  B5  C5  D5
6  A6  B6  C6  D6
7  A7  B7  C7  D7

DataFrame left:
   key   A   B
0  K0  A0  B0
1  K1  A1  B1
2  K2  A2  B2
3  K3  A3  B3

DataFrame right:
   key   C   D
0  K0  C0  D0
1  K1  C1  D1
2  K2  C2  D2
3  K3  C3  D3

DataFrame unito (uno-a-uno):
   key   A   B   C   D
0  K0  A0  B0  C0  D0
1  K1  A1  B1  C1  D1
2  K2  A2  B2  C2  D2
3  K3  A3  B3  C3  D3

DataFrame left (uno-a-molti):
   key   A
0  K0  A0
1  K1  A1
2  K2  A2

DataFrame right (uno-a-molti):
   key   B
0  K0  B0
1  K1  B1
2  K2  B2
3  K0  B3
4  K1  B4
5  K2  B5

DataFrame unito (uno-a-molti):
   key   A   B
0  K0  A0  B0
1  K0  A0  B3
2  K1  A1  B1
3  K1  A1  B4
4  K2  A

### Concatenamento dei Dati

La funzione `concat()` di pandas consente di concatenare una lista di DataFrame accostandoli fra loro in una delle dimensioni. È possibile concatenare i DataFrame in modo "verticale" (asse 0, il default) o "orizzontale" (asse 1). La funzione restituisce un nuovo DataFrame risultante dalla concatenazione.

In [8]:
import pandas as pd

# Creazione di due DataFrame di esempio
df1 = pd.DataFrame({
    'A': ['A0', 'A1', 'A2', 'A3'],
    'B': ['B0', 'B1', 'B2', 'B3'],
    'C': ['C0', 'C1', 'C2', 'C3'],
    'D': ['D0', 'D1', 'D2', 'D3']
})

df2 = pd.DataFrame({
    'A': ['A4', 'A5', 'A6', 'A7'],
    'B': ['B4', 'B5', 'B6', 'B7'],
    'C': ['C4', 'C5', 'C6', 'C7'],
    'D': ['D4', 'D5', 'D6', 'D7']
})

print("DataFrame 1:\n", df1)
print("\nDataFrame 2:\n", df2)

# Concatenazione verticale (asse 0)
df_concat_vertical = pd.concat([df1, df2])
print("\nDataFrame concatenato verticalmente:\n", df_concat_vertical)

# Concatenazione orizzontale (asse 1)
df_concat_horizontal = pd.concat([df1, df2], axis=1)
print("\nDataFrame concatenato orizzontalmente:\n", df_concat_horizontal)

# Concatenazione con chiavi per identificare l'origine dei dati
df_concat_keys = pd.concat([df1, df2], keys=['df1', 'df2'])
print("\nDataFrame concatenato con chiavi:\n", df_concat_keys)

# Concatenazione con reset dell'indice
df_concat_reset_index = pd.concat([df1, df2], ignore_index=True)
print("\nDataFrame concatenato con reset dell'indice:\n", df_concat_reset_index)

# Concatenazione con unione degli assi
df3 = pd.DataFrame({
    'E': ['E0', 'E1', 'E2', 'E3'],
    'F': ['F0', 'F1', 'F2', 'F3']
})

df_concat_axis_union = pd.concat([df1, df3], axis=1)
print("\nDataFrame concatenato con unione degli assi:\n", df_concat_axis_union)

DataFrame 1:
     A   B   C   D
0  A0  B0  C0  D0
1  A1  B1  C1  D1
2  A2  B2  C2  D2
3  A3  B3  C3  D3

DataFrame 2:
     A   B   C   D
0  A4  B4  C4  D4
1  A5  B5  C5  D5
2  A6  B6  C6  D6
3  A7  B7  C7  D7

DataFrame concatenato verticalmente:
     A   B   C   D
0  A0  B0  C0  D0
1  A1  B1  C1  D1
2  A2  B2  C2  D2
3  A3  B3  C3  D3
0  A4  B4  C4  D4
1  A5  B5  C5  D5
2  A6  B6  C6  D6
3  A7  B7  C7  D7

DataFrame concatenato orizzontalmente:
     A   B   C   D   A   B   C   D
0  A0  B0  C0  D0  A4  B4  C4  D4
1  A1  B1  C1  D1  A5  B5  C5  D5
2  A2  B2  C2  D2  A6  B6  C6  D6
3  A3  B3  C3  D3  A7  B7  C7  D7

DataFrame concatenato con chiavi:
         A   B   C   D
df1 0  A0  B0  C0  D0
    1  A1  B1  C1  D1
    2  A2  B2  C2  D2
    3  A3  B3  C3  D3
df2 0  A4  B4  C4  D4
    1  A5  B5  C5  D5
    2  A6  B6  C6  D6
    3  A7  B7  C7  D7

DataFrame concatenato con reset dell'indice:
     A   B   C   D
0  A0  B0  C0  D0
1  A1  B1  C1  D1
2  A2  B2  C2  D2
3  A3  B3  C3  D3
4  A4  B

## Cancellazione dei Duplicati

### Funzione `duplicated()`

La funzione `duplicated([subset])` restituisce una serie booleana che indica se la riga corrispondente contiene duplicati considerando tutte le colonne o un loro sottoinsieme specificato tramite il parametro `subset` (una lista di nomi di colonne). Il parametro opzionale `keep` controlla quale duplicato deve essere contrassegnato:
- `'first'`: contrassegna come duplicati tutte le occorrenze successive alla prima.
- `'last'`: contrassegna come duplicati tutte le occorrenze precedenti all'ultima.
- `False`: contrassegna come duplicati tutte le occorrenze.

### Funzione `drop_duplicates()`

La funzione `drop_duplicates()` restituisce una copia di un DataFrame o di una Series, dopo aver eliminato i duplicati da tutte le colonne o da un loro sottoinsieme specificato tramite il parametro `subset` (una lista di nomi di colonne). Il parametro opzionale `keep` controlla quale duplicato deve essere eliminato:
- `'first'`: mantiene la prima occorrenza e rimuove tutte le successive.
- `'last'`: mantiene l'ultima occorrenza e rimuove tutte le precedenti.
- `False`: rimuove tutte le occorrenze duplicate.

Il parametro opzionale `inplace=True` rimuove i duplicati direttamente dall'oggetto originario senza restituire una nuova copia.

In [10]:
import pandas as pd

# Creazione di un DataFrame di esempio con duplicati
df_duplicates = pd.DataFrame({
    'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
    'B': ['one', 'one', 'two', 'two', 'one', 'one', 'two', 'two'],
    'C': [1, 2, 3, 4, 5, 6, 7, 8]
})
print("DataFrame originale con duplicati:\n", df_duplicates)

# Identificazione dei duplicati
duplicates = df_duplicates.duplicated()
print("\nDuplicati identificati:\n", duplicates)

# Cancellazione dei duplicati mantenendo la prima occorrenza
df_no_duplicates_first = df_duplicates.drop_duplicates(keep='first')
print("\nDataFrame senza duplicati (mantiene la prima occorrenza):\n", df_no_duplicates_first)

# Cancellazione dei duplicati mantenendo l'ultima occorrenza
df_no_duplicates_last = df_duplicates.drop_duplicates(keep='last')
print("\nDataFrame senza duplicati (mantiene l'ultima occorrenza):\n", df_no_duplicates_last)

# Cancellazione di tutte le occorrenze duplicate
df_no_duplicates_none = df_duplicates.drop_duplicates(keep=False)
print("\nDataFrame senza duplicati (rimuove tutte le occorrenze duplicate):\n", df_no_duplicates_none)

# Cancellazione dei duplicati basata su una specifica colonna
df_no_duplicates_column = df_duplicates.drop_duplicates(subset=['A'])
print("\nDataFrame senza duplicati basata sulla colonna 'A':\n", df_no_duplicates_column)

# Cancellazione dei duplicati in loco
df_duplicates.drop_duplicates(inplace=True)
print("\nDataFrame originale dopo la cancellazione dei duplicati in loco:\n", df_duplicates)

DataFrame originale con duplicati:
      A    B  C
0  foo  one  1
1  bar  one  2
2  foo  two  3
3  bar  two  4
4  foo  one  5
5  bar  one  6
6  foo  two  7
7  foo  two  8

Duplicati identificati:
 0    False
1    False
2    False
3    False
4    False
5    False
6    False
7    False
dtype: bool

DataFrame senza duplicati (mantiene la prima occorrenza):
      A    B  C
0  foo  one  1
1  bar  one  2
2  foo  two  3
3  bar  two  4
4  foo  one  5
5  bar  one  6
6  foo  two  7
7  foo  two  8

DataFrame senza duplicati (mantiene l'ultima occorrenza):
      A    B  C
0  foo  one  1
1  bar  one  2
2  foo  two  3
3  bar  two  4
4  foo  one  5
5  bar  one  6
6  foo  two  7
7  foo  two  8

DataFrame senza duplicati (rimuove tutte le occorrenze duplicate):
      A    B  C
0  foo  one  1
1  bar  one  2
2  foo  two  3
3  bar  two  4
4  foo  one  5
5  bar  one  6
6  foo  two  7
7  foo  two  8

DataFrame senza duplicati basata sulla colonna 'A':
      A    B  C
0  foo  one  1
1  bar  one  2

DataFrame

## Ordinamento e Classificazione dei Dati

Le serie e i frame possono essere ordinati per indice o per valore (o più valori). La funzione `sort_index()` restituisce un frame ordinato in base all’indice (ma non funziona per le serie). 
L’ordinamento è sempre lessicografico (numerico per i numeri, alfabetico per le stringhe), controllato tramite il parametro `ascending` (valore di default: True). 
L’opzione `inplace=True`, come sempre, chiede che pandas ordini il frame originario.

### Ordinamento per Indice

Per ordinare un DataFrame in base all'indice, possiamo utilizzare la funzione `sort_index()`.

In [12]:
import pandas as pd

# Creazione di un DataFrame di esempio
df = pd.DataFrame({
    'A': ['foo', 'bar', 'baz', 'qux'],
    'B': [4, 3, 2, 1],
    'C': [7, 8, 9, 10]
})
print("DataFrame originale:\n", df)

# Ordinamento per indice
df_sorted_index = df.sort_index()
print("\nDataFrame ordinato per indice:\n", df_sorted_index)

# Ordinamento per indice in ordine decrescente
df_sorted_index_desc = df.sort_index(ascending=False)
print("\nDataFrame ordinato per indice in ordine decrescente:\n", df_sorted_index_desc)

# Ordinamento per valori di una colonna
df_sorted_values = df.sort_values(by='B')
print("\nDataFrame ordinato per valori della colonna 'B':\n", df_sorted_values)

# Ordinamento per valori di una colonna in ordine decrescente
df_sorted_values_desc = df.sort_values(by='B', ascending=False)
print("\nDataFrame ordinato per valori della colonna 'B' in ordine decrescente:\n", df_sorted_values_desc)

# Ordinamento per valori di più colonne
df_sorted_multiple = df.sort_values(by=['A', 'B'])
print("\nDataFrame ordinato per valori delle colonne 'A' e 'B':\n", df_sorted_multiple)

# Classificazione dei dati con cut
bins = [0, 2, 4, 6, 8, 10]
labels = ['Very Low', 'Low', 'Medium', 'High', 'Very High']
df['Binned'] = pd.cut(df['C'], bins=bins, labels=labels)
print("\nDataFrame con classificazione dei dati:\n", df)

# Classificazione dei dati con qcut (quantili)
df['Quantile'] = pd.qcut(df['C'], q=4, labels=['Q1', 'Q2', 'Q3', 'Q4'])
print("\nDataFrame con classificazione dei dati in quantili:\n", df)

DataFrame originale:
      A  B   C
0  foo  4   7
1  bar  3   8
2  baz  2   9
3  qux  1  10

DataFrame ordinato per indice:
      A  B   C
0  foo  4   7
1  bar  3   8
2  baz  2   9
3  qux  1  10

DataFrame ordinato per indice in ordine decrescente:
      A  B   C
3  qux  1  10
2  baz  2   9
1  bar  3   8
0  foo  4   7

DataFrame ordinato per valori della colonna 'B':
      A  B   C
3  qux  1  10
2  baz  2   9
1  bar  3   8
0  foo  4   7

DataFrame ordinato per valori della colonna 'B' in ordine decrescente:
      A  B   C
0  foo  4   7
1  bar  3   8
2  baz  2   9
3  qux  1  10

DataFrame ordinato per valori delle colonne 'A' e 'B':
      A  B   C
1  bar  3   8
2  baz  2   9
0  foo  4   7
3  qux  1  10

DataFrame con classificazione dei dati:
      A  B   C     Binned
0  foo  4   7       High
1  bar  3   8       High
2  baz  2   9  Very High
3  qux  1  10  Very High

DataFrame con classificazione dei dati in quantili:
      A  B   C     Binned Quantile
0  foo  4   7       High       Q1


## Statistica descrittiva 
Le funzioni di statistica descrittiva calcolano la somma, _sum()_, la media, _mean()_, la mediana, _median()_, la deviazione standard, _std()_, il numero, _count()_ e il minimo e massimo, _min()_ e _max()_ di una serie o di ogni colonna di un frame. 
Ognuna di esse accetta il parametro booleano skipna, che specifica se i “valori” nan devono essere esclusi dall’analisi e il parametro axis, che dice alla funzione come procedere (vertically o horizontally).

In [18]:
import numpy as np

# Creazione di un DataFrame casuale
np.random.seed(0)
df_random = pd.DataFrame(np.random.randn(10, 4), columns=list('ABCD'))
print("DataFrame casuale:\n", df_random)

# Escludere le colonne di tipo 'category' e non numeriche
df_numeric = df.select_dtypes(include=[np.number])

# Calcolare la somma dei valori per ogni colonna
print("Somma:\n", df_numeric.sum(skipna=True, axis=0))

# Calcolare la media dei valori per ogni colonna
print("Media:\n", df_numeric.mean(skipna=True, axis=0))

# Calcolare la mediana dei valori per ogni colonna
print("Mediana:\n", df_numeric.median(skipna=True, axis=0))

# Calcolare la deviazione standard dei valori per ogni colonna
print("Deviazione standard:\n", df_numeric.std(skipna=True, axis=0))

# Contare il numero di valori non nulli per ogni colonna
print("Conteggio:\n", df_numeric.count(axis=0))

# Trovare il valore minimo per ogni colonna
print("Minimo:\n", df_numeric.min(skipna=True, axis=0))

# Trovare il valore massimo per ogni colonna
print("Massimo:\n", df_numeric.max(skipna=True, axis=0))

DataFrame casuale:
           A         B         C         D
0  1.764052  0.400157  0.978738  2.240893
1  1.867558 -0.977278  0.950088 -0.151357
2 -0.103219  0.410599  0.144044  1.454274
3  0.761038  0.121675  0.443863  0.333674
4  1.494079 -0.205158  0.313068 -0.854096
5 -2.552990  0.653619  0.864436 -0.742165
6  2.269755 -1.454366  0.045759 -0.187184
7  1.532779  1.469359  0.154947  0.378163
8 -0.887786 -1.980796 -0.347912  0.156349
9  1.230291  1.202380 -0.387327 -0.302303
Somma:
 B    10
C    34
dtype: int64
Media:
 B    2.5
C    8.5
dtype: float64
Mediana:
 B    2.5
C    8.5
dtype: float64
Deviazione standard:
 B    1.290994
C    1.290994
dtype: float64
Conteggio:
 B    4
C    4
dtype: int64
Minimo:
 B    1
C    7
dtype: int64
Massimo:
 B     4
C    10
dtype: int64


## Unicità, conteggio, appartenenza 
Anche pandas può trattare le serie (ma non i frame) come insiemi.

In [20]:
import pandas as pd

# Creazione di una Series di esempio
s = pd.Series([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

# Unicità
# Restituisce i valori unici nella Series
unique_values = s.unique()
print("Valori unici:\n", unique_values)

# Conteggio
# Restituisce il conteggio di ciascun valore nella Series
value_counts = s.value_counts()
print("\nConteggio dei valori:\n", value_counts)

# Appartenenza
# Verifica se i valori specificati sono presenti nella Series
is_in = s.isin([1, 3, 5, 7, 9])
print("\nAppartenenza (1, 3, 5, 7, 9):\n", is_in)

# Creazione di un DataFrame di esempio
df = pd.DataFrame({
    'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
    'B': ['one', 'one', 'two', 'two', 'one', 'one', 'two', 'two'],
    'C': [1, 2, 3, 4, 5, 6, 7, 8]
})

# Unicità
# Restituisce i valori unici nella colonna 'A'
unique_values_df = df['A'].unique()
print("\nValori unici nella colonna 'A':\n", unique_values_df)

# Conteggio
# Restituisce il conteggio di ciascun valore nella colonna 'A'
value_counts_df = df['A'].value_counts()
print("\nConteggio dei valori nella colonna 'A':\n", value_counts_df)

# Appartenenza
# Verifica se i valori specificati sono presenti nella colonna 'A'
is_in_df = df['A'].isin(['foo', 'bar'])
print("\nAppartenenza nella colonna 'A' ('foo', 'bar'):\n", is_in_df)

Valori unici:
 [ 1  2  3  4  5  6  7  8  9 10]

Conteggio dei valori:
 1     1
2     1
3     1
4     1
5     1
6     1
7     1
8     1
9     1
10    1
Name: count, dtype: int64

Appartenenza (1, 3, 5, 7, 9):
 0     True
1    False
2     True
3    False
4     True
5    False
6     True
7    False
8     True
9    False
dtype: bool

Valori unici nella colonna 'A':
 ['foo' 'bar']

Conteggio dei valori nella colonna 'A':
 A
foo    5
bar    3
Name: count, dtype: int64

Appartenenza nella colonna 'A' ('foo', 'bar'):
 0    True
1    True
2    True
3    True
4    True
5    True
6    True
7    True
Name: A, dtype: bool


## Operazioni aritmetiche 
pandas supporta le quattro operazioni aritmetiche (somma, sottrazione, moltiplicazione e divisione) e le funzioni universali (ufunc) numpy. 
Tali operatori e funzioni possono essere usati per combinare frame delle stesse dimensioni e struttura, colonne di frame e serie e anche serie delle stesse dimensioni.

In [23]:
import pandas as pd

# Creazione di due DataFrame di esempio
df1 = pd.DataFrame({
    'A': [1, 2, 3, 4],
    'B': [5, 6, 7, 8]
})

df2 = pd.DataFrame({
    'A': [10, 20, 30, 40],
    'B': [50, 60, 70, 80]
})

print("DataFrame 1:\n", df1)
print("\nDataFrame 2:\n", df2)

# Somma
df_sum = df1 + df2
print("\nSomma dei DataFrame:\n", df_sum)

# Sottrazione
df_sub = df1 - df2
print("\nSottrazione dei DataFrame:\n", df_sub)

# Moltiplicazione
df_mul = df1 * df2
print("\nMoltiplicazione dei DataFrame:\n", df_mul)

# Divisione
df_div = df1 / df2
print("\nDivisione dei DataFrame:\n", df_div)

# Operazioni aritmetiche con una Series
s = pd.Series([1, 2, 3, 4])
print("\nSeries:\n", s)

# Somma con una Series
df_sum_series = df1.add(s, axis=0)
print("\nSomma del DataFrame con una Series:\n", df_sum_series)

# Sottrazione con una Series
df_sub_series = df1.sub(s, axis=0)
print("\nSottrazione del DataFrame con una Series:\n", df_sub_series)

# Moltiplicazione con una Series
df_mul_series = df1.mul(s, axis=0)
print("\nMoltiplicazione del DataFrame con una Series:\n", df_mul_series)

# Divisione con una Series
df_div_series = df1.div(s, axis=0)
print("\nDivisione del DataFrame con una Series:\n", df_div_series)

# Operazioni logaritmiche
df_log = df1.apply(np.log)
print("\nLogaritmo naturale del DataFrame:\n", df_log)

# Operazioni logaritmiche con una Series
df_log_series = df1.apply(lambda x: np.log(x + s))
print("\nLogaritmo naturale del DataFrame con una Series:\n", df_log_series)



DataFrame 1:
    A  B
0  1  5
1  2  6
2  3  7
3  4  8

DataFrame 2:
     A   B
0  10  50
1  20  60
2  30  70
3  40  80

Somma dei DataFrame:
     A   B
0  11  55
1  22  66
2  33  77
3  44  88

Sottrazione dei DataFrame:
     A   B
0  -9 -45
1 -18 -54
2 -27 -63
3 -36 -72

Moltiplicazione dei DataFrame:
      A    B
0   10  250
1   40  360
2   90  490
3  160  640

Divisione dei DataFrame:
      A    B
0  0.1  0.1
1  0.1  0.1
2  0.1  0.1
3  0.1  0.1

Series:
 0    1
1    2
2    3
3    4
dtype: int64

Somma del DataFrame con una Series:
    A   B
0  2   6
1  4   8
2  6  10
3  8  12

Sottrazione del DataFrame con una Series:
    A  B
0  0  4
1  0  4
2  0  4
3  0  4

Moltiplicazione del DataFrame con una Series:
     A   B
0   1   5
1   4  12
2   9  21
3  16  32

Divisione del DataFrame con una Series:
      A         B
0  1.0  5.000000
1  1.0  3.000000
2  1.0  2.333333
3  1.0  2.000000

Logaritmo naturale del DataFrame:
           A         B
0  0.000000  1.609438
1  0.693147  1.791759
2  1

## Aggregazione dei dati 
L’aggregazione dei dati è una procedura a tre passi durante la quale i dati vengono suddivisi, aggregati e ricombinati. 
Nel passo di suddivisione, i dati vengono frammentati sulla base della chiave (o delle chiavi). 
Nel passo dell’applicazione effettiva, su ogni frammento viene eseguita una funzione di aggregazione (come sum() o count()). 
Nel passo di ricombinazione, i risultati calcolati vengono ricombinati in una nuova serie o frame.
La potenza di pandas risiede nella funzione _groupby()_ e in una ricca collezione di funzioni di aggregazione, che svolgono automaticamente i tre passi elencati, consentendoci di ricevere il risultato in tutta tranquillità.

In [27]:
# Creazione di un DataFrame casuale
np.random.seed(0)
df_random = pd.DataFrame(np.random.randn(10, 4), columns=list('ABCD'))
print("DataFrame casuale:\n", df_random)

# Assicurarsi che la colonna 'C' contenga dati numerici
df['C'] = pd.to_numeric(df['C'], errors='coerce')

# Raggruppare per la colonna 'A' e calcolare la somma dei valori nelle altre colonne
grouped_sum = df.groupby('A').sum(numeric_only=True)
print("Raggruppamento per 'A' e somma dei valori:\n", grouped_sum)

# Raggruppare per la colonna 'A' e calcolare la media dei valori nelle altre colonne
grouped_mean = df.groupby('A').mean(numeric_only=True)
print("\nRaggruppamento per 'A' e media dei valori:\n", grouped_mean)

# Raggruppare per la colonna 'A' e contare il numero di occorrenze per ogni gruppo
grouped_count = df.groupby('A').count()
print("\nRaggruppamento per 'A' e conteggio delle occorrenze:\n", grouped_count)

# Raggruppare per la colonna 'A' e calcolare la somma dei valori nella colonna 'C'
grouped_sum_C = df.groupby('A')['C'].sum()
print("\nRaggruppamento per 'A' e somma dei valori nella colonna 'C':\n", grouped_sum_C)

# Raggruppare per le colonne 'A' e 'B' e calcolare la somma dei valori nelle altre colonne
grouped_sum_AB = df.groupby(['A', 'B']).sum(numeric_only=True)
print("\nRaggruppamento per 'A' e 'B' e somma dei valori:\n", grouped_sum_AB)

# Raggruppare per la colonna 'A' e applicare più funzioni di aggregazione
grouped_agg = df.groupby('A').agg({'C': ['sum', 'mean', 'max']})
print("\nRaggruppamento per 'A' e applicazione di più funzioni di aggregazione:\n", grouped_agg)

DataFrame casuale:
           A         B         C         D
0  1.764052  0.400157  0.978738  2.240893
1  1.867558 -0.977278  0.950088 -0.151357
2 -0.103219  0.410599  0.144044  1.454274
3  0.761038  0.121675  0.443863  0.333674
4  1.494079 -0.205158  0.313068 -0.854096
5 -2.552990  0.653619  0.864436 -0.742165
6  2.269755 -1.454366  0.045759 -0.187184
7  1.532779  1.469359  0.154947  0.378163
8 -0.887786 -1.980796 -0.347912  0.156349
9  1.230291  1.202380 -0.387327 -0.302303
Raggruppamento per 'A' e somma dei valori:
       C
A      
bar  12
foo  24

Raggruppamento per 'A' e media dei valori:
        C
A       
bar  4.0
foo  4.8

Raggruppamento per 'A' e conteggio delle occorrenze:
      B  C
A        
bar  3  3
foo  5  5

Raggruppamento per 'A' e somma dei valori nella colonna 'C':
 A
bar    12
foo    24
Name: C, dtype: int64

Raggruppamento per 'A' e 'B' e somma dei valori:
           C
A   B      
bar one   8
    two   4
foo one   6
    two  18

Raggruppamento per 'A' e applicazio

## Discretizzazione 
La **discretizzazione** è il processo di conversione di una variabile continua in una variabile discreta (categorica). Questo è utile per la creazione di istogrammi e per molte tecniche di Machine Learning.

### Metodo `cut()`
La funzione `cut()` di Pandas permette di suddividere una serie numerica in categorie definite.
- Il **primo parametro** è l'array o la serie da discretizzare.
- Il **secondo parametro** è il numero di categorie o una lista di valori soglia.
- La funzione restituisce una serie con categorie ordinate, che possono essere confrontate tra loro.

## Tabulazione Incrociata con Pandas
La **tabulazione incrociata** calcola le frequenze dei gruppi e restituisce un DataFrame dove le righe e le colonne rappresentano i valori di due variabili categoriche (chiamate “fattori”).

Questa tecnica è molto utile per l'analisi dei dati, permettendo di individuare relazioni tra variabili categoriali.

### Metodo `crosstab()`
La funzione `pd.crosstab()` in Pandas consente di creare tabelle incrociate tra due variabili.
- Il **primo parametro** è la serie delle righe (prima variabile categoriale).
- Il **secondo parametro** è la serie delle colonne (seconda variabile categoriale).
- Con `margins=True`, Pandas aggiunge i subtotali delle righe e delle colonne.

In [None]:
# Importazione della libreria Pandas
import pandas as pd
import numpy as np

# Creazione di un DataFrame di esempio
data = {
    'Genere': ['Maschio', 'Femmina', 'Maschio', 'Femmina', 'Maschio', 'Femmina', 'Maschio', 'Femmina'],
    'Acquisto': ['Sì', 'No', 'Sì', 'Sì', 'No', 'No', 'Sì', 'No']
}

df = pd.DataFrame(data)
print("DataFrame originale:")
print(df)

### Tabulazione Incrociata Base
Calcoliamo la tabulazione incrociata tra **Genere** e **Acquisto**.

In [None]:
# Creazione della tabella incrociata
tabella = pd.crosstab(df['Genere'], df['Acquisto'])
print("Tabulazione incrociata:")
print(tabella)

### Aggiunta dei Totali con `margins=True`
Per ottenere i totali per righe e colonne, utilizziamo il parametro `margins=True`.

In [None]:
# Tabulazione con margini (totali per righe e colonne)
tabella_con_totali = pd.crosstab(df['Genere'], df['Acquisto'], margins=True)
print("Tabulazione incrociata con totali:")
print(tabella_con_totali)

### Calcolo delle Percentuali
Possiamo calcolare la distribuzione relativa trasformando la tabella in percentuali.

In [None]:
# Tabella incrociata con percentuali
tabella_percentuale = pd.crosstab(df['Genere'], df['Acquisto'], normalize=True) * 100
print("Tabulazione incrociata in percentuale:")
print(tabella_percentuale)

### Tabulazione Incrociata con più variabili
Possiamo espandere l'analisi considerando più di due fattori.

In [None]:
# Aggiunta di una nuova variabile al DataFrame
df['Categoria'] = ['A', 'B', 'A', 'A', 'B', 'B', 'A', 'B']

# Tabulazione incrociata con tre variabili
tabella_multipla = pd.crosstab([df['Genere'], df['Categoria']], df['Acquisto'], margins=True)
print("Tabulazione incrociata con tre variabili:")
print(tabella_multipla)

## I/O File con Pandas
Pandas offre potenti strumenti per l'input e l'output di file, consentendo lo scambio di dati tra **DataFrame** e **Serie** e diversi formati di file, come CSV, JSON, file tabulari, file a larghezza fissa e persino gli Appunti del sistema operativo.

## Funzionalità di Pandas per l'I/O su file
Fra le caratteristiche principali di Pandas per la gestione dei file troviamo:
- **Indicizzazione automatica** e riconoscimento delle colonne.
- **Determinazione automatica del tipo di dati**.
- **Gestione dei valori mancanti** e conversione dei dati.
- **Supporto per timestamp e analisi temporale**.
- **Eliminazione di dati errati o commenti** durante la lettura.
- **Suddivisione dei dati in frammenti** per ottimizzare il caricamento.

## Lettura e Scrittura di File CSV
I file CSV sono uno dei formati più comuni per l'importazione e l'esportazione di dati.

In [28]:
# Importazione di Pandas
import pandas as pd

# Creazione di un DataFrame di esempio
data = {
    'Nome': ['Alice', 'Bob', 'Charlie'],
    'Età': [25, 30, 35],
    'Città': ['Roma', 'Milano', 'Napoli']
}

df = pd.DataFrame(data)

# Scrittura del DataFrame in un file CSV
df.to_csv('dati.csv', index=False)

# Lettura del file CSV
df_letto = pd.read_csv('dati.csv')
print("DataFrame letto da CSV:")
print(df_letto)

DataFrame letto da CSV:
      Nome  Età   Città
0    Alice   25    Roma
1      Bob   30  Milano
2  Charlie   35  Napoli


In [32]:
# URL del file CSV
url = "http://vincentarelbundock.github.io/Rdatasets/csv/datasets/lynx.csv"

# Lettura del file CSV dall'URL
df_url = pd.read_csv(url)
print("DataFrame letto dall'URL:")
print(df_url.head())

DataFrame letto dall'URL:
   rownames  time  value
0         1  1821    269
1         2  1822    321
2         3  1823    585
3         4  1824    871
4         5  1825   1475


## Lettura e Scrittura di File JSON
I file JSON sono ampiamente utilizzati per lo scambio di dati tra applicazioni web.

In [30]:
# Installazione di openpyxl se necessario
!pip install openpyxl

# Scrittura del DataFrame in un file Excel
df.to_excel('dati.xlsx', index=False)

# Lettura del file Excel
df_excel = pd.read_excel('dati.xlsx')
print("DataFrame letto da Excel:")
print(df_excel)

Defaulting to user installation because normal site-packages is not writeable
DataFrame letto da Excel:
      Nome  Età   Città
0    Alice   25    Roma
1      Bob   30  Milano
2  Charlie   35  Napoli


## Lettura e Scrittura di File a Larghezza Fissa
Pandas può gestire file a larghezza fissa (FWF) dove le colonne hanno una larghezza predefinita.

In [31]:
# Scrittura del DataFrame in un file a larghezza fissa
df.to_csv('dati_fwf.txt', sep=' ', index=False)

# Lettura del file a larghezza fissa
df_fwf = pd.read_fwf('dati_fwf.txt')
print("DataFrame letto da file a larghezza fissa:")
print(df_fwf)

DataFrame letto da file a larghezza fissa:
      Nome Età Città
0      Alice 25 Roma
1      Bob 30 Milano
2  Charlie 35 Napoli


## Lettura e Scrittura dagli Appunti
Pandas permette di leggere e scrivere direttamente dagli appunti di sistema.

In [None]:
# Scrivere un DataFrame negli appunti (può essere incollato in un foglio di calcolo)
df.to_clipboard(index=False)
print("DataFrame copiato negli appunti!")

# Leggere un DataFrame dagli appunti
# (dopo aver copiato dati testuali in formato tabellare)
# df_clipboard = pd.read_clipboard()
# print("DataFrame letto dagli appunti:")
# print(df_clipboard)

## Gestione dei Dati Mancanti e Conversione dei Tipi
Durante la lettura dei file, Pandas può identificare dati mancanti e gestire la conversione dei tipi.

In [33]:
# Creazione di un DataFrame con valori mancanti
dati_nan = {
    'Nome': ['Alice', 'Bob', None],
    'Età': [25, None, 35],
    'Città': ['Roma', 'Milano', 'Napoli']
}

df_nan = pd.DataFrame(dati_nan)
print("DataFrame con valori mancanti:")
print(df_nan)

# Riempire i valori mancanti con un valore di default
df_filled = df_nan.fillna('Sconosciuto')
print("DataFrame con valori mancanti riempiti:")
print(df_filled)

DataFrame con valori mancanti:
    Nome   Età   Città
0  Alice  25.0    Roma
1    Bob   NaN  Milano
2   None  35.0  Napoli
DataFrame con valori mancanti riempiti:
          Nome          Età   Città
0        Alice         25.0    Roma
1          Bob  Sconosciuto  Milano
2  Sconosciuto         35.0  Napoli


## Chunking con Pandas
Il **chunking** è una tecnica che permette di leggere grandi file tabulari in **frammenti (chunk)**, evitando il caricamento completo in memoria. Questo è particolarmente utile quando si lavora con **file di grandi dimensioni**.

### Perché usare il Chunking?
- Evita il **sovraccarico di memoria** quando si leggono file molto grandi.
- Permette di elaborare i dati **a blocchi**, migliorando le prestazioni.
- Consente di **filtrare e aggregare** i dati progressivamente senza doverli caricare tutti in una volta.
- È utile per **eseguire operazioni iterative** su dataset molto estesi.

### Lettura di un file CSV a Chunks
Pandas permette di leggere file di grandi dimensioni utilizzando il parametro `chunksize`, che definisce il numero di righe da leggere per ogni chunk.

In [None]:
# Importazione della libreria Pandas
import pandas as pd

# Creazione di un file CSV di esempio
data = {
    'ID': range(1, 101),
    'Nome': [f'Persona_{i}' for i in range(1, 101)],
    'Età': [20 + (i % 30) for i in range(1, 101)],
    'Città': ['Roma', 'Milano', 'Napoli', 'Torino', 'Firenze'] * 20
}
df = pd.DataFrame(data)
df.to_csv('grande_file.csv', index=False)

print("File CSV di esempio creato con successo!")

### Lettura del file a blocchi (Chunking)
Ora leggiamo il file CSV in piccoli blocchi da 20 righe alla volta.

In [None]:
# Lettura del file CSV a chunk di 20 righe
chunksize = 20
for chunk in pd.read_csv('grande_file.csv', chunksize=chunksize):
    print(chunk)
    print("-" * 40)

### Elaborazione progressiva con Chunking
Possiamo usare il chunking per calcolare aggregati progressivamente, senza dover caricare l'intero dataset in memoria.

In [None]:
# Calcolo progressivo dell'età media con Chunking
somma_eta = 0
conteggio = 0

for chunk in pd.read_csv('grande_file.csv', chunksize=chunksize):
    somma_eta += chunk['Età'].sum()
    conteggio += chunk['Età'].count()

eta_media = somma_eta / conteggio
print(f"Età media calcolata progressivamente: {eta_media:.2f}")

### Filtraggio dei dati durante la lettura
Possiamo filtrare i dati direttamente durante la lettura per estrarre solo le informazioni rilevanti.

In [None]:
# Selezioniamo solo le persone con età superiore a 40 anni
for chunk in pd.read_csv('grande_file.csv', chunksize=chunksize):
    filtro = chunk[chunk['Età'] > 40]
    print(filtro)
    print("-" * 40)