# Introduzione to Pandas
di Emiliano Citarella_Youlysses_soc_coop

## Modulo 1: Introduzione alle Series

### Pandas Series Parte 2
- Utilizzo di operatori di confronto per produrre serie booleane.
- Utilizzo dell'indicizzazione booleana per filtrare i dati.
- Utilizzo delle operazioni OR e AND per creare filtri composti.
- Assegnazione di sottoinsiemi alla propria variabile.
- Operare su sottoinsiemi sul posto utilizzando`.loc`.

# `boolean mask`
Boolean mask è una tecnica potente per filtrare i dati all'interno di un DataFrame o Series. \
Si basa su un array di valori booleani (True o False) che specificano quali righe (o colonne) devono essere selezionate.

+ first è una maschera booleana: una lista di valori `True` o `False` della stessa lunghezza della Series.
+ Quando applichiamo `ser[first]`, Pandas seleziona solo gli elementi della Series per cui la maschera è True.
+ In questo caso, solo il primo elemento è `True`, quindi viene restituito solo `ser[0]`, cioè `-2.`

Se la lunghezza della maschera non corrisponde alla lunghezza della Series, otterrai un errore

In [9]:
import pandas as pd

# Creiamo un DataFrame di esempio
df = pd.DataFrame({
    'Nome': ['Anna', 'Luca', 'Marco', 'Sara'],
    'Età': [23, 35, 17, 29]
})

# Creiamo una boolean mask per filtrare chi ha più di 25 anni
mask = df['Età'] > 25

# Applichiamo la maschera
df_filtrato = df[mask]

print(df_filtrato)

   Nome  Età
1  Luca   35
3  Sara   29


In [10]:
# Filtra chi ha più di 20 anni e si chiama 'Anna' o 'Sara'
mask = (df['Età'] > 20) & (df['Nome'].isin(['Anna', 'Sara']))
df[mask]

Unnamed: 0,Nome,Età
0,Anna,23
3,Sara,29


# Esercitazione
Dato un insieme di numeri interi in una Series, vogliamo trovare solo i numeri positivi (cioè maggiori di zero) usando una maschera booleana dinamica:
* `[-3, -2, -1, 0, 1, 2, 3]`
1. crea una Series;
2. filtra solo i valori positivi della Series. I valori positivi sono quelli strettamente maggiori di 0;
3. applica la maschera alla Series

Utilizza la condizione logica (ser > 0) per creare una boolean mask dinamica

|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>

In [14]:
import pandas as pd

# Crea una Series con numeri da -3 a 3
ser = pd.Series([-3, -2, -1, 0, 1, 2, 3])
print(ser)

0   -3
1   -2
2   -1
3    0
4    1
5    2
6    3
dtype: int64


In [15]:
mask = ser > 0
print(mask)

0    False
1    False
2    False
3    False
4     True
5     True
6     True
dtype: bool


In [16]:
positivi = ser[mask]
print(positivi)


4    1
5    2
6    3
dtype: int64


# `pd.Series`
`pd.Series(ser)`converte l'oggetto range(-2, 3) in una Series di Pandas.
+ gli indici predefiniti sono numeri interi progressivi a partire da 0.
+ i valori della Series sono quelli generati dal range.

In [17]:
import pandas as pd
ser = range(-2, 3)
ser

range(-2, 3)

In [18]:
ser = pd.Series(ser)
ser

0   -2
1   -1
2    0
3    1
4    2
dtype: int64

# Maschera booleana "manuale"
Analizziamo un esempio:
* L'indice corrispondente per il primo elemento è `True` mentre il resto è `False`.
* L'utilizzo dell'indice corrispondente di una raccolta booleana per filtrare una Series si chiama **mascheramento booleano**.

In [21]:
first = [True, False, False, False, False]
ser[first]

0   -2
dtype: int64

In [22]:
import pandas as pd

ser = range(-2, 3)              # crea un range da -2 a 2 (incluso)
ser = pd.Series(ser)           # converte il range in una Series
first = [True, False, False, False, False]  # maschera booleana
ser[first]                     # applica la maschera


0   -2
dtype: int64

> ## Impostando tutti i valori booleani come veri, avremo la serie originale.

In [23]:
all_true = [True, True, True, True, True]
ser[all_true]

0   -2
1   -1
2    0
3    1
4    2
dtype: int64

> ## Impostando tutti i valori booleani come `False`, avremo una serie vuota. 

In [24]:
all_false = [False, False, False, False, False]
ser[all_false]

Series([], dtype: int64)

> ## Una maschera booleana filtra i risultati. 

In [25]:
first_and_third = [True, False, True, False, False]
ser[first_and_third]

0   -2
2    0
dtype: int64

> ## Il mascheramento booleano lascia intatta la serie originale

In [26]:
ser

0   -2
1   -1
2    0
3    1
4    2
dtype: int64

# Confronto con valori 
+ Posso realizzare un confronto con valori, elementi, oggetti che restituisce una Series booleana che confronta - in questo caso - ogni elemento di ser con il valore 1;
+ il confronto `ser == 1` restituisce True solo per `l'indice 3`, dove il valore è effettivamente `1`.

> ## Gli operatori di confronto restituiscono una serie booleana

In [29]:
ser == 1

0    False
1    False
2    False
3     True
4    False
dtype: bool

In [30]:
ser == 2

0    False
1    False
2    False
3    False
4     True
dtype: bool

# `boolean indexing`

Il `boolean indexing (o indicizzazione booleana)` è una tecnica che seleziona solo i dati che soddisfano una condizione:
1. si applica una condizione logica (es. >, <, ==, ecc.) su una Series o colonna;
2. questo produce una maschera booleana (`True` o `False` per ogni elemento);
3. si usa questa maschera per filtrare i dati.

+ `mask = ser == 1` crea una Series booleana, dove ogni valore è `True` se l'elemento corrispondente in `ser` è uguale a `1`.
+ `ser[mask]` applica la maschera e restituisce solo gli elementi per cui il confronto è `True`.

In [31]:
mask = ser == 1
ser[mask]

3    1
dtype: int64

> ## E' più chiaro posizionare la serie booleana direttamente all'interno delle parentesi quadre

In [32]:
ser[ser == 1]

3    1
dtype: int64

## Per combinare più condizioni, utilizziamo gli operatori logici bitwise:
In Pandas, per combinare più condizioni logiche, non si usano and, or, not, ma si usano:
+ & per and
+ | per or
+ ~ per not

In [37]:
import pandas as pd

# Crea un DataFrame
df = pd.DataFrame({
    'Nome': ['Anna', 'Luca', 'Marco', 'Sara', 'Paolo'],
    'Età': [23, 35, 17, 29, 15],
    'Città': ['Roma', 'Milano', 'Roma', 'Napoli', 'Napoli']
})

# Seleziona le persone con Età > 18 **e** che vivono a Roma
filtro = (df['Età'] > 18) & (df['Città'] == 'Roma')

# Applica il filtro
print(df[filtro])

   Nome  Età Città
0  Anna   23  Roma


# Esercitazione
Hai un DataFrame con nomi, età e città, troviamo:

* persone di età inferiore a 30 anni
* che NON vivono a Napoli

In [38]:
import pandas as pd

df = pd.DataFrame({
    'Nome': ['Anna', 'Luca', 'Marco', 'Sara', 'Paolo'],
    'Età': [23, 35, 17, 29, 15],
    'Città': ['Roma', 'Milano', 'Roma', 'Napoli', 'Napoli']
})

> Seleziona solo le righe dove:
`Età < 30`
la Città `non è 'Napoli'`

|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>

In [39]:
filtro = (df['Età'] < 30) & (~(df['Città'] == 'Napoli'))

risultato = df[filtro]
print(risultato)


    Nome  Età Città
0   Anna   23  Roma
2  Marco   17  Roma


> ## Utilizzo delle parentesi quadre

In [41]:
is_negative = ser < 0
is_negative

0     True
1     True
2    False
3    False
4    False
dtype: bool

I valori `True` nella serie booleana abilitano gli elementi corrispondenti. \
I valori `False` nascondono gli elementi corrispondenti.

In [42]:
ser[is_negative]

0   -2
1   -1
dtype: int64

> ## I sottoinsiemi sono copie dei dati

In [43]:
negatives = ser[is_negative]
negatives

0   -2
1   -1
dtype: int64

> ## Riassegnare il risultato di una maschera booleana mantiene intatta la serie originale


In [45]:
ser

0   -2
1   -1
2    0
3    1
4    2
dtype: int64

# Maschera avanzata e composita

+ `ser % 2` calcola il resto della divisione per `2` per ciascun elemento.
+ `== 1` controlla se il resto è `1`, cioè se il numero è dispari.
+ `is_odd `è una maschera booleana che indica quali numeri sono dispari.
+ `ser[is_odd]` restituisce solo i valori per cui la maschera è True.

In [46]:
is_odd = ser % 2 == 1 # ricordo % operatore confronto modulo che restituisce il resto divisione tra 2 numeri
ser[is_odd]

1   -1
3    1
dtype: int64

# Esempio

In [48]:
numbers = pd.Series(range(1, 13))
numbers

0      1
1      2
2      3
3      4
4      5
5      6
6      7
7      8
8      9
9     10
10    11
11    12
dtype: int64

> ## Utilizziamo gli operatori `&` e `|` sulla serie booleana per produrre comportamenti più complessi: le parentesi sono utili per l'ordine delle operazioni.

In [49]:
numbers[(numbers == 2) | (numbers == 5)]

1    2
4    5
dtype: int64

In [50]:
numbers[(numbers == 2) & (numbers == 5)] # tutte le espressioni valutate false, serie vuota

Series([], dtype: int64)

> ## Per evitare la parentesi, possiamo assegnare ogni seria booleana separatamente. 

In [51]:
is_even = numbers % 2 == 0
is_divisible_by_3 = numbers % 3 == 0
is_divisible_by_3_or_2 = is_even & is_divisible_by_3
numbers[is_divisible_by_3_or_2]

5      6
11    12
dtype: int64

In [52]:
numbers[(numbers % 2 == 0) & (numbers % 5 == 0)] # con AND entrambi i booleani devono essere veri

9    10
dtype: int64

In [53]:
numbers[(numbers % 2 == 0) | (numbers % 5 == 0)] # | per operatore OR

1      2
3      4
4      5
5      6
7      8
9     10
11    12
dtype: int64

# `.loc`
`.loc` è un metodo di accesso in Pandas che serve a:
* Selezionare righe e colonne in base a etichette (label)
* Modificare dati in base a una condizione (maschera booleana)

Il metodo `.loc` utilizza la stessa sintassi della serie booleana.

In [56]:
is_even = numbers % 2 == 0
numbers.loc[is_even] = 200 # assegniamo ogni numero pari a 200

In [57]:
numbers

0       1
1     200
2       3
3     200
4       5
5     200
6       7
7     200
8       9
9     200
10     11
11    200
dtype: int64

## Assegnazione più dinamica
La sintassi della scorciatoia `numbers.loc[is_even] *= 2`
* Il metodo `.loc` utilizzato per accedere a righe e colonne di un DataFrame o di una Seri utilizzando etichette (label) o un array booleano. 

In [62]:
numbers = pd.Series(range(1, 13))

numbers.loc[is_even] = numbers.loc[is_even] * 2
numbers


0      1
1      4
2      3
3      8
4      5
5     12
6      7
7     16
8      9
9     20
10    11
11    24
dtype: int64

# Esempio
1. Crea una serie dei seguenti valori `[-4, -3, -2, -1, 0, 1, 2, 3, 4]` 
2. Memorizza in una variabile denominata `ser`

In [59]:
import pandas as pd 
ser=pd.Series([-4, -3, -2, -1, 0, 1, 2, 3, 4])
ser

0   -4
1   -3
2   -2
3   -1
4    0
5    1
6    2
7    3
8    4
dtype: int64

### Scrivi il codice per filtrare solo il numero 2

In [60]:
ser[ser==2]

6    2
dtype: int64

### Scrivi il codice per filtrare il numero 2 o 4.

In [61]:
ser[(ser==2) | (ser==4)]

6    2
8    4
dtype: int64

# Il metodo .isin( )
Il metodo `.isin( )` è usato per verificare se ciascun elemento in una Serie o una colonna di un DataFrame è presente in un insieme di valori specificati (ad esempio, una lista o un array). \
Restituisce una Serie booleana.

> 1. Creo una variabile denominata `is_positive` che sarà la serie booleana se il corrispondente `ser` 
2. Creo una nuova variabile denominata `positives` che uso per memorizzare solo i numeri positivi.
3. Restituisce una Series booleana che indica, per ciascun valore di ser, se è contenuto nella lista `[2, 4]`

In [64]:
ser.isin([2,4])

0    False
1    False
2    False
3    False
4    False
5    False
6     True
7    False
8     True
dtype: bool

>  1. `ser.isin([2, 4])`: restituisce una Serie booleana dove ogni elemento è `True` se è presente in `[2, 4]`, altrimenti `False`.
2. `ser[... ]`: usa il risultato booleano per filtrare gli elementi nella Serie. 
3. solo gli elementi corrispondenti ai valori `True` nella Serie booleana vengono inclusi nel risultato.


In [65]:
ser[ser.isin([2,4])]

6    2
8    4
dtype: int64

In [66]:
is_positive = ser > 0
is_positive

0    False
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [67]:
is_positive = ser > 0
ser[is_positive]

5    1
6    2
7    3
8    4
dtype: int64

In [68]:
is_positive = ser > 0
positives=ser[is_positive]
positives

5    1
6    2
7    3
8    4
dtype: int64

In [82]:
is_even = ser % 2 == 0
is_even

0     True
1    False
2     True
3    False
4     True
5    False
6     True
7    False
8     True
dtype: bool

In [103]:
is_even = ser % 2 == 0
evens = ser[is_even]
evens

0   -4
2   -2
4    0
6    2
8    4
dtype: int64

# Esercitazione
esercitazione completa e guidata con una Series, usando sia:

* `.iloc` → indicizzazione posizionale
* maschera booleana → indicizzazione logica

In [69]:
import pandas as pd

# Crea una Series di voti
voti = pd.Series([10, 15, 18, 22, 30], name='Voto')
print(voti)


0    10
1    15
2    18
3    22
4    30
Name: Voto, dtype: int64


1. Seleziona il terzo voto (quello con indice 2) usando `.iloc`
2. Seleziona gli ultimi due voti usando `.iloc`
3. Seleziona tutti i voti `maggiore o uguali a 18` usando una maschera booleana
4. Modifica con `.iloc` - Cambia il primo voto a `12` usando `.iloc`.

In [70]:
voto_terzo = voti.iloc[2]
print(voto_terzo)
# Output: 18


18


In [71]:
ultimi = voti.iloc[-2:]
print(ultimi)
# Output:
# 3    22
# 4    30

3    22
4    30
Name: Voto, dtype: int64


In [72]:
promossi = voti[voti >= 18]
print(promossi)
# Output:
# 2    18
# 3    22
# 4    30


2    18
3    22
4    30
Name: Voto, dtype: int64


In [73]:
voti.iloc[0] = 12
print(voti)
# Output:
# 0    12
# 1    15
# ...


0    12
1    15
2    18
3    22
4    30
Name: Voto, dtype: int64
