# Introduzione a Pandas: le stringhe

## Modulo 1: Ancora sulle Series

### Le Stringhe 
- Ordinamento dei valori.
- Utilizzo di metodi di stringa.
- Assegnazione e riassegnazione dei risultati.
- Utilizzo di metodi di stringa per la pulizia dei dati.
- Aggiornamento dei tipi di dati.

In [1]:
import pandas as pd

In [2]:
fruits = pd.Series(["apple", "orange", "banana", "lemon", "lime", "pineapple", "blueberry", "raspberry", "cranberry"])
fruits

0        apple
1       orange
2       banana
3        lemon
4         lime
5    pineapple
6    blueberry
7    raspberry
8    cranberry
dtype: object

# `.sort_values()`
Il metodo `.sort_values()` viene utilizzato per ordinare un `DataFrame` (o una `Series`) in base ai valori di una o più colonne.

* `by`: il nome della colonna (o una lista di colonne) in base a cui ordinare.
* `ascending`: `True` per ordine crescente (default), `False` per decrescente.
* `inplace`: `True` per modificare il DataFrame originale, `False` (default) per restituirne una copia ordinata.

In [4]:
fruits.sort_values() # by default ascending=True

0        apple
2       banana
6    blueberry
8    cranberry
3        lemon
4         lime
1       orange
5    pineapple
7    raspberry
dtype: object

In [5]:
fruits.sort_values(ascending=False)

7    raspberry
5    pineapple
1       orange
4         lime
3        lemon
8    cranberry
6    blueberry
2       banana
0        apple
dtype: object

In [6]:
fruits.sort_values(ascending=True)

0        apple
2       banana
6    blueberry
8    cranberry
3        lemon
4         lime
1       orange
5    pineapple
7    raspberry
dtype: object

In [7]:
fruits = fruits.sort_values(ignore_index=True)
fruits

0        apple
1       banana
2    blueberry
3    cranberry
4        lemon
5         lime
6       orange
7    pineapple
8    raspberry
dtype: object

# `.capitalize`
Il metodo `.capitalize()` è un metodo delle stringhe in Python (non specifico di Pandas), usato per trasformare la prima lettera di una stringa in maiuscolo, e tutte le altre in minuscolo.

In [10]:
fruits.str.capitalize()

0        Apple
1       Banana
2    Blueberry
3    Cranberry
4        Lemon
5         Lime
6       Orange
7    Pineapple
8    Raspberry
dtype: object

In [11]:
fruits 

0        apple
1       banana
2    blueberry
3    cranberry
4        lemon
5         lime
6       orange
7    pineapple
8    raspberry
dtype: object

> ### Le operazioni di stringa mantengono intatta la serie originale, quindi riassegniamo ad una variabile per aggiornare i valori. 


In [12]:
capitalized_fruits = fruits.str.capitalize()
capitalized_fruits

0        Apple
1       Banana
2    Blueberry
3    Cranberry
4        Lemon
5         Lime
6       Orange
7    Pineapple
8    Raspberry
dtype: object

# `.contains`
Il metodo `.str.contains()` serve per verificare se una stringa contiene una sottostringa all’interno di una colonna di tipo testo (stringhe) in un `DataFrame` o una `Series`.

* `.contains()` funziona solo su colonne di testo (dtype=object)
* Se ci sono valori `NaN`, usa `na=False` per evitare errori
* Puoi usarlo anche con espressioni regolari (regex=True, predefinito)

Per usare `.str.contains()` va fornita una stringa (o un'espressione regolare) come criterio di ricerca.

In [13]:
fruits.str.contains("apple")

0     True
1    False
2    False
3    False
4    False
5    False
6    False
7     True
8    False
dtype: bool

> ## Dato che `.contains` restituisce una serie booleana, possiamo usarla per filtrare i nostri risultati.

In [14]:
fruits[fruits.str.contains("apple")]

0        apple
7    pineapple
dtype: object

> ### `.count` per contare le occorrenze delle sottostringhe.

In [34]:
fruits.str.count("a")

0    1
1    3
2    0
3    1
4    0
5    0
6    1
7    1
8    1
dtype: int64

In [15]:
fruits.str.count("berry")

0    0
1    0
2    1
3    1
4    0
5    0
6    0
7    0
8    1
dtype: int64

> ### Per riassumere i risultati di `.count`, non abbiamo bisogno di utilizzare un loop ma possiamo conteggiare le vocali. 
* Tutti i conteggi vengono sommati per ogni riga.
* Il risultato è una nuova Series con il numero totale di vocali per ogni parola.


In [17]:
vowel_counts = fruits.str.count("a") + fruits.str.count("e") + fruits.str.count("i") + fruits.str.count("o") + fruits.str.count("u")
vowel_counts

0    2
1    3
2    3
3    2
4    2
5    2
6    3
7    4
8    2
dtype: int64

> ## Possiamo utilizzare il conteggio con una classe di caratteri di espressioni regolari.

In [18]:
fruits.str.count("[aeiou]")

0    2
1    3
2    3
3    2
4    2
5    2
6    3
7    4
8    2
dtype: int64

> ### Possiamo usare il nuovo conteggio delle vocali per filtrare i valori dalla serie


In [38]:
fruits[fruits.str.count("[aeiou]") > 2]

1       banana
2    blueberry
6       orange
7    pineapple
dtype: object

# `.startswith()`
Il metodo `.str.startswith()` viene usato per verificare se le stringhe iniziano con una determinata sottostringa. \
Restituisce una `Series booleana`: `True` se la stringa comincia con il testo indicato, `False` altrimenti.

In [19]:
fruits.str.startswith("l")

0    False
1    False
2    False
3    False
4     True
5     True
6    False
7    False
8    False
dtype: bool

> ### In questo modo possiamo creare un filtro. 

In [40]:
fruits[fruits.str.startswith("l")]

4    lemon
5     lime
dtype: object

# `str.endswith() `
E' il complemento naturale di `.str.startswith()`: serve per verificare se le stringhe terminano con una determinata sottostringa, restituendo una `Series booleana` (`True/False`).

In [20]:
fruits.str.endswith("berry")

0    False
1    False
2     True
3     True
4    False
5    False
6    False
7    False
8     True
dtype: bool

> ### `.len` per ottenere la lunghezza.

In [21]:
fruits.str.len()

0    5
1    6
2    9
3    9
4    5
5    4
6    6
7    9
8    9
dtype: int64

> ## Le operazioni sulle stringhe non modificano la stringa originaria. Ci restituiscono una copia alterata. 

# `.lower()`
Converte tutte le lettere di una stringa in minuscolo.

In [33]:
shouts = pd.Series(["PLEASE", "LOWERCASE", "THESE", "STRINGS"])
not_shouts = shouts.str.lower()
not_shouts

0       please
1    lowercase
2        these
3      strings
dtype: object

# `.replace()`
Sostituisce sottostringhe all’interno di stringhe in una colonna. \
Usato anche per rimuovere i caratteri. \
Occorre stare attenti a riassegnare la variabile. 

In [34]:
import pandas as pd
prices = pd.Series(["€5.99", "€12.25", "€95"])

prices = prices.str.replace("", "")

prices * 2 # il risultato è sempre una stringa.

0      €5.99€5.99
1    €12.25€12.25
2          €95€95
dtype: object

# `.astype()`
Converte il tipo di una colonna, utile per passare da testo a numero o da float a int.

In [38]:
import pandas as pd

# Step 1: Crea la Series
prices = pd.Series(["€5.99", "€12.25", "€95"])

# Step 2: Rimuovi il simbolo €
prices = prices.str.replace("€", "", regex=False)

# Step 3: Converti in float
prices = prices.astype(float)

# Step 4: Moltiplica per 2
print(prices * 2)


0     11.98
1     24.50
2    190.00
dtype: float64


In [37]:
fruits.str.upper() # .upper in maiuscolo

0        APPLE
1       BANANA
2    BLUEBERRY
3    CRANBERRY
4        LEMON
5         LIME
6       ORANGE
7    PINEAPPLE
8    RASPBERRY
dtype: object

# Esercitazione
1. Crea una `Series` chiamata verdure con il seguente elenco:
`["Onion", "cucumber", "Carrot", "squash", "Potato", "Asparagus", "kale", "Broccoli", "spinach"]`
2. Converti tutti i nomi delle verdure in minuscolo usando `.str.lower()` e riassegna la serie a `verdure`.
3. Ordina la serie `verdure` in ordine alfabetico crescente e riassegna l’output alla stessa variabile.
4. Mostra solo le verdure che iniziano con una vocale `(a, e, i, o, u)`.
5. Mostra le `verdure` che contengono esattamente due vocali. (Suggerimento: usa `.str.count()` per ciascuna vocale e somma i risultati)
6. Crea una nuova `Series` chiamata `prices` con i seguenti valori:
`["$2.99", "$1,200.25", "$5.99", "$2,350.00"]`
7. Rimuovi da ogni elemento della serie `prices` i caratteri `$` e `,` usando `.str.replace()`.
8. Converti la serie prices in tipo float usando `.astype(float)`.
9. Moltiplica tutti i valori di `prices` per `0.9` e mostra il risultato. (Simula uno sconto del `10%`)

In [39]:
import pandas as pd

# 1. Creazione della Serie 'verdure'
verdure = pd.Series([
    "Onion", "cucumber", "Carrot", "squash",
    "Potato", "Asparagus", "kale", "Broccoli", "spinach"
])

# 2. Minuscolazione di tutti i nomi
verdure = verdure.str.lower()

# 3. Ordinamento alfabetico
verdure = verdure.sort_values(ignore_index=True)

print("🌱 Verdure ordinate:")
print(verdure)

# 4. Verdure che iniziano con una vocale
vocali = ("a", "e", "i", "o", "u")
iniziano_con_vocale = verdure[verdure.str.startswith(vocali)]

print("\n🥬 Verdure che iniziano con una vocale:")
print(iniziano_con_vocale)

# 5. Verdure con esattamente due vocali
conteggio_vocali = (
    verdure.str.count("a") +
    verdure.str.count("e") +
    verdure.str.count("i") +
    verdure.str.count("o") +
    verdure.str.count("u")
)

due_vocali = verdure[conteggio_vocali == 2]

print("\n🟩 Verdure con esattamente due vocali:")
print(due_vocali)

# 6. Creazione della Serie 'prices'
prices = pd.Series(["$2.99", "$1,200.25", "$5.99", "$2,350.00"])

# 7. Rimozione di simboli '$' e ',' con str.replace
prices = prices.str.replace("$", "", regex=False)
prices = prices.str.replace(",", "", regex=False)

# 8. Conversione in float
prices = prices.astype(float)

# 9. Applica lo sconto del 10% (moltiplica per 0.9)
scontati = prices * 0.9

print("\n💲 Prezzi scontati del 10%:")
print(scontati.round(2))


🌱 Verdure ordinate:
0    asparagus
1     broccoli
2       carrot
3     cucumber
4         kale
5        onion
6       potato
7      spinach
8       squash
dtype: object

🥬 Verdure che iniziano con una vocale:
0    asparagus
5        onion
dtype: object

🟩 Verdure con esattamente due vocali:
2     carrot
4       kale
7    spinach
8     squash
dtype: object

💲 Prezzi scontati del 10%:
0       2.69
1    1080.23
2       5.39
3    2115.00
dtype: float64
