# Ricerche a Pattern tramite Espressioni Regolari in Python
Le **espressioni regolari (regex)** sono uno strumento potente per la ricerca, la suddivisione e la sostituzione di stringhe in base alla corrispondenza con pattern specifici.

Python fornisce il modulo `re` per lavorare con le espressioni regolari.

## 1. Importazione del modulo `re`
Per utilizzare le espressioni regolari, bisogna importare il modulo `re`.

In [None]:
import re  # Importa il modulo delle espressioni regolari

## 2. Ricerca di un pattern in una stringa
Il metodo `re.search()` cerca un pattern in una stringa e restituisce il primo match trovato.

In [None]:
testo = "Il numero di telefono di Marco è 123-456-7890."
pattern = r"\d{3}-\d{3}-\d{4}"  # Pattern per trovare un numero di telefono

match = re.search(pattern, testo)
if match:
    print("Numero di telefono trovato:", match.group())
else:
    print("Nessun numero di telefono trovato.")

Numero di telefono trovato: 123-456-7890


## 3. Trovare tutte le occorrenze con `re.findall()`
Il metodo `re.findall()` restituisce tutte le corrispondenze di un pattern in una stringa.

La variabile pattern contiene il pattern regex utilizzato per identificare gli indirizzi email. 
Il pattern r"[\w.-]+@[\w.-]+\.[a-z]{2,}" è progettato per corrispondere alle strutture tipiche degli indirizzi email:

- [\w.-]+ corrisponde a uno o più caratteri di parola (lettere, cifre e trattini bassi), punti o trattini. Questa parte corrisponde alla parte locale dell'indirizzo email (prima del simbolo @).
- @ corrisponde al simbolo @ letterale.
- [\w.-]+ corrisponde di nuovo a uno o più caratteri di parola, punti o trattini, rappresentando il nome di dominio.
- \.[a-z]{2,} corrisponde a un punto seguito da due o più lettere minuscole, che corrisponde al dominio di primo livello (ad esempio, .com, .net, .org).

La funzione re.findall viene utilizzata per cercare nella stringa testo tutte le occorrenze che corrispondono al pattern specificato. Restituisce un elenco di tutte le sottostringhe corrispondenti. La variabile matches memorizza questo elenco di indirizzi email trovati.

In [None]:
testo = "Email di contatto: alice@example.com, bob@example.net, carol@company.org"
pattern = r"[\w.-]+@[\w.-]+\.[a-z]{2,}"  # Pattern per trovare indirizzi email
matches = re.findall(pattern, testo)
print("Indirizzi email trovati:", matches)

Indirizzi email trovati: ['alice@example.com', 'bob@example.net', 'carol@company.org']


## 4. Sostituire testo con `re.sub()`
Il metodo `re.sub()` permette di sostituire un pattern con un'altra stringa.

Il pattern r"\d{4}-\d{4}-\d{4}-\d{4}" è un'espressione regolare (regex) utilizzata per trovare stringhe che corrispondono al formato di un numero di carta di credito suddiviso in gruppi di quattro cifre, separati da trattini. Ecco una spiegazione dettagliata del pattern:

- \d corrisponde a qualsiasi cifra (da 0 a 9).
- {4} indica che la cifra precedente (\d) deve apparire esattamente quattro volte.
- \- corrisponde al carattere trattino letterale.

Quindi, il pattern \d{4}-\d{4}-\d{4}-\d{4} corrisponde a una stringa che ha esattamente quattro gruppi di quattro cifre, ciascuno separato da un trattino. Un esempio di stringa che corrisponde a questo pattern è 1234-5678-9012-3456.

In [None]:
testo = "La mia carta di credito è 1234-5678-9012-3456."
pattern = r"\d{4}-\d{4}-\d{4}-\d{4}"  # Pattern per trovare un numero di carta di credito

masked_text = re.sub(pattern, "****-****-****-****", testo)
print("Testo anonimizzato:", masked_text)

Testo anonimizzato: La mia carta di credito è ****-****-****-****.


## 5. Suddividere una stringa con `re.split()`
Il metodo `re.split()` divide una stringa utilizzando un pattern come delimitatore.

Il pattern r"[,; -]+" è un'espressione regolare (regex) utilizzata per trovare uno o più caratteri specifici all'interno di una stringa. Ecco una spiegazione dettagliata del pattern:

- [ ] definisce un set di caratteri. Qualsiasi carattere all'interno delle parentesi quadre sarà considerato una corrispondenza.
- , corrisponde alla virgola.
- ; corrisponde al punto e virgola.
- (spazio) corrisponde a uno spazio.
- \- corrisponde al trattino.
Il segno + dopo le parentesi quadre indica che il pattern deve corrispondere a uno o più dei caratteri specificati nel set.

Quindi, il pattern [,; -]+ corrisponde a una sequenza di uno o più caratteri che possono essere una virgola, un punto e virgola, uno spazio o un trattino.

In [None]:
testo = "parola1, parola2; parola3 - parola4"
pattern = r"[,; -]+"  # Divide il testo su virgole, punti e virgola, spazi e trattini

parole = re.split(pattern, testo)
print("Lista di parole:", parole)

Lista di parole: ['parola1', 'parola2', 'parola3', 'parola4']


## 6. Gruppi e Cattura con `re.match()`
Il metodo `re.match()` cerca un pattern all'inizio della stringa e permette di catturare gruppi.

Il pattern r"(\d{2})/(\d{2})/(\d{4})" è un'espressione regolare (regex) utilizzata per trovare date nel formato gg/mm/aaaa. Ecco una spiegazione dettagliata del pattern:

- \d corrisponde a qualsiasi cifra (da 0 a 9).
- {2} indica che la cifra precedente (\d) deve apparire esattamente due volte.
- / corrisponde al carattere slash (barra) letterale.
- (\d{2}) è un gruppo di cattura che corrisponde a due cifre, rappresentando il giorno.
- (\d{2}) è un altro gruppo di cattura che corrisponde a due cifre, rappresentando il mese.
- (\d{4}) è un gruppo di cattura che corrisponde a quattro cifre, rappresentando l'anno.

Quindi, il pattern (\d{2})/(\d{2})/(\d{4}) corrisponde a una stringa che ha esattamente due cifre, seguite da una barra, altre due cifre, un'altra barra e infine quattro cifre. Un esempio di stringa che corrisponde a questo pattern è 12/05/2023.

In [None]:
testo = "Data: 12/06/2024"
pattern = r"(\d{2})/(\d{2})/(\d{4})"  # Pattern per catturare la data

match = re.search(pattern, testo)
if match:
    giorno, mese, anno = match.groups()
    print(f"Giorno: {giorno}, Mese: {mese}, Anno: {anno}")

Giorno: 12, Mese: 06, Anno: 2024


## 7. Utilizzo dei Flag nelle Espressioni Regolari
I flag permettono di modificare il comportamento delle espressioni regolari.
- `re.IGNORECASE` (`re.I`): Ignora la distinzione tra maiuscole e minuscole.
- `re.MULTILINE` (`re.M`): Considera ogni riga separatamente.
- `re.DOTALL` (`re.S`): Il punto `.` cattura anche i caratteri di nuova riga.

In [None]:
testo = "Python è fantastico!\nPYTHON è potente!"
pattern = r"python"

# Ricerca ignorando la distinzione tra maiuscole e minuscole
matches = re.findall(pattern, testo, re.IGNORECASE)
print("Occorrenze trovate:", matches)

Occorrenze trovate: ['Python', 'PYTHON']


## **Tabella dei Pattern Regex**

| Pattern | Descrizione | Esempio |
|---------|------------|---------|
| `.` | Qualsiasi carattere (tranne nuova riga) | `a.c` trova `abc`, `adc`, `a5c` |
| `^` | Inizio della stringa | `^Hello` trova `Hello world` |
| `$` | Fine della stringa | `world$` trova `Hello world` |
| `*` | 0 o più ripetizioni | `ab*` trova `a`, `ab`, `abb`, `abbb` |
| `+` | 1 o più ripetizioni | `ab+` trova `ab`, `abb`, `abbb`, ma non `a` |
| `?` | 0 o 1 ripetizione | `ab?` trova `a`, `ab`, ma non `abb` |
| `{n}` | Esattamente n ripetizioni | `a{3}` trova `aaa` |
| `{n,}` | Almeno n ripetizioni | `a{2,}` trova `aa`, `aaa`, `aaaa` |
| `{n,m}` | Tra n e m ripetizioni | `a{2,4}` trova `aa`, `aaa`, `aaaa` |
| `[]` | Uno qualsiasi tra i caratteri specificati | `[abc]` trova `a`, `b`, `c` |
| `[^]` | Qualsiasi carattere esclusi quelli specificati | `[^abc]` trova qualsiasi carattere tranne `a`, `b` o `c` |
| `\d` | Qualsiasi cifra (0-9) | `\d+` trova `123`, `4567` |
| `\D` | Qualsiasi carattere non numerico | `\D+` trova `abc`, `!@#` |
| `\w` | Qualsiasi carattere alfanumerico (A-Z, a-z, 0-9, _) | `\w+` trova `hello_123` |
| `\W` | Qualsiasi carattere non alfanumerico | `\W+` trova `!@#` |
| `\s` | Qualsiasi spazio bianco (spazio, tab, nuova riga) | `\s+` trova `   ` (spazi multipli) |
| `\S` | Qualsiasi carattere non spazio bianco | `\S+` trova `hello` |
| `|` | Operatore OR (oppure) | `cat|dog` trova `cat` o `dog` |
| `()` | Raggruppamento di espressioni | `(ab)+` trova `ab`, `abab`, `ababab` |
| `(?i)` | Modalità case-insensitive | `(?i)hello` trova `hello`, `HELLO`, `HeLLo` |

## Conclusione
Le espressioni regolari sono strumenti potenti per la manipolazione di stringhe. In Python, il modulo `re` offre molte funzioni per ricerche avanzate, suddivisione di stringhe e sostituzioni basate su pattern.

![meme1](./regex-meme.jpg)
---
![meme2](./i-see-patterns-theyre-everywhere.jpg)