# Espressioni regolari

**Espressione regolare (RE)**: stringa di simboli che rappresenta un insieme di stringhe.

Un'espressione regolare è parte del modulo `re`.

## Operazioni con le RE

    re.match(re_expr, string)

restituisce un oggetto di tipo `Match` se la stringa `string` contiene come prefisso (anche non proprio) una delle stringhe rappresentate dalla RE `re_expr`, altrimenti restituisce un oggetto di tipo `NoneType`.

    re.search(re_expr, string)

restituisce un oggetto di tipo `Match` se la stringa `string` contiene come sottostringa (anche non propria) una delle stringhe rappresentate dalla RE `re_expr`, altrimenti restituisce un oggetto di tipo `NoneType`.

    re.findall(re_expr, string)

restituisce la lista di tutte le occorrenze non sovrapposte delle stringhe rappresentate dalla RE `re_expr`, altrimenti restituisce un oggetto di tipo ?.

    re.finditer(re_expr, string)

restituisce la lista degli `re.Match` relativi a tutte le occorrenze non sovrapposte delle stringhe rappresentate dalla RE `re_expr`, altrimenti restituisce un oggetto di tipo ?.

    re.sub(re_expr, r_string, string)
    
restituisce la stringa ottenuta sostituendo con `r_string` tutte le occorrenze non sovrapposte di `re_expr` in `string`.

**ESEMPIO con `re.match()`**

La RE può anche non essere compilata e passata direttamente come stringa.

Proviamo ora con la stringa `dog`.

I metodi `start()` ed `end()` permettono di accedere alla posizione di inizio e fine del prefisso di *matching* catturato dall'operazione.

Il prefisso catturato è:

**ESEMPIO con `re.search()`**

Sottostringa catturata

Sottostringa catturata

**ESEMPIO con `re.findall()`**

In [None]:
stringa = 'dog and rat and rat'

**ESEMPIO con `re.finditer()`**

**ESEMPIO con `re.sub()`**

In [None]:
stringa = 'dog and cat and cat'


In [None]:
stringa = 'aaaaXXXXXXaaaaa'


In [None]:
stringa = 'aaaaXXXXXXXXaaaaa'


---
---

### ESERCIZIO1

Si consideri la stringa:

In [None]:
stringa = 'XXbatXXX\nYYYYYbat\nbatZZZZZ'
print(stringa)

Catturare l'occorrenza della sottostringa `bat` vincolata ad essere all'inizio di una riga.

Catturare l'occorrenza della sottostringa `bat` vincolata ad essere alla fine di una riga.

Catturare l'occorrenza della sottostringa `bat` vincolata ad essere all'inizio della stringa (cioé all'inizio della **prima** riga).

In [None]:
stringa = 'batXXXXX\nYYYYYbat\nbatZZZZZ'
print(stringa)

Catturare l'occorrenza della sottostringa `bat` vincolata ad essere alla fine della stringa (cioé alla fine dell'**ultima** riga).

In [None]:
stringa = 'batXXXXX\nYYYYYbat\nZZZZZbat'
print(stringa)

In [None]:
stringa = 'batXXXXX\nYYYYYbat\nZZZZZbat\n'
print(stringa)

---

### ESERCIZIO2

Si consideri la stringa:

In [None]:
stringa = 'This cat is a cat'
print(stringa)

Catturare l'occorrenza della parola `is` (verbo inglese) nella frase.

**NOTA BENE**:
- **parola in Python**: sequenza di lettere maiuscole o minuscole, cifre da 0 a 9 e simbolo `_`
- **confine di parola in Python**: elemento di dimensione nulla tra un simbolo di parola e un "non simbolo" di parola

Catturare l'occorrenza della parola `is` (verbo inglese) nella frase significa catturare la sottostringa `is` purché alla sua sinistra ci sia un confine di parola.

**NB**: per poter togliere `r` prima della RE si deve scrivere:

Catturare ora la sottostringa `is` purché alla sua sinistra **non** ci sia un confine di parola.

Catturare infine la sottostringa `is` purché alla sua destra ci sia un confine di parola.

---

**RIASSUMENDO...**
- `^`: metasimbolo che rappresenta l'inizio di riga
- `$`: metasimbolo che rappresenta la fine di riga
- `\A`: metasimbolo che rappresenta l'inizio di stringa
- `\Z`: metasimbolo che rappresenta la fine di stringa
- `\b`: confine di parola
- `\B`: negazione del confine di parola

prendono il nome di **ancore**.

---

### ESERCIZIO3

Si consideri la stringa:

In [None]:
stringa = 'ZZZcaaaaaZZZZZ'
print(stringa)

Catturare la sottostringa `caaaa`.

Si aggiungano dei simboli `a` alla stringa:

In [None]:
stringa = 'ZZZcaaaaaaaaaZZZZZ'
print(stringa)

Si tolgano dei simboli `a`

In [None]:
stringa = 'ZZZcaaaZZZZZ'
print(stringa)

Per catturare una sottostringa composta da `c` seguita da un qualsivoglia numero di `a` basta usare il quantificatore `+` che quantifica in 1 o più volte il simbolo precedente.

In [None]:
stringa = 'ZZZcaaaaaaaaaaaaaaaaaaaaaaaaaZZZZZ'
print(stringa)

In [None]:
stringa = 'ZZZcaaaaaaaZZZcaaaaaaaaaaaaaaaaaaaaaaaaaZZZZZ'
print(stringa)

**NOTA BENE**: il comportamento dell'operazione di matching è greedy: trova la prima occorrenza a sinistra e la estende il più possibile a destra.

Per limitare l'estensione il più possibile a sinistra, basta aggiungere un simbolo `?` dopo il quantificatore.

---

Usiamo ora il quantificatore `*` che quantifica in 0 o più volte il simbolo precedente.

In [None]:
print(stringa)

Se viene aggiunto `?` dopo `*`:

Attenzione a comportamenti non voluti...

In [None]:
stringa = 'ZZZcZZZcaaaaaaaaaaaaaaaaaaaaaaaaaZZZZZ'
print(stringa)

Il simbolo `?`, subito dopo un simbolo, è un quantificatore che rappresenta 0 oppure 1 occorrenza del simbolo.

In [None]:
stringa = 'ZZZcaaaZZZcaaaaaaaaaaaaaaaaaaaaaaaaaZZZZZ'
print(stringa)

---

**RIASSUMENDO...:**
- `+`: quantificatore per 1 o più occorrenze del simbolo precedente
- `*`: quantificatore per 0 o più occorrenze del simbolo precedente
- `?`: quantificatore per 0 o 1 occorrenza del simbolo precedente

Inoltre:

- `{m,n}`: da `m` a `n` occorrenze
        `{0,1}` equivale a `?`
- `{m,}`: almeno `m` occorrenze 
        `{1,}` equivale a `+`
        `{0,}` equivale a `*`
- `{,n}`: al più `n` occorrenze 
- `{m}`: esattamente `m` occorrenze 

---

### ESERCIZIO4

Si consideri la stringa:

In [None]:
stringa = 'ZZZcaababbabbaabbbZZZZZ'
print(stringa)

Catturare la sottostringa `cabbabbabbaabbb` che è composta da una `c` seguita da un qualsivoglia numero di caratteri purché siano `a` oppure `b`.

Si deve usare la classe dei caratteri `a` e `b` --> `[ab]`.

---

**RIASSUMENDO...**

Una classe di caratteri viene rappresentata da:

    [characters]
    
cioè elencando i caratteri della classe in parentesi quadre.

**Scorciatoie per alcune classi frequentemente utilizzate**:

- `[0-9]`: qualsiasi cifra da 0 a 9 --> `\d`
- `[^0-9]`: tutto ciò che non è cifra da 0 a 9 --> `\D`
- `[a-zA-Z0-9_]`: qualsiasi simbolo di parola --> `\w`
- `[^a-zA-Z0-9_]`: tutto ciò che non è simbolo di parola --> `\W`
- `[␣\t\r\n\f]`: qualsiasi simbolo di spazio --> `\s`
- `[^␣\t\r\n\f]`: tutto ciò che non è simbolo di spazio --> `\S`
- `[^\n]`: qualsiasi simbolo tranne `\n` --> `.`

---

### ESERCIZIO5

Si consideri la stringa:

In [None]:
stringa = 'ZZZcaababbabbaabbbZZZZZcabababababZZZZZ'
print(stringa)

Catturare la sottostringa `cababababab` che è composta da una `c` seguita da un qualsivoglia numero di blocchi `ab`.

---

**RIASSUMENDO...**

Una raggruppamento è una porzione di RE racchiusa tra parentesi tonde.

---

### ESERCIZIO6

Si considerino le stringhe:

In [None]:
stringa1 = '***Hello         world***'
stringa2 = '***Ciao   mondo***'

print(stringa1)
print(stringa2)

Ottenere le stringhe `Hello world` dalla `stringa1` e `Ciao mondo` da `stringa2` (con un solo spazio nel mezzo), utilizzando la stessa RE.

---

### ESERCIZIO7

Si consideri la stringa:

In [None]:
stringa = '***Hello world***\n***Ciao mondo***'
print(stringa)

Catturare la prima riga `***Hello world***` della stringa.

---

### ESERCIZIO8

Si considerino le stringhe:

In [None]:
stringa1 = '***Gatto***'
stringa2 = '***Topo***'
stringa3 = '***Ratto***'

print(stringa1)
print(stringa2)
print(stringa3)

Determinare la RE che permetta di catturare le sottostringhe `Gatto` o `Topo` ma non `Ratto`.

---

### ESERCIZIO9

Si considerino le stringhe:

In [None]:
stringa1 = '***Gatto Cane***'
stringa2 = '***Topo Ratto***'

print(stringa1)
print(stringa2)

Estrarre le quattro sottostringhe `Gatto`, `Cane`, `Topo` e `Ratto`, utilizzando la stessa RE.

La sottostringa:

inizia in posizione:

La sottostringa:

inizia in posizione:

La sottostringa:

inizia in posizione:

La sottostringa:

inizia in posizione:

L'occorrenza intera:

inizia in posizione:

L'occorrenza intera:

inizia in posizione:

Per catturare tutti i gruppi:

---

### RIASSUMENDO...

Il meccanismo che cattura di parti dell'occorrenza relative a raggruppamenti presenti nella RE da usare all'esterno dell'operazione di *matching*/*searching* prende il nome di **backreference esterno**.

I **raggruppamenti sono indicizzati** da sinistra a destra nella RE a partire da 1.

La parte catturata relativa a un raggruppamento viene restituita dal metodo `group()`. dell'oggetto `Match`:

    match_obj.group(index)

prende come argomento l'indice del raggruppamento da catturare.
Se l'argomento non viene specificato, allora si assume l’indice di default 0 che corrisponde all'intera sottostringa di matching relativa alla RE.

L'inizio e la fine della parte catturata per un raggruppamento viene restituita dai metodi `start()` ed `end()`.

    match_obj.start(index)
    match_obj.end(index)

prendono come argomenti l'indice del raggruppamento da catturare.
Se l'argomento non viene specificato, allora si assume l’indice di default 0 che corrisponde all'intera sottostringa di matching relativa alla RE.

---

### ESERCIZIO10

Si considerino le stringhe:

In [None]:
stringa1 = '***Cane Gatto***'
stringa2 = '***Gatto Gatto***'
stringa3 = '***Cane Cane***'

print(stringa1)
print(stringa2)
print(stringa3)

Determinare la RE che permetta di catturare le sottostringhe composte da una stessa parola ripetuta due volte con in mezzo uno spazio.

---

### RIASSUMENDO...

Il meccanismo di riferimento nella RE a raggruppamenti presenti nella RE stessa da usare internamente all'operazione di *matching*/*searching* prende il nome di **backreference interno**.
I riferimenti interni si rappresentano tramite i metasimboli `\1`, `\2`, `\3` etc., dove `\i`si riferisce all'i-esimo raggruppamento a partire da sinistra.

**Esempio**: la RE `(\w+)\1` è equivalente a `(\w+)(\w+)` con il vincolo che le due parti `(\w+)` e `(\w+)` corrispondano alla stessa sottostringa.

L'intera occorrenza è:

La parte catturata dal raggruppamento di sinistra è:

---

### ESERCIZIO11

Si consideri la stringa:

In [None]:
stringa = 'aaabbbcccdddeeefff'

print(stringa)

Si separi la stringa in fattori di lunghezza 3.

Versione con `finditer()`:

---

### ESERCIZIO12

Si consideri la stringa:

In [None]:
stringa = 'Cat cat Rat rat Bat bat'
print(stringa)

Si ottenga la lista `['Cat', 'Rat', 'Bat']`.

---

### ESERCIZIO13

Si consideri la stringa:

In [None]:
stringa = 'cat dog mouse rat'
print(stringa)

Vediamo come la lista restituita da `findall()` si modifica inserendo raggruppamenti.

---

Cosa succede se usiamo invece `re.finditer()`...

---

### ESERCIZIO14

Si consideri la stringa:

In [None]:
stringa = 'aaaaaaaabbbbcccccccccccccccccccccccc'
print(stringa)

Si ottenga la lista dei *runs* dei simboli `a`, `b` e `c`.

**Per trovare i *runs* di qualsiasi simbolo**:

In [None]:
stringa = 'aaaaaaaabbpppbbcccccccccccddddeeeeccccccccccccc'
print(stringa)