# Espressioni regolari in Python

**Espressione regolare (*Regular Expression*, RE)**: stringa che rappresenta un insieme di stringhe (cioè un linguaggio).

Le espressioni regolari fanno parte del modulo `re`.

Esempio di espressione regolare:

## Operazioni con le RE

---

### La funzione `search()`

    search(re_expr, string)

restituisce un oggetto (classe `Match`) che:
- contiene il risultato dell'operazione di confronto se `string` contiene come sottostringa (anche non propria) una delle stringhe rappresentate da `re_expr`
- restituisce un oggetto di tipo `NoneType` in caso contrario

---

In [None]:
stringa = 'cccccabbbbbccccccccccc'


In [None]:
stringa = 'cccccabbbbbcccabbbbbbbbbbbbcccccccc'


In [None]:
stringa = 'cccccabbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbccccccccccc'


---

In [None]:
stringa = 'cccccaccccccccccc'


In [None]:
stringa = 'cccccabbbbbccccccccccc'


---

In [None]:
stringa = 'cccccaccccccccccc'


In [None]:
stringa = 'cccccabbbbbccccccccccc'


---

In [None]:
stringa = 'cccccabbbccccccccccc'


In [None]:
stringa = 'cccccabbbbbccccccccccc'


In [None]:
stringa = 'cccccabbbbbbbbbbbbbbbccccccccccc'


---

In [None]:
stringa = 'cccccabbccccccccccc'


In [None]:
stringa = 'cccccabbbccccccccccc'


In [None]:
stringa = 'cccccabbbbbbbbbbbbccccccccccc'


---

---

In [None]:
stringa = 'cccccabccccccccccc'


---

### La funzione `match()`

    match(re_expr, string)

restituisce un oggetto (classe `Match`) che:
- contiene il risultato dell'operazione di confronto se `string` contiene come prefisso (anche non proprio) una delle stringhe rappresentate da `re_expr`
- restituisce un oggetto di tipo `NoneType` in caso contrario

---

### La funzione `findall()`


    findall(re_expr, string)

restituisce la lista di tutte le occorrenze non sovrapposte di stringhe rappresentate da `re_expr` nella stringa `string`.

In [None]:
stringa = 'xxxabbbbabbxxxabbbabbbbbbbb'


In [None]:
stringa = 'cccccccc'


---

### La funzione `finditer()`


    finditer(re_expr, string)

restituisce la lista degli oggetti di tipo `Match` relativi a tutte le occorrenze non sovrapposte di stringhe rappresentate da `re_expr` nella stringa `string`.

In [None]:
stringa = 'xxxabbbbabbxxxabbbabbbbbbbb'


---

### La funzione `sub()`

    sub(re_expr, r_string, string)
    
restituisce la stringa ottenuta sostituendo in `string` tutte le occorrenze non sovrapposte di `re_expr` con la stringa `r_string`.

In [None]:
stringa = 'xxxabbbbabbxxxabbbabbbbbbbb'


---

### Come accedere alle informazioni contenute in un oggetto `Match`

I metodi:
- `start()` restituisce la posizione di inizio della sottostringa catturata dall'operazione
- `end()` restituisce la posizione successiva alla fine della sottostringa catturata dall'operazione
- `span()` restituisce la tupla contenente start ed end dell'occorrenza catturata

In [None]:
stringa = 'cccccabbbbbccccccccccc'


La sottostringa catturata è accessibile tramite *slicing*:

---

### Come "ancorare" le occorrenze di una RE

**Ancora di inizio riga `^`**

In [2]:
stringa1 = 'XXbatXXX\nYYYbatYY\nbatZZZZZ'
print(stringa1)

In [None]:
stringa2 = 'XXbatXXX\nYYYYYbat\nZZZZZbat'
print(stringa2)

Catturiamo l'occorrenza di `bat` vincolata ad essere all'inizio di una riga nella stringa.

**Ancora di inizio stringa `\A`**

In [None]:
stringa3 = 'batXXX\nYYYbatYY\nbatZZZZZ'
print(stringa3)

**Ancora di fine riga `$`**

In [None]:
print(stringa1)

In [None]:
print(stringa2)

**Ancora di fine stringa `\Z`**

**Ancora di confine di parola `\b`**

- **parola**: sequenza di lettere maiuscole o minuscole, cifre da 0 a 9 e simbolo `_`
- **confine di parola**: elemento di dimensione nulla tra un simbolo di parola e un "non simbolo" di parola

In [None]:
stringa = 'This cat is a cat'
print(stringa)

Catturiamo l'occorrenza della parola `is` (intesa come verbo essere).

Catturare l'occorrenza del verbo `is` significa catturare la sottostringa `is` purché a sinistra e a destra ci sia un confine di parola.

In [None]:
stringa = 'is this a cat?'
print(stringa)

Catturare ora la sottostringa `is` intesa come suffisso di `this`.

---

### Come specificare una classe di simboli

In [None]:
stringa = 'ZZZcaababbabbaabbbZZZZZ'
print(stringa)

Catturare la sottostringa `cabbabbabbaabbb` che è composta da una `c` seguita da un qualsivoglia numero di caratteri `a` oppure `b`.

---

In [None]:
stringa = '*****0145414441658****'
print(stringa)

Catturare la sottostringa `0145414441658` composta di soli simboli di cifra.

Scorciatoia...

Scorciatoia ancora più breve...

---

In [None]:
stringa = '*****AbcdRTUhgTTd****'
print(stringa)

Catturare la sottostringa `AbcdRTUhgTTd` composta di sole lettere minuscole e maiuscole.

---

In [None]:
stringa = '*****Ab0_cd1R8_75T_UhgTTd****'
print(stringa)

Catturare la sottostringa `Ab0_cd1R8_75T_UhgTTd` composta di soli simboli di parola (lettere minuscole e maiuscole, simboli di cifra e underscore).

Scorciatoia...

---

In [None]:
stringa1 = '***Hello world***'
print(stringa1)

In [None]:
stringa2 = '***Ciao mondo***'
print(stringa2)

Catturare `Hello world` da `stringa1` e `Ciao mondo` da `stringa2`.

In [None]:
stringa1 = '***Hello        world***'
print(stringa1)

In [None]:
stringa2 = '***Ciao\t\tmondo***'
print(stringa2)

In [None]:
stringa2 = '***Ciao\nmondo***'
print(stringa2)

In [None]:
stringa = '***Ciao     mondo***'
print(stringa)

---

In [None]:
stringa = '***Ciao\t\tmondo*011**AavR**'
print(stringa)

Catturiamo l'intera stringa.

In [None]:
stringa = '***Ciao\t\tmondo\n*011**AavR**'
print(stringa2)

---

### Come specificare un raggruppamento

In [None]:
stringa = 'ZZZcaababbabbaabbbZZZZZcabababababZZZZZ'
print(stringa)

Catturare la sottostringa `cababababab` che è composta da una `c` seguita da un qualsivoglia numero di blocchi `ab`.

---

### Come specificare un'alternativa

In [None]:
stringa1 = '***Gatto***'
stringa2 = '***Topo***'
stringa3 = '***Ratto***'

print(stringa1)
print(stringa2)
print(stringa3)

Riconoscere le sottostringhe `Gatto` o `Topo` ma non `Ratto`.

---

### Come catturare parti di un'occorrenza (*external backreference*)

In [None]:
stringa1 = '***Gatto Cane***'
stringa2 = '***Oca Ratto***'

print(stringa1)
print(stringa2)

Estrarre le due sottostringhe `Gatto` e `Cane` da `stringa1` e le due sottostringhe `Topo` e `Ratto` da `stringa2`.

---

---

### Come catturare parti di un'occorrenza da usare nella RE (*internal backreference*)

In [None]:
stringa1 = '***Cane Gatto***'
stringa2 = '***Gatto Gatto***'
stringa3 = '***Cane Cane***'

print(stringa1)
print(stringa2)
print(stringa3)

Catturare le sottostringhe composte da una stessa parola ripetuta due volte con in mezzo degli spazi.

---

---

### ESERCIZIO1

In [None]:
stringa = 'Cat cat Rat rat Bat bat'
print(stringa)

Estrarre la lista `['Cat', 'Rat', 'Bat']`.

---

### ESERCIZIO2

In [None]:
stringa = 'cat dog mouse rat'
print(stringa)

Estrarre la lista `['cat dog', 'mouse rat']`.

---

### ESERCIZIO3

In [None]:
stringa = 'aaaaaaaabbbbcccccccccccccccccccccccc'
print(stringa)

Estrarre la lista dei *runs* dei simboli `a`, `b` e `c`.

---

### ESERCIZIO4

In [None]:
stringa = 'aaaaaaaabbpppbbcccccccccccddddeeeeccccccccccccc'
print(stringa)

Estrarre la lista dei *runs* di qualsiasi simbolo.