# Espressioni regolari in Python

**Espressione regolare (*Regular Expression*, RE)**: stringa che rappresenta un insieme di stringhe (cioè un linguaggio).

Le espressioni regolari fanno parte del modulo `re`.

In [3]:
import re

Esempio di espressione regolare:

In [4]:
'ab+'

'ab+'

In [None]:
'ab\+'

## Operazioni con le RE

---

### La funzione `search()`

    search(re_expr, string)

restituisce un oggetto (classe `Match`) che:
- contiene il risultato dell'operazione di confronto se `string` contiene come sottostringa (anche non propria) una delle stringhe rappresentate da `re_expr`
- restituisce un oggetto di tipo `NoneType` in caso contrario

---

In [5]:
stringa = 'cccccabbbbbccccccccccc'
re.search(r'ab+', stringa)

<re.Match object; span=(5, 11), match='abbbbb'>

In [6]:
stringa[5:11]

'abbbbb'

In [7]:
stringa = 'cccccabbbbbcccabbbbbbbbbbbbcccccccc'
re.search(r'ab+', stringa)

<re.Match object; span=(5, 11), match='abbbbb'>

In [8]:
stringa = 'cccccabbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbccccccccccc'
re.search(r'ab+', stringa)

<re.Match object; span=(5, 40), match='abbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb'>

In [9]:
re.search(r'ab+?', stringa)

<re.Match object; span=(5, 7), match='ab'>

---

In [10]:
stringa = 'cccccaccccccccccc'
re.search(r'ab+', stringa)

In [11]:
re.search(r'ab*', stringa)

<re.Match object; span=(5, 6), match='a'>

In [12]:
stringa = 'cccccabbbbbccccccccccc'
re.search(r'ab*', stringa)

<re.Match object; span=(5, 11), match='abbbbb'>

In [13]:
re.search(r'ab*?', stringa)

<re.Match object; span=(5, 6), match='a'>

---

In [14]:
stringa = 'cccccaccccccccccc'
re.search(r'ab?', stringa)

<re.Match object; span=(5, 6), match='a'>

In [15]:
stringa = 'cccccabbbbbccccccccccc'
re.search(r'ab?', stringa)

<re.Match object; span=(5, 7), match='ab'>

In [17]:
re.search(r'ab??', stringa)

<re.Match object; span=(5, 6), match='a'>

---

In [18]:
stringa = 'cccccabbbccccccccccc'
re.search(r'ab{5}', stringa)

In [19]:
stringa = 'cccccabbbbbccccccccccc'
re.search(r'ab{5}', stringa)

<re.Match object; span=(5, 11), match='abbbbb'>

In [20]:
stringa = 'cccccabbbbbbbbbbbbbbbccccccccccc'
re.search(r'ab{5}', stringa)

<re.Match object; span=(5, 11), match='abbbbb'>

---

In [21]:
stringa = 'cccccabbccccccccccc'
re.search(r'ab{3,5}', stringa)

In [22]:
stringa = 'cccccabbbccccccccccc'
re.search(r'ab{3,5}', stringa)

<re.Match object; span=(5, 9), match='abbb'>

In [23]:
stringa = 'cccccabbbbbbbbbbbbccccccccccc'
re.search(r'ab{3,5}', stringa)

<re.Match object; span=(5, 11), match='abbbbb'>

---

In [24]:
re.search(r'ab{3,}', stringa)

<re.Match object; span=(5, 18), match='abbbbbbbbbbbb'>

---

In [25]:
re.search(r'ab{,5}', stringa)

<re.Match object; span=(5, 11), match='abbbbb'>

In [26]:
stringa = 'cccccabccccccccccc'
re.search(r'ab{,5}', stringa)

<re.Match object; span=(5, 7), match='ab'>

---

### La funzione `match()`

    match(re_expr, string)

restituisce un oggetto (classe `Match`) che:
- contiene il risultato dell'operazione di confronto se `string` contiene come prefisso (anche non proprio) una delle stringhe rappresentate da `re_expr`
- restituisce un oggetto di tipo `NoneType` in caso contrario

---

### La funzione `findall()`


    findall(re_expr, string)

restituisce la lista di tutte le occorrenze non sovrapposte di stringhe rappresentate da `re_expr` nella stringa `string`.

In [27]:
stringa = 'xxxabbbbabbxxxabbbabbbbbbbb'
re.findall(r'ab+', stringa)

['abbbb', 'abb', 'abbb', 'abbbbbbbb']

In [28]:
stringa = 'cccccccc'
re.findall(r'ab+', stringa)

[]

---

### La funzione `finditer()`


    finditer(re_expr, string)

restituisce la lista degli oggetti di tipo `Match` relativi a tutte le occorrenze non sovrapposte di stringhe rappresentate da `re_expr` nella stringa `string`.

In [30]:
stringa = 'xxxabbbbabbxxxabbbabbbbbbbb'
obj_gen = re.finditer(r'ab+', stringa)

In [31]:
for m_obj in obj_gen:
    print(m_obj)

<re.Match object; span=(3, 8), match='abbbb'>
<re.Match object; span=(8, 11), match='abb'>
<re.Match object; span=(14, 18), match='abbb'>
<re.Match object; span=(18, 27), match='abbbbbbbb'>


In [32]:
for m_obj in obj_gen:
    print(m_obj)

---

### La funzione `sub()`

    sub(re_expr, r_string, string)
    
restituisce la stringa ottenuta sostituendo in `string` tutte le occorrenze non sovrapposte di `re_expr` con la stringa `r_string`.

In [33]:
stringa = 'xxxabbbbabbxxxabbbabbbbbbbb'
re.sub(r'ab+', '-', stringa)

'xxx--xxx--'

In [34]:
stringa

'xxxabbbbabbxxxabbbabbbbbbbb'

---

### Come accedere alle informazioni contenute in un oggetto `Match`

I metodi:
- `start()` restituisce la posizione di inizio della sottostringa catturata dall'operazione
- `end()` restituisce la posizione successiva alla fine della sottostringa catturata dall'operazione
- `span()` restituisce la tupla contenente start ed end dell'occorrenza catturata

In [37]:
stringa = 'cccccabbbbbccccccccccc'
m = re.search(r'ab+', stringa)
m

<re.Match object; span=(5, 11), match='abbbbb'>

In [38]:
m.start()

5

In [39]:
m.end()

11

In [40]:
m.span()

(5, 11)

La sottostringa catturata è accessibile tramite *slicing*:

In [42]:
stringa[m.start():m.end()]

'abbbbb'

---

### Come "ancorare" le occorrenze di una RE

**Ancora di inizio riga `^`**

In [43]:
stringa1 = 'XXbatXXX\nYYYbatYY\nbatZZZZZ'
print(stringa1)

XXbatXXX
YYYbatYY
batZZZZZ


In [44]:
stringa2 = 'XXbatXXX\nYYYYYbat\nZZZZZbat'
print(stringa2)

XXbatXXX
YYYYYbat
ZZZZZbat


Catturiamo l'occorrenza di `bat` vincolata ad essere all'inizio di una riga nella stringa.

In [47]:
re.search(r'^bat', stringa1, re.M)

<re.Match object; span=(18, 21), match='bat'>

In [48]:
re.search(r'^bat', stringa2, re.M)

**Ancora di inizio stringa `\A`**

In [50]:
re.search(r'\Abat', stringa1, re.M)

In [51]:
stringa3 = 'batXXX\nYYYbatYY\nbatZZZZZ'
print(stringa3)

batXXX
YYYbatYY
batZZZZZ


In [52]:
re.search(r'\Abat', stringa3, re.M)

<re.Match object; span=(0, 3), match='bat'>

**Ancora di fine riga `$`**

In [53]:
print(stringa1)

XXbatXXX
YYYbatYY
batZZZZZ


In [54]:
print(stringa2)

XXbatXXX
YYYYYbat
ZZZZZbat


In [55]:
re.search(r'bat$', stringa1, re.M)

In [56]:
re.search(r'bat$', stringa2, re.M)

<re.Match object; span=(14, 17), match='bat'>

**Ancora di fine stringa `\Z`**

In [57]:
re.search(r'bat\Z', stringa2, re.M)

<re.Match object; span=(23, 26), match='bat'>

**Ancora di confine di parola `\b`**

- **parola**: sequenza di lettere maiuscole o minuscole, cifre da 0 a 9 e simbolo `_`
- **confine di parola**: elemento di dimensione nulla tra un simbolo di parola e un "non simbolo" di parola

In [58]:
stringa = 'This cat is a cat'
print(stringa)

This cat is a cat


Catturiamo l'occorrenza della parola `is` (intesa come verbo essere).

In [62]:
re.search(r'is', stringa)

<re.Match object; span=(2, 4), match='is'>

Catturare l'occorrenza del verbo `is` significa catturare la sottostringa `is` purché a sinistra e a destra ci sia un confine di parola.

In [63]:
re.search(r'\bis\b', stringa)

<re.Match object; span=(9, 11), match='is'>

In [64]:
stringa = 'is this a cat?'
print(stringa)

is this a cat?


Catturare ora la sottostringa `is` intesa come suffisso di `this`.

In [65]:
re.search(r'\Bis', stringa)

<re.Match object; span=(5, 7), match='is'>

---

### Come specificare una classe di simboli

In [66]:
stringa = 'ZZZcaababbabbaabbbZZZZZ'
print(stringa)

ZZZcaababbabbaabbbZZZZZ


Catturare la sottostringa `cabbabbabbaabbb` che è composta da una `c` seguita da un qualsivoglia numero di caratteri `a` oppure `b`.

In [67]:
re.search(r'c[ab]+', stringa)

<re.Match object; span=(3, 18), match='caababbabbaabbb'>

---

In [68]:
stringa = '*****0145414441658****'
print(stringa)

*****0145414441658****


Catturare la sottostringa `0145414441658` composta di soli simboli di cifra.

In [69]:
re.search(r'[0123456789]+', stringa)

<re.Match object; span=(5, 18), match='0145414441658'>

Scorciatoia...

In [70]:
re.search(r'[0-9]+', stringa)

<re.Match object; span=(5, 18), match='0145414441658'>

Scorciatoia ancora più breve...

In [71]:
re.search(r'\d+', stringa)

<re.Match object; span=(5, 18), match='0145414441658'>

In [72]:
re.search(r'\D+', stringa)

<re.Match object; span=(0, 5), match='*****'>

---

In [73]:
stringa = '*****AbcdRTUhgTTd****'
print(stringa)

*****AbcdRTUhgTTd****


Catturare la sottostringa `AbcdRTUhgTTd` composta di sole lettere minuscole e maiuscole.

In [74]:
re.search(r'[a-zA-Z]+', stringa)

<re.Match object; span=(5, 17), match='AbcdRTUhgTTd'>

---

In [75]:
stringa = '*****Ab0_cd1R8_75T_UhgTTd****'
print(stringa)

*****Ab0_cd1R8_75T_UhgTTd****


Catturare la sottostringa `Ab0_cd1R8_75T_UhgTTd` composta di soli simboli di parola (lettere minuscole e maiuscole, simboli di cifra e underscore).

In [76]:
re.search(r'[a-zA-Z0-9_]+', stringa)

<re.Match object; span=(5, 25), match='Ab0_cd1R8_75T_UhgTTd'>

Scorciatoia...

In [77]:
re.search(r'\w+', stringa)

<re.Match object; span=(5, 25), match='Ab0_cd1R8_75T_UhgTTd'>

In [78]:
re.search(r'\W+', stringa)

<re.Match object; span=(0, 5), match='*****'>

---

In [79]:
stringa1 = '***Hello world***'
print(stringa1)

***Hello world***


In [80]:
stringa2 = '***Ciao mondo***'
print(stringa2)

***Ciao mondo***


Catturare `Hello world` da `stringa1` e `Ciao mondo` da `stringa2`.

In [81]:
re.search(r'\w+ \w+', stringa1)

<re.Match object; span=(3, 14), match='Hello world'>

In [82]:
re.search(r'\w+ \w+', stringa2)

<re.Match object; span=(3, 13), match='Ciao mondo'>

In [83]:
stringa1 = '***Hello        world***'
print(stringa1)

***Hello        world***


In [84]:
stringa2 = '***Ciao\t\tmondo***'
print(stringa2)

***Ciao		mondo***


In [85]:
re.search(r'\w+ \w+', stringa1)

In [86]:
re.search(r'\w+ \w+', stringa2)

In [87]:
re.search(r'\w+\s+\w+', stringa1)

<re.Match object; span=(3, 21), match='Hello        world'>

In [88]:
re.search(r'\w+\s+\w+', stringa2)

<re.Match object; span=(3, 14), match='Ciao\t\tmondo'>

In [89]:
stringa2 = '***Ciao\nmondo***'
print(stringa2)

***Ciao
mondo***


In [90]:
re.search(r'\w+\s+\w+', stringa2)

<re.Match object; span=(3, 13), match='Ciao\nmondo'>

In [91]:
stringa = '***Ciao     mondo***'
print(stringa)

***Ciao     mondo***


In [92]:
re.search(r'\w+\S+\w+', stringa2)

<re.Match object; span=(3, 7), match='Ciao'>

---

In [93]:
stringa = '***Ciao\t\tmondo*011**AavR**'
print(stringa)

***Ciao		mondo*011**AavR**


Catturiamo l'intera stringa.

In [94]:
re.search(r'.+', stringa)

<re.Match object; span=(0, 26), match='***Ciao\t\tmondo*011**AavR**'>

In [95]:
stringa = '***Ciao\t\tmondo\n*011**AavR**'
print(stringa)

***Ciao		mondo
*011**AavR**


In [96]:
re.search(r'.+', stringa)

<re.Match object; span=(0, 14), match='***Ciao\t\tmondo'>

---

### Come specificare un raggruppamento

In [97]:
stringa = 'ZZZcaababbabbaabbbZZZZZcabababababZZZZZ'
print(stringa)

ZZZcaababbabbaabbbZZZZZcabababababZZZZZ


Catturare la sottostringa `cababababab` che è composta da una `c` seguita da un qualsivoglia numero di blocchi `ab`.

In [98]:
re.search(r'c[ab]+', stringa)

<re.Match object; span=(3, 18), match='caababbabbaabbb'>

In [99]:
re.search(r'c(ab)+', stringa)

<re.Match object; span=(23, 34), match='cababababab'>

---

### Come specificare un'alternativa

In [100]:
stringa1 = '***Gatto***'
stringa2 = '***Topo***'
stringa3 = '***Ratto***'

print(stringa1)
print(stringa2)
print(stringa3)

***Gatto***
***Topo***
***Ratto***


Riconoscere le sottostringhe `Gatto` o `Topo` ma non `Ratto`.

In [101]:
re.search(r'Gatto|Topo', stringa1)

<re.Match object; span=(3, 8), match='Gatto'>

In [102]:
re.search(r'Gatto|Topo', stringa2)

<re.Match object; span=(3, 7), match='Topo'>

In [103]:
re.search(r'Gatto|Topo', stringa3)

In [104]:
re.search(r'Gatt(o|T)opo', stringa1)

In [105]:
re.search(r'Gatt(o|T)opo', 'Gattoopo')

<re.Match object; span=(0, 8), match='Gattoopo'>

In [106]:
re.search(r'Gatt(o|T)opo', 'GattTopo')

<re.Match object; span=(0, 8), match='GattTopo'>

---

### Come catturare parti di un'occorrenza (*external backreference*)

In [None]:
stringa1 = '***Gatto Cane***'
stringa2 = '***Oca Ratto***'

print(stringa1)
print(stringa2)

Estrarre le due sottostringhe `Gatto` e `Cane` da `stringa1` e le due sottostringhe `Topo` e `Ratto` da `stringa2`.

---

---

### Come catturare parti di un'occorrenza da usare nella RE (*internal backreference*)

In [None]:
stringa1 = '***Cane Gatto***'
stringa2 = '***Gatto Gatto***'
stringa3 = '***Cane Cane***'

print(stringa1)
print(stringa2)
print(stringa3)

Catturare le sottostringhe composte da una stessa parola ripetuta due volte con in mezzo degli spazi.

---

---

### ESERCIZIO1

In [None]:
stringa = 'Cat cat Rat rat Bat bat'
print(stringa)

Estrarre la lista `['Cat', 'Rat', 'Bat']`.

---

### ESERCIZIO2

In [None]:
stringa = 'cat dog mouse rat'
print(stringa)

Estrarre la lista `['cat dog', 'mouse rat']`.

---

### ESERCIZIO3

In [None]:
stringa = 'aaaaaaaabbbbcccccccccccccccccccccccc'
print(stringa)

Estrarre la lista dei *runs* dei simboli `a`, `b` e `c`.

---

### ESERCIZIO4

In [None]:
stringa = 'aaaaaaaabbpppbbcccccccccccddddeeeeccccccccccccc'
print(stringa)

Estrarre la lista dei *runs* di qualsiasi simbolo.