# Python - Espressioni regolari

**Regular Expression, RE**: stringa che rappresenta un insieme di stringhe (cioè un linguaggio).

Le espressioni regolari fanno parte del modulo `re`.

## Operazioni con le RE

---

### La funzione `search()`

    search(re_expr, string)

restituisce un oggetto (classe `Match`) che:
- contiene il risultato dell'operazione di confronto, se `string` contiene come sottostringa (anche non propria) una delle stringhe rappresentate da `re_expr`
- restituisce un oggetto di tipo `NoneType` in caso contrario

`re_expr` può essere:
- la stringa che rappresenta l'espressione regolare
- l'oggetto restituito dalla funzione `compile()`

**Esempi con quantificatore `+`**

In [None]:
stringa = 'cccccabbbbbccccccccccc'


**NB**: l'operazione cattura solo la *leftmost occurrence*

In [None]:
stringa = 'cccccabbbbbcccabbbbbbbbbbbbcccccccc'


**NB**: il comportamento è *greedy*.

In [10]:
stringa = 'cccccabbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbccccccccccc'


**Esempi con quantificatore `*`**

In [11]:
stringa = 'cccccaccccccccccc'


In [12]:
stringa = 'cccccabbbbbccccccccccc'


**Esempi con quantificatore `?`**

In [13]:
stringa = 'cccccaccccccccccc'


In [14]:
stringa = 'cccccabbbbbccccccccccc'


### Altri quantificatori

**Esattamente n: `{n}`**

In [15]:
stringa = 'cccccabbbccccccccccc'


In [16]:
stringa = 'cccccabbbbbccccccccccc'


In [17]:
stringa = 'cccccabbbbbbbbbbbbbbbccccccccccc'


**Almeno m e non più di n: `{m,n}`**

In [18]:
stringa = 'cccccabbccccccccccc'


In [19]:
stringa = 'cccccabbbccccccccccc'


In [20]:
stringa = 'cccccabbbbbbbbbbbbccccccccccc'


**Almeno m: `{m,}`**

In [22]:
stringa = 'cccccabbbbbbbbbbbbccccccccccc'


**Non più di n: `{,n}`**

In [23]:
stringa = 'cccccabbbbbbbbbbbbccccccccccc'


<re.Match object; span=(5, 11), match='abbbbb'>

In [23]:
stringa = 'cccccabccccccccccc'


**RIASSUMENDO...:**
- `+`: quantificatore per 1 o più occorrenze del simbolo precedente
- `*`: quantificatore per 0 o più occorrenze del simbolo precedente
- `?`: quantificatore per 0 o 1 occorrenza del simbolo precedente

Inoltre:

- `{m,n}`: da `m` a `n` occorrenze
        `{0,1}` equivale a `?`
- `{m,}`: almeno `m` occorrenze 
        `{1,}` equivale a `+`
        `{0,}` equivale a `*`
- `{,n}`: al più `n` occorrenze 
- `{m}`: esattamente `m` occorrenze 

---

### La funzione `match()`

    match(re_expr, string)

restituisce un oggetto (classe `Match`) che:
- contiene il risultato dell'operazione di confronto se `string` contiene come prefisso (anche non proprio) una delle stringhe rappresentate da `re_expr`
- restituisce un oggetto di tipo `NoneType` in caso contrario

---

### La funzione `findall()`


    findall(re_expr, string)

restituisce la lista di tutte le occorrenze, nella stringa `string`, non sovrapposte di stringhe rappresentate da `re_expr`.

In [24]:
stringa = 'xxxabbbbabbxxxabbbabbbbbbbb'


In [25]:
stringa = 'cccccccc'


---

### La funzione `finditer()`


    finditer(re_expr, string)

restituisce la lista degli oggetti di tipo `Match` relativi a tutte le occorrenze, nella stringa `string`, non sovrapposte di stringhe rappresentate da `re_expr`.

In [26]:
stringa = 'xxxabbbbabbxxxabbbabbbbbbbb'


---

### La funzione `sub()`

    sub(re_expr, r_string, string)
    
restituisce la stringa ottenuta sostituendo in `string` tutte le occorrenze non sovrapposte di `re_expr` con la stringa `r_string`.

In [27]:
stringa = 'xxxabbbbabbxxxabbbabbbbbbbb'


---

### Come accedere alle informazioni contenute in un oggetto `Match`

- `start()` restituisce la posizione di inizio della sottostringa catturata dall'operazione
- `end()` restituisce la posizione successiva alla fine della sottostringa catturata dall'operazione
- `span()` restituisce la tupla contenente start ed end dell'occorrenza catturata

In [28]:
stringa = 'cccccabbbbbccccccccccc'


---

### Come "ancorare" le occorrenze di una RE

**Ancora di inizio riga `^`**

In [29]:
stringa1 = 'XXbatXXX\nYYYbatYY\nbatZZZZZ'
print(stringa1)

In [30]:
stringa2 = 'XXbatXXX\nYYYYYbat\nZZZZZbat'
print(stringa2)

Catturiamo nelle due stringhe l'occorrenza di `bat` vincolata ad essere all'inizio di una riga nella stringa, aggiungendo il flag `re.M` che forza a interpretare `stringa` su più righe.

**Ancora di inizio stringa `\A`**

In [41]:
stringa1 = 'XXbatXXX\nYYYbatYY\nbatZZZZZ'


In [32]:
stringa3 = 'batXXX\nYYYbatYY\nbatZZZZZ'
print(stringa3)

**Ancora di fine riga `$`**

In [46]:
stringa1 = 'XXbatXXX\nYYYbatYY\nbatZZZZZ'


In [35]:
stringa2 = 'XXbatXXX\nYYYYYbat\nZZZZZbat'


**Ancora di fine stringa `\Z`**

In [36]:
stringa2 = 'XXbatXXX\nYYYYYbat\nZZZZZbat'


**Ancora di confine di parola `\b`**

- **parola**: sequenza di lettere maiuscole o minuscole, cifre da 0 a 9 e simbolo `_`
- **confine di parola**: elemento di dimensione nulla tra un simbolo di parola e un "non simbolo" di parola

In [39]:
stringa = 'This cat is a cat'
print(stringa)

Catturiamo l'occorrenza della parola `is`.

In [40]:
stringa = 'is this a cat?'
print(stringa)

Catturiamo ora la sottostringa `is` intesa come suffisso di `this`.

**RIASSUMENDO...**
- `^`: metasimbolo che rappresenta l'inizio di riga
- `$`: metasimbolo che rappresenta la fine di riga
- `\A`: metasimbolo che rappresenta l'inizio di stringa
- `\Z`: metasimbolo che rappresenta la fine di stringa
- `\b`: confine di parola
- `\B`: negazione del confine di parola

prendono il nome di **ancore**.

---

### Come specificare una classe di simboli

In [41]:
stringa = 'ZZZcaababbabbaabbbZZZZZ'
print(stringa)

Catturare la sottostringa `cabbabbabbaabbb`.

---

In [42]:
stringa = '*****0145414441658****'
print(stringa)

Catturare la sottostringa `0145414441658` composta di soli simboli di cifra.

---

In [45]:
stringa = '*****AbcdRTUhgTTd****'
print(stringa)

Catturare la sottostringa `AbcdRTUhgTTd` composta di sole lettere minuscole e maiuscole.

---

In [46]:
stringa = '*****Ab0_cd1R8_75T_UhgTTd****'
print(stringa)

Catturare la sottostringa `Ab0_cd1R8_75T_UhgTTd` composta di soli simboli di parola (lettere minuscole e maiuscole, simboli di cifra e underscore).

---

In [47]:
stringa1 = '***Hello world***'
print(stringa1)

In [48]:
stringa2 = '***Ciao mondo***'
print(stringa2)

Catturare `Hello world` da `stringa1` e `Ciao mondo` da `stringa2`, utilizzando la stessa RE.

In [49]:
stringa1 = '***Hello        world***'
print(stringa1)

In [52]:
stringa2 = '***Ciao\t\tmondo***'
print(stringa2)

In [53]:
stringa1 = '***Ciao\nmondo***'
print(stringa1)

In [None]:
stringa2 = '***Ciao     mondo***'
print(stringa2)

---

In [54]:
stringa1 = '***Ciao\t\tmondo*011**AavR**'
print(stringa1)

Catturiamo l'intera stringa.

In [55]:
stringa = '***Ciao\t\tmondo\n*011**AavR**'
print(stringa2)

---

**RIASSUMENDO...**

Una classe di caratteri viene rappresentata da:

    [characters]
    
cioè elencando i caratteri della classe in parentesi quadre.

**Scorciatoie per alcune classi frequentemente utilizzate**:

- `[0-9]`: qualsiasi cifra da 0 a 9 --> `\d`
- `[^0-9]`: tutto ciò che non è cifra da 0 a 9 --> `\D`
- `[a-zA-Z0-9_]`: qualsiasi simbolo di parola --> `\w`
- `[^a-zA-Z0-9_]`: tutto ciò che non è simbolo di parola --> `\W`
- `[␣\t\r\n\f]`: qualsiasi simbolo di spazio --> `\s`
- `[^␣\t\r\n\f]`: tutto ciò che non è simbolo di spazio --> `\S`
- `[^\n]`: qualsiasi simbolo tranne `\n` --> `.`

---

### Come specificare un raggruppamento

In [56]:
stringa = 'ZZZcaababbabbaabbbZZZZZcabababababZZZZZ'
print(stringa)

Catturare la sottostringa `cababababab` che è composta da una `c` seguita da un qualsivoglia numero di blocchi `ab`.

---

### Come specificare un'alternativa

In [57]:
stringa1 = '***Gatto***'
stringa2 = '***Topo***'
stringa3 = '***Ratto***'

print(stringa1)
print(stringa2)
print(stringa3)

Riconoscere `Gatto` o `Topo` ma non `Ratto`.

---

### Come catturare parti di un'occorrenza (*external backreference*)

In [58]:
stringa1 = '***Gatto Cane***'
stringa2 = '***Oca Ratto***'

print(stringa1)
print(stringa2)

Estrarre le due sottostringhe `Gatto` e `Cane` da `stringa1` e le due sottostringhe `Topo` e `Ratto` da `stringa2`.

**RIASSUMENDO...**

Il meccanismo che cattura, tramite raggruppamenti, parti di occorrenza prende il nome di ***backreference esterno***.

I raggruppamenti sono indicizzati da sinistra a destra a partire da 1.

La parte catturata da un raggruppamento viene restituita dal metodo `group()` dell'oggetto `Match`:

       match_obj.group(index)
       
dove l'argomento `index` è l'indice del raggruppamento da catturare. Se l'argomento non viene specificato, allora si assume l’indice di default 0 che corrisponde all'intera sottostringa catturata dalla RE.

L'inizio e la fine della parte catturata da un raggruppamento viene restituita dai metodi `start()` ed `end()`:

       match_obj.start(index)
       match_obj.end(index)
   
Se l'argomento non viene specificato, allora si assume l’indice di default 0 che corrisponde all'intera sottostringa catturata dalla RE.


---

### Come catturare parti di un'occorrenza da usare nella RE (*internal backreference*)

In [59]:
stringa1 = '***Cane Gatto***'
stringa2 = '***Gatto Gatto***'
stringa3 = '***Cane Cane***'

print(stringa1)
print(stringa2)
print(stringa3)

Catturare le sottostringhe composte da una stessa parola ripetuta due volte con in mezzo degli spazi.

**RIASSUMENDO...**

Il riferimento a raggruppamenti presenti nella RE da usare internamente all'operazione di matching prende il nome di ***backreference interno***. I riferimenti interni si rappresentano tramite i metasimboli \1 , \2 ,
\3 etc., dove \i si riferisce all'i-esimo raggruppamento a partire da sinistra.


---

### ESERCIZIO1

In [60]:
stringa = 'Cat cat Rat rat Bat bat'
print(stringa)

Estrarre la lista `['Cat', 'Rat', 'Bat']`.

---

### ESERCIZIO2

In [61]:
stringa = 'cat dog mouse rat'
print(stringa)

Estrarre la lista `['cat dog', 'mouse rat']`.

---

### ESERCIZIO3

In [62]:
stringa = 'aaaaaaaabbbbcccccccccccccccccccccccc'
print(stringa)

Estrarre la lista dei *runs* dei simboli `a`, `b` e `c`.

---

### ESERCIZIO4

In [63]:
stringa = 'aaaaaaaabbpppbbcccccccccccddddeeeeccccccccccccc'
print(stringa)

Estrarre la lista dei *runs* di qualsiasi simbolo.