# Espressioni regolari

> ### Definizione di espressione regolare
> ### Operazioni di *matching* e di *searching*
> ### Accesso alle occorrenze
> ### Come scrivere un'espressione regolare
> ### *Backreference* esterno e interno
> ### La funzioni `findall()` e `sub()`

### Definizione di espressione regolare

**Espressione regolare (RE)**: stringa di simboli che rappresenta un linguaggio.

Esempi:
- `ca?t` rappresenta il linguaggio {`ct`, `cat`}
- `ca*t` rappresenta il linguaggio {`ct`, `cat`, `caat`, `caaat`, `caaaat`, `caaaaat`, ...}
- `ca+t` rappresenta il linguaggio {`cat`, `caat`, `caaat`, `caaaat`, `caaaaat`, ...}
- `cat` rappresenta il linguaggio {`cat`}

Operazioni con RE:

- *matching*
- *searching*
- *sostituzione*

Un'espressione regolare è parte del modulo `re`.

In [2]:
import re

### Funzione `re.match() ` per l'operazione di *matching*

Data una stringa S e un'espressione regolare *RE*, verifica se S inizia (o addirittura coincide) con una delle stringhe del linguaggio di *RE*.

    re.match(my_expr, my_string)
    
Oggetto restituito: `re.Match`

Funzionamento greedy.

In [12]:
re.match('cat', 'dog and cat')

In [14]:
re.match('cat', 'cat and dog')

<re.Match object; span=(0, 3), match='cat'>

In [15]:
re.match('cat', 'cat')

<re.Match object; span=(0, 3), match='cat'>

In [18]:
re.match('ca*t', 'caaaaaataaaaa')

<re.Match object; span=(0, 8), match='caaaaaat'>

### Funzione `re.search() ` per l'operazione di *searching*

Data una stringa S e un'espressione regolare *RE*, verifica se S contiene una delle stringhe del linguaggio di *RE*.

    re.search(my_expr, my_string)
    
Oggetto restituito: `re.Match`

Funzionamento greedy.

In [13]:
re.search('cat', 'dog and cat')

<re.Match object; span=(8, 11), match='cat'>

In [9]:
re.search('cat', 'cat and dog')

<re.Match object; span=(0, 3), match='cat'>

In [10]:
re.search('cat', 'cat')

<re.Match object; span=(0, 3), match='cat'>

### Accesso alla occorrenza trovata

L'oggetto di tipo `re.Match` mette a disposizione due metodi per localizzare l'occorrenza trovata:

- `start()`, posizione (0-based) di inizio dell'occorrenza
- `end()`, posizione (1-based) di fine dell'occorrenza

In [22]:
s = re.search('cat', 'dog and cat and rat')
print(s)

<re.Match object; span=(8, 11), match='cat'>


In [20]:
s.start()

8

In [21]:
s.end()

11

Occorrenza:

In [23]:
'dog and cat and rat'[s.start():s.end()]

'cat'

### Come scrivere un'espressione regolare

**Due gruppi di simboli**

1. `. | ( ) [ ] { } + \ ^ $ * ?`, metasimboli    
1. tutti i simboli che non sono metasimboli e che rappresentano se stessi

    
Per fare in modo che un metasimbolo rappresenti se stesso basta anteporre `\`.

`ca?t` è diversa da `ca\?t`

Esistono simboli che, preceduti da `\`, rappresentano qualcos'altro.

`ABC` è diversa da `\ABC`

I *metasimboli* in generale permettono di specificare:

- ancore
- classi
- quantificatori
- alternative
- raggruppamenti
- backreference

---

### Ancora (elemento di dimensione nulla)

- inizio riga `^`
- fine riga `$`
- inizio stringa `\A`
- fine stringa `\z`
- fine stringa `\Z` (eventualmente prima di `\n`)
- confine di parola `\b`
- non confine di parola `\B`

*Simbolo di parola*: lettera minuscola da `a` a `z`, lettera maiuscola da `A` a `Z`, cifra da `0` a `9`, simbolo di *underscore* `_`.

*Confine di parola*: elemento di dimensione nulla tra un simbolo di parola e un non simbolo di parola. 

**ESEMPI**:

`^cat` rappresenta l'unica stringa `cat` con il vincolo che sia a inizio riga
- in `cataaaa`, `aaaa\ncataaaa`
- non in `aaacataaa`, `aaacat`, `aaaacat\naaaa`


`cat$` rappresenta l'unica stringa `cat` con il vincolo che sia a fine riga
- in `aaacat`, `aaaacat\naaaa`
- non in `aaacataaa`, `cataaa`, `aaaa\ncataaaa`


`\Acat` rappresenta l'unica stringa `cat` con il vincolo che sia a inizio stringa
- in `cataaaa`
- non in `aaaa\ncataaaa`

`cat\z` rappresenta l'unica stringa `cat` con il vincolo che sia a fine stringa
- in `aaaacat`
- non in `aaaacat\naaaa`, `aaaa\naaaacat\n`

`cat\Z` rappresenta l'unica stringa `cat` con il vincolo che sia a fine stringa (eventualmente prima di `\n`)
- in `aaaa\naaaacat\n`, `aaaacat`

`\bis` rappresenta l'unica stringa `is` con il vincolo che prima di `i` non ci sia un simbolo di parola
- in `It is a cat`
- non in `This cat`

`\Bis` rappresenta l'unica stringa `is` con il vincolo che prima di `i` ci sia un simbolo di parola
- in `This cat`
- non in `It is a cat`

***

### Classe (insieme di caratteri)

Una classe viene specificata in parentesi quadre `[]`:

- elencando ognuno dei caratteri appartenenti alla classe 
- specificando intervalli tramite il simbolo `-`
- il simbolo `^` messo all'inizio permette di effettuare la **negazione** di ciò che viene specificato dopo

e rappresenta ognuno dei simboli che le appartengono.

**ESEMPI DI CLASSI**:

`[aeiou]` rappresenta la classe delle vocali minuscole

`[^aeiou]` rappresenta la classe di tutto ciò che non è vocale minuscola

`[ae^iou]` rappresenta la classe delle vocali minuscole e del simbolo `^`

`[.;:,]` rappresenta la classe dei simboli di punteggiatura (in questo caso il simbolo `.` non è un *metasimbolo*)

`[?\b]` rappresenta la classe dei due simboli `?` e *backspace*

`[a-z]` rappresenta la classe delle lettere minuscole

`[a\-z]` rappresenta la classe dei tre simboli `a`, `-` e `z`.

`[a-zA-Z]` rappresenta la classe di tutte le lettere

`[a-zA-Z0-9_]` rappresenta la classe di tutti i simboli di parola

 `[^a-zA-Z0-9_]` è la classe di tutti i simboli che non sono di parola.

**ESEMPIO DI DI RE CON CLASSI**:

`[A-Z]at` rappresenta tutte le stringhe che iniziano con lettera maiuscola e finiscono con `at`
- ad esempio `Cat`, `Rat`, `Bat`
- ma non `cat`, `rat`, `bat`

`[A-Za-z]at` rappresenta tutte le stringhe di tre lettere che finiscono con `at`
- ad esempio `Cat`, `Rat`, `Bat`, `cat`, `rat`, `bat`

**Scorciatoie**:

- `[0-9]` = `\d`
- `[^0-9]` = `\D`
- `[a-zA-Z0-9_]` = `\w`
- `[^a-zA-Z0-9_]` = `\W`
- `[0-9a-fA-F]` = `\h`
- `[^0-9a-fA-F]` = `\H`
- `[␣\t\r\n\f]` = `\s`
- `[^␣\t\r\n\f]` = `\S`
- `[^\n]` = `.`

### Raggruppamento (parte di *RE*)

Un raggruppamento viene specificato in parentesi tonde `()` e può:
- essere sottoposto a quantificazione
- essere sottoposto a *backreference*
- variare la precedenza delle alternative

`a(bc)d` contiene il raggruppamento `(bc)`

***

### Quantificatore

Un *quantificatore* è un metasimbolo che specifica il numero di volte con cui il carattere, la classe o il raggruppamento precedenti possono manifestarsi all'interno della stringa con cui la *RE* viene confrontata.

Un *quantificatore* può specificare:

- zero o più ripetizioni `*`
- una o più ripetizioni `+`
- zero o una ripetizione `?`
- da `m` a `n` ripetizioni `{m,n}`
- almeno `m` ripetizioni `{m,}`
- al più `n` ripetizioni `{,n}`
- esattamente `m` ripetizioni `{m}`


`ca*t` rappresenta le stringhe composte da `c`, seguita da zero o più simboli `a`, seguiti da `t`. 
- `ct`, `cat`, `caaat`, `caaaat` sono nel linguaggio

`ca+t` rappresenta le stringhe composte da `c`, seguita da uno o più simboli `a`, seguiti da `t`.
- `cat`, `caaat` non sono nel linguaggio
- `ct` non è nel linguaggio

`c[ab]+t` rappresenta le stringhe composte da un simbolo `c` seguito da una o più ripetizioni del simbolo `a` oppure `b` seguite dal simbolo `t`.
- `caabbbabababbat`, `caaaaaaaat`, `cbbbbbbbbt` sono nel linguaggio

`c(ab)+t` rappresenta stringhe composte da `c`, seguita da una o più ripetizioni di `ab`, seguite da `t`. Ad esempio 
- `cabt`, `cabababt`, `cababababt`
- `caaaaaaaat`, `cbbbbbbbbt`, `cbbababbbbbbt` non sono sono nel linguaggio

`ca?t` rappresenta le sole stringhe `ct` e `cat`.

`ca{2,5}t` rappresenta le sole stringhe `caat`, `caaat`, `caaaat` e `caaaaat`, composte da `c`, seguita da due, o tre, o quattro, o cinque simboli `a`, seguiti da `t`.

`ca{2,}t` rappresenta le stringhe `caat`, `caaat`, `caaaat`, `caaaaat`, etc., composte da `c`, seguita da almeno due `a`, seguiti da `t`.

`ca{,5}t` rappresenta le sole stringhe `ct`, `cat`, `caat` `caaat`, `caaaat` e `caaaaat`, composte da `c`, seguita da al più cinque simboli `a`, seguiti da `t`.

`ca{5}t` rappresenta la sola stringa `caaaaat`, composta da `c`, seguita da cinque simboli `a`, seguiti da `t`.

***

### Alternativa

Per specificare un'*alternativa* tra due parti della *RE* si usa il *metasimbolo* `|`.

`ab|cd` rappresenta il linguaggio {`ab`, `cd`}.

`cane nero|bianco` corrisponde al linguaggio {`cane nero`, `bianco`}.

`cane (nero|bianco)` corrisponde al linguaggio {`cane nero`, `cane bianco`}

***

### ESERCIZIO1

Si consideri la stringa `***hello world***`

In [42]:
stringa = '***hello world***'

Si effettui la ricerca della *RE* `\w+` che rappresenta tutte le stringhe composte da uno o più simboli di parola.

In [43]:
s = re.search('\w+', stringa)

La *searching occurrence* è:

In [44]:
stringa[s.start():s.end()]

'hello'

Fare in modo che l'occorrenza trovata sia ora `hello world`.

In [45]:
s = re.search('\w+\s\w+', stringa)

La *searching occurrence* è ora:

In [46]:
stringa[s.start():s.end()]

'hello world'

Si cambi ora la stringa in `***hello     world***` mantenendo la stessa *RE*.

In [47]:
stringa = '***hello     world***'
s = re.search('\w+\s\w+', stringa)

Estrarre l'occorrenza.

In [48]:
stringa[s.start():s.end()]

AttributeError: 'NoneType' object has no attribute 'start'

La *RE* che permette di catturare `hello     world` (con un qualsiasi numero di spazi tra `hello` e `world`) è:

In [53]:
s = re.search('\w+\s+\w+', stringa)

L'occorrenza ora è infatti:

In [54]:
stringa[s.start():s.end()]

'hello     world'

La nuova *RE* permette di trovare l'occorrenza per un numero qualsiasi di spazi tra `hello` e `world`.

In [55]:
stringa = '***hello                             world***'
s = re.search('\w+\s+\w+', stringa)
stringa[s.start():s.end()]

'hello                             world'

Si provi ora a usare (su questa nuova stringa) la *RE* `.+` che rappresenta tutte le stringhe di uno o più caratteri qualsiasi (tranne il *newline* `\n`).

In [56]:
s = re.search('.+', stringa)

L'occorrenza sarà ora:

In [57]:
stringa[s.start():s.end()]

'***hello                             world***'

A questo punto si inserisca nella stringa un carattere di *newline* `\n` dopo `hello`.

In [58]:
stringa = '***hello\n                             world***'
s = re.search('.+', stringa)

L'occorrenza sarà ora:

In [59]:
stringa[s.start():s.end()]

'***hello'

in quanto il simbolo `\n` non appartiene alla classe rappresentata dal *metasimbolo* `.`.

### ESERCIZIO2

Si consideri la stringa:

In [60]:
stringa = 'bbbcaaaaaaaatcaaaat'

Si effettui utilizzi la *RE* `ca+` che rappresenta tutte le stringhe composte da `c` seguito da almeno un carattere `a`.

In [63]:
s = re.search('ca+', stringa)

L'occorrenza è:

In [65]:
stringa[s.start():s.end()]

'caaaaaaaa'

La ricerca, a causa del comportamento *greedy* dell'operazione, si estende il più a destra possibile.

Si aggiunga quindi un `?` subito dopo il quantificatore `+`.

In [71]:
s = re.search('ca+?', stringa)

L'ooccorrenza diventa:

In [72]:
stringa[s.start():s.end()]

'ca'

in quanto il punto di domanda limita annulla il comportamento greedy e si limita all'occorrenza più corta.

Si effettui ora la ricerca della *RE* `(ca)+` che rappresenta tutte le stringhe composte da `ca` ripetuta almeno una volta.

In [73]:
s = re.search('(ca)+', stringa)

L'occorrenza è ora:

In [74]:
stringa[s.start():s.end()]

'ca'

In [46]:
stringa[s.start():s.end()]

'ca'

Si provi ora a cercare la *RE* `ca*` che rappresenta tutte le stringhe composte da `c` seguito da zero o più `a`.

In [75]:
s = re.search('ca*', stringa)

L'occorrenza è:

In [76]:
stringa[s.start():s.end()]

'caaaaaaaa'

Se si aggiunge il punto di domanda:

In [77]:
s = re.search('ca*?', stringa)

L'occorrenza è:

In [78]:
stringa[s.start():s.end()]

'c'

Attenzione a un'espressione regolare come `(ca)*?`.

In [79]:
s = re.search('(ca)*?', stringa)

L'occorrenza è:

In [80]:
stringa[s.start():s.end()]

''

## *Backreference* esterno

**Goal**: catturare le parti di occorrenza relative ai raggruppamenti per usarli all'esterno dell'operazione di *matching*/*searching*.

I **raggruppamenti sono indicizzati** da sinistra a destra a partire da 1.

La parte catturata relativa a un raggruppamento viene restituita dal metodo `group()` dell'oggetto di tipo `Match`:

    my_match_obj.group(my_index)

che prende come argomento l'indice del raggruppamento da catturare (se l'argomento non viene specificato, allora si assume l’indice di default 0 che corrisponde all'intera occorrenza).

L'inizio e la fine della parte catturata per un raggruppamento viene restituita dai metodi `start()` ed `end()` dell'oggetto di tipo `Match`:

    my_match_obj.start(my_index)
    my_match_obj.end(my_index)

che prendono come argomenti l'indice del raggruppamento da catturare (se l'argomento non viene specificato, allora si assume l’indice di default 0 che corrisponde all'intera occorrenza).

---

**ESEMPIO**:

In [82]:
s = re.search('(\w+)\s+(\w+)', 'gatto cane')

L'occorrenza intera è:

In [83]:
s.group()

'gatto cane'

La parte catturata dal primo raggruppamento è:

In [84]:
s.group(1)

'gatto'

e inizia in posizione:

In [85]:
s.start(1)

0

La parte catturata dal secondo raggruppamento è:

In [86]:
s.group(2)

'cane'

e inizia in posizione:

In [87]:
s.start(2)

6

## *Backreference* interno

**Goal**: creare riferimenti interni ai raggruppamenti tramite i metasimboli `\\1`, `\\2`, `\\3` etc., dove `\\i`si riferisce all'i-esimo raggruppamento a partire da sinistra.

**Esempio1**: `(\w+)\s+\\1` è equivalente a `(\w+)\s+(\w+)` con il vincolo che le due parti `(\w+)` e `(\w+)` catturino la stessa stringa.

In [98]:
s = re.search('(\w+)\s+\\1', 'gatto gatto')

L'occorrenza intera trovata è:

In [99]:
s.group()

'gatto gatto'

mentre la parte catturata dal raggruppamento di sinistra è:

In [100]:
s.group(1)

'gatto'

Se invece si usa la stringa `gatto cane`:

In [101]:
s = re.search('(\w+)\s+\\1', 'gatto cane')

In [102]:
s.group(0)

AttributeError: 'NoneType' object has no attribute 'group'

**Esempio2**: `(\w+)\\1` è equivalente a `(\w+)(\w+)` con il vincolo che le due parti `(\w+)` e `(\w+)` catturino la stessa stringa.

In [108]:
s = re.search('(\w+)\\1', 'Mississippi')

L'occorrenza intera trovata è:

In [109]:
s.group()

'ississ'

mentre la parte catturata dal raggruppamento di sinistra è:

In [110]:
s.group(1)

'iss'

## Funzione `findall()`

La funzione:

    re.findall(my_expr, my_string)

trova tutte le occorrenze non sovrapposte della *RE* `my_expr` nella stringa `my_string`, e restituisce:
    
- la lista delle occorrenze elencate da sinistra a destra, se nella *RE* non sono presenti raggruppamenti
- la lista delle occorrenze catturate da un raggruppamento, se nella *RE* è presente un solo raggruppamento
- la lista delle occorrenze catturate dai raggruppamenti, organizzati in tuple, se nella *RE* sono presenti più raggruppamenti (anche annidati)

In [111]:
re.findall('\w\w', 'abcdefghi')

['ab', 'cd', 'ef', 'gh']

In [64]:
re.findall('(\w)\w', 'abcdefgh')

['a', 'c', 'e', 'g']

In [65]:
re.findall('(\w)(\w)', 'abcdefgh')

[('a', 'b'), ('c', 'd'), ('e', 'f'), ('g', 'h')]

In [66]:
re.findall('((\w)(\w))', 'abcdefgh')

[('ab', 'a', 'b'), ('cd', 'c', 'd'), ('ef', 'e', 'f'), ('gh', 'g', 'h')]

In [3]:
re.findall('\w+', 'cat dog mouse rat')

['cat', 'dog', 'mouse', 'rat']

In [4]:
re.findall('\w+\s+\w+', 'cat dog mouse rat')

['cat dog', 'mouse rat']

In [5]:
re.findall('(\w+)\s+\w+', 'cat dog mouse rat')

['cat', 'mouse']

In [6]:
re.findall('(\w+)\s+(\w+)', 'cat dog mouse rat')

[('cat', 'dog'), ('mouse', 'rat')]

## Funzione `sub()`

La funzione:

    re.sub(my_expr, r_string, my_string)

restituisce la stringa ottenuta sostituendo con `r_string` tutte le occorrenze non sovrapposte di `my_expr` in `my_string`.

In [7]:
re.sub('\w+\s\w+', 'goose', 'cat dog mouse rat')

'goose goose'