# Python - Espressioni regolari

**Espressione regolare (*Regular Expression*, RE)**: stringa che rappresenta un insieme di stringhe (cioè un linguaggio).

Le espressioni regolari fanno parte del modulo `re`.

In [2]:
import re

Esempio di espressione regolare:

In [2]:
'ab+'

'ab+'

che rappresenta l'insieme di stringhe `{ab, abb, abbb, ..., abbbb, abbbbb, etc}`

In [3]:
'ab\+'

'ab\\+'

rappresenta l'insieme di stringhe `{ab+}`

## Operazioni con le RE

---

### La funzione `search()`

    search(re_expr, string)

restituisce un oggetto (classe `Match`) che:
- contiene il risultato dell'operazione di confronto, se `string` contiene come sottostringa (anche non propria) una delle stringhe rappresentate da `re_expr`
- restituisce un oggetto di tipo `NoneType` in caso contrario

`re_expr` può essere:
- la stringa che rappresenta l'espressione regolare
- l'oggetto restituito dalla funzione `compile()`

**Quantificatore `+`**

In [4]:
stringa = 'cccccabbbbbccccccccccc'
re.search(r'ab+', stringa)

<re.Match object; span=(5, 11), match='abbbbb'>

In [5]:
p = re.compile('ab+')
re.search(p, stringa)

<re.Match object; span=(5, 11), match='abbbbb'>

In [6]:
stringa[5:11]

'abbbbb'

**NB**: l'operazione cattura solo la *leftmost occurrence*

In [9]:
stringa = 'cccccabbbbbcccabbbbbbbbbbbbcccccccc'
re.search(r'ab+', stringa)

<re.Match object; span=(5, 11), match='abbbbb'>

**NB**: il comportamento è *greedy*. Come limitare tale comportamento?

In [7]:
stringa = 'cccccabbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbccccccccccc'
re.search(r'ab+', stringa)

<re.Match object; span=(5, 40), match='abbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb'>

In [8]:
re.search(r'ab+?', stringa)

<re.Match object; span=(5, 7), match='ab'>

**Quantificatore `*`**

In [8]:
stringa = 'cccccaccccccccccc'
re.search(r'ab*', stringa)

<re.Match object; span=(5, 6), match='a'>

Il comportamento *greedy* viene comunque mantenuto.

In [11]:
stringa = 'cccccabbbbbccccccccccc'
re.search(r'ab*', stringa)

<re.Match object; span=(5, 11), match='abbbbb'>

In [12]:
re.search(r'ab*?', stringa)

<re.Match object; span=(5, 6), match='a'>

**Quantificatore `?`**

In [13]:
stringa = 'cccccaccccccccccc'
re.search(r'ab?', stringa)

<re.Match object; span=(5, 6), match='a'>

In [14]:
stringa = 'cccccabbbbbccccccccccc'
re.search(r'ab?', stringa)

<re.Match object; span=(5, 7), match='ab'>

**NB**: si può sempre limitare il comportamento *greedy*

In [15]:
stringa = 'cccccabbbbbccccccccccc'
re.search(r'ab??', stringa)

<re.Match object; span=(5, 6), match='a'>

### Altri quantificatori

**Esattamente n: `{n}`**

In [10]:
stringa = 'cccccabbbccccccccccc'
re.search(r'ab{5}', stringa)

In [11]:
stringa = 'cccccabbbbbccccccccccc'
re.search(r'ab{5}', stringa)

<re.Match object; span=(5, 11), match='abbbbb'>

In [12]:
stringa = 'cccccabbbbbbbbbbbbbbbccccccccccc'
re.search(r'ab{5}', stringa)

<re.Match object; span=(5, 11), match='abbbbb'>

**Almeno m e non più di n: `{m,n}`**

In [19]:
stringa = 'cccccabbccccccccccc'
re.search(r'ab{3,5}', stringa)

In [20]:
stringa = 'cccccabbbccccccccccc'
re.search(r'ab{3,5}', stringa)

<re.Match object; span=(5, 9), match='abbb'>

In [21]:
stringa = 'cccccabbbbbbbbbbbbccccccccccc'
re.search(r'ab{3,5}', stringa)

<re.Match object; span=(5, 11), match='abbbbb'>

**Almeno m: `{m,}`**

In [22]:
stringa = 'cccccabbbbbbbbbbbbccccccccccc'
re.search(r'ab{3,}', stringa)

<re.Match object; span=(5, 18), match='abbbbbbbbbbbb'>

**Non più di n: `{,n}`**

In [23]:
stringa = 'cccccabbbbbbbbbbbbccccccccccc'
re.search(r'ab{,5}', stringa)

<re.Match object; span=(5, 11), match='abbbbb'>

In [24]:
stringa = 'cccccabccccccccccc'
re.search(r'ab{,5}', stringa)

<re.Match object; span=(5, 7), match='ab'>

**RIASSUMENDO...:**
- `+`: quantificatore per 1 o più occorrenze del simbolo precedente
- `*`: quantificatore per 0 o più occorrenze del simbolo precedente
- `?`: quantificatore per 0 o 1 occorrenza del simbolo precedente

Inoltre:

- `{m,n}`: da `m` a `n` occorrenze
        `{0,1}` equivale a `?`
- `{m,}`: almeno `m` occorrenze 
        `{1,}` equivale a `+`
        `{0,}` equivale a `*`
- `{,n}`: al più `n` occorrenze 
- `{m}`: esattamente `m` occorrenze 

---

### La funzione `match()`

    match(re_expr, string)

restituisce un oggetto (classe `Match`) che:
- contiene il risultato dell'operazione di confronto se `string` contiene come prefisso (anche non proprio) una delle stringhe rappresentate da `re_expr`
- restituisce un oggetto di tipo `NoneType` in caso contrario

---

### La funzione `findall()`


    findall(re_expr, string)

restituisce la lista di tutte le occorrenze, nella stringa `string`, non sovrapposte di stringhe rappresentate da `re_expr`.

In [25]:
stringa = 'xxxabbbbabbxxxabbbabbbbbbbb'
re.findall(r'ab+', stringa)

['abbbb', 'abb', 'abbb', 'abbbbbbbb']

In [26]:
stringa = 'cccccccc'
re.findall(r'ab+', stringa)

[]

---

### La funzione `finditer()`


    finditer(re_expr, string)

restituisce la lista degli oggetti di tipo `Match` relativi a tutte le occorrenze, nella stringa `string`, non sovrapposte di stringhe rappresentate da `re_expr`.

In [27]:
stringa = 'xxxabbbbabbxxxabbbabbbbbbbb'
obj_gen = re.finditer(r'ab+', stringa)

In [28]:
for obj in obj_gen:
    print(obj)

<re.Match object; span=(3, 8), match='abbbb'>
<re.Match object; span=(8, 11), match='abb'>
<re.Match object; span=(14, 18), match='abbb'>
<re.Match object; span=(18, 27), match='abbbbbbbb'>


In [29]:
for obj in obj_gen:
    print(obj)

---

### La funzione `sub()`

    sub(re_expr, r_string, string)
    
restituisce la stringa ottenuta sostituendo in `string` tutte le occorrenze non sovrapposte di `re_expr` con la stringa `r_string`.

In [30]:
stringa = 'xxxabbbbabbxxxabbbabbbbbbbb'
re.sub(r'ab+', '-', stringa)

'xxx--xxx--'

In [31]:
stringa

'xxxabbbbabbxxxabbbabbbbbbbb'

---

### Come accedere alle informazioni contenute in un oggetto `Match`

I metodi:
- `start()` restituisce la posizione di inizio della sottostringa catturata dall'operazione
- `end()` restituisce la posizione successiva alla fine della sottostringa catturata dall'operazione
- `span()` restituisce la tupla contenente start ed end dell'occorrenza catturata

In [32]:
stringa = 'cccccabbbbbccccccccccc'
m = re.search(r'ab+', stringa)
m

<re.Match object; span=(5, 11), match='abbbbb'>

In [33]:
m.start()

5

In [34]:
m.end()

11

In [35]:
m.span()

(5, 11)

La sottostringa catturata è accessibile tramite *slicing*:

In [36]:
stringa[m.start():m.end()]

'abbbbb'

---

### Come "ancorare" le occorrenze di una RE

**Ancora di inizio riga `^`**

In [37]:
stringa1 = 'XXbatXXX\nYYYbatYY\nbatZZZZZ'
print(stringa1)

XXbatXXX
YYYbatYY
batZZZZZ


In [38]:
stringa2 = 'XXbatXXX\nYYYYYbat\nZZZZZbat'
print(stringa2)

XXbatXXX
YYYYYbat
ZZZZZbat


Catturiamo nelle due stringhe l'occorrenza di `bat` vincolata ad essere all'inizio di una riga nella stringa, aggiungendo il flag `re.M` che forza a interpretare `stringa` su più righe.

In [39]:
re.search(r'^bat', stringa1, re.M)

<re.Match object; span=(18, 21), match='bat'>

In [40]:
re.search(r'^bat', stringa2, re.M)

**Ancora di inizio stringa `\A`**

In [41]:
stringa1 = 'XXbatXXX\nYYYbatYY\nbatZZZZZ'
re.search(r'\Abat', stringa1, re.M)

In [42]:
stringa3 = 'batXXX\nYYYbatYY\nbatZZZZZ'
print(stringa3)

batXXX
YYYbatYY
batZZZZZ


In [43]:
re.search(r'\Abat', stringa3, re.M)

<re.Match object; span=(0, 3), match='bat'>

**Ancora di fine riga `$`**

In [46]:
stringa1 = 'XXbatXXX\nYYYbatYY\nbatZZZZZ'
re.search(r'bat$', stringa1, re.M)

In [47]:
stringa2 = 'XXbatXXX\nYYYYYbat\nZZZZZbat'
re.search(r'bat$', stringa2, re.M)

<re.Match object; span=(14, 17), match='bat'>

**Ancora di fine stringa `\Z`**

In [48]:
stringa2 = 'XXbatXXX\nYYYYYbat\nZZZZZbat'
re.search(r'bat\Z', stringa2, re.M)

<re.Match object; span=(23, 26), match='bat'>

**Ancora di confine di parola `\b`**

- **parola**: sequenza di lettere maiuscole o minuscole, cifre da 0 a 9 e simbolo `_`
- **confine di parola**: elemento di dimensione nulla tra un simbolo di parola e un "non simbolo" di parola

In [49]:
stringa = 'This cat is a cat'
print(stringa)

This cat is a cat


Catturiamo l'occorrenza della parola `is`.

In [50]:
re.search(r'is', stringa)

<re.Match object; span=(2, 4), match='is'>

Catturare l'occorrenza del verbo `is` significa catturare la sottostringa `is` purché a sinistra e a destra ci sia un confine di parola.

In [51]:
re.search(r'\bis\b', stringa)

<re.Match object; span=(9, 11), match='is'>

In [52]:
stringa = 'is this a cat?'
print(stringa)

is this a cat?


Catturiamo ora la sottostringa `is` intesa come suffisso di `this`.

In [53]:
re.search(r'\Bis\b', stringa)

<re.Match object; span=(5, 7), match='is'>

**RIASSUMENDO...**
- `^`: metasimbolo che rappresenta l'inizio di riga
- `$`: metasimbolo che rappresenta la fine di riga
- `\A`: metasimbolo che rappresenta l'inizio di stringa
- `\Z`: metasimbolo che rappresenta la fine di stringa
- `\b`: confine di parola
- `\B`: negazione del confine di parola

prendono il nome di **ancore**.

---

### Come specificare una classe di simboli

In [54]:
stringa = 'ZZZcaababbabbaabbbZZZZZ'
print(stringa)

ZZZcaababbabbaabbbZZZZZ


Catturare la sottostringa `cabbabbabbaabbb` che è composta da una `c` seguita da un qualsivoglia numero di caratteri `a` oppure `b`.

Si deve usare la classe dei caratteri `a` e `b` espressa come `[ab]`.

In [55]:
re.search(r'c[ab]+', stringa)

<re.Match object; span=(3, 18), match='caababbabbaabbb'>

---

In [56]:
stringa = '*****0145414441658****'
print(stringa)

*****0145414441658****


Catturare la sottostringa `0145414441658` composta di soli simboli di cifra.

In [57]:
re.search(r'[0123456789]+', stringa)

<re.Match object; span=(5, 18), match='0145414441658'>

Scorciatoia...

In [58]:
re.search(r'[0-9]+', stringa)

<re.Match object; span=(5, 18), match='0145414441658'>

Scorciatoia ancora più breve...

In [59]:
re.search(r'\d+', stringa)

<re.Match object; span=(5, 18), match='0145414441658'>

La negazione di `\d` è `\D` (tutto ciò che non è cifra).

In [60]:
re.search(r'\D+', stringa)

<re.Match object; span=(0, 5), match='*****'>

---

In [61]:
stringa = '*****AbcdRTUhgTTd****'
print(stringa)

*****AbcdRTUhgTTd****


Catturare la sottostringa `AbcdRTUhgTTd` composta di sole lettere minuscole e maiuscole.

In [62]:
re.search(r'[A-Za-z]+', stringa)

<re.Match object; span=(5, 17), match='AbcdRTUhgTTd'>

---

In [63]:
stringa = '*****Ab0_cd1R8_75T_UhgTTd****'
print(stringa)

*****Ab0_cd1R8_75T_UhgTTd****


Catturare la sottostringa `Ab0_cd1R8_75T_UhgTTd` composta di soli simboli di parola (lettere minuscole e maiuscole, simboli di cifra e underscore).

In [64]:
re.search(r'[A-Za-z0-9_]+', stringa)

<re.Match object; span=(5, 25), match='Ab0_cd1R8_75T_UhgTTd'>

Scorciatoia...

In [65]:
re.search(r'\w+', stringa)

<re.Match object; span=(5, 25), match='Ab0_cd1R8_75T_UhgTTd'>

La negazione di `\w` è `\W` (tutto ciò che non un simbolo di parola).

In [66]:
re.search(r'\W+', stringa)

<re.Match object; span=(0, 5), match='*****'>

---

In [67]:
stringa1 = '***Hello world***'
print(stringa1)

***Hello world***


In [68]:
stringa2 = '***Ciao mondo***'
print(stringa2)

***Ciao mondo***


Catturare `Hello world` da `stringa1` e `Ciao mondo` da `stringa2`, utilizzando la stessa RE.

In [69]:
re.search(r'\w+ \w+', stringa1)

<re.Match object; span=(3, 14), match='Hello world'>

In [70]:
re.search(r'\w+ \w+', stringa2)

<re.Match object; span=(3, 13), match='Ciao mondo'>

In [71]:
stringa1 = '***Hello        world***'
print(stringa1)

***Hello        world***


In [72]:
stringa2 = '***Ciao\t\tmondo***'
print(stringa2)

***Ciao		mondo***


In [73]:
re.search(r'\w+ \w+', stringa1)

In [74]:
re.search(r'\w+ \w+', stringa2)

Cambiamo espressione usando `\s`.

In [75]:
re.search(r'\w+\s+\w+', stringa1)

<re.Match object; span=(3, 21), match='Hello        world'>

In [76]:
re.search(r'\w+\s+\w+', stringa2)

<re.Match object; span=(3, 14), match='Ciao\t\tmondo'>

... che funziona anche se inseriamo un `\n`.

In [13]:
stringa1 = '***Ciao\nmondo***'
print(stringa1)

***Ciao
mondo***


In [14]:
re.search(r'\w+\s+\w+', stringa1)

<re.Match object; span=(3, 13), match='Ciao\nmondo'>

La negazione di `\s` è `\S` (tutto ciò che non è simbolo di spazio).

In [15]:
stringa2 = '***Ciao     mondo***'
print(stringa2)

***Ciao     mondo***


In [16]:
re.search(r'\S+', stringa2)

<re.Match object; span=(0, 7), match='***Ciao'>

---

In [22]:
stringa1 = '***Ciao\t\tmondo*011**AavR**'
print(stringa1)

***Ciao		mondo*011**AavR**


Catturiamo l'intera stringa.

In [21]:
re.search(r'.+', stringa1)

<re.Match object; span=(0, 26), match='***Ciao\t\tmondo*011**AavR**'>

In [23]:
stringa2 = '***Ciao\t\tmondo\n*011**AavR**'
print(stringa2)

***Ciao		mondo
*011**AavR**


In [20]:
re.search(r'.+', stringa2)

<re.Match object; span=(0, 14), match='***Ciao\t\tmondo'>

**NB:** il metasimbolo `.` comprende tutto tranne `\n`.

---

**RIASSUMENDO...**

Una classe di caratteri viene rappresentata da:

    [characters]
    
cioè elencando i caratteri della classe in parentesi quadre.

**Scorciatoie per alcune classi frequentemente utilizzate**:

- `[0-9]`: qualsiasi cifra da 0 a 9 --> `\d`
- `[^0-9]`: tutto ciò che non è cifra da 0 a 9 --> `\D`
- `[a-zA-Z0-9_]`: qualsiasi simbolo di parola --> `\w`
- `[^a-zA-Z0-9_]`: tutto ciò che non è simbolo di parola --> `\W`
- `[␣\t\r\n\f]`: qualsiasi simbolo di spazio --> `\s`
- `[^␣\t\r\n\f]`: tutto ciò che non è simbolo di spazio --> `\S`
- `[^\n]`: qualsiasi simbolo tranne `\n` --> `.`

---

### Come specificare un raggruppamento

In [85]:
stringa = 'ZZZcaababbabbaabbbZZZZZcabababababZZZZZ'
print(stringa)

ZZZcaababbabbaabbbZZZZZcabababababZZZZZ


Catturare la sottostringa `cababababab` che è composta da una `c` seguita da un qualsivoglia numero di blocchi `ab`.

In [86]:
re.search(r'c[ab]+', stringa)

<re.Match object; span=(3, 18), match='caababbabbaabbb'>

In [87]:
re.search(r'c(ab)+', stringa)

<re.Match object; span=(23, 34), match='cababababab'>

---

### Come specificare un'alternativa

In [88]:
stringa1 = '***Gatto***'
stringa2 = '***Topo***'
stringa3 = '***Ratto***'

print(stringa1)
print(stringa2)
print(stringa3)

***Gatto***
***Topo***
***Ratto***


Riconoscere le sottostringhe `Gatto` o `Topo` ma non `Ratto`.

In [89]:
re.search(r'Gatto|Topo', stringa1)

<re.Match object; span=(3, 8), match='Gatto'>

In [90]:
re.search(r'Gatto|Topo', stringa2)

<re.Match object; span=(3, 7), match='Topo'>

In [91]:
re.search(r'Gatto|Topo', stringa3)

**NB:**: l'operatore `|` ha la precedenza più bassa. Per alterare il suo ordine di precedenza basta usare le parentesi tonde.

In [92]:
re.search(r'Gatt(o|T)opo', stringa1)

In [93]:
re.search(r'Gatt(o|T)opo', 'Gattoopo')

<re.Match object; span=(0, 8), match='Gattoopo'>

In [94]:
re.search(r'Gatt(o|T)opo', 'GattTopo')

<re.Match object; span=(0, 8), match='GattTopo'>

---

### Come catturare parti di un'occorrenza (*external backreference*)

In [27]:
stringa1 = '***Gatto Cane***'
stringa2 = '***Oca Ratto***'

print(stringa1)
print(stringa2)

***Gatto Cane***
***Oca Ratto***


Estrarre le due sottostringhe `Gatto` e `Cane` da `stringa1` e le due sottostringhe `Topo` e `Ratto` da `stringa2`.

In [28]:
m1 = re.search(r'(\w+)\s+(\w+)', stringa1)

In [29]:
m1.group(1)

'Gatto'

che inizia è finisce nelle posizioni:

In [30]:
(m1.start(1), m1.end(1)-1)

(3, 7)

In [123]:
m1.group(2)

'Cane'

che inizia è finisce nelle posizioni:

In [32]:
(m1.start(2), m1.end(2)-1)

(9, 12)

L'occorrenza intera è:

In [125]:
m1.group()

'Gatto Cane'

che inizia è finisce nelle posizioni:

In [33]:
(m1.start(), m1.end()-1)

(3, 12)

Per catturare tutte le occorrenze dei gruppi:

In [39]:
m1.groups()

('Gatto', 'Cane')

---

In [34]:
m2 = re.search(r'(\w+)\s+(\w+)', stringa2)

In [35]:
m2.group(1)

'Oca'

che inizia è finisce nelle posizioni:

In [36]:
(m2.start(1), m2.end(1)-1)

(3, 5)

In [132]:
m2.group(2)

'Ratto'

che inizia è finisce nelle posizioni:

In [37]:
(m2.start(2), m2.end(2)-1)

(7, 11)

L'occorrenza intera è:

In [134]:
m2.group()

'Oca Ratto'

che inizia è finisce nelle posizioni:

In [38]:
(m2.start(), m2.end()-1)

(3, 11)

Per catturare tutte le occorrenze dei gruppi:

In [40]:
m2.groups()

('Oca', 'Ratto')

**RIASSUMENDO...**

Il meccanismo che cattura, tramite raggruppamenti, parti di occorrenza prende il nome di ***backreference esterno***.

I raggruppamenti sono indicizzati da sinistra a destra a partire da 1.

La parte catturata da un raggruppamento viene restituita dal metodo `group()` dell'oggetto `Match`:

       match_obj.group(index)
       
dove l'argomento `index` è l'indice del raggruppamento da catturare. Se l'argomento non viene specificato, allora si assume l’indice di default 0 che corrisponde all'intera sottostringa catturata dalla RE.

L'inizio e la fine della parte catturata da un raggruppamento viene restituita dai metodi `start()` ed `end()`:

       match_obj.start(index)
       match_obj.end(index)
   
Se l'argomento non viene specificato, allora si assume l’indice di default 0 che corrisponde all'intera sottostringa catturata dalla RE.


---

### Come catturare parti di un'occorrenza da usare nella RE (*internal backreference*)

In [138]:
stringa1 = '***Cane Gatto***'
stringa2 = '***Gatto Gatto***'
stringa3 = '***Cane Cane***'

print(stringa1)
print(stringa2)
print(stringa3)

***Cane Gatto***
***Gatto Gatto***
***Cane Cane***


Catturare le sottostringhe composte da una stessa parola ripetuta due volte con in mezzo degli spazi.

In [139]:
re.search(r'\w+\s+\w+', stringa1)

<re.Match object; span=(3, 13), match='Cane Gatto'>

In [140]:
re.search(r'\w+\s+\w+', stringa2)

<re.Match object; span=(3, 14), match='Gatto Gatto'>

In [141]:
re.search(r'\w+\s+\w+', stringa3)

<re.Match object; span=(3, 12), match='Cane Cane'>

---

In [142]:
re.search(r'(\w+)\s+\1', stringa1)

In [143]:
re.search(r'(\w+)\s+\1', stringa2)

<re.Match object; span=(3, 14), match='Gatto Gatto'>

In [144]:
re.search(r'(\w+)\s+\1', stringa3)

<re.Match object; span=(3, 12), match='Cane Cane'>

**RIASSUMENDO...**

Il riferimento a raggruppamenti presenti nella RE da usare internamente all'operazione di matching prende il nome di ***backreference interno***. I riferimenti interni si rappresentano tramite i metasimboli \1 , \2 ,
\3 etc., dove \i si riferisce all'i-esimo raggruppamento a partire da sinistra.


---

### ESERCIZIO1

In [145]:
stringa = 'Cat cat Rat rat Bat bat'
print(stringa)

Cat cat Rat rat Bat bat


Estrarre la lista `['Cat', 'Rat', 'Bat']`.

In [146]:
re.findall(r'[A-Z]\w\w', stringa)

['Cat', 'Rat', 'Bat']

---

### ESERCIZIO2

In [147]:
stringa = 'cat dog mouse rat'
print(stringa)

cat dog mouse rat


Estrarre la lista `['cat dog', 'mouse rat']`.

In [148]:
re.findall(r'\w+\s+\w+', stringa)

['cat dog', 'mouse rat']

Aggiungere un gruppo a sinistra.

In [149]:
re.findall(r'(\w+)\s+\w+', stringa)

['cat', 'mouse']

Aggiungere un gruppo anche a destra.

In [150]:
re.findall(r'(\w+)\s+(\w+)', stringa)

[('cat', 'dog'), ('mouse', 'rat')]

---

### ESERCIZIO3

In [151]:
stringa = 'aaaaaaaabbbbcccccccccccccccccccccccc'
print(stringa)

aaaaaaaabbbbcccccccccccccccccccccccc


Estrarre la lista dei *runs* dei simboli `a`, `b` e `c`.

In [152]:
re.findall(r'a+|b+|c+', stringa)

['aaaaaaaa', 'bbbb', 'cccccccccccccccccccccccc']

---

### ESERCIZIO4

In [158]:
stringa = 'aaaaaaaabbpppbbcccccccccccddddeeeeccccccccccccc'
print(stringa)

aaaaaaaabbpppbbcccccccccccddddeeeeccccccccccccc


Estrarre la lista dei *runs* di qualsiasi simbolo.