# Espressioni regolari

**Espressione regolare (RE)**: stringa di simboli che rappresenta un insieme di stringhe.

Un'espressione regolare è parte del modulo `re`.

In [2]:
import re

---

## Operazioni con le RE

    re.match(re_expr, string)

restituisce un oggetto di tipo `Match` se la stringa `string` contiene come prefisso (anche non proprio) una delle stringhe rappresentate dalla RE `re_expr`, altrimenti restituisce un oggetto di tipo `NoneType`.

    re.search(re_expr, string)

restituisce un oggetto di tipo `Match` se la stringa `string` contiene come sottostringa (anche non propria) una delle stringhe rappresentate dalla RE `re_expr`, altrimenti restituisce un oggetto di tipo `NoneType`.

    re.findall(re_expr, string)

restituisce la lista di tutte le occorrenze non sovrapposte delle stringhe rappresentate dalla RE `re_expr`, altrimenti restituisce un oggetto di tipo ?.

    re.finditer(re_expr, string)

restituisce la lista degli `re.Match` relativi a tutte le occorrenze non sovrapposte delle stringhe rappresentate dalla RE `re_expr`, altrimenti restituisce un oggetto di tipo ?.

    re.sub(re_expr, r_string, string)
    
restituisce la stringa ottenuta sostituendo con `r_string` tutte le occorrenze non sovrapposte di `re_expr` in `string`.

---

**ESEMPIO con `re.match()`**

In [3]:
stringa = 'dog and cat and rat'

Verifichiamo se la RE `cat` (che rappresenta l'unica stringa `cat`) occorre nella stringa come prefisso.

In [4]:
m = re.match(r'cat', stringa)
type(m)

NoneType

Proviamo ora con la RE `dog`.

In [5]:
m = re.match(r'dog', stringa)
m

<re.Match object; span=(0, 3), match='dog'>

I metodi `start()` ed `end()` permettono di accedere alla posizione di inizio e fine del prefisso catturato dall'operazione di matching.

In [8]:
m.start()

0

In [9]:
m.end()

3

Il prefisso catturato è accessibile tramite *slicing*:

In [10]:
stringa[m.start() : m.end()]

'dog'

---

**ESEMPIO con `re.search()`**

Verifichiamo se la RE `cat` (che rappresenta l'unica stringa `cat`) occorre nella stringa come sottostringa.

In [11]:
m = re.search(r'cat', stringa)
m

<re.Match object; span=(8, 11), match='cat'>

La sottostringa catturata è accessibile tramite *slicing*:

In [12]:
stringa[m.start() : m.end()]

'cat'

Verifichiamo a questo punto se la RE `dog` (che rappresenta l'unica stringa `dog`) occorre nella stringa come sottostringa.

In [13]:
m = re.search(r'dog', stringa)
m

<re.Match object; span=(0, 3), match='dog'>

La sottostringa catturata (di fatto un prefisso) è accessibile tramite *slicing*:

In [15]:
stringa[m.start() : m.end()]

'dog'

---

**ESEMPIO con `re.findall()`**

In [17]:
stringa = 'dog and rat and rat'

Catturiamo tutte le occorrenze non sovrapposte della RE `rat`.

In [18]:
re.findall(r'rat', stringa)

['rat', 'rat']

---

**ESEMPIO con `re.finditer()`**

In [17]:
stringa = 'dog and rat and rat'

Catturiamo tutte le occorrenze non sovrapposte della RE `rat`.

In [19]:
list(re.finditer(r'rat', stringa))

[<re.Match object; span=(8, 11), match='rat'>,
 <re.Match object; span=(16, 19), match='rat'>]

---

**ESEMPIO con `re.sub()`**

In [20]:
stringa = 'dog and cat and cat'

Sostituiamo tutte le occorrenze non sovrapposte della RE `cat` con la stringa `rat`.

In [21]:
re.sub(r'cat', 'rat', stringa)

'dog and rat and rat'

---

In [20]:
stringa = 'aaaaXXXXXXaaaaa'

'aaaaYXXaaaaa'

Sostituiamo tutte le occorrenze non sovrapposte della RE `XXXX` con la stringa `Y`.

In [20]:
re.sub(r'XXXX', 'Y', stringa)

'aaaaYXXaaaaa'

---

In [22]:
stringa = 'aaaaXXXXXXXXaaaaa'

Sostituiamo tutte le occorrenze non sovrapposte della RE `XXXX` con la stringa `Y`.

In [23]:
re.sub(r'XXXX', 'Y', stringa)

'aaaaYYaaaaa'

---

---
---

### ESERCIZIO1

In [44]:
stringa = 'XXbatXXX\nYYYYYbat\nbatZZZZZ'
print(stringa)

XXbatXXX
YYYYYbat
batZZZZZ


Catturiamo l'occorrenza di `bat` vincolata ad essere all'inizio di una riga, aggiungendo il flag `re.M` che forza a interpretaere `stringa` su più righe.

In [45]:
re.search(r'^bat', stringa, re.M)

<re.Match object; span=(18, 21), match='bat'>

Catturiamo l'occorrenza di `bat` vincolata ad essere alla fine di una riga.

In [46]:
re.search(r'bat$', stringa, re.M)

<re.Match object; span=(14, 17), match='bat'>

---

In [36]:
stringa = 'batXXXXX\nYYYYYbat\nbatZZZZZ'
print(stringa)

batXXXXX
YYYYYbat
batZZZZZ


Catturiamo l'occorrenza di `bat` vincolata ad essere all'inizio della stringa (cioé all'inizio della **prima** riga).

In [33]:
re.search(r'\Abat', stringa, re.M)

<re.Match object; span=(0, 3), match='bat'>

---

In [37]:
stringa = 'batXXXXX\nYYYYYbat\nZZZZZbat'
print(stringa)

batXXXXX
YYYYYbat
ZZZZZbat


Catturare l'occorrenza della sottostringa `bat` vincolata ad essere alla fine della stringa (cioé alla fine dell'**ultima** riga).

In [38]:
re.search(r'bat\Z', stringa, re.M)

<re.Match object; span=(23, 26), match='bat'>

---

In [41]:
stringa = 'batXXXXX\nYYYYYbat\nZZZZZbat\n'
print(stringa)

batXXXXX
YYYYYbat
ZZZZZbat



Il metasimbolo `\Z` rappresenta la fine della stringa eventualmente prima di un `\n`.

In [43]:
m = re.search(r'bat\Z', stringa, re.M)
type(m)

NoneType

---

### ESERCIZIO2

In [48]:
stringa = 'This cat is a cat'
print(stringa)

This cat is a cat


Catturiamo l'occorrenza della parola `is` (verbo inglese) nella frase.

**NOTA BENE**:
- **parola in Python**: sequenza di lettere maiuscole o minuscole, cifre da 0 a 9 e simbolo `_`
- **confine di parola in Python**: elemento di dimensione nulla tra un simbolo di parola e un "non simbolo" di parola

Catturare l'occorrenza della parola `is` (verbo inglese) nella frase significa catturare la sottostringa `is` purché alla sua sinistra ci sia un confine di parola.

In [49]:
re.search(r'\bis', stringa)

<re.Match object; span=(9, 11), match='is'>

Catturare ora la sottostringa `is` purché alla sua sinistra **non** ci sia un confine di parola.

In [51]:
re.search(r'\Bis', stringa)

<re.Match object; span=(2, 4), match='is'>

Catturare infine la sottostringa `is` purché alla sua destra ci sia un confine di parola.

In [52]:
re.search(r'is\b', stringa)

<re.Match object; span=(2, 4), match='is'>

---

**RIASSUMENDO...**
- `^`: metasimbolo che rappresenta l'inizio di riga
- `$`: metasimbolo che rappresenta la fine di riga
- `\A`: metasimbolo che rappresenta l'inizio di stringa
- `\Z`: metasimbolo che rappresenta la fine di stringa
- `\b`: confine di parola
- `\B`: negazione del confine di parola

prendono il nome di **ancore**.

---

### ESERCIZIO3

In [53]:
stringa = 'ZZZcaaaaaZZZZZ'
print(stringa)

ZZZcaaaaaZZZZZ


Catturare la sottostringa `caaaaa`.

In [54]:
re.search(r'caaaaa', stringa)

<re.Match object; span=(3, 9), match='caaaaa'>

Si aggiungano dei simboli `a` alla stringa e catturare la sottostringa indipendentemente dal numero di `a` che seguono `c`.

In [57]:
stringa = 'ZZZcaaaaaaaaaZZZZZ'
print(stringa)

ZZZcaaaaaaaaaZZZZZ


Per catturare una sottostringa composta da `c` seguita da un qualsivoglia numero di `a` (almeno una ripetizione) basta usare il quantificatore `+` che quantifica in 1 o più volte il simbolo precedente.

In [61]:
re.search(r'ca+', stringa)

<re.Match object; span=(3, 29), match='caaaaaaaaaaaaaaaaaaaaaaaaa'>

Se si cambia stringa:

In [62]:
stringa = 'ZZZcaaaaaaaaaaaaaaaaaaaaaaaaaZZZZZ'
print(stringa)

ZZZcaaaaaaaaaaaaaaaaaaaaaaaaaZZZZZ


In [63]:
re.search(r'ca+', stringa)

<re.Match object; span=(3, 29), match='caaaaaaaaaaaaaaaaaaaaaaaaa'>

---

In [65]:
stringa = 'ZZZcaaaaaaaZZZcaaaaaaaaaaaaaaaaaaaaaaaaaZZZZZ'
print(stringa)

ZZZcaaaaaaaZZZcaaaaaaaaaaaaaaaaaaaaaaaaaZZZZZ


In [66]:
re.search(r'ca+', stringa)

<re.Match object; span=(3, 11), match='caaaaaaa'>

**NOTA BENE**: il comportamento dell'operazione di matching è greedy: trova la prima occorrenza a sinistra e la estende il più possibile a destra.

Per limitare l'estensione il più possibile a sinistra, basta aggiungere un simbolo `?` dopo il quantificatore.

In [67]:
re.search(r'ca+?', stringa)

<re.Match object; span=(3, 5), match='ca'>

---

Usiamo ora il quantificatore `*` che quantifica in 0 o più volte il simbolo precedente.

In [68]:
print(stringa)

ZZZcaaaaaaaZZZcaaaaaaaaaaaaaaaaaaaaaaaaaZZZZZ


In [69]:
re.search(r'ca*', stringa)

<re.Match object; span=(3, 11), match='caaaaaaa'>

Se viene aggiunto `?` dopo `*`:

In [70]:
re.search(r'ca*?', stringa)

<re.Match object; span=(3, 4), match='c'>

Attenzione al quantificatore `*`...

In [73]:
stringa = 'ZZZcZZZcaaaaaaaaaaaaaaaaaaaaaaaaaZZZZZ'
print(stringa)

ZZZcZZZcaaaaaaaaaaaaaaaaaaaaaaaaaZZZZZ


In [74]:
re.search(r'ca*', stringa)

<re.Match object; span=(3, 4), match='c'>

Il simbolo `?`, subito dopo un simbolo, è un quantificatore che rappresenta 0 oppure 1 occorrenza del simbolo.

In [75]:
re.search(r'ca?', stringa)

<re.Match object; span=(3, 4), match='c'>

In [76]:
stringa = 'ZZZcaaaZZZcaaaaaaaaaaaaaaaaaaaaaaaaaZZZZZ'
print(stringa)

ZZZcaaaZZZcaaaaaaaaaaaaaaaaaaaaaaaaaZZZZZ


In [77]:
re.search(r'ca?', stringa)

<re.Match object; span=(3, 5), match='ca'>

---

**RIASSUMENDO...:**
- `+`: quantificatore per 1 o più occorrenze del simbolo precedente
- `*`: quantificatore per 0 o più occorrenze del simbolo precedente
- `?`: quantificatore per 0 o 1 occorrenza del simbolo precedente

Inoltre:

- `{m,n}`: da `m` a `n` occorrenze
        `{0,1}` equivale a `?`
- `{m,}`: almeno `m` occorrenze 
        `{1,}` equivale a `+`
        `{0,}` equivale a `*`
- `{,n}`: al più `n` occorrenze 
- `{m}`: esattamente `m` occorrenze 

---

### ESERCIZIO4

In [78]:
stringa = 'ZZZcaababbabbaabbbZZZZZ'
print(stringa)

ZZZcaababbabbaabbbZZZZZ


Catturare la sottostringa `cabbabbabbaabbb` che è composta da una `c` seguita da un qualsivoglia numero di caratteri purché siano `a` oppure `b`.

Si deve usare la classe dei caratteri `a` e `b` --> `[ab]`.

In [79]:
re.search(r'c[ab]+', stringa)

<re.Match object; span=(3, 18), match='caababbabbaabbb'>

---

**RIASSUMENDO...**

Una classe di caratteri viene rappresentata da:

    [characters]
    
cioè elencando i caratteri della classe in parentesi quadre.

**Scorciatoie per alcune classi frequentemente utilizzate**:

- `[0-9]`: qualsiasi cifra da 0 a 9 --> `\d`
- `[^0-9]`: tutto ciò che non è cifra da 0 a 9 --> `\D`
- `[a-zA-Z0-9_]`: qualsiasi simbolo di parola --> `\w`
- `[^a-zA-Z0-9_]`: tutto ciò che non è simbolo di parola --> `\W`
- `[␣\t\r\n\f]`: qualsiasi simbolo di spazio --> `\s`
- `[^␣\t\r\n\f]`: tutto ciò che non è simbolo di spazio --> `\S`
- `[^\n]`: qualsiasi simbolo tranne `\n` --> `.`

---

### ESERCIZIO5

In [80]:
stringa = 'ZZZcaababbabbaabbbZZZZZcabababababZZZZZ'
print(stringa)

ZZZcaababbabbaabbbZZZZZcabababababZZZZZ


Catturare la sottostringa `cababababab` che è composta da una `c` seguita da un qualsivoglia numero di blocchi `ab`.

In [81]:
re.search(r'c(ab)+', stringa)

<re.Match object; span=(23, 34), match='cababababab'>

---

**RIASSUMENDO...**

Una raggruppamento è una porzione di RE racchiusa tra parentesi tonde.

---

### ESERCIZIO6

In [82]:
stringa1 = '***Hello         world***'
stringa2 = '***Ciao   mondo***'

print(stringa1)
print(stringa2)

***Hello         world***
***Ciao   mondo***


Ottenere le stringhe `Hello world` dalla `stringa1` e `Ciao mondo` da `stringa2` (con un solo spazio nel mezzo), utilizzando la stessa RE.

In [83]:
m1 = re.search(r'\w+\s+\w+', stringa1)
m1

<re.Match object; span=(3, 22), match='Hello         world'>

In [84]:
m2 = re.search(r'\w+\s+\w+', stringa2)
m2

<re.Match object; span=(3, 15), match='Ciao   mondo'>

In [85]:
re.sub(r'\s+', ' ', stringa1[m1.start():m1.end()])

'Hello world'

In [86]:
re.sub(r'\s+', ' ', stringa2[m2.start():m2.end()])

'Ciao mondo'

---

### ESERCIZIO7

In [87]:
stringa = '***Hello world***\n***Ciao mondo***'

print(stringa)

***Hello world***
***Ciao mondo***


Catturare la prima riga `***Hello world***` della stringa.

In [88]:
re.search(r'.+', stringa)

<re.Match object; span=(0, 17), match='***Hello world***'>

---

### ESERCIZIO8

In [89]:
stringa1 = '***Gatto***'
stringa2 = '***Topo***'
stringa3 = '***Ratto***'

print(stringa1)
print(stringa2)
print(stringa3)

***Gatto***
***Topo***
***Ratto***


Determinare la RE che permetta di catturare le sottostringhe `Gatto` o `Topo` ma non `Ratto`.

In [90]:
m1 = re.search(r'Gatto|Topo', stringa1)
m1

<re.Match object; span=(3, 8), match='Gatto'>

In [91]:
m2 = re.search(r'Gatto|Topo', stringa2)
m2

<re.Match object; span=(3, 7), match='Topo'>

In [93]:
m3 = re.search(r'Gatto|Topo', stringa3)
type(m3)

NoneType

L'operatore `|` ha la precedenza più bassa nella RE. Per alterare il suo ordine di precedenza basta usare le parentesi tonde.

In [100]:
m4 = re.search(r'Gatt(o|T)opo', '***Gattoopo***')
m4

<re.Match object; span=(3, 11), match='Gattoopo'>

In [101]:
m5 = re.search(r'Gatt(o|T)opo', '***GattTopo***')
m5

<re.Match object; span=(3, 11), match='GattTopo'>

In [98]:
m6 = re.search(r'Gatt(o|T)opo', '***Gatto***')
type(m6)

NoneType

In [99]:
m6 = re.search(r'Gatt(o|T)opo', '***Topo***')
type(m6)

NoneType

---

### ESERCIZIO9

In [102]:
stringa1 = '***Gatto Cane***'
stringa2 = '***Topo Ratto***'

print(stringa1)
print(stringa2)

***Gatto Cane***
***Topo Ratto***


Estrarre le due sottostringhe `Gatto` e `Cane` da `stringa1` e le due stringhe `Topo` e `Ratto` da `stringa2`, utilizzando la stessa RE.

In [114]:
m1 = re.search(r'(\w+)\s+(\w+)', stringa1)
m1

<re.Match object; span=(3, 13), match='Gatto Cane'>

In [115]:
m1.group(1)

'Gatto'

che inizia in posizione:

In [123]:
m1.start(1)

3

In [125]:
m1.group(2)

'Cane'

In [126]:
m1.start(2)

9

Occorrenza intera:

In [117]:
m1.group()

'Gatto Cane'

In [123]:
m1.start()

3

In [118]:
m2 = re.search(r'(\w+)\s+(\w+)', stringa2)
m2

<re.Match object; span=(3, 13), match='Topo Ratto'>

In [119]:
m2.group(1)

'Topo'

In [123]:
m2.start(1)

3

In [120]:
m2.group(2)

'Ratto'

In [123]:
m2.start(2)

3

Occorrenza intera:

In [122]:
m2.group()

'Topo Ratto'

In [123]:
m2.start()

3

Per catturare tutti i gruppi:

In [101]:
m1.groups()

('Gatto', 'Cane')

In [102]:
m2.groups()

('Topo', 'Ratto')

---

### RIASSUMENDO...

Il meccanismo che cattura di parti dell'occorrenza relative a raggruppamenti presenti nella RE da usare all'esterno dell'operazione di *matching*/*searching* prende il nome di **backreference esterno**.

I **raggruppamenti sono indicizzati** da sinistra a destra nella RE a partire da 1.

La parte catturata relativa a un raggruppamento viene restituita dal metodo `group()`. dell'oggetto `Match`:

    match_obj.group(index)

prende come argomento l'indice del raggruppamento da catturare.
Se l'argomento non viene specificato, allora si assume l’indice di default 0 che corrisponde all'intera sottostringa di matching relativa alla RE.

L'inizio e la fine della parte catturata per un raggruppamento viene restituita dai metodi `start()` ed `end()`.

    match_obj.start(index)
    match_obj.end(index)

prendono come argomenti l'indice del raggruppamento da catturare.
Se l'argomento non viene specificato, allora si assume l’indice di default 0 che corrisponde all'intera sottostringa di matching relativa alla RE.

---

### ESERCIZIO10

In [129]:
stringa1 = '***Cane Gatto***'
stringa2 = '***Gatto Gatto***'
stringa3 = '***Cane Cane***'

print(stringa1)
print(stringa2)
print(stringa3)

***Cane Gatto***
***Gatto Gatto***
***Cane Cane***


Catturare le sottostringhe composte da una stessa parola ripetuta due volte con in mezzo uno spazio.

In [130]:
m1 = re.search(r'(\w+)\s+\1', stringa1)
type(m1)

NoneType

In [131]:
m2 = re.search(r'(\w+)\s+\1', stringa2)
m2

<re.Match object; span=(3, 14), match='Gatto Gatto'>

In [132]:
m2.group(1)

'Gatto'

In [134]:
m3 = re.search(r'(\w+)\s+\1', stringa3)
m3

<re.Match object; span=(3, 12), match='Cane Cane'>

In [135]:
m3.group(1)

'Cane'

---

### RIASSUMENDO...

Il meccanismo di riferimento nella RE a raggruppamenti presenti nella RE stessa da usare internamente all'operazione di *matching*/*searching* prende il nome di **backreference interno**.
I riferimenti interni si rappresentano tramite i metasimboli `\1`, `\2`, `\3` etc., dove `\i`si riferisce all'i-esimo raggruppamento a partire da sinistra.

**Esempio**: la RE `(\w+)\1` è equivalente a `(\w+)(\w+)` con il vincolo che le due parti `(\w+)` e `(\w+)` corrispondano alla stessa sottostringa.

In [111]:
m = re.search(r'(\w+)\1', 'Mississippi')
m

<re.Match object; span=(1, 7), match='ississ'>

L'intera occorrenza è:

In [112]:
m.group()

'ississ'

La parte catturata dal raggruppamento di sinistra è:

In [113]:
m.group(1)

'iss'

---

### ESERCIZIO11

In [136]:
stringa = 'aaabbbcccdddeeefff'

print(stringa)

aaabbbcccdddeeefff


Si separi la stringa in fattori di lunghezza 3.

In [137]:
re.findall(r'\w{3}', stringa)

['aaa', 'bbb', 'ccc', 'ddd', 'eee', 'fff']

Versione con `finditer()`:

In [138]:
list(re.finditer(r'\w{3}', stringa))

[<re.Match object; span=(0, 3), match='aaa'>,
 <re.Match object; span=(3, 6), match='bbb'>,
 <re.Match object; span=(6, 9), match='ccc'>,
 <re.Match object; span=(9, 12), match='ddd'>,
 <re.Match object; span=(12, 15), match='eee'>,
 <re.Match object; span=(15, 18), match='fff'>]

---

### ESERCIZIO12

In [140]:
stringa = 'Cat cat Rat rat Bat bat'

print(stringa)

Cat cat Rat rat Bat bat


Si ottenga la lista `['Cat', 'Rat', 'Bat']`.

In [141]:
re.findall(r'[A-Z]\w\w', stringa)

['Cat', 'Rat', 'Bat']

---

### ESERCIZIO13

In [142]:
stringa = 'cat dog mouse rat'

print(stringa)

cat dog mouse rat


Vediamo come la lista restituita da `findall()` si modifica inserendo raggruppamenti.

In [143]:
re.findall(r'\w+\s+\w+', stringa)

['cat dog', 'mouse rat']

In [144]:
re.findall(r'(\w+)\s+\w+', stringa)

['cat', 'mouse']

In [145]:
re.findall(r'(\w+)\s+(\w+)', stringa)

[('cat', 'dog'), ('mouse', 'rat')]

In [146]:
re.findall(r'((\w+)\s+(\w+))', stringa)

[('cat dog', 'cat', 'dog'), ('mouse rat', 'mouse', 'rat')]

---

Usiamo invece `re.finditer()` con l'ultima RE.

In [151]:
m_list = list(re.finditer(r'((\w+)\s+(\w+))', stringa))
m_list

[<re.Match object; span=(0, 7), match='cat dog'>,
 <re.Match object; span=(8, 17), match='mouse rat'>]

Accediamo alle sottostringhe catturate dai gruppi del primo oggetto di matching.

In [153]:
m_list[0].groups()

('cat dog', 'cat', 'dog')

---

### ESERCIZIO14

In [154]:
stringa = 'aaaaaaaabbbbcccccccccccccccccccccccc'

print(stringa)

aaaaaaaabbbbcccccccccccccccccccccccc


Si ottenga la lista dei *runs* dei simboli `a`, `b` e `c`.

In [156]:
re.findall(r'a+|b+|c+', stringa)

['aaaaaaaa', 'bbbb', 'cccccccccccccccccccccccc']

**Trovare i *runs* di qualsiasi simbolo**:

In [172]:
stringa = 'aaaaaaaabbpppbbcccccccccccddddeeeeccccccccccccc'
print(stringa)

aaaaaaaabbpppbbcccccccccccddddeeeeccccccccccccc


**Alternativa1**

In [173]:
l1 = re.findall(r'(.)(\1*)', stringa)
l1

[('a', 'aaaaaaa'),
 ('b', 'b'),
 ('p', 'pp'),
 ('b', 'b'),
 ('c', 'cccccccccc'),
 ('d', 'ddd'),
 ('e', 'eee'),
 ('c', 'cccccccccccc')]

In [174]:
list_of_runs = [first_char+suffix for (first_char, suffix) in l1]

In [175]:
list_of_runs

['aaaaaaaa', 'bb', 'ppp', 'bb', 'ccccccccccc', 'dddd', 'eeee', 'ccccccccccccc']

**Alternativa2**

In [176]:
l2 = re.findall(r'((.)\2*)', stringa)
l2

[('aaaaaaaa', 'a'),
 ('bb', 'b'),
 ('ppp', 'p'),
 ('bb', 'b'),
 ('ccccccccccc', 'c'),
 ('dddd', 'd'),
 ('eeee', 'e'),
 ('ccccccccccccc', 'c')]

In [177]:
list_of_runs = [run for (run, first_char) in l2]

In [178]:
list_of_runs

['aaaaaaaa', 'bb', 'ppp', 'bb', 'ccccccccccc', 'dddd', 'eeee', 'ccccccccccccc']