<a href="https://colab.research.google.com/github/ProfAI/nlp00/blob/master/3%20-%20Le%20espressioni%20regolari/espressioni_regolari.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Usare le espressioni regolari con Python
In questo notebook vederemo come possiamo utilizzare le espressioni regolari (regex) con Python, per pulire il testo o/e estrarre informazioni da esso. 
<br>
Possiamo usare le espressioni regolari in Python con il modulo **re**, incluso nella Standard Library, importiamolo.

In [1]:
import re

### Ricerca di una sotto-stringa.
Possiamo effettuare una ricerca utilizzando la funzione *search* a cui dovremo passare il pattern da cercare e il testo in cui effettuare la ricerca.

In [3]:
text = "Questo corso di Natural Language Processing spacca !"

pattern = "corso" #cosa vogliamo cercare nella stringa
search_pattern = re.search(pattern, text)

print(type(search_pattern))

<class 're.Match'>


Il risultato è un'oggetto di tipo *SRE_Match* che contiene al suo interno gli indici di inizio e fine della sotto-stringa all'interno della stringa, possiamo accedervi con il metodo *span()*.

In [4]:
search_pattern.span()

(7, 12)

Come vedi in questo caso la parola *corso* inzia all'indice 7 della stringa che abbiamo definito e termina all'indice 12. L'ouput del metodo *span* è una tupla che contiene entrambi gli indici, possiamo anche accedere ai singoli indici usando i metodi *start()* ed *end*, quindi possiamo usare questi valori per estrarre la sottostringa dalla nostra stringa.

In [6]:
search_pattern.start()

7

In [7]:
search_pattern.end()

12

In [38]:
text[search_pattern.start():search_pattern.end()]

'corso'

Piuttosto che usare lo slicing come sopra è più conveniente usare il metodo *group()* che fa esattamente la stessa cosa.

In [8]:
search_pattern.group()

'corso'

Come abbiamo visto in precedenza possiamo fare questa stessa cosa con il metodo *find(pattern)* della classe *string* di Python, quindi perché utilizzare le espressioni regolari ? Perché con le espressioni regolari possiamo effettuare ricerche con pattern più generici, vediamo cosa vuol dire.

### Cercare un numero di telefono

Sappiamo che all'interno del nostro testo è presente un numero telefonico, ma non sappiamo qual è il numero esatto, possiamo inserire come termine della ricerca un numero generico utilizzando il carattere \d.

In [10]:
text = "Questo corso di Natural Language Processing spacca, è il miglior corso di sempre e per qualsiasi problema posso chiamare Giuseppe all 333 123 9876 (non è il mio vero numero)!"

# il pattern di un'espressione regolare
# si definisce con il carattere 'r' 
# prima della stringa

pattern = r'\d\d\d \d\d\d \d\d\d\d'

search_pattern = re.search(pattern, text)

search_pattern.group()

'333 123 9876'

Con il pattern definito nell'esempio abbiamo cercato tutte le sottostringhe che contengono 3 numeri, uno spazio, altri tre numeri, un'altro spazio e infine altri 4 numeri. Avremmo potuto utilizzare qualsiasi altro carattere al posto degli spazi.

In [11]:
text = "Questo corso di Natural Language Processing spacca, è il miglior corso di sempre e per qualsiasi problema posso chiamare Giuseppe all 333-1234-9876 (non è il mio vero numero)!"

pattern = r'\d\d\d-\d\d\d\d-\d\d\d\d'

search_pattern = re.search(pattern, text)

search_pattern.group()

'333-1234-9876'

Un modo più elegante per indicate questo pattern è utilizzando un quantificatore, per farlo basta inserire il numero di caratteri tra parentesi graffe.

In [12]:
text = "Questo corso di Natural Language Processing spacca, è il miglior corso di sempre e per qualsiasi problema posso chiamare Giuseppe all 333-123-9876 (non è il mio vero numero)!"
  
pattern = r'\d{3}-\d{3}-\d{4}'

search_pattern = re.search(pattern, text)

search_pattern.group()

'333-123-9876'

Il risultato è lo stesso.
<br><br>
Possiamo anche dividere il nostro pattern in gruppi, per sapare le sue componenti, semplicemente inserendole tra parentesi tonde.
<br>
Ad esempio nel nostro caso potremmo separare prefisso internazionale, prefisso nazionale e la restante parte del numero.

In [13]:
text = "Questo corso di Natural Language Processing spacca, è il miglior corso di sempre e per qualsiasi problema posso chiamare Giuseppe al +39 333-123-9876 (non è il mio vero numero)!"

pattern = r'(\d{2}) (\d{3})-(\d{3}-\d{4})'

search_pattern = re.search(pattern, text)

search_pattern.group()

'39 333-123-9876'

Per ottenere il singolo gruppo dobbiamo passarne l'indice al metodo *group*
<br>
**NOTA BENE**
<br>
L'indice 0 rappresenta l'intera stringa.

In [14]:
print(search_pattern.group(0)) # numero intero
print(search_pattern.group(1)) # prefisso internazionale
print(search_pattern.group(2)) # prefisso nazionale
print(search_pattern.group(3)) # numero

39 333-123-9876
39
333
123-9876


### Ricerca multipla
Effettuando una ricerca con il metodo *search* otterremo sempre e solo la prima occorrenza trovata, in caso volessimo cercare occorrenze multiple dobbiamo usare il metodo **findall**.

In [16]:
text = "Questo corso di Natural Language Processing spacca, è il miglior corso di sempre e per qualsiasi problema posso chiamare Giuseppe al +39 333-123-9876 oppure al numero di Elon: +39 380-432-9876."

pattern = r'(\d{2}) (\d{3})-(\d{3}-\d{4})'

search_pattern = re.findall(pattern, text)

type(search_pattern)
print(search_pattern)

[('39', '333', '123-9876'), ('39', '380', '432-9876')]


In [17]:
search_pattern[0]

('39', '333', '123-9876')

L'output è una lista di tutte le occorrenze trovate.

In [66]:
first_number = search_pattern[0]
print(type(first_number))

first_number = " ".join(first_number)
print(first_number)

<class 'tuple'>
39 333 123-9876


Se non siamo sicuri del numero di cifre possiamo specificare un limite del tipo \d{2,5} che cercherà qualsiasi stringa composta da  2 a 5 numeri.

In [207]:
text = "Questo corso di Natural Language Processing spacca, è il miglior corso di sempre e per qualsiasi problema posso chiamare Giuseppe al +39 333-1234-987 oppure al numero di Elon: +39 380-432-9876."

pattern = r'(\d{2}) (\d{3})-(\d{3,5}-\d{3,5})'

search_pattern = re.findall(pattern, text)

type(search_pattern)
print(search_pattern)

[('39', '333', '1234-987'), ('39', '380', '432-9876')]


Vediamo come possiamo creare un'espressione regolare per tirare fuori tutti gli indirizzi email presenti nel testo.
<br>
Per farlo possiamo semplicemente cercare la presenta di una @ e poi prendere tutti i caratteri che la precedono e che la seguono fino allo spazio.
<br>
Per cercare tutti i caratteri che non siano uno spazio possiamo usare il carattere \S seguito da un'altro quantificatore, il +.
<br>
Per comprendere il funzionamento del quantificatore + facciamo un esempio.

In [208]:
text = "Tanto va la gatta al lardo che ci lascia lo zampino"

print(re.findall(r'\S', text))
print(re.findall(r'\S+', text))

['T', 'a', 'n', 't', 'o', 'v', 'a', 'l', 'a', 'g', 'a', 't', 't', 'a', 'a', 'l', 'l', 'a', 'r', 'd', 'o', 'c', 'h', 'e', 'c', 'i', 'l', 'a', 's', 'c', 'i', 'a', 'l', 'o', 'z', 'a', 'm', 'p', 'i', 'n', 'o']
['Tanto', 'va', 'la', 'gatta', 'al', 'lardo', 'che', 'ci', 'lascia', 'lo', 'zampino']


Per cercare tutti i caratteri che non siano uno spazio possiamo usare il carattere \S, come vedi senza utilizzare il quntificatore + abbiamo ottenuto la lista di caratteri, mentre con il + la lista delle stringhe (ovvero tutti i caratteri fino al primo spazio).
<br><br>
**NOTA BENE**
<br>
Solitamente il maiuscolo e minuscolo nei caratteri delle espressioni regolari è utilizzato per indicare operazioni inverse, quindi ad esempio \s selezionerà uno spazio mentre \S selezionerà tutto ciò che non è uno spazio, possiamo anche esprimere una negazione con il carattere ^, quindi ^\s=\S
<br><br>
Adesso utilizziamo queste informazioni per estrarre gli indirizzi email da del testo.

In [20]:
text = "Per assistenza scrivi pure a support@profession.ai oppure se vuoi parlare direttamente con Giuseppe scrivi a giuseppe@profession.ai."
pattern = r"[a-z0-9]+@[a-z]+\.[a-z]{2,3}"
search_pattern = re.findall(pattern,text)
search_pattern

['support@profession.ai', 'giuseppe@profession.ai']

In [21]:
text = "Per assistenza scrivi pure a support@profession.ai oppure se vuoi parlare direttamente con Giuseppe scrivi a giuseppe@profession.ai."

pattern = r'\S+@\S+' #S: tutti i caratteri che non sono degli spazi

search_pattern = re.findall(pattern, text)

type(search_pattern)
print(search_pattern)

['support@profession.ai', 'giuseppe@profession.ai.']


### Rimozione e sostituzione
Possiamo anche utilizzare le espressioni regolari per "pulire" del testo, rimuovendo caratteri e pattern che non ci servono.
In tal caso dobbiamo racchiudere i caratteri da eliminare tra parentesi quadre e utilizzare il metodo **sub** che prende come input il pattern, una stringa con la quale sostituire i pattern trovati e il testo nella quale effettuare la ricerca.
<br>
Possiamo rimuovere i pattern semplicemente utilizzando una stringa vuota come secondo parametro.
<br>
Ad esempio, proviamo a rimuovere la punteggiatura.

In [22]:
text = "Questo corso di Natural Language Processing spacca, è il miglior corso di sempre (o almeno spero che lo sia...)"

pattern = r'[!.,]'

text = re.sub(pattern, '', text)

print(text)

Questo corso di Natural Language Processing spacca è il miglior corso di sempre (o almeno spero che lo sia)


Come vedi abbiamo rimosso tutti i caratteri di punteggiatura definit da noi, ma le parentesi tonde sono rimaste, perché ? Perché non avevamo specificato di rimuovere anche le parentesi tonde dal testo.
<br>
Un modo migliore per rimuovere la punteggiatura dal testo è usando questa espressione regolare **[^\w\s]**.
<br>
Il carattere \w rappresenta tutti i caratteri alfanumerici, mentre il \s rappresneta gli spazi, il ^ effettua una negazione, quindi la nostra espressione regolare selezionerà tutti i caratteri che non sono alfanumerici e che non sono spazi.


In [23]:
text = "Questo corso di Natural Language Processing spacca è il miglior corso di sempre (o almeno spero che lo sia...)"

pattern = r'[^\w\s]'

text = re.sub(pattern, '', text)

print(text)

Questo corso di Natural Language Processing spacca è il miglior corso di sempre o almeno spero che lo sia


In un notebook precedente abbiamo detto che avremmo potuto usare un'espressione regolare per rimuovere gli spazi multipli, l'espressione è la seguente

In [25]:
text = "   Questo        corso   di        Natural Language Processing spacca è     il miglior corso di sempre  (o     almeno spero che lo sia...)"
pattern= r' +'
text = re.sub(pattern, ' ', text)

print(text)

 Questo corso di Natural Language Processing spacca è il miglior corso di sempre (o almeno spero che lo sia...)


Come vedi abbiamo selezionato uno o più spazi e li abbiamo sostituiti con un unico spazio.

## Altri caratteri utili

In [27]:
text = "Questo corso di Natural Language Processing spacca è il miglior corso di sempre - Feedback di BestStudent95"

#### Matching per inizio-fine (\b)

In [28]:
# Selezioniamo tutte le stringhe che cominciano con il carattere 'c'
re.findall(r"\bc\w+", text)

['corso', 'corso']

In [29]:
# Selezioniamo tutte le stringhe che  con il terminano con il carattere 'o'
re.findall(r"\w+o\b", text)

['Questo', 'corso', 'corso']

### Ricerca per sets [ ] ( )

In [30]:
# Selezioniamo tutte le stringhe che contengono a,b o c al suo interno.
re.findall(r"\w+[abc]\w+", text)

['Natural', 'Language', 'Processing', 'spacca', 'Feedback']

In [31]:
# Selezioniamo tutte le parole uguali a 'corso' e 'spacca'
re.findall(r"(corso|spacca)", text)

['corso', 'spacca', 'corso']

In [32]:
# Selezioniamo tutte le parole che iniziano con una lettera da a a e.
re.findall(r"\b[a-e]\w+", text)

['corso', 'di', 'corso', 'di', 'di']

In [33]:
# Selezioniamo tutte le parole che contengono un numero tra 1 e 5
re.findall(r"\w*[0-5]\w*", text)

['BestStudent95']

L'operatore * è un'altro quantificatore che funziona in maniera simile al +, piuttosto che selezionare 1 o più occorrenze ne seleziona 0 o più, permettendoci di selezionare anche pattern che si trovano all'inizio o alla fine della parola.

## LINK UTILI

- https://medium.com/factory-mind/regex-tutorial-a-simple-cheatsheet-by-examples-649dc1c3f285
- https://docs.python.org/3/library/re.html
- https://www.w3schools.com/python/python_regex.asp