<a href="https://colab.research.google.com/github/gfgullo/AVSpeechSynthesizer-Example/blob/master/2%20-%20Operare%20su%20file%20di%20testo%20con%20Python/operare_sulle_stringhe.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Operare sulle stringhe in Python

In questo notebook vederemo alcune funzioni utili che Python ci mette a disposizione per operare sulle stringhe.
<br>

## Il tipo String
In Python una stringa è una sequenza di caratteri immutabile, cosa vuol dire questo ? Che possiamo accedere a elementi e sotto-sequenze di una stringa utilizzando **l'indexing** e lo **slicing** ma non possiamo modificarne i valori.

In [1]:
# Definiamo una stringa
my_string ="ProfessionAI spacca"
print(my_string)

# Stampiamo solo il primo carattere
print(my_string[0]) # indexing

# Stampiamo solo l'ultimo carattere
print(my_string[-1])

# Stampiamo i primi 3 caratteri
print(my_string[:3]) # slicing

# Stampiamo 4 e 5 carattere
print(my_string[3:5])

# Stampiam tutto tranne gli ultimi due caratteri
print(my_string[:-2])


ProfessionAI spacca
P
a
Pro
fe
ProfessionAI spac


Il tenativo di modificare uno o più caratteri di una stringa genererà un'eccezione.

In [2]:
my_string[0] = "F"

TypeError: ignored

Trattandosi di una sequenza possiamo conoscere il numero di elementi, e quindi di caratteri, che compongono una stringa utilizzando la funzione *len*.

In [3]:
len(my_string)

19

## Metodi utili

Come tutte i tipi buil-in di Python, le stringhe sono oggetti e quindi hanno dei metodi, puoi trovare la lista completa dei metodi [a questo link](https://www.w3schools.com/python/python_ref_string.asp), vediamo insieme i più utili. 
<br><br>
Possiamo convertire i caratteri di una stringa in minuscolo/maiuscolo utilizzando i metodi *lower/upper*.

In [6]:
my_string ="ProfessionAI spacca"

my_string_lower = my_string.lower()
print("Tutto minuscolo: %s" % my_string_lower)

my_string_upper = my_string.upper()
print("Tutto maiuscolo: %s" % my_string_upper)

Tutto minuscolo: professionai spacca
Tutto maiuscolo: PROFESSIONAI SPACCA


Possiamo dividere le parole in una stringa utilizzando il metodo *split()*, il risultato sarà una lista con le singole parole.

In [8]:
my_string = "Oggi è una stupenda giornata per studiare Natural Language Processing"

words_list = my_string.split()
print(words_list)
print(type(words_list))

['Oggi', 'è', 'una', 'stupenda', 'giornata', 'per', 'studiare', 'Natural', 'Language', 'Processing']
<class 'list'>


Possiamo anche dividere le stringhe per un **pattern** definito da noi, semplicemente passano tale pattern come argomento del metdo *split(pattern)*, ad esempio possiamo dividerla per frasi passando un punto.

In [13]:
my_string = "Oggi è una stupenda giornata per studiare Natural Language Processing. Poi c'è Giuseppe che è davvero bravo. Peccato che è antipatico"
sentences_list = my_string.split(".")

print(sentences_list)
print(type(sentences_list))

['Oggi è una stupenda giornata per studiare Natural Language Processing', " Poi c'è Giuseppe che è davvero bravo", ' Peccato che è antipatico']
<class 'list'>


Possiamo contare il numero di volte che una sotto-stringa compare in una stringa usando il metodo *count(substring)*

In [23]:
sub_count = my_string.count('è')
print("La parola 'è' compare %d volte" % sub_count)

La parola 'è' compare 4 volte


Possiamo sostituire una parola o una sotto-stringa della stringa utilizzando il metodo *replace(old, new)*, passandogli la sotto-stringa da sostituire e quella con la quale effettuare la sostituzione. Possiamo utilizzare questo stesso metodo per rimuovere una sotto-stringa dalla stringa passando una stringa vuota come secondo argomento.

In [16]:
# sostuiamo la parola 'Poi' con 'E'
# per tutte le occorrenze di 'Poi' nella stringa
my_string = my_string.replace("Poi","E")
print(my_string)

# Rimuoviamo tutte le occorrenze di 'che'
my_string = my_string.replace(" che","") # rimuoviamo anche lo spazio prima della parola
print(my_string)

Oggi è una stupenda giornata per studiare Natural Language Processing. E c'è Giuseppe è davvero bravo. Peccato è antipatico
Oggi è una stupenda giornata per studiare Natural Language Processing. E c'è Giuseppe è davvero bravo. Peccato è antipatico


Possiamo effettuare la ricerca di una parola o di una sotto-stringa utilizzando il metodo *find()* questo ritornerà l'indice della prima occorrenza del risultato, oppure -1 se non trova nulla. Possiamo utilizzare tale metodo in combinazione con lo slicing per estrarre una sottostringa dalla stringa.

In [20]:
start_index = my_string.find("E")
print("Occorrenza di 'E' trovata in posizione %d" % start_index)

my_substring = my_string[start_index:]
print(my_substring)

end_index = my_substring.find(".")
my_substring = my_substring[:end_index]
print(my_substring)

Occorrenza di 'E' trovata in posizione 71
E c'è Giuseppe è davvero bravo. Peccato è antipatico
E c'è Giuseppe è davvero bravo


Se invece vogliamo conoscere l'indice dell'ultima occorrenza possiamo usare il metodo *rfind()*.

In [30]:
my_string = "Occhio per occhio dente per dente"
print(my_string.find('dente')) # prima occorrenza
print(my_string.rfind('dente')) # ultima occorrenza b

18
28


Gli ultimi metodi, che potrebbero sembrare inutili ma che in realtà sono davvero utili quando operiamo su corpus di testo, sono *lstrip() e strip()*, che rispettivamente rimuovo gli spazi dall'inizio della stringa e dall'inizio e la fine della stringa.

In [28]:
string = "   Questo è un test  "
print('"'+string.lstrip()+'"')
print('"'+string.strip()+'"')

# ricorda di effettuare l'assegnazione
# per modificare la stringa
# string = string.strip()

"Questo è un test  "
"Questo è un test"


## Link utili
- https://www.w3schools.com/python/python_ref_string.asp