#### Autori: Domenico Lembo, Giuseppe Santucci and Marco Schaerf

[Dipartimento di Ingegneria informatica, automatica e gestionale](https://www.diag.uniroma1.it)

<img src="https://mirrors.creativecommons.org/presskit/buttons/88x31/png/by-nc-sa.eu.png"
     alt="License"
     style="float: left;"
     height="40" width="100" />
This notebook is distributed with license Creative Commons *CC BY-NC-SA*

# Stringhe
1. Caratteri speciali (Escape characters)
2. Accesso al singolo carattere di una stringa
3. Funzioni e metodi su stringhe (`len()`, `lower()`, `upper()`, `count()`, `find()`,  `rfind()`, `replace()`, `str()`,`strip()`)
4. Funzioni `ord()` e `chr()`
5. Slicing di stringhe
6. Uso avanzato di replace
7. Non modificabilità delle stringhe

### Caratteri speciali in Python (escape characters)
In Python ci sono alcuni caratteri speciali *non stampabili* ma che corrispondono a comandi di impaginazione. Essi sono rappresentati internamente come singoli caratteri, ma vengono denotati da una sequenza che inizia con il simbolo \ (backslash). I più comunemente utilizzati sono:

* `\n` Newline, quando stampato provoca l'andata a riga nuova
* `\t` Tab, quando stampato provoca l'inserimento di spazi (tabulazione)
* `\b` Backspace, quando stampato provoca la cancellazione del carattere precedente, denotato anche come `\x08`  
**NOTA BENE: nella versione attuale di Python (3.10.7) il \b semra non funzionare in modo corretto.**


Ci sono poi delle sequenze particolari che servono per denotare caratteri o situazioni speciali, ma che NON sono rappresentati come caratteri nella tabella UNICODE:


* `\'` Serve per stampare il carattere ' (che altrimenti verrebbe interpretato come inizio stringa)
* `\"` Serve per stampare il carattere " (che altrimenti verrebbe interpretato come inizio stringa)
* `\\` Serve per stampare il carattere \ (che altrimenti verrebbe interpretato come inizio carattere speciale)

* N.B. i caratteri di controllo, anche se NON vengono stampati, fanno parte della stringa 

* Infine, `\`  indica la continuazione della riga, quando si va a capo scrivendo una istruzione Python. NON fa parte della stringa o dellla istruzione in cui compare e NON può separare nomi di funzione e di variabili


In [5]:
print(5,\
      6)  

5 6


In [None]:
prin\
t(5,6)

In [1]:
x = 'prima \
prova\b \n\ndi una \t riga nuova con tabulazione e caratteri speciali \', \" e \\'
x

'prima prova\x08 \n\ndi una \t riga nuova con tabulazione e caratteri speciali \', " e \\'

Notate che, per queste stringhe, si ottiene un risultato diverso se visualizziamo il valore della variabile (come sopra) oppure lo stampiamo con la funzione print(), come sotto. Nel primo caso i caratteri speciali sono presenti nella stringa, nel secondo vengono eseguiti, ma non compaiono più.

In [None]:
x = 'prima \
prova\b \n\ndi una \t riga nuova con tabulazione e caratteri speciali \', \" e \\'
print(x)

### Accesso al singolo carattere di una stringa
In Python le stringhe sono delle sequenze di caratteri ed ogni carattere della stringa è caratterizzato dalla sua posizione nella stringa. Ad esempio, nel caso della stringa s = 'palla':

p|a|l|l|a
---|---|---|---|---
0|1|2|3|4

abbiamo una stringa composta di 5 caratteri, le cui posizioni vanno da 0 a 4. Se si vuole accedere ad un singolo carattere (ad esempio in posizione 1) della stringa la notazione è s[1].

In [None]:
s = 'palla'
s[1]

Se proviamo ad accedere ad una posizione non presente nella stringa otteniamo un errore

In [None]:
s = 'palla'
s[5]

### Funzioni e metodi su stringhe
Sulle stringhe ci sono molte funzioni (e metodi) già definite. I metodi sono funzioni speciali (funzioni delle classi) che si usano in modo leggermente diverso, come vedremo negli esempi successivi.

#### funzione `len()`
La funzione `len()` applicata ad una stringa restituisce la lunghezza della stringa (numero di caratteri, compresi gli spazi e i caratteri speciali che contano come un singolo carattere). Ad esempio, l'istruzione

`len('palla')`

restituisce `5`. 

`len('pal\tla')` e 

`len('palla ')`

restituiscono entrambe `6`.

Ovviamente, se la stringa in input è vuota, cioè eseguiamo `len('')`, la funzione restituisce `0`

In [None]:
s = 'Pallone\tBianco\nrotto!'
print('La stringa vale:',s)
print('La sua lunghezza è:',len(s))

Notate la differenza con quest'altra situazione, ogni spazio occupa 1 posizione

In [6]:
s = 'Pallone \t Bianco \n rotto!'
print('La stringa vale:',s)
print('La sua lunghezza è:',len(s))
print(s[8],s[10])

La stringa vale: Pallone 	 Bianco 
 rotto!
La sua lunghezza è: 25
	 B


#### metodo `lower()`
Il metodo `lower()` serve per convertire in minuscolo tutti i caratteri alfabetici della stringa. Essendo un metodo, non una funzione, si usa in modo leggermente diverso, cioè se vogliamo applicarlo ad una variabile di tipo stringa `s`, scriviamo `s.lower()`. *Notate che questa istruzione NON modifica il valore di `s`*, ma costruisce una nuova stringa. Infatti, se stampate il valore di `s` dopo aver eseguito l'istruzione `s.lower()` vedete che `s` NON è cambiata. 

In [None]:
s = 'Pallone bianco di Paolo, non tuo!'
print('La stringa vale:',s)
print('La sua lunghezza è:',len(s))
print('La stringa in minuscolo è:',s.lower())

#### metodo `upper()`
il metodo `upper()` converte in maiuscolo tutti i caratteri alfabetici della stringa. Anche lui NON modifica il valore di `s`

In [None]:
print('La stringa vale:',s)
print('La stringa in maiuscolo è:',s.upper())

#### metodo `count()`
Il metodo `count()` conta quante volte un carattere (o più in generale un'altra stringa) compare nella stringa. Ad esempio, se voglio sapere quante `'a'` compaiono nella stringa `s` scrivo `s.count('a')`

In [8]:
s = 'Pallone bianco di Paola'
print('La stringa vale:',s)
print(s.count('a'))
print(s.count(' '))

La stringa vale: Pallone bianco di Paola
4
3


Possiamo anche vedere quante volte una stringa (di più di un carattere) compare in un'altra

In [9]:
print(s.count('lo'))
print(s.count('ca'))

1
0


Notate che nel seguente caso la risposta è 1, poiché non si possono usare 2 volte pezzi di stringa

In [None]:
s1 = 'lololo'
s1.count('lolo')

Come caso particolare, quante volte la stringa vuota ('') compare all'interno di una stringa? Non c'è una soluzione ovvia, Python usa una convenzione, cioè:

In [10]:
s='casa'
print(s.count(''),len(s))

5 4


#### metodi `find()` e `rfind()`
Il metodo `find()` trova la *prima posizione* in cui si trova un carattere (o più in generale un'altra stringa) all'interno della stringa. Ad esempio, se nella stringa `s = 'palla'` cerchiamo il carattere `'a'` (l'istruzione è `s.find('a')`) otteniamo come risultato `1` (posizione della prima `'a'` in `'palla'`). Se il carattere non compare nella stringa, il metodo restituisce il valore `-1`. Il metodo `rfind()` funziona come il metodo `find()`, ma trova la prima occorrenza *partendo dalla fine della stringa* (`rfind()` vuol dire right find, ricerca da destra). 

In [12]:
s = 'Pallone bianco di Paolo'
print('La stringa vale:',s)
print(s.find('o'))
print(s.rfind('o'))

La stringa vale: Pallone bianco di Paolo
4
22


Se il carattere/stringa da cercare non compare nella stringa, allora la find restituisce il valore -1

In [None]:
s.find('lolo')

#### metodo `replace()`
Il metodo replace sostituisce all'interno della stringa un carattere (o più in generale un'altra stringa) con un altro carattere (o più in generale un'altra stringa). Ad esempio, sostituendo nella stringa `s = 'palla'` le `'a'` con `'e'` (l'istruzione è `s.replace('a','e')`) otteniamo come risultato `'pelle'`. *Notate che anche questa istruzione NON modifica il valore di s*, ma costruisce una nuova stringa. Infatti, se stampate il valore di `s` dopo aver eseguito il metodo replace vedete che s NON è cambiata. Notiamo infine che se il carattere (o stringa) da sostituire non occorre nella stringa iniziale, la stringa restituita è uguale alla stringa iniziale. Se usate come terzo argomento un numero intero, potete stabilire il numero di sostituizioni da effettuare (da sinistra a destra, oppure da destra a sinistra nel caso di `rfind`).

In [24]:
s = 'Pallone bianco di Paolo'
print('s=',s)
print(s.replace('l','r'))   #sostituisce tutte le occorrenze di 'l' con 'r'
print(s.replace('l','r',2)) #sostituisce solo le prime due occorrenze
print('s=',s)

s= Pallone bianco di Paolo
Parrone bianco di Paoro
Parrone bianco di Paolo
s= Pallone bianco di Paolo


Si possono anche sostituire stringhe con altre stringhe, anche di lunghezza diversa tra di loro

In [20]:
s = 'Pallone bianco di Paolo'
print(s.replace('Pa','Colla'))

Collallone bianco di Collaolo
Collallone bianco di Paolo


E' anche possibile sostituire un carattere (o una stringa) con la stringa vuota ''. Questo equivale a cancellare il carattere/stringa

In [28]:
s = 'Pallone bianco di Paolo'
s.replace('a','')

'Pllone binco di Polo'

#### funzione `str()`
Quando si ha l'esigenza di trasformare un dato in stringa, bisogna usare la funzione `str()` che trasforma in stringa un dato di qualunque tipo. La funzione `str()` è spesso utile, ad esempio, all'interno della funzione `print()` per stampare un'unica stringa composta da molte informazioni anche di tipo diverso.

In [29]:
giorno = 12
mese = 10
anno = 2010
print(giorno,'/',mese,'/',anno)

12 / 10 / 2010


Come vedete la stampa non è precisa perché contiene degli spazi in più. Un'alternativa è di transformare le variabili intere in stringhe e poi concatenarle con il +

In [None]:
print(str(giorno)+'/'+str(mese)+'/'+str(anno))

#### metodo `strip()`

Il metodo `strip()` applicato ad una stringa 's' restituisce una **nuova** stringa ottenuta da 's' togliendo spazi bianchi (' '), tabulazioni ('\t') e riga nuova ('\n') (in sostanza i cosiddetti caratteri di spaziatura) **all'inizio ed alla fine della stringa**. Notate però che eventuali spazi bianchi, tabulazioni o ritorni a capo nel mezzo della stringa **non vengono eliminati**.

In [36]:
s=' \n\tprova\t di strip  \n'
r=s.strip()       #r vale 'prova\t di strip'
print('s=',s)
print('r=',r)
r

s=  
	prova	 di strip  

r= prova	 di strip


'prova\t di strip'

### Funzione `ord()`
La funzione `ord()` serve per calcolare, dato un carattere, la sua posizione nella tabella Unicode. Ad esempio, `ord('a')` restituisce 97 (la posizione del carattere `'a'`nella tabella Unicode).

In [37]:
print('La posizione del carattere \'a\' è:',ord('a'))
print('La posizione del carattere \'ù\' è:',ord('ù'))
print('La posizione del carattere \'字\' è:',ord('字'))

La posizione del carattere 'a' è: 97
La posizione del carattere 'ù' è: 249
La posizione del carattere '字' è: 23383


### Funzione `chr()`
La funzione `chr()` esegue l'operazione inversa della `ord()`, cioè data una posizione della tabella Unicode restituisce il carattere in quella posizione. Notate che la tabella Unicode 2.0 (quella attualmente usata) ha `1114112` posizioni. Se inserite un valore superiore otterrete un errore. Per molte posizioni con valori 'molto grandi' ottenete un carattere che probabilmente il vostro computer *non è in grado di stampare* poiché non ha un font installato che includa quel carattere. In questo caso viene stampato sullo schermo un piccolo quadratino.

In [41]:
print('Il carattere in posizione 99 è:',chr(99))
print('Il carattere in posizione 233 è:',chr(233))
print('Il carattere in posizione 27112 è:',chr(27112))
print('Il carattere in posizione 207112 è:',chr(207118))  #posizione valida ma ancora libera 
print('Il carattere in posizione 1207112 è:',chr(1207112))

Il carattere in posizione 99 è: c
Il carattere in posizione 233 è: é
Il carattere in posizione 27112 è: 槨
Il carattere in posizione 207112 è: 𲤎


ValueError: chr() arg not in range(0x110000)

Se vogliamo stampare il carattere *successivo* ad un carattere letto da input, dobbiamo prima calcolare la posizione del carattere letto, aumentarla di 1 e poi riconvertire in carattere

In [None]:
c = input('Inserisci un carattere: ')
pos = ord(c)
prossimo = pos + 1
succ = chr(prossimo)
print(succ)

Una soluzione più compatta è

In [None]:
c = input('Inserisci il carattere: ')
print(chr(ord(c)+1))

### Slicing di stringhe
In Python è possibile selezionare (tagliare una fetta, in inglese slicing) una parte di una stringa. Come vedremo più avanti nel corso, lo stesso si può fare anche di altre strutture dati come liste e tuple. Per selezionare una parte di una stringa `s` si usa la notazione `s[i:j]` dove `i` denota la *prima posizione* da selezionare e `j` la *prima posizione* da escludere. In altre parole, con la notazione `s[i:j]` si denota la parte di `s` che va dalla posizione di indice `i` *inclusa* alla posizione di indice `j` *esclusa*. Qualora manchi la `i` (`s[:j]`) si intende implicitamente che si parte dall'inizio della stringa (come se la `i` valesse 0), mentre se manca la `j` (`s[i:]`) si intende implicitamente che arriva alla fine della stringa (come se la `j` valesse `len(s)`). Si noti anche che se mancano entrambi gli indici (coè se scriviamo `s[:]`), lo slicing restituisce una copia della stringa, mentre se in uno slicing `s[i:j]` abbiamo che `i >= j`, lo slicing restituirà una stringa vuota.

In [42]:
s="paperopoli"
print(s)
print(s,'s[1:3]',s[1:3])
print(s,'s[:3]',s[:3],'s[0:3]',s[0:3])
print(s,'s[1:]',s[1:],'s[1:len(s)]',s[1:len(s)])
print(s,'s[4:4]',s[4:4])

paperopoli
paperopoli s[1:3] ap
paperopoli s[:3] pap s[0:3] pap
paperopoli s[1:] aperopoli s[1:len(s)] aperopoli
paperopoli s[4:4] 


#### Versione completa
Una versione più generale dello slicing prevede un terzo valore, con la notazione `s[i:j:n]` dove `n` indica il *passo*, cioè non si prendono *tutti* i caratteri da `i` a `j`, ma solo uno ogni `n` di questi.

In [45]:
s="paperopoli"
print(s,'s[1:8:2]',s[1:8:2])
print(s,'s[0:10:3]',s[0:10:3])
s[8:2:-2]

paperopoli s[1:8:2] aeoo
paperopoli s[0:10:3] pepi


'lpr'

#### Nota: indici negativi per le posizioni dei caratteri in una stringa

Le posizioni dei caratteri di una stringa `s` hanno anche una indicizzazione "inversa", che usa interi negativi partendo da `-1`, associato all'ultimo carattere di `s`, fino al numero `-len(s)`, associato al primo carattere di `s` (in altri termini, l'indice negativo va inteso come il numero che bisogna sottrarre a `len(s)` per ottenere la posizione voluta).

Esempio:

|||||||
|:---:|:---:|:---:|:---:|:---:|:---:|
|indici positivi (da sinistra a destra) | 0   | 1  |  2  |  3 |  4|
|                                       | p  | i  | p   | p  | o|
|indici negativi (da destra a sinistra) | -5 | -4 |  -3 | -2 | -1 |



Quindi, ad esempio 

`'pippo'[4]=='pippo'[-1]`

più in generale, per una stringa s qualunque vale

`s[len(s)-1] == s[-1]`

e

`s[0] == s[-len(s)]`


Gli indici negativi possono essere usati anche nello slicing.


In [21]:
s="pippo"
print(s,'s[1:3]',s[-4:-2])
print(s,'s[:3]',s[:-2],'s[0:3]',s[0:-2])
print(s,'s[1:]',s[-4:]) 
print(s,'s[-3:-4]',s[-3:-4]) # caso di i > j: restituisce stringa vuota (lo stesso se i=j)

pippo s[1:3] ip
pippo s[:3] pip s[0:3] pip
pippo s[1:] ippo
pippo s[-3:-4] 


In [22]:
s='123456789'
s[-len(s):-1]

'12345678'

### Uso avanzato di replace
Grazie allo slicing possiamo effettuare anche forme più avanzate di `replace()` dove la sostituzione avviene solo su una parte della stringa (si ricoda che il metodo replace sostituisce all'interno della stringa una sottostringa con un'altra sottostringa; se c'è un terzo parametro, questo è un intero che indica il numero di volte, iniziando a contare da sinistra, che verrà fatta la sostituzione). Esempi:

In [1]:
#esempi avanzati di replace
s="pippo"

print("s.replace('p','k',1)",s.replace('p','k',1))

s.replace('p','k',1) kippo


Per rimpiazzare solo a in una parte della stringa possiamo fare:

In [2]:
print("s[1:].replace('p','k',1)",s[1:].replace('p','k',1))

s[1:].replace('p','k',1) ikpo


Nel caso di sopra abbiamo però perso il primo carattere, se non volevamo perderlo potevamo fare:

In [3]:
print(s[0]+s[1:].replace('p','k',1))

pikpo


Vediamo ora un piccolo programma in cui vogliamo sostituire la *seconda* occorrenza di un carattere in una stringa con il carattere '\*'. Per fare questo prima vediamo dove compare il carattere la prima volta e poi facciamo la sostituzione sulla parte successiva della stringa

In [46]:
s = input('Inserisci la stringa: ')
c = input('Inserisci il carattere da sostituire: ') 
pos = s.find(c)
risultato = s[0:pos+1]+s[pos+1:].replace(c,'*',1)
print(risultato)

Inserisci la stringa:  accadimento
Inserisci il carattere da sostituire:  c


ac*adimento


### Non modificabilità delle stringhe
In Python, le stringhe sono oggetti *immutabili*. Questo vuol dire che non è possibile modificare il valore di una variabile di tipo stringa e che tutti i metodi sulle stringhe (incluso lo slicing) *non modificano la stringa* ma creano nuove stringhe. Per mantenere in memoria queste nuove stringhe è necessario assegnarne il valore a variabili.

In [4]:
print(s)
s[2] = 'x'

pippo


TypeError: 'str' object does not support item assignment

Come vedete **non è possibile** cambiare il valore di un carattere di una stringa. possiamo invece creare una **nuova** stringa usando ad esempio il metodo replace e salvando il risultato in una nuova variabile

In [5]:
print(s)
s1 = s.replace('p','k',1)
print("s.replace('p','k',1)",s1," - la stringa s vale invece:", s)

pippo
s.replace('p','k',1) kippo  - la stringa s vale invece: pippo


Ovviamente questo non ha modificato la variabile s

In [6]:
print(s[1:4])
print(s) # la stringa s non è stata modificata

ipp
pippo


### Esercizi
Completate questi esercizi prima di cominciare il prossimo argomento

#### Esercizio 1: 
Scrivete le istruzioni Python che chiedono a un utente una stringa `s` ed un carattere `x` e stampano:

- la posizione della prima occorrenza di `x` in `s`
- il numero di volte in cui `x` appare in `s`
- la stringa ottenuta sostituendo `x` in `s` con la stringa '!!!'

In [16]:
s = input('inserire una stringa: ')
x = input('inserire un carattere: ')

print(f'-\tprima occorrenza di {x} in {s}: {s.find(x)}')
print(f'-\t{x} in {s} appare: {s.count(x)} volta/e')
e = '!!!'
print(f'-\stringa ottenuta sostituendo {x} con \'!!!\': {s.replace(x, e)}')

inserire una stringa:  stringas
inserire un carattere:  s


-	prima occorrenza di s in stringas: 0
-	s appare 2 volte in stringas
-	sostituendo s con '!!!' si ottiene: !!!tringa!!!


#### Esercizio 2: 
Scrivete le istruzioni Python che chiedono a un utente di inserire una stringa `s` e due caratteri `x` e `y` e stampano:

- la stringa ottenuta sostituendo `x` con `y` in `s`
- il numero di volte in cui la stringa `xy` appare in `s`

In [18]:
s = input('inserire una stringa: ')
x = input('inserire un primo carattere: ')
y = input('inserire un secondo carattere: ')

print(f'-\tstringa ottenuta sostituendo {x} con {y}: {s.replace(x,y)}')
print(f'-\t{x+y} in {s} appare: {s.count(x+y)} volta/e')

inserire una stringa:  stringas
inserire un primo carattere:  s
inserire un secondo carattere:  t


-	stringa ottenuta sostituendo s con t: ttringat
-	st in stringas appare: 1 volte


#### Esercizio 3:
Scrivete le istruzioni Python che chiedono a un utente di inserire una stringa `s`, un carattere `x` ed un'altra stringa `s1` e stampano:

- la stringa ottenuta sostituendo `x` in `s` con la stringa '!!!'
- il numero di volte in cui `s1` appare in `s`
- la stringa ottenuta sostituendo `s1` in `s` con `x`

In [20]:
s = input('inserire una prima stringa: ')
x = input('inserire un carattere: ')
s1 = input('inserire una seconda stringa: ')


e = '!!!'
print(f'-\tstringa ottenuta sostituendo {x} con \'!!!\' in {s}: {s.replace(x, e)}')
print(f'-\t{s1} in {s} appare: {s.count(s1)} volta/e')
print(f'-\tstringa ottenuta sostituendo {s1} con {x} in {s}: {s.replace(s1,x)}')

inserire una prima stringa:  stringas
inserire un carattere:  s
inserire una seconda stringa:  ga


-	stringa ottenuta sostituendo s con '!!!' in stringas: !!!tringa!!!
-	ga in stringas appare: 1 volta/e
-	stringa ottenuta sostituendo ga con s in stringas: strinss


#### Esercizio 4:
Scrivete le istruzioni Python che chiedono ad un utente di inserire una stringa `s` ed un passo `n` e stampano i caratteri di `s` uno ogni `n`. Ad esempio, se vengono inseriti 'linguaggio di programmazione' e 4, la stampa deve esssere 'luiiomi'

In [25]:
s = input('inserire una stringa: ')
n = int(input('inserire un passo: '))
for i in s:
    if s.find(i)%n == 0:
        print(i, end="")

inserire una stringa:  abcdefghijklmnopqrstuvwxyz
inserire un passo:  2


acegikmoqsuwy