# Stringhe

## Operatori e operazioni con le stringhe

Python offre diversi operatori per lavorare con le stringhe:

|Operatore|Uso|Risultato|Significato|
|---|---|----|-----|
|len|`len`(str)|int| Ritorna la lunghezza della stringa|
|concatenazione|str `+` str|str| Concatena due stringhe|
|inclusione|str `in` str|bool| Controlla se la stringa √® presente in un'altra stringa|
|indice|str`[`int`]`|str|Accede  al carattere all'indice specificato|
|slice|str`[`int`:`int`]`|str|Estrae una sotto-stringa|
|uguaglianza|`==`,`!=`|bool| Controlla se due stringhe sono uguali o differenti|
|replicazione|str `*` int|str| Replica la stringa|

## Metodi delle stringhe

Ogni tipo di dati ha associati dei metodi particolari per quel tipo, vediamo instanto quelli pi√π semplici associati al tipo stringa (`str`).

### Trasformare: maiuscole/minuscole 

| Metodo                  | Return | Significato                                                               |
|-------------------------|--------|---------------------------------------------------------------------------|
| `str.upper()`           | str    | Ritorna la stringa con tutti i caratteri maiuscoli                        |
| `str.lower()`           | str    | Ritorna la stringa con tutti i caratteri minuscoli                        |
| `str.capitalize()`      | str    | Ritorna la stringa con il primo carattere maiuscolo                       |
| `str.title()`           | str    | Ritorna la stringa con il primo carattere di ciascuna parola in maiuscolo |

### Trasformare: pulire o sostituire

| Metodo                          | Return | Significato                                |
|---------------------------------|--------|--------------------------------------------|
| `str.strip()`                   | str    | Rimuove i *whitespaces* da entrambi i lati |
| `str.lstrip()`                  | str    | Rimuove i *whitespaces* da sinistra        |
| `str.rstrip()`                  | str    | Rimuove i *whitespaces* da destra          |
| `str.replace(substr1, substr2)` | str    | Sostituisce sottostringhe                  |


### Ottenere informazioni 

| Metodo                  | Return | Significato                                                               |
|-------------------------|--------|---------------------------------------------------------------------------|
| `str.startswith(str)`   | bool   | Controlla se la stringa inizia con un'altra                               |
| `str.endswith(str)`     | bool   | Controlla se la stringa finisce con un'altra                              |
| `str.isalpha()`         | bool   | Controlla se tutti i caratteri sono alfabetici                            |
| `str.isdigit()`         | bool   | Controlla se tutti i caratteri sono cifre                                 |
| `str.isupper()`         | bool   | Controlla se tutti i caratteri sono minuscoli                             |
| `str.islower()`         | bool   | Controlla se tutti i caratteri sono maiuscoli                             |
| `str.count(str)`        | int    | Conta il numero di occorrenze di una sottostringa                         |
| `str.find(str)`         | int    | Ritorna la prima posizione di una sottostringa a partire da sinistra      |
| `str.rfind(str)`        | int    | Ritorna la prima posizione di una sottostringa a partire da destra        |


### Da stringa a lista e viceversa

| Metodo           | Return | Descrizione                                                                  |
|------------------|--------|------------------------------------------------------------------------------|
| `str.join(seq)`  | str    | produce una stringa concatenando tutti gli elementi in seq separati da `str` |
| `str.split(str)` | list   | Produce una lista dividendo una stringa in base a una stringa separatore     |

## Modulo `string`

| Metodo                         | Return | Descrizione                                                                                 |
|--------------------------------|--------|---------------------------------------------------------------------------------------------|
| `string.capwords(s, sep=None)` | str    | Simile a `str.capitalize()`, ma √® possibile indicare un separatore specifico per le parole. |


## Note

Le stringhe mettono a disposizione diversi metodi per effettuare ricerche e e trasformarle in nuove stringhe, ma attenzione: il potere √® nulla senza il controllo! A volte ti troverai con l'esigenza di usarli, e potrebbero anche funzionare con qualche piccolo esempio, ma potrebbero nascondere tranelli che poi si rimpiangono amaramente.

L'osservazione pi√π importante √® che quando i metodi delle stringhe generano una stringa, questa √® SEMPRE NUOVA.

L'oggetto stringa originale non viene MAI modificato (perch√® le stringhe sono immutabili). 

## Sequenze di escape

Alcune sequenze di caratteri dette _sequenze di escape_ sono speciali perch√® invece di mostrare caratteri, forzano la stampa a fare cose particolari come andare a capo o inserire spazi extra. Queste sequenze sono sempre precedute da il carattere di _backslash_ `\`:

|Descrizione                 |Sequenza di _escape_ |
|----------------------------|---------------------|
|Ritorno a capo (_linefeed_) | `\n`                |
|Tabulazione (_ASCII tab_)   | `\t`                |
|Backspace                   | `\b`                |

**Caratteri speciali**: Per mettere caratteri speciali come il singolo apice `'` o le doppie virgolette `"` , dobbiamo creare una cosiddetta _sequenza di escape_, cio√® prima scriviamo il carattere _backslash_ `\` e poi lo facciamo seguire dal carattere speciale che ci interessa: 

|Descrizione|Sequenza di _escape_|Risultato a stampa|
|--------|-----|-----------|
|Apice singolo|`\'`|`'`|
|Doppio apice|`\"`| `"`|
|Backslash|`\\` | `\`|

## Caratteri Unicode

Quando abbiamo bisogno di caratteri particolari come ‚ú™ o üòé che non sono disponibili sulla tastiera, possiamo guardare i caratteri Unicode. [Ce ne sono parecchi](http://www.fileformat.info/info/unicode/char/a.htm), e possiamo spesso usarli in Python 3 semplicemente copia-incollandoli. Per esempio, se vai a [questa pagina](https://www.fileformat.info/info/unicode/char/272a/index.htm) puoi copia-incollare il carattere ‚ú™. In altri casi potrebbe essere cos√¨ speciale che non pu√≤ nemmeno essere correttamente visualizzato, perci√≤ in questi casi puoi usare una sequenza pi√π complessa nel formato `\uxxxx` come questo:

|Descrizione|Sequenza di escape|Risultato stampato|
|--------|-----|-----------|
|Esempio stella in un cerchio nel formato `\uxxxx`| `\u272A`|‚ú™|
|Esempio emoji nel formato `\UXXXXXXXX`| `\U0001F60E`|üòé|

In [29]:
stella = '\u272A'
faccina = '\U0001F60E'

print(stella, faccina)

‚ú™ üòé


In [31]:
stella = chr(0x272A)
faccina = chr(0x1F60E)

print(stella, faccina)

‚ú™ üòé


## Inserire le variabili nelle stringhe

Quando si parla di contenuti testuali, "**interpolare**" significa inserire in un testo parole o singagmi estranei all'originale.

In programmazione, con l'espressione [*string interpolation*](https://en.wikipedia.org/wiki/String_interpolation) si intende la tecnica di valutare un literal di stringa contenente uno o pi√π segnaposto (*placeholder*), al fine di ottenere una stringa in cui i segnaposto sono stati sostituiti con determinati valori, seguendo una certa corrispondenza.

Questo concetto √® molto vicino a quello del [*templating*](https://it.wikipedia.org/wiki/Template). In pratica viene creata una striga che funge da template in cui alcune parti del suo contenuto possono variare dinamicamente. Non vi √® pi√π la necessit√† di riscrivere il testo ogni volta, ma √® sufficiente "renderizzarlo" passando nuovi valori ogni volta.

In Python si fa riferimento in generale al concetto di [*string formatting*](https://docs.python.org/3/tutorial/inputoutput.html) (formattazione delle stringhe) in quanto, oltre all'interpolazione, abbiamo anche una speciale sintassi che consente du formattare i valori in determinati modi quando questi vengono inseriti nelle strighe.

L'interpolazione delle stringhe √® un'alternativa alla costruzione di stringhe tramite concatenazione, che richiede ripetute aperture e chiusure delle virgolette.

In Python abbiamo le seguenti modalit√† per inserire dati arbitrari nelle nostre stringhe:

- [Old-style string formatting](https://docs.python.org/3/library/stdtypes.html#printf-style-string-formatting)/interpolation tramite l'operatore `%` (modulo). Chiamato anche `printf`-style.

- Metodo [`str.format()`](https://docs.python.org/3/library/string.html#format-string-syntax).

- [*f-strings*, Formatted String Literals](https://docs.python.org/3/reference/lexical_analysis.html#f-strings), che implementano la cosiddetta [*Literal String Interpolation*](https://peps.python.org/pep-0498/)

- [classe `Template`](https://docs.python.org/3/library/string.html#template-strings) del modulo built-in `strings`.

I due metodi pi√π usati e consigliati attualmente sono:

- f-strings (che √® il pi√π comodo e veloce, anche in termini di prestazioni). Da usarsi quando abbiamo molti placeholder e il testo √® pi√π lungo dei nomi delle variabili stesse.

- formattazione old-style con operatore `%`. Da usarsi quando abbiamo solo 2-3 placeholder e il testo √® relativamente breve.

In [34]:
nome = 'Marco'
cognome = 'Rossi'

for string_test in [
    # Concatenazione
    'Ciao, ' + nome + ' ' + cognome + '!',

    # old-style string interpolation
    'Ciao, %s %s!' % (nome, cognome),
    'Ciao, %(n)s %(c)s!' % {'n': nome, 'c': cognome},

    # str.format()
    'Ciao, {} {}!'.format(nome, cognome),
    'Ciao, {0} {1}!'.format(nome, cognome),
    'Ciao, {n} {c}!'.format(n=nome, c=cognome),

    # f-strings
    f'Ciao, {nome} {cognome}!'
]:
    print(string_test)


Ciao, Marco Rossi!
Ciao, Marco Rossi!
Ciao, Marco Rossi!
Ciao, Marco Rossi!
Ciao, Marco Rossi!
Ciao, Marco Rossi!
Ciao, Marco Rossi!


In [47]:
from string import Template

nome = 'Marco'
cognome = 'Rossi'

my_template = Template('Ciao, $n $c!')
new_string = my_template.substitute(n=nome, c=cognome)
print(new_string)


Ciao, Marco Rossi!


## Altre sintassi interessanti

Se si passa un numero intero dopo il `':'`, il campo sar√† largo un numero minimo di caratteri. Questo √® utile per allineare le colonne.

#### Trasformare i `int` e `float` in `str` con un numero specifico di cifre decimali.

> NOTA: Nei seguenti esempi potete scrivere sia `:0.2f` sia `:.2f`, omettendo lo zero.

In [44]:
prezzo = 49

# testo_offerta = 'Ultima offerta, solo %.2f euro!' % prezzo

# testo_offerta = 'Ultima offerta, solo {:.2f} euro!'.format(prezzo)
# testo_offerta = 'Ultima offerta, solo {prezzo:.2f} euro!'.format(prezzo=49)

testo_offerta = f'Ultima offerta, solo {prezzo:.2f} euro!'

print(testo_offerta)

Ultima offerta, solo 49.00 euro!


#### Aggiungere il separatore delle migliaia

In [72]:
cifra = 1234567
print(f'{cifra:,d}')

1,234,567


#### Aggiungere un numero fisso di zero iniziali

In [1]:
record_ids = [72, 12345678, 3332483, 92541, 45249535]

for rec_id in record_ids:

    # new_string = 'ID: %08d' % rec_id
    # new_string = 'ID: {numero:08}'.format(numero=rec_id)
    new_string = f'ID: {rec_id:08}'

    print(new_string)

ID: 00000072
ID: 12345678
ID: 03332483
ID: 00092541
ID: 45249535


Se √® sufficiente aggiungere degli "zero" iniziali, c'√® il metodo `str.zfill()` che ci semplifica la vita:

In [45]:
record_ids = [72, 12345678, 3332483, 92541, 45249535]

for rec_id in record_ids:
    new_string_padded = str(rec_id).zfill(8)
    print('ID:', new_string_padded)

ID: 00000072
ID: 12345678
ID: 03332483
ID: 00092541
ID: 45249535


#### Numero fisso sia di zero iniziali sia di decimali

Se proviamo a unire le sue sintassi appena viste:

In [52]:
record_ids = [72.453, 12345678.8, 3332483.66, 92541, 45249535]

for rec_id in record_ids:
    print(f'ID: {rec_id:012.2f}')

ID: 000000072.45
ID: 012345678.80
ID: 003332483.66
ID: 000092541.00
ID: 045249535.00


#### Aggiungere un numero fisso di spazi iniziali (allineamento a destra)

In [None]:
record_ids = [72, 12345678, 333248, 92541, 45249535]

for rec_id in record_ids:

    # new_string = 'ID: %8d' % rec_id
    # new_string = 'ID: {numero:8d}'.format(numero=rec_id)
    new_string = f'ID: {rec_id:8d}'

    print(new_string)

ID:       72
ID: 12345678
ID:   333248
ID:    92541
ID: 45249535


#### Allineare i decimali

In [None]:
record_ids = [7.2, 1234.5678, 333.248, 92541.0, 452.49535]

# Calcola la larghezza massima a sinistra del punto decimale
# max_int_width = max(len(str(int(num))) for num in record_ids)

for rec_id in record_ids:

    # new_string = 'ID: %9.3f' % rec_id
    # new_string = 'ID: {numero:9.3f}'.format(numero=rec_id)
    new_string = f'ID: {rec_id:9.3f}'
    # new_string = f'ID: {rec_id:{max_int_width + 4}.3f}'

    print(new_string)

ID:     7.200
ID:  1234.568
ID:   333.248
ID: 92541.000
ID:   452.495


#### Stampare il nome della variabile e il suo contenuto in una volta sola

Aggiungendo semplicemente un sibolo `=` dopo una variabile all'interno delle parentesi graffe di una f-string, la variabile viene rappresentata come `nome_variabile=...` con al posto dei puntini la rappresentazione stampabile `repr(nome_variabile)` dell'oggetto a cui punta la variabile.

Questa sintassi pu√≤ essere molto utile a fini di debug.

In [55]:
my_var = {'pantaloni': 4, 'maglie': 2}

print(f'Il contenuto di {my_var=}')

Il contenuto di my_var={'pantaloni': 4, 'maglie': 2}


## Sistemi di scrittura da destra a sinistra (RTL)

Attualmente lo standard de-facto per la codifica dei caratteri √® l'Unicode. In particolare l'UTF-8.

Da Python 3.0 in poi, l'UTF-8 √® diventato l'encoding di default per i file sorgente, dunque tutti gli IDE che supportano Python usano UTF-8 come codifica predefinita quando scrivete. 

Per lingue sia LTR (sinistra verso destra) che RTL, l'ordine in cui i caratteri sono serializzati in byte rimane lo stesso dell'ordine in cui sono stati scritti, ovvero ineriti.

In altre parole, quando scrivi una stringa, indipendentemente dalla direzione della lingua, i caratteri vengono scritti nel medesimo ordine in cui verranno letti. 

Se hai una parola in italiano come "pace", il primo carattere sar√† "p", cos√¨ nella la parola in ebraico "◊©÷∏◊Å◊ú◊ï÷π◊ù", il primo carattere sar√† "◊©".

In [33]:
print('pace'[0])
print('◊©÷∏◊Å◊ú◊ï÷π◊ù'[0])  # (shalom)
print('ÿ≥ŸÑÿßŸÖ'[0])   # (salaam)

p
◊©
ÿ≥
