# Stringhe

# Stringhe

Una stringa è una sequenza di caratteri immutabile.

Si dichiara includendo il contenuto tra apici singoli o doppi:

In [59]:
name = 'Victor'
surname = "Frankenstein"

### Escaping

Il carattere di escape è __\__

In [9]:
print("stringa con due \"\" apici")

stringa con due "" apici


In [8]:
print("stringa\ncon\ttab")

stringa
con	tab


In [10]:
print("stringa\\ncon\\ttab")

stringa\ncon\ttab


### Stringhe multilinea

E' possibile dichiarare stringhe multilinea utilizzando i tripli apici:

In [12]:
query = """\
SELECT
    u.name,
    u.surname,
    u.address,
    c.name AS company_name
FROM users u
JOIN company c ON c.id = u.company_id
WHERE u.name = 'bob'"""

### Concatenazione

Tramite l'operatore di addizione si possono concatenare due o più stringhe:

In [1]:
"Hello" + ", " + "World!"

'Hello, World!'

Concatenare tipi non compatibili solleverà un'eccezione di tipo **TypeError**:

In [6]:
"Hello " + 2 + " you!"

TypeError: must be str, not int

### Divisione e unione di stringhe

**split()** restituisce una lista di elementi dividendo la stringa ad ogni occorrenza di un separatore.

Se non viene specificato alcun separatore si assumono uno o più spazi:

In [30]:
stringa = "Sempre caro mi fu quest'ermo colle"

In [29]:
stringa.split()

['Sempre', 'caro', 'mi', 'fu', "quest'ermo", 'colle']

In [26]:
stringa.split("'")

['Sempre caro mi fu quest', 'ermo colle']

### Divisione ed unione di stringhe

Per dividere una stringa ad ogni riga è consigliabile invece **splitlines()**:

In [13]:
stringa = """\
lo: Disabled Privacy Extensions
e1000: eth0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: None
Slow work thread pool: Starting up
Slow work thread pool: Ready"""

In [20]:
stringa.splitlines()

['lo: Disabled Privacy Extensions',
 'e1000: eth0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: None',
 'Slow work thread pool: Starting up',
 'Slow work thread pool: Ready']

### Divisione ed unione di stringhe

**join()** crea una stringa a partire da una lista.

Attenzione: è un metodo dell'oggetto stringa, non della lista!

In [31]:
lista = ['Sempre', 'caro', 'mi', 'fu', "quest'ermo", 'colle']

In [33]:
" ".join(lista)

"Sempre caro mi fu quest'ermo colle"

### Stringhe come sequenze di caratteri

Le stringhe oltre ad avere le loro proprietà peculiari sono a tutti effetti delle sequenze, così come le liste e le tuple.

Questo significa che è possibile:
- _Iterare_ sul loro contenuto
- Utilizzare la sintassi di _slicing_
- len(), reversed(), sorted(), ..
- etc..

### Stringhe come sequenze di caratteri

![I Know Polymorphism](../images/i-know-polymorphism.jpg)

### Stringhe come sequenze di caratteri

E' possibile accedere ai singoli caratteri indicando tra parentesi quadre l'_indice_:

In [71]:
city = "Torino"

In [73]:
city[3]

'i'

In [75]:
city[-1]

'o'

### Stringhe come sequenze di caratteri

E' anche possibile iterare sui singoli caratteri che compongono una stringa:

In [77]:
for char in "Torino":
    print(char)

T
o
r
i
n
o


### Stringhe come sequenze di caratteri

Tramite l'operatore **in** è possibile verificare la presenza di un carattere all'interno di una stringa:

In [78]:
'o' in "Torino"

True

In [80]:
'rin' in "Torino"

True

### Slicing

E' possibile accedere a porzioni di una stringa definendo un intervallo nella forma **[start:end{:stride}]**:

In [89]:
sentence = "Explicit is better than implicit"
# caratteri compresi tra la posizione 9 e la 11 (esclusa)
print(sentence[9:11])
# caratteri compresi tra la posizione 24 e l'ultimo carattere
print(sentence[24:])
# caratteri compresi tra la posizione 8 partendo dal fondo e l'ultimo carattere
print(sentence[-13:])

is
implicit
than implicit


### Slicing

In [90]:
sentence[::-1]

'ticilpmi naht retteb si ticilpxE'

In [83]:
sentence[6::2]

'i sbte hnipii'

In [85]:
sentence[15:5:-1]

'tteb si ti'

### Stringhe come sequenze di caratteri

In [1]:
len("Explicit is better than implicit")

32

In [10]:
min("Explicit is better than implicit")

' '

In [11]:
max("Explicit is better than implicit")

'x'

### Ricerca di sottostringhe

In [40]:
"is" in "Explicit is better than implicit"

True

In [37]:
"Explicit is better than implicit".find("better")

12

In [38]:
"Explicit is better than implicit".endswith("plicit")

True

In [39]:
"Explicit is better than implicit".startswith("better")

False

### Sostituzione di sottostringhe

In [60]:
text = "Explicit is better than implicit"

In [61]:
text.replace("better", "worse")

'Explicit is worse than implicit'

In [68]:
text.translate({ord('i'): 'o', ord('e'): 'u'})

'Explocot os buttur than omplocot'

### Tipo di contenuto

In [45]:
"123".isdigit()

True

In [46]:
"sentencelowercase".islower()

True

In [53]:
"    ".isspace()

True

## Formattazione delle stringhe

L'operatore **%** consente di formattare le stringhe con degli argomenti posizionali.

La sintassi ricalca quella della funzione C printf():

In [1]:
print("Hello %s" % "world")

Hello world


In [2]:
print("Ci sono %d %s nel cesto" % (2, "mele"))

Ci sono 2 mele nel cesto


In [3]:
print("%0.2f = %d = %e" % (1024, 1024, 1024))

1024.00 = 1024 = 1.024000e+03


### Conversione dei valori

Simboli principali:

| Simbolo | Conversione | Esempio |
|:-------------:|-------------:|:--------:|
| %c | carattere | 'a' |
| %s | stringa | "apple" |
| %d | decimale (con segno) | 1024 |
| %u | decimale (senza segno) | -1024|
| %f | decimale | 2.67 |

### Padding e allineamento

In [13]:
print("%20s" % "test")
print("%-20s" % "test")

                test
test                


In [23]:
print("%10d" % 1024)
print("%-10d" % 1024)

      1024
1024      


### Precisione

In [1]:
frase = "Sempre caro mi fu quest'ermo colle"

In [3]:
print("%.20s" % frase)

Sempre caro mi fu qu


In [5]:
from math import pi

In [8]:
print("%.4f" % pi)

3.1416


### Combinare più stili

In [None]:
frase = "Sempre caro mi fu quest'ermo colle"

In [16]:
print("%20.10s" % frase)

          Sempre car


In [21]:
print("%+10.2f" % 40.5)

    +40.50


### Parametri nominali

Oltre al passaggio dei parametri per via posizionale è possibile utilizzare la sintassi che prevede l'uso di parametri nominali:

- Nome del parametro tra parentesi
- Dati passati non come tupla ma come dizionario

In [2]:
formato = "Ci sono %(numero)d %(tipo)s nel cesto"

In [3]:
print(formato % {"numero": 2, "tipo": "mele"})

Ci sono 2 mele nel cesto


## Espressioni regolari

In [13]:
import re

Utilizzo base:

In [30]:
frase = "Sempre caro mi fu quest'ermo colle"
pattern = r"ermo"

match = re.search(pattern, frase)
if match:
    print("Trovato")

Trovato


### Match() e Search()

- re.match(): cerca il pattern solo all'inizio del testo
- re.search(): cerca il pattern ovunque

In [31]:
re.search(pattern, frase)

<_sre.SRE_Match object; span=(24, 28), match='ermo'>

In [33]:
re.match(pattern, frase)

### L'oggetto Match

Sia **match()** che **search()** si fermano all'incontro della prima occorrenza (_greedy search_).

L'oggetto **Match** restituito contiene alcuni metodi utili:
- group(index): restituisce il sottogruppo con indice _index_ all'interno del pattern
- start(): restituisce l'indice del primo carattere facente parte del pattern
- end(): restituisce l'indice dell'ultimo carattere

### L'oggetto Match

In [29]:
frase = "Sempre caro mi fu quest'ermo colle"
pattern = r"\s(\w{2,2})\s"

match = re.search(pattern, frase)
print(match.group(0))
print(match.group(1))
print(match.start())
print(match.end())

 mi 
mi
11
15


### Compilare i pattern

Le espressioni regolari sono per loro natura operazioni onerose.

Se pensate di utilizzare più volte lo stesso pattern:

- re.compile(pattern): restituisce un oggetto _RegexObject_
- RegexObject.search()/match(): esegue la ricerca precompilata

### Compilare i pattern

In [49]:
rows = ["sys             Sat Jan 21 17:10:15 +0530 2014",
        "sync            **Never logged in**",
        "abc1    tty1    Sat Apr 26 22:10:36 +0530 2014"]
regex = re.compile(r"\w{3} \w{3} \d{1,2}")

for row in rows:
    match = regex.search(row)
    if match:
        print(match.group(0))

Sat Jan 21
Sat Apr 26


### Modificatori

Oltre a fornire un pattern ed un testo su cui effettuare la ricerca è possibile specificare uno o più modificatori che alterano il comportamento di default.

Ne vediamo un paio particolarmente utili:

- re.IGNORECASE: ricerca case insensitive
- re.VERBOSE: permette di inserire commenti nell'espressione

### Modificatori: re.IGNORECASE

In [53]:
frase = "SEMPRE CARO MI FU QUEST'ERMO COLLE"
pattern = r"ermo"

match = re.search(pattern, frase, re.IGNORECASE)
if match:
    print("Trovato")

Trovato


### Modificatori: re.VERBOSE

In [58]:
rows = ["sys             Sat Jan 21 17:10:15 +0530 2014",
        "sync            **Never logged in**",
        "abc1    tty1    Sat Apr 26 22:10:36 +0530 2014"]

regex = re.compile(r"""
                   \w{3}\s  # Giorno della settimana
                   \w{3}\s  # Mese
                   \d{1,2}  # Giorno del mese
                   """, re.VERBOSE)

for row in rows:
    match = regex.search(row)
    if match:
        print(match.group(0))

Sat Jan 21
Sat Apr 26


### Cercare più di un'occorrenza

**re.findall()**:

- Cerca ogni occorrenza del pattern
- Restituisce una lista di stringhe

In [37]:
frase = "src host 192.168.20.81 dst host 192.168.50.4 proto icmp"
pattern = r"\d{1,3}.\d{1,3}.\d{1,3}.\d{1,3}"

re.findall(pattern, frase)

['192.168.20.81', '192.168.50.4']