# Approfondimenti sulle Stringhe e RegEx

## Formattazione delle stringhe

https://docs.python.org/3/library/string.html#format-specification-mini-language
```
format_spec     ::=  [[fill]align][sign][#][0][width][grouping_option][.precision][type]
fill            ::=  <any character>
align           ::=  "<" | ">" | "=" | "^"
sign            ::=  "+" | "-" | " "
width           ::=  digit+
grouping_option ::=  "_" | ","   Separatore delle migliaia
precision       ::=  digit+
type            ::=  "b" | "c" | "d" | "e" | "E" | "f" | "F" | "g" | "G" | "n" | "o" | "s" | "x" | "X" | "%"
```

In [1]:
# Una stringa formattata puo' essere creata utilizzando la "f notation"

a = 123

print(f"{a}")

123


### Type - Formattazione delle stringhe contenenti numeri
All'interno della stringa posso eprimere le modalita' con cui rappresentare la variabile proposta:<br>
`type::=  "b" | "c" | "d" | "e" | "E" | "f" | "F" | "g" | "G" | "n" | "o" | "s" | "x" | "X" | "%"`

In [2]:
# type b: binario

a = 123

print(f"{a:b}")

1111011


In [3]:
# in formato carattere unicode (in cui al 123 corrisponde la parentesi graffa)
a = 123
print(f"{a:c}")

a = 6358
print(f"{a:c}")

{
ᣖ


In [4]:
# in formato percentuale ecc.. ecc..

a = 123.0025598
print(f"{a:%}")

12300.255980%


### Rappresentazione di numeri con la virgola fissa: type `f` (float)
Inserendo il codice `.#f` definisco il numero di cifre da stamapre dopo la virgola

In [5]:
# float, formato a virgola fissa, default --> 6 cifre dopo la  virgola

a = 1.002
b = 2.25

# in formato carattere unicode (in cui al 123 corrisponde la parentesi graffa)
print(f"{a+b:.3f}")

3.252


### Separatore delle migliaia

In [6]:
# Python accetta l'inserimento di numeri usando 
# l'underscore come separatore delle cifre (viene ignrato)
a = 1_000_002_000_202_020

# Posso anche stamparare i numeri usando questo separatore per le migliaia
print(f"{a:_.3f}")

1_000_002_000_202_020.000


In [7]:
# Posso anche indicare come separatore la virgola
print(f"{a:,.3f}")

1,000,002,000,202,020.000


### Larghezza di campo e allineamento
Dopo i duepunti posso indicare il numero di cifre da utilizzare per la stampa del campo e l'allineamento:


In [8]:
a = -123.00


# stampo un campo largo 10 caratteri
print(f"_{a:10}_")


# stampo un campo largo 10 caratteri allineati a sinistra
print(f"_{a:<10}_")

# stampo un campo largo 10 caratteri allineati a destra (default)
print(f"_{a:>10}_")

# stampo un campo largo 10 caratteri allineando a sinistra il segno e a destra il numero
print(f"_{-a:=+10}_")

# stampo un campo largo 10 caratteri allineando al centro
print(f"_{a:^10}_")

_    -123.0_
_-123.0    _
_    -123.0_
_+    123.0_
_  -123.0  _


In [9]:
# stampo un campo largo 10 caratteri allineando 
# al centro utilizzando un carattere di riempimento 
# diverso dallo spazio (default)
print(f"_{a:x^10}_")

_xx-123.0xx_


In [10]:
# stampo un campo largo 10 caratteri allineando 
# al centro utilizzando un carattere di riempimento 
# diverso dallo spazio (default)
print(f"_{a:_^10}_")

___-123.0___


In [11]:
a = "pippo"
# stampo un campo largo 10 caratteri allineando 
# al centro utilizzando un carattere di riempimento 
# diverso dallo spazio (default)
print(f"{a:_^10}")

__pippo___


### Esercizio: Stampa di un mazzo di carte su 4 colonne allineate

#### Generiamo il Mazzo

In [12]:
import random


# Generiamo il mazzo:
valori = ["Asso", "Due", "Tre", 
          "Quattro", "Cinque", "Sei", 
          "Sette", "Fante", "Cavallo", "Re"]

semi = ["Bastoni", "Spade", "Denari", "Coppe"]

mazzo = []

for seme in semi:
    for valore in valori:
        mazzo.append((valore, seme))

# print(mazzo)

random.shuffle(mazzo)

# print(mazzo)

#### Stampiamo il mazzo

In [13]:
for contatore, carta in enumerate(mazzo):
    # genero una stringa che stampi il vlaore della carta in modo accettabile
    stirnga_carta = f"{carta[0]} di {carta[1]}" # meglio usare .join (vedi giu')
    #stampo la stringa:
    if contatore%4 == 0:
        print()
    print(f"{stirnga_carta:20}", end=" ")
    
    


Cavallo di Denari    Cavallo di Bastoni   Due di Bastoni       Tre di Denari        
Cinque di Spade      Asso di Bastoni      Due di Denari        Fante di Coppe       
Sette di Denari      Cavallo di Spade     Re di Bastoni        Sei di Denari        
Fante di Spade       Re di Coppe          Fante di Bastoni     Sei di Bastoni       
Sei di Spade         Re di Denari         Cinque di Denari     Quattro di Bastoni   
Asso di Spade        Tre di Coppe         Cinque di Coppe      Due di Spade         
Quattro di Coppe     Fante di Denari      Tre di Spade         Sette di Spade       
Asso di Denari       Asso di Coppe        Re di Spade          Quattro di Spade     
Sette di Coppe       Tre di Bastoni       Due di Coppe         Sei di Coppe         
Quattro di Denari    Cavallo di Coppe     Sette di Bastoni     Cinque di Bastoni    

In [14]:
## nb: enumerate ci permette di non generare il contatore separatamente.

lista_di_stringhe = []
contatore = 0
for carta in mazzo:
    
    stirnga_carta = f"{carta[0]} di {carta[1]}"
    lista_di_stringhe.append(stirnga_carta)
    
    if contatore%4 == 0:
        print()
    print(f"{stirnga_carta:20}", end=" ")
    contatore += 1


Cavallo di Denari    Cavallo di Bastoni   Due di Bastoni       Tre di Denari        
Cinque di Spade      Asso di Bastoni      Due di Denari        Fante di Coppe       
Sette di Denari      Cavallo di Spade     Re di Bastoni        Sei di Denari        
Fante di Spade       Re di Coppe          Fante di Bastoni     Sei di Bastoni       
Sei di Spade         Re di Denari         Cinque di Denari     Quattro di Bastoni   
Asso di Spade        Tre di Coppe         Cinque di Coppe      Due di Spade         
Quattro di Coppe     Fante di Denari      Tre di Spade         Sette di Spade       
Asso di Denari       Asso di Coppe        Re di Spade          Quattro di Spade     
Sette di Coppe       Tre di Bastoni       Due di Coppe         Sei di Coppe         
Quattro di Denari    Cavallo di Coppe     Sette di Bastoni     Cinque di Bastoni    

### Ricerca di sottostringhe

In [15]:
stringa = "Tre di Bastoni       Sei di Bastoni       Due di Denari        Tre di Denari"

#### Contare le sottostringhe `count`

In [16]:
stringa.count("Tre")

2

#### Individuare una sottostringa `index`

In [17]:
# Cerca all'interno della sottostringa la prima occorrenze dell'argomento 
# e restituisci l'indice del primo carattere:
stringa.index("Sei")

21

In [18]:
stringa[21]

'S'

### Sostituire sottostringhe `replace`
`stringa.replace(sottostringa_A, sottostringa_B)` <br>
Sostituisce tutte le occorrenze della sottostringa A con la sottostringa B

In [19]:
stringa

'Tre di Bastoni       Sei di Bastoni       Due di Denari        Tre di Denari'

In [20]:
# sostituiamo tutte le occorrenze di "Sei" con "Due" all'interno di stringa
stringa.replace("Sei", "Due")

'Tre di Bastoni       Due di Bastoni       Due di Denari        Tre di Denari'

### Unire le stringhe `join`

Unisce gli oggetti di tipo stringa contenuti nell'iterabile 
con la stringa definita nel separatore <br>
`separatore.join(iterabile)`

In [21]:
for carta in mazzo:
    # genero una stringa che stampi il vlaore della carta in modo accettabile
    stirnga_carta = " di ".join(carta) # f"{carta[0]} di {carta[1]}"

In [22]:
carta = ('Sette', 'Denari', 'Pippo', 'Pluto')

In [23]:
" di ".join(carta)

'Sette di Denari di Pippo di Pluto'

### Suddividere le stinghe `split`, `partition`, `rpartition`, `splitlines`
* `stringa.split(separatore)` --> separa le stringhe in corrispondenza del separatore proposto
* `stringa.partition(separatore)` -->  divide la stringa in 3, utilizzando il separatore come elemento centrale
* `stringa.rpartition(separatore)` -->  come partition, ma inizia la ricerca dell'elemento centrale da destra
* `stirnga.splitlines()`  --> come split, ma utilizza di default il carattere "\n" come separatore

In [24]:
stringa

'Tre di Bastoni       Sei di Bastoni       Due di Denari        Tre di Denari'

In [25]:
# separo la stringa in corrispondenza del separatore di default (spazio, newline, tab)
stringa.split()

['Tre',
 'di',
 'Bastoni',
 'Sei',
 'di',
 'Bastoni',
 'Due',
 'di',
 'Denari',
 'Tre',
 'di',
 'Denari']

In [26]:
# Partition, divido in tre la stringa
'Tre di Bastoni'.partition("di")

('Tre ', 'di', ' Bastoni')

In [27]:
"Carlo: 23, 30, 45"
"Paolo: 30, :28, 15".partition(":")



('Paolo', ':', ' 30, :28, 15')

In [28]:
# rpartition: inizio la ricerca del separatore da destra:
"Paolo: 30, :28, 15".rpartition(":")

('Paolo: 30, ', ':', '28, 15')

In [29]:
# splitlines: separa le righe
stringa_multilinea = """Tre di Bastoni       Sei di Bastoni       Due di Denari        Tre di Denari        
Cavallo di Spade     Due di Bastoni       Quattro di Spade     Cavallo di Denari    
Asso di Coppe        Tre di Spade         Sette di Coppe       Fante di Denari      
Due di Spade         Fante di Spade       Quattro di Bastoni   Asso di Denari     
"""

In [30]:
stringa_multilinea.splitlines()

['Tre di Bastoni       Sei di Bastoni       Due di Denari        Tre di Denari        ',
 'Cavallo di Spade     Due di Bastoni       Quattro di Spade     Cavallo di Denari    ',
 'Asso di Coppe        Tre di Spade         Sette di Coppe       Fante di Denari      ',
 'Due di Spade         Fante di Spade       Quattro di Bastoni   Asso di Denari     ']

### Stinghe raw
Le stringhe raw, grezze, sono stringhe che non vengono interpretate, in cui dunque nessun carattere di `escape` (\n, \t, ecc.. ecc.) viene rilevato.

In [31]:
# In questa stringa formattata, la parentesi graffa individua un campo da formattare, 
# e il \n manda a capo la stampa
print(f"{456:f}\nciao")

456.000000
ciao


In [32]:
# La stringa raw, identificata dalla "r" prima delle virgolette, non viene interpretata 
print(r"{456:f}\nciao")

{456:f}\nciao


In [33]:
print("{456:f}\nciao")

{456:f}
ciao


## Espressioni Regolari: Regex

Un "espressione regolare" e' una sequenza di caratteri che identifica un gruppo di stringhe.

### Modulo `re`

In [34]:
import re #regular expression

### `fullmatch`
`re.fullmatch(pattern, stringa)`<br>
L'intera stirnga deve coincidere con il pattern proposto.

In [35]:
stringa 
stringa_2 = "Sei"

In [36]:
if re.fullmatch("9ei", stringa_2):
    print("Trovato")
else: 
    print("non Trovato")

non Trovato


#### Metacaratteri:
* __`[] `__ per creare Categorie Personalizzate
* __`{} `__ per definire quantiicatori personalizzati
* __`() `__ per definire un gruppo
* __`\  `__ per definire una categoria di caratteri o come carattere di escape
* __`*  `__ zero o piu' occorrenze
* __`+  `__ una o piu' occorrenze
* __`?  `__ zero o una occorrenza
* __`^  `__ per negare una categoria corrispodente - posto a'inizio  di una ER indica un confronto con l'inizio della stringa
* __`$  `__ posto alla fine di una ER indica un confronto con la fine della stringa
* __`.  `__ der definire un qualsiasi carattere eccetto i newline

### Categorie di Caratteri

* `\d`: tutti i caratteri che rappresentano numeri
* `\D`: tutti i caratteri che NON rappresentano numeri
* `\s`: tutti i caratteri che identificano una spazio (\n, \t, ...)
* `\S`: tutti i caratteri che NON identificano una spazio
* `\w`: tutti i caratteri alfanumerici [0-9a-zA-z]
* `\W`: tutti i caratteri NON alfanumerici

In [37]:
stringa_2 = "due"

# questo pattern identifica una qualsiasi sequenza di 3 caratteri
# alfanumerici
# 041-789987 
pattern = "\d\d\d-\d\d\d\d\d\d"

if re.fullmatch(pattern, "23-456459"):
    print("Numero Valido")
else: 
    print("Numero NON Valido")

Numero NON Valido


In [38]:
stringa_2 = "due"

# questo pattern identifica una qualsiasi sequenza di 3 caratteri
# alfanumerici
# 041-789987 
pattern = "\d{3}-\d{6}"

if re.fullmatch(pattern, "230-456459"):
    print("Numero Valido")
else: 
    print("Numero NON Valido")

Numero Valido


In [39]:
stringa_2 = "due"


# Supponiamo che il trattino possa esserci o non esserci, 
# e che possa anche apparire piu' di una volta
pattern = "\d{3}-*\d{6}"

if re.fullmatch(pattern, "230---456459"):
    print("Numero Valido")
else: 
    print("Numero NON Valido")

Numero Valido


In [40]:
stringa_2 = "due"

# Il trattino sarebbe piu' intelligente considerarlo 
# presente solo o 0 o 1 volta

pattern = "\d{3}-?\d{6}"

if re.fullmatch(pattern, "230--456459"):
    print("Numero Valido")
else: 
    print("Numero NON Valido")

Numero NON Valido


In [41]:
stringa_2 = "due"

# Il trattino sarebbe piu' intelligente considerarlo 
# presente solo o 0 o 1 volta

pattern = "\d+-?\d+"

if re.fullmatch(pattern, "2--459"):
    print("Numero Valido")
else: 
    print("Numero NON Valido")

Numero NON Valido


#### Identfichiamo un indirizzo email:


dg8lnlsd.naskj@dominio.it



In [42]:

pattern = "\w+[0-9a-zA-Z\.]*\w@\w+[0-9a-zA-Z\.]*\.[a-zA-Z]{2,3}"

if re.fullmatch(pattern, "098casa=casa.casas.it"):
    print("Valido")
else: 
    print("NON Valido")

NON Valido


In [43]:
pattern = ".+@.+\.[a-zA-Z]{2,3}"

if re.fullmatch(pattern, "0.)=a@casa.casas.it"):
    print("Valido")
else: 
    print("NON Valido")

Valido


### `search`

Cerca all'interno della stringa e restituisce la prima occorrenza in un oggetto di tipo Match

In [44]:
stringa

'Tre di Bastoni       Sei di Bastoni       Due di Denari        Tre di Denari'

In [45]:
pattern = "[A-Z][a-z]*"

oggetto_trovato = re.search(pattern ,stringa)

### `match`

Esegue la ricerca del pattern all'inizio della stringa

In [46]:
stringa

'Tre di Bastoni       Sei di Bastoni       Due di Denari        Tre di Denari'

In [47]:
pattern = "Tre "

re.match(pattern ,stringa)

<re.Match object; span=(0, 4), match='Tre '>

### `findall`
Cerca il pattern all'interno della stringa e restituisce una lista contenente tutti gli oggetti trovati

In [48]:
stringa

'Tre di Bastoni       Sei di Bastoni       Due di Denari        Tre di Denari'

In [49]:
pattern = "[A-Z][a-z]{2} "

re.findall(pattern ,stringa)

['Tre ', 'Sei ', 'Due ', 'Tre ']

### `finditer`
Restituisce un oggetto di tipo iteratore contenente una serie di oggetti di tipo Math, uno per ogni occorrenza del pattern trovato all'interno della stringa

In [50]:
pattern = "[A-Z][a-z]{2} "

for finded in re.finditer(pattern ,stringa):
    print("Trovato")

Trovato
Trovato
Trovato
Trovato


### `sub(pattern, repl, string)`

Sostituisce tutte le occorrenze del pattern con il replacement all'interno della stringa


In [51]:
stringa

'Tre di Bastoni       Sei di Bastoni       Due di Denari        Tre di Denari'

In [52]:
pattern = "  +"

re.findall(pattern, stringa.strip())
print(re.sub(pattern, "\t", stringa))


Tre di Bastoni	Sei di Bastoni	Due di Denari	Tre di Denari


### Gruppi: `groups` e `group`

Posso identificare all'interno del pattern dei "sotto-pattern" per accedere ad elementi specifici della stringa.

I metodi dell'oggetto Match:<br>
`oggetto_match.groups()` --> restituisce una tupla contenente tutti i sotto-gruppi trovati 
`oggetto_match.group(n_sottogruppo)` --> restituisce il sottogruppo specifico, tenendo presente che il sottogruppo 1 e' l'intero oggetto Match <br>

E' anche possibile specificare un nome per il sotto pattern.

In [53]:
 pattern = "(.+)@(.+)\.([a-zA-Z]{2,3})"

oggetto_match = re.match(pattern, "unIndirizzo@casa.casas.it")


In [54]:
oggetto_match.groups()

('unIndirizzo', 'casa.casas', 'it')

In [55]:
oggetto_match.group()

'unIndirizzo@casa.casas.it'

In [56]:
#E' possibile dare un nome ai gruppi specificandoli all'interno della
# parentesi tonda in questo modo:
    
pattern = "(?P<nome>.+)@(.+)\.(?P<dominio>[a-zA-Z]{2,3})"

oggetto_match = re.match(pattern, "unIndirizzo@casa.casas.it")


In [57]:
# in tal modo l'accesso alle occorrenze del gruppo puo' essere fatta per nome:
oggetto_match.group("nome")

'unIndirizzo'

In [58]:
oggetto_match.group(1)

'unIndirizzo'

In [59]:
oggetto_match.group("dominio")

'it'