## Stringhe

Un punto in cui il linguaggio Python brilla davvero è la manipolazione delle stringhe. In questa sezione verranno illustrati alcuni metodi di stringa e operazioni di formattazione integrati in Python.

Questi schemi di manipolazione delle stringhe si presentano spesso nel contesto del lavoro della scienza dei dati.

In [1]:
x = 'Pluto is a planet'
y = "Pluto is a planet"
x == y

True

In [2]:
print("Pluto's a planet!")
print('My dog is named "Pluto"')

Pluto's a planet!
My dog is named "Pluto"


In [3]:
'Pluto\'s a planet!'

"Pluto's a planet!"

![image-2.png](attachment:image-2.png)
L'ultima sequenza, \n, rappresenta il carattere newline. Fa sì che Python inizi una nuova riga.

In [4]:
hello = "hello\nworld"
print(hello)

hello
world


Inoltre, la sintassi delle triple virgolette di Python per le stringhe ci permette di includere le newline letteralmente (cioè premendo semplicemente 'Invio' sulla tastiera, invece di usare la sequenza speciale '\n'). Lo abbiamo già visto nelle docstring che usiamo per documentare le nostre funzioni, ma possiamo usarle ovunque vogliamo definire una stringa.

In [5]:
triplequoted_hello = """hello
world"""
print(triplequoted_hello)
triplequoted_hello == hello

hello
world


True

The print() function automatically adds a newline character unless we specify a value for the keyword argument end other than the default value of '\n':

In [6]:
print("hello")
print("world")
print("hello", end='')
print("pluto", end='')

hello
world
hellopluto

In [7]:
# Indexing
planet = 'Pluto'
planet[0]

'P'

In [8]:
# Slicing
planet[-3:]

'uto'

In [9]:
# How long is this string?
len(planet)

5

In [10]:
# Yes, we can even loop over them
[char+'! ' for char in planet]

['P! ', 'l! ', 'u! ', 't! ', 'o! ']

Ma un aspetto importante che li differenzia dagli elenchi è che sono immutabili. Non si possono modificare.

**metodi**

In [11]:
# ALL CAPS
claim = "Pluto is a planet!"
claim.upper()

'PLUTO IS A PLANET!'

In [12]:
# all lowercase
claim.lower()

'pluto is a planet!'

In [13]:
# Searching for the first index of a substring
claim.index('plan')

11

In [14]:
claim.startswith(planet)

True

In [15]:
# false because of missing exclamation mark
claim.endswith('planet')

False

Passaggio tra stringhe e liste: **.split()** e **.join()**
**str.split()** trasforma una stringa in un elenco di stringhe più piccole, interrompendo per default gli spazi bianchi. È molto utile per passare da una grande stringa a un elenco di parole.

In [16]:
words = claim.split()
words

['Pluto', 'is', 'a', 'planet!']

In [17]:
datestr = '1956-01-31'
year, month, day = datestr.split('-')

**str.join()** ci porta nella direzione opposta, cucendo un elenco di stringhe in un'unica lunga stringa, usando la stringa su cui è stato chiamato come separatore.

In [18]:
'/'.join([month, day, year])

'01/31/1956'

In [19]:
# Yes, we can put unicode characters right in our string literals :)
' 👏 '.join([word.upper() for word in words])

'PLUTO 👏 IS 👏 A 👏 PLANET!'

Concatenare stringhe con **.format()**. Python ci permette di concatenare le stringhe con l'operatore +.

In [20]:
planet + ', we miss you.'

'Pluto, we miss you.'

In [22]:
position = 9
planet + ", you'll always be the " + str(position) + "th planet to me."

"Pluto, you'll always be the 9th planet to me."

Questo sta diventando difficile da leggere e fastidioso da digitare. **str.format()** in soccorso.

In [25]:
"{}, you'll always be the {}th planet to me.".format(planet, position)

"Pluto, you'll always be the 9th planet to me."

Molto più pulito! Chiamiamo **.format()** su una "stringa di formato", dove i valori Python che vogliamo inserire sono rappresentati da segnaposto {}.

Notate come non abbiamo nemmeno dovuto chiamare str() per convertire la posizione da un int. **.format()** se ne occupa per noi.

Se **.format()** facesse solo questo, sarebbe ancora incredibilmente utile. Ma si scopre che può fare molto di più. Ecco solo un assaggio:

In [26]:
pluto_mass = 1.303 * 10**22
earth_mass = 5.9722 * 10**24
population = 52910390
#         2 decimal points   3 decimal points, format as percent     separate with commas
"{} weighs about {:.2} kilograms ({:.3%} of Earth's mass). It is home to {:,} Plutonians.".format(
    planet, pluto_mass, pluto_mass / earth_mass, population,
)

"Pluto weighs about 1.3e+22 kilograms (0.218% of Earth's mass). It is home to 52,910,390 Plutonians."

In [27]:
# Referring to format() arguments by index, starting from 0
s = """Pluto's a {0}.
No, it's a {1}.
{0}!
{1}!""".format('planet', 'dwarf planet')
print(s)

Pluto's a planet.
No, it's a dwarf planet.
planet!
dwarf planet!


## Dizionari

I dizionari sono una struttura dati integrata in Python per la mappatura di chiavi e valori.

In questo caso, "uno", "due" e "tre" sono le **keys** e 1, 2 e 3 sono i **values** corrispondenti.

L'accesso ai valori avviene tramite la sintassi delle parentesi quadre, simile all'indicizzazione di elenchi e stringhe.

In [28]:
numbers = {'one':1, 'two':2, 'three':3}

In [29]:
numbers['one']

1

Si può usare la stessa sintassi per aggiungere un'altra coppia key-value

In [30]:
numbers['eleven'] = 11
numbers

{'one': 1, 'two': 2, 'three': 3, 'eleven': 11}

In [31]:
numbers['one'] = 'Pluto'
numbers

{'one': 'Pluto', 'two': 2, 'three': 3, 'eleven': 11}

Python dispone di comprensioni di dizionari con una sintassi simile a quella delle liste che abbiamo visto nel tutorial precedente.

In [32]:
planets = ['Mercury', 'Venus', 'Earth', 'Mars', 'Jupiter', 'Saturn', 'Uranus', 'Neptune']
planet_to_initial = {planet: planet[0] for planet in planets}
planet_to_initial

{'Mercury': 'M',
 'Venus': 'V',
 'Earth': 'E',
 'Mars': 'M',
 'Jupiter': 'J',
 'Saturn': 'S',
 'Uranus': 'U',
 'Neptune': 'N'}

L'operatore **in** ci dice se qualcosa è una chiave nel dizionario

In [33]:
'Saturn' in planet_to_initial

True

In [34]:
'Betelgeuse' in planet_to_initial

False

In [35]:
for k in numbers:
    print("{} = {}".format(k, numbers[k]))

one = Pluto
two = 2
three = 3
eleven = 11


Possiamo accedere a un insieme di tutte le keys o di tutti i values rispettivamente con **dict.keys()** e **dict.values()**.

In [36]:
# Get all the initials, sort them alphabetically, and put them in a space-separated string.
' '.join(sorted(planet_to_initial.values()))

'E J M M N S U V'

L'utilissimo metodo **dict.items()** ci permette di iterare contemporaneamente sulle keys e sui values di un dizionario. (Nel gergo di Python, un elemento si riferisce a una coppia keys-values).

In [37]:
for planet, initial in planet_to_initial.items():
    print("{} begins with \"{}\"".format(planet.rjust(10), initial))

   Mercury begins with "M"
     Venus begins with "V"
     Earth begins with "E"
      Mars begins with "M"
   Jupiter begins with "J"
    Saturn begins with "S"
    Uranus begins with "U"
   Neptune begins with "N"


In [38]:
help(dict)

Help on class dict in module builtins:

class dict(object)
 |  dict() -> new empty dictionary
 |  dict(mapping) -> new dictionary initialized from a mapping object's
 |      (key, value) pairs
 |  dict(iterable) -> new dictionary initialized as if via:
 |      d = {}
 |      for k, v in iterable:
 |          d[k] = v
 |  dict(**kwargs) -> new dictionary initialized with the name=value pairs
 |      in the keyword argument list.  For example:  dict(one=1, two=2)
 |  
 |  Built-in subclasses:
 |      StgDict
 |  
 |  Methods defined here:
 |  
 |  __contains__(self, key, /)
 |      True if the dictionary has the specified key, else False.
 |  
 |  __delitem__(self, key, /)
 |      Delete self[key].
 |  
 |  __eq__(self, value, /)
 |      Return self==value.
 |  
 |  __ge__(self, value, /)
 |      Return self>=value.
 |  
 |  __getattribute__(self, name, /)
 |      Return getattr(self, name).
 |  
 |  __getitem__(...)
 |      x.__getitem__(y) <==> x[y]
 |  
 |  __gt__(self, value, /)
 |  

## Esercizi

In [39]:
from learntools.core import binder; binder.bind(globals())
from learntools.python.ex6 import *
print('Setup complete.')

Setup complete.


### Domanda 1

Iniziamo con un giro di corda per riscaldarci. Quali sono le lunghezze delle stringhe qui sotto?

Per ognuna delle cinque stringhe sottostanti, prevedete quale sarebbe il risultato di len() quando gli viene passata la stringa. Utilizzate la variabile lunghezza per registrare la vostra risposta, quindi eseguite la cella per verificare se avevate ragione.

In [40]:
a = ""
length = 0
q0.a.check()

<IPython.core.display.Javascript object>

<span style="color:#33cc33">Correct:</span> 

The empty string has length zero. Note that the empty string is also the only string that Python considers as False when converting to boolean.

In [45]:
b = "it's ok"
length = 7
q0.b.check()

<IPython.core.display.Javascript object>

<span style="color:#33cc33">Correct:</span> 

Keep in mind Python includes spaces (and punctuation) when counting string length.

In [46]:
c = 'it\'s ok'
length = 7
q0.c.check()

<IPython.core.display.Javascript object>

<span style="color:#33cc33">Correct:</span> 

Even though we use different syntax to create it, the string `c` is identical to `b`. In particular, note that the backslash is not part of the string, so it doesn't contribute to its length.

In [47]:
d = """hey"""
length = 3
q0.d.check()

<IPython.core.display.Javascript object>

<span style="color:#33cc33">Correct:</span> 

The fact that this string was created using triple-quote syntax doesn't make any difference in terms of its content or length. This string is exactly the same as `'hey'`.

In [48]:
e = '\n'
length = 1
q0.e.check()

<IPython.core.display.Javascript object>

<span style="color:#33cc33">Correct:</span> 

The newline character is just a single character! (Even though we represent it to Python using a combination of two characters.)

### Domanda 2

Un detto recita: "I data scientist passano l'80% del loro tempo a pulire i dati e il 20% del loro tempo a lamentarsi della pulizia dei dati". Vediamo se è possibile scrivere una funzione che aiuti a pulire i dati relativi ai codici di avviamento postale degli Stati Uniti. Data una stringa, dovrebbe restituire se questa stringa rappresenta o meno un codice postale valido. Per i nostri scopi, un codice postale valido è una stringa composta esattamente da 5 cifre.

SUGGERIMENTO: str ha un metodo che può essere utile in questo caso. Utilizzate help(str) per consultare l'elenco dei metodi delle stringhe.

In [49]:
def is_valid_zip(zip_code):
    """Returns whether the input string is a valid (5 digit) zip code
    """
    return len(zip_code) == 5 and zip_code.isdigit()

# Check your answer
q1.check()

<IPython.core.display.Javascript object>

<span style="color:#33cc33">Correct</span>

### Domanda 3

Un ricercatore ha raccolto migliaia di articoli di notizie. Ma vuole concentrare la sua attenzione sugli articoli che includono una parola specifica. Completate la funzione sottostante per aiutarla a filtrare il suo elenco di articoli.

La funzione deve soddisfare i seguenti criteri:

- Non includere documenti in cui la stringa della parola chiave compare solo come parte di una parola più grande. Ad esempio, se cercasse la parola chiave "chiuso", non includereste la stringa "chiuso". 
- Non vuole che si distinguano le lettere maiuscole da quelle minuscole. Quindi la frase "Chiuso il caso." verrebbe inclusa quando la parola chiave è "chiuso".
- Non lasciare che i periodi o le virgole influenzino la corrispondenza. La frase "È chiuso." verrebbe inclusa quando la parola chiave è "chiuso". Ma si può supporre che non ci siano altri tipi di punteggiatura.

In [50]:
def word_search(doc_list, keyword):
    """
    Takes a list of documents (each document is a string) and a keyword. 
    Returns list of the index values into the original list for all documents 
    containing the keyword.

    Example:
    doc_list = ["The Learn Python Challenge Casino.", "They bought a car", "Casinoville"]
    >>> word_search(doc_list, 'casino')
    >>> [0]
    """
    # list to hold the indices of matching documents
    indices = [] 
    # Iterate through the indices (i) and elements (doc) of documents
    for i, doc in enumerate(doc_list):
        # Split the string doc into a list of words (according to whitespace)
        tokens = doc.split()
        # Make a transformed list where we 'normalize' each word to facilitate matching.
        # Periods and commas are removed from the end of each word, and it's set to all lowercase.
        normalized = [token.rstrip('.,').lower() for token in tokens]
        # Is there a match? If so, update the list of matching indices.
        if keyword.lower() in normalized:
            indices.append(i)
    return indices

# Check your answer
q2.check()

<IPython.core.display.Javascript object>

<span style="color:#33cc33">Correct</span>

### Domanda 4

Ora il ricercatore vuole fornire più parole chiave da ricercare. Completate la funzione sottostante per aiutarla.

(Si consiglia di utilizzare la funzione `word_search` appena scritta per implementare questa funzione. Il riutilizzo del codice in questo modo rende i programmi più robusti e leggibili, e fa risparmiare la digitazione).

In [51]:
def multi_word_search(doc_list, keywords):
    """
    Takes list of documents (each document is a string) and a list of keywords.  
    Returns a dictionary where each key is a keyword, and the value is a list of indices
    (from doc_list) of the documents containing that keyword

    >>> doc_list = ["The Learn Python Challenge Casino.", "They bought a car and a casino", "Casinoville"]
    >>> keywords = ['casino', 'they']
    >>> multi_word_search(doc_list, keywords)
    {'casino': [0, 1], 'they': [1]}
    """
    keyword_to_indices = {}
    for keyword in keywords:
        keyword_to_indices[keyword] = word_search(doc_list, keyword)
    return keyword_to_indices

# Check your answer
q3.check()

<IPython.core.display.Javascript object>

<span style="color:#33cc33">Correct</span>