Cette leçon présente deux des principaux types de Python : les chaînes de caractères et les dictionnaires.

# Chaines de caractères

L'un des endroits où le langage Python brille vraiment est dans la manipulation des chaînes de caractères. Cette section couvrira certaines des méthodes et opérations de formatage de chaînes de caractères intégrées à Python.

De tels modèles de manipulation de chaînes apparaissent souvent dans les projets de Data Science, et constituent un des grands avantages de Python dans ce contexte.

## Syntaxe d'une chaine

Vous avez déjà vu de nombreuses chaînes de caractères dans les exemples des leçons précédentes, mais pour résumer, les chaînes de caractères en Python peuvent être définies en utilisant des guillemets simples ou doubles. Elles sont fonctionnellement équivalentes.

In [1]:
x = 'Pluto is a planet'
y = "Pluto is a planet"
x == y

True

Les guillemets doubles sont pratiques si votre chaîne contient un seul caractère de citation (par exemple, représentant une apostrophe).

De même, il est facile de créer une chaîne qui contient des guillemets si vous l'entourez de guillemets simples :

In [2]:
print("Pluto's a planet!")
print('My dog is named "Pluto"')

Pluto's a planet!
My dog is named "Pluto"


Si nous essayons de mettre un seul caractère entre guillemets dans une chaîne de caractères, Python s'embrouille :

In [8]:
'Pluto's a planet!'

SyntaxError: invalid syntax (<ipython-input-8-a43631749f52>, line 1)

Nous pouvons y remédier en "échappant" à la simple citation avec une barre oblique inversée

In [9]:
'Pluto\'s a planet!'

"Pluto's a planet!"

Le tableau ci-dessous résume certaines utilisations importantes du caractère backslash.

|What you type...|What you get|example                 |print(example)      |
|----------------|------------|------------------------|--------------------|
|\\'             |'           |'What\\'s up?'          |What's up?          |
|\\"             |"	          |"That's \\"cool\\""     |That's "cool"       |
|\\\             |\	          |"Look, a mountain: /\\\\"|Look, a mountain: /\|
|\n	             |            |"1\n2 3"                |1                   |
|                |            |                        |2 3                 |

La dernière séquence, \n, représente le caractère de retour à la ligne. Elle fait en sorte que Python commence une nouvelle ligne.

In [10]:
hello = "hello\nworld"
print(hello)

hello
world


De plus, la syntaxe de Python à trois guillemets pour les chaînes de caractères nous permet d'inclure littéralement les nouvelles lignes (c'est-à-dire en appuyant simplement sur "Entrée" sur notre clavier, plutôt qu'en utilisant la séquence spéciale "\n").

In [16]:
triplequoted_hello = """hello 
world"""
print(triplequoted_hello)
triplequoted_hello == hello

hello 
world


False

La fonction print() ajoute automatiquement un caractère de retour à la ligne à moins que nous ne spécifiez une valeur pour la fin de l'argument du mot-clé autre que la valeur par défaut de "\n" :

In [20]:
print("hello")
print("world")
print("hello", end='')
print("pluto", end='')

print("lion", "mouton", sep='>')

hello
world
hellopluto
lion>mouton


## Les chaînes de caractères sont des séquences

Les chaînes peuvent être considérées comme des séquences de caractères. Presque tout ce que nous avons vu que nous pouvons faire à une liste, nous pouvons aussi le faire à une chaîne.

In [21]:
# Indexing
planet = 'Pluto'
planet[0]

'P'

In [23]:
planet[-3]

'u'

In [22]:
# Slicing
planet[-3:]

'uto'

In [None]:
# How long is this string?
len(planet)

In [26]:
# Yes, we can even loop over them
[char+'! ' for char in planet] # concaténation de char par !

['P! ', 'l! ', 'u! ', 't! ', 'o! ']

Mais l'une des principales différences avec les listes est qu'elles sont immuables. On ne peut pas les modifier.

In [27]:
planet[0] = 'B'
#planet.append doesn't work either

TypeError: 'str' object does not support item assignment

## Les méthodes de chaines de caractères

Comme la liste, le type str a beaucoup de méthodes très utiles. Quelques exemples ici.

In [28]:
# ALL CAPS
claim = "Pluto is a planet!"
claim.upper()

'PLUTO IS A PLANET!'

In [29]:
# all lowercase
claim.lower()

'pluto is a planet!'

In [31]:
# Searching for the first index of a substring
print(len(claim))
claim.index('plan')

18


11

In [38]:
claim.startswith(planet) # commence-t-il par planet='Pluto'

True

In [35]:
claim.endswith('dwarf planet')

False

### Aller entre les chaînes de caractères et les listes : .split() et .join()

str.split() transforme une chaîne de caractères en une liste de chaînes plus petites, en les séparant par des espaces par défaut. C'est très utile pour passer d'une grande chaîne de caractères à une liste de mots.

In [39]:
words = claim.split() # permet de casser une phrase en plusieurs mots
words

['Pluto', 'is', 'a', 'planet!']

De temps en temps, vous pourriez avoir envie de séparer sur autre chose que l'espace blanc :

In [40]:
datestr = '1956-01-31'
year, month, day = datestr.split('-') # on casse la date dès que l'on rencontre -

print(year)
print(month)
print(day)


1956
01
31


str.join() nous emmène dans l'autre sens, en cousant une liste de cordes en une longue corde, en utilisant la corde sur laquelle elle a été appelée comme séparateur.

In [41]:
'/'.join([month, day, year]) # .join() est le contraire de .split() 

'01/31/1956'

In [42]:
# Yes, we can put unicode characters right in our string literals :)
' 👏 '.join([word.upper() for word in words])

'PLUTO 👏 IS 👏 A 👏 PLANET!'

### Construire des chaînes de caractères avec .format()

Python nous permet de concaténer des chaînes de caractères avec l'opérateur +.

In [43]:
planet + ', we miss you.'

'Pluto, we miss you.'

Si nous voulons ajouter des objets qui ne sont pas des chaînes de caractères, nous devons faire attention à appeler str() en premier

In [44]:
position = 9
planet + ", you'll always be the " + position + "th planet to me."

TypeError: can only concatenate str (not "int") to str

In [45]:
planet + ", you'll always be the " + str(position) + "th planet to me."

"Pluto, you'll always be the 9th planet to me."

Cela devient difficile à lire et ennuyeux à taper. Appeler str.format() à la rescousse.

In [46]:
"{}, you'll always be the {}th planet to me.".format(planet, position)

"Pluto, you'll always be the 9th planet to me."

Tellement plus propre ! Nous appelons .format() sur une "chaîne de format", où les valeurs Python que nous voulons insérer sont représentées par des caractères de remplacement {}.

Remarquez que nous n'avons même pas eu besoin d'appeler str() pour convertir la position d'un int. La méthode format() s'occupe de cela pour nous.

Il s'avère que la méthode format() peut faire beaucoup plus. En voici un aperçu :

In [47]:
pluto_mass = 1.303 * 10**22
earth_mass = 5.9722 * 10**24
population = 52910390
#         2 decimal points   3 decimal points, format as percent     separate with commas
"{} weighs about {:.2} kilograms ({:.3%} of Earth's mass). It is home to {:,} Plutonians.".format(
    planet, pluto_mass, pluto_mass / earth_mass, population,
)

"Pluto weighs about 1.3e+22 kilograms (0.218% of Earth's mass). It is home to 52,910,390 Plutonians."

In [50]:
# Referring to format() arguments by index, starting from 0
s = """Pluto's a {0}.
No, it's a {1}.
{0}!
{1}!""".format('planet', 'dwarf planet')
print(s)

Pluto's a planet.
No, it's a dwarf planet.
planet!
dwarf planet!


# Dictionnaires

Les dictionnaires sont une structure de données Python intégrée pour la mise en correspondance des clés avec les valeurs.

In [51]:
numbers = {'one':1, 'two':2, 'three':3}

Dans ce cas, "un", "deux" et "trois" sont les clés, et 1, 2 et 3 sont les valeurs correspondantes.

Les valeurs sont accessibles par une syntaxe de crochets similaire à l'indexation dans des listes et des chaînes de caractères.

In [52]:
numbers['one']

1

Nous pouvons utiliser la même syntaxe pour ajouter une autre clé, la paire de valeurs

In [53]:
numbers['eleven'] = 11
numbers

{'one': 1, 'two': 2, 'three': 3, 'eleven': 11}

Ou pour modifier la valeur associée à une clé existante

In [54]:
numbers['one'] = 'Pluto'
numbers

{'one': 'Pluto', 'two': 2, 'three': 3, 'eleven': 11}

Python a des compréhensions de dictionnaire avec une syntaxe similaire aux compréhensions de liste que nous avons vues dans le tutoriel précédent.

In [55]:
planets = ['Mercury', 'Venus', 'Earth', 'Mars', 'Jupiter', 'Saturn', 'Uranus', 'Neptune']
planet_to_initial = {planet: planet[0] for planet in planets} # la valeur est les initiales des planètes
planet_to_initial

{'Mercury': 'M',
 'Venus': 'V',
 'Earth': 'E',
 'Mars': 'M',
 'Jupiter': 'J',
 'Saturn': 'S',
 'Uranus': 'U',
 'Neptune': 'N'}

L'opérateur in nous dit si quelque chose est une clé dans le dictionnaire

In [56]:
'Saturn' in planet_to_initial 

True

In [57]:
'Betelgeuse' in planet_to_initial

False

Une boucle sur un dictionnaire boucle sur ses clés

In [58]:
for k in numbers:
    print("{} = {}".format(k, numbers[k]))

one = Pluto
two = 2
three = 3
eleven = 11


Nous pouvons accéder à une collection de toutes les clés ou de toutes les valeurs avec respectivement dict.keys() et dict.values().

In [59]:
numbers.keys()

dict_keys(['one', 'two', 'three', 'eleven'])

In [60]:
numbers.values()

dict_values(['Pluto', 2, 3, 11])

In [61]:
# Get all the initials, sort them alphabetically, and put them in a space-separated string.
' '.join(sorted(planet_to_initial.values()))

'E J M M N S U V'

La très utile méthode dict.items() nous permet d'itérer simultanément sur les clés et les valeurs d'un dictionnaire. (Dans le jargon Python, un item fait référence à une clé, une paire de valeurs)

In [73]:
print(planet_to_initial.items()) # donne la clé et sa valeur associée

for planet, initial in planet_to_initial.items():
    print("{} begins with \"{}\"".format(planet, initial))
    print("{} begins with \"{}\"".format(planet.rjust(10), initial))

dict_items([('Mercury', 'M'), ('Venus', 'V'), ('Earth', 'E'), ('Mars', 'M'), ('Jupiter', 'J'), ('Saturn', 'S'), ('Uranus', 'U'), ('Neptune', 'N')])
Mercury begins with "M"
   Mercury begins with "M"
Venus begins with "V"
     Venus begins with "V"
Earth begins with "E"
     Earth begins with "E"
Mars begins with "M"
      Mars begins with "M"
Jupiter begins with "J"
   Jupiter begins with "J"
Saturn begins with "S"
    Saturn begins with "S"
Uranus begins with "U"
    Uranus begins with "U"
Neptune begins with "N"
   Neptune begins with "N"


Pour consulter l'inventaire complet des méthodes des dictionnaires, cliquez sur le bouton "output" ci-dessous pour lire la page d'aide complète, ou consultez la documentation officielle en ligne.

In [72]:
help(dict)

Help on class dict in module builtins:

class dict(object)
 |  dict() -> new empty dictionary
 |  dict(mapping) -> new dictionary initialized from a mapping object's
 |      (key, value) pairs
 |  dict(iterable) -> new dictionary initialized as if via:
 |      d = {}
 |      for k, v in iterable:
 |          d[k] = v
 |  dict(**kwargs) -> new dictionary initialized with the name=value pairs
 |      in the keyword argument list.  For example:  dict(one=1, two=2)
 |  
 |  Methods defined here:
 |  
 |  __contains__(self, key, /)
 |      True if the dictionary has the specified key, else False.
 |  
 |  __delitem__(self, key, /)
 |      Delete self[key].
 |  
 |  __eq__(self, value, /)
 |      Return self==value.
 |  
 |  __ge__(self, value, /)
 |      Return self>=value.
 |  
 |  __getattribute__(self, name, /)
 |      Return getattr(self, name).
 |  
 |  __getitem__(...)
 |      x.__getitem__(y) <==> x[y]
 |  
 |  __gt__(self, value, /)
 |      Return self>value.
 |  
 |  __init__(self,