# Le type `str`

Préambule : Ce cours ne prétend pas présenter de manière exhaustive les chaînes de caractères. Pour plus d'informations, consulter la [documentation officielle](https://docs.python.org/fr/3.6/tutorial/introduction.html#strings)

## Ecriture des chaînes de caractères en python

Une chaîne de caractère se délimite soit avec des guillemets simples `''` soit avec des guillemets doubles `""` (c'est l'un ou l'autre !!)


> **ATTENTION : Le mot "CARACTERE" doit s'entendre dans un sens très large : Les chaînes de caractères ne contiennent pas que des lettres ! N'importe quel symbole (visible ou invisible) peut faire partie d'une chaîne de caractères.** <br><br>
* En python, tout ce qui se délimite par des guillemets est une chaîne de caractères
* En python, dès que quelquechose est délimité par des guillemets, c'est une chaîne de caractères

In [1]:
# Avec des ""
type("bonjour")

str

In [2]:
# Avec des ''
type('bonjour')

str

In [3]:
# Mais pas avec "'
type("bonjour')

SyntaxError: EOL while scanning string literal (<ipython-input-3-14a68494c4ec>, line 2)

In [4]:
# Il est possible d'écrire les chaînes de caractères 
# sur plusieurs lignes avec des triples guillements """ comme dans les docstrings

"""Ceci est une chaine
de caractères
écrite sur plusieurs lignes"""

'Ceci est une chaine\nde caractères\nécrite sur plusieurs lignes'

## Erreur à ne pas comettre
Ne pas confondre `4` et `'4'`. Pour la machine il ne s'agit pas du tout de la même chose :
* Ce ne sont pas des objets de même type (`int` vs `str`)
* Leur encodage (leur "*traduction en 1 et 0 dans la machine"*) est très différent

In [11]:
4 == '4'

False

In [1]:
print(type(4))
print(type('4'))

<class 'int'>
<class 'str'>


Un espace, ce n'est pas "rien", c'est bien un caractère !

In [13]:
"" == " "

False

Ne pas confondre variable et chaîne de caractères...

In [14]:
a = 5 # Déclaration d'une variable a référençant l'objet entier 5

print(a) # on affiche l'objet référencé par la variable a, c'est-à-dire 5
print("a") # on affiche la chaîne de caractère a

a + 2 #Cela a du sens
"a" + 2 #Cela n'a pas de sens

5
a


TypeError: must be str, not int

Imaginons que nous voulons afficher une phrase indiquant le nom, l'age et l'adresse de la **personne** :

_**Anne**_ a _**30**_ ans et habite _**Paris**_

In [7]:
#Déclaration de 3 variables
nom = "Alice"
age = 30
adresse = "Paris"

In [8]:
# Méthode peu pratique : on se perd facilement dans les guillemets et les virgules
print(nom,"a",age,"ans et habite",adresse)

Alice a 30 ans et habite Paris


# Manipulation des chaînes de caractères en Python

Grâce au mécanisme de "Surcharge d'opérateur" (mécanisme hors programme), on peut donner une signification à des opérateurs à priori *arihmétiques* sur des chaînes de caractères (on l'a déjà vu pour `>` par exemple...)

In [15]:
# + est l'opérateur concaténation
"bonjour"+"Monsieur"

'bonjourMonsieur'

In [2]:
# * permet de répéter des caractères
"Python"*5

'PythonPythonPythonPythonPython'

## Longueur d'une chaine

La longueur d'une chaîne de caractères s'obtient grâce à la fonction `len()`. Cette fonction doit être connue : elle est souvent utilisée !!

In [18]:
#Le mot python contient 6 caractères
ma_chaine="python"
len(ma_chaine)

6

## Les slices

Pour comprendre les slices, il faut savoir que les caractères d'une chaîne de caractère peuvent se numéroter **EN COMMENCANT PAR ZERO**. En effet, une chaîne de caractère est une **séquence ORDONNEE de caractères**. Ces numéros s'appellent des **INDICES**

Exemple pour la chaîne de caractères `"python"`:

|p|y|t|h|o|n|
|-|-|-|-|-|-|
|0|1|2|3|4|5|

Dans la chaine de caractères `'python'`, le caractère `'p'` est d'indice 0 et le caractère `'h'` est d'indice 3


In [19]:
#Accès à un caractère
ma_chaine="python"
ma_chaine[2]

't'

In [20]:
#Accès à un slice (une tranche)

ma_chaine[1:4] # Attention, on prend la tranche allant de 1 inclus à 4 EXCLUS

'yth'

On peut aussi numéroter les caractères en commençant par la fin et à -1

|p|y|t|h|o|n|
|-|-|-|-|-|-|
|-6|-5|-4|-3|-2|-1|

In [21]:
ma_chaine[-5]

'y'

In [22]:
# Tranche allant de -4 inclus à -1 EXCLUS
ma_chaine[-4:-1]

'tho'

Bien d'autres choses peuvent être faites avec les slices : Ne pas hésiter à consulter la [documentation officielle](https://docs.python.org/fr/3.6/tutorial/introduction.html#strings)

## test d'appartenance `in`

In [4]:
ma_chaine="python"
'y' in ma_chaine

True

In [24]:
'r' in ma_chaine

False

In [5]:
'pyt' in ma_chaine

True

# Les chaînes de caractères comme OBJET

D'ailleurs **EN PYTHON TOUT EST OBJET**

On peut donc utiliser sur les chaînes de caractères, les concepts de la programmation orientée objet.
Ce concept sera abordé en terminale. En revanche certains **outils** sont utiles dès la première (sans comprendre le pourquoi du comment ils fonctionnent....)

En tant qu'objet (en fait en tant que classe...), le type `str` possèdent des fonctions (on dira méthodes plutôt que fonctions) qui lui sont propres. Pour les utiliser, on utilise la notation pointée :

In [None]:
chaine_de_caracteres.methode(paramètres_éventuels) #Exécution de methode() sur chaine_de_caractere, objet de type `str`

In [25]:
#La fonction dir() permet d'afficher la liste de toutes les méthodes (fonctions)
#qui sont définies pour un type donné

dir(str) #Affiche la liste de toutes les méthodes utilisables sur des objets de type str

['__add__',
 '__class__',
 '__contains__',
 '__delattr__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__getnewargs__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__mod__',
 '__mul__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__rmod__',
 '__rmul__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 'capitalize',
 'casefold',
 'center',
 'count',
 'encode',
 'endswith',
 'expandtabs',
 'find',
 'format',
 'format_map',
 'index',
 'isalnum',
 'isalpha',
 'isdecimal',
 'isdigit',
 'isidentifier',
 'islower',
 'isnumeric',
 'isprintable',
 'isspace',
 'istitle',
 'isupper',
 'join',
 'ljust',
 'lower',
 'lstrip',
 'maketrans',
 'partition',
 'replace',
 'rfind',
 'rindex',
 'rjust',
 'rpartition',
 'rsplit',
 'rstrip',
 'split',
 'splitlines',
 'startswith',
 'strip',
 'swapcase',
 'title',
 'translate',
 'upper',
 'zfill']

On oublie les méthodes spéciales qui commencent par '__'

In [26]:
# Pour obtenir de l'aide sur une fonction particulière
help(str.lower) #Aide sur la méthode lower()

Help on method_descriptor:

lower(...)
    S.lower() -> str
    
    Return a copy of the string S converted to lowercase.



In [27]:
# La méthode lower() met en minuscule
"CHAINE".lower()

'chaine'

In [6]:
# Autre exemple, la méthode replace()....

ma_chaine = "L'informatique, c'est horrible !!"

ma_chaine.replace("horrible", "super")

"L'informatique, c'est super !!"

### En résumé

Soyez curieux !! et testez quelques méthodes (quelques fonctions) définies pour le type `str`

# Quelques compléments (hors programme mais rencontré souvent dans du code informatique)

## Caractères spéciaux
Il existe certains caractères spéciaux dont l'écriture commence par un " \ ". On peut citer par exemple :
* \n : retour à la ligne qui est en fait 2 caractères : CR+LF. Ceci est variable suivant l'environnement (par exemple le système d'exploitation) et peut être la source de bug. Plus d'info [ici](https://fr.wikipedia.org/wiki/Carriage_Return_Line_Feed)
* \t : tabulation

In [5]:
print("retour \n à la ligne")

retour 
 à la ligne


In [6]:
print("une \t tabulation")

une 	 tabulation


## Echapper un caractère
échapper un caractère (à l'aide d'un " \ "), c'est lui ôter une signification particulière...

In [7]:
# Le problème se comprend vite grâce à la coloration syntaxique...
'J'aime l'informatique'

SyntaxError: invalid syntax (<ipython-input-7-d39ec67297a3>, line 2)

In [8]:
'J\'aime l\'informatique'

"J'aime l'informatique"

In [9]:
# Tentative d'affichage d'un chemin informatique (sous windows) : il y a un bug !
print("C:\temp")

C:	emp


In [10]:
# Bug corrigé !
print("C:\\temp")

C:\temp


### Formatage des chaînes de caractères
A priori hors programme mais très utile et utilisé...
Les exemples ci-dessous ne sont qu'un aperçu, consulter la documentation Python pour plus d'informations

In [10]:
#Déclaration de 3 variables
nom = "Alice"
age = 30
adresse = "Paris"

In [11]:
# Méthode .format()
chaine = "{} a {} ans et habite {}".format(nom,age,adresse)
print(chaine)

Alice a 30 ans et habite Paris


In [12]:
# Utilisation de f-strings
chaine = f"{nom} a {age} ans et habite {adresse}"
print(chaine)

Alice a 30 ans et habite Paris
