# Outils de base sur les chaînes de caractères

Les méthodes fondamentales listées ci-dessous ne sont pas exclusives. Reportez-vous à la documentation pour davantage d'explications.

In [1]:
help(str)

Help on class str in module __builtin__:

class str(basestring)
 |  str(object='') -> string
 |  
 |  Return a nice string representation of the object.
 |  If the argument is a string, the return value is the same object.
 |  
 |  Method resolution order:
 |      str
 |      basestring
 |      object
 |  
 |  Methods defined here:
 |  
 |  __add__(...)
 |      x.__add__(y) <==> x+y
 |  
 |  __contains__(...)
 |      x.__contains__(y) <==> y in x
 |  
 |  __eq__(...)
 |      x.__eq__(y) <==> x==y
 |  
 |  __format__(...)
 |      S.__format__(format_spec) -> string
 |      
 |      Return a formatted version of S as described by format_spec.
 |  
 |  __ge__(...)
 |      x.__ge__(y) <==> x>=y
 |  
 |  __getattribute__(...)
 |      x.__getattribute__('name') <==> x.name
 |  
 |  __getitem__(...)
 |      x.__getitem__(y) <==> x[y]
 |  
 |  __getnewargs__(...)
 |  
 |  __getslice__(...)
 |      x.__getslice__(i, j) <==> x[i:j]
 |      
 |      Use of negative indices is not supported.
 |  


## Découper une chaîne formatée

La méthode `split()` découpe une chaîne de caractères selon une règle transmise en paramètre. Si aucun argument n'est passé, l'espace est considéré comme le séparateur par défaut.

In [3]:
#chaine = "Sheldon est un théoricien de la physique quantique."
#print chaine.split()
chaine = "Sheldon;grand dadais;physicien"
print chaine.split(';')

['Sheldon', 'grand dadais', 'physicien']


> Remarquez, dans le premier exemple, le point typograpique final qui est intégré à l'élément.

## Formater une chaîne à partir d'une liste

À l'inverse, la méthode `join()` permet de transformer une liste en chaîne de caractères.

In [5]:
#liste = ['Sheldon', 'est', 'un', 'th\xc3\xa9oricien', 'de', 'la', 'physique', 'quantique.']
#chaine = ' '.join(liste)
#print chaine
liste = ['Sheldon', 'grand dadais', 'physicien']
chaine = ';'.join(liste)
print chaine

Sheldon;grand dadais;physicien


Attention toutefois si le séparateur est un terminateur, la liste résultat contient alors une dernière chaîne vide.

## Remplacer des caractères

Plus souple que le *slicing* la méthode `replace()` est efficace pour remplacer des caractères.

In [7]:
chaine = "Sheldon est une jeune Sheldon femme blonde qui exerce le métier de visiteuse médicale."
print chaine.replace('Sheldon', 'Penny')

Penny est une jeune Penny femme blonde qui exerce le métier de visiteuse médicale.


Un troisième argument permet de limiter strictement le nombre de remplacements à effectuer.

In [9]:
chaine = "Une bonne salade est composée de fromage, de champignons, de fromage, de tomates et, enfin, d'un peu de fromage pour finir."
print chaine
print chaine.replace('fromage', 'carottes', 2)

Une bonne salade est composée de fromage, de champignons, de fromage, de tomates et, enfin, d'un peu de fromage pour finir.
Une bonne salade est composée de carottes, de champignons, de carottes, de tomates et, enfin, d'un peu de fromage pour finir.


Il est possible d'effectuer plusieurs remplacements en une seule fois.

In [11]:
chaine = "Sheldon est une jeune femme brune qui exerce le métier de physicien."
print chaine
print chaine.replace('Sheldon', 'Penny').replace('brune', 'blonde').replace('physicien', 'visiteuse médicale')

Sheldon est une jeune femme brune qui exerce le métier de physicien.
Penny est une jeune femme blonde qui exerce le métier de visiteuse médicale.


## Nettoyer des chaînes

Lorsque l'on récupère des données à partir d'un fichier, par exemple au format CSV, les champs sont parfois mal formatés. La méthode `strip()` permet d'éliminer les espaces, les tabulations ains que les retours à la ligne qui se trouveraient en début ou en fin de chaîne.

In [None]:
chaine = " Sheldon;grand dadais;physicien \n"
print chaine.strip()

## Rechercher une sous-chaîne

Vous trouverez ci-dessous quelques méthodes pour effectuer des recherches de motifs.

La première se nomme `find()` et renvoie l'index du premier motif rencontré. Pour partir de la fin de la chaîne, il existe la méthode `rfind()`. Remarquez que, si aucun motif n'est présent dans la chaîne, le résultat sera un indice `-1`. Pour lever une exception, il faut alors utiliser la méthode `index()``


In [15]:
chaine = "Sheldon est un physicien spécialisé dans le domaine de la physique quantique."
#print chaine.find("phys")
#print chaine.rfind("phys")
print chaine.find("quanta")
print chaine.index("quanta")

-1


ValueError: substring not found

Vous connaissez déjà la méthode `count()` qui renvoie le nombre d'occurrences du motif.

In [16]:
print chaine.count("phys")

2


Pour terminer, les deux méthodes qui suivent permettent de tester le début et la fin d'une chaîne. Elles renvoient toutes deux un booléen.

In [17]:
chaine.startswith("Sheldon")

True

In [18]:
chaine.endswith("Sheldon")

False

## Capitalisation

In [19]:
bbt = "big bang THEORY"

In [20]:
bbt.upper()

'BIG BANG THEORY'

In [None]:
bbt.lower()

In [None]:
bbt.swapcase()

In [None]:
bbt.capitalize()

In [None]:
bbt.title()