# Manipulation des chaînes de caractères

Dans ce notebook, nous verrons différentes façons de manipuler les chaînes de caractères dans Python. Ces fonctions peuvent être appliquées aussi bien à des mots isolés qu'à des romans entiers. 

## Objectifs
- Comprendre les enjeux liés à l'encodage textuel
- Découvrir les principales fonctions pour manipuler des chaînes de caractères


---

## 1. L'encodage des caractères : faire le pont entre l'humain et la machine

Les ordinateurs ne comprennent qu'une seule chose : les nombres en binaire (0 et 1). Mais comment transformer "Longtemps, je me suis couché de bonne heure" en 0 et 1 ?

**Le processus (en gros):**
1. Chaque caractère est représenté sous la forme d'un nombre unique (code)
2. Ce nombre est converti en binaire  
3. L'ordinateur stocke ces séquences de 0 et 1

**Représentation binaire des nombres :**
0 : 0
1 : 1
2 : 10
3 : 11
4 : 100
10 : 1010
20 : 10100
...


In [133]:
# Voyons comment un caractère est converti en binaire
caractere = 'A'
print("Caractère :", caractere)

# 1. D'abord, le code numérique 
code_numerique = ord(caractere)
print("Code numérique :", code_numerique)

# 2. Puis la conversion en binaire
code_binaire = bin(code_numerique)
print("En binaire :", code_binaire)



Caractère : A
Code numérique : 65
En binaire : 0b1000001


### 1.1 Qu'est-ce que l'encodage des caractères ?

L'encodage des caractères est la façon dont un ordinateur représente les lettres, chiffres et symboles que nous utilisons dans nos textes. C'est un espèce de dictionnaire qui spécifie, par exemple : « le caractère 'é' correspond au nombre 233, qui devient 11101001 en binaire ».


**Le problème :** Il existe plusieurs normes d'encodage.

### 1.2 ASCII : Les débuts de l'encodage

L'ASCII (American Standard Code for Information Interchange) a été créé en 1963. Il a longtemps été la norme pour l'encodage des caractères informatiques. Il encode 128 caractères, dont 95 caractères imprimables :
- 26 lettres minuscules (abcdefghijklmnopqrstuvwxyz)
- 26 lettres majuscules (ABCDEFGHIJKLMNOPQRSTUVWXYZ)  
- 10 chiffres (0123456789)
- 33 symboles de ponctuation et caractères spéciaux ( !"#$%&'()*+,-./:;<=>?[\]^_`{|}~@)


Pouvez-vous voir le problème que pose potentiellement le standard ASCII pour nous?

In [None]:
#






















#

### 1.3 Latin-1 : Une solution pour les langues européennes

Latin-1 (ISO 8859-1) étend ASCII en ajoutant 128 caractères supplémentaires pour couvrir les langues européennes occidentales. Il inclut les caractères accentués français, allemands, espagnols, etc.

**Avantages :**
- Compatible avec ASCII
- Couvre la plupart des caractères français

**Inconvénients :**
- Limité aux langues européennes occidentales
- Pas de support pour autres systèmes d'écriture (grec, cyrillique, hanzi, kana, devanagari...)

### 1.4 UTF-8 : L'encodage universel

UTF-8 (Unicode Transformation Format - 8 bits) est devenu le standard moderne. Il peut représenter tous les caractères de toutes les langues du monde.

**Caractéristiques principales :**
- Compatible avec ASCII (les 128 premiers caractères sont identiques)
- Peut encoder plus d'un million de caractères différents
- Standard du web moderne
- Encodage par défaut dans Python

**Dans le monde des études littéraires ?**
- Permet des corpus multilingues (français, grec ancien, arabe, chinois...)
- Préservation exacte des textes originaux (p. ex *eſprit* vs *esprit*, *ꝗ* abbréviatif)

### 1.5 Les erreurs d'encodage : source intarissable de maux de tête

Les problèmes d'encodage peuvent transformer un texte en charabia quasi-illisible et interférer avec les analyses. Heureusement, ces problèmes sont normalement visuellement assez évidents.

**Exemples de problèmes d'encodage :**
- `Ã©` au lieu de `é`
- `â€™` au lieu de `'`
- `???` ou `�` pour des caractères non reconnus

**Causes principales :**
- Mauvais encodage lors de la lecture du fichier
- Conversion d'encodage incorrecte
- Caractères non supportés par l'encodage choisi

**Bonnes pratiques pour éviter les problèmes:**
- Prioriser UTF-8 pour les nouveaux projets
- Toujours spécifier l'encodage lors de l'ouverture et la sauvegarde des fichiers
- Garder des copies de sécurité lors de conversion d'encodage (risque d'«endommager» les fichiers)


## 2. La manipulation des chaînes de caractères

**Rappel :** En Python, une chaîne de caractères (*string*) est une séquence ordonnée de caractères.

Pour l'instant, nous avons vu comment identifier une chaîne (`type`), comment l'imprimer (`print`) et comment en mesurer la longueur (`len`).

### 2.1 Rappel : différentes façons de créer des chaînes

In [134]:
# quelques chaînes de caractères, avec différents guillemets
auteur = 'Charles Baudelaire'
titre = "Le Spleen de Paris"
citation = """
« Il faut être toujours ivre, tout est là ; c'est l'unique question. 
Pour ne pas sentir l'horrible fardeau du temps qui brise vos épaules 
et vous penche vers la terre, il faut vous enivrer sans trêve. 
Mais de quoi? De vin, de poésie, ou de vertu à votre guise, 
mais enivrez-vous! »
"""

# Impression des chaînes
print("Auteur :", auteur)
print("Ouvrage :", titre)
print("")
print("")
print(citation)
print("")
print("")


Auteur : Charles Baudelaire
Ouvrage : Le Spleen de Paris



« Il faut être toujours ivre, tout est là ; c'est l'unique question. 
Pour ne pas sentir l'horrible fardeau du temps qui brise vos épaules 
et vous penche vers la terre, il faut vous enivrer sans trêve. 
Mais de quoi? De vin, de poésie, ou de vertu à votre guise, 
mais enivrez-vous! »





In [135]:
# Les chaînes sont des objets avec des propriétés

# Impression du type de la variable 'auteur'
print("Type de la variable 'auteur' :", type(auteur))

# Impression du nombre de caractère dans la variable 'citation'
print("Longueur de la citation : ", len(citation), "caractères")

Type de la variable 'auteur' : <class 'str'>
Longueur de la citation :  287 caractères


### 2.2 Quelques caractères spéciaux

Une chaîne peut comprendre des caractères spéciaux, remplissant différentes fonctions. Ces caractères sont précédés par le symbole `\`, qui indique à Python que le caractère qui suit a une valeur spéciale.

**Quelques caractères spéciaux :**
- `\n` : saut de ligne
- `\t` : tabulation
- `\"` : permet d'utiliser des guillemets à l'intérieur de guillemets de même type (p. ex. `"J'ai dit \"Bien sûr\""`)

In [136]:
# Regardez à quoi correspondent les chaînes suivantes :

sourires_de_loup = "Un matin de bonne heure, \ntard dans le siècle, \nà Cricklewood Broadway"

moby_dick = "Je m’appelle Ishmaël.\tMettons.  "

print(sourires_de_loup)
print("")
print(moby_dick)
print("")

Un matin de bonne heure, 
tard dans le siècle, 
à Cricklewood Broadway

Je m’appelle Ishmaël.	Mettons.  



### 2.3 La chaîne comme séquence d'élément

Les chaînes de caractères sont des séquences d'éléments, un peu comme les listes, que nous avons vues précédemment. Comme avec les listes, il est donc possible d'utiliser les boucles (p. ex. `for`) pour traiter en série chaque élément d'une chaîne.


In [46]:
# Consonnes et voyelles

# Nous avons déjà vu l'opérateur `in`, qui vérifie si un élément est présent dans un autre.
# Cet opérateur nous permet d'analyser une chaîne en regardant de quoi elle est constituée.
# Par exemple, imprimons toutes les voyelles, puis toutes les consonnes d'une chaîne.


# Une chaîne. Ici, premier vers du sonnet Heureux qui, comme Ulysse, de Joachim du Bellay (1553-1557)
ulysse = "Heureux qui, comme Ulysse, a fait un beau voyage"

# listes des voyelles et consonnes du français
voyelles = [
    'a', 'e', 'i', 'o', 'u', 'y','à', 'â', 'è', 'é', 'ê', 'ë', 'î', 'ï', 'ô', 'ù', 'û', 'ü', 'ÿ',
    'A', 'E', 'I', 'O', 'U', 'Y', 'À', 'Â', 'È', 'É', 'Ê', 'Ë', 'Î', 'Ï', 'Ô', 'Ù', 'Û', 'Ü', 'Ÿ']
consonnes = [
    'b', 'c', 'd', 'f', 'g', 'h', 'j', 'k', 'l', 'm', 'n', 'p', 'q', 'r', 's', 't', 'v', 'w', 'x', 'z', 'ç',
    'B', 'C', 'D', 'F', 'G', 'H', 'J', 'K', 'L', 'M', 'N', 'P', 'Q', 'R', 'S', 'T', 'V', 'W', 'X', 'Z', 'Ç']


# Pour chaque élément de la chaîne 'ulysse', vérifier si l'élément est dans la liste 'voyelles'
# Si oui, l'imprimer
for lettre in ulysse:
    if lettre in voyelles :
        print(lettre)

# Pour chaque élément de la chaîne 'ulysse', vérifier si l'élément est dans la liste 'consonnes'
# Si oui, l'imprimer
for lettre in ulysse:
    if lettre in consonnes:
        print(lettre)

e
u
e
u
u
i
o
e
U
y
e
a
a
i
u
e
a
u
o
y
a
e
H
r
x
q
c
m
m
l
s
s
f
t
n
b
v
g


In [49]:
# Compter des éléments

# Imprimer de longues colonnes de lettres n'est pas une façon idéale de traiter une chaîne.
# On pourrait plutôt vouloir compter combien de consonnes et de voyelles s'y trouvent,
# puis imprimer ce nombre.

# Pour y arriver, on peut utiliser des variables numériques comme compteurs
# Ces compteurs peuvent être mis à jour au fil du code

# valeurs initiales pour les compteurs
nb_voyelles = 0
nb_consonnes = 0


# Pour chaque élément de la chaîne 'ulysse', vérifier si l'élément est dans la liste 'voyelles'
# Si oui, ajouter 1 au compteur de voyelles
for lettre in ulysse:
    if lettre in voyelles :
        nb_voyelles = nb_voyelles + 1 

# Pour chaque élément de la chaîne 'ulysse', vérifier si l'élément est dans la liste 'consonnes'
# Si oui, ajouter 1 au compteur de consonnes
for lettre in ulysse:
    if lettre in consonnes :
        nb_consonnes = nb_consonnes + 1 

# Imprimer les valeurs finales
print("Nombre de voyelles :", nb_voyelles)
print("Nombre de consonnes :", nb_consonnes)

Nombre de voyelles : 22
Nombre de consonnes : 16


In [137]:
# Créer des listes de résultats

# On pourrait vouloir savoir exactement quelles voyelles et quelles consonnes se trouvent dans une chaîne.

# Pour y arriver, on peut utiliser des listes vides que l'on remplit au fil du code
# On utilisera la fonction 'append' pour ajouter à ces listes les éléments pertinents

# listes vides initiales
voyelles_vers = []
consonnes_vers = []

# Pour chaque élément de la chaîne 'ulysse', vérifier si l'élément est dans la liste 'voyelles'
# Si oui, l'ajouter à 'voyelles_vers'.
for lettre in ulysse:
    if lettre in voyelles :
        voyelles_vers.append(lettre)

# Pour chaque élément de la chaîne 'ulysse', vérifier si l'élément est dans la liste 'consonnes'
# Si oui, l'ajouter à 'consonnes_vers'.
for lettre in ulysse:
    if lettre in consonnes :
        consonnes_vers.append(lettre)

# Imprimer les valeurs finales
print("Liste des voyelles :", voyelles_vers)
print("Liste des  consonnes :", consonnes_vers)

Liste des voyelles : ['e', 'u', 'e', 'u', 'u', 'i', 'o', 'e', 'U', 'y', 'e', 'a', 'a', 'i', 'u', 'e', 'a', 'u', 'o', 'y', 'a', 'e']
Liste des  consonnes : ['H', 'r', 'x', 'q', 'c', 'm', 'm', 'l', 's', 's', 'f', 't', 'n', 'b', 'v', 'g']


In [139]:
# Créer des listes de résultats (sans doublons)

# Si on veut seulement savoir quelles lettres apparaissent au moins une fois,
# on peut décider d'écarter les doublons.

# Pour y arriver, il suffit d'ajouter une condition qui n'ajoute un élément à une liste
# que si cet élément ne s'y trouve pas déjà

# listes vides initiales
voyelles_vers = []
consonnes_vers = []

# Pour chaque élément de la chaîne 'ulysse', vérifier si l'élément est dans la liste 'voyelles'
# Si oui, vérifier que la voyelle n'est pas déjà dans 'voyelles_vers'.
# Si elle n'y est pas, l'ajouter.
for lettre in ulysse:
    if lettre in voyelles :
        if lettre not in voyelles_vers:
            voyelles_vers.append(lettre)

# Pour chaque élément de la chaîne 'ulysse', vérifier si l'élément est dans la liste 'consonnes'
# Si oui, vérifier que la voyelle n'est pas déjà dans 'consonnes_vers'.
# Si elle n'y est pas, l'ajouter.
for lettre in ulysse:
    if lettre in consonnes :
        if lettre not in consonnes_vers:
            consonnes_vers.append(lettre)

# Imprimer les valeurs finales
print("Liste des voyelles :", voyelles_vers)
print("Liste des  consonnes :", consonnes_vers)



Liste des voyelles : ['e', 'u', 'i', 'o', 'U', 'y', 'a']
Liste des  consonnes : ['H', 'r', 'x', 'q', 'c', 'm', 'l', 's', 'f', 't', 'n', 'b', 'v', 'g']


In [142]:
# Ordonner une liste (ordre alphabétique, majuscule avant minuscules)

# Créer une version ordonnée de la liste des voyelles
voyelles_ord = sorted(voyelles_vers)
print(voyelles_ord)

# Créer une version ordonnée de la liste des consonnes
consonnes_ord = sorted(consonnes_vers)
print(consonnes_ord)

['U', 'a', 'e', 'i', 'o', 'u', 'y']
['H', 'b', 'c', 'f', 'g', 'l', 'm', 'n', 'q', 'r', 's', 't', 'v', 'x']


In [143]:
# Compter chaque voyelle individuellement

# On pourrait vouloir compter le nombre d'occurrences de chaque voyelle.

# Pour y arriver, on peut fonctionner avec un dictionnaire.
# Chaque clé est une voyelle, chaque valeur est le nombre d'occurrences.


# Dictionnaire vide
nb_occ = {}

# Pour chaque élément de la chaîne 'ulysse', vérifier si l'élément est dans la liste 'voyelles'
for lettre in ulysse:
    if lettre in voyelles :

        # Si la lettre est une voyelle, voir si elle est déjà une clé dans 'nb_occ'
        # Si ce n'est pas le cas, créer la clé et mettre la valeur 1
        if lettre not in nb_occ:
            nb_occ[lettre] = 1

        # Si la lettre est déjà une clé dans 'nb_occ', ajouter 1 à la valeur actuelle
        if lettre in nb_occ :
            nb_occ[lettre] = nb_occ[lettre] + 1


# Imprimer les valeurs finales
print("Nombre d'occurrences :", nb_occ)


Nombre d'occurrences : {'e': 7, 'u': 6, 'i': 3, 'o': 3, 'U': 2, 'y': 3, 'a': 5}


#### 2.3.1. Indexation et découpage

Dans une séquence, chaque caractère a une position (index). On peut donc utiliser les mêmes méthodes que celles employées avec les listes pour trouver un caractère selon sa position dans une chaîne, ou encore cibler une plage de caractères.


In [144]:
# Trouver un caractère avec son index

# Extrait de l'Horace de Corneille (acte II, scène 3), organisé en liste:
horace = ["S'attacher au combat contre un autre soi-même,",
"Attaquer un parti qui prend pour défenseur,",
"Le frère d'une femme et l'amant d'une sœur,",
"Et rompant tous ces nœuds, s'armer pour la patrie,",
"Contre un sang qu'on voudrait racheter de sa vie,",
"Une telle vertu n'appartenait qu'à nous ;",
"L'éclat de son grand nom lui fait peu de jaloux,"]

# Pour chaque élément de 'horace', imprimer le premier caractère
for vers in horace:
    print(vers[0])

S
A
L
E
C
U
L


In [29]:
# Trouver une plage de caractères

# Premier huitain de la Ballade des dames du temps jadis (François Villon, 1461), organisé en liste
jadis = ["Dictes moy ou, n'en quel pays",
"Est Flora, la belle Rommaine,",
"Archipiades, ne Thaïs,",
"Qui fut sa cousine germaine,",
"Écho parlant quand bruyt on maine",
"Dessus riviere ou sus estan,",
"Qui beaulté ot trop plus qu'humaine.",
"Mais ou sont les neiges d'antan?"]


# Pour chaque élément de 'jadis', imprimer les six derniers caractères
for vers in jadis:
    print(vers[-6:])

l pays
maine,
Thaïs,
maine,
 maine
estan,
maine.
antan?


In [41]:
#########
## DÉFI #
####### #

# Imprimez la première moitié 
# de chaque vers du poème Le Pont Mirabeau,
# de Guillaume Apollinaire (1912), organisé en liste

# Vous aurez besoin de la fonction `int()`, 
# qui convertit un nombre réel (float) en nombre entier (int)

mirabeau = ["Sous le pont Mirabeau coule la Seine",
"Et nos amours",
"Faut-il qu'il m'en souvienne",
"La joie venait toujours après la peine",
"Vienne la nuit sonne l'heure",
"Les jours s'en vont je demeure"]


for vers in mirabeau:
    ...

36
13
28
38
28
30


### 2.4. Manipulations de base des chaînes

Python offre de nombreuses méthodes pour manipuler les chaînes ou obtenir des informations. Ces fonctions sont utilisées immédiatement après la chaîne (ou le nom de la variable qui y renvoie). 




#### 2.4.1. Transformations de base

- `.upper()` : convertit toute la chaîne en majuscules
- `.lower()` : convertit toute la chaîne en minuscule
- `.capitalize()` : convertit le premier caractère en majuscule, le reste en minuscules
- `.strip()` : retire les espaces au début et à la fin de la chaîne

In [145]:
# Mise en application des transformations 

# Extrait du Dormeur du Val (Rimbaud, 1870)
dormeur = ["C'est un trou de verdure où chante une Rivière" ,
" Accrochant follement aux herbes des haillons",
"d'argent ; où le soleil, de la montagne fière,  ",
"  luit : c'est un petit Val qui mousse de rayons. "]


# Imprimer la strophe telle quelle
print("VERSION ORIGINALE :")
for vers in dormeur:
    print(vers)

    
# Convertir les vers de 'dormeur' tout en minuscules
print("\nVERSION MINUSCULE :")
for vers in dormeur:
    minus = vers.lower()
    print(minus)

# Convertir les vers de 'dormeur' tout en majuscules
print("\nVERSION MAJUSCULE :")
for vers in dormeur:
    majus = vers.upper()
    print(majus)


# Retirer les espaces au début et à la fin des vers, puis mettre majuscule initiale
print("\nVERSION NETTOYÉE :")
for vers in dormeur:
    nettoyage = vers.strip()
    ajustement_maj = nettoyage.capitalize()
    print(ajustement_maj)


VERSION ORIGINALE :
C'est un trou de verdure où chante une Rivière
 Accrochant follement aux herbes des haillons
d'argent ; où le soleil, de la montagne fière,  
  luit : c'est un petit Val qui mousse de rayons. 

VERSION MINUSCULE :
c'est un trou de verdure où chante une rivière
 accrochant follement aux herbes des haillons
d'argent ; où le soleil, de la montagne fière,  
  luit : c'est un petit val qui mousse de rayons. 

VERSION MAJUSCULE :
C'EST UN TROU DE VERDURE OÙ CHANTE UNE RIVIÈRE
 ACCROCHANT FOLLEMENT AUX HERBES DES HAILLONS
D'ARGENT ; OÙ LE SOLEIL, DE LA MONTAGNE FIÈRE,  
  LUIT : C'EST UN PETIT VAL QUI MOUSSE DE RAYONS. 

VERSION NETTOYÉE :
C'est un trou de verdure où chante une rivière
Accrochant follement aux herbes des haillons
D'argent ; où le soleil, de la montagne fière,
Luit : c'est un petit val qui mousse de rayons.


#### 2.4.2. Informations sur les chaînes

- `.startswith()` : vérifie si la chaîne commence par un élément donné
- `.endswith()` : vérifie si la chaîne se termine par un élément donné
- `.isalpha()` : vérifie si la chaîne n'est constituée que de lettres
- `.isdigit()` : vérifie si la chaîne n'est constituée que de chiffres
- `.isalnum()` : vérifie si la chaîne n'est constituée que de lettres et de chiffres

In [91]:
# Contenu des chaînes
dormeur1 = "C'est un trou de verdure où chante une rivière"
print("Texte : ", dormeur1)


# Tests de contenu (vérifier éléments au début et fin du vers; vérifier si éléments se trouvent dans le vers)
print("\nTests de contenu :")
print("- Commence par 'C'est' :", dormeur1.startswith("C'est"))
print("- Se termine par 'rayons' :", dormeur1.endswith('rayons'))
print("- Contient 'verdure' :", 'verdure' in dormeur1)
print("- Contient 'forêt' :", 'forêt' in dormeur1)



Texte :  C'est un trou de verdure où chante une rivière

Tests de contenu :
- Commence par 'C'est' : True
- Se termine par 'rayons' : False
- Contient 'verdure' : True
- Contient 'forêt' : False


In [94]:
# Vérification du type de caractères
usagers = ["Molière1643", "RIMBAUD", "12345", "André!"]

# Vérifie si les noms d'usagers d'un forum respectent certains critères
print("Vérification des noms d'usagers :")
for usager in usagers:
    print("Nom :", usager)
    print("- Que des lettres :", usager.isalpha())
    print("- Que des chiffres :", usager.isdigit())
    print("- Que des lettres et chiffres :", usager.isalnum())

Vérification des noms d'usagers :
Nom : Molière1643
- Que des lettres : False
- Que des chiffres : False
- Que des lettres et chiffres : True
Nom : RIMBAUD
- Que des lettres : True
- Que des chiffres : False
- Que des lettres et chiffres : True
Nom : 12345
- Que des lettres : False
- Que des chiffres : True
- Que des lettres et chiffres : True
Nom : André!
- Que des lettres : False
- Que des chiffres : False
- Que des lettres et chiffres : False


In [98]:
# EXERCICE : Nettoyage de titres

# Vous recevez une liste de titres d'oeuvres avec des problèmes de format

# Votre objectif : nettoyer et uniformiser ces titres



titres = [
    "  cent ans de solitude  ",
    "1984 ",
    " FRANKENSTEIN",
    "gERMINAL",
    "  À La Recherche Du Temps Perdu  ",
    "Les androïdes rêvent-ils de moutons électriques? ", 
    " Catch-22"]

print("Titres originaux :")
for titre in titres:
    print("-", titre)


print("\nTitres corrigés :")

# 1. Supprimer les espaces au début et à la fin






# 2. S'assurer que le premier caractère est une majuscule et les suivants des minuscules







#

Titres originaux :
-   cent ans de solitude  
- 1984 
-  FRANKENSTEIN
- gERMINAL
-   À La Recherche Du Temps Perdu  
- Les androïdes rêvent-ils de moutons électriques? 
-  Catch-22

Titres corrigés :


### 2.5. Diviser et joindre des chaînes

Deux fonctions très utiles permettent de créer plusieurs chaînes à partir d'une seule, ou vice versa.

**`.split()` : diviser une chaîne**
- Découpe la chaîne selon un séparateur donné (par défaut : espace)
- Retourne une liste de sous-chaînes
- Très utile pour séparer les mots d'une phrase, par exemple
- Format : chaîne_à_découper.split(séparateur) 

**`.join()` : assembler des éléments**
- Combine une liste d'éléments en une seule chaîne suivie
- Le séparateur est spécifié avant `.join()`
- Inverse de `.split()`
- Format : séparateur.join(liste_d_éléments_à_joindre)



In [103]:
# La fonction split est utile, elle permet de convertir un texte en une liste de mots

seine = "Sous le pont Mirabeau coule la Seine"

# convertir en liste, avec espace comme séparateur
seine_liste = seine.split()
print(seine_liste)


['Sous', 'le', 'pont', 'Mirabeau', 'coule', 'la', 'Seine']


In [104]:
# Cette liste peut ensuite faire l'objet des manipulations que nous avons déjà vues

nb_mots = len(seine_liste)
print("Nombre de mots :", nb_mots)

Nombre de mots : 7


In [150]:
# Les fonctions split et join peuvent être combinées pour reformater des chaînes

# version problématique du titre (barre de soulignement plutôt qu'espaces)
seine = "Sous_le_pont_Mirabeau_coule_la_Seine"
print("Original :", seine)

# convertir en liste
seine_liste = seine.split("_")
print("\nListe : ", seine_liste)

# convertir en chaîne, avec espace comme séparateur
seine_final = " ".join(seine_liste)
print("\nFinal :", seine_final)


Original : Sous_le_pont_Mirabeau_coule_la_Seine

Liste :  ['Sous', 'le', 'pont', 'Mirabeau', 'coule', 'la', 'Seine']

Final : Sous le pont Mirabeau coule la Seine


In [112]:
# EXERCICE : Analyse d'un sonnet de Baudelaire

# Extrait des Fleurs du mal de Baudelaire
spleen = """Quand le ciel bas et lourd pèse comme un couvercle
Sur l'esprit gémissant en proie aux longs ennuis,
Et que de l'horizon embrassant tout le cercle
Il nous verse un jour noir plus triste que les nuits"""

print("Strophe de Baudelaire :")
print(strophe)
print("=" * 50)

# Votre analyse :

# 1. Séparer les vers (lignes), compter combien il y en a, et imprimer chacun 
# (indice, rappelez-vous que le saut de ligne correspond au caractère spécial "\n")


# 2. Compter le nombre de mots de chaque vers


# 3. Trouver le mot le plus long de la strophe


# 4. Recomposer la strophe avec " | " entre chaque vers


SyntaxError: invalid syntax (2513962905.py, line 15)

### 2.6. Trouver, compter, remplacer

Certaines fonctions permettent de trouver des éléments au sein d'une chaîne et d'en spécifier la position, d'en calculer le nombre d'occurrences ou de les remplacer.

**Trouver :**
- `.find()`
- Indique l'emplacement (index) dans la chaîne où l'élément trouvé commence
- Format : chaîne.find(élément_recherché)

**Compter :**
- `.count()`
- Renvoie le nombre d'occurrence d'un élément donné dans la chaîne
- Format : chaîne.find(élément_compté)

**Remplacer :**
`.replace(x, y)`
- Remplace toutes les occurrences d'un élément dans une chaîne


In [115]:
# À partir de la chaîne suivante
ulysse = "Heureux qui, comme Ulysse, a fait un beau voyage"

# Trouver emplacement d'un élément
emplacement = ulysse.find("Ulysse")
print("L'élément recherché commence à la position :", emplacement)











#

L'élément recherché commence à la position : 19


In [151]:
# Trouver le nombre d'occurrences d'un élément
nb_occ = ulysse.count("e")
print("Nombre d'occurrences de l'élément recherché :", nb_occ)











#

Nombre d'occurrences de l'élément recherché : 6


In [120]:
# Remplacer un élément par un autre
print("Texte original: ", ulysse)


ulysse_modif = ulysse.replace("Ulysse", "Jean-Claude")
print("Texte modifié :", ulysse_modif)








#

Texte original:  Heureux qui, comme Ulysse, a fait un beau voyage
Texte modifié : Heureux qui, comme Françoise, a fait un beau voyage


In [122]:
# Plusieurs remplacements (on peut enchaîner les 'replace')
 
ulysse_modif = ulysse.replace("Ulysse", "ce bébé").replace("voyage", "dodo")
print("Texte modifié :", ulysse_modif)






#

Texte original:  Heureux qui, comme Ulysse, a fait un beau voyage
Texte modifié : Heureux qui, comme ce bébé, a fait un beau dodo


### 2.7. Une autre façon de combiner chaînes et variables : les chaînes-f

Les chaînes-f (f-strings; Python 3.6+) permettent d'insérer des variables directement dans les chaînes de caractères. Cela permet d'éviter des assemblages complexes avec virgules et parenthèses.

**Syntaxe :** 
- On ajoute un 'f' devant la chaîne et on place les variables entre accolades à l'intérieur
- Format : `f"Voici du texte qui comprend une {variable}"`



In [132]:
# Exemple

# Variables
auteur = "Marcel Proust"
titre = "À la recherche du temps perdu" 
annee = 1913
pages = 4211

# Formatage simple
fiche = f"'{titre}' par {auteur} ({annee}) - {pages} pages.\n"
print(fiche)

# Expressions dans les f-strings
commentaire = f"Ce livre a aujourd'hui {2025 - annee} ans, mais n'a rien perdu de sa pertinence."
print(commentaire)



'À la recherche du temps perdu' par Marcel Proust (1913) - 4211 pages.

Ce livre a aujourd'hui 112 ans, mais n'a rien perdu de sa pertinence.


### 2.8 Exercices

In [154]:
#Format de citations

citations = [
    "« L'esprit cherche et c'est le coeur qui trouve »  - sand",
    "« Je pense, donc je suis - DESCARTES",
    "  "tous pour un, un pour tous" - dumas ",
    "« Tout est pour le mieux dans le meilleur des mondes possibles » - Voltaire"
]

# Critères de validation :
# 1. La citation commence et finit par des guillemets français
# 2. Contient un tiret pour séparer citation et auteur
# 3. La citation et le nom de l'auteur sont en format Titre (première majuscule, reste minuscule)
# 4. Pas d'espaces en début/fin, que ce soit pour la citation ou le nom de l'auteur

# Votre code doit corriger automatiquement les citations invalides

# Rappel : vous pouvez utiliser le symbole + pour combiner deux chaînes
# resultat = "sal" + "ut!" (resultat correspond alors à "salut!")


'sti'

In [None]:
# Reformatez ces références bibliographiques mal structurées

references = [
    "Hugo, Victor|Les Misérables|1862|Roman",
    "Proust, Marcel|À la recherche du temps perdu|1913|Roman", 
    "Baudelaire, Charles|Les Fleurs du mal|1857|Poésie",
    "Corneille, Pierre|Horace|1640|Théâtre"
]

# Format cible : "Titre (Année) par Prénom Nom - Genre"
# Exemple : "Les Misérables (1862) par Victor Hugo - Roman"

# Défis :
# 1. Gérez l'inversion Nom, Prénom
# 2. Créez le format cible
# 3. Triez par année de publication