# Séance 2 : Manipulation de chaînes de caractères avec Python

Ce notebook présente les concepts de base pour manipuler des chaînes de caractères (textes) avec Python, une compétence fondamentale pour l'analyse de données textuelles.

## 1. Introduction aux chaînes de caractères

Les chaînes de caractères (ou "strings" en anglais) sont l'un des types de données fondamentaux en Python. Elles sont utilisées pour représenter du texte et sont particulièrement importantes pour l'analyse textuelle.

In [None]:
# Déclaration de chaînes de caractères
texte1 = "Bonjour le monde"
texte2 = 'Python pour l\'analyse textuelle'
texte3 = """Ceci est un texte
sur plusieurs lignes,
utile pour manipuler des paragraphes."""

# Affichage des chaînes
print(texte1)
print(texte2)
print(texte3)

### 1.1 Caractères spéciaux et séquences d'échappement

In [None]:
# Différentes séquences d'échappement
print("Ligne 1\nLigne 2")  # Saut de ligne
print("Tabulation:\tespace")
print("Guillemets: \"cité\"")
print("Chemin Windows: C:\\Users\\Documents")

### 1.2 Chaînes brutes (raw strings)

Particulièrement utiles pour les expressions régulières et les chemins de fichiers.

In [None]:
# Chaîne normale vs chaîne brute
print("C:\\Users\\Documents\\fichier.txt")  # Nécessite des échappements
print(r"C:\Users\Documents\fichier.txt")    # Chaîne brute (r préfixe)

## 2. Opérations de base sur les chaînes

### 2.1 Concaténation et répétition

In [None]:
# Concaténation avec l'opérateur +
prenom = "Victor"
nom = "Hugo"
nom_complet = prenom + " " + nom
print(nom_complet)

# Répétition avec l'opérateur *
separation = "-" * 20
print(separation)

### 2.2 Accès aux caractères et tranches (slicing)

In [None]:
# Les chaînes sont indexées à partir de 0
texte = "Analyse littéraire"
print("Premier caractère:", texte[0])
print("Cinquième caractère:", texte[4])

# Indexation négative (depuis la fin)
print("Dernier caractère:", texte[-1])
print("Avant-dernier caractère:", texte[-2])

# Tranches (slicing) - [début:fin:pas]
print("Les 7 premiers caractères:", texte[0:7])  # ou simplement texte[:7]
print("Du 8ème jusqu'à la fin:", texte[8:])
print("Caractères du milieu:", texte[3:-3])
print("Un caractère sur deux:", texte[::2])
print("Texte inversé:", texte[::-1])

## 3. Propriétés des chaînes

### 3.1 Immutabilité

In [None]:
# Les chaînes sont immutables (ne peuvent pas être modifiées après création)
mot = "littérature"
try:
    mot[0] = "L"  # Ceci va générer une erreur
except TypeError as e:
    print(f"Erreur: {e}")
    
# Pour modifier une chaîne, il faut en créer une nouvelle
mot_majuscule = "L" + mot[1:]
print(mot_majuscule)

### 3.2 Longueur d'une chaîne

In [None]:
# Utilisation de la fonction len()
poeme = "Demain, dès l'aube, à l'heure où blanchit la campagne"
nombre_caracteres = len(poeme)
print(f"Le vers contient {nombre_caracteres} caractères.")

## 4. Méthodes courantes pour les chaînes

### 4.1 Modification de casse

In [None]:
citation = "Une tempête dans un verre d'eau"

# Différentes transformations de casse
print(citation.upper())       # Tout en majuscules
print(citation.lower())       # Tout en minuscules
print(citation.capitalize())  # Première lettre en majuscule
print(citation.title())       # Première lettre de chaque mot en majuscule
print(citation.swapcase())    # Inverse les majuscules et minuscules

### 4.2 Recherche et remplacement

In [None]:
texte = "Le silence éternel de ces espaces infinis m'effraie."

# Recherche
print("Position de 'espaces':", texte.find("espaces"))  # Retourne l'index ou -1 si non trouvé
print("Position de 'temps':", texte.find("temps"))

# Vérification de présence
print("'silence' est-il présent?", "silence" in texte)
print("'bruit' est-il présent?", "bruit" in texte)

# Comptage d'occurrences
print("Nombre de 'e':", texte.count("e"))

# Remplacement
nouveau_texte = texte.replace("m'effraie", "m'émerveille")
print("Texte modifié:", nouveau_texte)

### 4.3 Nettoyage des chaînes

In [None]:
# Suppression d'espaces superflus
texte_avec_espaces = "   Du texte avec des espaces superflus.   "
print(f"Original: '{texte_avec_espaces}'")
print(f"Avec strip(): '{texte_avec_espaces.strip()}'")
print(f"Avec lstrip(): '{texte_avec_espaces.lstrip()}'")
print(f"Avec rstrip(): '{texte_avec_espaces.rstrip()}'")

# Suppression de caractères spécifiques
texte_ponctuation = "...Bonjour, monde!..."
print(f"Sans points: '{texte_ponctuation.strip('.')}'")


### 4.4 Séparation et jointure

In [None]:
# Séparation (split)
phrase = "Python est un langage idéal pour l'analyse textuelle"
mots = phrase.split()  # Par défaut, sépare sur les espaces
print("Liste de mots:", mots)

csv_data = "Hugo,Les Misérables,1862"
elements = csv_data.split(",")
print("Données CSV séparées:", elements)

# Jointure (join)
mots_liste = ["L'art", "est", "le", "reflet", "de", "la", "société"]
phrase_reconstruite = " ".join(mots_liste)
print("Phrase reconstruite:", phrase_reconstruite)

# Exemple pratique: reconstruction d'un chemin
chemin = "/".join(["data", "corpus", "romans", "hugo.txt"])
print("Chemin de fichier:", chemin)

### 4.5 Tests sur les chaînes

In [None]:
# Vérifications de contenu
print("'Python123'.isalnum():", "Python123".isalnum())  # Alphanumérique
print("'Python'.isalpha():", "Python".isalpha())        # Alphabétique
print("'123'.isdigit():", "123".isdigit())              # Numérique
print("'python'.islower():", "python".islower())        # Minuscules
print("'PYTHON'.isupper():", "PYTHON".isupper())        # Majuscules
print("'   '.isspace():", "   ".isspace())              # Espaces

# Vérification de début/fin
texte = "La critique littéraire utilise diverses méthodes d'analyse."
print("Commence par 'La':", texte.startswith("La"))
print("Se termine par '.':", texte.endswith("."))

## 5. Formatage des chaînes

### 5.1 Formatage avec méthode format()

In [None]:
# Formatage basique
auteur = "Émile Zola"
oeuvre = "Germinal"
annee = 1885

print("{} a écrit {} en {}.".format(auteur, oeuvre, annee))

# Formatage avec indices
print("{0} a écrit {1} en {2}. {1} est un roman naturaliste de {0}.".format(auteur, oeuvre, annee))

# Formatage avec noms
print("{auteur} a écrit {oeuvre} en {annee}.".format(auteur=auteur, oeuvre=oeuvre, annee=annee))

### 5.2 F-strings (Python 3.6+)

In [None]:
# Les f-strings offrent une syntaxe plus concise et lisible
auteur = "Marcel Proust"
oeuvre = "À la recherche du temps perdu"
debut = 1913
fin = 1927

print(f"{auteur} a écrit {oeuvre} entre {debut} et {fin}.")

# Avec expressions
duree = fin - debut
print(f"L'écriture a duré {duree} ans.")

# Avec formatage
pi = 3.14159
print(f"Valeur de π arrondie: {pi:.2f}")

## 6. Exercices pratiques

### Exercice 1: Manipulation simple

In [None]:
# Complétez le code pour inverser cette citation et la mettre en majuscules
citation = "L'homme est un roseau pensant"

# Votre code ici
resultat = None

# Résultat attendu: "TNASNEП UAESOR NU TSE EMMOH'L"
print(resultat)

### Exercice 2: Analyse de texte basique

In [None]:
# Écrivez une fonction qui compte le nombre de mots dans un texte
# et retourne les 3 mots les plus fréquents (hors mots vides comme "le", "la", "et", etc.)

texte_analyse = """
L'art est le plus beau des mensonges. L'art n'est pas une soumission au réel,
mais une conquête du réel. L'œuvre d'art n'est pas un reflet, une image du monde,
mais elle est à l'image du monde.
"""

# Liste de mots vides (à ignorer)
mots_vides = ["le", "la", "les", "un", "une", "des", "est", "à", "de", "du", "n", "pas", "mais"]

# Votre code ici
def analyser_texte(texte, mots_a_ignorer):
    # À compléter
    return {"total_mots": 0, "mots_frequents": []}

# Test
resultat_analyse = analyser_texte(texte_analyse, mots_vides)
print(f"Nombre total de mots: {resultat_analyse['total_mots']}")
print(f"Mots les plus fréquents: {resultat_analyse['mots_frequents']}")

### Exercice 3: Création d'un outil de nettoyage de texte

In [None]:
# Créez une fonction qui nettoie un texte :
# - Supprimer la ponctuation
# - Convertir en minuscules
# - Supprimer les caractères non alphabétiques
# - Supprimer les espaces multiples

texte_a_nettoyer = """
   L'écriture est l'art de suggérer à   l'imagination... des images.
   (Pierre-Auguste Renoir, 1841-1919)    
"""

# Votre code ici
def nettoyer_texte(texte):
    # À compléter
    return texte

# Test
texte_nettoye = nettoyer_texte(texte_a_nettoyer)
print(f"Texte nettoyé: '{texte_nettoye}'")

## 7. Solutions aux exercices

Décommentez les cellules suivantes pour voir les solutions.

### Solution Exercice 1

In [None]:
# # Solution
# citation = "L'homme est un roseau pensant"
# resultat = citation[::-1].upper()
# print(resultat)

### Solution Exercice 2

In [None]:
# # Solution
# def analyser_texte(texte, mots_a_ignorer):
#     # Nettoyer et diviser le texte en mots
#     texte_nettoye = texte.lower()
#     for ponctuation in ".,;:!?\"'()[]{}":
#         texte_nettoye = texte_nettoye.replace(ponctuation, " ")
#     
#     mots = texte_nettoye.split()
#     
#     # Compter les mots (hors mots vides)
#     compteur = {}
#     for mot in mots:
#         if mot not in mots_a_ignorer and len(mot) > 1:  # Ignorer les mots vides et lettres seules
#             if mot in compteur:
#                 compteur[mot] += 1
#             else:
#                 compteur[mot] = 1
#     
#     # Trouver les mots les plus fréquents
#     mots_tries = sorted(compteur.items(), key=lambda x: x[1], reverse=True)
#     mots_frequents = [mot for mot, freq in mots_tries[:3]]
#     
#     return {"total_mots": len(mots), "mots_frequents": mots_frequents}
# 
# resultat_analyse = analyser_texte(texte_analyse, mots_vides)
# print(f"Nombre total de mots: {resultat_analyse['total_mots']}")
# print(f"Mots les plus fréquents: {resultat_analyse['mots_frequents']}")

### Solution Exercice 3

In [None]:
# # Solution
# def nettoyer_texte(texte):
#     # Convertir en minuscules
#     texte = texte.lower()
#     
#     # Supprimer la ponctuation et les caractères non alphabétiques
#     texte_nettoye = ""
#     for caractere in texte:
#         if caractere.isalpha() or caractere.isspace():
#             texte_nettoye += caractere
#     
#     # Supprimer les espaces multiples et ceux au début/fin
#     while "  " in texte_nettoye:
#         texte_nettoye = texte_nettoye.replace("  ", " ")
#     
#     return texte_nettoye.strip()
# 
# texte_nettoye = nettoyer_texte(texte_a_nettoyer)
# print(f"Texte nettoyé: '{texte_nettoye}'")

## 8. Pour aller plus loin

### 8.1 Introduction aux expressions régulières

Les expressions régulières (regex) sont un outil puissant pour manipuler des chaînes de caractères. Nous les explorerons plus en détail dans une prochaine séance.

In [None]:
import re

texte = "Contact: jean.dupont@universite.fr, Tel: 01-23-45-67-89"

# Extraction d'email
email = re.search(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', texte)
if email:
    print("Email trouvé:", email.group())

# Extraction de numéro de téléphone
telephone = re.search(r'\d{2}-\d{2}-\d{2}-\d{2}-\d{2}', texte)
if telephone:
    print("Téléphone trouvé:", telephone.group())

### 8.2 Unicode et accents

In [None]:
# Python 3 utilise UTF-8 par défaut
texte_accentue = "éèêëàâäôöûüÿçÉÈÊËÀÂÄÔÖÛÜŸÇ"
print(texte_accentue)

# Longueur correcte avec caractères accentués
print(f"Longueur: {len(texte_accentue)} caractères")

# Normalisation Unicode (utile pour comparer des textes accentués)
import unicodedata

def supprimer_accents(texte):
    """Supprime les accents d'un texte"""
    texte_unicode = unicodedata.normalize('NFD', texte)
    return ''.join([c for c in texte_unicode if not unicodedata.combining(c)])

print(supprimer_accents(texte_accentue))

## 9. Conclusion et prochaine séance

Dans cette séance, nous avons exploré les bases de la manipulation des chaînes de caractères en Python. Ces compétences sont fondamentales pour l'analyse de textes littéraires.

Dans la prochaine séance, nous verrons comment:
- Lire et écrire des fichiers texte
- Traiter des corpus entiers
- Utiliser des bibliothèques spécialisées pour l'analyse textuelle

## 10. Références et ressources

- Documentation Python officielle: [Les chaînes de caractères](https://docs.python.org/fr/3/tutorial/introduction.html#strings)
- [Python String Methods](https://www.w3schools.com/python/python_ref_string.asp)
- Livre: "Natural Language Processing with Python" par Bird, Klein, & Loper