#  Rappels Python ‚Äî Types & structures de donn√©es 

Ce notebook a pour objectif de revoir les **types de base** (entiers, cha√Ænes, bool√©ens) et les **structures de donn√©es** fondamentales de Python (listes, dictionnaires, ensembles) en partant d‚Äôun **fichier texte**.

 Id√©e directrice : on ouvrira un fichier texte et on l‚Äôutilisera comme fil rouge pour illustrer tous les concepts.

## Pr√©-requis

- Avoir un fichier texte, par exemple `exemple.txt`, dans le m√™me dossier que ce notebook.

---

**Remarque :** Prendre un des fichiers textes utilis√©s en cours.


## 1. Lecture d‚Äôun fichier texte

### 1.1 Choix du fichier et premier test

Dans la cellule suivante, nous allons :

- d√©finir le nom du fichier texte √† utiliser ;
- v√©rifier rapidement que le fichier est accessible ;
- pr√©parer une gestion simple de l‚Äôerreur si le fichier n‚Äôexiste pas.

Cela permet de rendre le notebook plus robuste et de bien poser le contexte d√®s le d√©part.


In [None]:
# Nom du fichier texte √† utiliser
nom_fichier = "exemple.txt"  # √† adapter si votre fichier a un autre nom

# Petit test pour v√©rifier que le fichier existe bien
try:
    with open(nom_fichier, "r", encoding="utf-8") as f:
        print(f"Fichier '{nom_fichier}' ouvert avec succ√®s !")
except FileNotFoundError:
    print(f"Le fichier '{nom_fichier}' est introuvable. V√©rifier son nom et son emplacement.")

Dans cette cellule, nous avons simplement fix√© le **nom du fichier** et v√©rifi√© son existence.

- Si vous voyez un message de succ√®s , on peut continuer.
- Sinon, v√©rifier le **nom** et l‚Äô**emplacement** du fichier, puis r√©-ex√©cuter la cellule.


### 1.2 Lire tout le fichier comme une seule cha√Æne (`str`)

Dans la cellule suivante, nous allons :

- ouvrir le fichier ;
- lire tout son contenu d‚Äôun coup avec `.read()` ;
- stocker ce contenu dans une variable `texte` ;
- afficher le type de la variable et un extrait du texte.

Objectif : comprendre qu‚Äôun fichier texte peut √™tre manipul√© comme **une grande cha√Æne de caract√®res**.


In [None]:
# Lecture du fichier comme une seule grande cha√Æne
with open(nom_fichier, "r", encoding="utf-8") as f:
    texte = f.read()

print("Type de 'texte' :", type(texte))
print("\nAper√ßu des 300 premiers caract√®res :\n")
print(texte[:300])

Nous avons maintenant :

- `texte` qui contient **tout le fichier** sous la forme d‚Äôune **cha√Æne de caract√®res** (`str`) ;
- un aper√ßu du contenu pour v√©rifier rapidement que la lecture s‚Äôest bien pass√©e.

√Ä partir de l√†, toutes les op√©rations de type `str` (longueur, mise en minuscules, remplacement, d√©coupage‚Ä¶) deviennent possibles.


### 1.3 Lire le fichier comme une liste de lignes (`list` de `str`)

Nous allons maintenant :

- relire le fichier ;
- utiliser `.readlines()` pour obtenir une **liste** de lignes ;
- observer le type et les premi√®res lignes.

Objectif : voir la diff√©rence entre **lecture globale** (une cha√Æne) et **lecture ligne par ligne** (une liste).


In [None]:
# Lecture du fichier comme une liste de lignes
with open(nom_fichier, "r", encoding="utf-8") as f:
    lignes = f.readlines()

print("Type de la structure 'lignes' :", type(lignes))
print("Nombre de lignes :", len(lignes))
print("Aper√ßu des 5 premi√®res lignes :\n")
for i, ligne in enumerate(lignes[:5], start=1):
    print(f"Ligne {i} : {repr(ligne)}")

Nous avons maintenant :

- `lignes` qui est une **liste** (`list`) ;
- chaque √©l√©ment de la liste est une **cha√Æne** repr√©sentant une ligne du fichier ;
- les sauts de ligne (`\n`) peuvent encore √™tre pr√©sents (d‚Äôo√π l‚Äôutilisation de `repr()` pour les visualiser).

Ce double point de vue (texte complet vs liste de lignes) sera utile pour la suite.

NB: `enumerate` permet de parcourir les √©lements d'un it√©rable (ici **ligne**) et un compteur (ici **i** en m√™me temps pour savoir o√π on en est.

## 2. Types simples √† partir du texte : `str`, `int`, `bool`

Nous allons maintenant utiliser le texte pour illustrer :

- les op√©rations sur les **cha√Ænes de caract√®res** ;
- l‚Äôusage des **entiers** pour mesurer des tailles ;
- les **bool√©ens** pour tester des conditions sur le texte.

L‚Äôid√©e est de ne pas travailler sur des valeurs abstraites, mais sur *un fichier r√©el*.


### 2.1 Travailler sur les cha√Ænes de caract√®res (`str`)

Dans la cellule suivante, nous allons :

- passer tout le texte en minuscules ;
- remplacer les sauts de ligne par des espaces ;
- √©ventuellement supprimer quelques caract√®res sp√©ciaux simples.

Objectif : pr√©parer le texte √† √™tre d√©coup√© en mots, de fa√ßon homog√®ne.


In [None]:
# Mise en minuscules et remplacement des retours √† la ligne
texte_min = texte.lower()
texte_min = texte_min.replace("\n", " ")

print("Aper√ßu apr√®s nettoyage simple :\n")
print(texte_min[:300])

Le texte est maintenant :

- tout en minuscules (utile ici pour √©viter de distinguer *Python* et *python* m√™me si on n'a pas beosin de le faire √† chaque fois) ;
- avec les retours √† la ligne (`\n`) remplac√©s par des espaces, ce qui facilite le d√©coupage en mots.

On pourrait aller plus loin en supprimant ponctuation et caract√®res sp√©ciaux, mais ce simple nettoyage est d√©j√† suffisant pour illustrer les structures de donn√©es de base.


### 2.2 D√©couper le texte en mots

Dans la cellule suivante, nous allons :

- utiliser la m√©thode `.split()` pour d√©couper la cha√Æne en **liste de mots** ;
- stocker cette liste dans `mots` ;
- regarder le nombre de mots et un petit aper√ßu.

Objectif : obtenir une **liste** exploitable pour les listes, sets et dictionnaires.


In [None]:
# D√©coupage du texte en mots
mots = texte_min.split()

print("Type de 'mots' :", type(mots))
print("Nombre total de mots :", len(mots))
print("\nAper√ßu des 20 premiers mots :\n")
print(mots[:20])

Gr√¢ce √† `.split()`, nous avons transform√© :

- une grande cha√Æne (`str`) en
- une liste de mots (`list[str]`).

Cette structure de type liste est centrale : nous allons l‚Äôutiliser pour illustrer les **listes**, les **ensembles** et les **dictionnaires**.


### 2.3 Bool√©ens (`bool`) en contextes texte

Dans la cellule suivante, nous allons :

- tester si certains mots apparaissent dans le texte ;
- v√©rifier des conditions sur la taille du texte ;
- illustrer les op√©rateurs logiques (`and`, `or`, `not`).

Objectif : montrer l‚Äôusage des bool√©ens √† partir de questions concr√®tes sur le texte.


In [None]:
# Exemples de tests bool√©ens sur le texte
contient_python = "python" in texte_min
contient_donnees = "donn√©es" in texte_min or "donnees" in texte_min

texte_long = len(texte_min) > 1000
beaucoup_de_mots = len(mots) > 200

print("Le texte contient le mot 'python' ?", contient_python)
print("Le texte parle de donn√©es ?", contient_donnees)
print("Le texte est-il long (> 1000 caract√®res) ?", texte_long)
print("Y a-t-il plus de 200 mots ?", beaucoup_de_mots)

Les bool√©ens (`True` / `False`) permettent ici de r√©pondre √† des questions simples :

- *Ce mot appara√Æt-il dans le texte ?*
- *Le texte est-il suffisamment long ?*
- *Y a-t-il beaucoup de mots ?*

Ces r√©sultats pourront ensuite servir √† **piloter le comportement du programme** (par exemple : faire telle analyse seulement si le texte d√©passe une certaine taille).

On eput aussi tester une s√©rie de mots plut√¥t que de le faire un par un:


In [None]:
for mot in ["je", "tu", "il", "elle", "on"]:
    if mot in texte_min:
        print(f"{mot} figure bien dans le texte")
    else:
        print(f"{mot} est absent du texte")

### 2.4 Entiers (`int`) pour mesurer des quantit√©s

Dans la cellule suivante, nous allons :

- calculer la longueur de la cha√Æne `texte` (nombre de caract√®res) ;
- calculer le nombre total de mots ;
- calculer une *densit√© moyenne* : nombre de caract√®res par mot.

Objectif : illustrer l‚Äôusage des entiers pour la **mesure** et de petites statistiques.


In [None]:
# Quelques mesures simples sur le texte
nb_caracteres = len(texte)
nb_mots = len(mots)
caracteres_par_mot = nb_caracteres / nb_mots if nb_mots > 0 else 0

print("Nombre de caract√®res :", nb_caracteres)
print("Nombre de mots :", nb_mots)
print("Nombre moyen de caract√®res par mot :", round(caracteres_par_mot, 2))

Nous utilisons ici des **entiers** (`int`) pour quantifier :

- la taille brute du texte ;
- le nombre de mots ;

et un **nombre flottant** (`float`) pour la moyenne.

Ces premi√®res statistiques, m√™me tr√®s simples, sont une bonne introduction aux analyses plus avanc√©es.


## 3. Structures de donn√©es : listes, ensembles, dictionnaires

Nous avons d√©j√† manipul√© :

- `mots` : une **liste** de cha√Ænes ;
- `lignes` : une **liste** de lignes.

Nous allons maintenant approfondir l‚Äôusage :

- des **listes** (`list`) ;
- des **ensembles** (`set`) pour les mots uniques ;
- des **dictionnaires** (`dict`) pour compter les fr√©quences.


### 3.1 Listes (`list`) : indexation, modification, parcours

Dans la cellule suivante, nous allons :

- acc√©der √† certains mots par leur index ;
- modifier la liste en ajoutant ou en retirant un √©l√©ment ;
- parcourir quelques √©l√©ments avec une boucle.

Objectif : revoir les op√©rations classiques sur les listes √† partir de `mots`.


In [None]:
# Quelques op√©rations sur la liste 'mots'

if len(mots) > 0:
    print("Premier mot :", mots[0])
    print("Dernier mot :", mots[-1])

# Ajout d'un mot √† la fin de la liste
mots.append("[fin]")
print("\nApr√®s ajout de '[fin]' :", mots[-5:])

# Suppression du dernier √©l√©ment
dernier = mots.pop()
print("\nApr√®s suppression du dernier √©l√©ment :", mots[-5:])
print("√âl√©ment supprim√© :", dernier)

Nous avons rappel√© quelques op√©rations importantes sur les listes :

- **indexation** (`mots[0]`, `mots[-1]`) ;
- **modification** en fin de liste (`.append()`, `.pop()`) ;
- utilisation de **slices** (`mots[-5:]`) pour voir les derniers √©l√©ments.

Les listes sont tr√®s souples et servent souvent de structure de base pour accumuler et transformer des donn√©es.


### 3.2 Ensembles (`set`) : trouver les mots uniques

Dans la cellule suivante, nous allons :

- cr√©er un ensemble √† partir de la liste `mots` ;
- calculer le nombre de mots uniques ;
- afficher quelques mots uniques.

Objectif : illustrer la propri√©t√© cl√© des ensembles : **absence de doublons**.


In [None]:
# Cr√©ation d'un ensemble de mots uniques
mots_uniques = set(mots)

print("Nombre total de mots :", len(mots))
print("Nombre de mots uniques :", len(mots_uniques))
print("\nExemple de 20 mots uniques :\n")
print(list(mots_uniques)[:20])

En passant d‚Äôune liste √† un ensemble :

- on **perd l‚Äôordre** original,
- mais on **√©limine les doublons** automatiquement.

Les ensembles sont donc tr√®s utiles pour r√©pondre √† des questions du type : *Quels sont les mots diff√©rents utilis√©s dans ce texte ?*


### 3.3 Dictionnaires (`dict`) : compter les occurrences de chaque mot

Dans la cellule suivante, nous allons :

- cr√©er un dictionnaire `compteur` ;
- utiliser les mots comme **cl√©s** et leurs fr√©quences comme **valeurs** ;
- afficher quelques paires (mot, fr√©quence).

Objectif : voir comment les dictionnaires permettent d‚Äôassocier une **information** (ici une fr√©quence) √† une **cl√©** (ici un mot).


In [None]:
# Comptage des fr√©quences des mots avec un dictionnaire
compteur = {}

for mot in mots:
    compteur[mot] = compteur.get(mot, 0) + 1

print("Nombre de cl√©s (mots diff√©rents) :", len(compteur))
print("\nExemples de paires (mot, fr√©quence) :\n")
for i, (mot, freq) in enumerate(compteur.items()):
    print(mot, ":", freq)
    if i >= 9:
        break

Nous avons construit un dictionnaire qui associe :

- **cl√©** : un mot du texte ;
- **valeur** : le nombre de fois o√π ce mot appara√Æt.

La m√©thode `dict.get(clef, valeur_par_d√©faut)` est tr√®s pratique pour √©viter de tester si la cl√© existe d√©j√† dans le dictionnaire. C'est plus court encore que les 3 syntaxes que l'on avit vues :


In [None]:
for mot in mots:
    #Syntaxe lourde 4 lignes
    if mot not in compteur:
        compteur[mot] =  1
    else:
        compteur[mot] +=  1
    #l√©g√®rement all√©g√©e 3 lignes
    if mot not in compteur:
        compteur[mot] =  0
    compteur[mot] +=  1
    #encore all√©g√©e 2 lignes
    compteur.setdefault(mot, 0)
    compteur[mot] +=  1

### 3.4 Trier les mots par fr√©quence

Dans la cellule suivante, nous allons :

- transformer le dictionnaire en liste de couples `(mot, fr√©quence)` ;
- trier cette liste par fr√©quence d√©croissante ;
- afficher les mots les plus fr√©quents.

Objectif : obtenir une vue synth√©tique des mots dominants dans le texte.


In [None]:
# Tri des mots par fr√©quence (du plus fr√©quent au moins fr√©quent)

liste_freq = sorted([[freq, mot] for mot, freq in compteur.items()], reverse =True)
freq = [mot for freq, mot ijn liste_freq]

#On a aussi une syntaxe tr√®s courte :
#freq = sorted(compteur.items(), key=lambda x: x[1], reverse=True)

print("Top 15 des mots les plus fr√©quents :\n")
for mot, nb in freq[:15]:
    print(f"{mot!r} appara√Æt {nb} fois")

Le tri par fr√©quence nous permet de d√©gager rapidement :

- les **mots les plus fr√©quents** ;
- une id√©e du vocabulaire dominant du texte.

Dans une analyse plus pouss√©e, on pourrait exclure certains mots tr√®s courants (mots-outils) ou combiner ces r√©sultats avec d‚Äôautres crit√®res.


## 4. Travailler √† partir des lignes : de `lignes` √† une nouvelle liste de mots

Jusqu‚Äôici, nous sommes partis de la cha√Æne `texte`.  
Nous allons maintenant repartir de la liste `lignes` pour renforcer l‚Äôid√©e que plusieurs chemins m√®nent au m√™me type de structure.


### 4.1 D√©couper chaque ligne en mots

Dans la cellule suivante, nous allons :

- partir de la liste `lignes` ;
- nettoyer chaque ligne (minuscules, suppression des espaces en trop) ;
- d√©couper la ligne en mots et les accumuler dans une nouvelle liste `mots2`.

Objectif : construire une nouvelle liste de mots en passant **explicitement** par les lignes du fichier.


In [None]:
# √Ä partir de 'lignes', reconstruire une liste de mots
mots2 = []

for ligne in lignes:
    # Nettoyage simple de la ligne
    ligne = ligne.lower().strip()
    # D√©coupage en mots et ajout √† la liste globale
    mots2.extend(ligne.split())

print("Nombre total de mots dans 'mots2' :", len(mots2))
print("\nAper√ßu des 20 premiers mots de 'mots2' :\n")
print(mots2[:20])

Nous avons maintenant :

- une nouvelle liste `mots2`, construite √† partir des **lignes** ;
- une m√©thode alternative au d√©coupage direct de `texte`.

Dans un contexte r√©el, on peut choisir l‚Äôune ou l‚Äôautre approche selon les besoins (traitement ligne par ligne, gestion des paragraphes, etc.).


## 5. Exercices r√©capitulatifs

Les exercices suivants permettent de r√©utiliser les notions vues :

- types simples (`int`, `str`, `bool`) ;
- listes, ensembles, dictionnaires ;
- lecture de fichiers et d√©coupage en mots.

Chaque exercice est accompagn√© d‚Äôune cellule de code **vide** √† remplir.


### Exercice 1 ‚Äî Nettoyer un texte

√âcrire une fonction `nettoyer_texte(texte: str) -> list[str]` qui :

1. passe le texte en minuscules ;
2. remplace les retours √† la ligne par des espaces ;
3. supprime au moins quelques signes de ponctuation simples (par exemple : `.,;:!?()` ) ;
4. d√©coupe le r√©sultat en mots avec `.split()` ;
5. renvoie la **liste de mots** obtenue.

On peut tester la fonction sur la variable `texte` manipul√©e au d√©but du notebook.


In [3]:
# Exercice 1 : √† toi de jouer !

def nettoyer_texte(texte: str) -> list[str]:
    """Code qui nettoie le texte et renvoie une liste de mots.
    
    TODO :
    - mettre en minuscules ;
    - remplacer les retours √† la ligne ;
    - retirer quelques signes de ponctuation ;
    - d√©couper en mots ;
    """
    # Votre code ici
    mots = []
    return mots

# Exemple de test (√† adapter une fois la fonction impl√©ment√©e)
# mots_nettoyes = nettoyer_texte(texte)
# print(mots_nettoyes[:20])

Apr√®s avoir impl√©ment√© la fonction, pense √† :

- tester sur le texte complet (`texte`) ;
- comparer la longueur de la liste de mots avant/apr√®s nettoyage ;
- v√©rifier visuellement que les ponctuations choisies ont bien √©t√© retir√©es.


### Exercice 2 ‚Äî Statistiques de base sur un texte

En utilisant la liste de mots issue de l‚Äôexercice 1 (par exemple `mots_nettoyes`), calcule et affiche :

1. le nombre total de mots ;
2. le nombre de mots uniques ;
3. le top 10 des mots les plus fr√©quents.

 On peut s‚Äôinspirer de ce qui a √©t√© fait avec le dictionnaire `compteur`.


In [1]:
# Exercice 2 : √† vous de jouer !

# TODO :
# - construire un dictionnaire de fr√©quences √† partir d'une liste de mots (par ex. mots_nettoyes)
# - calculer et afficher :
#   * nombre total de mots
#   * nombre de mots uniques
#   * top 10 des mots les plus fr√©quents

# Votre code ici


Apr√®s avoir r√©alis√© cet exercice, on aura manipul√© :

- les listes ;
- les ensembles ;
- les dictionnaires ;
- le tri d‚Äô√©l√©ments selon une cl√©.

Ce sont des briques essentielles pour de nombreuses analyses de texte.


### Exercice 3 ‚Äî Analyse ligne par ligne

√Ä partir de la liste `lignes` :

1. affiche le **nombre de lignes** ;
2. calcule la **longueur moyenne** d‚Äôune ligne (en nombre de caract√®res) ;
3. √©cris une fonction `chercher_lignes(mot: str)` qui affiche les lignes contenant ce mot (sans distinguer majuscules/minuscules).

L‚Äôobjectif est d‚Äôutiliser √† la fois les cha√Ænes, les boucles et les bool√©ens.


In [4]:
# Exercice 3 : √† vous de jouer !

# TODO :
# - calculer le nombre de lignes et la longueur moyenne
# - impl√©menter la fonction chercher_lignes(mot)

# Votre code ici


Cet exercice illustre un autre point de vue sur le texte :

- non plus en termes de mots uniquement,
- mais aussi en termes de **lignes**, ce qui est parfois plus naturel (logique de paragraphes, dialogues, etc.).


### Exercice 4 ‚Äî Comparer deux fichiers 

Si on dispose de deux fichiers texte, par exemple `a.txt` et `b.txt` :

1. lis-les et construis pour chacun la liste de mots nettoy√©s ;
2. transforme ces listes en ensembles (`set`) ;
3. affiche :
   - les mots **communs** aux deux fichiers ;
   - les mots pr√©sents **seulement** dans le premier ;
   - les mots pr√©sents **seulement** dans le second.

Objectif : manipuler les ensembles et leurs op√©rations (intersection, diff√©rence, union).


In [2]:
# Exercice 4 : √† vous de jouer ! (optionnel)

# TODO :
# - lire deux fichiers texte
# - nettoyer et d√©couper en mots
# - cr√©er deux ensembles de mots
# - calculer :
#   * intersection
#   * diff√©rences

# Votre code ici


Ce dernier exercice met en avant la force des **ensembles** pour comparer rapidement des collections de mots entre plusieurs textes.


## 6. Conclusion

Dans ce notebook, nous avons vu comment :

- lire un fichier texte **comme une grande cha√Æne** ou **comme une liste de lignes** ;
- utiliser les types simples (`str`, `int`, `bool`) pour poser les bases de l‚Äôanalyse ;
- manipuler les **listes** pour stocker des suites de mots ;
- utiliser les **ensembles** pour trouver les mots uniques et comparer des textes ;
- construire des **dictionnaires** pour compter les occurrences et trier les mots par fr√©quence.

Ces notions constituent un socle solide pour aller vers :

- des analyses textuelles plus riches (TF-IDF, n-grammes, etc.) ;
- l‚Äôutilisation de biblioth√®ques sp√©cialis√©es (comme `collections.Counter`, `re` pour les expressions r√©guli√®res, ou des librairies de NLP).

N‚Äôh√©site pas √† adapter ce notebook √† tes propres fichiers et √† enrichir les exercices selon tes besoins p√©dagogiques. üòä
