# TD6 : Manipulation de Fichiers et Ressources Linguistiques

**Objectifs :**
* Comprendre la persistance des données (Lecture / Écriture).
* Manipuler des fichiers texte bruts (`.txt`) et structurés (`.csv`).
* Construire une ressource linguistique (lexique de fréquence) à partir d'un corpus bruité.
* **Contrainte :** Utiliser uniquement des algorithmes simples (boucles, conditions, méthodes de chaînes). Pas d'expressions régulières (Regex) pour l'instant.

In [None]:
# Identification (A remplir)
nom = "NON_RENSEIGNE"
prenom = "NON_RENSEIGNE"
classe = "M1-TILT"

---

## Partie 0 : Création des données de test

Pour ne pas dépendre de fichiers externes, nous allons d'abord **générer nos propres fichiers** via Python. Cela vous permet aussi de voir comment écrire un fichier simple.

In [None]:
# Exécutez cette cellule pour créer le fichier 'corpus_sale.txt'
texte_brut = """
Le chat, mange la souris.
Le chien; aboie fort!!
L'oiseau vole... dans le ciel.
La souris (petite) court vite.
CHAT et chien sont des amis?
123 souris mangent 456 graines.
"""

with open("corpus_sale.txt", "w", encoding="utf-8") as f:
    f.write(texte_brut.strip())

print("Fichier 'corpus_sale.txt' créé avec succès.")

---

## Partie 1 : Lecture et Nettoyage (Niveau 1)

L'objectif est de lire le fichier ligne par ligne et de le nettoyer pour ne garder que des mots normalisés.

In [None]:
# Exercice 1 : Lecture simple
# Ouvrez 'corpus_sale.txt' en mode lecture ('r').
# Stockez tout son contenu dans la variable 'contenu_Q1'.

reponse_Q1 = ""

# Écrivez votre code ici (utilisez 'with open...')

print("Résultat Q1 :", repr(reponse_Q1))

In [None]:
# Exercice 2 : Lecture ligne à ligne (Liste)
# Lisez le fichier pour obtenir une liste où chaque élément est une ligne du texte.
# Utilisez .readlines() ou list(f).

reponse_Q2 = []

# Écrivez votre code ici

print("Résultat Q2 :", reponse_Q2)

In [None]:
# Exercice 3 : Nettoyage d'une ligne
ligne_test = "Le chien; aboie fort!!"
# Écrivez une fonction 'nettoyer_ligne(txt)' qui :
# 1. Met tout en minuscules.
# 2. Remplace la ponctuation (.,;!?) par des espaces.
# 3. Renvoie la chaîne nettoyée.

def nettoyer_ligne(txt):
    # Votre code ici
    return txt

reponse_Q3 = nettoyer_ligne(ligne_test)
print("Résultat Q3 :", reponse_Q3)

---

## Partie 2 : Traitement algorithmique (Niveau 2)

Nous allons maintenant tokeniser (découper en mots) et filtrer les éléments indésirables (chiffres, mots vides).

In [None]:
# Exercice 4 : Tokenisation
texte_nettoye = "le chien  aboie fort"
# Découpez cette chaîne pour obtenir la liste des mots ['le', 'chien', 'aboie', 'fort']

reponse_Q4 = []

# Écrivez votre code ici

print("Résultat Q4 :", reponse_Q4)

In [None]:
# Exercice 5 : Filtrage numérique
tokens_sales = ['123', 'souris', 'mangent', '456', 'graines']
# Créez une nouvelle liste sans les éléments composés uniquement de chiffres.
# Indice : utilisez la méthode .isdigit()

reponse_Q5 = []

# Écrivez votre code ici

print("Résultat Q5 :", reponse_Q5)

In [None]:
# Exercice 6 : Stopwords (Mots vides)
tokens = ['le', 'chat', 'et', 'la', 'souris']
stopwords = {'le', 'la', 'les', 'et', 'des', 'dans', 'un', 'une'}
# Filtrez la liste 'tokens' pour ne garder que les mots qui NE sont PAS dans 'stopwords'.

reponse_Q6 = []

# Écrivez votre code ici

print("Résultat Q6 :", reponse_Q6)

---

## Partie 3 : Construction de ressource (Niveau 3)

Nous allons assembler les pièces pour créer un **lexique de fréquence** complet à partir du fichier `corpus_sale.txt`.

In [None]:
# Exercice 7 : Pipeline complet
# 1. Lisez 'corpus_sale.txt'.
# 2. Pour chaque ligne : nettoyez, tokenisez, filtrez (chiffres et stopwords).
# 3. Ajoutez tous les mots valides dans une seule grande liste 'tous_les_mots'.

stopwords = {'le', 'la', 'les', 'et', 'des', 'dans', 'un', 'une', 'l', 'sont', 'du', 'est'}
ponctuation = ".,;!?'()"
tous_les_mots = []

# Écrivez votre code ici (Boucle sur fichier, puis boucle sur mots...)

reponse_Q7 = tous_les_mots
print("Résultat Q7 :", reponse_Q7)

In [None]:
# Exercice 8 : Comptage (Fréquences)
# Utilisez la liste 'tous_les_mots' (ou reponse_Q7) pour créer un dictionnaire
# où la clé est le mot et la valeur est son nombre d'occurrences.
# Ex: {'chat': 2, 'souris': 3...}

reponse_Q8 = {}

# Écrivez votre code ici (sans utiliser Counter pour l'entraînement algorithmique)

print("Résultat Q8 :", reponse_Q8)

---

## Partie 4 : Écriture structurée (CSV)

Sauvegardons notre ressource pour qu'elle soit réutilisable.

In [None]:
# Exercice 9 : Écriture CSV simple
# Écrivez le dictionnaire 'reponse_Q8' dans un fichier 'lexique.csv'.
# Format attendu par ligne : mot;frequence
# Ajoutez une première ligne d'en-tête : "Mot;Frequence"

# Écrivez votre code ici

# Vérification (ne pas modifier)
try:
    with open("lexique.csv", "r", encoding="utf-8") as f:
        contenu_csv = f.read().strip().split('\n')
    reponse_Q9 = contenu_csv[:3] # On regarde les 3 premières lignes
except:
    reponse_Q9 = "Erreur fichier"

print("Résultat Q9 :", reponse_Q9)

In [None]:
# Exercice 10 : Formatage avancé
# Refaites la même chose mais en triant les mots par fréquence décroissante.
# Indice : sorted(dico.items(), key=lambda x: x[1], reverse=True)

reponse_Q10 = []

# Écrivez votre code ici
# ... écriture dans 'lexique_trie.csv' ...

# Récupération pour validation
try:
    with open("lexique_trie.csv", "r", encoding="utf-8") as f:
        # On lit et on convertit en liste de tuples pour vérifier l'ordre
        lines = f.readlines()[1:] # Skip header
        for l in lines:
            m, c = l.strip().split(';')
            reponse_Q10.append((m, int(c)))
except:
    pass

print("Résultat Q10 :", reponse_Q10)