# üìÇ MODULE 2.2 : Gestion des Fichiers pour le NLP

**Objectif :** En Data Science, les donn√©es ne sont jamais directement dans le code. Elles sont stock√©es dans des fichiers (`.txt`, `.csv`, `.xlsx`, `.pdf`).

Ce TP vous apprendra √† :
1.  Lire et √©crire des fichiers texte bruts.
2.  Comprendre le concept de **curseur** et d'**encodage** (UTF-8).
3.  Manipuler des fichiers structur√©s (Excel/CSV) avec **Pandas**.
4.  Extraire du texte depuis un **PDF**.

---

## üìù PARTIE 1 : Fichiers Texte (.txt)

Commen√ßons par cr√©er un fichier factice pour nos tests.

In [None]:
# Cette commande magique cr√©e un fichier 'mon_fichier.txt' dans Colab
%%writefile mon_fichier.txt
Bonjour !
Ceci est la premi√®re ligne.
Ceci est la deuxi√®me ligne.
Le NLP c'est passionnant.

### 1.1 Lecture classique (et ses pi√®ges)
Attention au concept de "Curseur". Une fois le fichier lu, le curseur est √† la fin !

In [None]:
# Ouverture du fichier en mode lecture ('r' = read)
f = open('mon_fichier.txt', 'r')

# Lecture compl√®te
contenu = f.read()
print("--- LECTURE 1 ---")
print(contenu)

# Tentative de relire imm√©diatement
contenu_bis = f.read()
print("\n--- LECTURE 2 (Vide ?) ---")
print(contenu_bis)

# Pourquoi est-ce vide ? Le curseur est √† la fin !
# Solution : Rembobiner le curseur au d√©but (index 0)
f.seek(0)
lignes = f.readlines() # Lit ligne par ligne dans une liste
print("\n--- LECTURE APR√àS SEEK(0) ---")
print(lignes)

# Toujours fermer le fichier pour lib√©rer la m√©moire
f.close()

### 1.2 La bonne pratique : Le "Context Manager" (`with`)
Pour √©viter d'oublier `f.close()`, on utilise le bloc `with`. Le fichier se ferme tout seul √† la sortie du bloc.

In [None]:
with open('mon_fichier.txt', 'r') as f:
    contenu = f.read()
    print(contenu)
    # Le fichier est automatiquement ferm√© ici

### 1.3 √âcriture : Attention danger !
* `w` (**Write**) : √âCRASE tout le contenu existant.
* `a` (**Append**) : AJOUTE √† la fin sans effacer.

In [None]:
# Mode 'w' : On √©crase tout (Attention !)
with open('mon_fichier.txt', 'w') as f:
    f.write("J'ai tout effac√© !")

# V√©rification
with open('mon_fichier.txt', 'r') as f:
    print("Apr√®s mode 'w' :", f.read())

# Mode 'a' : On ajoute √† la suite
with open('mon_fichier.txt', 'a') as f:
    f.write("\nVoici une nouvelle ligne ajout√©e.")

# V√©rification
with open('mon_fichier.txt', 'r') as f:
    print("\nApr√®s mode 'a' :\n", f.read())

### 1.4 L'Encodage (Vital pour le Fran√ßais et l'Arabe)
Si vous travaillez avec des accents ou de l'arabe, ajoutez toujours `encoding='utf-8'`.

In [None]:
# Cr√©ation d'un fichier multilingue
with open('langues.txt', 'w', encoding='utf-8') as f:
    f.write("Fran√ßais : √ât√©, No√´l\n")
    f.write("Arabe : ŸÖÿ±ÿ≠ÿ®ÿß ÿ®ŸÉ ŸÅŸä ÿØŸàÿ±ÿ© NLP")

# Lecture
with open('langues.txt', 'r', encoding='utf-8') as f:
    print(f.read())

---

## üìä PARTIE 2 : Fichiers Structur√©s (CSV / Excel)

En entreprise, vous recevrez des fichiers Excel. N'utilisez pas `open()`. Utilisez **Pandas**.

In [None]:
import pandas as pd

# Cr√©ons un fichier CSV factice pour l'exercice
%%writefile data.csv
ID,Nom,Avis,Note
1,Produit A,C'est g√©nial,5
2,Produit B,Tr√®s d√©√ßu de la qualit√©,1
3,Produit C,Livraison rapide mais produit moyen,3

In [None]:
# Lecture avec Pandas
df = pd.read_csv('data.csv')

print("--- Affichage du DataFrame ---")
display(df)

# Acc√©der √† une colonne sp√©cifique (ex: pour l'analyser avec Spacy)
print("\n--- Extraction des avis ---")
textes = df['Avis'].tolist()
print(textes)

---

## üìï PARTIE 3 : Fichiers PDF

Le PDF est un format difficile car le texte y est souvent "cass√©". Nous utilisons la biblioth√®que `PyPDF2`.
*(Note : Cette partie n√©cessite un vrai fichier PDF. Le code ci-dessous est un exemple fonctionnel √† garder).* 

In [None]:
# Installation de la librairie
!pip install PyPDF2

import PyPDF2

# EXEMPLE DE CODE (√Ä d√©commenter si vous uploadez un PDF)

# 1. Ouverture du fichier en mode 'rb' (Read Binary)
# with open('mon_document.pdf', 'rb') as f:
#     reader = PyPDF2.PdfReader(f)
#
#     # 2. Nombre de pages
#     print(f"Nombre de pages : {len(reader.pages)}")
#
#     # 3. Extraction du texte de la premi√®re page
#     page = reader.pages[0]
#     texte_pdf = page.extract_text()
#     print(texte_pdf)

---

## üéì EXERCICE R√âCAPITULATIF

**Mission :**
1. Cr√©ez un fichier `notes.txt` contenant : "Rendez-vous dentiste √† 14h."
2. Rouvrez ce fichier en mode **Ajout** (`a`) et ajoutez : "\nAcheter du pain."
3. Relisez le fichier complet et affichez le contenu.


In [None]:
# --- VOTRE CODE ICI ---

# 1. Cr√©ation (Mode 'w')

# 2. Ajout (Mode 'a')

# 3. Lecture (Mode 'r')