In [None]:
import pandas as pd
import numpy as np # type: ignore
import matplotlib.pyplot as plt
import seaborn as sns
import nltk
import os # Pour gérer les chemins de fichiers

# --- Configuration et Installation NLTK ---

# 1. Vérifiez et installez NLTK si ce n'est pas déjà fait
try:
    import nltk
except ImportError:
    print("NLTK non trouvé. Installation...")
    !pip install nltk
    import nltk # Ré-importer après installation
    print("NLTK installé avec succès.")

# 2. Définir le chemin où NLTK stockera ses données
# Nous allons créer un dossier 'nltk_data' DANS LE MÊME DOSSIER QUE VOTRE NOTEBOOK.
# Cela garantit les permissions d'écriture et la portabilité du projet.
current_notebook_dir = os.getcwd() # C'est le dossier où votre notebook est sauvegardé
custom_nltk_data_path = os.path.join(current_notebook_dir, "nltk_data")

# Créer le dossier si non existant
if not os.path.exists(custom_nltk_data_path):
    os.makedirs(custom_nltk_data_path)
    print(f"Dossier de données NLTK personnalisé créé : {custom_nltk_data_path}")

# Indiquer à NLTK d'utiliser ce chemin en premier
# C'est TRÈS IMPORTANT pour résoudre les LookupError.
nltk.data.path.insert(0, custom_nltk_data_path) # Insère notre chemin en priorité


# 3. Téléchargement des ressources NLTK nécessaires
print("\n--- Téléchargement des ressources NLTK spécifiques (peut prendre du temps) ---")
print("Cela garantit que les ressources sont au bon endroit et disponibles.")

required_nltk_resources = [
    'punkt',     # Pour word_tokenize et sent_tokenize
    'stopwords', # Pour la suppression des mots vides
    'wordnet',   # Pour la lemmatisation
    'omw-1.4'    # Dépendance de wordnet
]

for resource in required_nltk_resources:
    try:
        # Tente de trouver la ressource. Si non trouvée, déclenche une LookupError.
        nltk.data.find(f'tokenizers/{resource}' if resource == 'punkt' else f'corpora/{resource}')
        print(f"Ressource '{resource}' déjà trouvée.")
    except LookupError:
        print(f"Téléchargement de la ressource '{resource}'...")
        try:
            nltk.download(resource, download_dir=custom_nltk_data_path, quiet=False)
            print(f"Ressource '{resource}' téléchargée avec succès.")
        except Exception as e:
            print(f"ERREUR lors du téléchargement de '{resource}': {e}")
            print("Vérifiez votre connexion internet ou les permissions d'écriture.")
            # Si un téléchargement échoue, il est important de le savoir.


print("\n--- Initialisation NLTK Complétée ---")

# --- Après cette cellule, vous pouvez commencer le reste de votre code de préparation NLP ---
# (Chargement de df_tweets, étapes A à I, etc.)
# Ne mettez plus de nltk.download() dans les étapes suivantes du nettoyage,
# car elles sont censées avoir été téléchargées ici.


--- Téléchargement des ressources NLTK spécifiques (peut prendre du temps) ---
Cela garantit que les ressources sont au bon endroit et disponibles.
Ressource 'punkt' déjà trouvée.
Ressource 'stopwords' déjà trouvée.
Téléchargement de la ressource 'wordnet'...


[nltk_data] Downloading package wordnet to c:\Users\pc\Desktop\Projet_
[nltk_data]     Data_science\AeroPulse_Corp\NLP_project\Code\nltk_data
[nltk_data]     \nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to c:\Users\pc\Desktop\Projet_
[nltk_data]     Data_science\AeroPulse_Corp\NLP_project\Code\nltk_data
[nltk_data]     \nltk_data...


Ressource 'wordnet' téléchargée avec succès.
Téléchargement de la ressource 'omw-1.4'...
Ressource 'omw-1.4' téléchargée avec succès.

--- Initialisation NLTK Complétée ---


[nltk_data]   Package omw-1.4 is already up-to-date!
