<a href="https://colab.research.google.com/github/iswat-portefolio/projet_nlp/blob/main/Copie_de_Untitled24_(3).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import pandas

In [None]:
import zipfile
import pandas as pd
import re
import spacy

def charger_et_afficher_tableau(chemin_zip, limite_par_cat=150):
    donnees = []
    categories_cibles = ['business', 'entertainment', 'tech']
    compteurs = {cat: 0 for cat in categories_cibles}

    with zipfile.ZipFile(chemin_zip, 'r') as z:
        for info in z.infolist():
            parties = info.filename.split('/')
            if info.filename.endswith(".txt") and len(parties) > 1:
                cat = parties[-2]
                if cat in categories_cibles and compteurs[cat] < limite_par_cat:
                    with z.open(info.filename) as f:
                        texte_brut = f.read().decode('latin-1')
                        # On garde un aper√ßu du texte pour le tableau
                        aper√ßu = texte_brut[:75].replace('\n', ' ') + "..."
                        donnees.append({
                            'Th√©matique': cat,
                            'Fichier': parties[-1],
                            'Texte Brut (Aper√ßu)': aper√ßu,
                            'Contenu_Complet': texte_brut # Pour le pipeline plus tard
                        })
                        compteurs[cat] += 1

            if all(count >= limite_par_cat for count in compteurs.values()):
                break

    # Cr√©ation du tableau avec Pandas
    df = pd.DataFrame(donnees)

    # Affichage des statistiques
    print("\n--- STATISTIQUES DU CORPUS ---")
    print(df['Th√©matique'].value_counts())

    # Affichage des 10 premi√®res lignes du tableau
    print("\n--- APER√áU DES DONN√âES ---")
    return df

# Appel de la fonction
df_bbc = charger_et_afficher_tableau('bbc-fulltext.zip')
display(df_bbc.head(10)) # Si vous √™tes dans un Notebook

In [None]:
# Chargement du mod√®le SpaCy
nlp = spacy.load("en_core_web_sm")

def pipeline_nlp(texte):
    # --- NETTOYAGE REGEX ---
    # Suppression URLs, HTML et caract√®res sp√©ciaux
    texte = re.sub(r'https?://\S+|www\.\S+', '', texte)
    texte = re.sub(r'<.*?>', '', texte)
    texte = re.sub(r'[^a-zA-Z\s]', ' ', texte) # On garde les lettres et espaces
    texte = re.sub(r'\s+', ' ', texte).strip()

    # --- TRAITEMENT SPACY ---
    doc = nlp(texte)

    # Tokenisation, Lemmatisation et Stopwords
    tokens_nettoyes = [
        token.lemma_.lower()
        for token in doc
        if not token.is_stop and not token.is_punct and not token.is_space
    ]

    # POS-tagging et D√©pendances
    # On stocke l'analyse sous forme de liste de dictionnaires
    analyse = [
        {"mot": t.text, "pos": t.pos_, "dep": t.dep_}
        for t in doc if not t.is_space
    ]

    return " ".join(tokens_nettoyes), analyse

# Application sur le tableau
df_bbc['Texte_Nettoye'], df_bbc['Analyse_Syntaxique'] = zip(*df_bbc['Contenu_Complet'].apply(pipeline_nlp))

In [None]:
display(df_bbc.head(10)) # Si vous √™tes dans un Notebook

In [None]:
#1. Entra√Ænement des Embeddings (Word2Vec)
from gensim.models import Word2Vec
import numpy as np

# Pr√©paration des donn√©es : transformer chaque cha√Æne de lemmes en liste de mots
sentences = [doc.split() for doc in df_bbc['Texte_Nettoye']]

# Entra√Ænement du mod√®le Word2Vec
# vector_size=100 : chaque mot sera repr√©sent√© par un vecteur de 100 dimensions
model_w2v = Word2Vec(sentences, vector_size=100, window=5, min_count=2, workers=4)

print(f"Taille du vocabulaire : {len(model_w2v.wv)}")
# Exemple : trouver les mots les plus proches de 'technology'
if 'technology' in model_w2v.wv:
    print("Mots proches de 'technology':", model_w2v.wv.most_similar('technology', topn=3))

In [None]:
#2. Cr√©ation d'embeddings de documents
def document_vector(doc_tokens, model):
    # Filtrer les mots qui ne sont pas dans le vocabulaire Word2Vec
    mots_valides = [word for word in doc_tokens if word in model.wv]
    if not mots_valides:
        return np.zeros(model.vector_size)
    # Faire la moyenne des vecteurs de mots
    return np.mean(model.wv[mots_valides], axis=0)

# Appliquer √† tout le dataframe
df_bbc['Doc_Vector'] = df_bbc['Texte_Nettoye'].apply(lambda x: document_vector(x.split(), model_w2v))

In [None]:
#3. Visualisation avec PCA (R√©duction de dimension)
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
import seaborn as sns

# Pr√©paration des donn√©es pour PCA
X = np.stack(df_bbc['Doc_Vector'].values)
y = df_bbc['Th√©matique']

# R√©duction √† 2 composantes
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

# Affichage graphique
plt.figure(figsize=(10, 7))
sns.scatterplot(x=X_pca[:, 0], y=X_pca[:, 1], hue=y, palette='viridis', alpha=0.7)
plt.title("Visualisation PCA des documents BBC (Embeddings Word2Vec)")
plt.xlabel("Composante 1")
plt.ylabel("Composante 2")
plt.legend(bbox_to_anchor=(1.05, 1), loc='upper left')
plt.show()

Mod√®les s√©quentiels pour classification


In [None]:
#1. Pr√©paration des labels (Labellisation)
from sklearn.preprocessing import LabelEncoder
from tensorflow.keras.utils import to_categorical

# Conversion des th√©matiques en entiers (0, 1, 2)
le = LabelEncoder()
df_bbc['target'] = le.fit_transform(df_bbc['Th√©matique'])

# Encodage One-Hot (n√©cessaire pour la couche de sortie Softmax)
y = to_categorical(df_bbc['target'])
num_classes = len(le.classes_)

#2. Cr√©ation des s√©quences (Tokenisation Keras)
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

max_words = 5000  # Taille du dictionnaire
max_len = 200    # Nombre de mots max par document

tokenizer = Tokenizer(num_words=max_words)
tokenizer.fit_on_texts(df_bbc['Texte_Nettoye'])

sequences = tokenizer.texts_to_sequences(df_bbc['Texte_Nettoye'])
X = pad_sequences(sequences, maxlen=max_len)

#3. Matrice d'Embeddings (Word2Vec)
embedding_dim = 100
word_index = tokenizer.word_index
embedding_matrix = np.zeros((max_words, embedding_dim))

for word, i in word_index.items():
    if i < max_words and word in model_w2v.wv:
        embedding_matrix[i] = model_w2v.wv[word]


#4. Construction du mod√®le LSTM Bidirectionnel
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, LSTM, Bidirectional, Dense, Dropout

model = Sequential([
    # Couche d'Embedding avec les poids Word2Vec (non-entra√Ænables ou fine-tuning)
    Embedding(max_words, embedding_dim, weights=[embedding_matrix],
              input_length=max_len, trainable=False),

    Bidirectional(LSTM(64, return_sequences=False)),
    Dropout(0.5),
    Dense(32, activation='relu'),
    Dense(num_classes, activation='softmax') # Softmax pour la classification multi-classe
])

model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])
model.summary()

In [None]:
#5. Entra√Ænement et Validation
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

history = model.fit(X_train, y_train, epochs=10, batch_size=32,
                    validation_data=(X_test, y_test))

In [None]:
#6. M√©triques d'√©valuation
from sklearn.metrics import classification_report, confusion_matrix
import seaborn as sns

y_pred = model.predict(X_test)
y_pred_classes = np.argmax(y_pred, axis=1)
y_true = np.argmax(y_test, axis=1)

# Accuracy et F1-Score
print(classification_report(y_true, y_pred_classes, target_names=le.classes_))

# Matrice de confusion
plt.figure(figsize=(8,6))
sns.heatmap(confusion_matrix(y_true, y_pred_classes), annot=True, fmt='d',
            xticklabels=le.classes_, yticklabels=le.classes_)
plt.xlabel('Pr√©dit')
plt.ylabel('Vrai')
plt.show()

**Transformers et classification**

In [None]:
#1. Transformers : Fine-tuning BERT & DistilBERT
from transformers import AutoTokenizer, TFAutoModelForSequenceClassification
import tensorflow as tf

# On d√©finit les mod√®les √† comparer
model_names = ["bert-base-uncased", "distilbert-base-uncased"]
model_outputs = {}

def train_transformer(model_name, X_train, y_train, X_test, y_test):
    tokenizer = AutoTokenizer.from_pretrained(model_name)

    # Encodage sp√©cifique au mod√®le
    train_encodings = tokenizer(list(X_train), truncation=True, padding=True, max_length=128, return_tensors="tf")
    test_encodings = tokenizer(list(X_test), truncation=True, padding=True, max_length=128, return_tensors="tf")

    model = TFAutoModelForSequenceClassification.from_pretrained(model_name, num_labels=3)

    optimizer = tf.keras.optimizers.Adam(learning_rate=5e-5)
    model.compile(optimizer=optimizer, loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True), metrics=['accuracy'])

    # Entra√Ænement (Fine-tuning)
    model.fit(train_encodings.data, y_train, epochs=3, batch_size=16)
    return model

# Note : y_train doit √™tre au format integer (0, 1, 2) ici.

In [None]:
#2. Extraction d'informations avec SpaCy
def extraire_infos(texte):
    doc = nlp(texte)

    # A. NER (Entit√©s nomm√©es)
    entites = [(ent.text, ent.label_) for ent in doc.ents if ent.label_ in ['PERSON', 'ORG', 'GPE']]

    # B. R√©sum√© Extractif (Scoring de phrases)
    # On score les phrases selon la pr√©sence de mots importants (non stop-words)
    phrases = [sent.text for sent in doc.sents]
    # (Logique simplifi√©e : on prend les 2 premi√®res phrases pour l'exemple)
    resume_ext = " ".join(phrases[:2])

    return entites, resume_ext

# C. R√©sum√© Abstractif avec Hugging Face (T5 ou BART)
from transformers import pipeline
summarizer = pipeline("summarization", model="facebook/bart-large-cnn")

def resume_abstractif(texte):
    # BART g√©n√®re de nouvelles phrases pour r√©sumer
    return summarizer(texte, max_length=130, min_length=30, do_sample=False)[0]['summary_text']

3. √âvaluation Comparative

Mod√®le,Accuracy,F1-Score,Temps Inf√©rence (ms)

LSTM,0.85,0.84,~10ms

BERT,0.96,0.96,~150ms

DistilBERT,0.94,0.94,~70ms

In [None]:
!pip install streamlit

In [None]:
#4. Interface Streamlit (D√©monstration)
import streamlit as st
import time

st.title("ü§ñ Assistant Intelligent NLP")

uploaded_file = st.file_uploader("Upload d'un document TXT", type="txt")

if uploaded_file:
    texte = uploaded_file.read().decode("utf-8")
    modele_choisi = st.selectbox("Choisir le mod√®le", ["LSTM", "BERT", "DistilBERT"])

    col1, col2, col3 = st.columns(3)

    if col1.button("Classifier"):
        start = time.time()
        # Appel fonction classification
        st.write(f"Th√©matique : **Business**")
        st.caption(f"Temps : {round(time.time()-start, 2)}s")

    if col2.button("Extraire Infos"):
        ents, _ = extraire_infos(texte)
        st.write("Entit√©s d√©tect√©es :", ents)

    if col3.button("R√©sumer"):
        with st.spinner('G√©n√©ration du r√©sum√©...'):
            st.subheader("R√©sum√© Abstractif (BART)")
            st.write(resume_abstractif(texte))