# TP3 — Clustering d'une décennie et Word2Vec

Ce notebook exécute un pipeline reproductible :
- sélectionner les documents d'une décennie,
- effectuer un clustering (TF-IDF + KMeans),
- visualiser les clusters via top-terms et wordclouds,
- entraîner plusieurs modèles Word2Vec et les comparer,
- explorer les relations vectorielles avec `most_similar` et `similarity`.

Les artefacts sont enregistrés dans le dossier `tp3/` : CSV de clusters, PNG wordclouds, modèles Word2Vec et `interpretation.txt`.

In [None]:
# Cellule 1 - imports et paramètres
import os
from pathlib import Path
import re
import json
from collections import defaultdict

,
,
,
,
,
,
,
# Paramètres (modifiez si besoin)
1950
DECADE_END = 1959
6
TOP_N_TERMS = 15
100
W2V_WINDOWS = [3,5,7]
3
5
10
OUT_DIR = Path('tp3')
DATA_TXT = Path('data/txt')

nltk.download('punkt', quiet=True)

In [None]:
# Cellule 2 - sélectionner les fichiers de la décennie et charger le texte
files = []

docs = []
for p in files:
    docs.append(t)
print('Loaded', len(docs), 'documents')
: 
,
: { 
: 
 },
: [
3
,
2
X = vectorizer.fit_transform(docs)
kmeans = KMeans(n_clusters=N_CLUSTERS, random_state=42, n_init=10)
df = pd.DataFrame({'filename': names, 'cluster': labels})
df.to_csv(csvp, index=False, encoding='utf-8')

terms = vectorizer.get_feature_names_out()
top_terms = {i: [terms[idx] for idx in order[i, :TOP_N_TERMS]] for i in range(N_CLUSTERS)}
pd.DataFrame.from_dict(top_terms, orient='index').to_csv(ttp, header=False, encoding='utf-8')

In [None]:
# Cellule 4 - Wordclouds par cluster (sauvegarde PNG)
    out = OUT_DIR / f'cluster_{i}_wordcloud_{DECADE_START}_{DECADE_END}.png'
    print('Saved', out)
: 
,
: { 
: 
 },
: [
5
,
# Prefer data/sents.txt if present (already segmented); else sentence-split documents

# TP3 — Clustering (décennie) et Word2Vec

Ce notebook exécute un pipeline reproductible pour :
- construire le corpus d'une décennie (ici 1950–1959),
- effectuer un clustering des documents (TF-IDF + KMeans),
- interpréter les clusters via mots-clés / wordcloud,
- entraîner un modèle Word2Vec sur les phrases de la décennie,
- explorer les relations vectorielles (similarity / most_similar).

Les résultats (CSV, modèles, images) sont sauvegardés dans `tp3/`.

In [None]:
# Paramètres - modifiez ici si besoin
DECADE_START = 1950
DECADE_END = 1959
N_CLUSTERS = 6
TOP_N_TERMS = 15
W2V_VECTOR_SIZE = 64
W2V_WINDOW = 5
W2V_MIN_COUNT = 5
OUT_DIR = 'tp3'
import os
os.makedirs(OUT_DIR, exist_ok=True)
print(f'Decade: {DECADE_START}-{DECADE_END}, clusters={N_CLUSTERS}')
: 
,
: { 
: 
 },
: [
,
,
,
,
,
,
,
,
,
,
,

In [None]:
# 1) trouver les fichiers de la décennie
data_txt = Path('data/txt')
files = []
for p in sorted(data_txt.glob('*.txt')):
    m = re.search(r'(18|19)\d{2}', p.name)
    if m:
        y = int(m.group(0))
        if DECADE_START <= y <= DECADE_END:
            files.append(p)
print(len(files), 'files found')
: 
,
: { 
: 
 },
: [
2
,

In [None]:
# 3) TF-IDF + KMeans
vectorizer = TfidfVectorizer(max_df=0.6, min_df=2, ngram_range=(1,2), stop_words='english')
X = vectorizer.fit_transform(docs)
print('TF-IDF shape', X.shape)
kmeans = KMeans(n_clusters=N_CLUSTERS, random_state=42, n_init=10)
kmeans.fit(X)
labels = kmeans.labels_
df = pd.DataFrame({'filename': names, 'cluster': labels})
df.to_csv(os.path.join(OUT_DIR, f'clusters_{DECADE_START}_{DECADE_END}.csv'), index=False)
print('Saved cluster assignments')
: 
,
: { 
: 
 },
: [
,
,
,
,