<img src="https://heig-vd.ch/docs/default-source/doc-global-newsletter/2020-slim.svg" alt="Logo HEIG-VD" style="width: 80px;" align="right"/>

# Cours APN - Labo 7 : Classification non supervisée

## Résumé
Le but de ce laboratoire est de réaliser une expérience de classification non-supervisée d'articles.  L'approche se base sur des vecteurs en basse dimension (*embeddings*) qui représentent les classes, qui seront comparés avec les vecteurs en basse dimension (*embeddings*) représentant les documents.  Ces *embeddings* seront obtenus soit au modèle `word2vec`.  La méthode sera testée sur un corpus d'articles provenant de rubriques connues, ce qui permettra d'évaluer les méthodes.

In [1]:
# Librairies générales
import pandas as pd
import numpy as np
import random
from tqdm import tqdm

In [2]:
# Similarité entre vecteurs (mots, catégories ou textes)
from sklearn.metrics.pairwise import cosine_similarity

In [3]:
# Librairies pour l'évaluation
import matplotlib.pyplot as plt
from sklearn.metrics import classification_report, ConfusionMatrixDisplay

## 1. Préparation des données

Vous utiliserez un corpus d'environ 200'000 articles (titres et résumés) [diponibles sur Kaggle](https://www.kaggle.com/datasets/rmisra/news-category-dataset/versions/2) (V2, 80 Mo, nécessite un login) mais dont une copie est **fournie sur Cyberlearn**.  Dans cette partie, vous allez:
  - a. charger le corpus fourni au format JSON, l'explorer et afficher des statistiques
  - b. définir une fonction de normalisation de textes (avec la librairie `utils.py` déjà utilisée)
  - c. définir une fonction d'extraction des textes avec leur catégorie
***

**a.** Veuillez charger le corpus à l'aide des instructions données ci-dessous, puis afficher les statistiques suivantes :
  * un exemple d'article
  * nombre total d'articles
  * nombre d'articles pour chaque catégorie (ou classe) par ordre décroissant
  * nombre d'articles sans `headline`
  * nombre d'articles sans `short_description`
  * nombre d'articles dont la longueur de `headline + short_description` est inférieure ou égale à 2 caractères
  * longueur moyenne de `headline + short_description`

In [4]:
import json
from collections import Counter # pour calculer facilement le nombre d'articles par categorie

file_path = './News_Category_Dataset_v2.json/News_Category_Dataset_v2.json'

with open(file_path, 'r', encoding='utf-8') as file:
    data = [json.loads(line) for line in file]

total_articles = len(data)
print(f"Nombre total d'articles : {total_articles}")


example_article = data[0]
print("\nExemple d'article :", example_article)

categories = [article['category'] for article in data if 'category' in article]
category_counts = Counter(categories)
print("\nNombre d'articles par catégorie")
for category, count in category_counts.most_common():
    print(f"{category}: {count}")

missing_headlines = sum(1 for article in data if not article.get('headline'))
print(f"\nNombre d'articles sans 'headline' : {missing_headlines}")

missing_descriptions = sum(1 for article in data if not article.get('short_description'))
print(f"Nombre d'articles sans 'short_description' : {missing_descriptions}")

short_articles = sum(
    1 for article in data if len(article.get('headline', '') + article.get('short_description', '')) <= 2
)
print(f"Nombre d'articles avec 'headline + short_description' ≤ 2 caractères : {short_articles}")

total_length = sum(
    len(article.get('headline', '') + article.get('short_description', '')) for article in data
)
average_length = total_length / total_articles
print(f"Longueur moyenne de 'headline + short_description' : {average_length:.2f}")



Nombre total d'articles : 200853

Exemple d'article : {'category': 'CRIME', 'headline': 'There Were 2 Mass Shootings In Texas Last Week, But Only 1 On TV', 'authors': 'Melissa Jeltsen', 'link': 'https://www.huffingtonpost.com/entry/texas-amanda-painter-mass-shooting_us_5b081ab4e4b0802d69caad89', 'short_description': 'She left her husband. He killed their children. Just another day in America.', 'date': '2018-05-26'}

Nombre d'articles par catégorie
POLITICS: 32739
WELLNESS: 17827
ENTERTAINMENT: 16058
TRAVEL: 9887
STYLE & BEAUTY: 9649
PARENTING: 8677
HEALTHY LIVING: 6694
QUEER VOICES: 6314
FOOD & DRINK: 6226
BUSINESS: 5937
COMEDY: 5175
SPORTS: 4884
BLACK VOICES: 4528
HOME & LIVING: 4195
PARENTS: 3955
THE WORLDPOST: 3664
WEDDINGS: 3651
WOMEN: 3490
IMPACT: 3459
DIVORCE: 3426
CRIME: 3405
MEDIA: 2815
WEIRD NEWS: 2670
GREEN: 2622
WORLDPOST: 2579
RELIGION: 2556
STYLE: 2254
SCIENCE: 2178
WORLD NEWS: 2177
TASTE: 2096
TECH: 2082
MONEY: 1707
ARTS: 1509
FIFTY: 1401
GOOD NEWS: 1398
ARTS & CULTURE: 

In [5]:
data_df = pd.DataFrame(data)

In [6]:
corpus  = []
with open('News_Category_Dataset_v2.json/News_Category_Dataset_v2.json', mode='r', errors='ignore') as json_file:
    for dic in json_file:
        corpus.append(json.loads(dic))

**b.** Veuillez définir une fonction de nettoyage et normalisation des textes, qui vise à réduire la diversité du vocabulaire (lemmatisation, suppression des ponctuations, nombres, ou *stopwords*, etc.).  Veuillez utiliser les fonctions fournies dans la librairie `utils.py` fournie sur Cyberlearn et déjà vue au labo 3 (groupement hiérarchique de films).  Votre fonction devra prendre en entrée un texte non-tokenisé (une chaîne de caractères) et retournera une chaîne de caractères également, mais avec tous les tokens retenus.

In [7]:
import utils # fonctions de pré-traitement des textes

In [8]:
def normalize_text(text):
    texte = utils.remove_punctuation(text)
    texte = utils.remove_stopwords(text)
    
    texte = utils.lemmatize_text(text)
    texte = utils.remove_non_alphabetic(text)

    return text

**c.** Veuillez écrire une fonction qui sélectionne les articles d'une ou plusieurs catégories (données sous forme de liste, p.ex. `['MONEY', 'SCIENCE']`) et retourne leurs textes et leurs catégories.  Plus précisément :
* la fonction retourne une liste de textes et une liste de catégories de même longueur (au texte *i* correspond la catégorie ou classe *i*)
* le texte de chaque article est composé de son `headline` et de sa `short_description`, séparés par un point+espace
* si `normalize=True`, la fonction normalise les textes (note : ça ne sera pas toujours souhaitable dans les expériences suivantes)
* on ne retient dans le résultat que les textes dont la longueur finale est supérieure à 3 caractères.

In [9]:
def select_texts_categories(corpus, selected_categories, normalize=True):
    texts = []
    categories = []

    for article in corpus:

        if article.get('category') in selected_categories:
            headline = article.get('headline', '').strip()
            short_description = article.get('short_description', '').strip()
            text = f"{headline}. {short_description}" if headline or short_description else ""
            
            if normalize and text:
                text = normalize_text(text)
            
            if len(text) > 3:
                texts.append(text)
                categories.append(article['category'])
    
    return texts, categories



**d.** Veuillez exécuter la fonction, en appliquant la normalisation des textes, puis afficher un exemple de résultat et commenter brièvement son contenu.  Le code est donné ci-dessous, et vous devez ajouter votre commentaire.

In [10]:
selected_categories = ['MONEY', 'SCIENCE']
texts, categories = select_texts_categories(corpus, selected_categories, normalize=True)
print("Exemple :", categories[142], ':', texts[142])

Exemple : SCIENCE : Fireball Rips Through Siberian Sky In Brilliant Display Of Light. "Frankly, I was scared. I thought that it was a bomb," one witness said.


In [11]:
# Votre commentaire ici.

___
## 2. Classification non supervisée avec des embeddings word2vec

La méthode de classification proposée comporte trois étapes.  Le but de cette partie est de définir une fonction pour chacune d'elles.  Au début, une (re)prise en main de word2vec est demandée.
* a. prise en main de word2vec
* b. création des représentations vectorielles (*embeddings*) des classes (catégories)
* c. création des représentations vectorielles (*embeddings*) d'un texte
* d. classification : comparer les similarités du vecteur de texte avec les vecteurs des classes, choisir la plus similaire
___

**a.** Prise en main de word2vec.  Vous avez déjà utilisé word2vec au Labo 4 sur la visualisation de vecteurs de mots (et Cémantix) mais ici vous utiliserez un modèle pour l'anglais.  Vous pouvez consulter la [documentation de gensim sur KeyedVectors](https://radimrehurek.com/gensim/models/keyedvectors.html#what-can-i-do-with-word-vectors)). 

In [None]:
from gensim.models import KeyedVectors
import gensim.downloader

In [15]:
# Si le modèle n'est pas téléchargé :
#w2v_model = gensim.downloader.load('word2vec-google-news-300')
# S'il l'est déjà, indiquer son emplacement :
path_to_model = "C:\\Users\\Julien\\gensim-data\\word2vec-google-news-300\\word2vec-google-news-300.gz"
w2v_model = KeyedVectors.load_word2vec_format(path_to_model, binary=True, unicode_errors="ignore")
# Attention, ce modèle prend environ 5 Go en mémoire. 

Veuillez afficher les mots les plus similaires selon ce modèle word2vec du mot 'science'.  Même question pour le mot 'money' (ce sont des noms de catégories).  Que pensez-vous du résultat ?  

In [16]:
similar_to_science = w2v_model.most_similar("science", topn=10)
print("Mots similaires à 'science' :")
for word, similarity in similar_to_science:
    print(f"{word}: {similarity:.4f}")

similar_to_money = w2v_model.most_similar("money", topn=10)
print("\nMots similaires à 'money' :")
for word, similarity in similar_to_money:
    print(f"{word}: {similarity:.4f}")

Mots similaires à 'science' :
faith_Jezierski: 0.6965
sciences: 0.6821
biology: 0.6776
scientific: 0.6535
mathematics: 0.6301
Hilal_Khashan_professor: 0.6153
impeach_USADA: 0.6149
professor_Kent_Redfield: 0.6144
physics_astronomy: 0.6105
bionic_prosthetic_fingers: 0.6083

Mots similaires à 'money' :
monies: 0.7165
funds: 0.7055
moneys: 0.6289
dollars: 0.6289
cash: 0.6151
vast_sums: 0.6057
fund: 0.5790
Money: 0.5733
taxpayer_dollars: 0.5694
Monies: 0.5587


Basé sur les résultats précédents et vos intuitions sur les articles qu'on peut trouver dans les catégories `['SCIENCE', 'MONEY']`, veuillez indiquer ici 5 à 10 mots représentatifs de chacune de ces deux catégories.

In [None]:
data_df[ data_df['category'].isin(['MONEY', 'SCIENCE']) ]['short_description']
#
#Nous pouvons citer les mots similaires à 'science' : biology, sciences, scientific, chemistry, physics, neuroscience, mathematics, biochemistry, biophysics, et biotechnology.
#
#Nous pouvons citer les mots similaires à 'money' : cash, dollars, money, funds, currency, euros, million, billions, and trillions.
#

155       The researchers plan to scour the Loch Ness ne...
285       The supposed "interstellar immigrant" is locat...
439       It's the first time a rocket designed by a Chi...
449                                                  YIKES!
1246      Some of America's top researchers will move to...
                                ...                        
200754    Because of the overuse of antibiotics, antibio...
200815    Gallery: Space Station's Expedition 30 Mission...
200816    image 1: throw As Hizook reports, DLR started ...
200817    That doesn't mean Jobs lacks for fans in the w...
200818    Aurora borealis can typically only be seen at ...
Name: short_description, Length: 3885, dtype: object

**b.** Création des représentations vectorielles des classes (catégories).

Veuillez définir une fonction qui retourne un vecteur (*embedding*) word2vec pour chacune des classes d'un tableau qui est fourni en argument de la fonction.  Consignes :

* la fonction retourne la moyenne des *embeddings* des mots-clés associés à chaque classe;
* pour les classes 'SCIENCE' et 'MONEY', elle prend les mots-clés que vous avez choisis ci-dessus (au (a)) ;
* pour les autres classes, elle demande à word2vec les `topn` voisins du nom de la classe (en minuscules) ;
  - si `topn = 0`, on utilise seulement le nom de la classe (en minuscules) ;
  - on suppose que le nom de la classe est connu de word2vec.


In [None]:
def cat_embedding_w2v(model, category_names, topn=30):

    return category_embeddings

In [None]:
# Test : affiche-t-on 'True' ?
e1 = cat_embedding_w2v(w2v_model, ['SCIENCE'], topn=30)
e2 = cat_embedding_w2v(w2v_model, ['TECH'],    topn=30)
e3 = cat_embedding_w2v(w2v_model, ['TASTE'],   topn=30)
cosine_similarity(e1, e2) > cosine_similarity(e2, e3)

**c.** Création de la représentation vectorielle d'un texte

Veuillez définir une fonction qui prend un texte (*string*) en argument et retourne un vecteur (*embedding*) qui représente le texte.  Le texte doit être découpé en mots (tokenisé), puis on doit tester si chaque mot est connu du modèle word2vec, et si oui, on récupère le *embedding* du mot.  La fonction retourne la moyenne des *embeddings*, sauf si aucun mot du texte n'est connu du modèle word2vec, auquel cas elle retourne `[]`.

In [None]:
from nltk import word_tokenize

In [None]:
def text_embedding_w2v(model, text):


**d.** Classification non supervisée d'articles avec word2vec

Veuillez définir une fonction qui prend en entrée :
* un modèle word2vec
* une liste de textes à classifier
* une liste de catégories définies par leur nom en majuscules (p.ex. `['SCIENCE', 'MONEY']`)
et qui retourne le tableau avec la catégorie prédite pour chaque texte parmi les catégories données.  

Pour prédire la catégorie, la fonction calcule la similarité cosinus du *embedding* du texte avec chacun des *embeddings* des catégories, et choisit la catégorie qui a la plus grande similarité.  Si le texte n'a pas de *embedding* (parce qu'aucun de ses mots n'est connu du modèle), ou si plusieurs catégories ont la même similarité, on tire au sort la catégorie.

In [None]:
def classify_w2v(model, texts, selected_categories, topn = 30):

    return cat_pred

**e.** Veuillez réaliser la classification non supervisée des articles des catégories `['SCIENCE', 'MONEY']`.  Afficher les scores obtenus et la matrice de confusion en utilisant les fonctions de `sklearn.metrics` importées au début du notebook.  Veuillez faire plusieurs essais pour optimiser les fonctions et leurs appels, et à la fin laisser votre meilleur résultat dans ce notebook.  

In [None]:
selected_categories = ['SCIENCE', 'MONEY']


**f.** Veuillez réaliser une expérience de classification non supervisée sur les articles des catégories `['TECH', 'ARTS', 'COLLEGE']` en variant le paramètre `topn` de `classify_w2v` et en indiquant la meilleure valeur trouvée.

In [None]:
selected_categories = ['TECH', 'ARTS', 'COLLEGE']


**g.** Veuillez comparer les deux expériences (points (e) et (f)) en termes de scores, de valeurs optimales de `topn`, et de l'impact du nettoyage de textes.   Veuillez donner votre opinion sur la qualité de la classification non supervisée avec word2vec.

**Fin du Labo.**  Veuillez nettoyer ce notebook en gardant seulement les résultats et les commentaires demandés, l'enregistrer, et le soumettre comme devoir sur Cyberlearn.