In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import spacy
from bertopic import BERTopic

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
acm_competitions = pd.read_csv("Data/ACM/AcmEPFL_Base_de_donnees_des_concours_annee1990.csv")

In [3]:
acm_competitions

Unnamed: 0,Nom de l'objet,Programme,Adresse 1,Adresse 2,Adresse 3,Numéro postal,Localité,Canton - Département,Pays,Date de début de l'objet,Date de fin de l'objet,Concours ouvert à,Notes de l'objet,Auteurs,Rôle de l'auteur,Dossiers reliés,Pièces reliées
0,Concours pour le nouveau bâtiment des écoles d...,,,,,,Vevey,,Vaud,1872,1872,A. national,Ouvert par la Municipalité sur décret du 15 ma...,,,,
1,Concours pour le nouveau bâtiment des écoles d...,,,,,,Vevey,,Vaud,1872,,,Le concours est mentionné en 1878 (Eisenbahn v...,"Stadler + Ritscher von Steinbeck + Recordon, B...","3e prix 3e prix Juré, rapporteur Concurrent 2e...",,
2,Concours (1er degré) pour le monument du génér...,,,,,,Genève,,Suisse,1877,12.1877,National,Chercher dans Eisenbahn vol. V une annonce d'o...,"Thomas, Jules Cain, Auguste-Nicolas Rothpletz,...",Juré Juré Juré Juré Juré Juré Juré Juré Juré J...,,
3,Concours restreint pour le nouveau Musée de la...,,,,,,Mulhouse,,,1879,1879,,"""Par suite d'un concours entre un nombre restr...","Rütti, Ludwig Friedrich von",Concurrent,,
4,Concours d'éléments analytiques : 2e classe : ...,,,,,,,,,1882,,,,,,,0138.04.0001/262
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2381,"Concours ""Reflet"" hôtel",,,,,,Ouchy,Vaud,Suisse,,,,,,,0133.04.0316,
2382,"SIA, commission des concours-641",,,,,,,,,,,,,,,0011.03.0037 ; 0011.03.0032 ; 0011.03.0034,
2383,"SIA, commission des concours-642",,,,,,,,,,,,,,,0002.03.0102 ; 0002.03.0094 ; 0002.03.0101,
2384,"Temple de Saint-Marc (Lausanne), concours",,"Renens, chemin de, Sévery, avenue de",,,,Lausanne,Vaud,Suisse,,,,"Jury: Jean Tschumy, Edmond Virieux, arch. cant...",,,0003.04.0059,


In [10]:
nlp = spacy.load("fr_dep_news_trf", exclude=['tagger', 'parser', 'ner', 'attribute_ruler', 'lemmatizer'])

In [11]:
from bertopic.representation import KeyBERTInspired

# Fine-tune your topic representations
representation_model = KeyBERTInspired()
topic_model = BERTopic(embedding_model=nlp.pipe, representation_model=representation_model)

In [12]:
docs = acm_competitions['Nom de l\'objet'].dropna().to_list()

In [13]:
from spacy_cleaner import processing, Cleaner
cleaner = Cleaner( 
    nlp,
    processing.remove_stopword_token,
    # processing.replace_punctuation_token,
    # processing.mutate_lemma_token,
)
texts = cleaner.clean(docs)

Cleaning Progress: 100%|██████████| 2386/2386 [00:51<00:00, 46.07it/s]


In [14]:
texts

['Concours bâtiment écoles filles Vevey',
 'Concours bâtiment écoles filles Vevey , jugement',
 'Concours ( 1er degré ) monument général Dufour',
 'Concours restreint Musée Société Industrielle Mulhouse , jugement',
 'Concours éléments analytiques : 2e classe : Rendu : façade phare',
 'Concours émulation - 2e classe - Esquisse : chambre coucher princière',
 'Concours usine Coulouvrenière , Genève , jugement',
 'Concours éléments analytiques : 2e classe : Rendu : détails portique ordre dorique romain',
 'Concours émulation - 2e classe - Esquisse : bureau recrutement chef - lieu département',
 'Concours école horlogerie Locle',
 'Concours école horlogerie Locle , jugement',
 'Concours restreint bâtiment salles conférences Neuchâtel',
 'Concours restreint bâtiment salles conférences Neuchâtel , jugement',
 'Concours : Prix Godeboeuf : 1885 : horloge adossée',
 'Concours émulation : 1ère classe : Esquisse : entrée principale grand cimetière',
 "Concours émulation : 2e classe : Esquisse : b

In [15]:
topics, probs = topic_model.fit_transform(texts)



In [16]:
topic_model.get_topic_info()

Unnamed: 0,Topic,Count,Name,Representation,Representative_Docs
0,-1,304,-1_tour_musée_institut_jugement,"[tour, musée, institut, jugement, université, ...","[Concours école enfantine Tour-de-Peilz , juge..."
1,0,183,0_lausanne_zürich_ecole_école,"[lausanne, zürich, ecole, école, ecoles, jugem...",[Concours école supérieure jeunes filles Lausa...
2,1,173,1_villamont_aménagement_jugement_quais,"[villamont, aménagement, jugement, quais, agra...",[Concours aménagement quartier Villamont place...
3,2,139,2_jugement_bâtiments_scolaire_scolaires,"[jugement, bâtiments, scolaire, scolaires, bât...","[Concours bâtiment scolaire , Nyon , jugement,..."
4,3,126,3_école_ecole_écoles_jugement,"[école, ecole, écoles, jugement, supérieure, i...",[Concours école secondaire jeunes filles Bienn...
...,...,...,...,...,...
58,57,13,57_universitaires_universitaire_université_jug...,"[universitaires, universitaire, université, ju...","[Concours bâtiments universitaires Mail , Neuc..."
59,58,13,58_crématoire_vevey_concours_jugement,"[crématoire, vevey, concours, jugement, cremat...","[Concours crématoire , Vevey, Concours crémato..."
60,59,11,59_muséum_museum_histoire_musée,"[muséum, museum, histoire, musée, naturelle, j...",[Concours ( 2e degré ) Muséum histoire naturel...
61,60,11,60_industriels_services_service_logements,"[industriels, services, service, logements, ma...",[Concours immeuble services industriels techni...


In [17]:
doc_topic_df = topic_model.get_document_info(texts)


In [22]:
fig = topic_model.visualize_hierarchy()
fig.show()

In [19]:
acm_competitions["Localité"].value_counts()

Localité
Lausanne     300
Genève       207
Neuchâtel     72
Bern          62
Fribourg      58
            ... 
Firenze        1
Diekirch       1
Djeddah        1
Veyrier        1
Ouchy          1
Name: count, Length: 385, dtype: int64