# Projet clustering

Objectif du projet : Utiliser le corpus export_articles_EGC_2004_2018 et faire le bilan de l'évolution de la communauté EGC ces 20 dernières années et tenter d'en prédire l'avenir.

Plus précisément, on va tenter de classer les différents sujets de ces 20 dernières années de manière à identifier des tendances de sujet.

En suivant ces tendances, on aura un pronostic des futurs sujets de l'EGC 2020.

L'évolution du projet est suivable à ces addresses : 
- https://github.com/TGranjon/EGC2020
- https://github.com/TGranjon/EGC2020/projects/1

##  Notes :
J'ai abandonné l'utilisation de TreeTagger pour lemmatiser : j'ai pas réussi à le faire fonctionner. Remplacé par FrenchLefffLemmatizer.

Ainsi que Gensim : la forme de ses corpus est étrange et je pense que c'est une perte de temps à se conformer à leur modèle. Remplacé par SKLearn.

Tout le programme peut être effectué sur un ordi sans GPU au prix d'un plus grand temps de traitement.

### Imports

In [1]:
from __future__ import print_function
import pandas as pd
import numpy as np
import nltk
import string
from nltk.corpus import stopwords
from french_lefff_lemmatizer.french_lefff_lemmatizer import FrenchLefffLemmatizer
from random import randint
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import TruncatedSVD
from sklearn.preprocessing import Normalizer
from sklearn import metrics
from sklearn.datasets import load_files
from sklearn.cluster import AgglomerativeClustering
import time

In [2]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Thomas\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [3]:
start_time = time.process_time()

### Ouverture du fichier de données

Le fichier de données original contient d'innombrables erreurs dûes au remplacement hâtif du caractère "fin de ligne" par un caractère vide.

Ainsi, plusieurs mots sont collés les uns aux autres et d'autres contiennent un tiret érroné en leur sein.

#### Fichier de données original.
doc = pd.read_csv("export_articles_EGC_2004_2018.csv", sep='\t')
doc

In [4]:
#### Fichier de données corrigé.
##### La correction va jusqu'à la ligne 733.
doc = pd.read_csv("export_articles_EGC_2004_2018_Copie.csv", sep='\t')
doc

Unnamed: 0,series,booktitle,year,title,abstract,authors,pdf1page,pdfarticle
0,Revue des Nouvelles Technologies de l'Information,EGC,2018,#Idéo2017 : une plateforme citoyenne dédiée à ...,Cette plateforme a pour objectif de permettre ...,"Claudia Marinica, Julien Longhi, Nader Hassine...",http://editions-rnti.fr/render_pdf.php?p1&p=10...,http://editions-rnti.fr/render_pdf.php?p=1002425
1,Revue des Nouvelles Technologies de l'Information,EGC,2018,A two level co-clustering algorithm for very l...,La classification croisée (co-clustering) est ...,"Marius Barctus, Marc Boullé, Fabrice Clérot",http://editions-rnti.fr/render_pdf.php?p1&p=10...,http://editions-rnti.fr/render_pdf.php?p=1002372
2,Revue des Nouvelles Technologies de l'Information,EGC,2018,ALGeoSPF: Un modèle de factorisation basé sur ...,La recommandation de points d'intérêts est dev...,"Jean-Benoît Griesner, Talel Abdesssalem, Huber...",http://editions-rnti.fr/render_pdf.php?p1&p=10...,http://editions-rnti.fr/render_pdf.php?p=1002380
3,Revue des Nouvelles Technologies de l'Information,EGC,2018,Analyse des sentiments à partir des commentair...,L'analyse des sentiments est un processus pend...,"Abdeljalil Elouardighi, Mohcine Maghfour, Hafd...",http://editions-rnti.fr/render_pdf.php?p1&p=10...,http://editions-rnti.fr/render_pdf.php?p=1002397
4,Revue des Nouvelles Technologies de l'Information,EGC,2018,Analyse en rôles sémantiques pour le résumé au...,Cet article présente une approche visant à ext...,"Elyase Lassouli, Yasmine Mesbahi, Camille Prad...",http://editions-rnti.fr/render_pdf.php?p1&p=10...,http://editions-rnti.fr/render_pdf.php?p=1002384
5,Revue des Nouvelles Technologies de l'Information,EGC,2018,Analyse Ontologique de scénario dans un contex...,,"Marwan Batrouni, Aurélie Bertaux, Christophe N...",http://editions-rnti.fr/render_pdf.php?p1&p=10...,http://editions-rnti.fr/render_pdf.php?p=1002414
6,Revue des Nouvelles Technologies de l'Information,EGC,2018,Apport de la fouille de données pour la préven...,Avec plus de 800 000 décès par an dans le mond...,"Romain Billot, Sofian Berrouiguet, Mark Larsen...",http://editions-rnti.fr/render_pdf.php?p1&p=10...,http://editions-rnti.fr/render_pdf.php?p=1002376
7,Revue des Nouvelles Technologies de l'Information,EGC,2018,Apport des modèles locaux pour les K-moyennes ...,"Dans le cadre du clustering prédictif, pour at...","Vincent Lemaire, Oumaima Alaoui Ismaili",http://editions-rnti.fr/render_pdf.php?p1&p=10...,http://editions-rnti.fr/render_pdf.php?p=1002379
8,Revue des Nouvelles Technologies de l'Information,EGC,2018,Apprendre les relations de préférence et de co...,"En classification multi-labels, chaque instanc...","Khalil Laghmari, Christophe Marsala, Mohammed ...",http://editions-rnti.fr/render_pdf.php?p1&p=10...,http://editions-rnti.fr/render_pdf.php?p=1002381
9,Revue des Nouvelles Technologies de l'Information,EGC,2018,Approche contextuelle par régression pour les ...,Les tests A/B sont des procédures utilisées pa...,"Emmanuelle Claeys, Pierre Gançarski, Myriam Ma...",http://editions-rnti.fr/render_pdf.php?p1&p=10...,http://editions-rnti.fr/render_pdf.php?p=1002387


En travaillant avec title et abstract, on va réaliser les transformations.
Tous les documents ont des titres mais ils n'ont pas tous d'abstract.
On va donc utiliser une concaténation du titre et de l'abstract afin d'être sûr d'avoir de l'information.

### Lemmatisation et nettoyage des sujets

Il faut mettre les textes en minuscules, tokeniser, retirer la ponctuation, (retirer les nombres), retirer les mots vide puis lemmatiser.

In [5]:
# Fichier des mots à retirer du texte.
cleaner = open("clean.txt","r", encoding="utf-8")
stops = []
for word in cleaner:
    stops.append(word.replace("\n",""))
cleaner.close()

In [6]:
lemmer = FrenchLefffLemmatizer()

# Lemmatiser le texte.
def lemm_tokens(tokens, lemmer):
    lemmed = []
    for item in tokens:
        lemmed.append(lemmer.lemmatize(item))
    return lemmed

def no_numbers(tokens):
    for t in range(len(tokens)):
        tokens[t] == "".join(i for i in tokens[t] if not i.isdigit())
    for token in tokens:
        if token == "":
            tokens.remove("")

# Retirer la ponctuation et autres symboles.
def punct(text):
    for word in text.split(" "):
        if word.endswith("."):
            text = text.replace(word, word.replace(".",""))
        if word.endswith(","):
            text = text.replace(word, word.replace(",",""))
        if word.endswith("?"):
            text = text.replace(word, word.replace("?",""))
        if word.endswith("!"):
            text = text.replace(word, word.replace("!",""))
        if word.endswith(";"):
            text = text.replace(word, word.replace(";",""))
        if word.endswith(":"):
            text = text.replace(word, word.replace(":",""))
        if word.startswith("("):
            text = text.replace(word, word.replace("(",""))
        if word.endswith(")"):
            text = text.replace(word, word.replace(")",""))
        if word.startswith("'"):
            text = text.replace(word, word.replace("'",""))
        if word.endswith("'"):
            text = text.replace(word, word.replace("'",""))
        if word.startswith("d'"):
            text = text.replace(word, word.replace("d'",""))
        if word.startswith("l'"):
            text = text.replace(word, word.replace("l'",""))
        if word.startswith("d’"):
            text = text.replace(word, word.replace("d’",""))
        if word.startswith("l’"):
            text = text.replace(word, word.replace("l’",""))
    return text

In [7]:
# Effectuer les opérations de pré-traitement du texte.
# Retirer la ponctuation, tokeniser puis lemmatiser.
def tokenize(text):
    text = punct(text)
    #text = text.translate(str.maketrans('','',string.punctuation))
    print(text)
    tokens = nltk.word_tokenize(text)
    #alpha = no_numbers(tokens)
    clean = [word for word in tokens if word not in stops]
    lemms = lemm_tokens(clean,lemmer)
    #stems = stem_tokens(tokens, stemmer)
    return lemms

In [8]:
# On effectue ces opérations sur tous les titres et tous les abstracts.
resume = [tokenize(doc["title"][0].lower())]
abstract = [tokenize(str(doc["abstract"][0].lower()))]
for line in range(len(doc)): # title et abstract ont la même taille.
    if line != 0:
        resume.append(tokenize(doc["title"][line].lower()))
        abstract.append(tokenize(str(doc["abstract"][line]).lower()))

#idéo2017  une plateforme citoyenne dédiée à analyse des tweets lors des événements politiques
cette plateforme a pour objectif de permettre aux citoyens analyser par eux-mêmes les tweets politiques lors événements spécifiques en france pour le cas de élection présidentielle de 2017 #idéo2017 analysait en quasi temps réel les messages des candidats et fournissait leurs principales caractéristiques usage du lexique politique et des comparaisons entre les candidats
a two level co-clustering algorithm for very large data sets
la classification croisée co-clustering) est une technique qui permet extraire la structure sous-jacente existante entre les lignes et les colonnes une table de données sous forme de blocs plusieurs applications utilisent cette technique cependant de nombreux algorithmes de co-clustering actuels ne passent pas à l'échelle une des approches utilisées avec succès est la méthode modl qui optimise un critère de vraisemblance régularisée cependant pour des tailles plus im

elaboration et utilisation une base de connaissances un domaine technique
ce poster rend compte une entreprise élaboration un système de représentation des connaissances pour le domaine géotechnique
élimination des liens inter-langues erronés dans wikipédia
un lien inter-langue dans wikipédia est un lien qui mène un article appartenant à une édition linguistique à un autre article décrivant le même concept dans une autre langue ces liens sont ajoutés manuellement par les utilisateurs de wikipédia et ainsi ils sont susceptibles être erronés dans ce papier,nous proposons une approche pour élimination automatique des liens interlangues le principe de base est que la présence un lien erroné est révélée par existence un chemin de liens inter-langues reliant deux articles appartenant à une même édition linguistique notre approche élimine des liens inter-langues à partir de ceux qui ont un faible score de correction jusqu'à ce qu'il n'y ait plus de chemins entre deux articles une même édition

peerus review un outil de recherche experts scientifiques
nous proposons un outil de recherche experts appliqué au monde académique sur les données générées par entreprise dsrt dans le cadre de son application peerus 1 un utilisateur soumet le titre le résumé et optionnellement les auteurs et le journal de publication un article scientifique et se voit proposerune liste experts, potentiels reviewers de article soumis algorithme de recherche est un système de votes reposant sur un modèle du langage entrainé à partir un ensemble de plusieurs millions articles scientifiques outil est accessible à chacun sous la forme une application web intitulée peerus review 2
perforecast  un outil de prévision de évolution de séries temporelles pour le planning capacitaire
nous présentons perforecast un outil qui vise à automatiser le processus de planning capacitaire en utilisant des données temporelles univariées et des modèles prédictifs configurés automatiquement objectif est anticiper les problème

la date de pose est souvent un facteur principal explication de la dégradationdes conduites assainissement pour les gestionnaires de ces réseaux connaître cette information permet ainsi par utilisation de modèles de détérioration de prédire état de santé actuel des conduites non encore inspectées cette connaissance est primordiale pour prendre des décisions dans un contexte de forte contrainte budgétaire objectif est ainsi de reconstituer ces dates de pose à partir des caractéristiques du patrimoine et de son environnement les données à manipuler présentent plusieurs niveaux de complexité importants leurs sources sont hétérogènes leur volume est important et les informations sur leur étiquetage dates) sont limitées  seulement 24 % du linéaire est connu pour les réseaux assainissement de la métropole de lyon la base de données sous-jacente contient les caractéristiques connues des conduites profil géométrique matériau utilisé etc) dans ce papier nous proposons de mesurer effet et impact

apprentissage espaces prétopologiques dans un cadre multi-instance pour la structuration de données
nous présentons dans cet article une méthode supervisée de structuration en dag un ensemble d'éléments étant donnés une structure cible et un ensemble de relations sur ces éléments il s'agit apprendre un modèle de structuration par combinaison des relations initiales nous formalisons ce problème dans le cadre de la théorie de la prétopologie qui permet atteindre des modèles de structuration complexes nous montrons que la non-idempotence de la fonction adhérence rentre dans le cadre du formalisme de apprentissage supervisé) multi-instance et nous proposons un algorithme apprentissage reposant sur le dénombrement des «sacs» positifs et négatifs plutôt que sur un ensemble apprentissage standard une première expérimentation de cette méthode est présentée dans un cadre applicatif de fouille de textes consistant à apprendre un modèle de structuration taxonomique un ensemble de termes
apprentis

gestion de connaissances en temps réel depuis des flux massifs de données et apprentissage automatique
analyse en temps-réel de données massives envoyées par des capteurs a connu ces dernières années un essor important du fait de hétérogénéité de ces données application de modèles de machine learning spécialement calibrés pour des cas usages précis a permis extraire et inférer des informations de très grandes valeurs néanmoins peu de systèmes proposent une implémentation distribuée sur un vrai cluster industriel permettant de tirer profit de capacités de calcul décuplées nous présentons ici une démonstration de détection anomalie sur réseau souterrain eau potable en île-de-france réalisé avec notre plateforme dénotée waves
interopérabilité sémantique libérale pour les services et les objets
le web des données promeut utilisation de rdf comme modèle pour les données structurées sur le web cependant la majorité des services web consomment et exposent principalement du csv json ou xml des

reconnaissance de sections et entités dans les décisions de justice  application des modèles probabilistes hmm et crf
une décision de justice est un document textuel rapportant le dénouement une affaire judiciaire les juristes s'en servent régulièrement comme source interprétation de la loi et de compréhension de opinion des juges la masse disponible de décisions exige des solutions automatiques pour aider les acteurs du droit nous proposons adresser certains des défis liés à la recherche et analyse du volume croissant de décisions de justice en france dans un projet plus global la première phase de ce projet porte sur extraction information des décisions dans objectif de construire une base de connaissances jurisprudentielles structurant et organisant les décisions une telle base facilite analyse descriptive et prédictive de corpus de décisions cet article présente une application des modèles probabilistes pour la segmentation des décisions et la reconnaissance entités dans leur conte

une approche logique pour la fouille de règles association
la découverte de règles association à partir de données transactionnelles est une tâche largement étudiée en fouille de données les algorithmes proposés dans ce cadre partagent la même méthodologie en deux étapes à savoir énumération des itemsets fréquents suivie par étape de génération de règles dans cet article nous proposons une nouvelle approche basée sur la satisfiabilité propositionnelle pour extraire les règles association en une seule étape pour montrer la flexibilité et la déclarativité de notre approche nous considérons également deux autres variantes à savoir la fouille de règles association fermées et la fouille de règles indirectes les expérimentation sur plusieurs jeux de données montrent que notre approche offre de meilleures performances comparée à des approches spécialisées
une approche sociologique de la place des calculs dans les mondes numériques
dans cette présentation on souhaite présenter un regard de soc

concept drift vs suicide comment un peut prévenir l'autre
le suicide devient année en année une problématique plus préoccupante les organismes de santé tels que oms se sont engagés à réduire le nombre de suicides de 10% dans ensemble des pays membres ici 2020 si le suicide est généralement un geste impulsif il existe souvent des actes et des paroles qui peuvent révéler un mal être et représenter des signes précurseurs de prédispositions au suicide objectif de cette étude est de mettre en place un système pour détecter semi-automatiquement ces comportements et ces paroles au travers des réseaux sociaux des travaux précédents ont proposé la classification de messages issus de twitter suivant des thèmes liés au suicide  tristesse blessures psychologiques état mental etc dans cette étude nous ajoutons la dimension temporelle pour prendre en compte évolution de état des personnes monitorées nous avons implémenté pour cela différentes méthodes apprentissage dont une méthode originale de conc

cet article présente une méthode exploration de données temporelles fondée sur analyse relationnelle de concepts arc) et appliquée à des données séquentielles construites à partir échantillons physico-chimiques et biologiques prélevés dans des cours d'eau notre but est de mettre au jour des sous-séquences pertinentes et hiérarchisées associant les deux types de paramètres pour faciliter la lecture ces sous-séquences sont représentées sous la forme de motifs partiellement ordonnés (po-motifs) le processus de fouille de données se décompose en plusieurs étapes  construction un modèle temporel ad hoc et mise en oeuvre de arc  extraction des sous-séquences synthétisées sous la forme de po-motifs  sélection des po-motifs intéressants grâce à une mesure exploitant la distribution des extensions de concepts le processus a été testé sur un jeu de données réelles et évalué quantitativement et qualitativement
la génération des résumés visuels de flux de données de capteurs météorologiques avec d

relaxation des requêtes skyline  une approche centrée utilisateur
les requêtes skyline constituent un outil puissant pour analyse dedonnées multidimensionnelles et la décision multicritère en pratique le calculdu skyline peut conduire à deux scénarios  soit i) un nombre important objetssont retournés soit ii) un nombre réduit objets sont retournés ce qui peut êtreinsuffisant pour la prise de décisions dans cet article nous abordons le secondproblème et proposons une approche permettant de le traiter idée consiste àrendre le skyline plus permissive en lui ajoutant les objets non skyline les pluspréférés approche s'appuie sur une nouvelle relation de dominance floue appelée«much preferred» un algorithme efficace pour calculer le skyline relaxéest proposé une série expériences sont menées pour démontrer la pertinencede approche et la performance de algorithme proposé
requêtes discriminantes pour exploration des données
à ère du big data les profils utilisateurs deviennent de plus enplus d

un protocole expérimentation sur les propriétés graphémiques avec algorithme som
nous présentons une recherche sur la distribution et la classificationnon-supervisée des graphèmes nous visons à réduire écart entre les résultatsde recherches récentes qui montrent la capacité des algorithmes apprentissageet de classification non-supervisée pour détecter les propriétés de phonèmes etles possibilités actuelles de la représentation textuelle d'unicode nos procéduresdoivent assurer la reproductibilité des expériences et garantir que informationrecherchée n'est pas implicitement présente dans le pré-traitement desdonnées notre approche est capable de catégoriser correctement de potentielsgraphèmes ce qui montre que les propriétés phonologiques sont présentes dansles données textuelles et peuvent être automatiquement extraites à partir desdonnées textuelles brutes en unicode sans avoir besoin de les traduire en représentationsphonologiques
un regard lexico-scientométrique sur le défi egc 2016


big data is all about data that we don't have
big data is now becoming a buzz word in information technology industry and research is big data only about large volume of data? and if it is yes why is it suddenly becoming a trend hasn't the growth of data volume been gigantic in the last decade from a research point of view it is not surprising to see researchers from all walks of computer science are trying to align their research to big data for the sake of being trendy the question remains whether it tackles the real big data problems in this talk i will describe the misconceptions of big data present motivating cases and discuss the unavoidable challenges faced by industry and research
challenges and opportunities in hci visual analytics and knowledge management for the development of sustainable cities
while overtly exposed in the media the challenges faced by our societies to transition towards sustainable energy use are quite formidable a simple visual refresher of the cold hard 

le repérage des entités nommées ren) en langue amazighe est un prétraitement éventuellement essentiel pour de nombreuses applications du traitement automatique des langues (tal) en particulier pour la traduction automatique dans cet article nous présentons une chaîne de repérage des entités nommées en amazighe fondée sur une étude synthétique des spécificités de la langue et des entités nommées en amazighe article met accent sur les choix méthodologiques à résoudre les ambiguïtés dues à la langue en exploitant les technologies existantes pour autres langues
leveragingweb 2.0 for informed real-estate services
the perception about real estate properties both for individuals and agents is not formed exclusively by their intrinsic characteristics such as surface and age but also from property externalities such as pollution traffic congestion criminality rates proximity to playgrounds schools and stimulating social interactions that are equally important in this paper we present the real-e

application du paradigme mapreduce aux données ouvertes cas  accessibilité des personnes à mobilité réduite aux musées
le modèle mapreduce est aujourd'hui un des modèles de programmation parallèle les plus utilisés définissant une architecture maître-esclave il permet le traitement parallèle de grandes masses de données dans ce papier nous proposons un algorithme basé sur mapreduce qui permet à partir des données publiques du ministère français de la communication et de la culture de définir un classement des galeries et musées nationaux selon leurs degré accessibilité aux personnes handicapées tout en profitant de la puissance et de la flexibilité du paradigme mapreduce les décideurs pourront mettre en place des stratégies efficaces à moindre coût et avoir ainsi une vision plus précise sur les établissements culturels et leurs limites relatives à cette catégorie de personnes algorithme que nous proposons peut être exploité et appliqué à autres cas études avec des jeux de données plus 

avec la prolifération des données géographiques il y a un fort besoin de concevoir des outils automatiques pour exploitation des connaissances géographiques incarnées dans les documents textuels c'est dans ce contexte que nous proposons une approche permettant de générer une base de données géographiques bdg) à partir de textes notre approche s'articule autour de deux grandes phases  la génération du schéma de la bdg et la détermination des données qui serviront au remplissage de cette base implémentation de notre approche a donné naissance à un outil que nous avons baptisé gdb generator et que nous avons intégré dans le sig  openjump
dynamique des communautés par prédiction interactions dans les réseaux sociaux
dans cet article nous proposons une approche générale de prédiction des communautés basée sur un modèle apprentissage automatique pour la prédiction des interactions en effet nous pensons que si on peut prédire avec précision la structure du réseau alors on a juste à rechercher

local-generator  "diviser pour régner" pour extraction des traverses minimales un hypergraphe
du fait qu'elles apportent des solutions dans de nombreuses applications les traverses minimales des hypergraphes ne cessent de susciter intérêt de la communauté scientifique et le développement algorithmes pour les calculer dans cet article nous présentons une nouvelle approche pour optimisation de extraction des traverses minimales basée sur les notions hypergraphe partiel et de traverses minimales locales selon une stratégie diviser pour régner nous introduisons aussi un nouvel algorithme appelé local-generator pour le calcul des traverses minimales les expérimentations effectuées sur divers jeux de données ont montré intérêt de notre approche notamment sur les hypergraphes ayant un nombre de transversalité élevé et renfermant un nombre très important de traverses minimales
méthodologie 3-way extraction un modèle articulatoire de la parole à partir des données un locuteur
pour parler le loc

trouver le nombre optimal de groupes dans le contexte un algorithme de clustering est un problème notoirement difficile dans cet article nous en décrivons et évaluons une solution approchée dans le cas de algorithme spectral notre méthode présente avantage être déterministe et peu coûteuse nous montrons qu'elle fonctionne de manière satisfaisante dans beaucoup de cas même si quelques limites amènent des perspectives à ce travail
une méthode hybride pour la prédiction du profil des auteurs
dans cet article nous nous intéressons à la détection du profil des auteurs (âge genre à travers leurs discussions la méthode proposée s'appuie sur la classification automatique qui utilise certaines données extraites une manière statisque à partir de corpus source nous présentons une méthode hybride qui combine analyse de surface dans les textes avec une méthode apprentissage automatique a fin obtenir une meilleure gestion de ces données nous nous sommes basés sur utilisation des arbres de décision n

les réseaux sociaux tels que twitter font partie du phénomène de déluge des données expression utilisée pour décrire apparition de données de plus en plus volumineuses et complexes pour représenter ces réseaux des graphes orientés sont souvent utilisés dans cet article nous nous focalisons sur deux aspects de analyse du réseau social de twitter en premier lieu notre but est de trouver une méthode efficace et haut niveau pour stocker et manipuler le graphe du réseau social en utilisant des ressources informatiques raisonnables cet axe de recherche constitue un enjeu majeur puisqu'il est ainsi possible de traiter des graphes à échelle réelle sur des machines potentiellement accessibles par tous ensuite nous étudions les capitalistes sociaux un type particulier utilisateurs de twitter observé par ghosh et al (2012) nous proposons une méthode pour détecter et classifier efficacement ces utilisateurs
modèle de recherche information sociale centré utilisateur
émergence des réseaux sociaux a 

avec le développement du numérique des quantités très importantes de documents composés de texte et images sont échangés ce qui nécessite le développement de modèles permettant exploiter efficacement ces informations multimédias dans le contexte de la recherche d'information un modèle possible consiste à représenter séparément les informations textuelles et visuelles et à combiner linéairement les scores issus de chaque représentation cette approche nécessite le paramétrage de poids afin équilibrer la contribution de chaque modalité le but de cet article est de présenter une nouvelle méthode permettant apprendre ces poids basée sur analyse linéaire discriminante de fisher (ald) des expérimentations réalisées sur la collection imageclef montrent que apprentissage des poids grâce à ald est pertinent et que la combinaison des scores correspondante améliore significativement les résultats par rapport à utilisation une seule modalité
biological event extraction using svm and composite kerne

pls path modeling and regularized generalized canonical correlation analysis for multi-block data analysis
regularized generalized canonical correlation analysis rgcca) is a generalization of regularized canonical correlation analysis to three or more sets of variables it constitutes a general framework for many multi-block data analysis methods it combines the power of multi-block data analysis methods maximization of well identified criteria and the flexibility of pls path modeling the researcher decides which blocks are connected and which are not) searching for a fixed point of the stationary equations related to rgcca a new monotone convergent algorithm very similar to the pls algorithm proposed by herman wold is obtained finally a practical example is discussed
prétraitement supervisé des variables numériques pour la fouille de données multi-tables
le pré-traitement des variables numériques dans le contexte de la fouille de données multi-tables diffère de celui des données classi

transformation de espace de description pour apprentissage par transfert
dans ce papier nous proposons une étude sur utilisation de apprentissage topologique pondéré et les méthodes de factorisation matricielle pour transformer espace de représentation un jeu de données "sparse" afin augmenter la qualité de apprentissage, et de adapter au cas de apprentissage par transfert la factorisation matricielle nous permet de trouver des variables latentes et apprentissage topologique pondéré est utilisé pour détecter les plus pertinentes parmi celles-ci la représentation de nouvelles données est basée sur leurs projections sur le modèle topologique pondéré pour apprentissage par transfert nous proposons une nouvelle méthode où la représentation des données est faite de la même manière que dans la première phase mais en utilisant un modèle topologique élagué les expérimentations sont présentées dans le cadre un challenge international où nous avons obtenu des résultats prometteurs 5ieme rang de 

closed-set-based discovery of representative association rules revisited
the output of an association rule miner is often huge in practice this is why several concise lossless representations have been proposed such as the “essential” or “representative” rules we revisit the algorithm given by kryszkiewicz (int symp intelligent data analysis 2001 springer-verlag lncs 2189 350–359 for mining representative rules we show that its output is sometimes incomplete due to an oversight in its mathematical validation and we propose an alternative complete generator that works within only slightly larger running times
comparaison entre deux indices pour évaluation probabiliste discriminante des règles association
élaboration une échelle de probabilité discriminante pour la comparaison mutuelle entre plusieurs attributs observés sur un échantillon objets de "grosse" taille nécessite une normalisation préalable objet de cet article est analyse comparée entre deux approches la première dérive de l 

reconnaissance actions par modélisation du mouvement
cet article propose une approche utilisant les modèles de direction et de magnitude de mouvement pour détecter les actions qui sont effectuées par des êtres humains dans des séquences vidéo des mélanges gaussiens et de lois de von mises sont estimés à partir des orientations et des magnitudes des vecteurs du flux optique calculés pour chaque bloc de la scène les paramètres de ces modèles sont estimés grâce à un algorithme apprentissage en ligne les actions sont reconnues grâce à une mesure qui se base sur la distance de bhattacharyya et qui permet de comparer le modèle une séquence donnée avec les modèles créés à partir de séquences apprentissage. approche proposée est évaluée sur deux ensembles de vidéos contenant des actions variées exécutées aussi bien dans des environnements intérieur qu'extérieur
résumés et interrogations de logs de requêtes olap
une façon assister analyse entrepôt de données repose sur exploitation et la fouill

écriture logo syllabique des anciens mayas comprend plus de 500 signes et est en bonne partie déchiffrée avec des degrés de certitude divers nous avons appliqué au codex de dresde un des trois seuls manuscrits qui nous soient parvenus codé sous latex avec le système mayatex notre méthode de représentation graduée par apprentissage non supervisé hybride entre clustering et analyse factorielle oblique sous la métrique de hellinger afin obtenir une image nuancée des thèmes traités  les individus statistiques sont les 212 segments de folio du codex et leurs attributs sont les 1687 bigrammes de signes extraits pour comparaison nous avons introduit dans cette approche endogène un élément exogène la décomposition en éléments des signes composites pour préciser plus finement les contenus la rétro-visualisation dans le texte original des résultats et expressions dégagées éclaire la signification de certains glyphes peu compris en les situant dans des contextes clairement interprétables
combiner

le conflit dans la théorie des fonctions de croyance
le conflit apparaît naturellement lorsque plusieurs sources informations imparfaites sont en jeu la théorie des fonctions de croyance offre un formalisme adapté à la fusion informations dans lequel la considération du conflit est centrale ce travail propose de revenir sur les différentes définitions du conflit dans cette théorie tentant de les synthétiser et de montrer comment supprimer ce conflit ou bien comment en tenir compte lors de la combinaison des informations
modèle de langue à base de concepts pour la recherche information
la majorité des modèles de langue appliqués à la recherche information repose sur hypothèse indépendance des mots plus précisément ces modèles sont estimés à partir des mots simples apparaissant dans les documents sans considérer les éventuelles relations sémantiques et conceptuelles pour pallier ce problème deux grnades approches ont été explorées  la première intègre des dépendances ordre surfacique ent

nan
vers une extraction et une visualisation des co-localisations adaptées aux experts
une des tâches classiques en fouille de données spatiales est extraction de co-localisations intéressantes dans des données géo-référencées objectif est de trouver des sous-ensembles de caractéristiques booléennes apparaissant fréquemment dans des objets spatiaux voisins toutefois les relations découvertes peuvent ne pas être pertinentes pour les experts et leur interprétation sous forme textuelle peut être difficile nous proposons dans ce contexte une nouvelle approche pour intégrer la connaissance des experts dans la découverte des co-localisations ainsi qu'une nouvelle représentation visuelle de ces motifs un prototype a été développé et intégré dans un sig des expérimentations on été menées sur des données géologiques réelles et les résultats validés par un expert du domaine
visual sentence-phrase-based document representation for effective and efficient content-based image retrieval
having effec

analyse sémantique spatio-temporelle pour les ontologies owl-dl
analyse sémantique est un nouveau paradigmeinterrogation du web sémantique qui a pour objectif identifier lesassociations sémantiques reliant des individus décrits dans desontologies owl-dl pour déduire davantage associationssémantiques et augmenter la précision de analyse, informationspatio-temporelle attachée aux ressources doit être prise en compte aces fins - et pour combler absence actuelle de raisonneurs spatiotemporeldéfini pour les ontologies rdf(s et owl- nous proposonsle système de représentation et interrogation ontologies spatiotemporellesontoast compatible avec le langage owl-dl nousprésentons les principes de base de algorithme de découverted'associations sémantiques entre individus intégré dans ontoast.cet algorithme utilise deux contextes un spatial et autre temporelqui permettent affiner la recherche nous décrivons enfin approchemise en oeuvre pour la déduction de connexions spatiales entreindividus
assess

cet article propose une méthode reposant sur utilisation deanalyse formelle de concepts et des treillis de galois pour analyse desystèmes complexes des statistiques reposant sur ces treillis permettent decalculer la distribution conceptuelle des objets classifiés par le treillis.l'expérimentation sur des échantillons de trois réseaux sociaux en ligneillustre utilisation de ces statistiques pour la caractérisation globale et pour lefiltrage automatique de ces systèmes
exploration de données de traçabilité issues de la rfid par apprentissage non-supervisé
la rfid radio frequency identification est une technologie avancée enregistrementde données spatio-temporelles de traçabilité objectif de ce travail est de transformer cesdonnées spatio-temporelles en connaissances exploitables par les utilisateurs par intermé-diaire une méthode de classification automatique des données les systèmes rfid peuventêtre utilisés pour étudier les sociétés animales qui sont des systèmes dynamiques complexesca

parmi lesmesures de similarité classiques utilisables sur des ensemblesfigure indice de jaccard dans le cadre de cet article nous en proposons uneextension pour comparer des ensembles de chaînes de caractères cette mesurehybride permet de combiner une distance entre chaînes de caractères telle que ladistance de levenstein et indice de jaccard elle est particulièrement adaptéepourmettre en correspondance des champs composés de plusieurs chaînes de caractèrescomme par exemple lorsqu'on se propose unifier des noms d'entitésnommées
spams une nouvelle approche incrémentale pour extraction de motifs séquentiels fréquents dans les data streams
extraction de motifs séquentiels fréquents dans les datastreams est un enjeu important traité par la communauté des chercheursen fouille de données plus encore que pour les bases de données denombreuses contraintes supplémentaires sont à considérer de par la na-ture intrinsèque des streams dans cet article nous proposons un nouvelalgorithme en une passe

dans le suivi et la modélisation de érosion en montagne lareprésentation fine du relief est une composante importante en effet laconnaissance des zones de concentration des eaux notamment à traversl'apparition de rigoles élémentaires est fondamentale pour bien décrire lesconnectivités entre les zones de mobilisation des sédiments sur le versant et leréseau hydrographique stabilisé la résolution au sol permise par lesphotographies aériennes classiques ne permet pas accéder à unereprésentation 3d suffisamment fine des ravines élémentaires nous testonsl'utilisation de photographies stéréoscopiques à résolution centimétrique prisesà basse altitude par un drone pour obtenir un mnt précis la question majeureconcerne les règles à suivre pour un meilleur compromis entre précision etfacilité d'élaboration et évaluation de importance relative de chaque étapesur la qualité finale de la restitution la zone étude est située dans lesbadlands de draix alpes de haute provence)
extraction de motifs séq

un modèle et une algèbre pour les systèmes de gestion ontologies
nous présentons ici une approche pour la gestion de bases ontologies basée sur un modèle comprenant outre la définition formelle des concepts sous forme axiomes de logique de description) autres éléments descriptifs (termes commentaires et arguments) ainsi que leurs liens alignement avec des concepts autres ontologies adaptation ou la combinaison ontologies se font grâce à une algèbre comprenant des opérations telles que la sélection la projection union ou la jointure ontologies ces opérations agissent au niveau des axiomes des éléments descriptifs et des liens alignement.
un nouveau système immunitaire artificiel pour apprentissage non supervisé
nous proposons dans ce papier un nouveau système immunitaire artificiel sia) appelé système nk pour la détection de comportement du soi non soi avec une approche non supervisée basée sur le mécanisme de cellule nk naturel killer) dans ce papier le système nk est appliqué à la dét

la détermination du niveau de consommation chez les clients est essentielle pour tout objectif de segmentation stratégique et de churn nous présentons sur un cas réel utilisation de la théorie des ensembles flous pour la définition une fonction appartenance permettant d'évaluer de manière précise le niveau de consommation des abonnés en téléphonie mobile
ensemble prédicteur fondé sur les cartes auto-organisatrices adapté aux données volumineuses
le stockage massif des données noie information pertinente et engendre des problèmes théoriques liés à la volumétrie des données disponibles ces problèmes dégradent la capacité prédictive des algorithmes extraction des connaissances à partir des données dans cet article nous proposons une méthodologie adaptée à la représentation et à la prédiction des données volumineuses a cette fin suite à un partitionnement des attributs des groupes attributs non-corrélés sont créés qui permettent de contourner les problèmes liés aux espaces de grandes dimen

réduction de dimension pour analyse de données vidéo
les données vidéo ont la particularité être très volumineuses alors qu'elles contiennent peu information sémantique pour les analyser il faut réduire la quantité information dans espace de recherche les données vidéo sont souvent considérées comme ensemble des pixels une succession images analysées séquentiellement dans cet article nous proposons utiliser une analyse en composantes principales acp) pour réduire la dimensionnalité des informations sans perdre la nature tridimensionnelle des données initiales nous commençons par considérer des sous-séquences dont le nombre de trames est le nombre de dimensions dans espace de représentation nous appliquons une acp pour obtenir un espace de faible dimension où les points similaires sémantiquement sont proches la sous-séquence est ensuite divisée en blocs tridimensionnels dont on projette ellipsoïde inertie dans le premier plan factoriel nous déduisons enfin le mouvement présent dans les 

exploration interactive de bases de connaissances  un retour expérience
la navigation au sein de bases de connaissances reste un problèmeouvert s'il existe plusieurs paradigmes de visualisation peu de travaux sur lesretours expérience sont disponibles dans le cadre de cet article nous noussommes intéressés aux différents paradigmes de navigation interactive au seinde bases documentaires annotées sémantiquement  accès à la base deconnaissances s'effectuant à travers ontologie du domaine d'application cesparadigmes ont été évalués dans le cadre une application industrielle(mécanique des fluides et échangeurs thermiques en fonction de critèresdéfinis par les utilisateurs analyse des retours expérience1 nous a permisde spécifier et de réaliser un nouveau navigateur dédié à la gestion dedocuments techniques annotés par une ontologie de domaine  le « eye tree »,navigateur de type « polar fisheye view »
extension de algorithme cure aux fouilles de données volumineuses
nan
extraction automatiq

le transit des flux information dans le réseau internet à échellemondiale est régi par des accords commerciaux entre systèmes autonomes accordsqui sont mis en oeuvre via le protocole de routage bgp la négociationde ces accords commerciaux repose implicitement sur une hiérarchie des systèmesautonomes et la position relative de deux systèmes débouche sur un accordde type client/fournisseur un des systèmes le client est nettement mieuxclassé que l'autre le fournisseur et le client paye le fournisseur pour le transitdes flux information) ou sur un accord de type "peering" transit gratuit dutrafic entre les deux systèmes) en dépit de son importance il n'existe pas dehiérarchie officielle de internet les clauses commerciales des accords entresystèmes autonomes ne sont pas nécessairement publiques ni de consensus surla façon établir une telle hiérarchie nous proposons une heuristique simpleinspirée de la notion de "centralité spectrale" issue de analyse des réseaux sociauxpour analyser la pos

la notion de règles entre attributs est très générale allant des règles association en fouille de données aux dépendances fonctionnelles df) en bases de données malgré cette diversité la syntaxe des règles est toujours la même seule leur sémantique diffère pour une sémantique donnée en fonction des propriétés induites des techniques algorithmiques sont mises en oeuvre pour découvrir les règles à partir des données a partir un ensemble de règles il est aussi utile en pratique de raisonner sur ces règles comme cela est le cas par exemple avec les axiomes armstrong pour les dépendances fonctionnelles dans cet article nous proposons un cadre qui permet de s'assurer qu'une sémantique donnée pour les règles est bien-formée ie les axiomes armstrong sont justes et complets pour cette sémantique les propositions faites dans ce papier proviennent du contexte applicatif de analyse de données de biopuces a partir de plusieurs sémantiques pour les données expression de gènes nous montrons comment c

etiq un étiqueteur inductif convivail pour les corpus de spécialité
nan
étude de textes par leur image
nous proposons une méthode automatique de comparaison de textes reposant sur une technique de transformation un texte en une image de taille donnée et analyse à aide des outils de la géométrie fractale nous présentons une application à étude un corpus de 90 textes longs
étude expérimentale de mesures de qualité de règles association
la validation des connaissances extraites un processus ecd par un expert métier nécessite de filtrer ces connaissances pour ce faire de nombreuses mesures ont été proposées chacune répondant à des besoins spécifiques ces mesures présentent des caractéristiques variées et parfois contradictoires qu'il convient alors d'examiner arguant du fait que la sélection des bonnes connaissances passe aussi par utilisation un ensemble de mesures adaptées au contexte nous présentons dans cet article une étude expérimentale de différentes mesures cette étude est mise en 

les sous-ensembles flous peuvent être utilisés pour représenter des valeurs imprécises comme un intervalle aux limites mal définies ils peuvent également servir à expression de préférences dans les critères de sélection de requêtes en bases de données en représentation des connaissances utilisation de hiérarchies de types est largement répandue afin de modéliser les relations existant entre les types objets un domaine donné nous nous intéressons aux sous-ensembles flous dont le domaine de définition est une hiérarchie éléments partiellement ordonnés par la relation "sorte de" que nous appelons ontologie nous introduisons la notion de sous-ensemble flou défini sur une partie de l'ontologie puis sa forme développée définie sur ensemble de l'ontologie que nous appelons extension du sous-ensemble flou des classes équivalence de sous-ensembles flous définis sur une ontologie peuvent être caractérisées par un représentant unique que nous appelons sous-ensemble flou minimal nous concluons par

Le traitment des données est acceptable. Un meilleur traitement pourrait être envisagé.

Par exemple, le traitement des entités nommées peut être intéressant.

Il faut obtenir un seul jeu de données avec les titres et les abstracts pour pouvoir les traiter et éliminer les cas qui n'ont pas d'abstract.

Il est possible que seul le titre suffise. Il est possible que la racinisation ne soit pas nécéssaire.

In [9]:
# On relie titre et abstract, sauf pour ceux qui ne disposent pas du second.
for line in range(len(abstract)):
    if abstract[line] != "nan":
        for element in abstract[line]:
            resume[line].append(element)

### Tf-Idf

Attention : l'étape suivante est longue.

In [10]:
# Calcul du temps passé
dico_time = time.process_time()

In [11]:
# On se crée un dictionnaire avec tous les mots rencontrés.
# dico constitue le vocabulaire connu du système.
dico = []
for line in resume:
    for word in line:
        dico.append(word)
for word in dico:
    if dico.count(word) != 1:
        dico.remove
len(dico)

80576

In [12]:
print("--- %s secondes ---" % round(time.process_time() - dico_time, 2))

--- 767.73 secondes ---


In [13]:
dico = list(set(dico))
len(dico)

12159

In [14]:
dico

['décrira',
 'est-il',
 "qu'une",
 'ensemblistes',
 'one',
 'fouiller',
 'leacock',
 'similairement',
 'd´agents',
 'criminality',
 'principles',
 'pré-calcul',
 'nearness',
 'borner',
 'beconsidered',
 'unordered',
 'révélant',
 'portant',
 'fonctiondes',
 'réflexion',
 'implantation',
 'panoplie',
 'telecom',
 'governments',
 'apporte',
 'effects',
 'empêche',
 "n'avons",
 'grouper',
 'flexible',
 'ungraphe',
 'aln',
 'compromis',
 'strategies',
 'grandeconsommation',
 'porteur',
 'cbor',
 'cabine',
 'pgr',
 "d'implantation",
 'échange',
 'malédiction',
 'probability',
 'graduelles',
 'banalisé',
 'dimère',
 "d'enquête",
 'nousmontrons',
 'rétrospective',
 'preliminary',
 'reconciliates',
 'blockchain',
 'téléologique',
 'biais',
 'juriste',
 'seinde',
 'representation',
 'knn',
 'généralité',
 "processusd'extraction",
 'victoire',
 'eddectivement',
 'supérieur',
 'borgne',
 'empirique',
 'incorporation',
 'établies',
 'eclat',
 'adaptateur',
 'lbsn',
 'krex',
 'représentons',
 'pair

On pourra réduire le vocabulaire en retirant des mots avec peu ou pas d'importance.

Ce nettoyage se passe dans le fichier `clean.txt`.

In [15]:
# Calcul du Tf.
tf = []
for x in range(len(resume)):
    tf.append([])
    for y in range(len(resume[x])):
        tf[x].append(resume[x].count(resume[x][y]))

Attention : l'étape suivante est longue.

In [16]:
df_time = time.process_time()

In [17]:
# Calcul du Df.
df = {}
for x in range(len(dico)):
    sum = 0
    for y in range(len(resume)):
        if dico[x] in resume[y]:
            sum = sum + 1
    df[dico[x]] = sum

In [18]:
print("--- %s secondes ---" % round(time.process_time() - df_time, 2))

--- 119.78 secondes ---


In [19]:
# Calcul de l'Idf
idf = {}
for word in df:
    idf[word] = np.log10(len(resume)/df[word])

In [20]:
# Calcul du Tf-Idf.
tfidf = []
for x in range(len(resume)):
    tfidf.append({})
    for y in range(len(resume[x])):
        tfidf[x][resume[x][y]] = tf[x][y] * idf[resume[x][y]]
len(tfidf)

1269

Il faut trier les Tf-Idf par valeur et récupérer les 5 meilleurs.

In [21]:
best = []
for item in tfidf:
    topic = ""
    trier = sorted(item.items(), key=lambda kv: kv[1])
    trier.reverse()
    if len(item)<5:
        top = len(item)
    else:
        top = 5
    for i in range(top):
        topic = topic + trier[i][0] + " "
    best.append(topic)

In [22]:
# On résume un article (titre + abstract) à partir des 5 mots les plus importants.
best

['idéo2017 citoyen politiques tweets candidat ',
 'co-clustering modl gagne taille passent ',
 'recommandation mobilité factorisation inféré visités ',
 'arabe sentiment commentaire marocain dialectal ',
 'cds résumé texte composant rôle ',
 'big scénario ontologique data contexte ',
 'tentative décès supervisées patient risque ',
 'formés majoritaire vote global obtenus ',
 'label heureux musique morceau co-occurrence ',
 'a/b test procédure stratification contextuel ',
 'dynamics power understanding big human ',
 'incrémentales clustering som collaboratif auto-organisatrices ',
 'mot-clé catégorisation scientifique relation sémantique ',
 'cardiaque similarité quasi-arithmétiques moyenne type ',
 'community complex network in structure ',
 'importance noeud réseau influe différencie ',
 'similarité campagne sémantique vectorielles complémentarité ',
 "temps-réel l'architecture oblige pertinence démontrées ",
 'complétude prescriptives contrainte commande vérifier ',
 'treillis distri

### Calcul du LSA

Le LSA va calculer, pour un document donné, les documents les plus similaires à son sujet. On classe le résultat le plus similaire dans le cluster du document donné. On reproduit cette étape et on arrête quand à un nombre de clusters ou une similarité trop faible.

En gros, le LSA nous fournit une similarité qu'on utilise pour former une classification hiérarchique.

On aura donc des clusters par sujets. On pourra élaborer nos techniques de datation pour déterminer les tendances et, si possible, créer de nouveaux clusters (avec les K-moyennes) plus précis.

Vectorisation

In [23]:
# Le tf-idf ne sert à rien d'autre que de convertir notre liste en un vecteur utilisable.
vectorizer = TfidfVectorizer(min_df =1)

dtm = vectorizer.fit_transform(best)

## Document Term Matrix vers Latent Sementic Analysis
lsa = TruncatedSVD(2, algorithm = 'randomized')

dtm_lsa = lsa.fit_transform(dtm)

dtm_lsa = Normalizer(copy=False).fit_transform(dtm_lsa)

Calcul de similarité des Documents

In [24]:
# On calcule la similarité des documents à l'aide du LSA.

similarity = np.asarray(np.asmatrix(dtm_lsa) * np.asmatrix(dtm_lsa).T)

pd.DataFrame(similarity, index=best, columns=best).head(10)

Unnamed: 0,idéo2017 citoyen politiques tweets candidat,co-clustering modl gagne taille passent,recommandation mobilité factorisation inféré visités,arabe sentiment commentaire marocain dialectal,cds résumé texte composant rôle,big scénario ontologique data contexte,tentative décès supervisées patient risque,formés majoritaire vote global obtenus,label heureux musique morceau co-occurrence,a/b test procédure stratification contextuel,...,flou sous-ensemble appelons défini l'ontologie,uitliation documentaire fondé contenu aide,nextclosure fermé partitionnement itemsets treillis,incomplets classement probabiliste arbre décision,galois treillis supervisée étude basée,appropriation mask mémoires savoir-faire entreprise,voisinage graphe prétraitement voisin proximité,conceptuels graphe connaissance contrainte validation,veille technologique texte rechercher scientifique,entrepôt naturel risque examinons volumineux
idéo2017 citoyen politiques tweets candidat,1.0,0.989824,0.968987,0.927127,0.723651,0.69533,0.924563,0.722175,0.867517,0.726303,...,0.750095,0.735816,0.842486,0.840003,0.791061,0.76018,0.56301,0.705331,0.831147,0.639846
co-clustering modl gagne taille passent,0.989824,1.0,0.99429,0.971018,0.814497,0.585986,0.969375,0.813256,0.92947,0.816725,...,0.836568,0.824691,0.910572,0.908664,0.870061,0.844898,0.674884,0.799026,0.901815,0.742692
recommandation mobilité factorisation inféré visités,0.968987,0.99429,1.0,0.990979,0.871757,0.496168,0.990047,0.870709,0.963529,0.873638,...,0.890255,0.880337,0.949482,0.948031,0.917696,0.897157,0.749776,0.85863,0.942778,0.80991
arabe sentiment commentaire marocain dialectal,0.927127,0.971018,0.990979,1.0,0.929554,0.375332,0.999977,0.928765,0.990701,0.930967,...,0.943265,0.935967,0.982975,0.982121,0.962661,0.948262,0.831693,0.919582,0.978958,0.881214
cds résumé texte composant rôle,0.723651,0.814497,0.871757,0.929554,1.0,0.00716,0.932034,0.999998,0.971073,0.999993,...,0.999235,0.999842,0.981471,0.98234,0.994652,0.998515,0.977811,0.999657,0.985229,0.99342
big scénario ontologique data contexte,0.69533,0.585986,0.496168,0.375332,0.00716,1.0,0.369035,0.005025,0.24573,0.011011,...,0.046272,0.024952,0.198635,0.194131,0.1104,0.061635,-0.202483,-0.019026,0.178292,-0.107411
tentative décès supervisées patient risque,0.924563,0.969375,0.990047,0.999977,0.932034,0.369035,1.0,0.931258,0.991601,0.933423,...,0.945496,0.938334,0.984199,0.983375,0.964476,0.950394,0.83544,0.922226,0.98032,0.8844
formés majoritaire vote global obtenus,0.722175,0.813256,0.870709,0.928765,0.999998,0.005025,0.931258,1.0,0.970561,0.999982,...,0.999149,0.999801,0.981059,0.981939,0.994429,0.998396,0.978256,0.999711,0.984861,0.993662
label heureux musique morceau co-occurrence,0.867517,0.92947,0.963529,0.990701,0.971073,0.24573,0.991601,0.970561,1.0,0.971986,...,0.979671,0.975168,0.998833,0.998601,0.990542,0.982641,0.899503,0.964488,0.997619,0.937337
a/b test procédure stratification contextuel,0.726303,0.816725,0.873638,0.930967,0.999993,0.011011,0.933423,0.999982,0.971986,1.0,...,0.999378,0.999903,0.982201,0.983054,0.995043,0.998717,0.976997,0.999549,0.985881,0.992972


### Clustering Hiérarchique Ascendant (HAC)

Le vrai point d'intérêt de cet algorithme est le seuil de similarité qui servira de point d'arrêt.

On va répartir toutes les données réparties précédemment en clusters aux sujets similaires. 

In [25]:
# On choisit ici le nombre de clusters à utiliser.
n_clusters = 100

In [26]:
# On applique le HAC pour créer nos clusters.
clusters = AgglomerativeClustering(n_clusters=n_clusters).fit_predict(similarity)

In [27]:
cluster_list = []
for i in range(n_clusters):
    cluster_list.append([])

In [28]:
for i in range(len(clusters)):
    try:
        cluster_list[clusters[i]].append({best[i]:doc["year"][i]})
    except:
        print("Error while filling clusters.")

In [29]:
print([len(x) for x in cluster_list])

[57, 7, 2, 35, 29, 9, 15, 13, 23, 9, 7, 46, 54, 21, 44, 6, 37, 7, 9, 2, 27, 19, 22, 11, 32, 6, 2, 30, 3, 22, 42, 40, 26, 28, 9, 10, 7, 3, 5, 6, 2, 36, 4, 12, 12, 5, 1, 14, 2, 1, 9, 6, 2, 4, 1, 29, 5, 5, 22, 1, 18, 4, 22, 5, 17, 2, 5, 21, 1, 1, 5, 22, 8, 4, 19, 13, 24, 10, 3, 1, 1, 1, 1, 4, 21, 3, 12, 15, 16, 2, 1, 3, 8, 1, 1, 1, 15, 1, 1, 1]


#### Notes
Il va falloir affiner les clusters en les résumant en 5 mots-clés.

### Travail temporel

On va classer les clusters par tendances. C'est à dire que l'on va finir avec cinq classes contenant des clusters.

Ces classes représenteront des sujets actuels ou abandonnés, d'origine récente ou ancienne.

De manière évidente, un sujet qui est récent ou qui parle des tendances actuelles aura plus de chances de se retrouver dans les sujets de l'EGC 2020. A l'inverse, les sujets vieux ou dont on ne parle plus depuis un moment ont peu de chances de revenir.

In [30]:
# Un cluster temporel ne contient que les années qui composent chaque cluster.
# On crée autant de clusters temporel que de clusters crées précédemments.
temporal_list = []
for i in range(n_clusters):
    temporal_list.append([])

In [31]:
# On récupère les valeurs des clusters
n = 0
for cluster in cluster_list:
    for i in range(len(cluster)):
        temporal_list[n].append(list(cluster[i].values()))
    n += 1

In [32]:
# On crée les clusters temporels à partir des dates contenues dans les clusters.
def remplir(c, t):
    for i in range(len(c)):
        t.append(t[i][0])
    t = t[int(len(t)/2):]
    return t

In [33]:
for i in range(n_clusters):
    temporal_list[i] = remplir(cluster_list[i], temporal_list[i])

In [34]:
print([len(x) for x in temporal_list])

[57, 7, 2, 35, 29, 9, 15, 13, 23, 9, 7, 46, 54, 21, 44, 6, 37, 7, 9, 2, 27, 19, 22, 11, 32, 6, 2, 30, 3, 22, 42, 40, 26, 28, 9, 10, 7, 3, 5, 6, 2, 36, 4, 12, 12, 5, 1, 14, 2, 1, 9, 6, 2, 4, 1, 29, 5, 5, 22, 1, 18, 4, 22, 5, 17, 2, 5, 21, 1, 1, 5, 22, 8, 4, 19, 13, 24, 10, 3, 1, 1, 1, 1, 4, 21, 3, 12, 15, 16, 2, 1, 3, 8, 1, 1, 1, 15, 1, 1, 1]


In [35]:
# L'évaluation temporelle utilise trois valeurs :
# La date de l'article le plus vieux du cluster
# La date de l'article le plus récent du cluster
# La date moyenne des articles du cluster
def minYear(t):
    return np.min(t)

def maxYear(t):
    return np.max(t)

def moyYear(t):
    return int(np.mean(t))

In [36]:
# On va classer ces clusters selon la combinaison des trois valeurs précédentes :
# Si minYear proche de maxYear alors récent
# Si maxYear proche de minYear alors ancien
# Si moyYear proche de minYear alors ancien
# Si moyYear proche de maxYear alors récent
# Sinon moyen
recent = []
ancien = []
moyen = []
mort = []
nouveau = []

In [37]:
# On calcule l'appartenance aux tendances selon le schéma décrit précédement.
def classe(c, t):
    if minYear(t) < 2011:
        if maxYear(t) < 2011:
            mort.append(c)
        else:
            if moyYear(t) < 2009:
                ancien.append(c)
            elif moyYear(t) > 2014:
                recent.append(c)
            else:
                moyen.append(c)
    elif minYear(t) > 2011:
        nouveau.append(c)
    else:
        if moyYear(t) < 2011:
            ancien.append(c)
        elif moyYear(t) > 2011:
            recent.append(c)
        else:
            moyen.append(c)

In [38]:
for i in range(n_clusters):
    classe(cluster_list[i], temporal_list[i])

In [39]:
# On affiche la classification de tendances.
print("\nRecent:",recent)
print("\nAncien:",ancien)
print("\nMoyen:",moyen)
print("\nMort:",mort)
print("\nNouveau:",nouveau)


Recent: [[{'big scénario ontologique data contexte ': 2018}, {'long-range influence network social in ': 2018}, {'apps android through text features ': 2017}, {'/owl schema rdf to data ': 2015}, {'drift drifted dataset new sudden ': 2014}, {'logic non-relational relational to deduplication ': 2010}], [{'co-clustering modl gagne taille passent ': 2018}, {'témoignage saisi rédigeant saisie préserver ': 2017}, {'recommandation utilisateur sociale préférence recevant ': 2015}, {'classe new mixture labeling examining ': 2015}, {'pertinence recommandation confusion intrinsèquement natif ': 2014}, {'profil utilisateur court-terme long-terme social ': 2011}], [{'protocole stockage libre cohérence cassandra ': 2016}, {'criterion similarity with two clustering ': 2011}], [{'waves dénotée potable souterrain décuplées ': 2017}, {'exhaustif professionnel guidé recommandation expert ': 2011}, {'naïf bayésien variable classifieur poids ': 2011}]]

Ancien: [[{'label multilabel ... court interactif ':

In [40]:
print("Recent :", len(recent), ", Ancien :", len(ancien), ", Moyen :", len(moyen), ", Mort : ", len(mort), ", Nouveau :", len(nouveau))

Recent : 4 , Ancien : 4 , Moyen : 68 , Mort :  13 , Nouveau : 11


La majorité des clusters sont classés en moyen, c'est cohérent mais une classification plus affinée pourrait être intéressante.

In [41]:
print("--- %s secondes ---" % round(time.process_time() - start_time, 2))

--- 925.44 secondes ---


### Évaluation de la classification

On va maximiser la distance inter cluster et minimiser la distance intra cluster

Distance intra max < Distance inter min

Comparons l'efficacité de la similarité de Jaccard et de la similarité Cosine

#### En l'état actuel, l'évaluation ne fonctionne pas car elle se base sur une ancienne version des clusters.
#### La priorité est d'obtenir de meilleurs clusters donc ces fonctions sont mises de coté en attendant.

In [42]:
def jaccard(vec1, vec2):
    commun = 0
    diff = 0
    for key in vec1.keys():
        if key in vec2.keys():
            commun = commun + 1
        else:
            diff = diff + 1
    if diff == 0:
        return -1
    return commun/diff

def cosine(vec1, vec2):
    v1 = np.array(list(vec1.values()))
    v2 = np.array(list(vec2.values()))
    # La partie qui suit devra être retirée plus tard quand on aura des clusters normalisés.
    if len(vec1) > len(vec2):
        v1 = v1[:len(vec2)]
    else:
        v2 = v2[:len(vec1)]
    return np.dot(v1, v2) / (np.sqrt(np.sum(v1**2)) * np.sqrt(np.sum(v2**2)))  

In [43]:
#print("J",jaccard(cluster_list[0],cluster_list[1]))
#print("C",cosine(cluster_list[0],cluster_list[1]))

In [44]:
print("--- %s seconds ---" % round(time.process_time() - start_time, 2))

--- 925.59 seconds ---


### Post-soutenance

Réduire le vocabulaire.
Augmenter les clusters.
Évaluer correctement la classification.