# Clustering & Retrieval

## Définition de données textuelles

On définit manuellement 4 articles sur le Big Data...

In [3]:
articles = {}
articles["Big Data 1"] = "Littéralement, ces termes signifient mégadonnées, grosses données ou encore données massives. Ils désignent un ensemble très volumineux de données qu’aucun outil classique de gestion de base de données ou de gestion de l’information ne peut vraiment travailler. En effet, nous procréons environ 2,5 trillions d’octets de données tous les jours. Ce sont les informations provenant de partout : messages que nous nous envoyons, vidéos que nous publions, informations climatiques, signaux GPS, enregistrements transactionnels d’achats en ligne et bien d’autres encore. Ces données sont baptisées Big Data ou volumes massifs de données. Les géants du Web, au premier rang desquels Yahoo (mais aussi Facebook et Google), ont été les tous premiers à déployer ce type de technologie."
articles["Big Data 2"] = "Face à l'explosion du volume d'informations, le Big Data vise à proposer une alternative aux solutions traditionnelles de bases de données et d'analyse (serveur SQL, plateforme de Business Intelligence...). Confrontés très tôt à des problématiques de très gros volumes, les géants du web, au premier rang desquels Yahoo (mais aussi Google et Facebook), ont été les premiers à déployer ce type de technologies. Selon le Gartner, le Big Data (en français mégadonnées ou Grandes données) regroupe une famille d'outils qui répondent à une triple problématiques : un Volume de données important à traiter, une grande Variété d'informations (en provenance de plusieurs sources, non-structurées, structurées, Opendata...), et un certain niveau de Vélocité à atteindre - c'est-à-dire de fréquence de création, collecte, traitement/analyse et partage de ces données. C'est la règle dite des 3V."
articles["Big Data 3"] = "Inventé par les géants du web, le Big Data se présente comme une solution dessinée pour permettre à tout le monde d’accéder en temps réel à des bases de données géantes. Il vise à proposer un choix aux solutions classiques de bases de données et d’analyse (plate-forme de Business Intelligence en serveur SQL…). Selon le Gartner, ce concept regroupe une famille d’outils qui répondent à une triple problématique dite règle des 3V. Il s’agit notamment d’un Volume de données considérable à traiter, une grande Variété d’informations (venant de diverses sources, non-structurées, organisées, Open…), et un certain niveau de Vélocité à atteindre, autrement dit de fréquence de création, collecte et partage de ces données."
articles["Big Data 4"] = "Les big data ou mégadonnées désignent l'ensemble des données numériques produites par l'utilisation des nouvelles technologies à des fins personnelles ou professionnelles. Cela recoupe les données d'entreprise (courriels, documents, bases de données, historiques de processeurs métiers...) aussi bien que des données issues de capteurs, des contenus publiés sur le web (images, vidéos, sons, textes), des transactions de commerce électronique, des échanges sur les réseaux sociaux, des données transmises par les objets connectés (étiquettes électroniques, compteurs intelligents, smartphones...), des données géolocalisées, etc."

... et 4 articles sur l'agilité Scrum

In [4]:
articles["Agile Scrum 1"] = "Le terme Méthode est trop réducteur pour parler de cette façon d'aborder la gestion de projet. Il s'agit de bien plus qu'une méthode. On parle plutôt de paradigme agile, d'état d'esprit agile, de philosophie agile, de culture Agile ou encore d'approche agile, de mouvement agile, de courant agile, etc. En poursuivant votre lecture et en concentrant notamment votre attention sur le paragraphe Le Manifeste Agile, un changement culturel, vous comprendrez mieux cette dimension cruciale."
articles["Agile Scrum 2"] = "Parler d’une « méthode » concernant Scrum n’est pas ce qu’il y a de plus approprié. Scrum ne se considère pas comme une méthode mais comme un cadre méthodologique. Une méthode dit généralement « comment » faire les choses. Scrum ne dit pas comment réussir son logiciel, comment surmonter les obstacles, comment développer, comment spécifier, etc. Il se contente d’offrir un cadre de gestion de projet Agile (et c’est déjà beaucoup) : des rôles, un rythme itératif, des réunions précises et limitées dans le temps, des artefacts (product backlog, sprint backlog, graphique d’avancement) et des règles du jeu."
articles["Agile Scrum 3"] = "Les méthodes agiles sont une manière de réduire le cycle de développement des projets informatiques, de répondre plus rapidement aux évolutions des demandes de l’utilisateur final versatile. Les projets informatiques agiles sont gérés de manière adaptative, incrémentale et itérative. Aujourd’hui encore, dans le domaine des projets de développement logiciel, les méthodes agiles sont de plus en plus utilisées.  Comme leurs noms l’indiquent, ce sont des méthodes de gestion de projet dynamiques et réactives. Les méthodes agiles visent à intégrer au cours du projet de manière continue le client final, c’est à dire le plus souvent l’utilisateur final à qui le nouveau logiciel est destiné. Les méthodes agiles permettent une plus grande réactivité aux demandes du client."
articles["Agile Scrum 4"] = "La méthode Agile se base sur un cycle de développement qui porte le client au centre. Le client est impliqué dans la réalisation du début à la fin du projet. Grâce à la méthode agile le demandeur obtient une meilleure visibilité de la gestion des travaux qu’avec une méthode classique. L’implication du client dans le processus permet à l’équipe d’obtenir un feedback régulier afin d’appliquer directement les changements nécessaires. Cette méthode vise à accélérer le développement d’un logiciel. De plus, elle assure la réalisation d’un logiciel fonctionnel tout au long de la durée de sa création. Le principe de base consiste à proposer une version minimale du logiciel puis à intégrer des fonctionnalités supplémentaires à cette base, par processus itératif. Le processus itératif regroupe une séquence d’instructions à répéter autant de fois que possible, selon le besoin"

## Imports de librairies

In [5]:
import time
import re
import json
import string
import unicodedata
from html.parser import HTMLParser
from nltk import word_tokenize
from nltk.corpus import stopwords
from nltk.stem.snowball import SnowballStemmer
import langdetect
from langdetect.lang_detect_exception import LangDetectException
import enchant
import difflib
import pandas as pd
import numpy as np
import copy
import yaml
from sklearn.cluster import KMeans
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import PCA, TruncatedSVD

## Data Preprocessing

### Text Mining

On commence par tout mettre au miniscule...

In [4]:
for title in articles.keys():
    articles[title] = articles[title].lower()

In [5]:
articles["Agile Scrum 1"]

"le terme méthode est trop réducteur pour parler de cette façon d'aborder la gestion de projet. il s'agit de bien plus qu'une méthode. on parle plutôt de paradigme agile, d'état d'esprit agile, de philosophie agile, de culture agile ou encore d'approche agile, de mouvement agile, de courant agile, etc. en poursuivant votre lecture et en concentrant notamment votre attention sur le paragraphe le manifeste agile, un changement culturel, vous comprendrez mieux cette dimension cruciale."

On détecte la langue de chaque texte...

In [6]:
def decode_data(text):
    return unicodedata.normalize('NFKD', text).encode('ascii', 'ignore').decode('utf8')

In [7]:
for title in articles.keys():
    articles[title] = decode_data(articles[title])

In [8]:
for title in articles.keys():
    print(langdetect.detect(articles[title]))

fr
fr
fr
fr
fr
fr
fr
fr


En fonction des langues détectées, on enlève les stopwords dans chaque texte...

In [9]:
def remove_stopwords(text, language):
    
    # load NLTK stopwords
    list_stopwords = [decode_data(item.lower()) for item in stopwords.words(language)]
    output = " ".join([word for word in text.split() if word not in list_stopwords])
    return output

In [12]:
## Décommenter pour afficher les stopwords dans une langue donnée (essayer "english" en paramètre ou alors "spanish")
#stopwords.words("french")

In [13]:
for title in articles.keys():
    articles[title] = remove_stopwords(articles[title], "french")

In [14]:
articles["Agile Scrum 1"]

"Le terme Methode trop reducteur parler cette facon d'aborder gestion projet. Il s'agit bien plus qu'une methode. On parle plutot paradigme agile, d'etat d'esprit agile, philosophie agile, culture Agile encore d'approche agile, mouvement agile, courant agile, etc. En poursuivant lecture concentrant notamment attention paragraphe Le Manifeste Agile, changement culturel, comprendrez mieux cette dimension cruciale."

On enlève également les signes de ponctuations...

In [15]:
def remove_punctuation(text):

    punctuation_signs = string.punctuation
    output =" ".join(
        [word for word in word_tokenize(text) if word not in punctuation_signs])
    return output

In [16]:
for title in articles.keys():
    articles[title] = remove_punctuation(articles[title])

In [17]:
articles["Agile Scrum 1"]

"Le terme Methode trop reducteur parler cette facon d'aborder gestion projet Il s'agit bien plus qu'une methode On parle plutot paradigme agile d'etat d'esprit agile philosophie agile culture Agile encore d'approche agile mouvement agile courant agile etc En poursuivant lecture concentrant notamment attention paragraphe Le Manifeste Agile changement culturel comprendrez mieux cette dimension cruciale"

Suite à cela, on applique la stemmification sur chaque token...

In [18]:
def stem_text(text, language):
    
    tokens = text.split(' ')
    stemmer = SnowballStemmer(language)
    stemmed_words = []
    for item in tokens:
        stemmed_words.append(stemmer.stem(item))
        output =  " ".join(stemmed_words)
    return output

In [19]:
for title in articles.keys():
    articles[title] = stem_text(articles[title], "french")

In [20]:
articles["Agile Scrum 1"]

"le term method trop reducteur parl cet facon d'abord gestion projet il s'ag bien plus qu'un method on parl plutot paradigm agil d'etat d'espr agil philosoph agil cultur agil encor d'approch agil mouv agil cour agil etc en poursuiv lectur concentr not attent paragraph le manifest agil chang culturel comprendr mieux cet dimens crucial"

### Numérisation de texte

On organise les textes précédents dans un Pandas Dataframe...

In [21]:
list_articles = []
for title in articles.keys():
    list_articles.append({"title": title, "text": articles[title]})

In [22]:
corpus_df = pd.DataFrame(list_articles)

In [23]:
corpus_df.head()

Unnamed: 0,text,title
0,litteral term signifient megadonne gross donne...,Big Data 1
1,fac l'explos volum d'inform big dat vis propos...,Big Data 2
2,invent le ge web big dat present comm solut de...,Big Data 3
3,le big dat megadonne designent l'ensembl donne...,Big Data 4
4,le term method trop reducteur parl cet facon d...,Agile Scrum 1


On numérise ensuite les textes grâce à TF-IDF...

In [24]:
tokenizer = lambda doc: doc.split(" ")
tf_idf_model = TfidfVectorizer(min_df=0, use_idf=True, sublinear_tf=True, tokenizer=tokenizer)

In [None]:
tf_idf_features = tf_idf_model.fit_transform(corpus_df["text"])

In [26]:
tf_idf_features.shape

(8, 326)

En sortie de TF-IDF, on a une dimensionnalité de 326, on réduit celle là grâce à l'algo PCA (avec dimensionnalité cible égale à 8) ...

In [27]:
pca_model = TruncatedSVD(n_components = 8)

In [28]:
pca_features = pd.DataFrame(pca_model.fit_transform(tf_idf_features))

In [29]:
pca_features.head()

Unnamed: 0,0,1,2,3,4,5,6,7
0,0.512704,-0.209609,0.482888,-0.051667,-0.346826,-0.516894,-0.197897,-0.175264
1,0.725531,-0.390379,-0.20486,-0.114825,-0.114832,0.007503,0.099909,0.49278
2,0.683723,-0.281814,-0.448236,-0.019688,0.024163,0.231507,0.081814,-0.436952
3,0.397527,-0.183109,0.565014,0.286906,0.59271,0.222949,0.0759,0.010767
4,0.299396,0.496426,0.312801,-0.00338,-0.491381,0.568664,-0.030944,0.016604


On transforme un peu les données résultantes... pour les préparer au Clustering et à l'affichage...

In [30]:
pca_features = pca_features.merge(corpus_df, right_index=True, left_index=True)

In [31]:
pca_features.drop(["text"], axis=1, inplace=True)

In [32]:
pca_features

Unnamed: 0,0,1,2,3,4,5,6,7,title
0,0.512704,-0.209609,0.482888,-0.051667,-0.346826,-0.516894,-0.197897,-0.175264,Big Data 1
1,0.725531,-0.390379,-0.20486,-0.114825,-0.114832,0.007503,0.099909,0.49278,Big Data 2
2,0.683723,-0.281814,-0.448236,-0.019688,0.024163,0.231507,0.081814,-0.436952,Big Data 3
3,0.397527,-0.183109,0.565014,0.286906,0.59271,0.222949,0.0759,0.010767,Big Data 4
4,0.299396,0.496426,0.312801,-0.00338,-0.491381,0.568664,-0.030944,0.016604,Agile Scrum 1
5,0.30199,0.446347,-0.279158,0.743401,-0.024221,-0.198763,-0.187231,0.062077,Agile Scrum 2
6,0.303722,0.625171,0.027935,-0.173876,0.10225,-0.280127,0.629317,-0.030588,Agile Scrum 3
7,0.358229,0.510495,-0.097475,-0.450745,0.369515,-0.034881,-0.509354,0.034553,Agile Scrum 4


In [33]:
new_columns = {}
for col_name in pca_features.columns:
    if col_name!="title":
        new_columns[col_name] = "pca_" + str(col_name)
pca_features.rename(columns=new_columns, inplace=True)

In [34]:
pca_features.head()

Unnamed: 0,pca_0,pca_1,pca_2,pca_3,pca_4,pca_5,pca_6,pca_7,title
0,0.512704,-0.209609,0.482888,-0.051667,-0.346826,-0.516894,-0.197897,-0.175264,Big Data 1
1,0.725531,-0.390379,-0.20486,-0.114825,-0.114832,0.007503,0.099909,0.49278,Big Data 2
2,0.683723,-0.281814,-0.448236,-0.019688,0.024163,0.231507,0.081814,-0.436952,Big Data 3
3,0.397527,-0.183109,0.565014,0.286906,0.59271,0.222949,0.0759,0.010767,Big Data 4
4,0.299396,0.496426,0.312801,-0.00338,-0.491381,0.568664,-0.030944,0.016604,Agile Scrum 1


In [35]:
pca_features.drop(["title"], axis=1, inplace=True)

## Clustering & Retrieval

### Clustering avec Kmeans

Grâce à l'algo K-means, on va essayer de former 2 clusters ou thèmes (K=2) de textes...

In [37]:
x = pca_features.as_matrix()
kmeans_model = KMeans(n_clusters=2, random_state=172, init="k-means++")

  """Entry point for launching an IPython kernel.


In [38]:
predicted_clusters = kmeans_model.fit_predict(x)

Une fois les clusters prédits, on merge cette info avec le Dataframe précédent de coefficients PCA ...

In [40]:
clustered_data = pca_features.merge(
    pd.DataFrame(predicted_clusters, columns=["cluster"]), right_index=True, left_index=True)

In [41]:
clustered_data = clustered_data.merge(corpus_df, right_index=True, left_index=True)
clustered_data.drop(["text"], axis=1, inplace=True)

In [42]:
clustered_data

Unnamed: 0,pca_0,pca_1,pca_2,pca_3,pca_4,pca_5,pca_6,pca_7,cluster,title
0,0.512704,-0.209609,0.482888,-0.051667,-0.346826,-0.516894,-0.197897,-0.175264,0,Big Data 1
1,0.725531,-0.390379,-0.20486,-0.114825,-0.114832,0.007503,0.099909,0.49278,0,Big Data 2
2,0.683723,-0.281814,-0.448236,-0.019688,0.024163,0.231507,0.081814,-0.436952,0,Big Data 3
3,0.397527,-0.183109,0.565014,0.286906,0.59271,0.222949,0.0759,0.010767,0,Big Data 4
4,0.299396,0.496426,0.312801,-0.00338,-0.491381,0.568664,-0.030944,0.016604,1,Agile Scrum 1
5,0.30199,0.446347,-0.279158,0.743401,-0.024221,-0.198763,-0.187231,0.062077,1,Agile Scrum 2
6,0.303722,0.625171,0.027935,-0.173876,0.10225,-0.280127,0.629317,-0.030588,1,Agile Scrum 3
7,0.358229,0.510495,-0.097475,-0.450745,0.369515,-0.034881,-0.509354,0.034553,1,Agile Scrum 4


A chaque cluster, on associe un code couleur pour pouvoir visualiser l'info d'appartenance à un cluster dans un graphe...

In [43]:
clustered_data["cluster"] = clustered_data["cluster"].apply(lambda x: int(x))

In [44]:
clustered_data["cluster"] = clustered_data["cluster"].apply(lambda x: "#FF033E" if x==1 else "#79C257")

On utilise la librairie python <b> bokeh </b> pour afficher les textes dans leur espace de représentation numérique donné par <b> PCA </b> en se limitant aux dimensions 1 et 2. <br>

In [48]:
from bokeh.plotting import figure, show, output_file, output_notebook
from bokeh.models import HoverTool

In [49]:
TOOLS="crosshair,pan,wheel_zoom,zoom_in,zoom_out,box_zoom,undo,redo,reset,\
tap,save,box_select,poly_select,lasso_select,"

In [50]:
output_notebook()

In [51]:
x_pca = "pca_0"
y_pca = "pca_1"

In [52]:
titles_hover = HoverTool(
    tooltips=[
        ("index", "$index"),
        ("(x,y)", "($x, $y)"),
        ("title", "@title"),
    ]
)

In [53]:
pca_plot = figure(tools=[TOOLS, titles_hover])
pca_plot.scatter(x=x_pca, y=y_pca, fill_color="cluster", source=clustered_data)

In [54]:
show(pca_plot)

En faisant pointer la souris sur chaque point (article), un pop up visualise son index, titre et coordonnées. <br>
Vous remarqueriez que les articles du Big Data sont rapprochés entre eux (idem pour les articles en agilité), mais les deux groupes sont largement distants. Vous remarqueriez aussi que le Clustering a donné de bon résultats puisque tous les articles Big Data sont attribués à un même Cluster (de couleur verte) et tous les articles agilité Scrum sont attribués à un même Cluster (de couleur rouge)