# Dans cet exemple, vous allez travailler avec le KMeans e le jeu de données qui contient le graphe du web extrait par google. 

Initialement, les librairies nécessaires et la base de données seront chargées. La librairie « Pandas » est responsable de lire un fichier csv, alors que la libraire « sklearn » contient les algorithmes de clustering

In [1]:
#import libraries
import pandas as pd
from sklearn.cluster import KMeans, AgglomerativeClustering
%matplotlib inline
from  matplotlib import pyplot
import seaborn
from scipy.spatial.distance import cdist, pdist
import numpy as np

# Graphe du Web par Google
Ce dataset peut être obtenu ici : https://snap.stanford.edu/data/web-Google.html. Il contient un graphe orienté avec 875713 sommets et 5105039 arcs.

Ci-dessous, les données sont lues. Ce dataset contient deux colonnes, séparés par un "tab". Dans la première colonne, il est indiqué un sommet origine d'un arc et dans la deuxième, le sommet de destination d'un arc. 

In [2]:
#read the dataset and print the names of columns
df = pd.read_csv('web-Google.txt', skiprows=4, delimiter='\t', header=None, names=['source', 'destination'])
df.columns

FileNotFoundError: [Errno 2] File b'web-Google.txt' does not exist: b'web-Google.txt'

In [None]:
#Print the first 5 lines of dataset 
df.head(8)

## Votre première mission sera de calculer le nombre de arcs qui entrent dans un sommet et qui sortent d'un sommet et puis afficher le résultat.
Suggestion pour l'affichage: faire un grafique, où dans l'axe x vous montrerez le résultat pour les arcs entrants les sommets et dans l'axe y, vous montrerez le résultat pour les arcs sortant des sommets.

In [None]:
#count the number of ingoing arcs 
number_input_arcs = df.groupby(['source']).count()['destination']

#count the number of outgoing arcs 
number_output_arcs = df.groupby(['destination']).count()['source']

#Create a new dataset with columns node, inputs and outputs, where inputs and outputs are respectively the number of 
#ingoing and outgoing arcs
google_graph = pd.DataFrame({'inputs':  number_input_arcs, 'outputs': number_output_arcs})
google_graph.fillna(value=0, inplace=True)
google_graph['nodes'] = range(0, len(google_graph))

In [None]:
google_graph.plot.scatter(x='inputs', y='outputs', title='#Arcs leave Node X #Arcs enter Node')

In [None]:
#Définition du nombre de clusters
number_of_cluster = 3

# Ci-dessous, une clusterisation est réalisée en considérant le nombre d'arcs qui entrent dans un sommet et puis le résultat est affiché.

In [None]:
#Create a data set only with the data concerning the number of ingoing and outgoing arcs for each node
#inputs is a list of list. Each list has the number of arcs that enter in a specifc node.
inputs = [[input] for input in google_graph['inputs'].values]

#Clustering using KMeans algorithm
kmeans = KMeans(n_clusters=number_of_cluster).fit(inputs)

#kmeans.labels_ have the cluster that each node belongs to
google_graph['groups_inputs'] = kmeans.labels_

In [None]:
# Plot the nodes. Each color represents a cluster.
fg = seaborn.FacetGrid(data=google_graph, hue='groups_inputs', size=4, aspect=2)
fg.map(pyplot.scatter, 'inputs', 'outputs').add_legend()

# Votre deuxième mission sera de faire une clusterisation en utilisant cette fois-ci, le nombre d'arcs sortant des sommets et puis d'afficher le résultat.
Suggestion: inspirer vous de l'exemple ci-dessus

In [None]:
#Create a data set only with the data about number of outgoing arcs for each node
#outputs is a list of list. Each list has the number of outgoing arcs for a specifc node.
outputs = [[output] for output in google_graph['outputs'].values]

#Clustering using KMeans algorithm
kmeans = KMeans(n_clusters=number_of_cluster).fit(outputs)

#kmeans.labels_ have the cluster that each node belongs to
google_graph['groups_outputs'] = kmeans.labels_

In [None]:
# Plot the nodes. Each color represents a cluster.
fg = seaborn.FacetGrid(data=google_graph, hue='groups_outputs', size=4, aspect=2)
fg.map(pyplot.scatter, 'inputs', 'outputs').add_legend()

# Partitionnement en utilisant le nombre d'arcs qui entrent et sortent de chaque sommet


In [None]:
#Create a data set only containing data about the number of ingoing and outgoing arcs for each node
#inputs_outputs is a list of list. Each list has the number of ingoing arcs for a specifc node.
inputs_outputs = [[input, output] for input, output in zip(google_graph['inputs'].values, google_graph['outputs'].values)]
kmeans = KMeans(n_clusters=number_of_cluster).fit(inputs_outputs)

#kmeans.labels_ have the cluster that each node belongs to
google_graph['groups'] = kmeans.labels_

## Plot résultat

In [None]:
fg = seaborn.FacetGrid(data=google_graph, hue='groups', size=4, aspect=2)
fg.map(pyplot.scatter, 'inputs', 'outputs').add_legend()

# Votre troisième mission sera de faire une clusterisation avec le KMeans, en utilisant cette fois-ci, le nombre d'arcs entrants divisé par le nombre d'arcs sortants de chaque sommet et puis afficher le résultat.

# Enfin, étant donné un jeu de données, quelle est la meilleure valeur de k (nombre de clusters) ?
Un article intéressant concernant le choix du nombre de clusters est trouvé ici: http://www.ee.columbia.edu/~dpwe/papers/PhamDN05-kmeans.pdf

In [None]:
inputs_outputs_filter = inputs_outputs[:15000]
min_cluster = 2
max_cluster = 10
k_range = range(min_cluster, max_cluster + 1)

#Computing kmeans for each value of k
kmeans = [KMeans(n_clusters=k).fit(inputs_outputs_filter) for k in k_range]

#Computing centroids for each cluster k
centroids = [X.cluster_centers_ for X in kmeans]

#Computing the Euclidian distance from each point to each cluster center
k_euclid = [cdist(inputs_outputs_filter, cent) for cent in centroids]
dist = [np.min(ke, axis=1) for ke in k_euclid]

#Total within-cluster sum of squares
wcss = [sum(d**2) for d in dist]

#Total sum of squares
tss = sum(pdist(inputs_outputs_filter)**2)/len(inputs_outputs_filter)

#The between-cluster sum of squares
bss = tss - wcss

#Normalize
bss = bss / bss.sum()

#plot
pyplot.plot(k_range, bss)
pyplot.title('Variance explained X # Cluster')
pyplot.show()

# Quelques questions
1) Quelle la différence entre les centroids et le centre de gravité ? 

3) Quelle est la signification d'une clusterisation où k=1 ?

4) Quelle est la signification d'une clusterisation où k est égal au nombre de points du jeu de données? 