In [1]:
import pandas as pd
import numpy as np
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.neighbors import NearestNeighbors

In [2]:
random_state = 0 
data = pd.read_csv('./scenarii.csv', encoding="ISO-8859-1", sep=";", header = 0)
data.head()

Unnamed: 0,texte,tag
0,4.\tVersion Desktop - liste des cas d'utilisat...,texte
1,4.1.1\tCU001-001 Afficher le header,usecase
2,Acteur : Internaute,acteur
3,Cas dutilisation permettant à un internaute ...,texte
4,\tNotes :\nLe système affiche les éléments su...,texte


## extraction des caractéristiques 

In [3]:
vec = TfidfVectorizer(max_features=1000, stop_words=stopwords.words('french'))
vec.fit(data['texte'].values)
features = vec.transform(data['texte'].values)

In [4]:
#Nous obtenons une matrice carractérisée par 1000 mots
features

<2382x1000 sparse matrix of type '<class 'numpy.float64'>'
	with 29551 stored elements in Compressed Sparse Row format>

In [5]:
features.toarray()

array([[0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ],
       [0.        , 0.        , 0.53024634, ..., 0.        , 0.        ,
        0.        ],
       [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ],
       ...,
       [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ],
       [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ],
       [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ]])

## Construction du Modèle KNN

In [6]:
#La Métrique cosine est généralement utilisé pour la similitude de texte
knn = NearestNeighbors(n_neighbors=10, metric='cosine')
knn.fit(features)

NearestNeighbors(algorithm='auto', leaf_size=30, metric='cosine',
                 metric_params=None, n_jobs=None, n_neighbors=10, p=2,
                 radius=1.0)

In [7]:
#Observation des 10 voisins les plus proches au 1er texte ainsi que les distances qui les séparent
knn.kneighbors(features[0:1], return_distance=True)

(array([[0.        , 0.25255254, 0.46387054, 0.52207988, 0.62989629,
         0.6873987 , 0.71118778, 0.71118778, 0.71655571, 0.72768479]]),
 array([[   0, 1706, 1598, 1597,  454,  174,  379, 1791,   59, 1626]],
       dtype=int64))

## A partir d'un user story pris dans une matrice de couverture, récupérons ses 10 voisins les plus proches et comparons

In [8]:
input_texts = ["L’utilisateur peut créer un lien de niveau 1"]
input_features = vec.transform(input_texts)

D, N = knn.kneighbors(input_features, n_neighbors=10, return_distance=True)

for input_text, distances, neighbors in zip(input_texts, D, N):
    print("Input text = ", input_text[:200], "\n")
    for dist, neighbor_idx in zip(distances, neighbors):
        if dist < 0.5 :
            print("Distance = ", dist, "Neighbor idx = ", neighbor_idx)
            print(data['texte'].values[neighbor_idx][:200])
            print("-"*200)
    print("="*200)
    print()

Input text =  L’utilisateur peut créer un lien de niveau 1 

Distance =  0.15245928033846678 Neighbor idx =  69
	Notes :
Lutilisateur peut créer un lien de niveau 1
Lutilisateur peut créer un lien de niveau 2
Le contributeur peut ajouter toute page dans le footer front-office
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Distance =  0.2814280431405116 Neighbor idx =  40
	Notes :
Lutilisateur peut créer un lien de niveau 1
Lutilisateur peut créer un lien de niveau 2
Une page nouvellement créée en back-office est visible automatiquement dans le menu front-office
2 b
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------



In [11]:
input_texts = ["Le contributeur se place dans une page éditoriale et ajoute un plugin bloc Image. Il peut :Sélectionner une image existante [...]"]
input_features = vec.transform(input_texts)

D, N = knn.kneighbors(input_features, n_neighbors=10, return_distance=True)

for input_text, distances, neighbors in zip(input_texts, D, N):
    print("Input text = ", input_text[:200], "\n")
    for dist, neighbor_idx in zip(distances, neighbors):
        if dist < 0.5 :
            print("Distance = ", dist, "Neighbor idx = ", neighbor_idx)
            print(data['texte'].values[neighbor_idx][:200])
            print("-"*200)
    print("="*200)
    print()

Input text =  Le contributeur se place dans une page éditoriale et ajoute un plugin bloc Image. Il peut :Sélectionner une image existante [...] 

Distance =  0.26729559364136923 Neighbor idx =  303
Cas dutilisation décrivant la contribution dun contenu éditorial Image.
Le contributeur se place dans une page éditoriale et ajoute un plugin bloc Image. Il peut :
	Sélectionner une image existante
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Distance =  0.42651248223543203 Neighbor idx =  298
Cas dutilisation décrivant la contribution dun bloc éditorial dans une page éditoriale.
Le contributeur se place dans une page éditoriale et ajoute un bloc Texte et image.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

### Nous remarquons plus ou moins une similarité entre le user story et ses 10 voisins autour du mot 'utilisateur' et les verbes d'actions utilisés