@eidepozo

## Medición de diversidad

Incluye la exportación del dataset con su valor de diversidad $sum\_cos$, definido como: *la suma de cada par único de snippets bajo similitud del coseno (sim)* 

\begin{equation}
\label{eqn:sum_cos}
sum\_cos(q) = \sum_{\substack{i \in I \\ i < j}} \sum_{j \in I} sim(s_{i}, s_{j}), \quad s_i, s_j \in S
\end{equation}

con $N$ snippets e $I = \{1,\ldots, N\}$


In [1]:
import os
import sys
module_path = os.path.abspath(os.path.join('..'))
if module_path not in sys.path:
    sys.path.append(module_path)
    
from src.data_extraction import data_extraction
from src.filtering import filtering

In [2]:
data = data_extraction(4) 

In [3]:
from bs4 import BeautifulSoup

In [4]:
data['snippet'] = data['snippet'].map(lambda text: BeautifulSoup(text, 'html.parser').get_text())

In [5]:
aux = data.groupby('id_number').head(3).groupby('FK_student_nick').head(3)
#aux # 3 primeros resultados para cada usuario de su primera query emitida

In [6]:
df = aux.drop_duplicates(['FK_student_nick','query'])[['FK_student_nick', 'query']] # primera query unica
df = df.reset_index(drop=True)

In [7]:
df['snippet1'] = aux['snippet'].iloc[::3].reset_index(drop=True) # 3 documentos por usuario
df['snippet2'] = aux['snippet'].iloc[1::3].reset_index(drop=True)
df['snippet3'] = aux['snippet'].iloc[2::3].reset_index(drop=True)

In [8]:
df

Unnamed: 0,FK_student_nick,query,snippet1,snippet2,snippet3
0,aarriagada,como construir un automovil,Cómo construir un auto deportivo con poco dine...,"Construir un motor de automóvil desde cero, ll...",Relájate y disfruta en HD del proceso de ensam...
1,cduarte,soapbox,Soapbox is a Chrome extension that enables any...,SoapBox is an app designed to help managers ha...,A soapbox is a raised platform on which one st...
2,abastian,Crear un auto básico,This feature is not available right now. Pleas...,PARA HACER CAPAS MIRA EL Anexo a Curso de Auto...,Crear un diagrama de flujo. En el menú Archivo...
3,ocontreras,Como construir un automovi,"Construir un motor de automóvil desde cero, ll...",Cómo construir un auto deportivo con poco dine...,"Fases. Antes de producir un vehículo, ha de co..."
4,gcurguan,Como construir un auto de carreras,QUIERES FORMAR PARTE DE LA MEJOR NETWORK DE YO...,Un auto de carrera puede ser un juego o un obj...,UN COCHE DE CARRERAS DEFINICIÓN DEL PROYECTO. ...
5,mcarep,construir automovil derby soapbox,Fácil Soap Box Derby coche construir Estas ins...,Sobre soap box derby de coches Soap box derby ...,3rd Annual Nevada City Soap Box Derby. 3rd Ann...
6,eespinoza,como construir un automovil de carrerqas,Construye un automóvil de carreras casero y se...,Un auto de carrera puede ser un juego o un obj...,Estudiantes de la Universidad Politécnica Sale...
7,gandrade,que debe tener mi auto para competir en nascar?,Están preparados para competir más de 500 mill...,Hay una frase muy importante en estados Unidos...,NASCAR hace referencia a las siglas en inglés ...
8,jfernandez,asd,Anchorage School District website accessibilit...,Tip: Incorrect ASD file association errors can...,Definición de ASD en el Diccionario de español...
9,bcortes,componentes de un automovil,El primer viaje largo en un automóvil lo reali...,COMPONENTES DE UN AUTOMOVIL 1. PistónFoto de u...,Curso Mecánica: Experto en Autopartes | Compon...


In [9]:
#https://goodboychan.github.io/chans_jupyter/python/datacamp/natural_language_processing/2020/07/17/04-TF-IDF-and-similarity-scores.html#Cosine-similarity
#https://gist.github.com/4OH4/bea12f336b154e25ac33acbc76cd5f0a

from nltk.corpus import stopwords
from sklearn.feature_extraction.text import TfidfVectorizer

In [10]:
es_sw = stopwords.words('spanish')

In [11]:
tf = TfidfVectorizer(stop_words=es_sw) 

In [12]:
from recomendacion_de_terminos.src.metrics import sim_matrix, group_matrix
import numpy as np

Ej. del proceso para query 20

In [13]:
q = df['query'][20]
s1 = df['snippet1'][20]
s2 = df['snippet2'][20]
s3 = df['snippet3'][20]

In [14]:
q

'Como construir un automovil de carrera'

In [15]:
tfidf_matrix = tf.fit_transform([q,s1,s2,s3]) # matriz de caracteristicas

In [16]:
feature_names = tf.get_feature_names()
for x in feature_names:
    print(x, end=' ')

aerodinámica auto automotriz automovil automóvil carrera carreras casero colección computarizados construcción construir construye controles cuenca duda electrónicos enseñaremos estilo estudiantes forma fórmula grupo hacemos historia ingeniería juego juegos madera mantiene mayor miembro mismos objeto parte pasatiempo pertenecientes politécnica proyecto puede realizan salesiana sede selecto ser si universidad valor vehículo vida 

In [17]:
print(tfidf_matrix[0])

  (0, 5)	0.4480997313625986
  (0, 3)	0.7020348194149619
  (0, 11)	0.5534923152870045


In [18]:
from sklearn.metrics.pairwise import linear_kernel

In [19]:
S = [] # estimacion de similitud del coseno
for i in range(4): # largo del corpus
    S.append(linear_kernel(tfidf_matrix[i], tfidf_matrix).flatten())

In [20]:
S = np.asarray((S[0],S[1],S[2],S[3]))

In [21]:
S

array([[1.        , 0.        , 0.21377703, 0.14469256],
       [0.        , 1.        , 0.        , 0.        ],
       [0.21377703, 0.        , 1.        , 0.08738573],
       [0.14469256, 0.        , 0.08738573, 1.        ]])

In [22]:
tf = TfidfVectorizer(stop_words=es_sw)  # reset para aplicar la funcion a los participantes

In [23]:
S = group_matrix(df, tf)

In [24]:
S # matriz de similitud

array([[[ 0.00000000e+00,  8.96145770e-01,  9.37722385e-01,
          1.00000000e+00],
        [ 8.96145770e-01,  4.44089210e-16,  9.77656827e-01,
          9.32096698e-01],
        [ 9.37722385e-01,  9.77656827e-01,  0.00000000e+00,
          1.00000000e+00],
        [ 1.00000000e+00,  9.32096698e-01,  1.00000000e+00,
          4.44089210e-16]],

       [[ 0.00000000e+00,  8.53618062e-01,  9.03598882e-01,
          9.26229180e-01],
        [ 8.53618062e-01,  5.55111512e-16,  8.79243984e-01,
          9.40734053e-01],
        [ 9.03598882e-01,  8.79243984e-01,  1.11022302e-16,
          8.79805527e-01],
        [ 9.26229180e-01,  9.40734053e-01,  8.79805527e-01,
          4.44089210e-16]],

       [[ 0.00000000e+00,  1.00000000e+00,  9.33335540e-01,
          9.14881962e-01],
        [ 1.00000000e+00,  4.44089210e-16,  1.00000000e+00,
          1.00000000e+00],
        [ 9.33335540e-01,  1.00000000e+00,  7.77156117e-16,
          9.88811239e-01],
        [ 9.14881962e-01,  1.00000000e+

In [25]:
S[0] # 29 submatrices de similitud por usuario, query y 3 snippets respectivas

array([[0.00000000e+00, 8.96145770e-01, 9.37722385e-01, 1.00000000e+00],
       [8.96145770e-01, 4.44089210e-16, 9.77656827e-01, 9.32096698e-01],
       [9.37722385e-01, 9.77656827e-01, 0.00000000e+00, 1.00000000e+00],
       [1.00000000e+00, 9.32096698e-01, 1.00000000e+00, 4.44089210e-16]])

In [26]:
df['sum_cos'] = "" # arreglo

In [27]:
# estimación del "puntaje del coseno" = suma de similaridad entre snippets por usuario
# a medida que disminuye mayor es la diversidad
for i in range(S.shape[0]):
    df['sum_cos'][i] = S[i][1,2] + S[i][1,3] + S[i][2,3]

In [28]:
df

Unnamed: 0,FK_student_nick,query,snippet1,snippet2,snippet3,sum_cos
0,aarriagada,como construir un automovil,Cómo construir un auto deportivo con poco dine...,"Construir un motor de automóvil desde cero, ll...",Relájate y disfruta en HD del proceso de ensam...,2.90975
1,cduarte,soapbox,Soapbox is a Chrome extension that enables any...,SoapBox is an app designed to help managers ha...,A soapbox is a raised platform on which one st...,2.69978
2,abastian,Crear un auto básico,This feature is not available right now. Pleas...,PARA HACER CAPAS MIRA EL Anexo a Curso de Auto...,Crear un diagrama de flujo. En el menú Archivo...,2.98881
3,ocontreras,Como construir un automovi,"Construir un motor de automóvil desde cero, ll...",Cómo construir un auto deportivo con poco dine...,"Fases. Antes de producir un vehículo, ha de co...",2.92094
4,gcurguan,Como construir un auto de carreras,QUIERES FORMAR PARTE DE LA MEJOR NETWORK DE YO...,Un auto de carrera puede ser un juego o un obj...,UN COCHE DE CARRERAS DEFINICIÓN DEL PROYECTO. ...,2.85595
5,mcarep,construir automovil derby soapbox,Fácil Soap Box Derby coche construir Estas ins...,Sobre soap box derby de coches Soap box derby ...,3rd Annual Nevada City Soap Box Derby. 3rd Ann...,2.57605
6,eespinoza,como construir un automovil de carrerqas,Construye un automóvil de carreras casero y se...,Un auto de carrera puede ser un juego o un obj...,Estudiantes de la Universidad Politécnica Sale...,2.86337
7,gandrade,que debe tener mi auto para competir en nascar?,Están preparados para competir más de 500 mill...,Hay una frase muy importante en estados Unidos...,NASCAR hace referencia a las siglas en inglés ...,2.8047
8,jfernandez,asd,Anchorage School District website accessibilit...,Tip: Incorrect ASD file association errors can...,Definición de ASD en el Diccionario de español...,2.91122
9,bcortes,componentes de un automovil,El primer viaje largo en un automóvil lo reali...,COMPONENTES DE UN AUTOMOVIL 1. PistónFoto de u...,Curso Mecánica: Experto en Autopartes | Compon...,2.94154


In [29]:
#df.to_csv('participants_ext_2.csv', index=False)