In [74]:
# Importamos todo lo que vamos a utilizar
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from scipy.spatial.distance import euclidean, cosine
import pandas as pd
import numpy as np

Para la realización de este último módulo, compararemos la distancia Euclidea, la distancia coseno y la distancia Jaccard para conocer cual es la más acertada. Una distancia es un valor numérico y los tipos de distancia previamente nombrados requieren de vectores para su cálculo. Es por ello que debemos representar cada uno de los textos como un vector. 

In [95]:
# Cargamos el dataset para utilizar un par de ejemplos
df = pd.read_csv('reddit_database_sentiment.csv', delimiter=';', low_memory=False)

# Seleccionar textos para comprobar
text1 = df['post'][0]
text2 = df['post'][2]
text3 = df['post'][12]

In [96]:
# Visualización
print(text1)
print(text2)
print(text3)

There's a lot of reasons to want to know all this stuff, so I figured I'd get to know the others that are on this subreddit.

So let's hear it: Webmasters? Coders? Marketers? Work for an analytics software company? You get the idea.
DotCed,a Functional Analytics Consultant, offering Google Analytics Tagging, Reporting, Analysis, Strategy, SEO Auditing, and SEM Optimization. Call 919-404-9233 for a 15 min consultation.
anyone else have issues with the "include subdirectories" option in profile filters?  For some reason the results were way off for me; my solution was to use custom URI filters to get data accurately, but curious if anyone can explain this discrepancy and/or how i'm mis-interpreting the Include Subdirectories option!!


Una técnica para la conversión de texto a vector es Bag of Word. Utilizamos la clase CountVectorizer de la librería Scikit-learn.

In [77]:
vectorizador = CountVectorizer() # Creamos una instancia del vectorizador
vector1, vector2 = vectorizador.fit_transform([text1, text2])

In [78]:
# Conversión de los vectores a matrices Numpy (necesario para la implementación de la función que calcula la distancia)
array1 = vector1.toarray().ravel()
array2 = vector2.toarray().ravel()

Otra técnica es TF-IDF implementada en la clase TfidfVectorizer de Scikit-learn también.

In [80]:
tfidf_vectorizer = TfidfVectorizer() # Creamos una instancia del vectorizador
v1, v2 = tfidf_vectorizer.fit_transform([text1, text2])

In [81]:
# Conversión de los vectores a matrices Numpy (necesario para la implementación de la función que calcula la distancia)
a1 = v1.toarray().ravel()
a2 = v2.toarray().ravel()

Ahora implementaremos las distintas distancias

In [84]:
# Para la primera técnica
distancia_euclidea_vectorizer = euclidean(array1, array2)
distancia_coseno_vectorizer = cosine(array1, array2)
distancia_jaccard_vectorizer = float(np.sum(np.minimum(array1, array2)))/float(np.sum(np.maximum(array1, array2)))

In [85]:
# Visualización
print(f'{distancia_euclidea_vectorizer=}')
print(f'{distancia_coseno_vectorizer=}')
print(f'{distancia_jaccard_vectorizer=}')

distancia_euclidea_vectorizer=8.717797887081348
distancia_coseno_vectorizer=0.9213786372458561
distancia_jaccard_vectorizer=0.03225806451612903


In [87]:
# Para la segunda técnica
distancia_euclidea_tfidf = euclidean(a1, a2)
distancia_coseno_tfidf = cosine(a1, a2)
distancia_jaccard_tfidf = float(np.sum(np.minimum(a1, a2)))/float(np.sum(np.maximum(a1, a2)))

In [88]:
# Visualización
# Visualización
print(f'{distancia_euclidea_tfidf=}')
print(f'{distancia_coseno_tfidf=}')
print(f'{distancia_jaccard_tfidf=}')

distancia_euclidea_tfidf=1.3840438909298272
distancia_coseno_tfidf=0.9577887460100877
distancia_jaccard_tfidf=0.01939434175590017


**Función final**

Implementaremos la técnica TF-IDF por generar vectores que al aplicar las funciones de distancia, los resultados son más precisos. Además, utilizaremos la distancia coseno.

In [97]:
def texts_distance(text1:str, text2:str):
    # Conversión de los textos a vectores
    vectorizador = TfidfVectorizer() # Creamos una instancia del vectorizador
    vector1, vector2 = vectorizador.fit_transform([text1, text2])

    # Conversión de los vectores a matrices Numpy (necesario para la implementación de la función que calcula la distancia)
    array1 = vector1.toarray().ravel()
    array2 = vector2.toarray().ravel()

    # Cálculo de la distancia
    distancia_coseno = cosine(array1, array2)

    return 'La distancia entre los dos textos indicados es: ', distancia_coseno

In [99]:
# Prueba
print(texts_distance(text1, text2))
print(texts_distance(text1, text3))

('La distancia entre los dos textos indicados es: ', 0.9577887460100877)
('La distancia entre los dos textos indicados es: ', 0.9633175410027456)
