# Actividad 4.2. Similitud en textos mediante BoW.
---
**Por: Ian Joab Padron Corona - A01708940**

In [1]:
# Importar librerias Pandas, Math y Matplotlib
import pandas as pd
import numpy as np
import re

In [2]:
def df_file(archivo):
    # Extraer informacion de data01.txt
    archivo = f'./content/{archivo}'
    data = pd.read_csv(archivo, header=0, encoding='utf-8')
    return data

In [3]:
def clean_text(text):
    # Convertir a string y aplicar regex para eliminar caracteres no deseados
    if not isinstance(text, str):
        text = str(text)
    text = re.sub(r'[^a-zA-Z0-9\s]', ' ', text)
    return text.lower()

In [4]:
def array_words(text):
    # Regresar un array con todas las palabras de un string
    return text.split()

In [5]:
def cosine_similarity(q1_vector, q2_vector):
    # Calcular el coseno de similitud entre dos vectores

    # Producto punto entre los vectores
    dot_product = np.dot(q1_vector, q2_vector)

    # Norma de los vectores
    norm_q1 = np.linalg.norm(q1_vector)
    norm_q2 = np.linalg.norm(q2_vector)

    # Evitar división por cero
    if norm_q1 == 0 or norm_q2 == 0:
        return 0  
    
    # Calcular el coseno de similitud
    return dot_product / (norm_q1 * norm_q2)

In [None]:
def main():
    # Definir el nombre del archivo
    archivo = 'questions.csv'
    
    # Llamar la funcion df_file para obtener el DataFrame
    data = df_file(archivo)
    
    # Aplicar la funcion regex a la columna 'question1' y 'question2 del DataFrame
    data['question1'] = data['question1'].apply(clean_text)
    data['question2'] = data['question2'].apply(clean_text)

    # Crear una nueva columna que contenga un array con todas las palabras de question1 y question2, sin duplicados
    data['words'] = data.apply(lambda x: list(set(array_words(x['question1']) + array_words(x['question2']))), axis=1)

    # Crear una nueva columna que contenga un array con la cantidad de veces que aparece cada palabra de questions1 en words
    data['q1_vector'] = data.apply(lambda x: [x['question1'].split().count(word) for word in x['words']], axis=1)
    # Crear una nueva columna que contenga un array con la cantidad de veces que aparece cada palabra de questions2 en words
    data['q2_vector'] = data.apply(lambda x: [x['question2'].split().count(word) for word in x['words']], axis=1)

    # Crear una nueva columna que contenga la distancia entre q1_vector y q2_vector
    data['cosine_distance'] = data.apply(lambda x: cosine_similarity(x['q1_vector'], x['q2_vector']), axis=1)

    # Imprimir el DataFrame resultante
    print(data[['q1_vector', 'q2_vector', 'cosine_distance']])

    # Guardar el DataFrame en un archivo CSV
    data.to_csv('./outputs/BoW_results.csv', index=False)

main()

                                                q1_vector  \
0                                            [2, 2, 1, 1]   
1                             [1, 1, 0, 1, 1, 0, 0, 1, 0]   
2        [1, 2, 1, 0, 0, 1, 2, 0, 1, 1, 1, 1, 0, 1, 2, 0]   
3       [0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 1, 0, 2, 1, ...   
4        [1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1]   
...                                                   ...   
404346         [1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 2, 1, 1, 1]   
404347                  [1, 1, 0, 0, 1, 1, 1, 1, 1, 0, 1]   
404348                                 [1, 1, 1, 0, 1, 0]   
404349  [0, 1, 0, 0, 1, 0, 1, 1, 1, 0, 0, 1, 0, 0, 1, ...   
404350                     [1, 0, 1, 0, 1, 1, 1, 1, 1, 1]   

                                                q2_vector  cosine_distance  
0                                            [1, 3, 1, 4]         0.791155  
1                             [1, 1, 1, 0, 2, 1, 1, 0, 1]         0.565685  
2        [0, 1, 0, 1, 1, 1, 0, 2, 1,