# TF-IDF

In [5]:
# Librerías
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

In [6]:
items_df = pd.read_csv('Data/items_titles.csv', encoding = 'UTF-8')

In [7]:
# Preprocesamiento: Convertir a minúsculas y eliminar caracteres especiales
items_df['processed_titles'] = items_df['ITE_ITEM_TITLE'].str.lower().str.replace('[^\w\s]', '', regex=True)

# Vectorización TF-IDF
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(items_df['processed_titles'])

In [8]:
tfidf_matrix

<30000x17676 sparse matrix of type '<class 'numpy.float64'>'
	with 204269 stored elements in Compressed Sparse Row format>

In [9]:
# Preprocesamiento: Convertir a minúsculas y eliminar caracteres especiales
items_df['processed_titles'] = items_df['ITE_ITEM_TITLE'].str.lower().str.replace('[^\w\s]', '', regex=True)

# Vectorización TF-IDF
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(items_df['processed_titles'])

# Cálculo de Similitud del Coseno
cosine_sim = cosine_similarity(tfidf_matrix)

# Mostrar la matriz de similitud para los primeros 5 productos como ejemplo
cosine_sim_df = pd.DataFrame(cosine_sim, index=items_df['ITE_ITEM_TITLE'], columns=items_df['ITE_ITEM_TITLE'])

In [10]:
cosine_sim_df.columns

Index(['Tênis Ascension Posh Masculino - Preto E Vermelho ',
       'Tenis Para Caminhada Super Levinho Spider Corrida ',
       'Tênis Feminino Le Parc Hocks Black/ice Original Envio Já',
       'Tênis Olympikus Esportivo Academia Nova Tendência Triunfo ',
       'Inteligente Led Bicicleta Tauda Luz Usb Bicicleta Carregáve',
       'Tênis Casual Masculino Zarato 941 Preto 632',
       'Tênis Infantil Ortopasso Conforto Jogging',
       'Tv Samsung Qled 8k Q800t Semi Nova',
       'Tênis Usthemp Short Temático - Maria Vira-lata 2',
       'Sapatênis West Coast Urban Couro Masculino',
       ...
       'Tênis adidas Lite Racer 2.0 Feminino Preto Original + Nfe',
       'Ténis Running Para Corrida Masculino Treino Esportivo ',
       'Tênis Nike Zoom Javelin Elite', 'Tênis Feminino Dakota Kicks G0984',
       'Air Force Shadow Mystic Navy',
       'Tênis Vans Old Skool I Love My Vans - Usado - Feminino',
       'Tênis Feminino Preto Moleca 5296155',
       'Tenis Botinha Com Pelo Via Ma

In [11]:
cosine_sim_df['Tenis Botinha Com Pelo Via Marte Original Lançamento'].sort_values(ascending=False)

ITE_ITEM_TITLE
Tenis Botinha Com Pelo Via Marte Original Lançamento            1.000000
Botinha Com Pelo Tenis Via Marte Outono Inverno Lançamento      0.750508
Tênis Botinha Feminino Via Marte Com Pelo 21-4xxi               0.685678
Tênis Cano Alto Botinha Via Marte Forrada Pelo                  0.618034
Tênis Via Marte Original                                        0.546307
                                                                  ...   
Tênis Usthemp Short Temático - Stonerose                       0.000000
Tênis Ascension Run Infantil - Gelo E Pink                      0.000000
Kit 2 Pares De Tênis Meia Feminino Do 34 Ao 40 Frete Grátis     0.000000
Tênis Caminhada Academia Branco Pamilha Gel Pu                  0.000000
Bicicleta Nathor Rosa Infantil Sem Pedal Balance Aro 12         0.000000
Name: Tenis Botinha Com Pelo Via Marte Original Lançamento, Length: 30000, dtype: float64

# WORD EMBEDDINGS

In [12]:
from gensim.models import Word2Vec
import pandas as pd

In [13]:
items_df[items_df['ITE_ITEM_TITLE']=='Tenis Botinha Com Pelo Via Marte Original Lançamento ']

Unnamed: 0,ITE_ITEM_TITLE,processed_titles


In [14]:
items_df = pd.read_csv('Data/items_titles.csv')

In [15]:
items_df['processed_titles'] = items_df['ITE_ITEM_TITLE'].str.lower().str.replace('[^\w\s]', '', regex=True).str.split()

In [16]:
model = Word2Vec(items_df['processed_titles'].tolist(), vector_size=10000, window=5, min_count=1, workers=4)

In [17]:
model.save("word2vec.model")

In [18]:
# Obtener el vector (embedding) de una palabra específica
word_vector = model.wv['tênis']

# Nota: 'model.wv' es un objeto KeyedVectors. Si estás utilizando un modelo preentrenado cargado con KeyedVectors, 
# simplemente usa 'model' en lugar de 'model.wv'.


In [19]:
similarity = model.wv.similarity('tênis', 'tenis')
similarity

0.9182889

In [20]:
import numpy as np

# Suponiendo que 'document' es una lista de palabras
document_vector = np.mean([model.wv[word] for word in items_df['processed_titles'][0] if word in model.wv], axis=0)
document_vector_1 = np.mean([model.wv[word] for word in items_df['processed_titles'][1] if word in model.wv], axis=0)

In [21]:
from sklearn.metrics.pairwise import cosine_similarity
cosine_sim = cosine_similarity([document_vector, document_vector_1])

In [22]:
cosine_sim

array([[0.99999964, 0.9497983 ],
       [0.9497983 , 1.0000001 ]], dtype=float32)

In [23]:
items_df.head(2)

Unnamed: 0,ITE_ITEM_TITLE,processed_titles
0,Tênis Ascension Posh Masculino - Preto E Verme...,"[tênis, ascension, posh, masculino, preto, e, ..."
1,Tenis Para Caminhada Super Levinho Spider Corr...,"[tenis, para, caminhada, super, levinho, spide..."
