# Importar bibliotecas necessárias


In [1]:
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.model_selection import train_test_split


# Carregar a base de dados do arquivo CSV


In [2]:
url = "https://github.com/valdineyatilio/ProjetoAplicado-III/raw/refs/heads/main/Aula-02/BaseDeDados-AmazonProductReviews.csv"
dados_Amazon = pd.read_csv(url, encoding='latin1', sep=';')


# Preencher valores nulos na coluna 'Text' com strings vazias


In [3]:

dados_Amazon['Text'] = dados_Amazon['Text'].fillna('')


# Separar uma amostra para validação do modelo


In [5]:
dados_treino, dados_teste = train_test_split(dados_Amazon, test_size=0.2, random_state=42)


# Aplicar TF-IDF para transformar os textos das avaliações em vetores numéricos


In [6]:
tfidf = TfidfVectorizer(stop_words='english', max_df=0.9, min_df=2, ngram_range=(1,2))
matriz_tfidf = tfidf.fit_transform(dados_treino['Text'])


# Calcular a similaridade entre os produtos


In [7]:
similaridade = cosine_similarity(matriz_tfidf)


# Função para recomendar produtos semelhantes a partir do índice de um produto


In [9]:
def recomendar_produto(product_index, top_n=5):
    similares = list(enumerate(similaridade[product_index]))
    similares = sorted(similares, key=lambda x: x[1], reverse=True)

    print(f"\nProdutos semelhantes ao ID {dados_treino.iloc[product_index]['ProductId']}:\n")
    for i in range(1, top_n + 1):  # Pular o primeiro, que é ele mesmo
        produto_id = dados_treino.iloc[similares[i][0]]['ProductId']
        score = similares[i][1]
        print(f"- Produto ID: {produto_id}, Similaridade: {score:.4f}")



# Testar o modelo com diferentes produtos da base de teste


In [10]:
print("\nValidando o modelo com amostras da base de teste:")
for i in range(3):  # Testando com 3 produtos aleatórios
    produto_escolhido = np.random.randint(0, len(dados_treino))
    recomendar_produto(produto_escolhido)



Validando o modelo com amostras da base de teste:

Produtos semelhantes ao ID B005K4Q1VI:

- Produto ID: B000ER6YO0, Similaridade: 0.5106
- Produto ID: B0089SPDUW, Similaridade: 0.3680
- Produto ID: B00263JWM6, Similaridade: 0.3392
- Produto ID: B00139TT72, Similaridade: 0.2427
- Produto ID: B001QEF4XC, Similaridade: 0.2125

Produtos semelhantes ao ID B000G7UDPY:

- Produto ID: B000G7UDPY, Similaridade: 0.4220
- Produto ID: B000G7UDPY, Similaridade: 0.3405
- Produto ID: B002JLT6QC, Similaridade: 0.3357
- Produto ID: B000J2DQ46, Similaridade: 0.3147
- Produto ID: B000G7UDPY, Similaridade: 0.2881

Produtos semelhantes ao ID B001L1KH6Y:

- Produto ID: B005HGAVGA, Similaridade: 0.2591
- Produto ID: B001E6KBSK, Similaridade: 0.2474
- Produto ID: B001L1KH6Y, Similaridade: 0.2472
- Produto ID: B001GVISJM, Similaridade: 0.2465
- Produto ID: B005HGAVGA, Similaridade: 0.2126
