<a href="https://colab.research.google.com/github/RicardoCastelhano/image-based-product-recommendation/blob/main/image_recommendation_system.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Sistema de Recomenda√ß√£o por Similaridade Visual de Imagens
Objetivo

Desenvolver um sistema de recomenda√ß√£o capaz de indicar produtos visualmente semelhantes a partir de uma imagem de entrada, utilizando Deep Learning e Vis√£o Computacional, sem uso de informa√ß√µes textuais

#M√≥dulo 1 ‚Äî Configura√ß√£o do Ambiente

Instala√ß√£o das bibliotecas necess√°rias para execu√ß√£o do projeto no Google Colab.

In [1]:
!pip install -q kaggle tensorflow scikit-learn matplotlib pillow


#M√≥dulo 2 ‚Äî Download do Dataset via API do Kaggle

Para a obten√ß√£o do dataset utilizado neste projeto, foi empregada a API oficial do Kaggle, que permite o acesso autenticado a bases de dados p√∫blicas diretamente por c√≥digo. Essa abordagem √© amplamente utilizada em projetos de Ci√™ncia de Dados, pois garante reprodutibilidade, automa√ß√£o e facilidade de execu√ß√£o em ambientes como o Google Colab.

Mesmo sendo um dataset p√∫blico, o Kaggle exige autentica√ß√£o para realizar downloads program√°ticos. Para isso, √© necess√°rio gerar um token de acesso, disponibilizado no arquivo kaggle.json, que funciona como uma credencial segura para autoriza√ß√£o do download.

üîë Passo a passo do processo:

O usu√°rio deve acessar sua conta no Kaggle e, na se√ß√£o Account, gerar um token da API clicando em Create New API Token.

Esse processo gera o arquivo kaggle.json, que cont√©m as credenciais necess√°rias para autentica√ß√£o.

O arquivo √© ent√£o enviado para o ambiente do Google Colab.

Ap√≥s o upload, o token √© configurado no diret√≥rio padr√£o esperado pela API do Kaggle.

Com a autentica√ß√£o conclu√≠da, o dataset Fashion Product Images Dataset √© baixado automaticamente via linha de comando e descompactado para uso no projeto.

Essa estrat√©gia elimina a necessidade de downloads manuais, torna o projeto mais organizado e permite que qualquer pessoa execute o notebook do zero, desde que possua uma conta no Kaggle.

‚ö†Ô∏è Observa√ß√£o: o arquivo kaggle.json cont√©m informa√ß√µes sens√≠veis e n√£o deve ser versionado ou enviado para reposit√≥rios p√∫blicos, como o GitHub.

In [None]:
from google.colab import files
files.upload()

!mkdir -p ~/.kaggle
!cp kaggle.json ~/.kaggle/
!chmod 600 ~/.kaggle/kaggle.json

!kaggle datasets list | head

!kaggle datasets download -d paramaggarwal/fashion-product-images-dataset

!ls -lh | grep fashion


!unzip fashion-product-images-dataset.zip -d dataset

import os

if os.path.exists("dataset/images"):
    print("‚úÖ Dataset baixado e extra√≠do com sucesso!")
    print(f"üì∏ Total de imagens: {len(os.listdir('dataset/images'))}")
else:
    print("‚ùå Dataset n√£o encontrado. Verifique as etapas anteriores.")





Saving kaggle.json to kaggle (1).json
ref                                                              title                                                  size  lastUpdated                 downloadCount  voteCount  usabilityRating  
---------------------------------------------------------------  -----------------------------------------------  ----------  --------------------------  -------------  ---------  ---------------  
neurocipher/heartdisease                                         Heart Disease                                          3491  2025-12-11 15:29:14.327000           2114         95  1.0              
neurocipher/student-performance                                  Student Performance                                   49705  2025-12-12 12:06:28.973000           1261         70  1.0              
wardabilal/spotify-global-music-dataset-20092025                 Spotify Global Music Dataset (2009‚Äì2025)            1289021  2025-11-11 09:43:05.933000          16387 

#M√≥dulo 3 ‚Äî Importa√ß√£o de Bibliotecas

Carregamento das bibliotecas utilizadas no pr√©-processamento, modelagem e visualiza√ß√£o.

In [3]:
import os
import numpy as np
import matplotlib.pyplot as plt

from PIL import Image
from tensorflow.keras.applications.resnet50 import ResNet50, preprocess_input
from sklearn.metrics.pairwise import cosine_similarity


#M√≥dulo 4 ‚Äî Pr√©-processamento das Imagens

Padroniza√ß√£o das imagens para o formato esperado pela CNN

In [4]:
IMG_SIZE = (224, 224)
IMAGE_FOLDER = "dataset/images"

def load_and_preprocess(img_path):
    img = Image.open(img_path).convert("RGB")
    img = img.resize(IMG_SIZE)
    img_array = np.array(img)
    img_array = np.expand_dims(img_array, axis=0)
    return preprocess_input(img_array)


#M√≥dulo 5 ‚Äî Modelo de Deep Learning

Uso de uma CNN pr√©-treinada (ResNet50) como extratora de caracter√≠sticas visuais.

In [5]:
model = ResNet50(
    weights="imagenet",
    include_top=False,
    pooling="avg"
)


Downloading data from https://storage.googleapis.com/tensorflow/keras-applications/resnet/resnet50_weights_tf_dim_ordering_tf_kernels_notop.h5
[1m94765736/94765736[0m [32m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m[37m[0m [1m4s[0m 0us/step


M√≥dulo 6 ‚Äî Gera√ß√£o dos Embeddings

Convers√£o das imagens em vetores num√©ricos que representam suas caracter√≠sticas visuais.

In [6]:
image_paths = [
    os.path.join(IMAGE_FOLDER, img)
    for img in os.listdir(IMAGE_FOLDER)[:2000]
]

embeddings = []

for path in image_paths:
    img = load_and_preprocess(path)
    emb = model.predict(img, verbose=0)
    embeddings.append(emb[0])

embeddings = np.array(embeddings)


FileNotFoundError: [Errno 2] No such file or directory: 'dataset/images'

#M√≥dulo 7 ‚Äî Sistema de Recomenda√ß√£o

C√°lculo da similaridade entre imagens utilizando similaridade do cosseno.

In [None]:
def recommend(img_path, top_n=5):
    query = load_and_preprocess(img_path)
    query_emb = model.predict(query, verbose=0)

    sims = cosine_similarity(query_emb, embeddings)[0]
    idxs = np.argsort(sims)[-top_n-1:-1][::-1]

    plt.figure(figsize=(15,5))
    plt.subplot(1, top_n+1, 1)
    plt.imshow(Image.open(img_path))
    plt.title("Imagem de Consulta")
    plt.axis("off")

    for i, idx in enumerate(idxs):
        plt.subplot(1, top_n+1, i+2)
        plt.imshow(Image.open(image_paths[idx]))
        plt.title(f"Similaridade: {sims[idx]:.2f}")
        plt.axis("off")

    plt.show()


#M√≥dulo 8 ‚Äî Teste do Sistema

Execu√ß√£o do sistema de recomenda√ß√£o a partir de uma imagem de entrada.

In [None]:
test_image = image_paths[10]
recommend(test_image)
