# Sistema de recomendação pelo método de filtragem colaborativa

#### Importando as bibliotecas necessárias e o lendo o arquivo CSV

In [32]:
import pandas as pd
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.preprocessing import StandardScaler
from sklearn.feature_extraction.text import TfidfVectorizer

In [3]:
arquivo = pd.read_csv('archive/OnlineRetail.csv', encoding='ISO-8859-1')

arquivo.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,12/1/2010 8:26,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,12/1/2010 8:26,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,12/1/2010 8:26,3.39,17850.0,United Kingdom


#### Contando a quantidade de nulos por coluna

In [4]:
quantidadeNulos = arquivo.isnull().sum()

In [5]:
print(quantidadeNulos)

InvoiceNo           0
StockCode           0
Description      1454
Quantity            0
InvoiceDate         0
UnitPrice           0
CustomerID     135080
Country             0
dtype: int64


#### Apagando os valores nulos no arquivo original das colunas que apresentaram valores nulos e para considerar apenas operação de compra

In [8]:
arquivo.dropna(subset=['CustomerID', 'Description'], inplace=True)

In [9]:
quantidadeNulos = arquivo.isnull().sum()
print(quantidadeNulos)

InvoiceNo      0
StockCode      0
Description    0
Quantity       0
InvoiceDate    0
UnitPrice      0
CustomerID     0
Country        0
dtype: int64


In [10]:
arquivo = arquivo[arquivo['Quantity'] > 0]  

#### Padroniza os nomes da coluna de descrição

In [11]:
arquivo['Description'] = arquivo['Description'].str.strip().str.upper()


In [12]:
arquivo.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,12/1/2010 8:26,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,12/1/2010 8:26,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,12/1/2010 8:26,3.39,17850.0,United Kingdom


#### Matriz Cliente X Produto

In [13]:
matriz = arquivo.pivot_table(index='CustomerID', 
                             columns='Description', 
                             values='Quantity', 
                             aggfunc='sum', 
                             fill_value=0)

#### Calcular a similaridade

In [15]:
similaridade = cosine_similarity(matriz)
similaridade_df = pd.DataFrame(similaridade, index=matriz.index, columns=matriz.index)

#### Função para recomendar produtos

In [37]:
def recomendarProdutos(idCliente, top_n=3):
    if idCliente not in similaridade_df.index:
        return f"Cliente {idCliente} não encontrado."

    similares = similaridade_df[idCliente].sort_values(ascending=False).iloc[1:6]

    cliente_atual = matriz.loc[idCliente]
    produtos_comprados = cliente_atual[cliente_atual > 0].index

    recomendacoes = pd.Series(dtype=float)
    for cliente_similar in similares.index:
        produtos = matriz.loc[cliente_similar]
        produtos = produtos[produtos > 0]
        recomendacoes = recomendacoes.add(produtos, fill_value=0)

    recomendacoes = recomendacoes.drop(produtos_comprados, errors='ignore')

    return recomendacoes.sort_values(ascending=False).head(top_n)


#### testar Codigo

In [38]:
cliente = matriz.index[4]
print(recomendarProdutos(cliente))

Description
FOUR HOOK  WHITE LOVEBIRDS          25.0
BLACK STITCHED WALL CLOCK           20.0
LARGE STRIPES CHOCOLATE GIFT BAG    16.0
dtype: float64


In [70]:
cliente1 = matriz.index[112]
print(recomendarProdutos(cliente1))

Description
AGED GLASS SILVER T-LIGHT HOLDER    96.0
ICE CREAM PEN LIP GLOSS             96.0
ANTIQUE SILVER T-LIGHT GLASS        78.0
dtype: float64


In [75]:
cliente2 = matriz.index[997]
print(recomendarProdutos(cliente2))

Description
JUMBO BAG DOILEY PATTERNS      590.0
JUMBO BAG SPACEBOY DESIGN      250.0
JUMBO BAG DOLLY GIRL DESIGN    240.0
dtype: float64


# Sistema de recomendação pelo método de filtragem por conteúdo

#### Remove produtos duplicados

In [30]:
produtos = arquivo[['StockCode', 'Description']].drop_duplicates().reset_index(drop=True)

#### Torna a descrição/nomeDoProduto em vetor

In [33]:
vetor = TfidfVectorizer(stop_words='english')
tfidf_matriz = vetor.fit_transform(produtos['Description'])

#### Calcula a similaridade

In [43]:
similaridade_produto = cosine_similarity(tfidf_matriz)

#### Função de recomendação

In [47]:
def recomendarPorDescricao(nome_produto, top_n=5):
    nome_produto = nome_produto.strip().upper()
    
    if nome_produto not in produtos['Description'].values:
        return f"Produto '{nome_produto}' não encontrado."
    
    idx = produtos[produtos['Description'] == nome_produto].index[0]
    similares = list(enumerate(similaridade_produto[idx]))
    similares = sorted(similares, key=lambda x: x[1], reverse=True)
    similares = similares[1:top_n+1]

    recomendacoes = [produtos.iloc[i[0]]['Description'] for i in similares]
    return recomendacoes

In [48]:
arquivo.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,12/1/2010 8:26,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,12/1/2010 8:26,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,12/1/2010 8:26,3.39,17850.0,United Kingdom


#### Exemplo

In [65]:
exemplo= arquivo.Description[1199]
print(exemplo)
print(recomendarPorDescricao(exemplo))

VINTAGE UNION JACK APRON
['VINTAGE UNION JACK BUNTING', 'VINTAGE UNION JACK DOORSTOP', 'VINTAGE UNION JACK CUSHION COVER', 'VINTAGE UNION JACK SHOPPING BAG', 'VINTAGE UNION JACK MEMOBOARD']


In [68]:
exemplo1= arquivo.Description[20112]
print(exemplo1)
print(recomendarPorDescricao(exemplo1))

RED RETROSPOT OVEN GLOVE DOUBLE
['RED RETROSPOT OVEN GLOVE', 'GINGHAM OVEN GLOVE RED HEART', 'TEA TIME OVEN GLOVE', 'ROSE DU SUD OVEN GLOVE', 'DOUBLE CERAMIC PARLOUR HOOK']


In [69]:
exemplo2= arquivo.Description[8385]
print(exemplo2)
print(recomendarPorDescricao(exemplo2))

CHRISTMAS TREE HEART DECORATION
['CHRISTMAS TREE STAR DECORATION', 'CHRISTMAS TREE DECORATION WITH BELL', 'BIRD BOX CHRISTMAS TREE DECORATION', 'HEART WOODEN CHRISTMAS DECORATION', 'CHRISTMAS GINGHAM TREE']
