In [None]:
import numpy as np
import pandas as pd
import time
from stop_words import get_stop_words

from sqlalchemy import create_engine
engine = create_engine('postgres://pass_culture:passq@localhost:5434/pass_culture?sslmode=prefer')
connection = engine.connect()

import sklearn
from sklearn.feature_extraction.text import TfidfVectorizer
#from sklearn.metrics.pairwise import cosine_similarity
from sklearn.metrics.pairwise import linear_kernel

### On récupère les offres achetées par les utilisateurs

In [None]:
debut = time.time()
offres_achetees = pd.read_sql_query("""SELECT booking."userId" as user_id, stock."offerId" as offer_id, type, description, offer.name 
                       FROM booking 
                       LEFT JOIN stock ON booking."stockId" = stock.id 
                       LEFT JOIN offer ON stock."offerId"=offer."id"
                       WHERE booking."isUsed"=True AND booking."isCancelled"=False 
                       AND offer.type!='EventType.ACTIVATION' AND offer.type != 'ThingType.ACTIVATION'
                       """, connection)

fin = time.time()
temps = (fin - debut)/60
print(temps)

In [None]:
offres_achetees

In [None]:
offres_achetees['offer_id'].nunique()

### On ne garde que les offres ayant une description et qui de plus ont plus de 600 caractères 

In [None]:
offres_achetees = offres_achetees[offres_achetees['description'].notnull()]
offres_achetees = offres_achetees[offres_achetees['description'].map(len) > 600]

In [None]:
offres_achetees = offres_achetees.reset_index()

In [None]:
offres_achetees

In [None]:
offres_achetees['offer_id'].nunique()

### On calcule le TF-IDF des offres 

In [None]:
debut = time.time()

vectorizer = TfidfVectorizer(analyzer='word', \
                     stop_words=get_stop_words('french'), \
                     strip_accents = 'ascii', \
                     lowercase = True)

tfidf_matrice = vectorizer.fit_transform(offres_achetees['description'])

fin = time.time()
temps = (fin - debut)/60
print(temps)

### On calcule la sililarité entre les offres

In [None]:
debut = time.time()

#Linear kernel = cosine_similarity quand on a une très grande quantité de données (linear kernel est plus rapide)
cosinus_similarite = linear_kernel(tfidf_matrice, tfidf_matrice)

fin = time.time()
temps = (fin - debut)/60
print(temps)

### On récupère pour chaque offre, les offres qui sont similaires

In [None]:
debut = time.time()

resultat = {} #Dictionnaire pour les résultats sous la forme (offer_id : (Score, offer_id))

#On itère sur toutes les lignes
#Pour chaque ligne, on cherche les scores les plus élevés et on les trie par ordre decroissant 
#On récupère les ids des offres et on les mets dans résulat
for idx, ligne in offres_achetees.iterrows(): 
    indices_similaire = cosinus_similarite[idx].argsort()[:-6:-1] 
    offres_similaires = [(cosinus_similarite[idx][i], offres_achetees['offer_id'][i]) for i in indices_similaire]
    resultat[ligne['offer_id']] = offres_similaires[1:]
  
fin = time.time()
temps = (fin - debut)/60
print(temps)

In [None]:
debut = time.time()

#On récupère le nom de l'offre 
def nom(id):
    return offres_achetees.loc[offres_achetees['offer_id'] == id]['name'].tolist()[0]

#On récupère la description de l'offre
def description(id): 
    return offres_achetees.loc[offres_achetees['offer_id'] == id]['description'].tolist()[0]

#On récupère l'id de l'offre 
def offer_id(id): 
    return offres_achetees.loc[offres_achetees['offer_id'] == id]['offer_id'].tolist()[0]    

#On récupère 'num' offres similaires à notre offre id
def similaire(id, num):
    if (num == 0):
        print("Impossible de recommander une offre car vous n'avez pas choisi le nombre d'offres à recommander")
    
    else :
        print("On recommande " + str(num) + " offres similaires à " + nom(id) + " \n" + "Description : \
" + description(id) + "\n" + "Id : " + str(offer_id(id)))
        print("\n" + "###########################################################################################")
        
    recs = resultat[id][:num]
    recs = list(set(recs)) #Pour supprimer les doublons
    for rec in recs:
        print(" \n Vous aimeriez aussi l'offre : " + nom(rec[1]) + " (score: %.3f" % rec[0] + ") \n" + "Description : \
" + description(rec[1]) + "\n" + "Id : " + str(offer_id(rec[1])))
        print("\n" + "###########################################################################################")
        
fin = time.time()
temps = (fin - debut)/60
print(temps)

### Très bon exemple d'offre :
- Michael Jackson : id = 188929
- Dictionnaire : id = 314706

In [None]:
id_offre = 188929
similaire(id_offre, 4)

### On récupère le vecteur TF-IDF d'une offre

In [None]:
#Vecteur de l'offre ["index"]
index = offres_achetees[offres_achetees['offer_id']==id_offre].index[0]
tfidf_de_loffre = tfidf_matrice[index]

print("L'offre a pour titre : ", offres_achetees['name'][index], "\n" )

#On met les tf-idf dans un dataframe
df_tfidf = pd.DataFrame(tfidf_de_loffre.T.todense(), index = vectorizer.get_feature_names(), columns=["tfidf"])
df_tfidf = df_tfidf.sort_values(by=["tfidf"], ascending=False)
print(df_tfidf.head(20))

In [None]:
#Tous les mots 
print('Tous les mots présents dans la description : ')
tfidf_mots_description = vectorizer.get_feature_names()
print(tfidf_mots_description)

In [None]:
len(tfidf_mots_description)