# Algorithme de recommandation V1 

### Dataset Entreprises : Kompass

### Dataset Projets : Projets de Globedreamers


In [1]:
#Import des librairies 
import pandas as pd
import numpy as np
import json

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import linear_kernel, euclidean_distances, manhattan_distances

from nltk.corpus import stopwords
import string

# Recommandation projets

In [None]:
# Chargement du fichier excel
df_projets = pd.read_excel("../Data/Projets/Liste-des-projets.xlsx")

### Exploration des données

In [None]:
df_projets_clean = df_projets[df_projets.columns[:-8]]

df_projets_clean

In [None]:
# Visualisation de la distribution des différents types de projets
df_projets_clean.Engagement.value_counts().compress(lambda s: s>=1).plot(kind='bar') 

In [None]:
# Supp les carac invalides
df_projets_clean['Résumé'] = df_projets_clean.loc[:, 'Résumé'].replace(regex=True, to_replace="\xa0", value="").replace(regex=True, to_replace="\n", value="").replace(regex=True, to_replace="\r", value="")

In [None]:
# Mets en majuscule tous les sponsors 
df_projets_clean['Sponsors'] = df_projets_clean['Sponsors'].str.upper()

### Algo de recommandation basé sur le résumé de chaque projet 

In [None]:
# Si jamais on a des données NA on les remplace par ''
#df_projets_clean.presentation = df_projets_clean.Résumé.fillna('')

# Récupère la liste de stopwords français de NLTK
stop_words = stopwords.words('french')
# Ajoute la ponctuation dans la liste de stopwords
stop_words.extend(list(string.punctuation))

# Tokenize nos données et retire les stopwords
tfidf_projet = TfidfVectorizer(stop_words=stop_words) 

# Applique les TF-IDF pour représenter les données
tfidf_matrix_projets = tfidf_projet.fit_transform(df_projets_clean.Résumé) 

tfidf_matrix_projets.shape 

In [None]:
# Map les titres des projets avec les index
indices = pd.Series(df_projets_clean.index, index=df_projets_clean.Titre) 

In [None]:
def get_recommendations_projets(resume, distance):
    '''
    Retourne le titre et le sponsor du projet le plus similaire 
    Prend en parametre des données textuelles et une mesure de distance
    '''
    
    resume = [resume]
    
    # vectorize les données grâce aux TF-IDF appris sur les résumés des projets 
    new_tfidf_matrix_projets = tfidf_projet.transform(resume)
    
    if distance == "euclidean":
        distance_sim_projet = euclidean_distances(new_tfidf_matrix_projets, tfidf_matrix_projets) 
    elif distance == "cosin":
        # calcul d'angles entre les vecteurs TF-IDF de chaque résumé pour trouver les résumés similaires
        distance_sim_projet = linear_kernel(new_tfidf_matrix_projets, tfidf_matrix_projets)   
    elif distance == "manhattan":
        distance_sim_projet = manhattan_distances(new_tfidf_matrix_projets, tfidf_matrix_projets) 
    else :
        print("Mauvaise mesure de distance")
        return
    
    sim_max = distance_sim_projet.max()
    
    # récupère l'index des résumés ayant le score de similarité le plus élevé 
    index = np.where(distance_sim_projet == sim_max)
    
    projet_titre = df_projets_clean.Titre.at[index[1][0]]
    projet_sponsor = df_projets_clean.Sponsors.at[index[1][0]]

    return projet_titre, projet_sponsor

In [None]:
resume_projet = "Voyage centré sur la protection de la faune sauvage pour sensibiliser les populations"
projet, sponsor = get_recommendations_projets(resume_projet,"cosin")
print(projet," | ", sponsor)

# Recommandation entreprises

#### Problème lié au dataset :
    - Rajouter une virgule entre chaque document json et encapsuler le tout avec des "[]"
    - Pour l'encodage convertir en ANSI

In [None]:
# données d'entreprises sur les secteurs assurance et voyage
with open("../Data/Entreprises/globedreamersAssuranceVoyage.json") as datafile:
    data = json.load(datafile)
df_assurance_voyages = pd.DataFrame(data)
df_assurance_voyages['category'] = 'Assurance_Voyage'
print(df_assurance_voyages.shape)

# données d'entreprises sur 9 autres secteurs
with open("../Data/Entreprises/globedreamersDataset.json") as datafile:
    data = json.load(datafile)
df_entreprise = pd.DataFrame(data)
print(df_entreprise.shape)

In [None]:
df = pd.concat([df_entreprise, df_assurance_voyages], sort=True)
df = df.reset_index()
df = df.drop(['index'], axis=1)
df.tail()

In [None]:
# visualisation de la distribution des entreprises par secteur
df.category.value_counts().compress(lambda s: s>=1).plot(kind='bar') 

In [None]:
# Certaines entreprises sont présente dans plusieurs secteurs 
df[df.title == "SODEXO JUSTICE SERVICES"]

In [None]:
# On supp tous les doublons d'entreprises 
df_clean = df.drop_duplicates(subset='title', keep="first") 
df_clean = df_clean.reset_index(drop=True)
df_clean.shape

In [None]:
 # Supp les carac invalides
df_clean['presentation'] = df_clean.loc[:, 'presentation'].replace(regex=True, to_replace="\xa0", value="").replace(regex=True, to_replace="\n", value="").replace(regex=True, to_replace="\r", value="")

In [None]:
# Clean la variable capital
df_clean['capital'] = df_clean.loc[:, 'capital'].replace(regex=True, to_replace="\"", value="").replace(regex=True, to_replace="EUR", value="").replace(regex=True, to_replace="CHF", value="").replace(regex=True, to_replace="\s", value="")

if 'capital' in df_clean.columns:
    for i in range((len(df_clean.capital))):
        if df_clean.capital.at[i] != '' and pd.isnull(df_clean.capital.at[i]) == False and not int:
            df_clean.capital.at[i] = int(df_clean.capital.at[i])

In [None]:
# même processus que pour les projets
df_clean.presentation = df_clean.presentation.fillna('')
stop_words = stopwords.words('french')
stop_words.extend(list(string.punctuation))

# Tokenize les données et retire les stopwords
tfidf = TfidfVectorizer(stop_words=stop_words) 

# Applique les TF-IDF pour représenter les données
tfidf_matrix_entreprise = tfidf.fit_transform(df_clean.presentation) 

tfidf_matrix_entreprise.shape 

In [None]:
# Map les titres des entreprises avec les index
indices = pd.Series(df_clean.index, index=df_clean.title) 

In [None]:
def get_recommendations_entreprises(title, distance):
    '''
    Retourne une dataframe avec la liste des entreprises recommandées
    Prend en paramètre le titre d'une entreprise et la mesure de distance
    '''
    
    # recup les index du titre grace au map juste avant
    idx = indices[title]
    
    if distance == "euclidean":
        distance_sim_entreprise = euclidean_distances(tfidf_matrix_entreprise, tfidf_matrix_entreprise) 
    elif distance == "cosin":
        # calcul d'angles entre les vecteurs TF-IDF de chaque présentation pour trouver les présentations similaires
        distance_sim_entreprise = linear_kernel(tfidf_matrix_entreprise, tfidf_matrix_entreprise)   
    elif distance == "manhattan":
        distance_sim_entreprise = manhattan_distances(tfidf_matrix_entreprise, tfidf_matrix_entreprise) 
    else :
        print("Mauvaise mesure de distance")
        return

    # recup les scores de similarité de tous les autres entreprises par rapport a celle en paramètre
    sim_scores = list(enumerate(distance_sim_entreprise[idx]))

    # trie les entreprises par score
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)

    # top 10 des plus similaires (le 1er est forcement lui meme donc on commence à l'index 1)
    sim_scores = sim_scores[1:11]

    # recup les index des entreprises avec les meilleurs score
    idx_entreprises = [i[0] for i in sim_scores]

    return df_clean.title.iloc[idx_entreprises].reset_index(drop = True)

In [None]:
tab = get_recommendations_entreprises(sponsor,"cosin")

dfdf = pd.DataFrame({"Entreprises_recommandées" : tab})
dfdf

In [None]:
def get_recommendation_global(resume,distance_):
    projet, sponsor = get_recommendations_projets(resume,distance_)
    print("** Projet le plus similaire : ",projet)
    print("** Son sponsor : ",sponsor),print()
    print("** Recommandation à partir de : ",sponsor),print()
    l_entreprises = get_recommendations_entreprises(sponsor,distance_)
    dfdf = pd.DataFrame({"Entreprises_recommandées" : l_entreprises})
    return dfdf

In [None]:
resume_projet = "Nous souhaitons à travers des photos mettre en avant le sens d'humanité à l'état brut, comprendre la nouvelle vie pour ces personnes qui y trouvent harmonie, et nous en inspirer. Nous souhaitons passer du temps avec ces gens, apprendre de leur choix de vie et de liberté, et le partager par le biais de nos photographies."
print("** Nouveau projet :"),print(resume_projet), print()
df_reco = get_recommendation_global(resume_projet,"cosin")
df_reco