# Algorithme de recommandation V2

### Dataset Entreprise : Kompass

### Dataset Projets : Projets de Globedreamers


In [1]:
import pandas as pd
import numpy as np
import json

from sklearn.preprocessing import OneHotEncoder

from sklearn.metrics.pairwise import linear_kernel, euclidean_distances, manhattan_distances

import string

# Importation des projets

In [None]:
df_projets = pd.read_excel("../Data/Projets/Liste-des-projets.xlsx")

### Exploration des données

In [None]:
df_projets_clean = df_projets[df_projets.columns[:-7]]

df_projets_clean

In [None]:
# Visualisation de la distribution des différents types de projets
df_projets_clean.Engagement.value_counts().compress(lambda s: s>=1).plot(kind='bar') 

In [None]:
# Supp les carac invalides
df_projets_clean['Résumé'] = df_projets_clean.loc[:, 'Résumé'].replace(regex=True, to_replace="\xa0", value="").replace(regex=True, to_replace="\n", value="").replace(regex=True, to_replace="\r", value="")

In [None]:
#Mets en majuscule les sponsors et les catégories
df_projets_clean['Sponsors'] = df_projets_clean['Sponsors'].str.upper()
df_projets_clean['Category'] = df_projets_clean['Category'].str.upper()

# Recommandation entreprises

#### Problème lié au dataset :
    - Rajouter une virgule entre chaque document json et encapsuler le tout avec des "[]"
    - Pour l'encodage convertir en ANSI

In [None]:
# données d'entreprises sur les secteurs assurance et voyage
with open("../Data/Entreprises/globedreamersAssuranceVoyage.json") as datafile:
    data = json.load(datafile)
df_assurance_voyages = pd.DataFrame(data)
df_assurance_voyages['category'] = 'Assurance_Voyage'
print(df_assurance_voyages.shape)

# données d'entreprises sur 9 autres secteurs
with open("../Data/Entreprises/globedreamersDataset.json") as datafile:
    data = json.load(datafile)
df_entreprise = pd.DataFrame(data)
print(df_entreprise.shape)

In [None]:
df = pd.concat([df_entreprise, df_assurance_voyages], sort=True)
df = df.reset_index()
df = df.drop(['index'], axis=1)
df.tail()

In [None]:
# visualisation de la distribution des entreprises par secteur
df.category.value_counts().compress(lambda s: s>=1).plot(kind='bar') 

In [None]:
# On supp tous les doublons d'entreprises
df_clean = df.drop_duplicates(subset='title', keep="first") 
df_clean = df_clean.reset_index(drop=True)
df_clean.shape

In [None]:
# visualisation de la distribution des entreprises par secteur après nettoyage
df_clean.category.value_counts().compress(lambda s: s>=1).plot(kind='bar') 

In [None]:
# nettoyage des titres
for i in range((len(df_clean.title))):
    if df_clean.title.at[i] == '':
        df_clean.drop(df_clean.index[i], inplace=True)
df_clean = df_clean.reset_index(drop=True)

In [None]:
 # Supp les carac invalides
df_clean['presentation'] = df_clean.loc[:, 'presentation'].replace(regex=True, to_replace="\xa0", value="").replace(regex=True, to_replace="\n", value="").replace(regex=True, to_replace="\r", value="")

In [None]:
# Mets en majuscules les catégories
df_clean['category'] = df_clean['category'].str.upper()

In [None]:
# Clean la var capital
df_clean['capital'] = df_clean.loc[:, 'capital'].replace(regex=True, to_replace="\"", value="").replace(regex=True, to_replace="EUR", value="").replace(regex=True, to_replace="CHF", value="").replace(regex=True, to_replace="\s", value="")

if 'capital' in df_clean.columns:
    for i in range((len(df_clean.capital))):
        if df_clean.capital.at[i] != '' and pd.isnull(df_clean.capital.at[i]) == False and not int:
            df_clean.capital.at[i] = int(df_clean.capital.at[i])

In [None]:
import re

# nettoyage des adresses
for i in range((len(df_clean.adresse))):
        code_postal = re.search('(\S?\d{4})', df_clean.adresse.at[i]).group(1)
        df_clean.adresse.at[i] = code_postal[:2]
        df_clean.adresse.at[i] = int(df_clean.adresse.at[i])

In [None]:
# création d'une dataframe contenant uniquement les variables utiles
df_sim_param = pd.DataFrame({'code_postaux':df_clean.adresse.values,
                             'category':df_clean.category.values })
df_sim_param.shape

In [None]:
enc = OneHotEncoder(sparse=False)

# on encode les variables afin d'avoir une représentation vectorizé des données
oneHotEncoding_matrix_entreprise = enc.fit_transform(df_sim_param)

oneHotEncoding_matrix_entreprise.shape

In [None]:
# exemple
df_sim_param = pd.DataFrame({'code_postaux':[75],
                             'category':[df_projets_clean.Category.iloc[1]]})
# affiche un vecteur pour le code postal 75 et la catégorie BtoB
enc.transform(df_sim_param)

In [None]:
# Map les titres des entreprises avec les index
indices = pd.Series(df_clean.title, index=df_clean.index) 

In [None]:
def get_recommendations_entreprises(category, code_postal, distance):
    '''
    Retourne les indexes des entreprises à recommander 
    Prends en paramètre la catégorie, le code postal et la mesure de distance
    '''
    
    print(category,code_postal)

    
    df_sim_param = pd.DataFrame({'code_postaux':[code_postal],
                             'category':[category]})

    new_matrix_entreprise = enc.transform(df_sim_param)
    
    if distance == "euclidean":
        distance_sim_entreprise = euclidean_distances(new_matrix_entreprise, oneHotEncoding_matrix_entreprise) 
    elif distance == "cosin":
        # calcul d'angles entre les vecteurs TF-IDF de chaque présentation pour trouver les présentations similaires
        distance_sim_entreprise = linear_kernel(new_matrix_entreprise, oneHotEncoding_matrix_entreprise)   
    elif distance == "manhattan":
        distance_sim_entreprise = manhattan_distances(new_matrix_entreprise, oneHotEncoding_matrix_entreprise) 
    else :
        print("Mauvaise mesure de distance")
        return
    
    # recup les scores de similarité de tt les autres entreprises par rapport aux param
    sim_scores = list(enumerate(distance_sim_entreprise[0]))

    # trie les entreprises par score
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)

    # top 10 des plus similaires
    sim_scores = sim_scores[:11]

    # recup les index des entreprises avec les meilleurs score
    idx_entreprises = [i[0] for i in sim_scores]
    
    return idx_entreprises

In [None]:
idx_result = get_recommendations_entreprises(df_projets_clean.Category.iloc[1],75,"cosin")
list_result = indices[idx_result]
print(list(list_result))

## Sauvgarde

In [None]:
import pickle 

# Permet de sauvgarder les modèles nécaissaires pour le fonctionnement de l'algo avec l'API
save = 0
if save:
    pickle.dump(oneHotEncoding_matrix_entreprise,open("oneHotEncoding_matrix_entreprise.pkl","wb"))
    pickle.dump(enc,open("oneHotEncoding_model.pkl","wb"))
    pickle.dump(indices,open("indices_entreprise.pkl","wb"))

## Création de table dans la BDD

In [None]:
from sqlalchemy import create_engine

# Création de la table d'entreprise à partir de la dataframe d'entreprises
create_db = 0

if create_db:
    engine = create_engine("mysql://root:root@localhost:3306/Entreprise_GlobeDreamers?charset=utf8")
    #if you want to create a new table 
    df_clean.to_sql(name='Entreprise',con=engine,if_exists='fail',index=False) 