# PROJET PYTHON POUR LA DATA SCIENCE 2022

# THEME : ANALYSE DES AVIS DES STAGIAIRES ET EMPLOYES DE SOCIETE GENERALE TRANSMIS VIA LA PLATEFORME INDEED.COM ENTRE 2012 ET 2022  

## Auteurs:
* TALEB AHMED Raja
* MAGAJIE WAMSA Berthe Magella
* RENE Léo

## ANALYSE DE DONNEES ET NATURAL LANGUAGE PROCESSING (NLP)

### INTRODUCTION

  ### Contexte et Justification du projet

  Société Générale est l'un des tout premiers groupes européens de services financiers et acteur important de l’économie depuis plus de 150 ans. Au quotidien, 25 millions de clients sont accompagnés grâce à ses plus de 117 000 collaborateurs répartis dans 66 pays. Le groupe Société Générale se positionne en partenaire de confiance pour ses clients, engagé dans le développement durable de l’Afrique, ou bien encore pour l'accompagnement de la transition écologique mondiale. Quatre principales valeurs y sont partagées selon le site officiel du groupe : Esprit d’équipe, Innovation, Responsabilité, Engagement (https://www.societegenerale.com/fr/le-groupe-societe-generale/identite/presentation).  
  
  L’ENSAE Paris a noué des partenariats structurants avec des entreprises visant à améliorer leur visibilité auprès des élèves et à favoriser l’émergence des projets communs. Société Générale fait partie de ces partenaires prestigeux. Avec plus de 600 métiers dans le monde, l’entreprise recrute en effet des talents dans de nombreux secteurs : risques, IT, data, consulting interne, etc. Pour les étudiants ou jeunes diplômés curieux et motivés par les défis d’une grande banque, il s'agirait du cadre adéquat; aussi, sa promesse est d'offrir à tout employé un environnement dans lequel il s'épanouie en développant son potentiel (https://www.ensae.fr/entreprises/devenir-partenaire-de-lensae-paris/nos-partenaires).
  
  Indeed est une plateforme de recherche d'emplois qui permet aux employeurs de publier des offres et aux personnes en quête d'emplois de postuler; aussi des avis sur les entreprises y sont transmis, faisant office de retour d'expérience. Ces avis, s'ils sont bien exploités, peuvent être utiles non seulement aux chercheurs d'emplois dans leur quête, mais aussi aux entreprises pour l'amélioration du quotidien de leurs employés. 

  ### Objectifs
  
L'objectif général de ce projet est d'évaluer la Société Générale au travers des retours d'expériences et avis de ceux qui y ont travaillé et ceux qui y travaillent encore. Plus spécifiquement, il s'agit de:
   * Décrire les avis transmis sur Indeed selon plusieurs critères;
   * Présenter un niveau d'appréciation global;
   * Ressortir les préoccupations les plus fréquentes;
   * Analyser les potentiels facteurs qui influencent le niveau d'appréciation des employés et stagiaires. 

  ### Méthodologie du projet

Afin d'atteindre les objectifs énoncés ci-dessus, nous avons utilisé les méthodes suivantes:

   - Web-Scrapping :
Pour constituer notre base de données, nous avons extrait des données structurées sur le Web de manière automatisée; autrement dit, nous avons usé du webscrapping sur le site Indeed.com.

   - NLP (Natural Language Processing):
C'est une méthode à l’intersection du Machine Learning et de la linguistique ayant pour but d'extraire de l'information et une signification d’un contenu textuel. Nous l'avons utilisée ici pour effectuer de la detection des langues dans les commentaires, les wordclouds, l'analyse sentimentale ainsi que la detection des différentes aspects les plus abordés dans les commentaires (topic modeling).



### ANALYSE DESCRIPTIVE DES DONNEES

In [4]:
# Importation des packages utiles
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sbn

In [5]:
# Importation de la base de données
df = pd.read_csv("Database.csv",sep=",")

In [38]:
# Description de la base de données
print("Il y a", len(df), "individus dans notre base de données.")
print(df.columns)
df.sample(3)

Il y a 2520 individus dans notre base de données.
Index(['Country', 'rating', 'contract', 'is_employed', 'job', 'city', 'date',
       'comment', 'langues'],
      dtype='object')


Unnamed: 0,Country,rating,contract,is_employed,job,city,date,comment,langues
204,France,4.0,stage,0,Stage Juriste Contentieux,Cergy,2021,Très belle expérience avec les collaborateurs....,fr
1905,US,1.0,,1,IT Manager,"New york, ny",2019,You can learn many things like other companies...,en
1410,France,3.0,,0,Chargé d'accueil,Vaugirard,2016,"Environnement de travail agréable, une équipe ...",fr


Notre base de données contient 2520 lignes qui représentent les individus et 8 colonnes qui sont nos variables que sont : **'country'** qui renferme le pays concerné (France, US ou Inde), **'rating'** qui renferme les notes attribuées (sur 5), **'contract'** pour le type de contrat(Stage, cdd, cdi),  **'is_employed'** qui prend la valeur 1 si l'individu travaille au sein de la SG au moment du commentaire et 0 sinon, **'job'** pour le poste occupé, **'city'** pour le lieu de travail (la ville) , **'date'** pour l'année de publication du commentaire et **'comment'** pour les commentaires.

In [11]:
df['rating'].describe()

count    2520.000000
mean        3.806746
std         1.089283
min         1.000000
25%         3.000000
50%         4.000000
75%         5.000000
max         5.000000
Name: rating, dtype: float64

La plus petite note attribuée est 1 et la plus grande est 5 (Evaluation sur 5). En moyenne, la SG est appréciée par ceux qui y ont travaillé (ou qui y travaillent) avec une note de  de 3,8.B 

In [17]:
#Effectifs pour chaque modalité de la variable rating 
df['rating'].value_counts()

4.0    985
5.0    738
3.0    501
2.0    164
1.0    132
Name: rating, dtype: int64

In [20]:
#Effectifs pour chaque modalité de la variable contract 
print(df['contract'].count())
df['contract'].value_counts()

237


stage    210
cdd       21
cdi        6
Name: contract, dtype: int64

Seuls 237 individus de notre base ont précisé leur contrat de travail au sein de la SG et ce sont en grande majorité des stagiaires.

In [42]:
#Effectifs pour chaque modalité de la variable is_employed
df['is_employed'].value_counts()

0    1885
1     635
Name: is_employed, dtype: int64

Les individus ne travaillant plus au sein de la SG au moment du commentaire sont trois fois plus nombreux que ceux en emploi à ce moment.

In [45]:
df[df.city == 'Cergy']
df[df.city.str.contains('New')].head(10)

ValueError: Cannot mask with non-boolean array containing NA / NaN values

### VISUALISATION DES DONNEES

### NATURAL LANGUAGE PROCESSING (NLP)

In [30]:
#Installation des packages nécessaires

!pip install langdetect 
!pip install wordcloud
!pip install nltk
!pip install  gensim
!pip install vaderSentiment
!pip install textblob
!pip install vaderSentiment-fr
!pip install deep-translator
!pip install yellowbrick

Collecting langdetect
  Downloading langdetect-1.0.9.tar.gz (981 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m981.5/981.5 kB[0m [31m20.8 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25h  Preparing metadata (setup.py) ... [?25ldone
Building wheels for collected packages: langdetect
  Building wheel for langdetect (setup.py) ... [?25ldone
[?25h  Created wheel for langdetect: filename=langdetect-1.0.9-py3-none-any.whl size=993225 sha256=97b5576bfa6fef97b8fd7c192e310f0424067462bfb8f993a34c6a0695430f1f
  Stored in directory: /home/onyxia/.cache/pip/wheels/c4/16/af/1889804d8b7c0c041cadee8e29673a938a332acbf2865c70a1
Successfully built langdetect
Installing collected packages: langdetect
Successfully installed langdetect-1.0.9
Collecting wordcloud
  Downloading wordcloud-1.8.2.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (458 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m458.9/458.9 kB[0m [31m12.3 MB/s[0m eta [36m0:00:00[

In [31]:
#Importation des librairies nécessaires

from langdetect import detect # pour détecter les langues
import sklearn as sk
from wordcloud import WordCloud # pour gérer les nuages de mots
from deep_translator import GoogleTranslator 

#stopword français
import nltk
from nltk.corpus import stopwords 
nltk.download('stopwords') 

# stopword anglais
import gensim 
from gensim.parsing.preprocessing import STOPWORDS 

#from gensim import corpora

from PIL import Image # pour personaliser la forme du wordcloud

# Pour l'analyse des sentiments
nltk.download('punkt')
nltk.download('vader_lexicon')
from nltk.sentiment.vader import SentimentIntensityAnalyzer as SenEN
analyzer = SenEN()

#Pour les classements des mots les plus fréquents
from sklearn.feature_extraction.text import CountVectorizer
from yellowbrick.text.freqdist import FreqDistVisualizer
from yellowbrick.style import set_palette

[nltk_data] Downloading package stopwords to /home/onyxia/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package punkt to /home/onyxia/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package vader_lexicon to
[nltk_data]     /home/onyxia/nltk_data...


#### Détection des langues

In [35]:
# Fonction pour détecter les langues utilisées
def language_detection(text):
    try:
        return detect(text)
    except:
        return None


In [36]:
df['langues']=df['comment'].apply(language_detection)
print(f"Les commentaires sont rédigés en {len(df.langues.unique())} langues")
df['langues'].value_counts()

Les commentaires sont rédigés en 7 langues


fr    1733
en     776
es       5
pt       3
it       1
tr       1
sl       1
Name: langues, dtype: int64

In [37]:
df.head()

Unnamed: 0,Country,rating,contract,is_employed,job,city,date,comment,langues
0,France,3.0,cdd,0,Conseillère clientèle,Massy,2022,"Bonne équipe, dommage que la direction soit bl...",fr
1,France,5.0,,0,Responsable,Falaise,2022,"Équipe au top, l'esprit d'équipe fait la force...",fr
2,France,4.0,,0,Compliance Officer,Nanterre,2022,"Bonne ambiance, bonne équipe, bon relationnel,...",fr
3,France,5.0,,0,Assistante administrative,Saint-dié-des-vosges,2022,"Missions variées, solidarité dans l’équipe et ...",fr
4,France,4.0,,0,Chargée de communication,La défense,2022,Première expérience professionnelle durant 3 a...,fr
