## PROJET PYTHON POUR LA DATA SCIENCE 2022 💻

## THEME : ANALYSE DES AVIS DES STAGIAIRES ET EMPLOYES DE SOCIETE GENERALE TRANSMIS VIA LA PLATEFORME INDEED.COM ENTRE 2012 ET 2022  

## Auteurs:
* TALEB AHMED Raja
* MAGAJIE WAMSA Berthe Magella
* RENE Léo

## Scrapping des avis sur Indeed.com

Le but de cette partie est de récupérer par webscrapping les données devant servir à notre analyse. Il s'agit notamment des retours d'expérience et commentaires des employés et stagiaires de SOCIETE GENERALE, transmis via la plateforme Indeed.com entre 2012 et 2022.

Pour récupérer nos données sur le site Indeed, nous utilisons le package Selenium, étant donné que le site web n'est pas statique. Le pilote Web utilisé est Chrome.

In [1]:
# Installation des packages utiles
!pip install selenium
!pip install datefinder

Collecting selenium
  Downloading selenium-4.7.2-py3-none-any.whl (6.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m6.3/6.3 MB[0m [31m15.3 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
Collecting trio~=0.17
  Downloading trio-0.22.0-py3-none-any.whl (384 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m384.9/384.9 kB[0m [31m19.2 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting trio-websocket~=0.9
  Downloading trio_websocket-0.9.2-py3-none-any.whl (16 kB)
Collecting exceptiongroup>=1.0.0rc9
  Downloading exceptiongroup-1.0.4-py3-none-any.whl (14 kB)
Collecting async-generator>=1.9
  Downloading async_generator-1.10-py3-none-any.whl (18 kB)
Collecting outcome
  Downloading outcome-1.2.0-py2.py3-none-any.whl (9.7 kB)
Collecting wsproto>=0.14
  Downloading wsproto-1.2.0-py3-none-any.whl (24 kB)
Collecting h11<1,>=0.9.0
  Downloading h11-0.14.0-py3-none-any.whl (58 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m58.3/58.3 kB[

In [2]:
#Importation des librairies utiles
from selenium import webdriver
from selenium.webdriver.common.by import By
import time
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

Pour récupérer les commentaires par pays, nous avons ouvert individuellement les pages correspondantes. Trois fichiers .txt ont été créés pour contenir les données récupérées par scrapping pour chaque pays : **SG-FR.txt** pour la France, **SG-US.txt** pour les US et **SG-IN.txt** pour l'Inde.  

In [37]:
# Ouverture du site Indeed et des pages correspondant aux trois pays en utilisant chromedriver
sites=['https://fr.indeed.com/cmp/Soci%C3%A9t%C3%A9-G%C3%A9n%C3%A9rale-1/reviews?fcountry=FR', 'https://fr.indeed.com/cmp/Soci%C3%A9t%C3%A9-G%C3%A9n%C3%A9rale-1/reviews?fcountry=US' , 'https://fr.indeed.com/cmp/Soci%C3%A9t%C3%A9-G%C3%A9n%C3%A9rale-1/reviews?fcountry=IN']
# Ouverture en écriture des fichiers devant contenir les données scrappées
fichierFR = open("SG-FR.txt", "w", encoding="utf-8")
fichierUS = open("SG-US.txt", "w", encoding="utf-8")
fichierIN = open("SG-IN.txt", "w", encoding="utf-8")
fichiers = [fichierFR,fichierUS, fichierIN]

WebDriverException: Message: Service chromedriver unexpectedly exited. Status code was: 127


**IMPORTANT:** Nous avons chargé le chromedriver (pilote) sur Github et il est disponible à l'url suivante: https://github.com/BertheMagella/Projet_Python_pour_la_Data_Science/blob/main/chromedriver.exe

Cependant, ce pilote ne peut s'exécuter que s'il est dans le même dossier que l'exécutable du notebook. Il est à cet effet recommandé de télécharger ce pilote, de le mettre dans le même dossier que l'exécutable de ce notebook et enfin de mettre à jour le chemin d'accès du pilote (driver_path).

In [3]:
# Ouverture du site Indeed en utilisant Chromedriver et scrapping
driver=webdriver.Chrome('chromedriver')

for j in range(len(sites)):
    driver.get(sites[j])
    if j == 0 :
        # autoriser cookies
        cookies_xpath = '//*[@id="onetrust-accept-btn-handler"]'
        driver.find_element(By.XPATH, cookies_xpath).click()
    
    fichier = fichiers[j]
    from selenium.webdriver.remote.errorhandler import NoSuchElementException
    i = 1
    while (True):
        xpath = '//*[@id="cmp-container"]/div/div[1]/main/div[2]/div[1]/div/div[' + str(i) + ']'
        try :
            metier = driver.find_element(By.XPATH, xpath)
            fichier.write(metier.text+ 2*'\n')
        
            sep = 10*'#'
            fichier.write(sep + 2*'\n')
            i=i+1
        
        except NoSuchElementException :
            
            buttons = driver.find_elements(By.XPATH, '//*[@id="cmp-container"]/div/div[1]/main/div[2]/div[1]/div/nav/ul/li')
            if buttons[-1].text == 'Suivant':
                buttons[-1].click()
               
            else :
                break
            time.sleep(20)
            i=1
            
    fichier.close()
    

WebDriverException: Message: Service chromedriver unexpectedly exited. Status code was: 127


## Création et mise en forme de la base de données 

Dans cette partie, un dataframe est constitué à partir des données scrappées et stockées au préalable dans les fichiers **SG-FR.txt**, **SG-US.txt** et **SG-IN.txt** ; la base de données ainsi construite comporte 2520 lignes/observations pour 8 variables que sont  **'country'** qui renferme le pays concerné (France, US ou Inde), **'rating'** qui renferme les notes attribuées (sur 5), **'contract'** pour le type de contrat(Stage, cdd, cdi),  **'is_employed'** qui prend la valeur "True" si l'individu travaille au sein de la SG au moment du commentaire et "False" sinon, **'job'** pour le poste occupé, **'city'** pour le lieu de travail (la ville) , **'date'** pour la date de publication du commentaire et **'comment'** pour les commentaires.

In [None]:
def find_date(text):
    months = ['janvier ', 'février ', 'mars ', 'avril ', 'mai ', 'juin ', 'juillet ', 'août ', 'septembre ', 
              'octobre ', 'novembre ', 'décembre ']

    for month in months:
        index = text.rfind(month)
        if index == -1:
            continue
            
        else :
            year =  text[index + len(month) :]
            year = year.strip(' ')
            assert year.isdigit() and len(year)==4 , f"{year} doit être une année"
            return int(year)
        
    return None


def find_contract(text):
    text = text.casefold()
    for contract in ['cdi', 'cdd']:
        if contract in text:      
            return contract
        
    for contract in ['stage', 'stagiaire', 'internship', 'intern']:
        if contract in text:      
            return 'stage'
        
    return None

In [None]:
df = pd.DataFrame(columns= ['Country', 'rating', 'contract', 'is_employed', 'job', 'city', 'date', 'comment'])
pays = ['France', 'US', 'Indie']
paths = ["SG-FR.txt","SG-US.txt", "SG-IN.txt"]
for j in range(len(paths)):
    fichier = open(paths[j], 'r', encoding="utf-8")
    
    text = fichier.read()
    parts = text.split('\n##########\n\n')
    errors = {
        'rating': [],
        'job_city_date': []        
    }
    
    for avis in parts:
        new_row = {}
        avis_par_ligne = avis.split('\n')
        i = 0
        
        # recherche du rating
        
        rating = avis_par_ligne[i]
        # convertir par example '3,0' à 3.0
        rating = rating.replace(',', '.')
        
        try:
            # si la première ligne correspond à un classement, on l'enregistre
            rating = float(rating)

            # passage à la ligne suivante
            i+=1
            
        except ValueError:
            errors['rating'].append(avis)
            continue
            
        # recherche de la ligne contenant le poste la ville et la date de l'avis 
        # en cherchant chaque fois le contrat de l'employé
        contract = None
        no_date = True
        # tant qu'une date n'a pas été détectée on passe à la ligne suivante
        while(no_date and i<len(avis_par_ligne)):
            
            job_city_date = avis_par_ligne[i]
            year = find_date(job_city_date)
            # si aucune date est détectée find_date renvoie None
            no_date = year is None
              
            contract = contract or find_contract(job_city_date)
            i+=1
            
        # si aucune date n'a été trouvé. Il ne s'agit peut être pas d'un avis
        if no_date:
            errors['job_city_date'].append(avis)
            continue
        else :
            
            mark1 = '(employé actuel)'
            mark2 = '(ancien employé)'

            is_employed = mark1 in job_city_date

            mark = mark1 if is_employed else mark2
            index = job_city_date.find(mark)
            
            job = job_city_date[:index].strip(' ')
            
            city = '-'.join(job_city_date[index:].split('-')[1:-1]).strip(' ')
            
        comment = ''
        while avis_par_ligne[i] in ['Avis à la une', "L'avis le plus utile, sélectionné par Indeed"]:
            i+=1
            
            
        while i<len(avis_par_ligne) and  avis_par_ligne[i]!= 'Avez-vous trouvé cet avis utile ?':
        
            comment += avis_par_ligne[i] + '\n'
            i+=1
            
        new_row = {
            'Country': pays[j],
            'rating': rating,
            'contract': contract,
            'is_employed': is_employed,
            'job': job,
            'city': city,
            'date': year,    
            'comment': comment
        } 
        df = df.append(new_row, ignore_index=True)
    fichier.close()

In [None]:
#suppression de la redondance
df.drop_duplicates(inplace=True, ignore_index=True)

In [None]:
df.head(6)

In [None]:
df.to_csv(r'Database.csv', index=False, header=True)

In [None]:
pd.read_csv(r'Database.csv')