In [1]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import re
import requests
import pandas as pd

In [3]:
def job_offers_wtj(
        job_title: str = "data analyst",
        pages: int = 1
):
    """
    ---
    Web scraping WTJ
    ---
    Lance un navigateur et cr√©√©e un dataframe contenant les informations de
    chaque offre d'emploi pour un nombre de pages d√©finis sur le site
    Welcome To The Jungle.
    ---
    Param√®tres :
    - job_title: str : Le nom du m√©tier pour lequel rechercher des offres.
    - pages: int : Le nombre de pages sur lesquels rechercher les offres.
    ---
    Retourne :
    - Le df contenant les informations de toute les offres r√©cup√©r√©es.
    """
    # Instanciation de la liste contenant les liens pour les requ√™tes APIs.
    api_links = []
    # Lien de l'API de Welcome To The Jungle pour r√©cup√©rer les donn√©es.
    api_link = f"https://api.welcometothejungle.com/api/v1/organizations"
    job = job_title.lower().replace(" ", "+")
    # Instanciation du driver Firefox.
    driver = webdriver.Firefox()
    # Instanciation du dataframe final.
    full_df = pd.DataFrame()
    # Nom des colonnes √† garder dans le dataframe final.
    cols_to_keep = [
        "name",
        "salary_period",
        "experience_level",
        "apply_url",
        "contract_duration_min",
        "office.city",
        "office.address",
        "office.district",
        "office.latitude",
        "office.longitude",
        "office.zip_code",
        "profession.category.fr",
        "profession.name.fr"
        "name",
        "education_level",
        "application_fields.mode",
        "application_fields.name",
        "description",
        "organization.average_age",
        "organization.creation_year",
        "organization.default_language",
        "organization.description",
        "organization.industry",
        "organization.nb_employee",
        "contract_type",
        "salary_min",
        "salary_max",
        "education_level",
        "remote"
    ]
    try:
        for i in range(1, pages+1):
            url = f"https://www.welcometothejungle.com/fr/jobs?refinementList%5Boffices.country_code%5D%5B%5D=FR&query={job}&page={i}"
            # Ouvre chaque page sur le navigateur.
            driver.get(url)
            try:
                # R√©cup√®re le lien de chaque offre d'emploi sur la page.
                contents = WebDriverWait(driver, 20).until(
                    EC.presence_of_all_elements_located((By.CSS_SELECTOR, ".sc-6i2fyx-0.gIvJqh"))
                )
                for content in contents:
                    link = content.get_attribute("href")
                    end_link = re.findall(r"/companies(.+)", link)[0]
                    full_link = api_link + end_link
                    # Rajoute le lien de chaque offre √† la liste.
                    api_links.append(full_link)
            except Exception as e:
                print(f"Error scraping page {i} : {e}")
    finally:
        driver.quit()
    # Pour chaque lien de la liste, fait une requ√™te API et stocke les informations dans un dataframe.
    for link_ in api_links:
        r = requests.get(link_)
        df = pd.json_normalize(
            r.json()["job"]
        )
        full_df = pd.concat([full_df, df], ignore_index=True)
    # Instanciation de la liste des colonnes √† drop.
    cols_to_drop = [col for col in full_df.columns if col not in cols_to_keep]
    df = full_df.drop(columns=cols_to_drop)
    return df

In [13]:
df = job_offers_wtj("data analyst", 5)

In [14]:
from bs4 import BeautifulSoup
import pandas as pd
def clean_html(text):
    soup = BeautifulSoup(text, "html.parser")
    cleaned_text = soup.get_text(separator=" ")
    cleaned_text = cleaned_text.replace("\xa0", " ")
    return cleaned_text

df["description"] = df["description"].apply(clean_html)
df["organization.description"] = df["organization.description"].apply(clean_html)

In [6]:
df.to_csv("WTT_offers.csv")

In [16]:
df

Unnamed: 0,experience_level,contract_duration_min,apply_url,name,description,salary_period,education_level,salary_min,contract_type,salary_max,...,office.city,office.district,office.latitude,office.longitude,office.zip_code,organization.average_age,organization.creation_year,organization.default_language,organization.description,organization.industry
0,,,,Manager - Data & Analytics Engineering,The Data team at Welcome to the Jungle: Part o...,none,,,FULL_TIME,,...,Paris,Paris,48.866950,2.343140,75002,32,2015,en,Welcome to the Jungle‚Äôs mission is simple: to ...,"Media, Recruitment"
1,,,https://jobs.lever.co/margo-group/dfd990e5-a46...,Margo Analytics - Data Engineer - H/F,Margo Analytics est l'entit√© experte de Margo...,none,BAC_5,,FULL_TIME,,...,Paris,Paris,48.879700,2.323810,75008,30,2005,fr,"Plus qu‚Äôun simple groupe de conseil IT, MARGO ...","Software, IT / Digital"
2,,5,,Data Analyst Internship,"About the offer: Within your internship, you w...",none,,,INTERNSHIP,,...,Paris,Paris,48.876040,2.329760,75009,27,2020,fr,"Hyxos, c‚Äôest l‚Äôintelligence logicielle au serv...","Software, Connected Objects, Energy"
3,,,,Data Analyst,√ätre Data Analyst chez Wewyse c‚Äôest : Int√©gr...,none,,,FULL_TIME,,...,Paris,Paris,48.876000,2.336680,75009,31,2019,fr,"Wewyse est le cabinet de conseil de Wemanity, ...","Digital Marketing / Data Marketing, IT / Digit..."
4,LESS_THAN_6_MONTHS,5,https://matera.recruitee.com/o/data-analyst-st...,Data Analyst - Stage de 6 mois,Afin de mieux comprendre nos clients et leurs ...,none,BAC_5,1000,INTERNSHIP,1200,...,Paris,Paris,48.877120,2.314520,75008,30,2017,fr,"Matera r√©invente notre rapport au logement, en...","SaaS / Cloud Services, Commercial Real Estate,..."
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
147,,,https://recrutement.axa.fr/nos-offres-emploi/2...,Internship - Financial Data Analyst - (M/F) - ...,"Whatever their stage of life, we provide over ...",none,,,INTERNSHIP,,...,Puteaux,Hauts-de-Seine,48.877250,2.244160,92400,41,1985,fr,Avec 6 000 recrutements par an en France rejoi...,"Banking, Insurance, FinTech / InsurTech"
148,LESS_THAN_6_MONTHS,,https://www.aplitrak.com/?adid=Z2VuZXJhbC42ODE...,Consultant D√©butant Data Analyst en Financemen...,Vos challenges En collaboration avec l'√©quipe ...,yearly,BAC_5,,FULL_TIME,,...,Courbevoie,Hauts-de-Seine,48.896390,2.264910,,32,1922,fr,Premier cabinet pluridisciplinaire de France e...,"IT / Digital, Strategy, Audit, Corporate Suppo..."
149,5_TO_7_YEARS,,https://careers.flatchr.io/vacancy/gjqbwprwwg3...,Data Analyst Senior H/F,Finalit√© du poste : Rattach√©(e) √† l‚Äô√©quipe Con...,none,BAC_5,,FULL_TIME,,...,Boulogne-Billancourt,Hauts-de-Seine,48.828670,2.230610,92100,,,fr,"Premier acteur fran√ßais du marketing digital ,...","IT / Digital, Digital"
150,,,,Data Analyst,"√Ä propos du poste Bas√© en r√©gion parisienne, e...",none,,,FULL_TIME,,...,Marseille,Bouches-du-Rh√¥ne,43.293648,5.377484,13001,29,2019,fr,Nabling consulting is a French-based company s...,"Digital Marketing / Data Marketing, IT / Digit..."


In [22]:
df[df["description"].str.contains("gouvernance")]

Unnamed: 0,experience_level,contract_duration_min,apply_url,name,description,salary_period,education_level,salary_min,contract_type,salary_max,...,office.city,office.district,office.latitude,office.longitude,office.zip_code,organization.average_age,organization.creation_year,organization.default_language,organization.description,organization.industry
69,7_TO_10_YEARS,,https://carrieres.niji.fr/fr/annonce/2689211-c...,Consultant Data Analyst Senior - POWERBI (H/F),Le p√¥le Data de Niji c'est avant tout une √©qui...,none,,,FULL_TIME,,...,Nantes,Loire-Atlantique,47.204218,-1.568443,44200.0,,2001,fr,"Depuis 2001, Niji accompagne les entreprises d...",IT / Digital
81,,,https://recrutement.axa.fr/nos-offres-emploi/2...,Investment & Finance Data Analyst,AXA IM est un gestionnaire d'actifs internatio...,none,,,FULL_TIME,,...,Puteaux,Hauts-de-Seine,48.87725,2.24416,92400.0,41.0,1985,fr,Avec 6 000 recrutements par an en France rejoi...,"Banking, Insurance, FinTech / InsurTech"
104,7_TO_10_YEARS,,https://carrieres.niji.fr/fr/annonce/2491371-l...,Lead Data Analyst (H/F),Le p√¥le Data de Niji c'est avant tout une √©qui...,yearly,,,FULL_TIME,,...,Issy-Les-Moulineaux,Hauts-de-Seine,48.82774,2.27016,92130.0,,2001,fr,"Depuis 2001, Niji accompagne les entreprises d...",IT / Digital
116,3_TO_4_YEARS,,https://recrutement.axa.fr/nos-offres-emploi/2...,Senior Business Data Analyst Operations,AXA IM est un gestionnaire d'actifs internatio...,none,,,FULL_TIME,,...,Puteaux,Hauts-de-Seine,48.87725,2.24416,92400.0,41.0,1985,fr,Avec 6 000 recrutements par an en France rejoi...,"Banking, Insurance, FinTech / InsurTech"
136,4_TO_5_YEARS,,https://carrieres.niji.fr/fr/annonce/2677211-c...,Consultant Data Analyst - POWERBI (H/F),Le p√¥le Data de Niji c'est avant tout une √©qui...,yearly,,,FULL_TIME,,...,Issy-Les-Moulineaux,Hauts-de-Seine,48.82774,2.27016,92130.0,,2001,fr,"Depuis 2001, Niji accompagne les entreprises d...",IT / Digital
137,2_TO_3_YEARS,,https://www.aplitrak.com/?adid=cGZyaWMuMzMwNTY...,Business Analyst Data H/F,"NEXTON recrute un BUSINESS ANALYST DATA H/F ,...",daily,BAC_5,,FULL_TIME,,...,Paris,Paris,48.86987,2.34525,75002.0,,2011,fr,NEXTON c‚Äôest 450 experts passionn√©s qui accomp...,"Design, IT / Digital, Digital"
143,3_TO_4_YEARS,,https://emploi.beetween.com/apply/job/ul21ucgk...,Chef de projet d√©cisionnel / Data analyst (H/F),L‚ÄôEfrei √©volue et grandit ! L‚Äôintensification ...,yearly,BAC_5,45000.0,FULL_TIME,55000.0,...,Villejuif,Val-de-Marne,48.78856,2.36402,94800.0,40.0,1936,fr,Grande √âcole du Num√©rique depuis 1936 et label...,"Nonprofit, Education, Job Training"
145,,,https://thales.wd3.myworkdayjobs.com/Careers/j...,Stage - Data Analyst - (H/F),QUI SOMMES-NOUS ? Acteur spatial mondialement ...,none,,,INTERNSHIP,,...,Cannes,Maritime Alps,43.55333,7.01363,,,2000,fr,The people we all rely on to make the world go...,"Software, Cyber Security, Aeronautics / Space"


In [12]:
df.head()

Unnamed: 0,education_level,salary_max,name,description,contract_type,apply_url,contract_duration_min,experience_level,salary_min,salary_period,...,office.city,office.district,office.latitude,office.longitude,office.zip_code,organization.average_age,organization.creation_year,organization.default_language,organization.description,organization.industry
0,,,Manager - Data & Analytics Engineering,The Data team at Welcome to the Jungle: Part o...,FULL_TIME,,,,,none,...,Paris,Paris,48.86695,2.34314,75002,32,2015,en,Welcome to the Jungle‚Äôs mission is simple: to ...,"Media, Recruitment"
1,BAC_5,,Margo Analytics - Data Engineer - H/F,Margo Analytics est l'entit√© experte de Margo...,FULL_TIME,https://jobs.lever.co/margo-group/dfd990e5-a46...,,,,none,...,Paris,Paris,48.8797,2.32381,75008,30,2005,fr,"Plus qu‚Äôun simple groupe de conseil IT, MARGO ...","Software, IT / Digital"
2,,,Data Analyst,√ätre Data Analyst chez Wewyse c‚Äôest : Int√©gr...,FULL_TIME,,,,,none,...,Paris,Paris,48.876,2.33668,75009,31,2019,fr,"Wewyse est le cabinet de conseil de Wemanity, ...","Digital Marketing / Data Marketing, IT / Digit..."
3,BAC_5,1200.0,Data Analyst - Stage de 6 mois,Afin de mieux comprendre nos clients et leurs ...,INTERNSHIP,https://matera.recruitee.com/o/data-analyst-st...,5.0,LESS_THAN_6_MONTHS,1000.0,none,...,Paris,Paris,48.87712,2.31452,75008,30,2017,fr,"Matera r√©invente notre rapport au logement, en...","SaaS / Cloud Services, Commercial Real Estate,..."
4,,,Data Analyst - Stage - Paris,Travailler chez papernest : d√©finition. Cer...,INTERNSHIP,https://careers.papernest.com/jobs/3240543-dat...,,,,none,...,Paris,Paris,48.898163,2.378094,75019,28,2015,en,We are papernest Our ambition? To be the one a...,"Mobile Apps, Commercial Real Estate, Residenti..."


In [26]:
test = df.iloc[0]["description"]

In [29]:
test

'<p><b>Margo Analytics est l&#39;entit√© experte</b><span> de Margo Group des probl√©matiques </span><b>Data, Cloud et DevOps</b><span> cr√©√©e en 2020 par leurs fondateurs Rapha√´l et Mounir. Aujourd‚Äôhui </span><b>60 consultants</b><span> ont int√©gr√© l&#39;entit√© et nous avons commenc√© √† travailler avec </span><b>18 nouveaux clients</b><span> (Banque, Industrie, Assurance, √ânergie, E commerce, Sant√©). A leurs c√¥t√©s, vous pourrez √©voluer rapidement et d√©velopper de nouvelles comp√©tences.\xa0</span></p><p><b>Deux ADN fondateurs forts</b><span> et sp√©cifiques √† Margo Analytics √† l‚Äôorigine de l‚Äôentit√© :</span></p><p>- <span>Toujours se positionner sur </span><b>les plus beaux sujets </b><span>et sur les </span><b>missions √† fortes valeurs ajout√©es</b></p><p><span>- </span><b>Recruter</b><span> des </span><b>consultants passionn√©s</b><span> et </span><b>curieux</b><span> qui cherchent √† √™tre </span><b>challeng√©s </b></p><p><span>Aujourd‚Äôhui, Margo Analytics po

In [7]:
huggingfacehub_api_token="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"

In [8]:
from langchain import HuggingFaceHub

repo_id = "tiiuae/falcon-7b-instruct"
llm = HuggingFaceHub(huggingfacehub_api_token=huggingfacehub_api_token,
                     repo_id=repo_id,
                     model_kwargs={"temperature":0.6, "max_new_tokens":500})



In [9]:
from langchain import PromptTemplate, LLMChain

template = """
You are an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions.

{question}
"""
prompt = PromptTemplate(template=template, input_variables=["question"])
llm_chain = LLMChain(prompt=prompt, llm=llm)

In [11]:
question =  """
what are the hard skills in this text

<p><b>Margo Analytics est l&#39;entit√© experte</b><span> de Margo Group des probl√©matiques </span><b>Data, Cloud et DevOps</b><span> cr√©√©e en 2020 par leurs fondateurs Rapha√´l et Mounir. Aujourd‚Äôhui </span><b>60 consultants</b><span> ont int√©gr√© l&#39;entit√© et nous avons commenc√© √† travailler avec </span><b>18 nouveaux clients</b><span> (Banque, Industrie, Assurance, √ânergie, E commerce, Sant√©). A leurs c√¥t√©s, vous pourrez √©voluer rapidement et d√©velopper de nouvelles comp√©tences.\xa0</span></p><p><b>Deux ADN fondateurs forts</b><span> et sp√©cifiques √† Margo Analytics √† l‚Äôorigine de l‚Äôentit√© :</span></p><p>- <span>Toujours se positionner sur </span><b>les plus beaux sujets </b><span>et sur les </span><b>missions √† fortes valeurs ajout√©es</b></p><p><span>- </span><b>Recruter</b><span> des </span><b>consultants passionn√©s</b><span> et </span><b>curieux</b><span> qui cherchent √† √™tre </span><b>challeng√©s </b></p><p><span>Aujourd‚Äôhui, Margo Analytics poss√®de </span><b>4 communaut√©s</b><span> de comp√©tences :\xa0</span></p><p><b>- Data engineer\xa0 </b></p><p><b>- Data Science/ IA\xa0</b></p><p><b>- Galaxy OPS (devOps, dataOps, cloudOps)</b></p><p><b>- Architecte Big Data\xa0</b></p><p><span>Ainsi en rejoignant Margo Analytics vous aurez le choix des missions (#consultantfirst) sur lesquelles vous souhaitez travailler. Vous serez accompagn√© par les deux fondateurs ainsi que par le leader de votre communaut√©, dont les r√¥les sont de rechercher le projet qui correspondra le plus √† vos attentes et de vous accompagner dans votre carri√®re.</span></p><p><span>üéØ</span><b>Les missions Margo Analytics\xa0</b><b>:\xa0</b></p><p><span>Au sein de la communaut√© Data Engineer </span><b>vos missions</b><span>\xa0</span><b>seront</b><span> :\xa0</span></p><p><span>- </span><b>D√©velopper en mode agile</b><span> les cas d‚Äôusages m√©tier\xa0</span></p><p><span>- Mettre en place des </span><b>processus de collecte, d‚Äôorganisation, de stockage et de mod√©lisation des donn√©es</b><span>\xa0</span></p><p><span>- D√©velopper des traitements de transformation et de production de donn√©es </span></p><p><span>- Assurer la </span><b>mise en production des mod√®les de pr√©diction</b><span> cr√©√©s par les Data Scientists </span></p><p><span>- Participer √† l‚Äô</span><b>am√©lioration continue</b><span> et au refactoring de code</span></p><p><b>Besoin de projection ? Voici un exemple de mission :\xa0</b></p><p><span>Camille accompagne un grand compte dans le domaine de l‚Äôindustrie sur son projet de mise en place d‚Äôun nouveau datalake en Azure databricks. L‚Äôobjectif de cette mission est d‚Äôassurer la distribution de la donn√©e de mani√®re optimis√©e pour cr√©er une couche de distribution et permettre aux Data Scientists d‚Äôimpl√©menter les use cases. Camille apporte son expertise sur les technologies suivantes : Spark, Scala, Azure, Databricks.</span></p><p><b>Nos stack Technique :\xa0</b></p><p><span>- Langage : Python/Scala/Java</span></p><p><span>- Framework : Spark/Hadoop </span></p><p><span>- Cloud: Azure/ AWS/ GCP\xa0</span></p><p><b>üôå Les avantages\xa0:\xa0</b></p><p>- Tickets restaurants Swile </p><p>- Mutuelle Alan prise en charge √† 100%</p><p>- Pass Navigo pris en charge √† 100%</p><p>- T√©l√©travail</p><p>- Formations illimit√©es</p><p>- Locaux en plein coeur de Paris</p><p>- Places en cr√®ches </p><p><b>ü§ùNotre processus de recrutement :</b>\xa0</p><p>Notre processus de recrutement se fait en 3 √©tapes, r√©parties sur 7 √† 15 jours maximum : </p><p><b>- Premi√®re rencontre ! </b><span>Vous √©changez avec un RH et un dirigeant sur votre parcours, vos aspirations professionnelles ainsi que sur Margo Analytics et les opportunit√©s que nous proposons</span></p><p><b>-</b><span>\xa0</span><b>Challengez-vous </b><span>dans le cadre d‚Äôun entretien technique avec l‚Äôun de nos experts. C‚Äôest √©galement l‚Äôoccasion pour vous d‚Äôavoir son retour d‚Äôexp√©rience</span></p><p><b>- Dernier entretien de motivation</b><span> : pour finir, vous rencontrez un membre du board de Margo Analytics pour un entretien final </span></p><p><b>üîç Vous √™tes un(e) futur(e) Margo Analytics si :</b><span>\xa0</span></p><p><b>Must-Have</b></p><p><span>Vous √™tes issu(e) d‚Äôune √©cole d‚Äôing√©nieur ou d‚Äôun cursus universitaire √©quivalent niveau </span><b>Bac + 5</b><span> / Master</span></p><p><span>Vous aimez coder et vous √™tes passionn√©(e) d‚Äôinformatique et de Data</span></p><p><span>Vous √™tes curieux(se) et vous vous int√©ressez aux derni√®res technologies du march√©</span></p><p><span>Vous justifiez d‚Äôune premi√®re exp√©rience en tant que Data Engineer</span></p><p><b>Nice to Have</b></p><p><span>Vous √™tes ambitieux(se) et n‚Äôavez pas peur de travailler sur des projets challengeants dans des environnements √† fortes contraintes techniques . Vous parlez et comprenez l‚Äôanglais.</span>\xa0</p
"""

print(llm_chain.run(question))
resume = llm_chain.run(question)

<p>Margo Analytics est une start-up en pleine croissance qui accompagne les grands comptes de l‚Äôindustrie √† la r√©alisation de leurs projets data. Nous avons d√©velopp√© une expertise de pointe sur les technologies les plus performantes et les plus modernes du march√©. Nous recherchons des profils d‚Äôing√©nieurs et de data engineers pour accompagner les acteurs de l‚Äôindustrie dans la r√©alisation de leurs projets data. Nous recherchons des profils de d√©veloppeurs, de consultants et de nos m√©tiers cl√©s : data science, data engineering, data architect, data analytics, data visualisation. Nous recherchons des profils de d√©veloppeurs, de consultants et de m√©tiers cl√©s : data science, data engineering, data architect, data analytics, data visualisation. Nous recherchons des profils de d√©veloppeurs, de consultants et de m√©tiers cl√©s : data science, data engineering, data architect, data analytics, data visualisation. Nous recherchons des profils de d√©veloppeurs, de consultant