In [21]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import re
import requests
import pandas as pd

In [22]:
def job_offers_wtj(
        job_title: str = "data analyst",
        pages: int = 1
):
    """
    ---
    Web scraping WTJ
    ---
    Lance un navigateur et cr√©√©e un dataframe contenant les informations de
    chaque offre d'emploi pour un nombre de pages d√©finis sur le site
    Welcome To The Jungle.
    ---
    Param√®tres :
    - job_title: str : Le nom du m√©tier pour lequel rechercher des offres.
    - pages: int : Le nombre de pages sur lesquels rechercher les offres.
    ---
    Retourne :
    - Le df contenant les informations de toute les offres r√©cup√©r√©es.
    """
    # Instanciation de la liste contenant les liens pour les requ√™tes APIs.
    api_links = []
    # Lien de l'API de Welcome To The Jungle pour r√©cup√©rer les donn√©es.
    api_link = f"https://api.welcometothejungle.com/api/v1/organizations"
    job = job_title.lower().replace(" ", "+")
    # Instanciation du driver Firefox.
    driver = webdriver.Firefox()
    # Instanciation du dataframe final.
    full_df = pd.DataFrame()
    # Nom des colonnes √† garder dans le dataframe final.
    cols_to_keep = [
        "name",
        "salary_period",
        "experience_level",
        "apply_url",
        "contract_duration_min",
        "office.city",
        "office.address",
        "office.district",
        "office.latitude",
        "office.longitude",
        "office.zip_code",
        "profession.category.fr",
        "profession.name.fr"
        "name",
        "education_level",
        "application_fields.mode",
        "application_fields.name",
        "description",
        "organization.average_age",
        "organization.creation_year",
        "organization.default_language",
        "organization.description",
        "organization.industry",
        "organization.nb_employee",
        "contract_type",
        "salary_min",
        "salary_max",
        "education_level",
        "remote"
    ]
    try:
        for i in range(1, pages+1):
            url = f"https://www.welcometothejungle.com/fr/jobs?refinementList%5Boffices.country_code%5D%5B%5D=FR&query={job}&page={i}"
            # Ouvre chaque page sur le navigateur.
            driver.get(url)
            try:
                # R√©cup√®re le lien de chaque offre d'emploi sur la page.
                contents = WebDriverWait(driver, 20).until(
                    EC.presence_of_all_elements_located((By.CSS_SELECTOR, ".sc-6i2fyx-0.gIvJqh"))
                )
                for content in contents:
                    link = content.get_attribute("href")
                    end_link = re.findall(r"/companies(.+)", link)[0]
                    full_link = api_link + end_link
                    # Rajoute le lien de chaque offre √† la liste.
                    api_links.append(full_link)
            except Exception as e:
                print(f"Error scraping page {i} : {e}")
    finally:
        driver.quit()
    # Pour chaque lien de la liste, fait une requ√™te API et stocke les informations dans un dataframe.
    for link_ in api_links:
        r = requests.get(link_)
        df = pd.json_normalize(
            r.json()["job"]
        )
        full_df = pd.concat([full_df, df], ignore_index=True)
    # Instanciation de la liste des colonnes √† drop.
    cols_to_drop = [col for col in full_df.columns if col not in cols_to_keep]
    df = full_df.drop(columns=cols_to_drop)
    return df

In [23]:
df = job_offers_wtj("data analyst", 1)

In [10]:
from bs4 import BeautifulSoup
import pandas as pd
def clean_html(text):
    soup = BeautifulSoup(text, "html.parser")
    cleaned_text = soup.get_text(separator=" ")
    cleaned_text = cleaned_text.replace("\xa0", " ")
    return cleaned_text

df["description"] = df["description"].apply(clean_html)
df["organization.description"] = df["organization.description"].apply(clean_html)

In [None]:
df.head()

In [26]:
test = df.iloc[0]["description"]

In [29]:
test

'<p><b>Margo Analytics est l&#39;entit√© experte</b><span> de Margo Group des probl√©matiques </span><b>Data, Cloud et DevOps</b><span> cr√©√©e en 2020 par leurs fondateurs Rapha√´l et Mounir. Aujourd‚Äôhui </span><b>60 consultants</b><span> ont int√©gr√© l&#39;entit√© et nous avons commenc√© √† travailler avec </span><b>18 nouveaux clients</b><span> (Banque, Industrie, Assurance, √ânergie, E commerce, Sant√©). A leurs c√¥t√©s, vous pourrez √©voluer rapidement et d√©velopper de nouvelles comp√©tences.\xa0</span></p><p><b>Deux ADN fondateurs forts</b><span> et sp√©cifiques √† Margo Analytics √† l‚Äôorigine de l‚Äôentit√© :</span></p><p>- <span>Toujours se positionner sur </span><b>les plus beaux sujets </b><span>et sur les </span><b>missions √† fortes valeurs ajout√©es</b></p><p><span>- </span><b>Recruter</b><span> des </span><b>consultants passionn√©s</b><span> et </span><b>curieux</b><span> qui cherchent √† √™tre </span><b>challeng√©s </b></p><p><span>Aujourd‚Äôhui, Margo Analytics po

In [30]:
huggingfacehub_api_token="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"

In [31]:
from langchain import HuggingFaceHub

repo_id = "tiiuae/falcon-7b-instruct"
llm = HuggingFaceHub(huggingfacehub_api_token=huggingfacehub_api_token,
                     repo_id=repo_id,
                     model_kwargs={"temperature":0.6, "max_new_tokens":500})



In [32]:
from langchain import PromptTemplate, LLMChain

template = """
You are an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions.

{question}
"""
prompt = PromptTemplate(template=template, input_variables=["question"])
llm_chain = LLMChain(prompt=prompt, llm=llm)

In [39]:
question =  """
what are the hard skills in this text, please store them as keywords in a list 
<p><b>Margo Analytics est l&#39;entit√© experte</b><span> de Margo Group des probl√©matiques </span><b>Data, Cloud et DevOps</b><span> cr√©√©e en 2020 par leurs fondateurs Rapha√´l et Mounir. Aujourd‚Äôhui </span><b>60 consultants</b><span> ont int√©gr√© l&#39;entit√© et nous avons commenc√© √† travailler avec </span><b>18 nouveaux clients</b><span> (Banque, Industrie, Assurance, √ânergie, E commerce, Sant√©). A leurs c√¥t√©s, vous pourrez √©voluer rapidement et d√©velopper de nouvelles comp√©tences.\xa0</span></p><p><b>Deux ADN fondateurs forts</b><span> et sp√©cifiques √† Margo Analytics √† l‚Äôorigine de l‚Äôentit√© :</span></p><p>- <span>Toujours se positionner sur </span><b>les plus beaux sujets </b><span>et sur les </span><b>missions √† fortes valeurs ajout√©es</b></p><p><span>- </span><b>Recruter</b><span> des </span><b>consultants passionn√©s</b><span> et </span><b>curieux</b><span> qui cherchent √† √™tre </span><b>challeng√©s </b></p><p><span>Aujourd‚Äôhui, Margo Analytics poss√®de </span><b>4 communaut√©s</b><span> de comp√©tences :\xa0</span></p><p><b>- Data engineer\xa0 </b></p><p><b>- Data Science/ IA\xa0</b></p><p><b>- Galaxy OPS (devOps, dataOps, cloudOps)</b></p><p><b>- Architecte Big Data\xa0</b></p><p><span>Ainsi en rejoignant Margo Analytics vous aurez le choix des missions (#consultantfirst) sur lesquelles vous souhaitez travailler. Vous serez accompagn√© par les deux fondateurs ainsi que par le leader de votre communaut√©, dont les r√¥les sont de rechercher le projet qui correspondra le plus √† vos attentes et de vous accompagner dans votre carri√®re.</span></p><p><span>üéØ</span><b>Les missions Margo Analytics\xa0</b><b>:\xa0</b></p><p><span>Au sein de la communaut√© Data Engineer </span><b>vos missions</b><span>\xa0</span><b>seront</b><span> :\xa0</span></p><p><span>- </span><b>D√©velopper en mode agile</b><span> les cas d‚Äôusages m√©tier\xa0</span></p><p><span>- Mettre en place des </span><b>processus de collecte, d‚Äôorganisation, de stockage et de mod√©lisation des donn√©es</b><span>\xa0</span></p><p><span>- D√©velopper des traitements de transformation et de production de donn√©es </span></p><p><span>- Assurer la </span><b>mise en production des mod√®les de pr√©diction</b><span> cr√©√©s par les Data Scientists </span></p><p><span>- Participer √† l‚Äô</span><b>am√©lioration continue</b><span> et au refactoring de code</span></p><p><b>Besoin de projection ? Voici un exemple de mission :\xa0</b></p><p><span>Camille accompagne un grand compte dans le domaine de l‚Äôindustrie sur son projet de mise en place d‚Äôun nouveau datalake en Azure databricks. L‚Äôobjectif de cette mission est d‚Äôassurer la distribution de la donn√©e de mani√®re optimis√©e pour cr√©er une couche de distribution et permettre aux Data Scientists d‚Äôimpl√©menter les use cases. Camille apporte son expertise sur les technologies suivantes : Spark, Scala, Azure, Databricks.</span></p><p><b>Nos stack Technique :\xa0</b></p><p><span>- Langage : Python/Scala/Java</span></p><p><span>- Framework : Spark/Hadoop </span></p><p><span>- Cloud: Azure/ AWS/ GCP\xa0</span></p><p><b>üôå Les avantages\xa0:\xa0</b></p><p>- Tickets restaurants Swile </p><p>- Mutuelle Alan prise en charge √† 100%</p><p>- Pass Navigo pris en charge √† 100%</p><p>- T√©l√©travail</p><p>- Formations illimit√©es</p><p>- Locaux en plein coeur de Paris</p><p>- Places en cr√®ches </p><p><b>ü§ùNotre processus de recrutement :</b>\xa0</p><p>Notre processus de recrutement se fait en 3 √©tapes, r√©parties sur 7 √† 15 jours maximum : </p><p><b>- Premi√®re rencontre ! </b><span>Vous √©changez avec un RH et un dirigeant sur votre parcours, vos aspirations professionnelles ainsi que sur Margo Analytics et les opportunit√©s que nous proposons</span></p><p><b>-</b><span>\xa0</span><b>Challengez-vous </b><span>dans le cadre d‚Äôun entretien technique avec l‚Äôun de nos experts. C‚Äôest √©galement l‚Äôoccasion pour vous d‚Äôavoir son retour d‚Äôexp√©rience</span></p><p><b>- Dernier entretien de motivation</b><span> : pour finir, vous rencontrez un membre du board de Margo Analytics pour un entretien final </span></p><p><b>üîç Vous √™tes un(e) futur(e) Margo Analytics si :</b><span>\xa0</span></p><p><b>Must-Have</b></p><p><span>Vous √™tes issu(e) d‚Äôune √©cole d‚Äôing√©nieur ou d‚Äôun cursus universitaire √©quivalent niveau </span><b>Bac + 5</b><span> / Master</span></p><p><span>Vous aimez coder et vous √™tes passionn√©(e) d‚Äôinformatique et de Data</span></p><p><span>Vous √™tes curieux(se) et vous vous int√©ressez aux derni√®res technologies du march√©</span></p><p><span>Vous justifiez d‚Äôune premi√®re exp√©rience en tant que Data Engineer</span></p><p><b>Nice to Have</b></p><p><span>Vous √™tes ambitieux(se) et n‚Äôavez pas peur de travailler sur des projets challengeants dans des environnements √† fortes contraintes techniques . Vous parlez et comprenez l‚Äôanglais.</span>\xa0</p
"""

print(llm_chain.run(question))
resume = llm_chain.run(question)

<p>Pour plus d'informations, n'h√©sitez pas √† rejoindre le groupe "Data Engineers" sur LinkedIn, pour d√©couvrir les derni√®res missions et les derni√®res offres d'emploi : <a href="https://www.linkedin.com/groups/data-engineers-fr/">https://www.linkedin.com/groups/data-engineers-fr/</a></p>
