In [1]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import re
import requests
import pandas as pd

In [2]:
def job_offers_wtj(
        job_title: str = "data analyst",
        pages: int = 1
):
    """
    ---
    Web scraping WTJ
    ---
    Lance un navigateur et cr√©√©e un dataframe contenant les informations de
    chaque offre d'emploi pour un nombre de pages d√©finis sur le site
    Welcome To The Jungle.
    ---
    Param√®tres :
    - job_title: str : Le nom du m√©tier pour lequel rechercher des offres.
    - pages: int : Le nombre de pages sur lesquels rechercher les offres.
    ---
    Retourne :
    - Le df contenant les informations de toute les offres r√©cup√©r√©es.
    """
    # Instanciation de la liste contenant les liens pour les requ√™tes APIs.
    api_links = []
    # Lien de l'API de Welcome To The Jungle pour r√©cup√©rer les donn√©es.
    api_link = f"https://api.welcometothejungle.com/api/v1/organizations"
    job = job_title.lower().replace(" ", "+")
    # Instanciation du driver Firefox.
    driver = webdriver.Firefox()
    # Instanciation du dataframe final.
    full_df = pd.DataFrame()
    # Nom des colonnes √† garder dans le dataframe final.
    cols_to_keep = [
        "name",
        "salary_period",
        "experience_level",
        "apply_url",
        "contract_duration_min",
        "office.city",
        "office.address",
        "office.district",
        "office.latitude",
        "office.longitude",
        "office.zip_code",
        "profession.category.fr",
        "profession.name.fr"
        "name",
        "education_level",
        "application_fields.mode",
        "application_fields.name",
        "description",
        "organization.average_age",
        "organization.creation_year",
        "organization.default_language",
        "organization.description",
        "organization.industry",
        "organization.nb_employee",
        "contract_type",
        "salary_min",
        "salary_max",
        "education_level",
        "remote"
    ]
    try:
        for i in range(1, pages+1):
            url = f"https://www.welcometothejungle.com/fr/jobs?refinementList%5Boffices.country_code%5D%5B%5D=FR&query={job}&page={i}"
            # Ouvre chaque page sur le navigateur.
            driver.get(url)
            try:
                # R√©cup√®re le lien de chaque offre d'emploi sur la page.
                contents = WebDriverWait(driver, 20).until(
                    EC.presence_of_all_elements_located((By.CSS_SELECTOR, ".sc-6i2fyx-0.gIvJqh"))
                )
                for content in contents:
                    link = content.get_attribute("href")
                    end_link = re.findall(r"/companies(.+)", link)[0]
                    full_link = api_link + end_link
                    # Rajoute le lien de chaque offre √† la liste.
                    api_links.append(full_link)
            except Exception as e:
                print(f"Error scraping page {i} : {e}")
    finally:
        driver.quit()
    # Pour chaque lien de la liste, fait une requ√™te API et stocke les informations dans un dataframe.
    for link_ in api_links:
        r = requests.get(link_)
        df = pd.json_normalize(
            r.json()["job"]
        )
        full_df = pd.concat([full_df, df], ignore_index=True)
    # Instanciation de la liste des colonnes √† drop.
    cols_to_drop = [col for col in full_df.columns if col not in cols_to_keep]
    df = full_df.drop(columns=cols_to_drop)
    return df

In [3]:
df = job_offers_wtj("data analyst", 1)

In [4]:
from bs4 import BeautifulSoup
import pandas as pd
def clean_html(text):
    soup = BeautifulSoup(text, "html.parser")
    cleaned_text = soup.get_text(separator=" ")
    cleaned_text = cleaned_text.replace("\xa0", " ")
    return cleaned_text

df["description"] = df["description"].apply(clean_html)
df["organization.description"] = df["organization.description"].apply(clean_html)

In [5]:
test = df.iloc[0]["description"]

In [12]:
test

"Margo Analytics est l'entit√© experte  de Margo Group des probl√©matiques  Data, Cloud et DevOps  cr√©√©e en 2020 par leurs fondateurs Rapha√´l et Mounir. Aujourd‚Äôhui  60 consultants  ont int√©gr√© l'entit√© et nous avons commenc√© √† travailler avec  18 nouveaux clients  (Banque, Industrie, Assurance, √ânergie, E commerce, Sant√©). A leurs c√¥t√©s, vous pourrez √©voluer rapidement et d√©velopper de nouvelles comp√©tences.  Deux ADN fondateurs forts  et sp√©cifiques √† Margo Analytics √† l‚Äôorigine de l‚Äôentit√© : -  Toujours se positionner sur  les plus beaux sujets  et sur les  missions √† fortes valeurs ajout√©es -  Recruter  des  consultants passionn√©s  et  curieux  qui cherchent √† √™tre  challeng√©s  Aujourd‚Äôhui, Margo Analytics poss√®de  4 communaut√©s  de comp√©tences :  - Data engineer   - Data Science/ IA  - Galaxy OPS (devOps, dataOps, cloudOps) - Architecte Big Data  Ainsi en rejoignant Margo Analytics vous aurez le choix des missions (#consultantfirst) sur lesquell

In [6]:
huggingfacehub_api_token="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"

In [19]:
from langchain import HuggingFaceHub

repo_id = "tiiuae/falcon-7b-instruct"
llm = HuggingFaceHub(huggingfacehub_api_token=huggingfacehub_api_token,
                     repo_id=repo_id,
                     model_kwargs={"temperature":0.6, "max_new_tokens":500})



In [34]:
from langchain import PromptTemplate, LLMChain

template = """
You are an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions.

{question}
"""
prompt = PromptTemplate(template=template, input_variables=["question"])
llm_chain = LLMChain(prompt=prompt, llm=llm)

In [35]:
question = f"""
what are the hard skills in this text
"Margo Analytics est l'entit√© experte  de Margo Group des probl√©matiques  Data, Cloud et DevOps  cr√©√©e en 2020 par leurs fondateurs Rapha√´l et Mounir. Aujourd‚Äôhui  60 consultants  ont int√©gr√© l'entit√© et nous avons commenc√© √† travailler avec  18 nouveaux clients  (Banque, Industrie, Assurance, √ânergie, E commerce, Sant√©). A leurs c√¥t√©s, vous pourrez √©voluer rapidement et d√©velopper de nouvelles comp√©tences.  Deux ADN fondateurs forts  et sp√©cifiques √† Margo Analytics √† l‚Äôorigine de l‚Äôentit√© : -  Toujours se positionner sur  les plus beaux sujets  et sur les  missions √† fortes valeurs ajout√©es -  Recruter  des  consultants passionn√©s  et  curieux  qui cherchent √† √™tre  challeng√©s  Aujourd‚Äôhui, Margo Analytics poss√®de  4 communaut√©s  de comp√©tences :  - Data engineer   - Data Science/ IA  - Galaxy OPS (devOps, dataOps, cloudOps) - Architecte Big Data  Ainsi en rejoignant Margo Analytics vous aurez le choix des missions (#consultantfirst) sur lesquelles vous souhaitez travailler. Vous serez accompagn√© par les deux fondateurs ainsi que par le leader de votre communaut√©, dont les r√¥les sont de rechercher le projet qui correspondra le plus √† vos attentes et de vous accompagner dans votre carri√®re. üéØ Les missions Margo Analytics  :  Au sein de la communaut√© Data Engineer  vos missions   seront  :  -  D√©velopper en mode agile  les cas d‚Äôusages m√©tier  - Mettre en place des  processus de collecte, d‚Äôorganisation, de stockage et de mod√©lisation des donn√©es   - D√©velopper des traitements de transformation et de production de donn√©es  - Assurer la  mise en production des mod√®les de pr√©diction  cr√©√©s par les Data Scientists  - Participer √† l‚Äô am√©lioration continue  et au refactoring de code Besoin de projection ? Voici un exemple de mission :  Camille accompagne un grand compte dans le domaine de l‚Äôindustrie sur son projet de mise en place d‚Äôun nouveau datalake en Azure databricks. L‚Äôobjectif de cette mission est d‚Äôassurer la distribution de la donn√©e de mani√®re optimis√©e pour cr√©er une couche de distribution et permettre aux Data Scientists d‚Äôimpl√©menter les use cases. Camille apporte son expertise sur les technologies suivantes : Spark, Scala, Azure, Databricks. Nos stack Technique :  - Langage : Python/Scala/Java - Framework : Spark/Hadoop  - Cloud: Azure/ AWS/ GCP  üôå Les avantages :  - Tickets restaurants Swile  - Mutuelle Alan prise en charge √† 100% - Pass Navigo pris en charge √† 100% - T√©l√©travail - Formations illimit√©es - Locaux en plein coeur de Paris - Places en cr√®ches  ü§ùNotre processus de recrutement :   Notre processus de recrutement se fait en 3 √©tapes, r√©parties sur 7 √† 15 jours maximum :  - Premi√®re rencontre !  Vous √©changez avec un RH et un dirigeant sur votre parcours, vos aspirations professionnelles ainsi que sur Margo Analytics et les opportunit√©s que nous proposons -   Challengez-vous  dans le cadre d‚Äôun entretien technique avec l‚Äôun de nos experts. C‚Äôest √©galement l‚Äôoccasion pour vous d‚Äôavoir son retour d‚Äôexp√©rience - Dernier entretien de motivation  : pour finir, vous rencontrez un membre du board de Margo Analytics pour un entretien final  üîç Vous √™tes un(e) futur(e) Margo Analytics si :   Must-Have Vous √™tes issu(e) d‚Äôune √©cole d‚Äôing√©nieur ou d‚Äôun cursus universitaire √©quivalent niveau  Bac + 5  / Master Vous aimez coder et vous √™tes passionn√©(e) d‚Äôinformatique et de Data Vous √™tes curieux(se) et vous vous int√©ressez aux derni√®res technologies du march√© Vous justifiez d‚Äôune premi√®re exp√©rience en tant que Data Engineer Nice to Have Vous √™tes ambitieux(se) et n‚Äôavez pas peur de travailler sur des projets challengeants dans des environnements √† fortes contraintes techniques . Vous parlez et comprenez l‚Äôanglais
"""

print(llm_chain.run(question))


What are the hard skills in this text?
The hard skills in this text are:

1. Knowledge of programming languages.
2. Knowledge of data analysis tools.
3. Knowledge of cloud computing.
4. Knowledge of software development processes.
5. Knowledge of data management and data governance.
6. Knowledge of data visualization and communication skills.
7. Knowledge of machine learning and artificial intelligence.
8. Knowledge of database architecture and design.
9. Knowledge of security and data privacy measures.
10. Knowledge of data quality and data governance best practices.


In [36]:
question =  """
what are the hard skills in this text
Vous maitrisez Power BI, Power Query, SQL et la mod√©lisation data.

Vous savez conjuguer travail en √©quipe et autonomie et vous faites preuve d'aisance, √† l'oral comme √† l'√©crit, en communication.

Vous √™tes proactif et force de proposition, votre curiosit√© sera appr√©ci√©e

La bienveillance, l'entraide et le collectif sont des notions importantes au sein de l'entreprise.
"""

print(llm_chain.run(question))
resume = llm_chain.run(question)


The hard skills in this text are:
- Power BI, Power Query, SQL
- Working in a team and autonomously
- Communication skills
- Proactivity and creativity
- Curiosity
- Working well with others
- Collectiveness
- Self-motivation
- Self-management.


In [37]:
resume

'\nThe hard skills in this text are:\n- Power BI, Power Query, SQL\n- Working in a team and autonomously\n- Communication skills\n- Proactivity and creativity\n- Curiosity\n- Working well with others\n- Collectiveness\n- Self-motivation\n- Self-management.'