In [1]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import re
import requests
import pandas as pd

In [2]:
def job_offers_wtj(
        job_title: str = "data analyst",
        pages: int = 1
):
    """
    ---
    Web scraping WTJ
    ---
    Lance un navigateur et créée un dataframe contenant les informations de
    chaque offre d'emploi pour un nombre de pages définis sur le site
    Welcome To The Jungle.
    ---
    Paramètres :
    - job_title: str : Le nom du métier pour lequel rechercher des offres.
    - pages: int : Le nombre de pages sur lesquels rechercher les offres.
    ---
    Retourne :
    - Le df contenant les informations de toute les offres récupérées.
    """
    # Instanciation de la liste contenant les liens pour les requêtes APIs.
    api_links = []
    # Lien de l'API de Welcome To The Jungle pour récupérer les données.
    api_link = f"https://api.welcometothejungle.com/api/v1/organizations"
    job = job_title.lower().replace(" ", "+")
    # Instanciation du driver Firefox.
    driver = webdriver.Firefox()
    # Instanciation du dataframe final.
    full_df = pd.DataFrame()
    # Nom des colonnes à garder dans le dataframe final.
    cols_to_keep = [
        "name",
        "salary_period",
        "experience_level",
        "apply_url",
        "contract_duration_min",
        "office.city",
        "office.address",
        "office.district",
        "office.latitude",
        "office.longitude",
        "office.zip_code",
        "profession.category.fr",
        "profession.name.fr"
        "name",
        "education_level",
        "application_fields.mode",
        "application_fields.name",
        "description",
        "organization.average_age",
        "organization.creation_year",
        "organization.default_language",
        "organization.description",
        "organization.industry",
        "organization.nb_employee",
        "contract_type",
        "salary_min",
        "salary_max",
        "education_level",
        "remote"
    ]
    try:
        for i in range(1, pages+1):
            url = f"https://www.welcometothejungle.com/fr/jobs?refinementList%5Boffices.country_code%5D%5B%5D=FR&query={job}&page={i}"
            # Ouvre chaque page sur le navigateur.
            driver.get(url)
            try:
                # Récupère le lien de chaque offre d'emploi sur la page.
                contents = WebDriverWait(driver, 20).until(
                    EC.presence_of_all_elements_located((By.CSS_SELECTOR, ".sc-6i2fyx-0.gIvJqh"))
                )
                for content in contents:
                    link = content.get_attribute("href")
                    end_link = re.findall(r"/companies(.+)", link)[0]
                    full_link = api_link + end_link
                    # Rajoute le lien de chaque offre à la liste.
                    api_links.append(full_link)
            except Exception as e:
                print(f"Error scraping page {i} : {e}")
    finally:
        driver.quit()
    # Pour chaque lien de la liste, fait une requête API et stocke les informations dans un dataframe.
    for link_ in api_links:
        r = requests.get(link_)
        df = pd.json_normalize(
            r.json()["job"]
        )
        full_df = pd.concat([full_df, df], ignore_index=True)
    # Instanciation de la liste des colonnes à drop.
    cols_to_drop = [col for col in full_df.columns if col not in cols_to_keep]
    df = full_df.drop(columns=cols_to_drop)
    return df

In [3]:
df = job_offers_wtj("data analyst", 1)

In [4]:
from bs4 import BeautifulSoup
import pandas as pd
def clean_html(text):
    soup = BeautifulSoup(text, "html.parser")
    cleaned_text = soup.get_text(separator=" ")
    cleaned_text = cleaned_text.replace("\xa0", " ")
    return cleaned_text

df["description"] = df["description"].apply(clean_html)
df["organization.description"] = df["organization.description"].apply(clean_html)

In [5]:
test = df.iloc[0]["description"]

In [12]:
test

"Margo Analytics est l'entité experte  de Margo Group des problématiques  Data, Cloud et DevOps  créée en 2020 par leurs fondateurs Raphaël et Mounir. Aujourd’hui  60 consultants  ont intégré l'entité et nous avons commencé à travailler avec  18 nouveaux clients  (Banque, Industrie, Assurance, Énergie, E commerce, Santé). A leurs côtés, vous pourrez évoluer rapidement et développer de nouvelles compétences.  Deux ADN fondateurs forts  et spécifiques à Margo Analytics à l’origine de l’entité : -  Toujours se positionner sur  les plus beaux sujets  et sur les  missions à fortes valeurs ajoutées -  Recruter  des  consultants passionnés  et  curieux  qui cherchent à être  challengés  Aujourd’hui, Margo Analytics possède  4 communautés  de compétences :  - Data engineer   - Data Science/ IA  - Galaxy OPS (devOps, dataOps, cloudOps) - Architecte Big Data  Ainsi en rejoignant Margo Analytics vous aurez le choix des missions (#consultantfirst) sur lesquelles vous souhaitez travailler. Vous ser

In [6]:
huggingfacehub_api_token="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"

In [19]:
from langchain import HuggingFaceHub

repo_id = "tiiuae/falcon-7b-instruct"
llm = HuggingFaceHub(huggingfacehub_api_token=huggingfacehub_api_token,
                     repo_id=repo_id,
                     model_kwargs={"temperature":0.6, "max_new_tokens":500})



In [34]:
from langchain import PromptTemplate, LLMChain

template = """
You are an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions.

{question}
"""
prompt = PromptTemplate(template=template, input_variables=["question"])
llm_chain = LLMChain(prompt=prompt, llm=llm)

In [35]:
question = f"""
what are the hard skills in this text
"Margo Analytics est l'entité experte  de Margo Group des problématiques  Data, Cloud et DevOps  créée en 2020 par leurs fondateurs Raphaël et Mounir. Aujourd’hui  60 consultants  ont intégré l'entité et nous avons commencé à travailler avec  18 nouveaux clients  (Banque, Industrie, Assurance, Énergie, E commerce, Santé). A leurs côtés, vous pourrez évoluer rapidement et développer de nouvelles compétences.  Deux ADN fondateurs forts  et spécifiques à Margo Analytics à l’origine de l’entité : -  Toujours se positionner sur  les plus beaux sujets  et sur les  missions à fortes valeurs ajoutées -  Recruter  des  consultants passionnés  et  curieux  qui cherchent à être  challengés  Aujourd’hui, Margo Analytics possède  4 communautés  de compétences :  - Data engineer   - Data Science/ IA  - Galaxy OPS (devOps, dataOps, cloudOps) - Architecte Big Data  Ainsi en rejoignant Margo Analytics vous aurez le choix des missions (#consultantfirst) sur lesquelles vous souhaitez travailler. Vous serez accompagné par les deux fondateurs ainsi que par le leader de votre communauté, dont les rôles sont de rechercher le projet qui correspondra le plus à vos attentes et de vous accompagner dans votre carrière. 🎯 Les missions Margo Analytics  :  Au sein de la communauté Data Engineer  vos missions   seront  :  -  Développer en mode agile  les cas d’usages métier  - Mettre en place des  processus de collecte, d’organisation, de stockage et de modélisation des données   - Développer des traitements de transformation et de production de données  - Assurer la  mise en production des modèles de prédiction  créés par les Data Scientists  - Participer à l’ amélioration continue  et au refactoring de code Besoin de projection ? Voici un exemple de mission :  Camille accompagne un grand compte dans le domaine de l’industrie sur son projet de mise en place d’un nouveau datalake en Azure databricks. L’objectif de cette mission est d’assurer la distribution de la donnée de manière optimisée pour créer une couche de distribution et permettre aux Data Scientists d’implémenter les use cases. Camille apporte son expertise sur les technologies suivantes : Spark, Scala, Azure, Databricks. Nos stack Technique :  - Langage : Python/Scala/Java - Framework : Spark/Hadoop  - Cloud: Azure/ AWS/ GCP  🙌 Les avantages :  - Tickets restaurants Swile  - Mutuelle Alan prise en charge à 100% - Pass Navigo pris en charge à 100% - Télétravail - Formations illimitées - Locaux en plein coeur de Paris - Places en crèches  🤝Notre processus de recrutement :   Notre processus de recrutement se fait en 3 étapes, réparties sur 7 à 15 jours maximum :  - Première rencontre !  Vous échangez avec un RH et un dirigeant sur votre parcours, vos aspirations professionnelles ainsi que sur Margo Analytics et les opportunités que nous proposons -   Challengez-vous  dans le cadre d’un entretien technique avec l’un de nos experts. C’est également l’occasion pour vous d’avoir son retour d’expérience - Dernier entretien de motivation  : pour finir, vous rencontrez un membre du board de Margo Analytics pour un entretien final  🔍 Vous êtes un(e) futur(e) Margo Analytics si :   Must-Have Vous êtes issu(e) d’une école d’ingénieur ou d’un cursus universitaire équivalent niveau  Bac + 5  / Master Vous aimez coder et vous êtes passionné(e) d’informatique et de Data Vous êtes curieux(se) et vous vous intéressez aux dernières technologies du marché Vous justifiez d’une première expérience en tant que Data Engineer Nice to Have Vous êtes ambitieux(se) et n’avez pas peur de travailler sur des projets challengeants dans des environnements à fortes contraintes techniques . Vous parlez et comprenez l’anglais
"""

print(llm_chain.run(question))


What are the hard skills in this text?
The hard skills in this text are:

1. Knowledge of programming languages.
2. Knowledge of data analysis tools.
3. Knowledge of cloud computing.
4. Knowledge of software development processes.
5. Knowledge of data management and data governance.
6. Knowledge of data visualization and communication skills.
7. Knowledge of machine learning and artificial intelligence.
8. Knowledge of database architecture and design.
9. Knowledge of security and data privacy measures.
10. Knowledge of data quality and data governance best practices.


In [36]:
question =  """
what are the hard skills in this text
Vous maitrisez Power BI, Power Query, SQL et la modélisation data.

Vous savez conjuguer travail en équipe et autonomie et vous faites preuve d'aisance, à l'oral comme à l'écrit, en communication.

Vous êtes proactif et force de proposition, votre curiosité sera appréciée

La bienveillance, l'entraide et le collectif sont des notions importantes au sein de l'entreprise.
"""

print(llm_chain.run(question))
resume = llm_chain.run(question)


The hard skills in this text are:
- Power BI, Power Query, SQL
- Working in a team and autonomously
- Communication skills
- Proactivity and creativity
- Curiosity
- Working well with others
- Collectiveness
- Self-motivation
- Self-management.


In [37]:
resume

'\nThe hard skills in this text are:\n- Power BI, Power Query, SQL\n- Working in a team and autonomously\n- Communication skills\n- Proactivity and creativity\n- Curiosity\n- Working well with others\n- Collectiveness\n- Self-motivation\n- Self-management.'