## MERGING JOCAS (JOB SUPPLY) DATA

The JOCAS data available to us from Progedo (2020) is composed as follow:

```plaintext
JOCAS/
│── Website_1/
│   ├── January/
│   │   ├── 01.xlsx
│   │   ├── 02.xlsx
│   │   ├── ...
│   │   ├── 31.xlsx
│   ├── ...
│   ├── December/
│   │   ├── 01.xlsx
│   │   ├── 02.xlsx
│   │   ├── ...
│   │   ├── 31.xlsx
│
│── Website_2/
│   ├── January/
│   │   ├── 01.xlsx
│   │   ├── 02.xlsx
│   │   ├── ...
│   │   ├── 31.xlsx
│   ├── ...
│
│── ...
```
The objective of this notebook is to extract the data of interest from all this JOCAS database (data for communes>5000 habitants) into one excel file

In [6]:
# IMPORT LIBRARIES
import matplotlib.pyplot as plt
import pandas as pd
import os
import re # For regular expression
import geopandas as gpd # To read geospatial data
from pathlib import Path # To set relative paths
import unidecode # To standardize strings
import py7zr # To unzip files

In [7]:
# GETTING PROJECT'S ROOT DIRECTORY
my_desktop = Path().resolve()  # Path to my Desktop
jocas_dir = my_desktop / "JOCAS DATA"

# IMPORTING COMMUNES NAMES, WITH MORE THAN 5000 HABITANTS
commune_names = pd.read_csv("/Users/alfonso/Desktop/Project-LabourMarketTensions/data/2- Formatted Data/name_communes_5000.csv").squeeze().tolist()  

In [9]:
# READ DATASET
df = pd.read_csv("/Users/alfonso/Desktop/JOCAS DATA/leboncoin/2020-01/20200101_offers.csv", sep=";")

# RENAME COLUMNS OF INTEREST
df.rename(columns={"location_label": "commune", "job_ROME_code": "rome_code"}, inplace=True)

# COMMUNE NAME STANDARDIZATION FUNCTION
def standardize_commune(name):
    if pd.isna(name):
        return None
    name = unidecode.unidecode(name.lower().strip())  # Remove accents & lowercase
    name = re.sub(r"[-'’]", " ", name)  # Remove hyphens & apostrophes
    name = re.sub(r"\bst[ .]", "saint ", name)  # Standardize "St." -> "Saint"
    return name

# APPLY STANDARDIZATION
df["commune"] = df["commune"].apply(standardize_commune)

# FILTER FOR COMMUNES WITH MORE THAN 5000 HABITANTS
df_filtered = df[df["commune"].isin(commune_names)]

# GROUP BY COMMUNE AND CODE ROME AND COUNT JOB OFFERS
df_grouped = df_filtered.groupby(["commune", "rome_code"]).size().reset_index(name="job_offers")


In [16]:
df.columns

Index(['url', 'date_firstSeenDay', 'date_scraping', 'site_name', 'site_child',
       'scrapingFailure_status', 'ID_JOCAS', 'date_firstDisappearedDay',
       'date_lastSeenDay', 'date_sitePublicationDay', 'job_title', 'rome_code',
       'job_qualification', 'contractType', 'contractDuration_min',
       'contractDuration_max', 'contractDuration_period',
       'contractDuration_value', 'workTime_hours', 'workTime_category',
       'workTime_value', 'description_job', 'description_profil',
       'description_entreprise', 'description_full', 'commune',
       'location_zipcode', 'location_departement', 'location_country',
       'salary_min', 'salary_max', 'salary_period', 'salary_value',
       'salary_hourly_mean', 'salary_hourly_min', 'salary_hourly_max',
       'entreprise_nom', 'entreprise_siren', 'entrepriseSecteur_NAF88',
       'entrepriseSecteur_NAF21', 'partner_name', 'partner_status',
       'teleworking_accepted', 'teleworking_type', 'teleworking_mentioned',
       'experi

In [13]:
df_grouped.head(15)

Unnamed: 0,commune,rome_code,job_offers
0,agen,F1603,1
1,aire sur la lys,F1704,1
2,aix en provence,H3404,1
3,aix en provence,N1103,1
4,aix les bains,N1105,1
5,albertville,M1302,1
6,alencon,F1602,1
7,alencon,I1604,1
8,ales,H2102,1
9,ales,I1607,1


## ROME --> FAP LINKING TABLE WORKFLOW

In [14]:
# Import ROME to FAP linking table
link = pd.read_excel("/Users/alfonso/Desktop/Project-LabourMarketTensions/data/linking tables/Rome-V3 vers Fap-2009.xls", sheet_name=1)

# Assigning category (FAP) column
category_col = link.columns[0]

# Function to extract categories into separate columns
def extract_categories(code):
    if pd.isna(code):
        return pd.Series([None, None, None])  # Handle missing values
    elif len(code) == 1:  # Level 1 (e.g., 'A')
        return pd.Series([code, None, None])
    elif len(code) == 3:  # Level 2 (e.g., 'A0Z')
        return pd.Series([code[0], code, None])
    else:  # Level 3 (e.g., 'A0Z00')
        return pd.Series([code[0], code[:3], code])

# Apply function to create new category columns
link[['fap22', 'fap87', 'fap225']] = link[category_col].apply(extract_categories)

# Drop blank rows
link = link.dropna(subset=['fap22', 'fap87', 'fap225', "ROME"], how='all')

# Create the new columns based on conditions
link["famille_pro22"] = link["Familles professionnelles"].where(link["fap22"].notna() & link["fap87"].isna() & link["fap225"].isna())
link["famille_pro87"] = link["Familles professionnelles"].where(link["fap22"].notna() & link["fap87"].notna() & link["fap225"].isna())
link["famille_pro225"] = link["Familles professionnelles"].where(link["fap22"].notna() & link["fap87"].notna() & link["fap225"].notna())

# Replace NA
link = link.fillna(method="ffill")

# Keep columns and data of interest
link = link[(link["FAP"].str.len() == 5)]
link = link.drop(columns=["FAP", "Familles professionnelles", "Qualification"])
link = link[["fap22", "famille_pro22", "fap87", "famille_pro87", "fap225", "famille_pro225", "PCS",
        "Professions et catégories socioprofessionnelles", "ROME", "Répertoire Opérationnel des Métiers et des Emplois"]]

In [15]:
link.head(10)

Unnamed: 0,fap22,famille_pro22,fap87,famille_pro87,fap225,famille_pro225,PCS,Professions et catégories socioprofessionnelles,ROME,Répertoire Opérationnel des Métiers et des Emplois
8,A,"Agriculture, marine, pêche",A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A0Z00,Agriculteurs indépendants,111a,Agriculteurs sur petite exploitation de céréal...,,
16,A,"Agriculture, marine, pêche",A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A0Z01,Éleveurs indépendants,111d,"Éleveurs d'herbivores, sur petite exploitation",,
23,A,"Agriculture, marine, pêche",A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A0Z02,"Bûcherons, sylviculteurs indépendants",122b,"Exploitants forestiers indépendants, de 0 à 9 ...",,
25,A,"Agriculture, marine, pêche",A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A0Z40,Agriculteurs salariés,691e,Ouvriers agricoles sans spécialisation particu...,A1416,"Polyculture, élevage"
27,A,"Agriculture, marine, pêche",A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A0Z41,Éleveurs salariés,691b,Ouvriers de l'élevage,A1403,Aide d'élevage agricole et aquacole
28,A,"Agriculture, marine, pêche",A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A0Z41,Éleveurs salariés,691b,Ouvriers de l'élevage,A1407,Élevage bovin ou équin
29,A,"Agriculture, marine, pêche",A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A0Z41,Éleveurs salariés,691b,Ouvriers de l'élevage,A1408,Élevage d'animaux sauvages ou de compagnie
30,A,"Agriculture, marine, pêche",A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A0Z41,Éleveurs salariés,691b,Ouvriers de l'élevage,A1409,Élevage de lapins et volailles
31,A,"Agriculture, marine, pêche",A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A0Z41,Éleveurs salariés,691b,Ouvriers de l'élevage,A1410,Élevage ovin ou caprin
32,A,"Agriculture, marine, pêche",A0Z,"Agriculteurs, éleveurs, sylviculteurs, bûcherons",A0Z41,Éleveurs salariés,691b,Ouvriers de l'élevage,A1411,Élevage porcin
