Lecture fichier vigierh_anneemois_contrat et chargement en BDD

In [None]:
import pandas as pd
import pyarrow.parquet as pq
from sqlalchemy import create_engine, text

# Chemin vers votre fichier Parquet
FILE_PATH_PARQUET = '../vigie_rh/fichiers/parquet/vigierh_anneemois_contrat_2024_01_01.parquet'

# URL BDD
PATH_BDD = 'postgresql://helios:h3li0s@localhost:5532/helios-preprod'

# Connexion à la base
engine = create_engine(PATH_BDD)

# 📥 Lire le fichier Parquet
df = pd.read_parquet(FILE_PATH_PARQUET, engine='pyarrow')

# Correspondance des colonnes (Parquet -> Table SQL)
column_mapping = {
    'finess_et': 'numero_finess',
    'year': 'annee',
    'month': 'mois',
    'nature_contrat': 'type_contrat',
    'effectif': 'effectif'
}

df.rename(columns=column_mapping, inplace=True)

# Supprimer les anciennes données AVANT insertion
with engine.connect() as conn:
    conn.execute(text("DELETE FROM vigie_rh_contrat;"))  # Supprime toutes les données
    conn.commit()

# Insérer les nouvelles données en respectant la structure de la table
df.to_sql(
    'vigie_rh_contrat', engine, 
    if_exists='append',  # Ajoute les nouvelles données sans modifier la structure
    index=False,  # Ne pas insérer l'index Pandas
    chunksize=1000,  # Insertion par lots pour optimiser la performance
    method='multi'  # Regrouper les INSERT pour améliorer la vitesse
)

print(" Données insérées avec succès !")


Lecture fichier vigierh_anneemois_profession2 (groupe) et chargement en BDD

In [None]:
import pandas as pd
import pyarrow.parquet as pq
from sqlalchemy import create_engine, text

# Chemin vers votre fichier Parquet
FILE_PATH_PARQUET = '../vigie_rh/fichiers/parquet/vigierh_anneemois_profession2_2024_01_01.parquet'

# URL BDD
PATH_BDD = 'postgresql://helios:h3li0s@localhost:5532/helios-preprod'

# Connexion à la base
engine = create_engine(PATH_BDD)

# 📥 Lire le fichier Parquet
df = pd.read_parquet(FILE_PATH_PARQUET, engine='pyarrow')

# Correspondance des colonnes (Parquet -> Table SQL)
column_mapping = {
    'finess_et': 'numero_finess',
    'year': 'annee',
    'month': 'mois',
    'profession2': 'profession',
    'effectif': 'effectif',
    'ind_qual_effectif':'indic_qualite_effectif',
    'ind_redr_effectif':'indic_redressement_effectif',
    'ind_masq_effectif':'indic_masque_secret_effectif',

}

df.rename(columns=column_mapping, inplace=True)

# Supprimer les anciennes données AVANT insertion
with engine.connect() as conn:
    conn.execute(text("DELETE FROM vigie_rh_profession_groupe;"))  # Supprime toutes les données
    conn.commit()

# Insérer les nouvelles données en respectant la structure de la table
df.to_sql(
    'vigie_rh_profession_groupe', engine, 
    if_exists='append',  # Ajoute les nouvelles données sans modifier la structure
    index=False,  # Ne pas insérer l'index Pandas
    chunksize=1000,  # Insertion par lots pour optimiser la performance
    method='multi'  # Regrouper les INSERT pour améliorer la vitesse
)

print(" Données insérées avec succès !")


Lecture fichier vigierh_anneemois_profession1 (filiére) et chargement en BDD

In [None]:
import pandas as pd
import pyarrow.parquet as pq
from sqlalchemy import create_engine, text

# Chemin vers votre fichier Parquet
FILE_PATH_PARQUET = '../vigie_rh/fichiers/parquet/vigierh_anneemois_profession1_2024_01_01.parquet'

# URL BDD
PATH_BDD = 'postgresql://helios:h3li0s@localhost:5532/helios-preprod'

# Connexion à la base
engine = create_engine(PATH_BDD)

# 📥 Lire le fichier Parquet
df = pd.read_parquet(FILE_PATH_PARQUET, engine='pyarrow')

# Correspondance des colonnes (Parquet -> Table SQL)
column_mapping = {
    'finess_et': 'numero_finess',
    'year': 'annee',
    'month': 'mois',
    'profession1': 'profession',
    'turnover': 'turnover',
    'entrees_taux':'entree_taux',
    'sorties_taux':'entree_sortie',
    'entrees':'entrees',
    'sorties':'sorties',
    'turnover_ref_region':'turnover_ref_region',
    'turnover_ref_nation':'turnover_ref_nation',
    'turnover_ref_categorie':'turnover_ref_categorie',
}

df.rename(columns=column_mapping, inplace=True)

# Supprimer les anciennes données AVANT insertion
with engine.connect() as conn:
    conn.execute(text("DELETE FROM vigie_rh_profession_filiere;"))  # Supprime toutes les données
    conn.commit()

# Insérer les nouvelles données en respectant la structure de la table
df.to_sql(
    'vigie_rh_profession_filiere', engine, 
    if_exists='append',  # Ajoute les nouvelles données sans modifier la structure
    index=False,  # Ne pas insérer l'index Pandas
    chunksize=1000,  # Insertion par lots pour optimiser la performance
    method='multi'  # Regrouper les INSERT pour améliorer la vitesse
)

print(" Données insérées avec succès !")


Exemple lecture table pour savoir si celà était bien alimenté

In [None]:
from sqlalchemy import create_engine,text


URL_BDD = 'postgresql://helios:h3li0s@localhost:5532/helios-preprod'

# Créer l'engine de connexion
engine = create_engine(URL_BDD)

# Requête SQL pour vérifier les premières lignes insérées
with engine.connect() as connection:
    result = connection.execute(text("SELECT * FROM vigie_rh_contrat LIMIT 5"))
    for row in result:
        print(row)