Lecture fichier vigierh_anneemois_contrat et chargement en BDD

In [None]:
import pandas as pd
import pyarrow.parquet as pq
from sqlalchemy import create_engine, text, inspect

# 📌 Chemins et connexion BDD
FILE_PATH_PARQUET = '../vigie_rh/fichiers/parquet/vigierh_anneemois_contrat_2024_01_01.parquet'
PATH_BDD = 'postgresql://helios:h3li0s@localhost:5532/helios-preprod'
engine = create_engine(PATH_BDD)

# 📥 Lire le fichier Parquet
df = pd.read_parquet(FILE_PATH_PARQUET, engine='pyarrow')

# 📌 Correspondance des colonnes (Parquet -> Table SQL)
column_mapping = {
    'finess_et': 'numero_finess',
    'year': 'annee',
    'month': 'mois',
    'nature_contrat_code': 'type_contrat_code',
    'effectif': 'effectif'
}
df.rename(columns=column_mapping, inplace=True)

# 🔍 Récupérer les colonnes de la table
with engine.connect() as conn:
    inspector = inspect(engine)
    table_columns = [col["name"] for col in inspector.get_columns("vigierh_contrat")]


# ✂️ Garder uniquement les colonnes qui existent dans la table
df = df[[col for col in df.columns if col in table_columns]]

# 🚮 Supprimer les anciennes données AVANT insertion
with engine.connect() as conn:
    conn.execute(text("DELETE FROM vigierh_contrat;"))
    conn.commit()


# 📤 Insérer les nouvelles données en respectant la structure de la table
df.to_sql('vigierh_contrat', engine,if_exists='append',index=False,chunksize=1000,method='multi')

print("✅ Données insérées avec succès !")


Lecture fichier vigierh_anneemois_profession2 (groupe) et chargement en BDD

In [None]:
import pandas as pd
import pyarrow.parquet as pq
from sqlalchemy import create_engine, text,inspect

# Chemin vers votre fichier Parquet
FILE_PATH_PARQUET = '../vigie_rh/fichiers/parquet/vigierh_anneemois_profession2_2024_01_01.parquet'

# URL BDD
PATH_BDD = 'postgresql://helios:h3li0s@localhost:5532/helios-preprod'

# Connexion à la base
engine = create_engine(PATH_BDD)

# 📥 Lire le fichier Parquet
df = pd.read_parquet(FILE_PATH_PARQUET, engine='pyarrow')

# Correspondance des colonnes (Parquet -> Table SQL)
column_mapping = {
    'finess_et': 'numero_finess',
    'year': 'annee',
    'month': 'mois',
    'profession2_code': 'profession_code',
    'effectif': 'effectif',
    'ind_qual_effectif_code':'indic_qualite_effectif_code',
    'ind_redr_effectif_code':'indic_redressement_effectif_code',
    'ind_masq_effectif_code':'indic_masque_secret_effectif_code',

}

df.rename(columns=column_mapping, inplace=True)

# 🔍 Récupérer les colonnes existantes dans la table
with engine.connect() as conn:
    inspector = inspect(engine)
    table_columns = [col["name"] for col in inspector.get_columns("vigierh_profession_groupe")]

# ✂️ Garder uniquement les colonnes qui existent dans la table
df = df[[col for col in df.columns if col in table_columns]]

# Supprimer les anciennes données AVANT insertion
with engine.connect() as conn:
    conn.execute(text("DELETE FROM vigierh_profession_groupe;"))  # Supprime toutes les données
    conn.commit()

# Insérer les nouvelles données en respectant la structure de la table
df.to_sql(
    'vigierh_profession_groupe', engine, 
    if_exists='append',  # Ajoute les nouvelles données sans modifier la structure
    index=False,  # Ne pas insérer l'index Pandas
    chunksize=1000,  # Insertion par lots pour optimiser la performance
    method='multi'  # Regrouper les INSERT pour améliorer la vitesse
)

print(" Données insérées avec succès !")


Lecture fichier vigierh_anneemois_profession1 (filiére) et chargement en BDD

In [None]:
import pandas as pd
import pyarrow.parquet as pq
from sqlalchemy import create_engine, text,inspect

# Chemin vers votre fichier Parquet
FILE_PATH_PARQUET = '../vigie_rh/fichiers/parquet/vigierh_anneemois_profession1_2024_01_01.parquet'

# URL BDD
PATH_BDD = 'postgresql://helios:h3li0s@localhost:5532/helios-preprod'

# Connexion à la base
engine = create_engine(PATH_BDD)

# 📥 Lire le fichier Parquet
df = pd.read_parquet(FILE_PATH_PARQUET, engine='pyarrow')

# Correspondance des colonnes (Parquet -> Table SQL)
column_mapping = {
    'finess_et': 'numero_finess',
    'year': 'annee',
    'month': 'mois',
    'profession1_code': 'profession_code',
    'turnover': 'turnover',
    'entrees_taux':'taux_entrees',
    'sorties_taux':'taux_sorties',
    'entrees_nombre':'nombre_entrees',
    'sorties_nombre':'nombre_sorties',
    'region_turnover':'region_turnover',
    'nation_turnover':'nation_turnover',
    'groupe_turnover':'groupe_turnover',
}

df.rename(columns=column_mapping, inplace=True)

# 🔍 Récupérer les colonnes existantes dans la table
with engine.connect() as conn:
    inspector = inspect(engine)
    table_columns = [col["name"] for col in inspector.get_columns("vigierh_profession_filiere")]

# ✂️ Garder uniquement les colonnes qui existent dans la table
df = df[[col for col in df.columns if col in table_columns]]

# Supprimer les anciennes données AVANT insertion
with engine.connect() as conn:
    conn.execute(text("DELETE FROM vigierh_profession_filiere;"))  # Supprime toutes les données
    conn.commit()

# Insérer les nouvelles données en respectant la structure de la table
df.to_sql(
    'vigierh_profession_filiere', engine, 
    if_exists='append',  # Ajoute les nouvelles données sans modifier la structure
    index=False,  # Ne pas insérer l'index Pandas
    chunksize=1000,  # Insertion par lots pour optimiser la performance
    method='multi'  # Regrouper les INSERT pour améliorer la vitesse
)

print(" Données insérées avec succès !")


Exemple lecture table pour savoir si celà était bien alimenté

In [None]:
from sqlalchemy import create_engine,text


URL_BDD = 'postgresql://helios:h3li0s@localhost:5532/helios-preprod'

# Créer l'engine de connexion
engine = create_engine(URL_BDD)

# Requête SQL pour vérifier les premières lignes insérées
with engine.connect() as connection:
    result = connection.execute(text("SELECT * FROM vigie_rh_contrat LIMIT 5"))
    for row in result:
        print(row)