# TechNova Attrition Analysis - Pr√©disez et comprenez le turnover des employ√©s.

<div align="left">
  <img src="../docs/images/logo_technova.png" width="200px" alt="Logo TechNova Partners">
</div>

## **Objectif**: Identifier les causes racines de l'attrition et pr√©dire le d√©part des collaborateurs √† l'aide de **XGBoost** et **SHAP**.

# <span style="color:red"> üîç Mission facultative - Partie 2 - Identifiez les causes d'attrition au sein d'une ESN</span>


# ‚¨áÔ∏è IMPORTATION DES LIBRAIRIES

In [83]:
import joblib
import pandas as pd
from pathlib import Path
import numpy as np

from sqlalchemy import create_engine
from sqlalchemy import text
import urllib.parse

# ‚öôÔ∏è CONFIGURATION GLOBALE DU PROJET

In [84]:
RAW_DATA_DIR     = Path("../data/raw")
PREPROCESED_DIR  = Path("../data/processed")
MODELS_DIR       = Path("../models/V2")  

FEATURE_TARGET           = "attrition_binary"

FEATURE_TARGET_INITIAL   = "a_quitte_l_entreprise"


# 1 : Importation des biblioth√®ques et configuration

In [85]:
import pandas as pd
from sqlalchemy import create_engine
import psycopg2

# Configuration de la connexion PostgreSQL
# Remplace 'utilisateur', 'mot_de_passe' et 'localhost' par tes acc√®s r√©els
# 1. Protection du mot de passe (si tu as des caract√®res sp√©ciaux comme @ ou √©)
password = urllib.parse.quote_plus("postgres") 
DB_URI = f"postgresql://postgres:{password}@localhost:5432/technova_db"

# 2. Cr√©ation du moteur avec encodage forc√©
engine = create_engine(DB_URI, client_encoding='utf8')

print("‚úÖ Biblioth√®ques charg√©es et moteur de base de donn√©es configur√©.")

‚úÖ Biblioth√®ques charg√©es et moteur de base de donn√©es configur√©.


## üëÄüõ¢Ô∏è Methods pour inspectioner la base de donn√©es

In [86]:
import pandas as pd
from sqlalchemy import text

def inspect_table_columns(table_name, engine):
    """
    Lista las columnas y tipos de datos de una tabla espec√≠fica.
    """
    query = text(f"""
        SELECT column_name, data_type, is_nullable
        FROM information_schema.columns
        WHERE table_name = '{table_name}'
        ORDER BY ordinal_position;
    """)
    
    with engine.connect() as conn:
        df_schema = pd.read_sql(query, conn)
    
    if df_schema.empty:
        print(f"‚ö†Ô∏è La tabla '{table_name}' no existe o est√° vac√≠a en el esquema actual.")
    else:
        print(f"‚úÖ Estructura de la tabla: {table_name}")
        return df_schema

# --- USE ---
# inspect_table_columns('raw_evals', engine)

## üìó Creation du un META-DICTIONAIRE 

In [87]:
meta_dict_enrichi = {
    # === VARIABLE CIBLE ===
    "a_quitte_l_entreprise"                     : {
        "description"        : "A quitt√© l'entreprise (Variable cible)",
        "type"               : "object",
        "categorie"          : "Target",
        "unite"              : None,
        "a_supprimer"        : True,
        "raison_suppression" : "VARIABLE CIBLE - Deja codifiqu√© dans la phase EDA",
        "valeurs_possibles"  : ["Oui", "Non"],
    },
    
    # === IDENTIFIANTS ===
    "id"                                        : {
        "description"        : "Identifiant secondaire",
        "type"               : "object",
        "categorie"          : "Identifiant",
        "unite"              : None,
        "a_supprimer"        : True,
        "raison_suppression" : "Identifiant utilis√© dans le merge"
    },
    "id_employee"                               : {
        "description"        : "Identifiant unique de l'employ√©",
        "type"               : "int64",
        "categorie"          : "Identifiant",
        "unite"              : None,
        "a_supprimer"        : True,
        "raison_suppression" : "Identifiant technique sans valeur pr√©dictive (df_sirh)"
    },
    "code_sondage"                              : {
        "description"        : "Code du sondage RH",
        "type"               : "int64",
        "categorie"          : "Identifiant",
        "unite"              : None,
        "a_supprimer"        : True,
        "raison_suppression" : "Identifiant de sondage sans valeur pr√©dictive (df_sondage)"
    },
    "eval_number"                               : {
        "description"        : "Num√©ro ou type d'√©valuation",
        "type"               : "object",
        "categorie"          : "Identifiant",
        "unite"              : None,
        "a_supprimer"        : True,
        "raison_suppression" : "Identifiant de sondage sans valeur pr√©dictive (evals)"
    },

    # === CONSTANTS ===

    "nombre_employee_sous_responsabilite"       : {
        "description"        : "Nombre d'employ√©s sous sa responsabilit√©",
        "type"               : "int64",
        "categorie"          : "Management",
        "unite"              : "nombre",
        "a_supprimer"        : True,
        "raison_suppression" : "Constant"
    },
    "nombre_heures_travailless"                 : {
        "description"        : "Nombre d'heures de travail hebdomadaires",
        "type"               : "int64",
        "categorie"          : "Temps de travail",
        "unite"              : "heures/semaine",
        "a_supprimer"        : True,
        "raison_suppression" : "Constant"
    },

    "ayant_enfants"                             : {
        "description"        : "A des enfants",
        "type"               : "object",
        "categorie"          : "D√©mographique",
        "unite"              : None,
        "a_supprimer"        : True,
        "raison_suppression" : "Constant"
    },
    # === DONN√âES D√âMOGRAPHIQUES ===
    "age"                                       : {
        "description"        : "√Çge de l'employ√©",
        "type"               : "int64",
        "categorie"          : "D√©mographique",
        "unite"              : "ann√©es",
        "a_supprimer"        : False,
    },
    "genre"                                     : {
        "description"        : "Genre de l'employ√©",
        "type"               : "object",
        "categorie"          : "D√©mographique",
        "unite"              : None,
        "a_supprimer"        : False,
    },
    "statut_marital"                            : {
        "description"        : "Statut matrimonial",
        "type"               : "object",
        "categorie"          : "D√©mographique",
        "unite"              : None,
        "a_supprimer"        : False,
    },

    "distance_domicile_travail"                 : {
        "description"        : "Distance entre domicile et travail",
        "type"               : "int64",
        "categorie"          : "D√©mographique",
        "unite"              : "km",
        "a_supprimer"        : False,
    },

    # === √âDUCATION ET FORMATION ===
    "niveau_education"                          : {
        "description"        : "Niveau d'√©ducation",
        "type"               : "int64",
        "categorie"          : "√âducation",
        "unite"              : "niveau (1-5)",
        "a_supprimer"        : False,
        "encodage_necessaire": False,
        "note"               : "Variable ordinale d√©j√† encod√©e"
    },
    "domaine_etude"                             : {
        "description"        : "Domaine d'√©tudes principal",
        "type"               : "object",
        "categorie"          : "√âducation",
        "unite"              : None,
        "a_supprimer"        : False,
    },
    "nb_formations_suivies"                     : {
        "description"        : "Nombre de formations suivies dans l'entreprise",
        "type"               : "int64",
        "categorie"          : "√âducation",
        "unite"              : "nombre",
        "a_supprimer"        : False,
    },

    # === POSTE ET D√âPARTEMENT ===
    "departement"                               : {
        "description"        : "D√©partement de travail",
        "type"               : "object",
        "categorie"          : "Poste",
        "unite"              : None,
        "a_supprimer"        : False,
    },
    "poste"                                     : {
        "description"        : "Intitul√© du poste occup√©",
        "type"               : "object",
        "categorie"          : "Poste",
        "unite"              : None,
        "a_supprimer"        : False,
    },
    "niveau_hierarchique_poste"                 : {
        "description"        : "Niveau hi√©rarchique du poste",
        "type"               : "int64",
        "categorie"          : "Poste",
        "unite"              : "niveau (1-5)",
        "a_supprimer"        : False,
    },

    # === R√âMUN√âRATION ===
    "revenu_mensuel"                            : {
        "description"        : "Revenu mensuel brut",
        "type"               : "int64",
        "categorie"          : "R√©mun√©ration",
        "unite"              : "‚Ç¨",
        "a_supprimer"        : False,
    },
    "augementation_salaire_precedente"          : {
        "description"        : "Pourcentage d'augmentation salariale pr√©c√©dente",
        "type"               : "object",
        "categorie"          : "R√©mun√©ration",
        "unite"              : "%",
        "a_supprimer"        : False,
    },

    # === EXP√âRIENCE PROFESSIONNELLE ===
    "nombre_experiences_precedentes"            : {
        "description"        : "Nombre d'employeurs pr√©c√©dents",
        "type"               : "int64",
        "categorie"          : "Exp√©rience",
        "unite"              : "nombre",
        "a_supprimer"        : False,
    },
    "annee_experience_totale"                   : {
        "description"        : "Ann√©es d'exp√©rience professionnelle totale",
        "type"               : "int64",
        "categorie"          : "Exp√©rience",
        "unite"              : "ann√©es",
        "a_supprimer"        : False,
    },
    "annees_dans_l_entreprise"                  : {
        "description"        : "Anciennet√© dans l'entreprise",
        "type"               : "int64",
        "categorie"          : "Exp√©rience",
        "unite"              : "ann√©es",
        "a_supprimer"        : False,
    },
    "annees_dans_le_poste_actuel"               : {
        "description"        : "Anciennet√© dans le poste actuel",
        "type"               : "int64",
        "categorie"          : "Exp√©rience",
        "unite"              : "ann√©es",
        "a_supprimer"        : False,
    },
    "annees_depuis_la_derniere_promotion"       : {
        "description"        : "Ann√©es √©coul√©es depuis la derni√®re promotion",
        "type"               : "int64",
        "categorie"          : "Exp√©rience",
        "unite"              : "ann√©es",
        "a_supprimer"        : False,
    },

    # === TEMPS DE TRAVAIL ===

    "heure_supplementaires"                     : {
        "description"        : "Fait des heures suppl√©mentaires",
        "type"               : "object",
        "categorie"          : "Temps de travail",
        "unite"              : None,
        "a_supprimer"        : False,
    },
    "frequence_deplacement"                     : {
        "description"        : "Fr√©quence des d√©placements professionnels",
        "type"               : "object",
        "categorie"          : "Temps de travail",
        "unite"              : None,
        "a_supprimer"        : False,
    },

    # === √âVALUATIONS ET PERFORMANCE ===
    "note_evaluation_precedente"                : {
        "description"        : "Note de l'√©valuation pr√©c√©dente",
        "type"               : "int64",
        "categorie"          : "Performance",
        "unite"              : "score (1-100)",
        "a_supprimer"        : False,
        "encodage_necessaire": False
    },
    "note_evaluation_actuelle"                  : {
        "description"        : "Note de l'√©valuation actuelle",
        "type"               : "int64",
        "categorie"          : "Performance",
        "unite"              : "score (1-100)",
        "a_supprimer"        : False,
    },


    # === SATISFACTION AU TRAVAIL ===
    "satisfaction_employee_environnement"       : {
        "description"        : "Satisfaction vis-√†-vis de l'environnement de travail",
        "type"               : "int64",
        "categorie"          : "Satisfaction",
        "unite"              : "score (1-4)",
        "a_supprimer"        : False,
    },
    "satisfaction_employee_nature_travail"      : {
        "description"        : "Satisfaction vis-√†-vis de la nature du travail",
        "type"               : "int64",
        "categorie"          : "Satisfaction",
        "unite"              : "score (1-4)",
        "a_supprimer"        : False,
    },
    "satisfaction_employee_equipe"              : {
        "description"        : "Satisfaction vis-√†-vis de l'√©quipe de travail",
        "type"               : "int64",
        "categorie"          : "Satisfaction",
        "unite"              : "score (1-4)",
        "a_supprimer"        : False,
    },
    "satisfaction_employee_equilibre_pro_perso": {
        "description"        : "Satisfaction vis-√†-vis de l'√©quilibre vie professionnelle/personnelle",
        "type"               : "int64",
        "categorie"          : "Satisfaction",
        "unite"              : "score (1-4)",
        "a_supprimer"        : False,
    },

    # === ENGAGEMENT ET PARTICIPATION ===
    "nombre_participation_pee"                  : {
        "description"        : "Nombre de participations au Plan d'√âpargne Entreprise",
        "type"               : "int64",
        "categorie"          : "Engagement",
        "unite"              : "nombre",
        "a_supprimer"        : False,
    },

    # === MANAGEMENT ===

    "annes_sous_responsable_actuel"             : {
        "description"        : "Ann√©es pass√©es sous le responsable actuel",
        "type"               : "int64",
        "categorie"          : "Management",
        "unite"              : "ann√©es",
        "a_supprimer"        : False,
    }


}

# ========================================================================
# FONCTIONS UTILITAIRES
# ========================================================================

def afficher_metadata(colonne):
    """Affiche les m√©tadonn√©es d'une colonne"""
    if colonne in meta_dict_enrichi:
        meta = meta_dict_enrichi[colonne]
        print(f"\n{'='*60}")
        print(f"M√âTADONN√âES : {colonne}")
        print(f"{'='*60}")
        for key, value in meta.items():
            print(f"{key:25s} : {value}")
    else:
        print(f"‚ùå Colonne '{colonne}' non trouv√©e dans le dictionnaire")


def lister_colonnes_par_categorie(categorie):
    """Liste toutes les colonnes d'une cat√©gorie donn√©e"""
    colonnes = [
        col for col, meta in meta_dict_enrichi.items() 
        if meta['categorie'] == categorie
    ]
    return colonnes


def lister_colonnes_a_encoder():
    """Liste toutes les colonnes n√©cessitant un encodage"""
    colonnes = [
        (col, meta['type_encodage']) 
        for col, meta in meta_dict_enrichi.items() 
        if meta.get('encodage_necessaire', False)
    ]
    return colonnes


def lister_colonnes_a_supprimer():
    """Liste toutes les colonnes √† supprimer"""
    colonnes = [
        (col, meta.get('raison_suppression', 'Non sp√©cifi√©e')) 
        for col, meta in meta_dict_enrichi.items() 
        if meta.get('a_supprimer', False)
    ]
    return colonnes

# 2 : ‚ùáÔ∏è Lecture des fichiers bruts

In [88]:
df_sirh    = pd.read_csv(RAW_DATA_DIR / "extrait_sirh.csv")
df_evals   = pd.read_csv(RAW_DATA_DIR / "extrait_eval.csv")
df_sondage = pd.read_csv(RAW_DATA_DIR / "extrait_sondage.csv")

## Structure df_sirh

### Explore Structure df_sirh

In [89]:
print(df_sirh.info())        

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1470 entries, 0 to 1469
Data columns (total 12 columns):
 #   Column                          Non-Null Count  Dtype 
---  ------                          --------------  ----- 
 0   id_employee                     1470 non-null   int64 
 1   age                             1470 non-null   int64 
 2   genre                           1470 non-null   object
 3   revenu_mensuel                  1470 non-null   int64 
 4   statut_marital                  1470 non-null   object
 5   departement                     1470 non-null   object
 6   poste                           1470 non-null   object
 7   nombre_experiences_precedentes  1470 non-null   int64 
 8   nombre_heures_travailless       1470 non-null   int64 
 9   annee_experience_totale         1470 non-null   int64 
 10  annees_dans_l_entreprise        1470 non-null   int64 
 11  annees_dans_le_poste_actuel     1470 non-null   int64 
dtypes: int64(8), object(4)
memory usage: 137.9+ KB
N

### Create Structure raw_sirh

In [90]:
# 1. Pr√©parer la requ√™te avec l'objet text
query_create = text("""
CREATE TABLE IF NOT EXISTS raw_sirh (
    id_employee                     INT PRIMARY KEY,
    age                             INT,
    genre                           VARCHAR(8),
    revenu_mensuel                  INT,
    statut_marital                  VARCHAR(32),
    departement                     VARCHAR(32),
    poste                           VARCHAR(64),
    nombre_experiences_precedentes  INT,
    nombre_heures_travailless       INT,
    annee_experience_totale         INT,
    annees_dans_l_entreprise        INT,
    annees_dans_le_poste_actuel      INT,
    emp_id                          VARCHAR(8)
);
""")

# 2. Ex√©cuter via une connexion
with engine.connect() as conn:
    conn.execute(query_create)
    conn.commit()  # Tr√®s important pour valider la transaction
    print("Table 'raw_sirh' cr√©√©e ou d√©j√† existante.")


inspect_table_columns('raw_sirh', engine)

Table 'raw_sirh' cr√©√©e ou d√©j√† existante.
‚úÖ Estructura de la tabla: raw_sirh


Unnamed: 0,column_name,data_type,is_nullable
0,id_employee,bigint,YES
1,age,bigint,YES
2,genre,text,YES
3,revenu_mensuel,bigint,YES
4,statut_marital,text,YES
5,departement,text,YES
6,poste,text,YES
7,nombre_experiences_precedentes,bigint,YES
8,nombre_heures_travailless,bigint,YES
9,annee_experience_totale,bigint,YES


### Nettoyage de la table SIRH (Syst√®me d'Information RH)

In [91]:
query_clean = text("""
DROP VIEW IF EXISTS v_clean_sirh CASCADE;

CREATE VIEW v_clean_sirh AS
SELECT 
    CAST(emp_id AS VARCHAR(8)) AS emp_id,
    id_employee,
    age,
    TRIM(genre) AS genre,
    revenu_mensuel,
    TRIM(statut_marital) AS statut_marital,
    TRIM(departement) AS departement,
    TRIM(poste) AS poste,
    nombre_experiences_precedentes,
    nombre_heures_travailless,
    annee_experience_totale,
    annees_dans_l_entreprise,
    annees_dans_le_poste_actuel
FROM raw_sirh
WHERE emp_id IS NOT NULL;
""")

# 2. Ex√©cuter via une connexion
with engine.connect() as conn:
    conn.execute(query_clean)
    conn.commit()  # Tr√®s important pour valider la transaction
    print("VIEW 'v_clean_sirh' cr√©√©e")

inspect_table_columns('v_clean_sirh', engine)

VIEW 'v_clean_sirh' cr√©√©e
‚úÖ Estructura de la tabla: v_clean_sirh


Unnamed: 0,column_name,data_type,is_nullable
0,emp_id,character varying,YES
1,id_employee,bigint,YES
2,age,bigint,YES
3,genre,text,YES
4,revenu_mensuel,bigint,YES
5,statut_marital,text,YES
6,departement,text,YES
7,poste,text,YES
8,nombre_experiences_precedentes,bigint,YES
9,nombre_heures_travailless,bigint,YES


## Structure df_evals

### Explore Structure df_evals

In [92]:
print(df_evals.info())  

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1470 entries, 0 to 1469
Data columns (total 10 columns):
 #   Column                                     Non-Null Count  Dtype 
---  ------                                     --------------  ----- 
 0   satisfaction_employee_environnement        1470 non-null   int64 
 1   note_evaluation_precedente                 1470 non-null   int64 
 2   niveau_hierarchique_poste                  1470 non-null   int64 
 3   satisfaction_employee_nature_travail       1470 non-null   int64 
 4   satisfaction_employee_equipe               1470 non-null   int64 
 5   satisfaction_employee_equilibre_pro_perso  1470 non-null   int64 
 6   eval_number                                1470 non-null   object
 7   note_evaluation_actuelle                   1470 non-null   int64 
 8   heure_supplementaires                      1470 non-null   object
 9   augementation_salaire_precedente           1470 non-null   object
dtypes: int64(7), object(3)
memory usage:

### Create Structure raw_evals

In [93]:
# 1. Pr√©parer la requ√™te avec l'objet text
query_create = text("""
CREATE TABLE IF NOT EXISTS raw_evals (
    satisfaction_employee_environnement       INT,
    note_evaluation_precedente      INT,
    niveau_hierarchique_poste       INT,
    satisfaction_employee_nature_travail     INT,
    satisfaction_employee_equipe    INT,
    satisfaction_employee_equilibre_pro_perso      INT,
    eval_number                     VARCHAR(8),
    note_evaluation_actuelle        INT,
    heure_supplementaires           VARCHAR(5),
    augementation_salaire_precedente      VARCHAR(5),
    emp_id                          VARCHAR(8)
);
""")

# 2. Ex√©cuter via une connexion
with engine.connect() as conn:
    conn.execute(query_create)
    conn.commit()  # Tr√®s important pour valider la transaction
    print("Table 'raw_evals' cr√©√©e ou d√©j√† existante.")

inspect_table_columns('raw_evals', engine)

Table 'raw_evals' cr√©√©e ou d√©j√† existante.
‚úÖ Estructura de la tabla: raw_evals


Unnamed: 0,column_name,data_type,is_nullable
0,satisfaction_employee_environnement,bigint,YES
1,note_evaluation_precedente,bigint,YES
2,niveau_hierarchique_poste,bigint,YES
3,satisfaction_employee_nature_travail,bigint,YES
4,satisfaction_employee_equipe,bigint,YES
5,satisfaction_employee_equilibre_pro_perso,bigint,YES
6,eval_number,text,YES
7,note_evaluation_actuelle,bigint,YES
8,heure_supplementaires,text,YES
9,augementation_salaire_precedente,text,YES


### Nettoyage de la table √âvaluations

In [94]:
# A√±adimos la 'r' antes de las triples comillas
query_clean = text(r"""
DROP VIEW IF EXISTS v_clean_evals CASCADE;

CREATE VIEW v_clean_evals AS
SELECT 
    CAST(emp_id AS VARCHAR(8)) AS emp_id,
    satisfaction_employee_environnement,
    note_evaluation_precedente,
    niveau_hierarchique_poste,
    satisfaction_employee_nature_travail,
    satisfaction_employee_equipe,
    satisfaction_employee_equilibre_pro_perso,
    note_evaluation_actuelle,
    -- Encodage binaire des heures suppl√©mentaires
    CASE 
        WHEN TRIM(heure_supplementaires) IN ('Oui', 'Yes') THEN 1 
        ELSE 0 
    END AS heure_supplementaires_binary,
    -- Conversion des pourcentages en float
    CASE 
        WHEN augementation_salaire_precedente ~ '^[0-9]+\.?[0-9]*' THEN 
            CAST(REPLACE(augementation_salaire_precedente, '%', '') AS FLOAT) / 100
        ELSE 0 
    END AS augementation_salaire_precedente
FROM raw_evals; 
""")

# Ejecutar la query
with engine.connect() as conn:
    conn.execute(query_clean)
    conn.commit()
    print("‚úÖ Vista v_clean_evals creada sin errores de sintaxis.")

inspect_table_columns('v_clean_evals', engine)

‚úÖ Vista v_clean_evals creada sin errores de sintaxis.
‚úÖ Estructura de la tabla: v_clean_evals


Unnamed: 0,column_name,data_type,is_nullable
0,emp_id,character varying,YES
1,satisfaction_employee_environnement,bigint,YES
2,note_evaluation_precedente,bigint,YES
3,niveau_hierarchique_poste,bigint,YES
4,satisfaction_employee_nature_travail,bigint,YES
5,satisfaction_employee_equipe,bigint,YES
6,satisfaction_employee_equilibre_pro_perso,bigint,YES
7,note_evaluation_actuelle,bigint,YES
8,heure_supplementaires_binary,integer,YES
9,augementation_salaire_precedente,double precision,YES


## Structure df_sondage

### Explore Structure df_sondage

In [95]:
print(df_sondage.info())  

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1470 entries, 0 to 1469
Data columns (total 12 columns):
 #   Column                               Non-Null Count  Dtype 
---  ------                               --------------  ----- 
 0   a_quitte_l_entreprise                1470 non-null   object
 1   nombre_participation_pee             1470 non-null   int64 
 2   nb_formations_suivies                1470 non-null   int64 
 3   nombre_employee_sous_responsabilite  1470 non-null   int64 
 4   code_sondage                         1470 non-null   int64 
 5   distance_domicile_travail            1470 non-null   int64 
 6   niveau_education                     1470 non-null   int64 
 7   domaine_etude                        1470 non-null   object
 8   ayant_enfants                        1470 non-null   object
 9   frequence_deplacement                1470 non-null   object
 10  annees_depuis_la_derniere_promotion  1470 non-null   int64 
 11  annes_sous_responsable_actuel        1470 n

### Create Structure raw_sondage

In [96]:
# 1. Pr√©parer la requ√™te avec l'objet text
query_create = text("""
CREATE TABLE IF NOT EXISTS raw_sondage (
    a_quitte_l_entreprise           VARCHAR(5),
    nombre_participation_pee        INT,
    nb_formations_suivies           INT,
    nombre_employee_sous_responsabilite           INT,
    code_sondage                    INT,
    distance_domicile_travail       INT,
    niveau_education                INT,
    domaine_etude                   VARCHAR(64),
    ayant_enfants                   VARCHAR(5),
    frequence_deplacement           VARCHAR(32),
    annees_depuis_la_derniere_promotion       INT,
    annes_sous_responsable_actuel          INT,
    emp_id                          VARCHAR(8)
);
""")

# 2. Ex√©cuter via une connexion
with engine.connect() as conn:
    conn.execute(query_create)
    conn.commit()  # Tr√®s important pour valider la transaction
    print("Table 'raw_sondage' cr√©√©e ou d√©j√† existante.")

inspect_table_columns('raw_sondage', engine)

Table 'raw_sondage' cr√©√©e ou d√©j√† existante.
‚úÖ Estructura de la tabla: raw_sondage


Unnamed: 0,column_name,data_type,is_nullable
0,a_quitte_l_entreprise,text,YES
1,nombre_participation_pee,bigint,YES
2,nb_formations_suivies,bigint,YES
3,nombre_employee_sous_responsabilite,bigint,YES
4,code_sondage,bigint,YES
5,distance_domicile_travail,bigint,YES
6,niveau_education,bigint,YES
7,domaine_etude,text,YES
8,ayant_enfants,text,YES
9,frequence_deplacement,text,YES


### Nettoyage de la table Sondage

In [97]:
# A√±adimos la 'r' antes de las triples comillas
query_clean = text(r"""
DROP VIEW IF EXISTS v_clean_sondage CASCADE;

CREATE VIEW v_clean_sondage AS
SELECT 
    CAST(emp_id AS VARCHAR(8)) AS emp_id,
    -- Variable cible encod√©e
    CASE 
        WHEN TRIM(a_quitte_l_entreprise) = 'Oui' THEN 1
        WHEN TRIM(a_quitte_l_entreprise) = 'Yes' THEN 1
        ELSE 0 
    END AS target_attrition,
    nombre_participation_pee,
    nb_formations_suivies,
    nombre_employee_sous_responsabilite,
    distance_domicile_travail,
    niveau_education,
    TRIM(domaine_etude) AS domaine_etude,
    -- Encodage binaire des enfants
    CASE 
        WHEN TRIM(ayant_enfants) IN ('Oui', 'Yes') THEN 1 
        ELSE 0 
    END AS a_enfants,
    TRIM(frequence_deplacement) AS frequence_deplacement,
    annees_depuis_la_derniere_promotion,
    annes_sous_responsable_actuel
FROM raw_sondage
WHERE emp_id IS NOT NULL;
""")

# Ejecutar la query
with engine.connect() as conn:
    conn.execute(query_clean)
    conn.commit()
    print("‚úÖ Vista v_clean_evals creada sin errores de sintaxis.")

inspect_table_columns('v_clean_evals', engine)

‚úÖ Vista v_clean_evals creada sin errores de sintaxis.
‚úÖ Estructura de la tabla: v_clean_evals


Unnamed: 0,column_name,data_type,is_nullable
0,emp_id,character varying,YES
1,satisfaction_employee_environnement,bigint,YES
2,note_evaluation_precedente,bigint,YES
3,niveau_hierarchique_poste,bigint,YES
4,satisfaction_employee_nature_travail,bigint,YES
5,satisfaction_employee_equipe,bigint,YES
6,satisfaction_employee_equilibre_pro_perso,bigint,YES
7,note_evaluation_actuelle,bigint,YES
8,heure_supplementaires_binary,integer,YES
9,augementation_salaire_precedente,double precision,YES


In [98]:
# A√±adimos la 'r' antes de las triples comillas
query_clean = text(r"""
DROP VIEW IF EXISTS v_master_clean CASCADE;

CREATE VIEW v_master_clean AS
SELECT 
    -- Identifiants
    s.emp_id,
    s.id_employee,
    
    -- Donn√©es d√©mographiques (SIRH)
    s.age,
    s.genre,
    s.statut_marital,
    s.revenu_mensuel,
    
    -- Donn√©es professionnelles (SIRH)
    s.departement,
    s.poste,
    s.nombre_experiences_precedentes,
    s.annee_experience_totale,
    s.annees_dans_l_entreprise,
    s.annees_dans_le_poste_actuel,
    
    -- Donn√©es d'√©valuation (EVALS) - noms de colonnes courts
    e.satisfaction_employee_environnement,
    e.satisfaction_employee_nature_travail,
    e.satisfaction_employee_equipe,
    e.satisfaction_employee_equilibre_pro_perso,
    e.note_evaluation_actuelle,
    e.note_evaluation_precedente,
    e.niveau_hierarchique_poste,
    e.heure_supplementaires_binary AS heures_supplementaires,
    e.augementation_salaire_precedente,
    
    -- Donn√©es sondage (SONDAGE) - noms de colonnes courts
    so.target_attrition,
    so.nombre_participation_pee,
    so.nb_formations_suivies,
    so.nombre_employee_sous_responsabilite,
    so.distance_domicile_travail,
    so.niveau_education,
    so.domaine_etude,
    so.a_enfants,
    so.frequence_deplacement,
    so.annees_depuis_la_derniere_promotion,
    so.annes_sous_responsable_actuel
    
FROM v_clean_sirh s
INNER JOIN v_clean_evals e ON s.emp_id = e.emp_id
INNER JOIN v_clean_sondage so ON s.emp_id = so.emp_id;
""")

# Ejecutar la query
with engine.connect() as conn:
    conn.execute(query_clean)
    conn.commit()
    print("‚úÖ Vista v_master_clean creada sin errores de sintaxis.")

inspect_table_columns('v_master_clean', engine)

‚úÖ Vista v_master_clean creada sin errores de sintaxis.
‚úÖ Estructura de la tabla: v_master_clean


Unnamed: 0,column_name,data_type,is_nullable
0,emp_id,character varying,YES
1,id_employee,bigint,YES
2,age,bigint,YES
3,genre,text,YES
4,statut_marital,text,YES
5,revenu_mensuel,bigint,YES
6,departement,text,YES
7,poste,text,YES
8,nombre_experiences_precedentes,bigint,YES
9,annee_experience_totale,bigint,YES


## NETTOYAGE DES IDENTIFIANTS 

In [99]:
# --- √âTAPE DE NETTOYAGE DES IDENTIFIANTS ---

# A. SIRH : On s'assure que l'ID est une cha√Æne de caract√®res propre
df_sirh['emp_id']    = df_sirh['id_employee'].astype(str).str.strip()

# B. EVAL : On enl√®ve le pr√©fixe 'E_' pour n'avoir que le chiffre
df_evals['emp_id']   = df_evals['eval_number'].astype(str).str.replace('E_', '', regex=False).str.strip()

# C. SONDAGE : On enl√®ve les z√©ros √† gauche (ex: 00001 -> 1)
df_sondage['emp_id'] = df_sondage['code_sondage'].astype(str).str.lstrip('0').str.strip()

print("‚úÖ IDs harmonis√©s : Les 3 tables utilisent d√©sormais le m√™me format pour 'emp_id'.")

‚úÖ IDs harmonis√©s : Les 3 tables utilisent d√©sormais le m√™me format pour 'emp_id'.


# 3 : üìù‚ûúüõ¢Ô∏è Ingestion vers PostgreSQL

In [101]:
# Exportation des DataFrames vers PostgreSQL
# 'replace' permet de r√©initialiser la table si on relance le script

try:
    # 3. Exportation des tables
    # On utilise 'method=multi' pour plus d'efficacit√© si besoin
    df_sirh.to_sql('raw_sirh', engine, if_exists='replace', index=False)
    df_evals.to_sql('raw_evals', engine, if_exists='replace', index=False)
    df_sondage.to_sql('raw_sondage', engine, if_exists='replace', index=False)
    
    print("‚úÖ Ingestion r√©ussie dans technova_db !")

except Exception as e:
    print(f"‚ùå Erreur lors de l'ingestion : {e}")
    
print("‚úÖ Donn√©es brutes transf√©r√©es avec succ√®s vers PostgreSQL.")

‚ùå Erreur lors de l'ingestion : (psycopg2.errors.DependentObjectsStillExist) ERREUR:  n'a pas pu supprimer table raw_sirh car d'autres objets en d√©pendent
DETAIL:  vue v_master_raw d√©pend de table raw_sirh
vue v_clean_sirh d√©pend de table raw_sirh
vue v_master_clean d√©pend de vue v_clean_sirh
HINT:  Utilisez DROP ... CASCADE pour supprimer aussi les objets d√©pendants.

[SQL: 
DROP TABLE raw_sirh]
(Background on this error at: https://sqlalche.me/e/20/2j85)
‚úÖ Donn√©es brutes transf√©r√©es avec succ√®s vers PostgreSQL.


### üîé Verification des Tables (raw_sirh, raw_evals, raw_sondage)

In [102]:
# --- V√âRIFICATION DE LA JOINTURE ---

# On v√©rifie si on retrouve bien nos 1470 employ√©s apr√®s avoir li√© les 3 tables
query_test = """
SELECT COUNT(*) 
FROM       raw_sirh s
INNER JOIN raw_evals e ON s.emp_id = e.emp_id
INNER JOIN raw_sondage so ON s.emp_id = so.emp_id;
"""

resultat = pd.read_sql(query_test, engine)
print(f"üìä Nombre d'employ√©s r√©concili√©s : {resultat.iloc[0,0]} / 1470")

üìä Nombre d'employ√©s r√©concili√©s : 1470 / 1470


# METHODE 1

## ‚¨áÔ∏è Import Classe auxiliare pour modelisation (ClassificationModeler)

In [116]:
# ==================================================================================================
# INITIALISATION DU MOTEUR DE NETTOYAGE (DATA CLEANING)
# ==================================================================================================

# Importation de la classe personnalis√©e d'ing√©nierie des donn√©es
# Cette classe encapsule les r√®gles m√©tier sp√©cifiques au dataset de Seattle.
from DataCleaner  import DataCleaner                # Module de nettoyage propri√©taire

# Initialisation du nettoyeur global
# verbose=True permet d'√©diter un rapport d√©taill√© des transformations effectu√©es.
cleaner           = DataCleaner(
                           df      = df_sirh,      # Source des donn√©es brutes
                           verbose = True              # Activation des logs d√©taill√©s
)

# --------------------------------------------------------------------------------------------------
# RAPPORT D'√âTAT DU NETTOYEUR
# --------------------------------------------------------------------------------------------------
print("\n==================================================================================================")
print("INSTANCIATION DU MOTEUR DE NETTOYAGE")
print("==================================================================================================")
print(f"  Objet cr√©√©............: {type(cleaner).__name__}")
print(f"  Mode verbeux..........: Activ√© (Diagnostic temps r√©el)")
print(f"  Source de donn√©es.....: dataset_raw (ID: {id(df_sirh)})")
print(f"  Statut................: ‚úÖ Pr√™t pour l'√©tape de transformation")
print("==================================================================================================\n")


INSTANCIATION DU MOTEUR DE NETTOYAGE
  Objet cr√©√©............: DataCleaner
  Mode verbeux..........: Activ√© (Diagnostic temps r√©el)
  Source de donn√©es.....: dataset_raw (ID: 2574619584384)
  Statut................: ‚úÖ Pr√™t pour l'√©tape de transformation



## ‚¨áÔ∏è LOAD FUNTION FEATURE ENGINEERING (PYTHON)

In [117]:
def appliquer_feature_engineering(df):
    """
    Enrichit le dataset avec des variables m√©tier calcul√©es (Ratios RH).
    Expertise : Focus sur la stagnation, la fid√©lit√© et la p√©nibilit√©.
    Adapt√© √† la vue SQL v_master_raw.
    """
    # Cr√©ation d'une copie pour √©viter les SettingWithCopyWarning
    df = df.copy()

    # -------------------------------------------------------------------------
    # --- 1. RATIOS DE CARRI√àRE ET DE STAGNATION ---
    # FE1: Ratio de stagnation (Temps depuis promo vs Anciennet√©)
    df['fe1_ratio_stagnation'] = (
        df['annees_depuis_la_derniere_promotion'] / (df['annees_dans_l_entreprise'] + 1)
    )
    
    # FE2: Stabilit√© Manager (Nombre d'employ√©s sous resp vs Temps dans le poste)
    # Note: He ajustado esto para usar 'nombre_employee_sous_responsabilite' de tu vista
    df['fe2_stabilite_manager'] = (
        df['annes_sous_responsable_actuel'] / (df['annees_dans_le_poste_actuel'] + 1)
    )

    # -------------------------------------------------------------------------
    # --- 2. INDICATEURS DE STABILIT√â PROFESSIONNELLE ---
    # FE3: Indice Job Hopping (Exp totale vs Exp√©riences pass√©es)
    df['fe3_indice_job_hopping'] = (
        df['annee_experience_totale'] / (df['nombre_experiences_precedentes'] + 1)
    )
    
    # FE4: Anciennet√© relative (Proportion de vie active pass√©e ici)
    age_actif = (df['age'] - 18).clip(lower=1)
    df['fe4_anciennete_relative'] = df['annees_dans_l_entreprise'] / age_actif

    # -------------------------------------------------------------------------
    # --- 3. SCORES DE SATISFACTION AGR√âG√âS ET INTERACTIONS ---
    # FE5: Vision holistique (Moyenne des 4 piliers de satisfaction)
    cols_satisfaction = [
        'satisfaction_employee_environnement', 
        'satisfaction_employee_nature_travail', 
        'satisfaction_employee_equipe', 
        'satisfaction_employee_equilibre_pro_perso'
    ]
    df['fe5_satisfaction_globale'] = df[cols_satisfaction].mean(axis=1)
    
    # FE6: Risque d'Overwork (Heures Sup x Manque d'√©quilibre)
    # Convertimos heure_supplementaires en num√©rico (1 si Yes, 0 si No) si es necesario
    hs_num = df['heure_supplementaires'].map({'Yes': 1, 'No': 0}).fillna(0)
    df['fe6_risque_overwork'] = (
        hs_num * (1 / (df['satisfaction_employee_equilibre_pro_perso'] + 1))
    )
    
    # FE7: P√©nibilit√© physique/logistique (Heures Sup x Distance)
    df['fe7_penibilite_trajet'] = (
        hs_num * df['distance_domicile_travail']
    )

    # -------------------------------------------------------------------------
    # --- 4. RATIOS DE R√âMUN√âRATION ---
    # FE8: √âquit√© per√ßue (Revenu vs Bagage d'exp√©rience)
    df['fe8_valeur_experience'] = (
        df['revenu_mensuel'] / (df['annee_experience_totale'] + 1)
    )

    return df

## üõ¢Ô∏èüëÄ Cr√©ation de la Vue "v_master_raw" 

In [103]:
# 
query_view = text("""
-- Nettoyage de la vue existante
DROP VIEW IF EXISTS v_master_raw;

-- Cr√©ation de la vue compl√®te avec les colonnes manquantes
CREATE OR REPLACE VIEW v_master_raw AS
SELECT 
    -- RAW_SIRH (Donn√©es de base)
    sirh.emp_id,
    sirh.age,                               
    sirh.annees_dans_l_entreprise,       
    sirh.annees_dans_le_poste_actuel,    
    sirh.annee_experience_totale,        
    sirh.nombre_experiences_precedentes, 
    sirh.revenu_mensuel,                 
    sirh.genre,
    sirh.departement,
    sirh.poste,
    sirh.statut_marital,                 -- AJOUT√â : Requis par le mod√®le


    -- RAW_EVALS (Ajout des variables d'√©valuation manquantes)
    ev.satisfaction_employee_environnement,        
    ev.satisfaction_employee_nature_travail,       
    ev.satisfaction_employee_equipe,               
    ev.satisfaction_employee_equilibre_pro_perso,  
    CASE WHEN ev.heure_supplementaires = 'Oui' THEN 1 ELSE 0 END AS heure_supplementaires,
    ev.note_evaluation_actuelle,  
    ev.note_evaluation_precedente,      -- AJOUT√â : Requis par le mod√®le
    ev.augementation_salaire_precedente, -- AJOUT√â : Requis par le mod√®le
    CASE WHEN ev.heure_supplementaires = 'Oui' THEN 1 ELSE 0 END AS has_overtime,

    -- RAW_SONDAGE (Ajout des variables de profil manquantes)
    son.annees_depuis_la_derniere_promotion,       
    son.nombre_employee_sous_responsabilite,       
    son.distance_domicile_travail,                 
    son.a_quitte_l_entreprise,                     
    son.annes_sous_responsable_actuel,
    son.domaine_etude,
    son.frequence_deplacement,          -- AJOUT√â : Requis par le mod√®le
    son.nombre_participation_pee,       -- AJOUT√â : Requis par le mod√®le
    son.nb_formations_suivies,          -- AJOUT√â : Requis par le mod√®le
    son.niveau_education,               -- AJOUT√â : Requis par le mod√®le
    CASE WHEN son.a_quitte_l_entreprise = 'Oui' THEN 1 ELSE 0 END AS target_attrition 

FROM raw_sirh sirh
JOIN raw_evals ev ON sirh.emp_id = ev.emp_id
JOIN raw_sondage son ON sirh.emp_id = son.emp_id;
""")

# Usamos 'begin()' para que SQLAlchemy haga el COMMIT autom√°ticamente al terminar
with engine.begin() as conn:
    conn.execute(query_view)
    print("‚úÖ Vista 'v_master_raw' creada y confirmada (Committed).")

‚úÖ Vista 'v_master_raw' creada y confirmada (Committed).


### üîé Verification de la Vue (v_master_raw)

In [104]:
inspect_table_columns('v_master_raw', engine)

‚úÖ Estructura de la tabla: v_master_raw


Unnamed: 0,column_name,data_type,is_nullable
0,emp_id,text,YES
1,age,bigint,YES
2,annees_dans_l_entreprise,bigint,YES
3,annees_dans_le_poste_actuel,bigint,YES
4,annee_experience_totale,bigint,YES
5,nombre_experiences_precedentes,bigint,YES
6,revenu_mensuel,bigint,YES
7,genre,text,YES
8,departement,text,YES
9,poste,text,YES


## ‚≠ê APPLIQUER FEATURE ENGINEERING (PYTHON)

In [106]:
# 1. Leer los datos unificados desde la Vista SQL
df_master = pd.read_sql("SELECT * FROM v_master_raw", engine)
df_master['attrition_binary'] = df_master['a_quitte_l_entreprise'].map({'Oui': 1, 'Non': 0})

### Conversion de Percents
df_master, meta_dict_enrichi = cleaner.convert_percentages_to_float(df_master, meta_dict_enrichi)

df_master =  appliquer_feature_engineering(df_master)
df_master

# La llamaremos 'pro_enriched_data'
df_master.to_sql('pro_enriched_data', engine, if_exists='replace', index=False)

print("‚úÖ Tabla enriquecida 'pro_enriched_data' creada con las nuevas features.")

üìä Transformation : augementation_salaire_precedente (Categoriel % -> Numerique)
‚úÖ Tabla enriquecida 'pro_enriched_data' creada con las nuevas features.


### üîé Verification de la Table (pro_enriched_data)

In [119]:
inspect_table_columns('pro_enriched_data', engine)

‚úÖ Estructura de la tabla: pro_enriched_data


Unnamed: 0,column_name,data_type,is_nullable
0,emp_id,text,YES
1,age,bigint,YES
2,annees_dans_l_entreprise,bigint,YES
3,annees_dans_le_poste_actuel,bigint,YES
4,annee_experience_totale,bigint,YES
5,nombre_experiences_precedentes,bigint,YES
6,revenu_mensuel,bigint,YES
7,genre,text,YES
8,departement,text,YES
9,poste,text,YES


## üîé Consulter causes de attrition

In [120]:
query_stats = """
SELECT 
    target_attrition,
    COUNT(*) AS effectif,
    ROUND(AVG(age), 1) AS age_moyen,
    ROUND(AVG(revenu_mensuel), 0) AS salaire_moyen,
    ROUND(AVG(has_overtime) * 100, 1) AS taux_heures_supp_pct,
    ROUND(AVG(distance_domicile_travail), 1) AS distance_moyenne
FROM v_master_raw
GROUP BY target_attrition;
"""

df_stats = pd.read_sql(query_stats, engine)
display(df_stats)

Unnamed: 0,target_attrition,effectif,age_moyen,salaire_moyen,taux_heures_supp_pct,distance_moyenne
0,0,1233,37.6,6833.0,23.4,8.9
1,1,237,33.6,4787.0,53.6,10.6


# METHODE 2

## üõ¢Ô∏èüëÄ Cr√©ation de la Vue "v_master_clean"

In [121]:
# A√±adimos la 'r' antes de las triples comillas
query_clean = text(r"""
DROP VIEW IF EXISTS v_master_clean CASCADE;

CREATE VIEW v_master_clean AS
SELECT 
    -- Identifiants
    s.emp_id,
    s.id_employee,
    
    -- Donn√©es d√©mographiques (SIRH)
    s.age,
    s.genre,
    s.statut_marital,
    s.revenu_mensuel,
    
    -- Donn√©es professionnelles (SIRH)
    s.departement,
    s.poste,
    s.nombre_experiences_precedentes,
    s.annee_experience_totale,
    s.annees_dans_l_entreprise,
    s.annees_dans_le_poste_actuel,
    
    -- Donn√©es d'√©valuation (EVALS) - noms de colonnes courts
    e.satisfaction_employee_environnement,
    e.satisfaction_employee_nature_travail,
    e.satisfaction_employee_equipe,
    e.satisfaction_employee_equilibre_pro_perso,
    e.note_evaluation_actuelle,
    e.note_evaluation_precedente,
    e.niveau_hierarchique_poste,
    e.heure_supplementaires_binary AS heures_supplementaires,
    e.augementation_salaire_precedente,
    
    -- Donn√©es sondage (SONDAGE) - noms de colonnes courts
    so.target_attrition,
    so.nombre_participation_pee,
    so.nb_formations_suivies,
    so.nombre_employee_sous_responsabilite,
    so.distance_domicile_travail,
    so.niveau_education,
    so.domaine_etude,
    so.a_enfants,
    so.frequence_deplacement,
    so.annees_depuis_la_derniere_promotion,
    so.annes_sous_responsable_actuel
    
FROM v_clean_sirh s
INNER JOIN v_clean_evals e ON s.emp_id = e.emp_id
INNER JOIN v_clean_sondage so ON s.emp_id = so.emp_id;
""")

# Ejecutar la query
with engine.connect() as conn:
    conn.execute(query_clean)
    conn.commit()
    print("‚úÖ Vista v_master_clean creada sin errores de sintaxis.")



‚úÖ Vista v_master_clean creada sin errores de sintaxis.


### üîé Verification de la Vue (v_master_clean)

In [122]:
inspect_table_columns('v_master_clean', engine)

‚úÖ Estructura de la tabla: v_master_clean


Unnamed: 0,column_name,data_type,is_nullable
0,emp_id,character varying,YES
1,id_employee,bigint,YES
2,age,bigint,YES
3,genre,text,YES
4,statut_marital,text,YES
5,revenu_mensuel,bigint,YES
6,departement,text,YES
7,poste,text,YES
8,nombre_experiences_precedentes,bigint,YES
9,annee_experience_totale,bigint,YES


## ‚≠ê APPLIQUER FEATURE ENGINEERING (SQL)

### üõ¢Ô∏èüëÄ Cr√©ation de la Vue "v_features_engineering"

In [118]:
# 
query_view = text("""
DROP VIEW IF EXISTS v_features_engineering CASCADE;

CREATE VIEW v_features_engineering AS
SELECT 
    *,
    
    -- FE1: Ratio de stagnation
    ROUND(
        (CAST(annees_depuis_la_derniere_promotion AS FLOAT) / 
        NULLIF(annees_dans_l_entreprise + 1, 0))::NUMERIC, 
        4
    ) AS fe1_ratio_stagnation,
    
    -- FE2: Stabilit√© Manager
    ROUND(
        (CAST(annes_sous_responsable_actuel AS FLOAT) / 
        NULLIF(annees_dans_le_poste_actuel + 1, 0))::NUMERIC, 
        4
    ) AS fe2_stabilite_manager,
    
    -- FE3: Indice Job Hopping
    ROUND(
        (CAST(annee_experience_totale AS FLOAT) / 
        NULLIF(nombre_experiences_precedentes + 1, 0))::NUMERIC, 
        4
    ) AS fe3_indice_job_hopping,
    
    -- FE4: Anciennet√© relative
    ROUND(
        (CAST(annees_dans_l_entreprise AS FLOAT) / 
        NULLIF(GREATEST(age - 18, 1), 0))::NUMERIC, 
        4
    ) AS fe4_anciennete_relative,
    
    -- FE5: Satisfaction globale
    ROUND(
        ((satisfaction_employee_environnement + 
         satisfaction_employee_nature_travail + 
         satisfaction_employee_equipe + 
         satisfaction_employee_equilibre_pro_perso) / 4.0)::NUMERIC, 
        2
    ) AS fe5_satisfaction_globale,
    
    -- FE6: Risque d'overwork
    ROUND(
        (heures_supplementaires * (1.0 / NULLIF(satisfaction_employee_equilibre_pro_perso + 1, 0)))::NUMERIC, 
        4
    ) AS fe6_risque_overwork,
    
    -- FE7: P√©nibilit√© trajet
    heures_supplementaires * distance_domicile_travail AS fe7_penibilite_trajet,
    
    -- FE8: Valeur de l'exp√©rience
    ROUND(
        (CAST(revenu_mensuel AS FLOAT) / 
        NULLIF(annee_experience_totale + 1, 0))::NUMERIC, 
        2
    ) AS fe8_valeur_experience

FROM v_master_clean;

""")

# Usamos 'begin()' para que SQLAlchemy haga el COMMIT autom√°ticamente al terminar
with engine.begin() as conn:
    conn.execute(query_view)
    print("‚úÖ View 'v_features_engineering' created.")


‚úÖ View 'v_features_engineering' created.


In [124]:
### üîé Verification de la Vue (v_features_engineering)

In [125]:
inspect_table_columns('v_features_engineering', engine)

‚ö†Ô∏è La tabla 'v_features_engineering' no existe o est√° vac√≠a en el esquema actual.


## üîé Consulter causes de attrition

### üõ¢Ô∏èüëÄ Cr√©ation de la Vue "v_stats_attrition"

In [112]:
# 
query_view = text("""
-- Statistiques globales par statut d'attrition
-- ----------------------------------------------------------------------------
DROP VIEW IF EXISTS v_stats_attrition CASCADE;

CREATE VIEW v_stats_attrition AS
SELECT 
    target_attrition,
    CASE 
        WHEN target_attrition = 1 THEN 'A quitt√©'
        ELSE 'Reste en poste'
    END AS statut,
    
    -- Effectifs
    COUNT(*) AS effectif,
    ROUND(100.0 * COUNT(*) / SUM(COUNT(*)) OVER (), 1) AS pourcentage,
    
    -- Statistiques d√©mographiques
    ROUND(AVG(age), 1) AS age_moyen,
    ROUND(STDDEV(age), 1) AS age_ecart_type,
    
    -- Statistiques salariales
    ROUND(AVG(revenu_mensuel), 0) AS salaire_moyen,
    ROUND(STDDEV(revenu_mensuel), 0) AS salaire_ecart_type,
    
    -- Indicateurs de temps
    ROUND(AVG(annees_dans_l_entreprise), 1) AS anciennete_moyenne,
    ROUND(AVG(annees_depuis_la_derniere_promotion), 1) AS temps_depuis_promo_moyen,
    
    -- Indicateurs de satisfaction (noms courts)
    ROUND(AVG(satisfaction_employee_environnement), 2) AS satisfaction_env_moyenne,
    ROUND(AVG(satisfaction_employee_equilibre_pro_perso), 2) AS satisfaction_equilibre_moyenne,
    
    -- Indicateurs de performance
    ROUND(AVG(note_evaluation_actuelle), 1) AS performance_moyenne,
    
    -- Indicateurs de p√©nibilit√©
    ROUND(100.0 * AVG(heures_supplementaires), 1) AS taux_heures_supp_pct,
    ROUND(AVG(distance_domicile_travail), 1) AS distance_moyenne_km

FROM v_master_clean
GROUP BY target_attrition
ORDER BY target_attrition;

""")

# Usamos 'begin()' para que SQLAlchemy haga el COMMIT autom√°ticamente al terminar
with engine.begin() as conn:
    conn.execute(query_view)
    print("‚úÖ View 'v_stats_attrition' created.")

inspect_table_columns('v_stats_attrition', engine)

‚úÖ View 'v_stats_attrition' created.
‚úÖ Estructura de la tabla: v_stats_attrition


Unnamed: 0,column_name,data_type,is_nullable
0,target_attrition,integer,YES
1,statut,text,YES
2,effectif,bigint,YES
3,pourcentage,numeric,YES
4,age_moyen,numeric,YES
5,age_ecart_type,numeric,YES
6,salaire_moyen,numeric,YES
7,salaire_ecart_type,numeric,YES
8,anciennete_moyenne,numeric,YES
9,temps_depuis_promo_moyen,numeric,YES


### üîé Verification de la Vue (v_stats_attrition)

In [113]:
# Leer la vista de estad√≠sticas
df_stats = pd.read_sql("SELECT * FROM v_stats_attrition", engine)

# Mostrar la tabla de comparaci√≥n
display(df_stats)

Unnamed: 0,target_attrition,statut,effectif,pourcentage,age_moyen,age_ecart_type,salaire_moyen,salaire_ecart_type,anciennete_moyenne,temps_depuis_promo_moyen,satisfaction_env_moyenne,satisfaction_equilibre_moyenne,performance_moyenne,taux_heures_supp_pct,distance_moyenne_km
0,0,Reste en poste,1233,83.9,37.6,8.9,6833.0,4818.0,7.4,2.2,2.77,2.78,3.2,23.4,8.9
1,1,A quitt√©,237,16.1,33.6,9.7,4787.0,3640.0,5.1,1.9,2.46,2.66,3.2,53.6,10.6


# REQU√äTES D'ANALYSE AVANC√âES

### üõ¢Ô∏èüëÄ Cr√©ation de la Vue "v_top_risques"

In [114]:
query_view = text("""
-- 1. Borramos la vista anterior para evitar conflictos de esquema
DROP VIEW IF EXISTS v_top_risques;

-- 2. La creamos de nuevo con la nueva estructura
CREATE VIEW v_top_risques AS
WITH scores_risque AS (
    SELECT 
        emp_id,
        age,
        departement,
        poste,
        heures_supplementaires, 
        annees_dans_l_entreprise,
        annee_experience_totale,
        (
            (heures_supplementaires * 3.0) + 
            (annee_experience_totale * 2.01) + 
            ((4 - satisfaction_employee_nature_travail) * 1.51) + 
            -- ("poste_Assistant de Direction" * 1.15) + 
            (fe2_stabilite_manager * 0.95) + 
            ((4 - satisfaction_employee_equilibre_pro_perso) * 0.9) + 
            (age * 0.79) + 
            -- ("statut_marital_Divorc√©(e)" * 0.74) + 
            -- ("poste_Repr√©sentant Commercial" * 0.26) + 
            (fe7_penibilite_trajet * 0.21)
        ) AS score_risque_composite
    FROM v_features_engineering
    WHERE target_attrition = 0
)
SELECT 
    emp_id,
    age,
    departement,
    poste,
    -- La nueva columna que causaba el conflicto
    CASE WHEN heures_supplementaires = 1 THEN 'Oui' ELSE 'Non' END AS heures_supp,
    annees_dans_l_entreprise,
    annee_experience_totale,
    ROUND(CAST(score_risque_composite AS NUMERIC), 2) AS score_risque
FROM scores_risque
ORDER BY score_risque_composite DESC
LIMIT 10;
""")

with engine.begin() as conn:
    conn.execute(query_view)
    print("üöÄ ¬°Logrado! La vista ha sido recreada con √©xito.")

inspect_table_columns('v_top_risques', engine)

üöÄ ¬°Logrado! La vista ha sido recreada con √©xito.
‚úÖ Estructura de la tabla: v_top_risques


Unnamed: 0,column_name,data_type,is_nullable
0,emp_id,character varying,YES
1,age,bigint,YES
2,departement,text,YES
3,poste,text,YES
4,heures_supp,text,YES
5,annees_dans_l_entreprise,bigint,YES
6,annee_experience_totale,bigint,YES
7,score_risque,numeric,YES


### üîé Verification de la Vue (v_top_risques)

In [115]:
# Leer la vista de estad√≠sticas
df_stats = pd.read_sql("SELECT * FROM v_top_risques", engine)

# Mostrar la tabla de comparaci√≥n
display(df_stats)

Unnamed: 0,emp_id,age,departement,poste,heures_supp,annees_dans_l_entreprise,annee_experience_totale,score_risque
0,374,55,Consulting,Senior Manager,Oui,36,37,127.58
1,1973,55,Ressources Humaines,Senior Manager,Oui,10,35,126.56
2,1824,58,Commercial,Senior Manager,Non,16,37,126.34
3,131,58,Commercial,Cadre Commercial,Non,37,38,126.2
4,532,56,Commercial,Cadre Commercial,Non,7,36,123.76
5,1373,56,Consulting,Tech Lead,Oui,19,33,122.82
6,597,55,Commercial,Senior Manager,Non,10,37,122.41
7,1338,56,Ressources Humaines,Senior Manager,Non,7,36,122.18
8,549,60,Consulting,Senior Manager,Non,29,33,122.02
9,112,56,Consulting,Tech Lead,Non,6,37,120.79
