In [37]:
import pandas as pd

def extract_t53_data(filepath, sheets):
    records = []

    for sheet in sheets:
        print(f"\n📄 Lecture de la feuille : {sheet}")
        df = pd.read_excel(filepath, sheet_name=sheet, header=None)

        # ✅ Libellés des groupes d'âge sur la ligne 5 (index 4)
        age_labels = df.iloc[4, 2:].tolist()

        # 📊 Données à partir de la ligne 6 (index 5)
        data_rows = df.iloc[5:, :]

        for _, row in data_rows.iterrows():
            sexe = row.iloc[0]
            niveau = row.iloc[1]
            if pd.isna(sexe) or pd.isna(niveau):
                continue

            for i, age in enumerate(age_labels):
                valeur = row.iloc[i + 2]
                if pd.notna(valeur) and isinstance(valeur, (int, float)):
                    unite = "effectif" if "effectif" in str(age).lower() else "%"
                    records.append({
                        "année": 2014,
                        "sexe": str(sexe).strip(),
                        "niveau_scolaire": str(niveau).strip(),
                        "age": str(age).strip(),
                        "valeur": valeur,
                        "unité": unite,
                        "gouvernorat": ".",
                        "référence": sheet
                    })

    df_final = pd.DataFrame(records)
    return df_final



# 🔧 Utilisation
sheets = ["T18","T19","T20"]  # tu peux ajouter d'autres feuilles ici
df_t53 = extract_t53_data("educ.xlsx", sheets)
df_t53["milieu"] = "."
df_t53.loc[df_t53["référence"].isin(["T18"]), "milieu"] = "Ensemble"
df_t53.loc[df_t53["référence"].isin(["T19"]), "milieu"] = "communal"
df_t53.loc[df_t53["référence"].isin(["T20"]), "milieu"] = "Non-communal"
df_t53.insert(0, "indicateur", "Population agée de 10 ans et plus selon le niveau d'instruction")
# 💾 Export CSV
df_t53.to_csv("educ_T53_transformed.csv", index=False, header=False, mode='a', encoding="utf-8-sig")
print(f"\n✅ {len(df_t53)} lignes extraites.")
print(df_t53.head())



📄 Lecture de la feuille : T18

📄 Lecture de la feuille : T19

📄 Lecture de la feuille : T20

✅ 108 lignes extraites.
                                          indicateur  année      sexe  \
0  Population agée de 10 ans et plus selon le niv...   2014  Masculin   
1  Population agée de 10 ans et plus selon le niv...   2014  Masculin   
2  Population agée de 10 ans et plus selon le niv...   2014  Masculin   
3  Population agée de 10 ans et plus selon le niv...   2014  Masculin   
4  Population agée de 10 ans et plus selon le niv...   2014  Masculin   

  niveau_scolaire       age         valeur     unité gouvernorat référence  \
0           Néant  effectif  579675.113425  effectif           .       T18   
1           Néant         %       1.126386         %           .       T18   
2           Néant         %       2.224629         %           .       T18   
3           Néant         %       3.072692         %           .       T18   
4           Néant         %       3.875335         % 

In [38]:
import pandas as pd

def extract_t53_data(filepath, sheets):
    records = []

    for sheet in sheets:
        print(f"\n📄 Lecture de la feuille : {sheet}")
        df = pd.read_excel(filepath, sheet_name=sheet, header=None)

        # Libellés des âges : ligne 5 (index 4), colonnes 3 et suivantes
        age_labels = df.iloc[3, 2:].tolist()

        # Données à partir de la ligne 6 (index 5)
        data_rows = df.iloc[5:, :]

        current_sexe = None

        for _, row in data_rows.iterrows():
            col_sexe = row.iloc[0]
            col_niveau = row.iloc[1]

            # Mise à jour du sexe s'il est précisé (Masculin, Féminin, etc.)
            if pd.notna(col_sexe) and str(col_sexe).strip().lower() != "total":
                current_sexe = str(col_sexe).strip()

            # Ignorer la ligne si le niveau scolaire est manquant
            if pd.isna(col_niveau) or current_sexe is None:
                continue

            niveau_scolaire = str(col_niveau).strip()

            for i, age in enumerate(age_labels):
                valeur = row.iloc[i + 2]  # Décalé car les données commencent à la colonne 2 (index 2)
                if pd.notna(valeur) and isinstance(valeur, (int, float)):
                    unite = "effectif" if "effectif" in str(age).lower() else "%"
                    records.append({
                        "année": 2014,
                        "sexe": current_sexe,
                        "niveau_scolaire": niveau_scolaire.strip(),
                        "age": str(age).strip(),
                        "valeur": valeur,
                        "unité": unite,
                        "gouvernorat": ".",
                        "référence": sheet
                    })

    df_final = pd.DataFrame(records)
    return df_final


# 🔧 Utilisation
sheets = ["T18", "T19", "T20"]
df_t53 = extract_t53_data("educ.xlsx", sheets)
df_t53["milieu"] = "."
df_t53.loc[df_t53["référence"] == "T18", "milieu"] = "Ensemble"
df_t53.loc[df_t53["référence"] == "T19", "milieu"] = "communal"
df_t53.loc[df_t53["référence"] == "T20", "milieu"] = "Non-communal"
df_t53.insert(0, "indicateur", "Population agée de 10 ans et plus selon le niveau d'instruction")
# Définir les noms des colonnes
colonnes_finales = [
    "indicateur",
    "année",
    "sexe",
    "niveau_scolaire",
    "age",
    "valeur",
    "unité",
    "gouvernorat",
    "référence",
    "milieu"
]

# Réorganiser les colonnes selon cet ordre
df_t53 = df_t53[colonnes_finales]

# Export CSV avec noms de colonnes
df_t53.to_csv("educ_T53_transformed.csv", index=False, header=True, encoding="utf-8-sig")

# 💾 Export CSV
df_t53.to_csv("educ_T53_transformed.csv", index=False, header=False, mode='a', encoding="utf-8-sig")
print(f"\n✅ {len(df_t53)} lignes extraites.")
print(df_t53["niveau_scolaire"].value_counts())  # ← debug ici pour voir tous les niveaux détectés
print(df_t53.tail())



📄 Lecture de la feuille : T18

📄 Lecture de la feuille : T19

📄 Lecture de la feuille : T20

✅ 540 lignes extraites.
niveau_scolaire
Néant         108
Primaire      108
Secondaire    108
Supérieur     108
Total         108
Name: count, dtype: int64
                                            indicateur  année      sexe  \
535  Population agée de 10 ans et plus selon le niv...   2014  Ensemble   
536  Population agée de 10 ans et plus selon le niv...   2014  Ensemble   
537  Population agée de 10 ans et plus selon le niv...   2014  Ensemble   
538  Population agée de 10 ans et plus selon le niv...   2014  Ensemble   
539  Population agée de 10 ans et plus selon le niv...   2014  Ensemble   

    niveau_scolaire    age     valeur unité gouvernorat référence  \
535           Total  44-40   7.597681     %           .       T20   
536           Total  49-45   7.064785     %           .       T20   
537           Total  54-50   6.171645     %           .       T20   
538           Total  59

In [39]:
import pandas as pd

def extract_data(filepath, sheets):
    records = []

    for sheet in sheets:
        print(f"\n📄 Lecture de la feuille : {sheet}")
        
        # Lire la feuille entière sans header pour flexibilité
        df_full = pd.read_excel(filepath, sheet_name=sheet, header=None)

        # Lire l'en-tête à partir de la ligne 4 pour les colonnes de niveau scolaire
        headers = df_full.iloc[3, 3:-1].tolist()  # ligne 4, colonnes D à l'avant-dernière
        units = df_full.iloc[4, 3:-1].tolist()    # ligne 5, mêmes colonnes pour unité

        # Lire les données à partir de la ligne 6
        df = pd.read_excel(filepath, sheet_name=sheet, header=5)

        # Garder les colonnes nécessaires
        gouvernorat_col = df.columns[0]  # Gouvernorat
        sexe_col = df.columns[1]         # Sexe
        value_cols = df.columns[3:-1]    # Colonnes de niveau scolaire

        # Propager gouvernorat et sexe (cellules fusionnées)
        df[[gouvernorat_col, sexe_col]] = df[[gouvernorat_col, sexe_col]].fillna(method='ffill')

        for _, row in df.iterrows():
            gouvernorat = row[gouvernorat_col]
            sexe = row[sexe_col].replace("\n",'').replace(" ",'')

            for col_name, niveau, unite in zip(value_cols, headers, units):
                valeur = row[col_name]
                if pd.notna(valeur):
                    records.append({
                        "gouvernorat": gouvernorat,
                        "sexe": sexe,
                        "niveau_scolaire": niveau,
                        "valeur": valeur,
                        "unité": unite,
                        "référence": sheet
                    })

    return pd.DataFrame(records)

# 🔧 Exemple d'utilisation
sheets = ["T21", "T23", "T25"]  # ajouter d'autres feuilles ici
df_final = extract_data("educ.xlsx", sheets)

# 🔽 Exporter en CSV
df_final.to_csv("educ_niveaux_extrait.csv", index=False, encoding="utf-8-sig")
print(f"\n✅ Export terminé. Lignes extraites : {len(df_final)}")

df_final.to_csv("extrait_T21.csv", index=False, encoding="utf-8-sig")
import numpy as np

# Liste des colonnes dans l'ordre voulu
colonnes_voulues = ['année', 'sexe', 'niveau_scolaire', 'age', 'valeur', 'unité', 'gouvernorat', 'référence', 'milieu']

# Ajouter les colonnes manquantes avec des NaN
for col in colonnes_voulues:
    if col not in df_final.columns:
        df_final[col] = "."  # ou '.' si tu préfères

# Réorganiser les colonnes
df_final = df_final[colonnes_voulues]
# Ajouter les colonnes manquantes avec "."
for col in colonnes_voulues:
    if col not in df_final.columns:
        df_final[col] = "."


df_final.fillna(".", inplace=True)

df_final["année"]=2014
df_final["milieu"]="."
# Concaténer les deux DataFrames
df_final["age"]="."
df_final["niveau_scolaire"].replace(" ",'')
df_final.insert(0, "indicateur", "Population agée de 10 ans et plus selon le niveau d'instruction")
df_concat = pd.concat([df_final, df_t53], ignore_index=True)
df_concat.rename(columns={
    "ancien_nom": "nouveau_nom",
    "colonne_x": "colonne_y",
}, inplace=True)

# Exporter en CSV
df_concat.to_csv("instruction_2014.csv", index=False, encoding='utf-8-sig')

print("✅ Export terminé : version_final_instruction_2014.csv")
print(df_final.tail(100))


📄 Lecture de la feuille : T21

📄 Lecture de la feuille : T23

📄 Lecture de la feuille : T25

✅ Export terminé. Lignes extraites : 1406
✅ Export terminé : version_final_instruction_2014.csv
                                             indicateur  année      sexe  \
1306  Population agée de 10 ans et plus selon le niv...   2014  Masculin   
1307  Population agée de 10 ans et plus selon le niv...   2014  Masculin   
1308  Population agée de 10 ans et plus selon le niv...   2014   Feminin   
1309  Population agée de 10 ans et plus selon le niv...   2014   Feminin   
1310  Population agée de 10 ans et plus selon le niv...   2014   Feminin   
...                                                 ...    ...       ...   
1401  Population agée de 10 ans et plus selon le niv...   2014     Total   
1402  Population agée de 10 ans et plus selon le niv...   2014     Total   
1403  Population agée de 10 ans et plus selon le niv...   2014     Total   
1404  Population agée de 10 ans et plus selon le n

In [36]:
import pandas as pd

def extract_data(filepath, sheets):
    records = []

    for sheet in sheets:
        print(f"\n📄 Lecture de la feuille : {sheet}")

        # Lire la feuille complète sans header pour récupérer headers et unités
        df_full = pd.read_excel(filepath, sheet_name=sheet, header=None)

        # Niveau scolaire et unité sur colonnes C à H (index 2 à 7)
        headers = df_full.iloc[3, 2:8].tolist()  # ligne 4 (index 3)
        units = df_full.iloc[4, 2:8].tolist()    # ligne 5 (index 4)

        # Lire les données à partir de la ligne 6 (index 5)
        df = pd.read_excel(filepath, sheet_name=sheet, header=5)

        gouvernorat_col = df.columns[0]  # colonne A
        sexe_col = df.columns[1]         # colonne B
        value_cols = df.columns[2:8]     # colonnes C à H

        # Remplir les valeurs manquantes (fusion des cellules dans Excel)
        df[[gouvernorat_col, sexe_col]] = df[[gouvernorat_col, sexe_col]].fillna(method='ffill')

        for _, row in df.iterrows():
            gouvernorat = row[gouvernorat_col]
            sexe = str(row[sexe_col]).replace("\n", "").strip()

            for col_name, niveau, unite in zip(value_cols, headers, units):
                valeur = row[col_name]
                if pd.notna(valeur):
                    records.append({
                        "année": 2014,
                        "gouvernorat": gouvernorat,
                        "sexe": sexe,
                        "niveau_scolaire": str(niveau).strip(),
                        "age": ".",               # pas dans ce fichier, donc placeholder
                        "valeur": valeur,
                        "unité": str(unite).strip(),
                        "référence": sheet,
                        "milieu": "."
                    })

    df_final = pd.DataFrame(records)

    # Ajouter indicateur en première colonne
    df_final.insert(0, "indicateur", "Population agée de 10 ans et plus selon le niveau d'instruction")

    # Réorganiser les colonnes dans un ordre logique
    cols_order = [
        "indicateur", "année", "sexe", "niveau_scolaire", "age",
        "valeur", "unité", "gouvernorat", "référence", "milieu"
    ]
    df_final = df_final[cols_order]

    return df_final

# Feuilles à traiter
sheets = ["T21", "T23", "T25"]

# Extraction des données
df_result = extract_data("educ.xlsx", sheets)

# Export CSV propre
df_result.to_csv("instruction_2014.csv", index=False, encoding="utf-8-sig")
print(f"\n✅ Extraction terminée, {len(df_result)} lignes enregistrées dans instruction_2014.csv")

# Afficher un aperçu
print(df_result.head(10))



📄 Lecture de la feuille : T21

📄 Lecture de la feuille : T23

📄 Lecture de la feuille : T25

✅ Extraction terminée, 1332 lignes enregistrées dans instruction_2014.csv
                                          indicateur  année     sexe  \
0  Population agée de 10 ans et plus selon le niv...   2014  Feminin   
1  Population agée de 10 ans et plus selon le niv...   2014  Feminin   
2  Population agée de 10 ans et plus selon le niv...   2014  Feminin   
3  Population agée de 10 ans et plus selon le niv...   2014  Feminin   
4  Population agée de 10 ans et plus selon le niv...   2014  Feminin   
5  Population agée de 10 ans et plus selon le niv...   2014  Feminin   
6  Population agée de 10 ans et plus selon le niv...   2014    Total   
7  Population agée de 10 ans et plus selon le niv...   2014    Total   
8  Population agée de 10 ans et plus selon le niv...   2014    Total   
9  Population agée de 10 ans et plus selon le niv...   2014    Total   

  niveau_scolaire age         valeur   