In [37]:
import pandas as pd

def extract_t53_data(filepath, sheets):
    records = []

    for sheet in sheets:
        print(f"\nüìÑ Lecture de la feuille : {sheet}")
        df = pd.read_excel(filepath, sheet_name=sheet, header=None)

        # ‚úÖ Libell√©s des groupes d'√¢ge sur la ligne 5 (index 4)
        age_labels = df.iloc[4, 2:].tolist()

        # üìä Donn√©es √† partir de la ligne 6 (index 5)
        data_rows = df.iloc[5:, :]

        for _, row in data_rows.iterrows():
            sexe = row.iloc[0]
            niveau = row.iloc[1]
            if pd.isna(sexe) or pd.isna(niveau):
                continue

            for i, age in enumerate(age_labels):
                valeur = row.iloc[i + 2]
                if pd.notna(valeur) and isinstance(valeur, (int, float)):
                    unite = "effectif" if "effectif" in str(age).lower() else "%"
                    records.append({
                        "ann√©e": 2014,
                        "sexe": str(sexe).strip(),
                        "niveau_scolaire": str(niveau).strip(),
                        "age": str(age).strip(),
                        "valeur": valeur,
                        "unit√©": unite,
                        "gouvernorat": ".",
                        "r√©f√©rence": sheet
                    })

    df_final = pd.DataFrame(records)
    return df_final



# üîß Utilisation
sheets = ["T18","T19","T20"]  # tu peux ajouter d'autres feuilles ici
df_t53 = extract_t53_data("educ.xlsx", sheets)
df_t53["milieu"] = "."
df_t53.loc[df_t53["r√©f√©rence"].isin(["T18"]), "milieu"] = "Ensemble"
df_t53.loc[df_t53["r√©f√©rence"].isin(["T19"]), "milieu"] = "communal"
df_t53.loc[df_t53["r√©f√©rence"].isin(["T20"]), "milieu"] = "Non-communal"
df_t53.insert(0, "indicateur", "Population ag√©e de 10 ans et plus selon le niveau d'instruction")
# üíæ Export CSV
df_t53.to_csv("educ_T53_transformed.csv", index=False, header=False, mode='a', encoding="utf-8-sig")
print(f"\n‚úÖ {len(df_t53)} lignes extraites.")
print(df_t53.head())



üìÑ Lecture de la feuille : T18

üìÑ Lecture de la feuille : T19

üìÑ Lecture de la feuille : T20

‚úÖ 108 lignes extraites.
                                          indicateur  ann√©e      sexe  \
0  Population ag√©e de 10 ans et plus selon le niv...   2014  Masculin   
1  Population ag√©e de 10 ans et plus selon le niv...   2014  Masculin   
2  Population ag√©e de 10 ans et plus selon le niv...   2014  Masculin   
3  Population ag√©e de 10 ans et plus selon le niv...   2014  Masculin   
4  Population ag√©e de 10 ans et plus selon le niv...   2014  Masculin   

  niveau_scolaire       age         valeur     unit√© gouvernorat r√©f√©rence  \
0           N√©ant  effectif  579675.113425  effectif           .       T18   
1           N√©ant         %       1.126386         %           .       T18   
2           N√©ant         %       2.224629         %           .       T18   
3           N√©ant         %       3.072692         %           .       T18   
4           N√©ant         % 

In [38]:
import pandas as pd

def extract_t53_data(filepath, sheets):
    records = []

    for sheet in sheets:
        print(f"\nüìÑ Lecture de la feuille : {sheet}")
        df = pd.read_excel(filepath, sheet_name=sheet, header=None)

        # Libell√©s des √¢ges : ligne 5 (index 4), colonnes 3 et suivantes
        age_labels = df.iloc[3, 2:].tolist()

        # Donn√©es √† partir de la ligne 6 (index 5)
        data_rows = df.iloc[5:, :]

        current_sexe = None

        for _, row in data_rows.iterrows():
            col_sexe = row.iloc[0]
            col_niveau = row.iloc[1]

            # Mise √† jour du sexe s'il est pr√©cis√© (Masculin, F√©minin, etc.)
            if pd.notna(col_sexe) and str(col_sexe).strip().lower() != "total":
                current_sexe = str(col_sexe).strip()

            # Ignorer la ligne si le niveau scolaire est manquant
            if pd.isna(col_niveau) or current_sexe is None:
                continue

            niveau_scolaire = str(col_niveau).strip()

            for i, age in enumerate(age_labels):
                valeur = row.iloc[i + 2]  # D√©cal√© car les donn√©es commencent √† la colonne 2 (index 2)
                if pd.notna(valeur) and isinstance(valeur, (int, float)):
                    unite = "effectif" if "effectif" in str(age).lower() else "%"
                    records.append({
                        "ann√©e": 2014,
                        "sexe": current_sexe,
                        "niveau_scolaire": niveau_scolaire.strip(),
                        "age": str(age).strip(),
                        "valeur": valeur,
                        "unit√©": unite,
                        "gouvernorat": ".",
                        "r√©f√©rence": sheet
                    })

    df_final = pd.DataFrame(records)
    return df_final


# üîß Utilisation
sheets = ["T18", "T19", "T20"]
df_t53 = extract_t53_data("educ.xlsx", sheets)
df_t53["milieu"] = "."
df_t53.loc[df_t53["r√©f√©rence"] == "T18", "milieu"] = "Ensemble"
df_t53.loc[df_t53["r√©f√©rence"] == "T19", "milieu"] = "communal"
df_t53.loc[df_t53["r√©f√©rence"] == "T20", "milieu"] = "Non-communal"
df_t53.insert(0, "indicateur", "Population ag√©e de 10 ans et plus selon le niveau d'instruction")
# D√©finir les noms des colonnes
colonnes_finales = [
    "indicateur",
    "ann√©e",
    "sexe",
    "niveau_scolaire",
    "age",
    "valeur",
    "unit√©",
    "gouvernorat",
    "r√©f√©rence",
    "milieu"
]

# R√©organiser les colonnes selon cet ordre
df_t53 = df_t53[colonnes_finales]

# Export CSV avec noms de colonnes
df_t53.to_csv("educ_T53_transformed.csv", index=False, header=True, encoding="utf-8-sig")

# üíæ Export CSV
df_t53.to_csv("educ_T53_transformed.csv", index=False, header=False, mode='a', encoding="utf-8-sig")
print(f"\n‚úÖ {len(df_t53)} lignes extraites.")
print(df_t53["niveau_scolaire"].value_counts())  # ‚Üê debug ici pour voir tous les niveaux d√©tect√©s
print(df_t53.tail())



üìÑ Lecture de la feuille : T18

üìÑ Lecture de la feuille : T19

üìÑ Lecture de la feuille : T20

‚úÖ 540 lignes extraites.
niveau_scolaire
N√©ant         108
Primaire      108
Secondaire    108
Sup√©rieur     108
Total         108
Name: count, dtype: int64
                                            indicateur  ann√©e      sexe  \
535  Population ag√©e de 10 ans et plus selon le niv...   2014  Ensemble   
536  Population ag√©e de 10 ans et plus selon le niv...   2014  Ensemble   
537  Population ag√©e de 10 ans et plus selon le niv...   2014  Ensemble   
538  Population ag√©e de 10 ans et plus selon le niv...   2014  Ensemble   
539  Population ag√©e de 10 ans et plus selon le niv...   2014  Ensemble   

    niveau_scolaire    age     valeur unit√© gouvernorat r√©f√©rence  \
535           Total  44-40   7.597681     %           .       T20   
536           Total  49-45   7.064785     %           .       T20   
537           Total  54-50   6.171645     %           .       T20   
5

In [39]:
import pandas as pd

def extract_data(filepath, sheets):
    records = []

    for sheet in sheets:
        print(f"\nüìÑ Lecture de la feuille : {sheet}")
        
        # Lire la feuille enti√®re sans header pour flexibilit√©
        df_full = pd.read_excel(filepath, sheet_name=sheet, header=None)

        # Lire l'en-t√™te √† partir de la ligne 4 pour les colonnes de niveau scolaire
        headers = df_full.iloc[3, 3:-1].tolist()  # ligne 4, colonnes D √† l'avant-derni√®re
        units = df_full.iloc[4, 3:-1].tolist()    # ligne 5, m√™mes colonnes pour unit√©

        # Lire les donn√©es √† partir de la ligne 6
        df = pd.read_excel(filepath, sheet_name=sheet, header=5)

        # Garder les colonnes n√©cessaires
        gouvernorat_col = df.columns[0]  # Gouvernorat
        sexe_col = df.columns[1]         # Sexe
        value_cols = df.columns[3:-1]    # Colonnes de niveau scolaire

        # Propager gouvernorat et sexe (cellules fusionn√©es)
        df[[gouvernorat_col, sexe_col]] = df[[gouvernorat_col, sexe_col]].fillna(method='ffill')

        for _, row in df.iterrows():
            gouvernorat = row[gouvernorat_col]
            sexe = row[sexe_col].replace("\n",'').replace(" ",'')

            for col_name, niveau, unite in zip(value_cols, headers, units):
                valeur = row[col_name]
                if pd.notna(valeur):
                    records.append({
                        "gouvernorat": gouvernorat,
                        "sexe": sexe,
                        "niveau_scolaire": niveau,
                        "valeur": valeur,
                        "unit√©": unite,
                        "r√©f√©rence": sheet
                    })

    return pd.DataFrame(records)

# üîß Exemple d'utilisation
sheets = ["T21", "T23", "T25"]  # ajouter d'autres feuilles ici
df_final = extract_data("educ.xlsx", sheets)

# üîΩ Exporter en CSV
df_final.to_csv("educ_niveaux_extrait.csv", index=False, encoding="utf-8-sig")
print(f"\n‚úÖ Export termin√©. Lignes extraites : {len(df_final)}")

df_final.to_csv("extrait_T21.csv", index=False, encoding="utf-8-sig")
import numpy as np

# Liste des colonnes dans l'ordre voulu
colonnes_voulues = ['ann√©e', 'sexe', 'niveau_scolaire', 'age', 'valeur', 'unit√©', 'gouvernorat', 'r√©f√©rence', 'milieu']

# Ajouter les colonnes manquantes avec des NaN
for col in colonnes_voulues:
    if col not in df_final.columns:
        df_final[col] = "."  # ou '.' si tu pr√©f√®res

# R√©organiser les colonnes
df_final = df_final[colonnes_voulues]
# Ajouter les colonnes manquantes avec "."
for col in colonnes_voulues:
    if col not in df_final.columns:
        df_final[col] = "."


df_final.fillna(".", inplace=True)

df_final["ann√©e"]=2014
df_final["milieu"]="."
# Concat√©ner les deux DataFrames
df_final["age"]="."
df_final["niveau_scolaire"].replace(" ",'')
df_final.insert(0, "indicateur", "Population ag√©e de 10 ans et plus selon le niveau d'instruction")
df_concat = pd.concat([df_final, df_t53], ignore_index=True)
df_concat.rename(columns={
    "ancien_nom": "nouveau_nom",
    "colonne_x": "colonne_y",
}, inplace=True)

# Exporter en CSV
df_concat.to_csv("instruction_2014.csv", index=False, encoding='utf-8-sig')

print("‚úÖ Export termin√© : version_final_instruction_2014.csv")
print(df_final.tail(100))


üìÑ Lecture de la feuille : T21

üìÑ Lecture de la feuille : T23

üìÑ Lecture de la feuille : T25

‚úÖ Export termin√©. Lignes extraites : 1406
‚úÖ Export termin√© : version_final_instruction_2014.csv
                                             indicateur  ann√©e      sexe  \
1306  Population ag√©e de 10 ans et plus selon le niv...   2014  Masculin   
1307  Population ag√©e de 10 ans et plus selon le niv...   2014  Masculin   
1308  Population ag√©e de 10 ans et plus selon le niv...   2014   Feminin   
1309  Population ag√©e de 10 ans et plus selon le niv...   2014   Feminin   
1310  Population ag√©e de 10 ans et plus selon le niv...   2014   Feminin   
...                                                 ...    ...       ...   
1401  Population ag√©e de 10 ans et plus selon le niv...   2014     Total   
1402  Population ag√©e de 10 ans et plus selon le niv...   2014     Total   
1403  Population ag√©e de 10 ans et plus selon le niv...   2014     Total   
1404  Population ag√©e de 

In [36]:
import pandas as pd

def extract_data(filepath, sheets):
    records = []

    for sheet in sheets:
        print(f"\nüìÑ Lecture de la feuille : {sheet}")

        # Lire la feuille compl√®te sans header pour r√©cup√©rer headers et unit√©s
        df_full = pd.read_excel(filepath, sheet_name=sheet, header=None)

        # Niveau scolaire et unit√© sur colonnes C √† H (index 2 √† 7)
        headers = df_full.iloc[3, 2:8].tolist()  # ligne 4 (index 3)
        units = df_full.iloc[4, 2:8].tolist()    # ligne 5 (index 4)

        # Lire les donn√©es √† partir de la ligne 6 (index 5)
        df = pd.read_excel(filepath, sheet_name=sheet, header=5)

        gouvernorat_col = df.columns[0]  # colonne A
        sexe_col = df.columns[1]         # colonne B
        value_cols = df.columns[2:8]     # colonnes C √† H

        # Remplir les valeurs manquantes (fusion des cellules dans Excel)
        df[[gouvernorat_col, sexe_col]] = df[[gouvernorat_col, sexe_col]].fillna(method='ffill')

        for _, row in df.iterrows():
            gouvernorat = row[gouvernorat_col]
            sexe = str(row[sexe_col]).replace("\n", "").strip()

            for col_name, niveau, unite in zip(value_cols, headers, units):
                valeur = row[col_name]
                if pd.notna(valeur):
                    records.append({
                        "ann√©e": 2014,
                        "gouvernorat": gouvernorat,
                        "sexe": sexe,
                        "niveau_scolaire": str(niveau).strip(),
                        "age": ".",               # pas dans ce fichier, donc placeholder
                        "valeur": valeur,
                        "unit√©": str(unite).strip(),
                        "r√©f√©rence": sheet,
                        "milieu": "."
                    })

    df_final = pd.DataFrame(records)

    # Ajouter indicateur en premi√®re colonne
    df_final.insert(0, "indicateur", "Population ag√©e de 10 ans et plus selon le niveau d'instruction")

    # R√©organiser les colonnes dans un ordre logique
    cols_order = [
        "indicateur", "ann√©e", "sexe", "niveau_scolaire", "age",
        "valeur", "unit√©", "gouvernorat", "r√©f√©rence", "milieu"
    ]
    df_final = df_final[cols_order]

    return df_final

# Feuilles √† traiter
sheets = ["T21", "T23", "T25"]

# Extraction des donn√©es
df_result = extract_data("educ.xlsx", sheets)

# Export CSV propre
df_result.to_csv("instruction_2014.csv", index=False, encoding="utf-8-sig")
print(f"\n‚úÖ Extraction termin√©e, {len(df_result)} lignes enregistr√©es dans instruction_2014.csv")

# Afficher un aper√ßu
print(df_result.head(10))



üìÑ Lecture de la feuille : T21

üìÑ Lecture de la feuille : T23

üìÑ Lecture de la feuille : T25

‚úÖ Extraction termin√©e, 1332 lignes enregistr√©es dans instruction_2014.csv
                                          indicateur  ann√©e     sexe  \
0  Population ag√©e de 10 ans et plus selon le niv...   2014  Feminin   
1  Population ag√©e de 10 ans et plus selon le niv...   2014  Feminin   
2  Population ag√©e de 10 ans et plus selon le niv...   2014  Feminin   
3  Population ag√©e de 10 ans et plus selon le niv...   2014  Feminin   
4  Population ag√©e de 10 ans et plus selon le niv...   2014  Feminin   
5  Population ag√©e de 10 ans et plus selon le niv...   2014  Feminin   
6  Population ag√©e de 10 ans et plus selon le niv...   2014    Total   
7  Population ag√©e de 10 ans et plus selon le niv...   2014    Total   
8  Population ag√©e de 10 ans et plus selon le niv...   2014    Total   
9  Population ag√©e de 10 ans et plus selon le niv...   2014    Total   

  niveau_scolai