feuille 1

In [23]:
import pandas as pd

def excel_to_dataframe(filepath):
    # Lire la feuille 'T34' en ignorant les 2 premi√®res lignes
    df = pd.read_excel(filepath, sheet_name='T34', header=None, skiprows=2)

    # Lignes d'en-t√™te
    age = df.iloc[0, :]
    niveau_scolaire = df.iloc[1, :]
    type_ = df.iloc[2, :]

    # Donn√©es √† partir de la 4e ligne apr√®s skiprows
    data_rows = df.iloc[3:, :]

    records = []

    for idx, row in data_rows.iterrows():
        sex = row[1]
        milieu = row[0]

        for col_idx in range(2, len(row)):
            valeur = row[col_idx]
            if pd.notna(valeur) and isinstance(valeur, (int, float)):
                record = {
                    "sex": sex,
                    "milieu": milieu,
                    "age": age[col_idx],
                    "niveau_scolaire": niveau_scolaire[col_idx],
                    "type": type_[col_idx],
                    "valeur": valeur
                }
                records.append(record)

    df_final = pd.DataFrame(records, columns=["sex", "milieu", "age", "niveau_scolaire", "type", "valeur"])
    return df_final

# Exemple d'utilisation
df_result = excel_to_dataframe("educ.xlsx")
print(df_result.head())


          sex      milieu       age     niveau_scolaire        type  \
0  \nMasculin  \nCommunal       3-5    pr√©scolaristion   \nEffectif   
1  \nMasculin  \nCommunal       3-5    pr√©scolaristion       \nTaux   
2  \nMasculin  \nCommunal  6-14 ans         secondaire     \nNombre   
3  \nMasculin  \nCommunal  6-14 ans         secondaire       \nTaux   
4  \nMasculin  \nCommunal     19-24          sup√©rieur     \nNombre   

          valeur  
0  126576.702435  
1      67.707146  
2  543133.503926  
3      97.263127  
4  161954.178644  


In [24]:
df_result.shape
df_result.insert(0, 'gouvernorat', '.')


In [25]:

# Exemple d'ordre souhait√© des colonnes
nouvel_ordre = ["milieu", "sex", "age", "gouvernorat", "niveau_scolaire", "type", "valeur"]

# R√©organiser les colonnes
df_result = df_result[nouvel_ordre]

# V√©rifier
print(df_result.head())


       milieu         sex       age gouvernorat     niveau_scolaire  \
0  \nCommunal  \nMasculin       3-5           .    pr√©scolaristion    
1  \nCommunal  \nMasculin       3-5           .    pr√©scolaristion    
2  \nCommunal  \nMasculin  6-14 ans           .         secondaire    
3  \nCommunal  \nMasculin  6-14 ans           .         secondaire    
4  \nCommunal  \nMasculin     19-24           .          sup√©rieur    

         type         valeur  
0  \nEffectif  126576.702435  
1      \nTaux      67.707146  
2    \nNombre  543133.503926  
3      \nTaux      97.263127  
4    \nNombre  161954.178644  


In [26]:
print(df_result.columns.tolist())



['milieu', 'sex', 'age', 'gouvernorat', 'niveau_scolaire', 'type', 'valeur']


In [27]:
import pandas as pd

def traiter_feuille(fichier, nom_feuille):
    # Ignorer les deux premi√®res lignes
    df = pd.read_excel(fichier, sheet_name=nom_feuille, header=None, skiprows=2)
    
    # Lire les m√©tadonn√©es : niveau scolaire (ligne 0), √¢ge (ligne 1), type (ligne 2)
    niveau_scolaire = df.iloc[0, 2:8].fillna(".").astype(str).reset_index(drop=True)
    age = df.iloc[1, 2:8].fillna(".").astype(str).reset_index(drop=True)
    type_valeur = df.iloc[2, 2:8].fillna(".").astype(str).reset_index(drop=True)

    # Lignes de donn√©es
    data = df.iloc[3:, :].reset_index(drop=True)

    records = []

    for i in range(len(data)):
        sexe = str(data.iloc[i, 8]).strip() if not pd.isna(data.iloc[i, 8]) else "."  # Colonne I
        gouvernorat = str(data.iloc[i, 9]).strip() if not pd.isna(data.iloc[i, 9]) else "."  # Colonne J

        # Passer les lignes de total
        if "total" in sexe.lower() or "total" in gouvernorat.lower():
            continue

        for j in range(6):  # 6 colonnes de valeurs num√©riques (C √† H ‚Üí index 2 √† 7)
            valeur = data.iat[i, 2 + j]
            if pd.isna(valeur):
                continue
            records.append({
                "gouvernorat": gouvernorat,
                "milieu": ".",  # Toujours "."
                "sexe": sexe,
                "age": age[j].strip(),
                "niveau_scolaire": niveau_scolaire[j].strip(),
                "type": type_valeur[j].strip(),
                "valeur": valeur
            })

    return pd.DataFrame(records)

# üìÅ Fichier Excel
fichier = "educ.xlsx"  # <-- Remplace par ton vrai fichier

# üìÑ Feuilles √† traiter
feuilles = ["T35", "T37", "T39"]

# üîÄ Concat√©ner toutes les feuilles
df_result_2 = pd.concat([traiter_feuille(fichier, f) for f in feuilles], ignore_index=True)

# ‚úîÔ∏è Affichage final
print(df_result_2.head())
print(df_result_2.columns)
print(df_result_2.shape)

# üíæ Sauvegarde optionnelle
# df_result.to_excel("r√©sultat_final.xlsx", index=False)


  gouvernorat milieu      sexe    age  niveau_scolaire      type        valeur
0       TUNIS      .  Masculin    3-5  pr√©scolaristion  Effectif  16660.646304
1       TUNIS      .  Masculin    3-5  pr√©scolaristion      Taux     72.864506
2       TUNIS      .  Masculin   6-14       secondaire    Nombre   67949.87015
3       TUNIS      .  Masculin   6-14       secondaire      Taux     97.906129
4       TUNIS      .  Masculin  19-24        sup√©rieur    Nombre  26667.551009
Index(['gouvernorat', 'milieu', 'sexe', 'age', 'niveau_scolaire', 'type',
       'valeur'],
      dtype='object')
(948, 7)


In [28]:
# Exemple d'ordre souhait√© des colonnes
nouvel_ordre = ["milieu", "sex", "age", "gouvernorat", "niveau_scolaire", "type", "valeur"]

# R√©organiser les colonnes
df_result_2 = df_result[nouvel_ordre]

# V√©rifier
print(df_result_2.head())

       milieu         sex       age gouvernorat     niveau_scolaire  \
0  \nCommunal  \nMasculin       3-5           .    pr√©scolaristion    
1  \nCommunal  \nMasculin       3-5           .    pr√©scolaristion    
2  \nCommunal  \nMasculin  6-14 ans           .         secondaire    
3  \nCommunal  \nMasculin  6-14 ans           .         secondaire    
4  \nCommunal  \nMasculin     19-24           .          sup√©rieur    

         type         valeur  
0  \nEffectif  126576.702435  
1      \nTaux      67.707146  
2    \nNombre  543133.503926  
3      \nTaux      97.263127  
4    \nNombre  161954.178644  


In [29]:
import pandas as pd

def traiter_feuille(fichier, nom_feuille):
    # Lire la feuille Excel en ignorant les 2 premi√®res lignes
    df = pd.read_excel(fichier, sheet_name=nom_feuille, header=None, skiprows=2)
    
    # Extraire m√©tadonn√©es (colonnes 2 √† 7)
    niveau_scolaire = df.iloc[0, 2:8].fillna(".").astype(str).reset_index(drop=True)
    age = df.iloc[1, 2:8].fillna(".").astype(str).reset_index(drop=True)
    type_valeur = df.iloc[2, 2:8].fillna(".").astype(str).reset_index(drop=True)
    
    # Lignes de donn√©es √† partir de la 4e ligne (index 3)
    data = df.iloc[3:, :].reset_index(drop=True)
    
    records = []
    for i in range(len(data)):
        sexe = str(data.iloc[i, 8]).strip() if not pd.isna(data.iloc[i, 8]) else "."
        gouvernorat = str(data.iloc[i, 9]).strip() if not pd.isna(data.iloc[i, 9]) else "."
        
        # Ignorer lignes totaux
        if "total" in sexe.lower() or "total" in gouvernorat.lower():
            continue
        
        for j in range(6):  # colonnes 2 √† 7 ‚Üí 6 colonnes de valeurs
            valeur = data.iat[i, 2 + j]
            if pd.isna(valeur):
                continue
            records.append({
                "milieu": ".",  # Valeur fixe, modifie si besoin
                "sex": sexe,
                "age": age[j].strip(),
                "gouvernorat": gouvernorat,
                "niveau_scolaire": niveau_scolaire[j].strip(),
                "type": type_valeur[j].strip(),
                "valeur": valeur
            })
    
    df_result = pd.DataFrame(records)
    # Ajouter la colonne r√©f√©rence avec le nom de la feuille
    df_result['r√©f√©rence'] = nom_feuille
    return df_result

# Fichier Excel
fichier = "educ.xlsx"

# Liste des 3 feuilles √† traiter
feuilles = ["T35", "T37", "T39"]

# Traiter chaque feuille et ajouter 'r√©f√©rence'
dfs = []
for feuille in feuilles:
    df_tmp = traiter_feuille(fichier, feuille)
    dfs.append(df_tmp)

# Concat√©ner tous les r√©sultats
df_result_2 = pd.concat(dfs, ignore_index=True)

# R√©organiser les colonnes dans l'ordre souhait√©
nouvel_ordre = ["milieu", "sex", "age", "gouvernorat", "niveau_scolaire", "type", "valeur", "r√©f√©rence"]
df_result_2 = df_result_2[nouvel_ordre]

# Afficher le r√©sultat
print(df_result_2.tail(100))
print(f"Taille finale : {df_result_2.shape}")


    milieu       sex    age gouvernorat  niveau_scolaire      type  \
848      .   Feminin   6-14    KAIROUAN       secondaire    Nombre   
849      .   Feminin   6-14    KAIROUAN       secondaire      Taux   
850      .   Feminin  19-24    KAIROUAN        sup√©rieur    Nombre   
851      .   Feminin  19-24    KAIROUAN        sup√©rieur      Taux   
852      .  Masculin    3-5   KASSERINE  pr√©scolaristion  Effectif   
..     ...       ...    ...         ...              ...       ...   
943      .   Feminin    3-5      KEBILI  pr√©scolaristion      Taux   
944      .   Feminin   6-14      KEBILI       secondaire    Nombre   
945      .   Feminin   6-14      KEBILI       secondaire      Taux   
946      .   Feminin  19-24      KEBILI        sup√©rieur    Nombre   
947      .   Feminin  19-24      KEBILI        sup√©rieur      Taux   

           valeur r√©f√©rence  
848  26158.854554       T39  
849     89.644718       T39  
850   4964.685424       T39  
851     25.652155       T39  
8

In [30]:
import pandas as pd

# Supposons que df_result1 vient de la feuille T35
df_result['r√©f√©rence'] = 'T34'



# Concat√©ner les deux matrices
df_concat = pd.concat([df_result, df_result_2], ignore_index=True)

# Afficher le r√©sultat
print(df_concat.head(100))
print(df_concat.shape)


        milieu         sex       age gouvernorat     niveau_scolaire  \
0   \nCommunal  \nMasculin       3-5           .    pr√©scolaristion    
1   \nCommunal  \nMasculin       3-5           .    pr√©scolaristion    
2   \nCommunal  \nMasculin  6-14 ans           .         secondaire    
3   \nCommunal  \nMasculin  6-14 ans           .         secondaire    
4   \nCommunal  \nMasculin     19-24           .          sup√©rieur    
..         ...         ...       ...         ...                 ...   
95           .    Masculin     19-24   BEN AROUS           sup√©rieur   
96           .     Feminin       3-5   BEN AROUS     pr√©scolaristion   
97           .     Feminin       3-5   BEN AROUS     pr√©scolaristion   
98           .     Feminin      6-14   BEN AROUS          secondaire   
99           .     Feminin      6-14   BEN AROUS          secondaire   

          type         valeur r√©f√©rence  
0   \nEffectif  126576.702435       T34  
1       \nTaux      67.707146       T34  
2

In [31]:
df_concat.to_csv("r√©sultat_final.csv", index=False, encoding='utf-8-sig')


In [32]:
# Renommer la colonne 'type' en 'unit√©'
df_concat = df_concat.rename(columns={"type": "unit√©"})

# Remplacer 'Taux' par '%' dans la colonne 'unit√©' (si 'Taux' est une sous-cha√Æne)
df_concat["unit√©"] = df_concat["unit√©"].str.replace("Taux", "%", regex=False)
df_concat["unit√©"] = df_concat["unit√©"].str.replace("Nombre", "Effectif", regex=False)
df_concat["age"] = df_concat["age"].str.replace("ans", "").str.strip()
df_concat["age"] = df_concat["age"].str.replace("mai", "5").str.strip()
df_concat["age"] = df_concat["age"].str.replace("juin", "6").str.strip()


In [33]:
df_concat

Unnamed: 0,milieu,sex,age,gouvernorat,niveau_scolaire,unit√©,valeur,r√©f√©rence
0,\nCommunal,\nMasculin,3-5,.,pr√©scolaristion,\nEffectif,126576.702435,T34
1,\nCommunal,\nMasculin,3-5,.,pr√©scolaristion,\n%,67.707146,T34
2,\nCommunal,\nMasculin,6-14,.,secondaire,\nEffectif,543133.503926,T34
3,\nCommunal,\nMasculin,6-14,.,secondaire,\n%,97.263127,T34
4,\nCommunal,\nMasculin,19-24,.,sup√©rieur,\nEffectif,161954.178644,T34
...,...,...,...,...,...,...,...,...
997,.,Feminin,3-5,KEBILI,pr√©scolaristion,%,71.677301,T39
998,.,Feminin,6-14,KEBILI,secondaire,Effectif,5010.815595,T39
999,.,Feminin,6-14,KEBILI,secondaire,%,97.317684,T39
1000,.,Feminin,19-24,KEBILI,sup√©rieur,Effectif,1897.93459,T39


In [34]:
# Ajouter la colonne 'indicateur' contenant 'a'
df_concat.insert(0, "indicateur", "Population fr√©quentant un √©tablissement scolaire  ou  formation")


In [35]:
df_concat.to_csv("r√©sultat_final_scolarisation_2014.csv", index=False, encoding='utf-8-sig')

In [36]:
df_concat

Unnamed: 0,indicateur,milieu,sex,age,gouvernorat,niveau_scolaire,unit√©,valeur,r√©f√©rence
0,Population fr√©quentant un √©tablissement scolai...,\nCommunal,\nMasculin,3-5,.,pr√©scolaristion,\nEffectif,126576.702435,T34
1,Population fr√©quentant un √©tablissement scolai...,\nCommunal,\nMasculin,3-5,.,pr√©scolaristion,\n%,67.707146,T34
2,Population fr√©quentant un √©tablissement scolai...,\nCommunal,\nMasculin,6-14,.,secondaire,\nEffectif,543133.503926,T34
3,Population fr√©quentant un √©tablissement scolai...,\nCommunal,\nMasculin,6-14,.,secondaire,\n%,97.263127,T34
4,Population fr√©quentant un √©tablissement scolai...,\nCommunal,\nMasculin,19-24,.,sup√©rieur,\nEffectif,161954.178644,T34
...,...,...,...,...,...,...,...,...,...
997,Population fr√©quentant un √©tablissement scolai...,.,Feminin,3-5,KEBILI,pr√©scolaristion,%,71.677301,T39
998,Population fr√©quentant un √©tablissement scolai...,.,Feminin,6-14,KEBILI,secondaire,Effectif,5010.815595,T39
999,Population fr√©quentant un √©tablissement scolai...,.,Feminin,6-14,KEBILI,secondaire,%,97.317684,T39
1000,Population fr√©quentant un √©tablissement scolai...,.,Feminin,19-24,KEBILI,sup√©rieur,Effectif,1897.93459,T39


In [37]:
print(df_concat.columns.tolist())


['indicateur', 'milieu', 'sex', 'age', 'gouvernorat', 'niveau_scolaire', 'unit√©', 'valeur', 'r√©f√©rence']


In [43]:
import pandas as pd

def excel_to_dataframe(filepath):
    # Lire la feuille "T41", ignorer les 2 premi√®res lignes de titre
    df = pd.read_excel(filepath, sheet_name="T41", header=None, skiprows=2)

    # R√©cup√©rer les en-t√™tes de colonnes (niveau scolaire) √† partir de la 3e colonne
    niveau_scolaire = df.iloc[0, 2:]

    # Donn√©es √† partir de la ligne suivante
    data_rows = df.iloc[1:, :]

    records = []

    for _, row in data_rows.iterrows():
        milieu = row[0]
        sex = row[1]

        for col_idx in range(2, len(row)):
            valeur = row[col_idx]

            if pd.notna(valeur) and isinstance(valeur, (int, float)):
                record = {
                    "indicateur": "Population fr√©quentant un √©tablissement scolaire  ou  formation",
                    "milieu": milieu,
                    "sex": sex,
                    "age": ".",
                    "gouvernorat": ".",
                    "niveau_scolaire": niveau_scolaire[col_idx],
                    "unit√©": "Effectif",
                    "valeur": valeur,
                    "r√©f√©rence": "T41"
                }
                records.append(record)

    # Cr√©er le DataFrame final avec les colonnes dans l'ordre demand√©
    df_final = pd.DataFrame(records, columns=[
        "indicateur", "milieu", "sex", "age", "gouvernorat",
        "niveau_scolaire", "unit√©", "valeur", "r√©f√©rence"
    ])
    
    # Afficher les colonnes juste avant de retourner
    print(df_final.columns.tolist())
    
    return df_final

# ‚ûï Exemple d'utilisation
df_final = excel_to_dataframe("educ.xlsx")
print(df_final.head(100))


['indicateur', 'milieu', 'sex', 'age', 'gouvernorat', 'niveau_scolaire', 'unit√©', 'valeur', 'r√©f√©rence']
                                           indicateur          milieu  \
0   Population fr√©quentant un √©tablissement scolai...        communal   
1   Population fr√©quentant un √©tablissement scolai...        communal   
2   Population fr√©quentant un √©tablissement scolai...        communal   
3   Population fr√©quentant un √©tablissement scolai...        communal   
4   Population fr√©quentant un √©tablissement scolai...        communal   
5   Population fr√©quentant un √©tablissement scolai...        communal   
6   Population fr√©quentant un √©tablissement scolai...        communal   
7   Population fr√©quentant un √©tablissement scolai...        communal   
8   Population fr√©quentant un √©tablissement scolai...        communal   
9   Population fr√©quentant un √©tablissement scolai...        communal   
10  Population fr√©quentant un √©tablissement scolai...        commun

In [44]:
df = pd.concat([df_final, df_concat], ignore_index=True)

In [45]:
df

Unnamed: 0,indicateur,milieu,sex,age,gouvernorat,niveau_scolaire,unit√©,valeur,r√©f√©rence
0,Population fr√©quentant un √©tablissement scolai...,communal,\nMasculin,.,.,\nTotal,Effectif,991289.884172,T41
1,Population fr√©quentant un √©tablissement scolai...,communal,\nMasculin,.,.,\nCycle\npr√©scolarisation\n,Effectif,134146.393911,T41
2,Population fr√©quentant un √©tablissement scolai...,communal,\nMasculin,.,.,\ncycle Educationel,Effectif,830082.4917,T41
3,Population fr√©quentant un √©tablissement scolai...,communal,\nMasculin,.,.,\nCycle de formation,Effectif,25051.518402,T41
4,Population fr√©quentant un √©tablissement scolai...,communal,\nMasculin,.,.,\nFormation Professionnelle,Effectif,2009.48016,T41
...,...,...,...,...,...,...,...,...,...
1042,Population fr√©quentant un √©tablissement scolai...,.,Feminin,3-5,KEBILI,pr√©scolaristion,%,71.677301,T39
1043,Population fr√©quentant un √©tablissement scolai...,.,Feminin,6-14,KEBILI,secondaire,Effectif,5010.815595,T39
1044,Population fr√©quentant un √©tablissement scolai...,.,Feminin,6-14,KEBILI,secondaire,%,97.317684,T39
1045,Population fr√©quentant un √©tablissement scolai...,.,Feminin,19-24,KEBILI,sup√©rieur,Effectif,1897.93459,T39


In [52]:
import pandas as pd

def extract_from_sheets(filepath, sheets):
    all_records = []

    for sheet in sheets:
        # Lire la feuille Excel en ignorant les 3 premi√®res lignes (titre)
        df = pd.read_excel(filepath, sheet_name=sheet, header=None, skiprows=3)

        # R√©cup√©rer les libell√©s de niveau scolaire (ligne 1 apr√®s skiprows)
        niveau_scolaire = df.iloc[0, 3:-2]  # colonnes D √† H (hors sexe et gouvernorat)

        # R√©cup√©rer les lignes de donn√©es
        data_rows = df.iloc[1:, :]  # donn√©es apr√®s les libell√©s

        for _, row in data_rows.iterrows():
            gouvernorat = row.iloc[-1]  # derni√®re colonne = gouvernorat
            sex = row.iloc[-2]          # avant-derni√®re colonne = sexe

            for col_idx in range(3, len(row) - 2):  # colonnes contenant les valeurs
                valeur = row.iloc[col_idx]

                if pd.notna(valeur) and isinstance(valeur, (int, float)):
                    record = {
                        "indicateur": "Population fr√©quentant un √©tablissement scolaire ou formation",
                        "milieu": ".",
                        "sex": sex,
                        "age": ".",
                        "gouvernorat": gouvernorat,
                        "niveau_scolaire": niveau_scolaire.iloc[col_idx - 3],  # alignement des index
                        "unit√©": "Effectif",
                        "valeur": valeur,
                        "r√©f√©rence": sheet
                    }
                    all_records.append(record)

    # Cr√©er le DataFrame final avec colonnes dans l'ordre demand√©
    df_final = pd.DataFrame(all_records, columns=[
        "indicateur", "milieu", "sex", "age", "gouvernorat",
        "niveau_scolaire", "unit√©", "valeur", "r√©f√©rence"
    ])

    return df_final
# Liste des feuilles √† extraire
sheets = ["T42", "T44", "T46"]

# Extraction
df_result = extract_from_sheets("educ.xlsx", sheets)

# Affichage des premi√®res lignes
print(df_result.head(20))

# Optionnel : export
# df_result.to_excel("extrait_educ.xlsx", index=False)
# Supposons que df existe d√©j√† (extrait d'une autre feuille comme T41)
# Et que df_result est le r√©sultat de extract_from_sheets()


# Concat√©nation verticale
df_concat = pd.concat([df_result,df], ignore_index=True)

# Afficher les 10 premi√®res lignes
print(df_concat.head(10))

# Export si tu veux sauvegarder
# df_concat.to_excel("educ_concat.xlsx", index=False)
# Appliquer les valeurs de 'milieu' selon 'r√©f√©rence'
df_concat.loc[df_concat["r√©f√©rence"] == "T42", "milieu"] = "ensemble"
df_concat.loc[df_concat["r√©f√©rence"] == "T44", "milieu"] = "communal"
df_concat.loc[df_concat["r√©f√©rence"] == "T46", "milieu"] = "non communal"
print(df_concat.head(10))

                                           indicateur milieu          sex age  \
0   Population fr√©quentant un √©tablissement scolai...      .  Masculin \n   .   
1   Population fr√©quentant un √©tablissement scolai...      .  Masculin \n   .   
2   Population fr√©quentant un √©tablissement scolai...      .  Masculin \n   .   
3   Population fr√©quentant un √©tablissement scolai...      .  Masculin \n   .   
4   Population fr√©quentant un √©tablissement scolai...      .      Feminin   .   
5   Population fr√©quentant un √©tablissement scolai...      .      Feminin   .   
6   Population fr√©quentant un √©tablissement scolai...      .      Feminin   .   
7   Population fr√©quentant un √©tablissement scolai...      .      Feminin   .   
8   Population fr√©quentant un √©tablissement scolai...      .        Total   .   
9   Population fr√©quentant un √©tablissement scolai...      .        Total   .   
10  Population fr√©quentant un √©tablissement scolai...      .        Total   .   
11  Po

In [53]:
df_concat.to_csv("r√©sultat_final_scolarisation_2014.csv", index=False, encoding='utf-8-sig')