In [1]:
import pandas as pd

def extract_t52_data(filepath, sheets):
    records = []

    for sheet in sheets:
        print(f"\n📄 Lecture de la feuille : {sheet}")
        df = pd.read_excel(filepath, sheet_name=sheet, header=None)
        print(df.head(8))  # pour vérifier

        try:
            # Niveaux scolaires (ligne 4, colonnes B à E => index 1 à 4)
            niveau_scolaire = df.iloc[3, 1:5].reset_index(drop=True)
            print("✅ Niveaux scolaires :", list(niveau_scolaire))
        except Exception as e:
            print(f"⚠️ Erreur dans {sheet} :", e)
            continue

        data_rows = df.iloc[4:, :]  # données à partir de la ligne 5

        for _, row in data_rows.iterrows():
            if row.dropna().empty:
                continue

            if len(row) >= 8 and pd.notna(row.iloc[7]):  # gouvernorat en H
                gouvernorat = row.iloc[7]

                for col_idx in range(1, 5):  # colonnes B à E
                    valeur = row.iloc[col_idx]

                    if pd.notna(valeur) and isinstance(valeur, (int, float)):
                        record = {
                            "niveau_scolaire": niveau_scolaire[col_idx - 1],
                            "sex": detect_sex_from_sheet(sheet),
                            "milieu": detect_milieu_from_sheet(sheet),
                            "valeur": valeur,
                            "Total": row.iloc[5] if len(row) > 5 else ".",  # colonne F
                            "gouvernorat": gouvernorat,
                            "référence": sheet
                        }
                        records.append(record)

    return pd.DataFrame(records, columns=[
        "niveau_scolaire", "sex", "milieu", "valeur", "Total", "gouvernorat", "référence"
    ])

# Fonctions auxiliaires
def detect_sex_from_sheet(sheet_name):
    sheet_name = sheet_name.lower()
    if "1" in sheet_name or "3" in sheet_name or "5" in sheet_name:
        return "Femmes"
    elif "2" in sheet_name or "4" in sheet_name or "6" in sheet_name:
        return "Hommes"
    return "."

def detect_milieu_from_sheet(sheet_name):
    sheet_name = sheet_name.lower()
    if "5" in sheet_name:
        return "Urbain"
    elif "6" in sheet_name:
        return "Rural"
    return "."

# Utilisation
sheets = ["T52-1", "T52-2", "T52-3", "T52-4", "T52-5", "T52-6"]
df_t52 = extract_t52_data("educ.xlsx", sheets)

# Export CSV
df_t52.to_csv("a.csv", index=False, encoding='utf-8-sig')

# Affichage résumé
print(df_t52.head())
print(f"✅ Fichier CSV exporté : a.csv")
print(f"📊 Lignes extraites : {len(df_t52)}")



📄 Lecture de la feuille : T52-1
                                                   0        1         2  \
0                                                NaN  Column7   Column6   
1  ‫توزع السكان من الفئة العمرية (10 سنوات فما فو...      NaN       NaN   
2                                                NaN      NaN       NaN   
3                                                NaN    Néant  primaire   
4                                             ‫تونس‬   123360    264559   
5                                           ‫اريانة‬    56044    116539   
6                                           ‫بنعروس‬    60196    140883   
7                                            ‫منوبة‬    58638    108285   

            3          4            5       6          7  
0     Column5        NaN          NaN     NaN        NaN  
1         NaN        NaN          NaN     NaN        NaN  
2         NaN        NaN          NaN     NaN        NaN  
3  secondaire  supérieur  non declaré   Total        Na

In [2]:
import pandas as pd

def extract_t52_data(filepath, sheets):
    records = []

    for sheet in sheets:
        print(f"\n📄 Lecture de la feuille : {sheet}")
        df = pd.read_excel(filepath, sheet_name=sheet, header=None)

        # Ligne 4 (index 3) contient les niveaux scolaires (colonnes B à G, index 1 à 6)
        niveau_scolaire = df.iloc[3, 1:7].reset_index(drop=True)
        print("✅ Niveaux scolaires détectés :", list(niveau_scolaire))

        # Données à partir de la ligne 5 (index 4)
        data_rows = df.iloc[4:, :]

        for _, row in data_rows.iterrows():
            if row.dropna().empty:
                continue

            # Gouvernorat en colonne H (index 7)
            gouvernorat = row.iloc[7] if len(row) > 7 else None
            if pd.isna(gouvernorat):
                continue  # Ignore lignes sans gouvernorat

            # Colonnes B à G (index 1 à 6) pour les valeurs numériques
            for col_idx in range(1, 7):
                valeur = row.iloc[col_idx]
                if pd.notna(valeur) and isinstance(valeur, (int, float)):
                    record = {
                        "niveau_scolaire": niveau_scolaire[col_idx - 1],
                        "sex": detect_sex_from_sheet(sheet),
                        "milieu": detect_milieu_from_sheet(sheet),
                        "valeur": valeur,
                        "gouvernorat": gouvernorat,
                        "référence": sheet
                    }
                    records.append(record)

    df_final = pd.DataFrame(records, columns=[
        "niveau_scolaire", "sex", "milieu", "valeur", "gouvernorat", "référence"
    ])
    return df_final

def detect_sex_from_sheet(sheet_name):
    sheet_name = sheet_name.lower()
    if "1" in sheet_name or "3" in sheet_name or "5" in sheet_name:
        return "Femmes"
    elif "2" in sheet_name or "4" in sheet_name or "6" in sheet_name:
        return "Hommes"
    return "."

def detect_milieu_from_sheet(sheet_name):
    sheet_name = sheet_name.lower()
    if "5" in sheet_name:
        return "Urbain"
    elif "6" in sheet_name:
        return "Rural"
    return "."

# Utilisation
sheets = ["T52-1", "T52-2", "T52-3", "T52-4", "T52-5", "T52-6"]
df_t52 = extract_t52_data("educ.xlsx", sheets)

df_t52.to_csv("educ_T52_combined.csv", index=False, encoding='utf-8-sig')

print(df_t52.head())
print(f"✅ Fichier CSV exporté : educ_T52_combined.csv")
print(f"📊 Lignes extraites : {len(df_t52)}")



📄 Lecture de la feuille : T52-1
✅ Niveaux scolaires détectés : ['Néant', 'primaire', 'secondaire', 'supérieur', 'non declaré', 'Total']

📄 Lecture de la feuille : T52-2
✅ Niveaux scolaires détectés : ['Néant', 'primaire', 'secondaire', 'supérieur', 'non declaré', 'Total']

📄 Lecture de la feuille : T52-3
✅ Niveaux scolaires détectés : ['Néant', 'primaire', 'secondaire', 'supérieur', 'non declaré', 'Total']

📄 Lecture de la feuille : T52-4
✅ Niveaux scolaires détectés : ['Néant', 'primaire', 'secondaire', 'supérieur', 'non declaré', 'Total']

📄 Lecture de la feuille : T52-5
✅ Niveaux scolaires détectés : ['Néant', 'primaire', 'secondaire', 'supérieur', 'non declaré', 'Total']

📄 Lecture de la feuille : T52-6
✅ Niveaux scolaires détectés : ['Néant', 'primaire', 'secondaire', 'supérieur', 'non declaré', 'Total']
Empty DataFrame
Columns: [niveau_scolaire, sex, milieu, valeur, gouvernorat, référence]
Index: []
✅ Fichier CSV exporté : educ_T52_combined.csv
📊 Lignes extraites : 0


In [4]:
import pandas as pd

def extract_t52_data(filepath, sheets):
    records = []
    for sheet in sheets:
        print(f"\n📄 Lecture de la feuille : {sheet}")
        df = pd.read_excel(filepath, sheet_name=sheet, header=None)
        print("Aperçu des premières lignes :")
        print(df.head(10))

        # Récupérer les niveaux scolaires (ligne 4, index 3), à partir de la colonne 1 (B)
        niveaux = df.iloc[3, 1:].dropna().tolist()
        print("✅ Niveaux scolaires détectés :", niveaux)

        # Parcourir les lignes à partir de la ligne 5 (index 4)
        for idx, row in df.iloc[4:].iterrows():
            # Identifier le gouvernorat : la première cellule texte dans la ligne
            gouvernorat = None
            for cell in row:
                if isinstance(cell, str) and cell.strip():
                    gouvernorat = cell.strip()
                    break
            if not gouvernorat:
                continue

            # Extraire les valeurs numériques dans la ligne, à partir de la colonne 1 (B)
            for col_idx, valeur in enumerate(row[1:], start=1):
                if pd.notna(valeur) and isinstance(valeur, (int, float)):
                    niveau = niveaux[col_idx - 1] if col_idx - 1 < len(niveaux) else "Inconnu"
                    record = {
                        "niveau_scolaire": niveau,
                        "valeur": valeur,
                        "gouvernorat": gouvernorat,
                        "référence": sheet
                    }
                    records.append(record)

    df_final = pd.DataFrame(records, columns=["niveau_scolaire", "valeur", "gouvernorat", "référence"])
    return df_final

# Liste des feuilles à traiter
sheets = ["T52-1", "T52-2", "T52-3", "T52-4", "T52-5", "T52-6"]

# Extraction
df_t52 = extract_t52_data("educ.xlsx", sheets)

# Export CSV
df_t52.to_csv("educ_T52_combined.csv", index=False, encoding='utf-8-sig')

# Affichage résumé
print("\nExtrait des données extraites :")
print(df_t52.head())
print(f"\n✅ Fichier CSV exporté : educ_T52_combined.csv")
print(f"📊 Nombre total de lignes extraites : {len(df_t52)}")



📄 Lecture de la feuille : T52-1
Aperçu des premières lignes :
                                                   0        1         2  \
0                                                NaN  Column7   Column6   
1  ‫توزع السكان من الفئة العمرية (10 سنوات فما فو...      NaN       NaN   
2                                                NaN      NaN       NaN   
3                                                NaN    Néant  primaire   
4                                             ‫تونس‬   123360    264559   
5                                           ‫اريانة‬    56044    116539   
6                                           ‫بنعروس‬    60196    140883   
7                                            ‫منوبة‬    58638    108285   
8                                        ‫اقليمتونس‬   298238    630265   
9                                             ‫نابل‬   124788    238542   

            3          4            5        6              7  
0     Column5        NaN          NaN      NaN 

In [6]:
print(df_t52)

Empty DataFrame
Columns: [niveau_scolaire, valeur, gouvernorat, référence]
Index: []


In [7]:
import pandas as pd

def extract_t52_data(filepath, sheets):
    records = []
    
    for sheet in sheets:
        print(f"\n📄 Lecture de la feuille : {sheet}")
        df = pd.read_excel(filepath, sheet_name=sheet, header=None)
        print("Aperçu des premières lignes :")
        print(df.head(10))
        
        # Extraction des niveaux scolaires (ligne 4 = index 3), colonnes B jusqu'à la dernière non vide
        niveaux = df.iloc[3, 1:].dropna().tolist()
        print("✅ Niveaux scolaires détectés :", niveaux)
        
        # Parcours des lignes à partir de la ligne 5 (index 4)
        for idx, row in df.iloc[4:].iterrows():
            # Recherche du gouvernorat : première cellule texte non vide dans la ligne
            gouvernorat = None
            for cell in row:
                if isinstance(cell, str) and cell.strip():
                    gouvernorat = cell.strip()
                    break
            if gouvernorat is None:
                # Pas de gouvernorat, on ignore la ligne
                continue
            
            # Parcourir les colonnes contenant des valeurs (à partir de la colonne 1 / B)
            for col_idx, valeur in enumerate(row[1:], start=1):
                if pd.notna(valeur) and isinstance(valeur, (int, float)):
                    # Associer la valeur au niveau scolaire correspondant
                    niveau = niveaux[col_idx - 1] if col_idx - 1 < len(niveaux) else "Inconnu"
                    record = {
                        "niveau_scolaire": niveau,
                        "valeur": valeur,
                        "gouvernorat": gouvernorat,
                        "référence": sheet
                    }
                    records.append(record)
    
    # Création explicite de la DataFrame à partir des records collectés
    df_final = pd.DataFrame(records, columns=["niveau_scolaire", "valeur", "gouvernorat", "référence"])
    
    print(f"\n✅ Total de lignes extraites : {len(records)}")
    return df_final

# Liste des feuilles à traiter
sheets = ["T52-1", "T52-2", "T52-3", "T52-4", "T52-5", "T52-6"]

# Extraction des données
df_t52 = extract_t52_data("educ.xlsx", sheets)

# Affichage d'un aperçu pour contrôle
print("\nExtrait des données extraites :")
print(df_t52.head())

# Export CSV
df_t52.to_csv("educ_T52_combined.csv", index=False, encoding='utf-8-sig')
print(f"\n✅ Fichier CSV exporté : educ_T52_combined.csv")



📄 Lecture de la feuille : T52-1
Aperçu des premières lignes :
                                                   0        1         2  \
0                                                NaN  Column7   Column6   
1  ‫توزع السكان من الفئة العمرية (10 سنوات فما فو...      NaN       NaN   
2                                                NaN      NaN       NaN   
3                                                NaN    Néant  primaire   
4                                             ‫تونس‬   123360    264559   
5                                           ‫اريانة‬    56044    116539   
6                                           ‫بنعروس‬    60196    140883   
7                                            ‫منوبة‬    58638    108285   
8                                        ‫اقليمتونس‬   298238    630265   
9                                             ‫نابل‬   124788    238542   

            3          4            5        6              7  
0     Column5        NaN          NaN      NaN 

In [23]:
import pandas as pd

def extract_t52_data(filepath, sheets):
    records = []
    
    for sheet in sheets:
        print(f"\n📄 Lecture de la feuille : {sheet}")
        # Lire avec la ligne 4 (index 3) comme header pour avoir les niveaux scolaires comme noms colonnes
        df = pd.read_excel(filepath, sheet_name=sheet, header=3)
        print("Aperçu des premières lignes :")
        print(df.head(10))
        
        # La colonne 'ولاية' ou 'Gouvernorat' est la dernière colonne
        gouvernorat_col = df.columns[-1]
        print(f"Colonne gouvernorat détectée : {gouvernorat_col}")
        
        # Colonnes de valeurs à extraire : toutes sauf la dernière
        value_cols = df.columns[:-1]
        
        for idx, row in df.iterrows():
            gouvernorat = row[gouvernorat_col]
            if pd.isna(gouvernorat):
                continue
            
            for niveau in value_cols:
                valeur = row[niveau]
                if pd.notna(valeur) and isinstance(valeur, (int, float)):
                    record = {
                        "niveau_scolaire": niveau,
                        "valeur": valeur,
                        "gouvernorat": gouvernorat,
                        "référence": sheet
                    }
                    records.append(record)
    
    df_final = pd.DataFrame(records, columns=["niveau_scolaire", "valeur", "gouvernorat", "référence"])
    print(f"\n✅ Total de lignes extraites : {len(records)}")
    return df_final

# Feuilles à traiter
sheets = ["T52-1", "T52-2", "T52-3", "T52-4", "T52-5", "T52-6"]

# Extraction
df_t52 = extract_t52_data("educ.xlsx", sheets)

print("\nExtrait des données extraites :")
df_t52["unité"] = df_t52["référence"].apply(lambda x: "effectif" if x in refs_effectif else "%")
df_t52["année"] = 2004
df_t52["milieu"] = '.'
df_t52["age"] = '.'
df_t52["sexe"] =df_t52["référence"].map({
    "T52-1": "Ensemble",
    "T52-2": "Masculin",
    "T52-3": "Féminin",
    "T52-4": "Ensemble",
    "T52-5": "Masculin",
    "T52-6": "Féminin"
})

df_t52.insert(0, "indicateur", "Population agée de 10 ans et plus selon le niveau d'instruction")


print(df_t52.head())

df_t52.to_csv("educ_T52_combined.csv", index=False, encoding='utf-8-sig')

refs_effectif = ["T52-1", "T52-2", "T53-3"]
df_t52["unité"] = df_t52["référence"].apply(lambda x: "effectif" if x in refs_effectif else "%")





df_t52.to_csv("instruction_2004.csv", index=False, encoding='utf-8-sig')
print("\n✅ Fichier CSV exporté : instruction_2004.csv")


📄 Lecture de la feuille : T52-1
Aperçu des premières lignes :
        Unnamed: 0   Néant  primaire  secondaire  supérieur  non declaré  \
0           ‫تونس‬  123360    264559      334145     125578         2638   
1         ‫اريانة‬   56044    116539      126989      54578         1809   
2         ‫بنعروس‬   60196    140883      172791      52644         1030   
3          ‫منوبة‬   58638    108285       94593      20882         2120   
4      ‫اقليمتونس‬  298238    630265      728518     253682         7597   
5           ‫نابل‬  124788    238542      178511      36361         1802   
6          ‫زغوان‬   41154     51599       35290       5501          365   
7          ‫بنزرت‬  107115    167437      136922      28613         1348   
8  ‫الشمال الشرقي‬  273057    457577      350723      70474         3514   
9           ‫باجة‬   83559     93457       69425      11365          429   

     Total     Unnamed: 7  
0   850280          Tunis  
1   355959         Ariana  
2   427543      