In [7]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

def get_education(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.content, "html.parser")
    
    section = soup.find("div", id="education")
    data = []

    if section:
        tables = section.find_all("table")
        for table in tables:
            rows = table.find_all("tr")
            for row in rows:
                cells = row.find_all(["th", "td"])
                row_data = [cell.get_text(strip=True) for cell in cells]
                if row_data:
                    data.append(row_data)

    if not data:
        print("‚ùå Aucun tableau trouv√© ou structure vide")
        return None

    # Premi√®re ligne = noms de colonnes
    colonnes = data[0]
    valeurs = [row for row in data[1:] if len(row) == len(colonnes)]  # üî• s√©curise les lignes valides

    # Cr√©ation du DataFrame
    df_education = pd.DataFrame(valeurs, columns=colonnes)

    # Remplacer les cellules vides par 0
    df_education = df_education.replace("", 0)

    return df_education

In [32]:
# Lire par chunks
chunksize = 50
reader = pd.read_csv("communes-france-2025.csv", dtype={"code_insee": str}, low_memory=False, chunksize=chunksize)

data_concat = []

for chunk_index, df_chunk in enumerate(reader):
    # Supprimer premi√®re colonne si elle est inutile
    if df_chunk.columns[0].startswith("Unnamed"):
        df_chunk = df_chunk.drop(df_chunk.columns[0], axis=1)

    # Filtrer les villes > 20k habitants
    filtered_source = df_chunk[df_chunk["population"] >= 20000]

    for i in range(filtered_source.shape[0]):
        code_insee = filtered_source["code_insee"].iloc[i]
        ville = filtered_source["nom_sans_accent"].iloc[i]

        url = f"https://www.linternaute.com/ville/{ville}/ville-{code_insee}/education"
        recherche = get_education(url)
        if recherche is not None:
            recherche["code_insee"] = code_insee
            recherche["Ville"] = ville
            data_concat.append(recherche)

            print("‚úÖ Ligne ajout√©e au DataFrame :")
            print(f"{ville} : {code_insee}")
            print("------------------------------------------------------------")

print("Recherches termin√©es")
# Concat final
df_final = pd.concat(data_concat, ignore_index=True)

scolarises = [
    "2 - 5 ans", "6 - 10 ans", 
    "11 - 14 ans", "15 - 17 ans",
    "18 - 24 ans", "25 - 29 ans",
    "30 ans et plus"
]

non_scolarises = [
    "Aucun dipl√¥me", "Brevet des coll√®ges", "CAP / BEP",
    "Baccalaur√©at / brevet professionnel", "De Bac +2 √† Bac +4", "Bac +5 et plus",
]

# On initialise la colonne
df_final["type"] = df_final.iloc[:, 0].apply(
    lambda x: "Scolaris√©s" if x in scolarises else "Diplome"
)

‚úÖ Ligne ajout√©e au DataFrame :
bourg-en-bresse : 01053
------------------------------------------------------------
‚úÖ Ligne ajout√©e au DataFrame :
oyonnax : 01283
------------------------------------------------------------
‚úÖ Ligne ajout√©e au DataFrame :
laon : 02408
------------------------------------------------------------
‚úÖ Ligne ajout√©e au DataFrame :
saint-quentin : 02691
------------------------------------------------------------
‚úÖ Ligne ajout√©e au DataFrame :
soissons : 02722
------------------------------------------------------------
‚úÖ Ligne ajout√©e au DataFrame :
montlucon : 03185
------------------------------------------------------------
‚úÖ Ligne ajout√©e au DataFrame :
vichy : 03310
------------------------------------------------------------
‚úÖ Ligne ajout√©e au DataFrame :
manosque : 04112
------------------------------------------------------------
‚úÖ Ligne ajout√©e au DataFrame :
gap : 05061
-----------------------------------------------------

In [33]:
df_final = df_final[df_final["Donn√©es 2021"] != "Donn√©es 2021"]
df_final.to_csv("education1.csv", index=False, encoding="utf-8-sig", sep=";")

In [None]:
df_ecole = pd.read_csv("education1.csv")


In [38]:
df_ecole = pd.read_csv("education.csv")

# Liste des types d'√©tablissements scolaires
types_etablissements = [
    "Ecoles maternelles",
    "Ecoles √©l√©mentaires",
    "Coll√®ges",
    "Lyc√©es g√©n√©raux",
    "Lyc√©es professionnels",
    "Lyc√©es agricoles",
    "Etablissements avec classes pr√©paratoires aux grandes √©coles",
    "Ecoles de formation sanitaire et sociale",
    "Ecoles de commerce, gestion, administration d'entreprises, comptabilit√©, vente",
    "Unit√©s de formation et de recherche (UFR)",
    "Instituts universitaires (IUP, IUT et IUFM)",
    "Ecoles d'ing√©nieurs",
    "Etablissements de formation aux m√©tiers du sport",
    "Centres de formation d'apprentis (hors agricoles)",
    "Centres de formation d'apprentis agricoles",
    "Autres √©coles d'enseignement sup√©rieur",
    "Autres formations post-bac non universitaire"
]

# Suppose que ton DataFrame s'appelle df et que la colonne √† filtrer s'appelle 'Label'
df_filtered = df_ecole[df_ecole['Donn√©es 2021'].isin(types_etablissements)]

df_filtered = df_filtered.iloc[:, :-1]

df_filtered.to_csv("ecole.csv", index=False, encoding="utf-8-sig", sep=";")

In [40]:
dff = pd.read_csv("ecole.csv", sep=";")
dff

Unnamed: 0,Donn√©es 2021,Personnes scolaris√©es,code_insee,Ville
0,Ecoles maternelles,2,01053,bourg-en-bresse
1,Ecoles √©l√©mentaires,21,01053,bourg-en-bresse
2,Coll√®ges,7,01053,bourg-en-bresse
3,Lyc√©es g√©n√©raux,4,01053,bourg-en-bresse
4,Lyc√©es professionnels,4,01053,bourg-en-bresse
...,...,...,...,...
8172,Etablissements de formation aux m√©tiers du sport,0,97422,le-tampon
8173,Centres de formation d'apprentis (hors agricoles),13,97422,le-tampon
8174,Centres de formation d'apprentis agricoles,1,97422,le-tampon
8175,Autres √©coles d'enseignement sup√©rieur,0,97422,le-tampon


In [42]:
dfff = pd.read_csv("education1.csv", sep=";")
dfff

Unnamed: 0,Donn√©es 2021,Personnes scolaris√©es,% de la population scolaris√©e,Moyenne des¬†villes,code_insee,Ville,Donn√©es nc,type
0,2 - 5 ans,1¬†235,"13,5 %","15,6 %",01053,bourg-en-bresse,,Scolaris√©s
1,6 - 10 ans,2¬†228,"24,3 %","29,2 %",01053,bourg-en-bresse,,Scolaris√©s
2,11 - 14 ans,1¬†764,"19,3 %","24,9 %",01053,bourg-en-bresse,,Scolaris√©s
3,15 - 17 ans,1¬†421,"15,5 %","18,4 %",01053,bourg-en-bresse,,Scolaris√©s
4,18 - 24 ans,2¬†117,"23,1 %","9,1 %",01053,bourg-en-bresse,,Scolaris√©s
...,...,...,...,...,...,...,...,...
6276,,nc,nc,"5,5 %",97611,mamoudzou,Brevet des coll√®ges,Non scolaris√©s
6277,,nc,nc,"29,3 %",97611,mamoudzou,CAP / BEP,Non scolaris√©s
6278,,nc,nc,"18,8 %",97611,mamoudzou,Baccalaur√©at / brevet professionnel,Non scolaris√©s
6279,,nc,nc,"19,8 %",97611,mamoudzou,De Bac +2 √† Bac +4,Non scolaris√©s


In [52]:
dfff = dfff[dfff["Donn√©es 2021"].notna()]
dfff = dfff.drop(columns="Donn√©es nc")

In [53]:
dfff

Unnamed: 0,Donn√©es 2021,Personnes scolaris√©es,% de la population scolaris√©e,Moyenne des¬†villes,code_insee,Ville,type
0,2 - 5 ans,1¬†235,"13,5 %","15,6 %",01053,bourg-en-bresse,Scolaris√©s
1,6 - 10 ans,2¬†228,"24,3 %","29,2 %",01053,bourg-en-bresse,Scolaris√©s
2,11 - 14 ans,1¬†764,"19,3 %","24,9 %",01053,bourg-en-bresse,Scolaris√©s
3,15 - 17 ans,1¬†421,"15,5 %","18,4 %",01053,bourg-en-bresse,Scolaris√©s
4,18 - 24 ans,2¬†117,"23,1 %","9,1 %",01053,bourg-en-bresse,Scolaris√©s
...,...,...,...,...,...,...,...
6248,Brevet des coll√®ges,3¬†276,"5,8 %","5,5 %",97422,le-tampon,Non scolaris√©s
6249,CAP / BEP,11¬†561,"20,6 %","29,3 %",97422,le-tampon,Non scolaris√©s
6250,Baccalaur√©at / brevet professionnel,9¬†915,"17,7 %","18,8 %",97422,le-tampon,Non scolaris√©s
6251,De Bac +2 √† Bac +4,8¬†338,"14,9 %","19,8 %",97422,le-tampon,Non scolaris√©s


In [54]:
dfff.to_csv("education1.csv", index=False, encoding="utf-8-sig", sep=";")