In [13]:
import requests
from pathlib import Path

SOURCE_PAGE = "https://www.insee.fr/fr/information/2120875"
PDF_URL = "https://www.insee.fr/fr/statistiques/fichier/2120875/Nomenclatures_NAF_et_CPF_Reedition_2020.pdf"

BASE_DIR = Path("./data/raw/temps/nafs")
PDF_PATH = BASE_DIR / "Nomenclatures_NAF_et_CPF_Reedition_2020.pdf"

BASE_DIR.mkdir(parents=True, exist_ok=True)

print("üì• T√©l√©chargement du PDF NAF / CPF (INSEE): 'Nomenclature d‚Äôactivit√©s fran√ßaise ‚Äì NAF r√©v. 2'")
print(f"üîó Source officielle : {SOURCE_PAGE}")

r = requests.get(PDF_URL)
r.raise_for_status()

with open(PDF_PATH, "wb") as f:
    f.write(r.content)

print(f"‚úÖ PDF t√©l√©charg√© : {PDF_PATH}")


üì• T√©l√©chargement du PDF NAF / CPF (INSEE): 'Nomenclature d‚Äôactivit√©s fran√ßaise ‚Äì NAF r√©v. 2'
üîó Source officielle : https://www.insee.fr/fr/information/2120875
‚úÖ PDF t√©l√©charg√© : data\raw\temps\nafs\Nomenclatures_NAF_et_CPF_Reedition_2020.pdf


In [14]:
# Ce programme extrait les descriptions des codes NAFS depuis le fichier PDF de l'INSEE

import pdfplumber
import re

def read_pdf_text(pdf_path):
    """
    Lit tout le PDF et retourne le texte complet.
    """
    with pdfplumber.open(pdf_path) as pdf:
        full_text = "\n".join(page.extract_text() or "" for page in pdf.pages)
    return full_text


def extract_best_naf_block(full_text, naf_code):
    """
    Renvoie le bloc NAF contenant la description compl√®te,
    m√™me s'il existe plusieurs occurrences (sommaire + section compl√®te).
    """

    naf_code_clean = naf_code.upper().strip().replace("Z", "")  # ex: "05.10"

    title_regex = re.compile(r"^\s*\d{2}\.\d{2}[A-Z]?", re.MULTILINE)

    titles = [(m.group().strip(), m.start()) for m in title_regex.finditer(full_text)]

    # Trouver toutes les occurrences possibles
    candidate_indices = []
    for i, (title, _) in enumerate(titles):
        if title.replace("Z", "") == naf_code_clean:
            candidate_indices.append(i)

    if not candidate_indices:
        return None

    blocks = []

    # Extraire tous les blocs possibles
    for idx in candidate_indices:
        start = titles[idx][1]
        end = titles[idx+1][1] if idx+1 < len(titles) else len(full_text)
        block = full_text[start:end].strip()
        blocks.append(block)

    # Retourner le bloc le plus long ‚Üí la vraie d√©finition compl√®te
    return max(blocks, key=len)

naf = "05.10Z"
full_text_pdf_naf = read_pdf_text(PDF_PATH)

In [15]:
# Exemple de sortie pour le code 05.10Z
extract_best_naf_block(full_text_pdf_naf, "05.10Z")

"05.10Z Extraction de houille\nCette sous-classe comprend :\n- l'extraction de la houille en souterrain ou √† ciel ouvert, y compris par le recours √† des proc√©d√©s\nde liqu√©faction\n- le lavage, le triage, le calibrage, la pulv√©risation, la compression, etc. destin√©es √† classer, √†\naccro√Ætre la qualit√© ou √† faciliter le transport et le stockage de la houille pour compte propre\nCette sous-classe comprend aussi :\n- l'exploitation des terrils en vue de la r√©cup√©ration de la houille\nCette sous-classe ne comprend pas :\n- l'extraction de lignite (cf. 05.20Z)\n- l'extraction de la tourbe (cf. 08.92Z)\n- les activit√©s de soutien √† l'extraction de la houille (cf. 09.90Z)\n- les forages d'essai pour l'extraction de la houille (cf. 09.90Z)\n- les fours √† coke produisant des combustibles solides (cf. 19.10Z)\n- l'agglom√©ration de la houille et la fabrication de briquettes de houille (cf. 19.20Z)\n46 Nomenclature d‚ÄôActivit√©s Fran√ßaise NAF r√©v. 2\nSection B : PRODUITS DES IN

In [16]:
# Exemple de sortie pour le code 85.51Z
extract_best_naf_block(full_text_pdf_naf, "85.51Z")

"85.51Z Enseignement de disciplines sportives et d'activit√©s de loisirs\nCette sous-classe comprend la formation dans des activit√©s sportives donn√©e √† des groupes\nou des individus par des camps ou des √©coles. Les √©coles de formation sportive de jour et\ncelles offrant un h√©bergement sont √©galement incluses. Cette sous-classe ne comprend pas\nla formation sportive donn√©e dans les √©coles et universit√©s. La formation peut √™tre dispens√©e\ndans diverses structures telles que les installations de formation de l'unit√© ou du client, des\n√©tablissements d'enseignement ou par d'autres moyens. La formation relevant de cette sous-\nclasse est formellement organis√©e.\nCette sous-classe comprend :\n- la formation sportive (base-ball, basket-ball, cricket, football, etc.)\n- les camps offrant une formation sportive\n- les cours de gymnastique\n- les cours d'√©quitation donn√©s dans des acad√©mies ou √©coles\n- les cours de natation\n- les instructeurs de sports, professeurs et entra√

In [17]:
import polars as pl
import re
import pdfplumber

# ---------------------------------------------------------------------
# 3) NETTOYAGE DU BLOC (supprime num√©ros de page / section / etc.)
# ---------------------------------------------------------------------

def cleanup_naf_block(block):
    lines = block.split("\n")
    cleaned = []

    for line in lines:
        l = line.strip()

        if re.match(r"^\d+\s+Nomenclature", l):   break
        if re.match(r"^Section\s+[A-Z]\s*:", l):  break
        if re.match(r"^\d{2}\s+[A-Z]", l):        break
        if re.match(r"^\d{2}\.\d{1,2}$", l):      break

        cleaned.append(line)

    return "\n".join(cleaned).strip()

# ---------------------------------------------------------------------
# 4) PROGRAMME POLARS
# ---------------------------------------------------------------------

# G√©n√©r√© depuis le notebook 02
df = pl.read_csv("naf_codes_001.csv")

# Ajout colonne "desc" g√©n√©r√©e par extraction NAF
df = df.with_columns(
    pl.col("code_naf").map_elements(
        lambda code: cleanup_naf_block(
            extract_best_naf_block(full_text_pdf_naf, code)
        ).replace("\n", " "),  # mise sur une seule ligne
        return_dtype=pl.Utf8
    ).alias("desc")
)

# Sauvegarde du nouveau fichier
df.write_csv("naf_codes_001_desc.csv")
print("Fichier g√©n√©r√© : naf_codes_001_desc.csv")
# Extrait du fichier CSV g√©n√©r√© avec la description
df.sample(10)

Fichier g√©n√©r√© : naf_codes_001_desc.csv


code_naf,code_rome,name,desc
str,str,str,str
"""64.20Z""","""""","""Activit√©s des soci√©t√©s holding""","""64.20Z Activit√©s des soci√©t√©s ‚Ä¶"
"""81.30Z""","""""","""Services d'am√©nagement paysage‚Ä¶","""81.30.12 Autres services d'am√©‚Ä¶"
"""41.10C""","""""","""Promotion immobili√®re d'autres‚Ä¶","""41.10C Promotion immobili√®re d‚Ä¶"
"""03.22Z""","""""","""Aquaculture en eau douce""","""03.22Z Aquaculture en eau douc‚Ä¶"
"""49.42Z""","""""","""Services de d√©m√©nagement""","""49.42Z Services de d√©m√©nagemen‚Ä¶"
"""47.91B""","""""","""Vente √† distance sur catalogue‚Ä¶","""47.91B Vente √† distance sur ca‚Ä¶"
"""23.64Z""","""""","""Fabrication de mortiers et b√©t‚Ä¶","""23.64.99 Op√©rations sous-trait‚Ä¶"
"""20.42Z""","""""","""Fabrication de parfums et de p‚Ä¶","""20.42Z Fabrication de parfums ‚Ä¶"
"""14.12Z""","""""","""Fabrication de v√™tements de tr‚Ä¶","""14.12.99 Op√©rations sous-trait‚Ä¶"
"""62.02A""","""""","""Conseil en syst√®mes et logicie‚Ä¶","""62.02A Conseil en syst√®mes et ‚Ä¶"
