Pour information, dans le code ci-dessous, le fichier `ps-infospratiques.csv`étant volumineux, il ne figure pas dans le projet

In [2]:
import pandas as pd
from pathlib import Path

# === 1. Chemins des fichiers ===
input_csv_path = Path("../data/ps-infospratiques.csv")
output_parquet_path = Path("../data/professionnels_sante.parquet")

# === 2. Définition des colonnes ===
columns = [
    "civilite", "nom", "prenom", "col4", "col5",                     
    "adresse1", "adresse2", "code_postal", "commune", "telephone",   
    "profession_code", "col11", "col12", "col13", "col14", "col15",   
    "col16", "col17", "col18", "heure_debut", "heure_fin", "jour",                                                           
]

# === 3. Mapping des codes profession ===
profession_mapping = {
    "1": "Ambulance / Véhicule sanitaire léger",
    "2": "Anatomo-Cyto-Pathologiste",
    "3": "Anesthésiste réanimateur",
    "4": "Cancérologue radiothérapeute",
    "5": "Cancérologue médical",
    "6": "Cardiologue",
    "7": "Chirurgien général",
    "8": "Chirurgien infantile",
    "9": "Chirurgien maxillo-facial",
    "10": "Chirurgien maxillo-facial et stomatologiste",
    "11": "Chirurgien oral",
    "12": "Chirurgien orthopédiste et traumatologue",
    "13": "Chirurgien plasticien",
    "14": "Chirurgien thoracique et cardio-vasculaire",
    "15": "Chirurgien urologue",
    "16": "Chirurgien vasculaire",
    "17": "Chirurgien viscéral",
    "18": "Chirurgien-dentiste",
    "19": "Chirurgien-dentiste spécialiste en orthopédie dento-faciale",
    "20": "Chirurgiens-dentistes spécialiste en chirurgie orale",
    "21": "Chirurgiens-dentistes spécialiste en médecine bucco-dentaire",
    "22": "Dermatologue et vénérologue",
    "23": "Endocrinologue-diabétologue",
    "33": "Gastro-entérologue et hépatologue",
    "34": "Gériatre",
    "35": "Gynécologue médical",
    "36": "Gynécologue médical et obstétricien",
    "37": "Gynécologue obstétricien",
    "38": "Hématologue",
    "39": "Infirmier",
    "40": "Laboratoire",
    "41": "Laboratoire",
    "42": "Laboratoire d'anatomo-pathologie",
    "43": "Masseur-kinésithérapeute",
    "45": "Médecin généraliste",
    "48": "Médecin généticien",
    "49": "Médecin spécialiste en médecine nucléaire",
    "50": "Médecin spécialiste en santé publique et médecine sociale",
    "51": "Néphrologue",
    "52": "Neurochirurgien",
    "53": "Neurologue",
    "54": "Neuropsychiatre",
    "55": "Obstétricien",
    "56": "Ophtalmologiste",
    "57": "Orthophoniste",
    "58": "Orthoptiste",
    "59": "Oto-Rhino-Laryngologue (ORL) et chirurgien cervico-facial",
    "60": "Pédiatre",
    "61": "Pédicure-podologue",
    "62": "Pharmacien",
    "63": "Pharmacien",
    "64": "Pneumologue",
    "65": "Psychiatre",
    "66": "Psychiatre de l'enfant et de l'adolescent",
    "67": "Radiologue",
    "68": "Radiothérapeute",
    "69": "Réanimateur médical",
    "70": "Rhumatologue",
    "71": "Sage-femme",
    "72": "Spécialiste en médecine interne",
    "73": "Spécialiste en médecine physique et de réadaptation",
    "74": "Stomatologiste",
}

# === 4. Lecture du CSV ===
df = pd.read_csv(
    input_csv_path,
    sep=";",
    header=None,
    names=columns,
    dtype=str,
    engine="python",
    on_bad_lines="warn",
    encoding="windows-1252"
)

print(f"Lecture réussie : {len(df)} lignes brutes chargées")

# === 5. Ajout du libellé profession ===
df["profession"] = df["profession_code"].map(profession_mapping).fillna("Inconnu (code " + df["profession_code"] + ")")

# === 6. Sélection et nettoyage avant déduplication ===
result = df[[
    "code_postal",
    "commune",
    "profession",
    "nom",
    "prenom"
]].copy()

# Nettoyage des espaces et mise en majuscules pour une déduplication plus robuste
result["nom"] = result["nom"].str.strip().str.upper()
result["prenom"] = result["prenom"].str.strip().str.upper()
result["commune"] = result["commune"].str.strip().str.title()
result["code_postal"] = result["code_postal"].str.strip()

# === 7. Suppression des doublons (même nom + prénom) ===
result_dedup = result.drop_duplicates(subset=["nom", "prenom"], keep="first")

print(f"Après déduplication : {len(result_dedup)} professionnels uniques")

# === 8. Export Parquet ===
result_dedup.to_parquet(output_parquet_path, index=False)

print(f"Fichier Parquet créé avec succès : {output_parquet_path}")
print(f"Nombre de professionnels uniques : {len(result_dedup)}")

print("\nAperçu après déduplication :")
print(result_dedup.head(10))


  df = pd.read_csv(

  df = pd.read_csv(

  df = pd.read_csv(

  df = pd.read_csv(

  df = pd.read_csv(

  df = pd.read_csv(

  df = pd.read_csv(

  df = pd.read_csv(

  df = pd.read_csv(

  df = pd.read_csv(

  df = pd.read_csv(

  df = pd.read_csv(

  df = pd.read_csv(

  df = pd.read_csv(

  df = pd.read_csv(

  df = pd.read_csv(

  df = pd.read_csv(

  df = pd.read_csv(

  df = pd.read_csv(

  df = pd.read_csv(

  df = pd.read_csv(


Lecture réussie : 1491476 lignes brutes chargées
Après déduplication : 432015 professionnels uniques
Fichier Parquet créé avec succès : ..\data\professionnels_sante.parquet
Nombre de professionnels uniques : 432015

Aperçu après déduplication :
   code_postal            commune           profession         nom  \
0        01630   St Genis Pouilly  Chirurgien-dentiste  CONSTANTIN   
8        01480            Fareins  Chirurgien-dentiste     JOBEILI   
26       01140           Thoissey  Chirurgien-dentiste   DELAFOSSE   
31       01210    Ferney Voltaire  Chirurgien-dentiste       SOUSA   
32       01000    Bourg En Bresse  Chirurgien-dentiste       BAKIR   
35       01500  Amberieu En Bugey  Chirurgien-dentiste     PRISADA   
36       01250           Jasseron  Chirurgien-dentiste    MOGOSANU   
46       01600           Reyrieux  Chirurgien-dentiste     BISMUTH   
47       01570           Feillens  Chirurgien-dentiste      ANGHEL   
48       01570           Feillens  Chirurgien-dentiste 

In [4]:
result_dedup.describe()

Unnamed: 0,code_postal,commune,profession,nom,prenom
count,432015,432015,430095,432015,380811
unique,7078,15927,72,207624,20233
top,75015,Paris,Infirmier,MARTIN,SOPHIE
freq,2010,19995,99329,423,3705


In [6]:
result_dedup.isnull().sum()

code_postal        0
commune            0
profession      1920
nom                0
prenom         51204
dtype: int64