In [None]:
import os

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import dotenv

In [None]:
pd.options.display.max_rows = None
pd.options.display.max_columns = None
plt.rc("figure", figsize=[12, 8])

In [None]:
dotenv.load_dotenv(dotenv.find_dotenv())

df = pd.read_excel(
    os.environ["CD72_FILE_URL"], sheet_name="Structures", dtype=str
).replace([np.nan, ""], None)


In [None]:
df.sample(5)

### id

In [None]:
df.shape[0]

In [None]:
df[df["ID Structure"].isna()]

In [None]:
df["ID Structure"].nunique()

### siret

In [None]:
df["SIRET"].isna().sum()

In [None]:
df["SIRET"].nunique()

In [None]:
df["SIRET"].sample(10)

In [None]:
df["SIRET"].value_counts().head()

In [None]:
df[df["SIRET"].duplicated(keep=False) & df["SIRET"].notna()]

### nom

In [None]:
df["Nom Structure"].sample(20).to_frame()

In [None]:
df["Nom Structure"].duplicated().sum()

In [None]:
df["Nom Structure"].isna().sum()

### commune

In [None]:
df["Ville"].isna().sum()

In [None]:
df[df["Ville"].map(lambda s: "cedex" in s.lower() if s is not None else False)]["Ville"]

### code_postal

In [None]:
df["Code postal"].value_counts().head(10).to_frame()

In [None]:
df["Code postal"].sample(20).to_frame()

In [None]:
df[df["Code postal"].isna()][["Adresse", "Code postal", "Ville", "Nom Structure"]]

Quelques structures sans données adresses

### code_insee

à géocoder

### adresse

In [None]:
df["Adresse"].isna().sum()

In [None]:
df["Adresse"].sample(20).to_frame()

### complement_adresse

### longitude

### latitude

absents

### typologie

In [None]:
df["Type de structure"].value_counts().to_frame()

In [None]:
df["Typologie structure"].value_counts().to_frame()

In [None]:
df[df["Typologie structure"].isna()]

In [None]:
from data_inclusion.schema import models

di_typologie_by_input_typologie = {
        "Associations": models.Typologie.ASSO,
        "Autre": models.Typologie.Autre,
        "Organisme de formations": models.Typologie.OF,
        "Structures porteuses d’ateliers et chantiers d’insertion (ACI)": models.Typologie.ACI,
        "Pôle emploi": models.Typologie.PE,
        "Centre social": models.Typologie.CS,
        "Centres communaux d’action sociale (CCAS)": models.Typologie.CCAS,
        "Communautés de Commune": models.Typologie.CC,
        "Groupements d'employeurs pour l'insertion et la qualification (GEIQ)": models.Typologie.GEIQ,
        "Municipalités": models.Typologie.MUNI,
        "Entreprise d'insertion (EI)": models.Typologie.EI,
        "Associations intermédiaires (AI)": models.Typologie.AI,
        "Maison de quartier": models.Typologie.MQ,
        "Mission Locale": models.Typologie.ML,
        "Maison des jeunes et de la culture": models.Typologie.MJC,
        "Résidence sociale / FJT - Foyer de Jeunes Travailleurs": models.Typologie.RS_FJT,
        "Entreprise de travail temporaire d'insertion (ETTI)": models.Typologie.ETTI,
        "Points et bureaux information jeunesse (PIJ/BIJ)": models.Typologie.PIJ_BIJ,
        "Chambres consulaires (CCI, CMA, CA)": models.Typologie.Autre,
        "Directions de l’Economie, de l’Emploi, du Travail et des Solidarités (DEETS)": models.Typologie.DEETS,
        "Plans locaux pour l’insertion et l’emploi (PLIE)": models.Typologie.PLIE,
        "Bibliothèque / Médiathèque": models.Typologie.BIB,
        "Centres d’information sur les droits des femmes et des familles (CIDFF)": models.Typologie.CIDFF,
        "Conseils Départementaux (CD)": models.Typologie.CD,
        "Caisses d’allocation familiale (CAF)": models.Typologie.CAF,
        "Agence nationale pour la formation professionnelle des adultes (AFPA)": models.Typologie.AFPA,
        "Préfecture, Sous-Préfecture": models.Typologie.PREF,
        "Région": models.Typologie.REG,
        "Services pénitentiaires d’insertion et de probation (SPIP)": models.Typologie.SPIP,
        "Union Départementale d’Aide aux Familles (UDAF)": models.Typologie.UDAF,
        None: models.Typologie.Autre,
    }

df["Typologie structure"].map(di_typologie_by_input_typologie).value_counts().to_frame()

### telephone

In [None]:
df["Téléphone accueil"].isna().sum()

In [None]:
df[df["Téléphone accueil"].isna() & df["Téléphone principal"].notna()][["Téléphone principal"]]

In [None]:
df[["Téléphone accueil", "Téléphone principal"]].sample(10)

Prendre en prio l'accueil puis le principal

### courriel

In [None]:
df[df["E-mail accueil"].notna()]["E-mail accueil"].sample(10)

In [None]:
df["E-mail accueil"].isna().sum()

### site_web

In [None]:
df["Site Internet"].isna().sum()

In [None]:
df[df["Site Internet"].notna()]["Site Internet"].sample(10).to_frame()

### presentation_resume

In [None]:
df[df["Description"].notna()]["Description"].map(lambda s: len(s) > 280).sum()

### presentation_detail

### date_maj

In [None]:
df["Mis à jour le :"].isna().sum()

In [None]:
from dateutil.parser import parse

df["Mis à jour le :"].map(lambda s: parse(s) if s is not None else None).hist(bins=100)


### structure_parente

### lien_source

### horaires_ouverture

In [None]:
df[df["Horaires"].notna()]["Horaires"].to_frame().sample(10)

### accessibilite

### labels_nationaux

### labels_autres

### thematiques

SIRETs dupliqués ?

In [None]:
df["SIRET"].value_counts().head(10).to_frame()

taux de remplissage des champs

In [None]:
def compute_field_occupancy_rates(df):
    return ((1 - df.isnull().sum() / df.shape[0]) * 100).sort_values(ascending=False)

In [None]:
compute_field_occupancy_rates(df).to_frame()