In [None]:
import os

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import dotenv


In [None]:
pd.options.display.max_rows = None
pd.options.display.max_columns = None
plt.rc("figure", figsize=[12, 8])


In [None]:
dotenv.load_dotenv(dotenv.find_dotenv())

In [None]:
raw_df = pd.read_csv(
    os.environ["CD93_FILE_URL"],
    sep=";",
    encoding="latin1",
    encoding_errors="replace",
    on_bad_lines="warn",
    dtype=str,
)
raw_df = raw_df.replace([np.nan, ""], None)


In [None]:
raw_df.sample(5)

In [None]:
raw_df.info()

In [None]:
def compute_field_occupancy_rates(df):
    return ((1 - df.isnull().sum() / df.shape[0]) * 100).sort_values(ascending=False)

In [None]:
compute_field_occupancy_rates(raw_df).to_frame()

## Structures

#### id

In [None]:
raw_df["Numéro de convention"].value_counts().to_frame().head(5)

In [None]:
raw_df["Numéro de convention"].isna().sum()

* attention : champ libre

#### siret

In [None]:
raw_df["N° SIRET"].to_frame().sample(10)

In [None]:
raw_df["N° SIRET"].isna().sum()

In [None]:
raw_df["N° SIRET"].value_counts().to_frame().head(10)

In [None]:
raw_df["N° SIRET"].value_counts().to_frame(name="# de duplications").hist(bins=100)

#### rna

#### nom

In [None]:
raw_df["Porteur de projet"].isna().sum()

In [None]:
raw_df["Porteur de projet"].sample(10).to_frame()

#### commune

In [None]:
raw_df["Commune du lieu de l'action"].isna().sum()

In [None]:
raw_df["Commune du lieu de l'action"].sample(10)

#### code_postal

In [None]:
raw_df["CP du lieu de l'action"].isna().sum()

In [None]:
raw_df["CP du lieu de l'action"].sample(10)

#### code_insee

#### adresse

In [None]:
raw_df["Adresse principale du lieu de l'action"].sample(10).to_frame()

In [None]:
raw_df["Adresse principale du lieu de l'action"].isna().sum()

#### complement_adresse

#### longitude

#### latitude

#### typologie

#### telephone

#### courriel

In [None]:
raw_df["Email de la personne à contacter pour le suivi de l'action"].isna().sum()

In [None]:
raw_df["Email de la personne à contacter pour le suivi de l'action"].sample(10).to_frame()

#### site_web

In [None]:
raw_df["Site Web du porteur de projet"].isna().sum()

In [None]:
raw_df["Site Web du porteur de projet"].sample(10).to_frame()

#### presentation_resume

In [None]:
raw_df[["Résumé", "Intitulé de l'action"]].sample(10)

#### presentation_detail

#### source

#### date_maj

#### structure_parente

#### lien_source

#### horaires_ouverture

#### accessibilite

#### labels_nationaux

#### labels_autres

#### thematiques

In [None]:
raw_df["Type d'action"].value_counts()

## Services

#### id

#### nom

#### presentation_resume

#### types

#### thematiques

#### prise_rdv

#### frais

#### frais_autres

In [None]:
output_df = pd.DataFrame()
output_df = output_df.assign(siret=raw_df["N° SIRET"])
output_df = output_df.assign(nom=raw_df["Porteur de projet"])
output_df = output_df.assign(adresse=raw_df["Adresse principale du lieu de l'action"])
output_df = output_df.assign(code_postal=raw_df["CP du lieu de l'action"])
output_df = output_df.assign(commune=raw_df["Commune du lieu de l'action"])
output_df = output_df.assign(
    courriel=raw_df["Email de la personne à contacter pour le suivi de l'action"]
)
output_df = output_df.assign(lien_source=raw_df["Site Web du porteur de projet"])
output_df = output_df.assign(typologie=raw_df["Type d'action"])
output_df = output_df.assign(presentation_detail=raw_df["Résumé"])

output_df.to_json("cd93.json", orient="records", force_ascii=False)