# Production d'un csv utilisable de la base FINESS

En l'état, l'export CSV de la [base FINESS][finess] n'est pas vraiment satisfaisant et utilisable.

- Le fichier n'est pas réellement un CSV.
    - Il est bizarrement découpé en deux sections qui correspondent au XML.
    - Les colonnes n'ont pas de nom.
- Le fichier est encodé au format windows.

[finess]: https://www.data.gouv.fr/en/datasets/finess-extraction-du-fichier-des-etablissements/

In [None]:
import pandas as pd
import numpy as np
import requests

In [None]:
dataset_api = "https://www.data.gouv.fr/api/1/datasets/finess-extraction-du-fichier-des-etablissements/"

In [None]:
resources = (requests
    .get(dataset_api)
    .json()
    ['resources']
)

resource_geoloc = [ r for r in resources if r['type'] == 'main' and 'géolocalisés' in r['title']][0]

In [None]:
headers = [
    'section',
    'nofinesset',
    'nofinessej',
    'rs',
    'rslongue',
    'complrs',
    'compldistrib',
    'numvoie',
    'typvoie',
    'voie',
    'compvoie',
    'lieuditbp',
    'commune',
    'departement',
    'libdepartement',
    'ligneacheminement',
    'telephone',
    'telecopie',
    'categetab',
    'libcategetab',
    'categagretab',
    'libcategagretab',
    'siret',
    'codeape',
    'codemft',
    'libmft',
    'codesph',
    'libsph',
    'dateouv',
    'dateautor',
    'maj',
    'numuai'
]

In [None]:
geoloc_names = [
    'nofinesset',
    'coordxet',
    'coordyet',
    'sourcecoordet',
    'datemaj'
]

In [None]:
raw_df = (pd
    .read_csv(resource_geoloc['url'],
              sep=";", encoding="Windows-1252", header=None, skiprows=1,
              dtype='str',
              names=headers)
    .drop(columns=['section'])
)

raw_df

In [None]:
structures = (raw_df
    .iloc[:int(raw_df.index.size/2)]
)

structures

In [None]:
geolocalisations = (raw_df
    .iloc[int(raw_df.index.size/2):]
    .drop(columns=raw_df.columns[5:])
    .rename(columns=lambda x: geoloc_names[list(raw_df.columns).index(x)])
)

geolocalisations

In [None]:
clean_df = (structures
    .merge(geolocalisations, on="nofinesset", how="left")
)

clean_df

In [None]:
clean_df.sample().T

In [None]:
clean_df["siret"]

## Vérification de la qualité des données

In [None]:
intersection = pd.Series(np.intersect1d(structures.nofinesset.values, geolocalisations.nofinesset.values))

intersection.shape

In [None]:
only_structures = (structures
    [ ~structures.nofinesset.isin(intersection) ]
)

only_structures

In [None]:
only_geolocalisations = (geolocalisations
    [ ~geolocalisations.nofinesset.isin(intersection) ]
)

only_geolocalisations

In [None]:
geolocalisations_missing = []

## Export final

In [None]:
clean_df.to_csv('finess-clean.csv', encoding='utf-8')