# Utilisation de l'API Datagrosyst (Python)

Le but de ce code est d'utiliser l'API de Datagrosyst afin de g√©n√©rer une requ√®te de t√©l√©chargement des tables que vous indiquerez au pr√©alable. Celui-ci va permettre de recevoir le mail avec le lien Filesender de t√©l√©chargement. L'√©tape de t√©l√©chargement via le filesender n'est pas automatiser, il faudra aller manuellement dans votre boite et mail, cliquer sur le lien et t√©l√©charger.

Nous allons √©galement vous faire une code qui ira chercher dans votre dossier de t√©l√©chargement le fichier Filesender, pour le d√©compr√©ss√© et le stocker dans un autre dossier (votre dossier de travail).

Ensuite, un dernier bout de code afin d'importer les tables que vous venez de t√©l√©charger.

## Imports des librairies

In [8]:
import requests
import tarfile
import os
import pandas as pd
from tqdm import tqdm

## Initialisation de la requ√®te et des chemins de dossier

<font color="#900000">Attention</font>  aux noms des tables !  
Les cha√Ænes de caract√®res permettant d‚Äôidentifier les tables dans le champ **"tables"** sont celles qui sont disponibles dans le volet √† droite sur Datagrosyst. Celles-ci diff√®rent parfois du nom disponible sur l‚Äôinterface de s√©lection. Par exemple, dans le magasin_can, lorsqu‚Äôon s√©lectionne *‚Äúdomaine‚Äù*, on voit appara√Ætre √† droite *‚Äúdomaine_magasin_can‚Äù*. C‚Äôest ce dernier libell√© qu‚Äôil faut saisir dans le champ **"tables"** pour obtenir table domaine du magasin_can, car saisir simplement *‚Äúdomaine‚Äù* ferait r√©f√©rence √† la table domaine de l‚Äôentrep√¥t.


<font color="#900000">Attention</font> aux restrictions d'acc√®s aux donn√©es !  
Si vous saisissez dans **‚Äútables‚Äù** des noms de tables pour lesquelles vous n‚Äôavez pas les droits, celles-ci ne seront pas ajout√©es dans l‚Äôexport obtenu.

Le <font color="green">token de l'API</font> est en quelque sorte un mot de passe, ne pas le transmettre !  
Vous le trouverez dans [üîó votre profil](https://agrosyst.fr/datagrosyst/profil) sur Datagrosyst, au dessus des param√®tres.

In [5]:
url = 'https://agrosyst.fr/datagrosyst/export'

url = 'https://agrosyst.fr/datagrosyst-tests/export'

# La liste des tables √† r√©cup√©rer
tables = ["domaine",'parcelle'] # A modifier

# La strucuture de la requ√®te
# Modifier "mail" et "token" avec vos informations personnelles disponibles dans le profil de votre compte Datagrosyst
data_request = {
    "mail": "votreadressemail@exemple.fr",      # A modifier
    "token": "tokendiponiblesurDatagrosyst",    # A modifier
    "tables": tables           
}

data_request = {
    "mail": "thomas.badie@inrae.fr",
    "token": "d94bba29-3431-4442-a589-b5d2d6b9cd5b",
    "tables": tables
}

# Les chemins vers vos dossiers locaux
path_download = "/chemin/vers/ton/dossier/de/T√©l√©chargements"       # Modifier ici le chemin vers ton dossier de t√©l√©chargements
path_workdirectory = "/chemin/vers/ton/Workdirectory"               # Modifier ici le chemin vers ton dossier de travail

path_download = "/home/administrateur/T√©l√©chargements"
path_workdirectory = "/home/administrateur/Bureau/testtest"

## Envoy√© la demande √† Datagrosyst grace √† 'requests'

In [None]:
# Envoi de la requ√™te POST √† l'API Datagrosyst
response = requests.post(url, json=data_request)

# Code de v√©rification de la r√©ponse de l'API
if response.status_code == 200:
    print("Requ√™te r√©ussie !")
else:
    print(f"Erreur lors de la requ√™te. Code d'√©tat : {response.status_code}")
    print("R√©ponse :", response.text)

## T√©l√©charger les donn√©es

**<font color="#900000">Attention cette √©tape est manuelle !</font>**  
Vous aller recevoir un mail de la part de Filesender vous invitant √† aller t√©l√©charger les donn√©es stock√©es pour vous via un lien. Cliquez sur ce lien, puis t√©l√©charger le fichier compr√©ss√©. Ce fichier va noramlement se retrouver directement dans votre dossier de t√©l√©chargement **path_download**.

## D√©placer et d√©compr√©ss√© le fichier Filesender t√©l√©charg√©

Vous avez d√©sormais le fichier compr√©ss√© dans votre dossier de t√©l√©chargement. Avec le code propos√© ci-dessous, vous aller en plusieurs √©tapes : 
- **Trouver le fichier .tar.gz** (extension des fichiers compr√©ss√©s) *le plus r√©cent* de votre dossier de t√©l√©chargement
- **Copier** ce fichier vers votre dossier de travail
- **D√©compr√©ss√©** le fichier, ce qui va automatiquement √©craser les anciennes tables pour mettre les nouvelles tables (celles pr√©sentes dans le fichier compr√©ss√©, que vous avez d√©fini lors de l'initialisation)
- **Supprim√©** le fichier compr√©ss√© pour ne gard√© que les tables

In [6]:
# Trouver le fichier .tar.gz le plus r√©cent du dossier de t√©l√©chargements
tar_files = [f for f in os.listdir(path_download) if f.endswith('.tar.gz')]
if not tar_files:
    raise FileNotFoundError("Aucun fichier .tar.gz trouv√©.")

latest_file = max(
    [os.path.join(path_download, f) for f in tar_files],
    key=os.path.getmtime
)
print(f"Fichier le plus r√©cent : {latest_file}")

# Copier le fichier compr√©ss√© vers le dossier de travail
os.makedirs(path_workdirectory, exist_ok=True)
dest_tar_path = os.path.join(path_workdirectory, os.path.basename(latest_file))

with open(latest_file, 'rb') as src, open(dest_tar_path, 'wb') as dst:
    dst.write(src.read())

# D√©compresser (√©crase automatiquement les fichiers existants, c√†d les plus anciens)
with tarfile.open(dest_tar_path, "r:gz") as tar:
    tar.extractall(path=path_workdirectory, filter="data")

# Supprime le fichier compress√© dans le dossier de travail apr√®s d√©compression
os.remove(dest_tar_path) 

# Fin
print(f"D√©compression termin√©e dans {path_workdirectory}.")

Fichier le plus r√©cent : /home/administrateur/T√©l√©chargements/export_525e41b7-6cbd-45a6-94fe-abc8947546f7.tar.gz
D√©compression termin√©e dans /home/administrateur/Bureau/testtest.


## Chargement des donn√©es dans le Notebook

Vous voici avec les tables de donn√©es nouvellement acquise dans votre dossier de travail !  
Maintenant nous allons les importer dans le Notebook. Pour cela nous allons d√©finir un dictionnaire de table dont le nom sera le nom du fichier. Nous pr√©parons aussi une fonction d'import d'une table qui sera reprise par la fonction d'import de plusieurs tables. Nous utilisons ensuite cette derni√®re fonction en sp√©cifiant les **tables** que vous venez de t√©l√©charg√©es (pas toutes celle du dossier de travail !) et le chemin vers le dossier de travail.

In [11]:
tables = ["domaine",'nuisible_edi'] # A modifier

In [None]:
# Cr√©ation du dictionnaire des dataframes
df = {}

# D√©finition des fonctions d'importation
def import_df(df_name, path_data, sep, index_col=None):
    df[df_name] = pd.read_csv(path_data+'/'+df_name+'.csv', sep = sep, index_col=index_col, low_memory=False).replace({'\r\n': '\n'}, regex=True)

def import_dfs(df_names, path_data, sep = ',', index_col=None, verbose=False):
    for df_name in tqdm(df_names) : 
        if(verbose) :
            print(" - ", df_name)
        import_df(df_name, path_data, sep, index_col=index_col)

# Import des donn√©es que vous venez de t√©l√©charger et placer dans le dossier de travail
import_dfs(tables, path_workdirectory, sep = ',', verbose=False)

# Voir un r√©sum√© du contenu du dictionnaire des premiers dataframes
for i, (name, dataframe) in enumerate(df.items()):
    if i < 5:  # Limite aux 5 premi√®res tables
        print(f"\n--- {name} ---")
        print(f"Lignes: {dataframe.shape[0]}, Colonnes: {dataframe.shape[1]}","\n")
        print(dataframe.columns.tolist(), '\n')

100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2/2 [00:00<00:00,  2.87it/s]


--- domaine ---
Lignes: 31431, Colonnes: 78 

['id', 'nom', 'contact_principal', 'code', 'siret', 'campagne', 'type_ferme', 'departement', 'commune', 'petite_region_agricole', 'commune_id', 'zonage', 'station_meteo_defaut', 'pct_sau_zone_vulnerable', 'pct_sau_zone_actions_complementaires', 'pct_sau_zone_natura_2000', 'pct_sau_zone_erosion', 'pct_sau_zone_excedent_structurel', 'pct_sau_perimetre_protection_captage', 'description', 'statut_juridique_nom', 'statut_juridique_commentaire', 'sau_totale', 'annee_naissance_exploitant', 'cultures_commentaire', 'autres_activites_commentaire', 'mo_commentaire', 'nombre_associes', 'mo_familiale_et_associes', 'mo_permanente', 'mo_temporaire', 'mo_familiale_remuneration', 'charges_salariales', 'mo_conduite_cultures_dans_domaine_expe', 'cotisation_msa', 'fermage_moyen', 'aides_decouplees', 'otex_18_nom', 'otex_70_nom', 'otex_commentaire', 'responsables_domaine', 'nombre_parcelles', 'distance_siege_parcelle_max', 'surface_autour_siege_exploitation', 


