# Working with data in Azure ML

### Introduction DataStores

Definition: encapsule info nécessaire pour se connecter aux sources de données

Utilisations possibles: 
- integrer des données dans une experience
- écrire/stocker des résultats d'une expérience

##### Type de datastores

Datastores crées pour de multiple type de source de données:
- Azure Storage (blob and file containers
- Azure Data Lake Storage 
- Az SQL Datrabase
- Az Databricks file systm (DBFS)

##### Utilisation de datastores

##### Enregistrement de datastores

2 manières de créerun datastores : 
- 1 click bouton
- 2 Via SDK python

Ici le code enregistr un Azure Storage blob contanie en tant que datastore du nom de blob_data :

In [None]:
from azureml.core import Workspace, Datastore

ws = Workspace.from_config()

# Register a new datastore
blob_ds = Datastore.register_azure_blob_container(workspace=ws,
    datastore_name='blob_data',  
    container_name='data_container',
    account_name='az_store_acct',
    account_key='123456abcde789…')

### Gerer ses datastores via Azure ML Studio

Lister les noms de l'ensemble de ses datastores de son ET

In [None]:
for ds_name in ws.datastores:
    print(ds_name)

Obtenir la réference d'un datastore

In [None]:
blob_store = Datastore.get(ws, datastore_name='blob_data')


Otbenir/retrouver le datastore créer par défaut intitulé workspaceblobstore dans son ET. 

In [None]:
default_store = ws.get_default_datastore()


Changer le datastore par défaut

In [None]:
ws.set_default_datastore('blob_data')


### Utiliser un Datastores

1- enregistrer et telecharger des données 

In [None]:
blob_ds.upload(src_dir='/files',
               target_path='/data/files',
               overwrite=True, show_progress=True)

blob_ds.download(target_path='downloads',
                 prefix='/data',
                 show_progress=True)

Utilisation d'un datastores dans une expérience --> necessité de transmettre une référence de données au script
La référence de données est configurée  selon le mode d'accès:

**Download**: The contents of the path associated with the data reference is downloaded to the compute context where the experiment is running.

**Upload**: The files generated by your experiment script are uploaded to the datastore after the run completes.

**Mount**: The path on the datastore is mounted as remote storage in the experiment compute context, enabling the contents to be accessed remotely (note that this mode is only available when the experiment is run on a remote compute target - you cannot use this mode with local compute).

In [None]:
data_ref = blob_ds.path('data/files').as_download(path_on_compute='training_data') #telechargement de la base de données dans datastors



estimator = SKLearn(source_directory='experiment_folder',
                    entry_script='training_script.py'
                    compute_target='local',
                    script_params = {'--data_folder': data_ref}) #ajout de la reference de la banque de données/ des données

In [None]:
import os
import argparse

parser = argparse.ArgumentParser()
parser.add_argument('--data_folder', type=str, dest='data_folder')
args = parser.parse_args()

data_files = os.listdir(args.data_folder) # utilisation de argparse pour faciliter l'accès rapide au datastore définit plus haut

### Introduction to Datasets

Datasets are versioned packaged data objects that can be easily consumed in experiments and pipelines. Datasets are the recommended way to work with data

##### Types d'ensemble de datasets

- 1) Tabulaires = données lues sous forme de tableau structurés
- 2) Fichiers = données non strucutrées 

##### Création et enregistrement d'ensembles de données 

**1) Création de datasets** 

--> créer un ensemble de données à partir de fichiers individuels ou de chemins relatifs

rmq: chemins peuvent inclure caractéristiques génériques exemple: /files/*.csv


**2) Enregistrer le dataset dans l'ET**

--> permet de rendre dispo pour une utilisation dans une expérience ou dans un pipeline de traitement

######  <font color='green'>Création + enregistrement de données tabulaires</font>

In [None]:
from azureml.core import Dataset

blob_ds = ws.get_default_datastore()
csv_paths = [(blob_ds, 'data/files/current_data.csv'),  #L'ensemble de données de cet exemple inclut les données de deux chemins de fichier
             (blob_ds, 'data/files/archive/*.csv')]
tab_ds = Dataset.Tabular.from_delimited_files(path=csv_paths)
tab_ds = tab_ds.register(workspace=ws, name='csv_table')  #Après avoir créé l'ensemble de données, le code 
                                                          #l'enregistre dans l'espace de travail sous le nom csv_table .



###### <font color='green'>Création + enregistrement de données fichiers</font>

In [None]:
from azureml.core import Dataset

blob_ds = ws.get_default_datastore()
file_ds = Dataset.File.from_files(path=(blob_ds, 'data/files/images/*.jpg'))
file_ds = file_ds.register(workspace=ws, name='img_files')

##### Récupération des données enregistré

Récupération des données, 2 façons:
The datasets dictionary attribute of a Workspace object.


1- via le **dictionnaire des attributs du dataset** de l'objet de type **Workspace** 
2- La méthode **get_by_name** ou **get_by_id** de la classe **Dataset** 

In [None]:
import azureml.core
from azureml.core import Workspace, Dataset

# Load the workspace from the saved config file
ws = Workspace.from_config()

# Get a dataset from the workspace datasets collection  --> Méthode 1
ds1 = ws.datasets['csv_table']

# Get a dataset by name from the datasets class --> méthode 2
ds2 = Dataset.get_by_name(ws, 'img_files')

##### Datasets versioning

In [None]:
#versioning
img_paths = [(blob_ds, 'data/files/images/*.jpg'),
             (blob_ds, 'data/files/images/*.png')]
file_ds = Dataset.File.from_files(path=img_paths)

file_ds = file_ds.register(workspace=ws, name='img_files', create_new_version=True)  #--> versioning


#retrouver une version
img_ds = Dataset.get_by_name(workspace=ws, name='img_files', version=2)  # --> version 2 

### Utiliser un dataset

##### Travailler avec un dataset directement

In [None]:
df = tab_ds.to_pandas_dataframe()  #tab_ds étant le base de données tééchargée au préalable 
# code to work with dataframe goes here

Méthode to_path () pour renvoyer une liste des chemins de fichier encapsulés par l'ensemble de données

In [None]:
for file_path in file_ds.to_path():
    print(file_path)

##### Passer un ensemble de données à un script d'expérimentation

Inclusion dans un estimateur

Rmq : étant donné que le script devra fonctionner avec un objet Dataset , vous devez inclure le package **azureml-sdk** complet ou le package **azureml-dataprep** avec la bibliothèque supplémentaire **pandas** **dans l'environnement de calcul du script.**

In [None]:
estimator = SKLearn( source_directory='experiment_folder',
                     entry_script='training_script.py',
                     compute_target='local',
                     inputs=[tab_ds.as_named_input('csv_data')],
                     pip_packages=['azureml-dataprep[pandas]')

Transformation de la base de donnée en format pandas dans script de l'experience

In [None]:
run = Run.get_context()
data = run.input_datasets['csv_data'].to_pandas_dataframe()

et lors de la transmission d'un ensemble de **données de fichier**, **spécifier le mode d'accès**

In [None]:
estimator = Estimator( source_directory='experiment_folder',
                     entry_script='training_script.py'
                     compute_target='local',
                     inputs=[img_ds.as_named_input('img_data').as_download(path_on_compute='data')],
                     pip_packages=['azureml-dataprep[pandas]')