#### Le but de ce TP est d'explorer les fonctionalités d'un stockage objet avec [MINIO](https://min.io/), une solution open source rapide et compatible S3.  

#### Nous y verrons comment configurer un serveur MinIO, gérer des buckets et interagir avec les objets

#### Vous pouvez retrouver la documentation [ici](https://min.io/docs/minio/linux/developers/python/API.html#) 

Pré-Requis

0 - Préparer votre environnement comme pour la séance précédente

1 - git checkout feat-minio && git checkout -b "you-branche-name"

2 - docker-compose up (une fois que les conteneurs sont up aller sur http://localhost:9001/): Explorez l'ui, les fonctionalités

3 - jupyter-notebook (puis ouvrir ce TP)

In [1]:
from minio import Minio
import pandas as pd
import s3fs

In [2]:
MINIO_ACCESS_KEY = "miniouser"
MINIO_SECRET_KEY = "miniopassword"
MINIO_ENDPOINT_URL = "http://localhost:9000"
BUCKET_NAME = "dataplatform"

In [37]:
storage_options={
   'key': MINIO_ACCESS_KEY,
   'secret': MINIO_SECRET_KEY,
   'endpoint_url': MINIO_ENDPOINT_URL,
}

Initialisons le client minio

In [4]:
client = Minio(
    "localhost:9000",
    access_key=MINIO_ACCESS_KEY,
    secret_key=MINIO_SECRET_KEY,
    secure=False  # Set to True if you're using HTTPS
)

Buckets: Les buckets, unités fondamentales du stockage objet dans MinIO, permettent d'organiser et de gérer efficacement les données. On peut associer plusieurs configurations à un bucket. \
**Droits d'accès** : Vous pouvez définir qui a accès au bucket (public ou privé) et spécifier des permissions détaillées (lecture, écriture, etc.). \
**Versioning** : Cette option permet de conserver différentes versions des objets, utile pour suivre les modifications ou restaurer des données supprimées. \
**Politique de cycle de vie** : Elle automatise la gestion des objets en définissant des règles pour leur archivage ou leur suppression après une certaine durée. \
**Chiffrement** : Les données du bucket peuvent être protégées par un chiffrement pour garantir leur sécurité. \
**Notifications** : Configurez des événements pour envoyer des alertes lorsque des actions spécifiques (ajout, suppression) se produisent dans le bucket. \
**Replication** : Permet de copier automatiquement les données du bucket vers un autre, souvent dans un but de sauvegarde ou de haute disponibilité.

Créer un bucket 

In [13]:
bucket_name = "big-data-bucket"
if not client.bucket_exists(bucket_name):
    client.make_bucket(bucket_name)


Lister les buckets

In [15]:
client.list_buckets()

[Bucket('big-data-bucket')]

Upload un fichier dans un bucket avec la méthode *fput_object*

In [20]:
result = client.fput_object(
    "big-data-bucket", "raw-data/premier-league-2021.csv", "data/premier-league-2021.csv",
)

In [24]:
objects = client.list_objects(bucket_name)
for obj in objects:
    print(obj.object_name)

raw-data/


Supprimer ce fichier

In [25]:
client.remove_object(bucket_name, "raw-data/premier-league-2021.csv")

In [26]:
objects = client.list_objects(bucket_name)
for obj in objects:
    print(obj.object_name)

Supprimer le bucket que vous avez créer

In [27]:
client.remove_bucket(bucket_name)

On va à présent reprendre notre exo précédent et réécrire les données dans notre stockage objet 

Créer un bucket nommé *data dataplatform*

In [28]:
client.make_bucket("dataplatform")

Lire les données sources et réécrivez le dataframe dans minio dans le bucket que vous venez de créer

In [29]:
import psycopg2
import pandas as pd

In [30]:
db_params = {
    'dbname': 'dataplatform',
    'user': 'postgres',
    'password': 'postgrespassword',
    'host': 'localhost',
    'port': 5432
}
table_name = "premier_league_2021"

In [31]:
def get_conn():
    conn = psycopg2.connect(**db_params)
    return conn

In [32]:
conn = get_conn()

In [33]:
query = f"SELECT * FROM {table_name}"

In [34]:
raw_df = pd.read_sql(query, conn)

  raw_df = pd.read_sql(query, conn)


In [35]:
raw_df

Unnamed: 0,matchdate,hometeam,awayteam,fthg,ftag,ftr,hthg,htag,htr,referee,...,hst,ast,hf,af,hc,ac,hy,ay,hr,ar
0,2021-05-12,Chelsea,Arsenal,0,1,A,0,1,A,A Marriner,...,5,2,7,6,9,1,0,1,0,0
1,2021-04-12,West Brom,Southampton,3,0,H,2,0,H,S Hooper,...,6,4,12,11,5,10,0,1,0,0
2,2021-04-12,Brighton,Everton,0,0,D,0,0,D,D England,...,3,1,12,7,10,3,1,2,0,0
3,2021-03-12,Newcastle,Aston Villa,1,1,D,0,0,D,P Tierney,...,3,6,10,10,2,2,2,3,0,0
4,2021-01-12,Sheffield United,Newcastle,1,0,H,0,0,D,A Madley,...,4,3,13,12,5,2,2,3,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
375,2021-05-23,Liverpool,Crystal Palace,2,0,H,1,0,H,C Pawson,...,5,4,10,8,14,1,2,2,0,0
376,2021-05-23,Man City,Everton,5,0,H,2,0,H,M Oliver,...,11,3,8,10,7,5,2,2,0,0
377,2021-05-23,Sheffield United,Burnley,1,0,H,1,0,H,K Friend,...,3,3,11,1,8,9,3,1,0,0
378,2021-05-23,West Ham,Southampton,3,0,H,2,0,H,M Atkinson,...,7,5,5,9,2,3,0,3,0,0


In [38]:
raw_df.to_parquet("s3://dataplatform/raw-data/", engine="pyarrow", compression="snappy",partition_cols=["matchdate"], storage_options=storage_options )

In [39]:
df = pd.read_parquet("s3://dataplatform/raw-data/", storage_options=storage_options)

In [40]:
df

Unnamed: 0,hometeam,awayteam,fthg,ftag,ftr,hthg,htag,htr,referee,hos,...,ast,hf,af,hc,ac,hy,ay,hr,ar,matchdate
0,Fulham,Arsenal,0,3,A,0,1,A,C Kavanagh,5,...,6,12,12,2,3,2,2,0,0,2020-09-12
1,Crystal Palace,Southampton,1,0,H,1,0,H,J Moss,5,...,5,14,11,7,3,2,1,0,0,2020-09-12
2,Liverpool,Leeds,4,3,H,3,2,H,M Oliver,22,...,3,9,6,9,0,1,0,0,0,2020-09-12
3,West Ham,Newcastle,0,2,A,0,0,D,S Attwell,15,...,2,13,7,8,7,2,2,0,0,2020-09-12
4,West Brom,Leicester,0,3,A,0,0,D,A Taylor,7,...,7,12,9,2,5,1,1,0,0,2020-09-13
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
375,Liverpool,Crystal Palace,2,0,H,1,0,H,C Pawson,19,...,4,10,8,14,1,2,2,0,0,2021-05-23
376,Man City,Everton,5,0,H,2,0,H,M Oliver,21,...,3,8,10,7,5,2,2,0,0,2021-05-23
377,Sheffield United,Burnley,1,0,H,1,0,H,K Friend,12,...,3,11,1,8,9,3,1,0,0,2021-05-23
378,West Ham,Southampton,3,0,H,2,0,H,M Atkinson,14,...,5,5,9,2,3,0,3,0,0,2021-05-23
