# Exploration du Dataset 

### Chargement du dataset

On peut charger le dataset de deux manière : en cache local, ou en streaming. Le streaming permet de ne pas prendre de place dans le cache mais ne permet pas de selectionner le nombre de styles voulus par exemple. Ainsi on a deux méthodes distinctes. 

Pour l'exploration des données, inutiles pour le moment de séléctionner des styles. On peut utiliser la méthode streaming. 

In [3]:
from itertools import islice
import sys
from pathlib import Path
# pour accéder aux fonctions de src/ en tant que package
PROJECT_ROOT = Path().resolve().parent
sys.path.append(str(PROJECT_ROOT))

from src.dataset import load_streaming_in_file

from datasets import load_dataset
dataset = load_dataset(
                        "huggan/wikiart",
                        split="train",
                        streaming=True
                    )





Resolving data files:   0%|          | 0/72 [00:00<?, ?it/s]

In [None]:
load_streaming_in_file()

### Lister les styles et artistes

In [None]:
from collections import Counter
import matplotlib.pyplot as plt

styles = Counter(item["style"] for item in sample_items)
artists = Counter(item["artist"] for item in sample_items)
genres = Counter(item["genre"] for item in sample_items)

print("Top 10 styles :", styles.most_common(10))
print("Top 10 artistes :", artists.most_common(10))
print("Top 10 genres :", genres.most_common(10))

plt.figure(figsize=(12,4))
plt.bar(*zip(*styles.most_common(10)))
plt.title("Top 10 Styles")
plt.xticks(rotation=45)
plt.show()

plt.figure(figsize=(12,4))
plt.bar(*zip(*artists.most_common(10)))
plt.title("Top 10 Artistes")
plt.xticks(rotation=45)
plt.show()



### Visualisation d'images par style

In [None]:
import random


transform_image = lambda x: x  # pas de transformation, juste affichage
examples_per_style = 3
styles_to_show = list(styles.keys())[:5]  # top 5 styles pour affichage

for style in styles_to_show:
    style_items = [item for item in sample_items if item["style"] == style]
    if not style_items:
        continue
    plt.figure(figsize=(examples_per_style*3, 3))
    for i, item in enumerate(random.sample(style_items, min(examples_per_style, len(style_items)))):
        img = item["image"].convert("RGB")
        plt.subplot(1, examples_per_style, i+1)
        plt.imshow(img)
        plt.axis('off')
        plt.title(item["artist"])
    plt.suptitle(f"Exemples style : {style}")
    plt.show()


### Analyse de déséquilibre du dataset

In [None]:
import pandas as pd

df = pd.DataFrame({
    "style": list(styles.keys()),
    "count": list(styles.values())
}).sort_values("count", ascending=False)

df.head(10)
