📝 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License

# **COCO Dataset** 🖼️
https://cocodataset.org/

- mehr als 200.000 reale Bilder aus unterschiedlichsten Szenarien
- unterteilt in 80 Kategorien (Personen, Fahrzeuge, Tiere, ...)
- jedes Bild detailliert annotiert, unter anderem mit Bildunterschriften (Captions)


### **(1) Dataset herunterladen und entpacken**

In [None]:
import os
import requests
import zipfile

# URLs für das COCO Dataset
base_url = "http://images.cocodataset.org/"
files = {
    "train_images": "zips/train2017.zip",
    "val_images": "zips/val2017.zip",
    "annotations": "annotations/annotations_trainval2017.zip"
}

# Zielverzeichnis
dataset_dir = "coco_dataset"

# Überprüfen, ob das Verzeichnis bereits existiert
if not os.path.exists(dataset_dir):
    os.makedirs(dataset_dir)
    print(f"Verzeichnis erstellt: {dataset_dir}")
else:
    print(f"Verzeichnis existiert bereits: {dataset_dir}")

def download_and_extract(url, dest_dir):
    # Dateiname
    file_name = url.split("/")[-1]
    file_path = os.path.join(dest_dir, file_name)
    
    # Datei herunterladen
    response = requests.get(url, stream=True)
    total_size = int(response.headers.get('content-length', 0))
    print(f"Größe der Datei {file_name}: {total_size / (1024 * 1024):.2f} MB")
    
    block_size = 1024  # 1 KB
    with open(file_path, 'wb') as file:
        for data in response.iter_content(block_size):
            file.write(data)
    
    # Datei extrahieren
    with zipfile.ZipFile(file_path, 'r') as zip_ref:
        zip_ref.extractall(dest_dir)
    
    # ZIP-Datei entfernen
    os.remove(file_path)

# Dateien nur herunterladen und extrahieren, wenn das Verzeichnis nicht existiert
if not os.path.exists(dataset_dir):
    for key, relative_url in files.items():
        url = base_url + relative_url
        print(f"Herunterladen und extrahieren: {url}")
        download_and_extract(url, dataset_dir)
else:
    print("Download wird übersprungen, da das Verzeichnis bereits existiert.")