In [3]:
import requests
from SPARQLWrapper import SPARQLWrapper, JSON
from PIL import Image, ExifTags
from io import BytesIO
import os
import json
import time

# Créer les dossiers pour les images et les métadonnées
os.makedirs('images', exist_ok=True)
os.makedirs('metadata', exist_ok=True)

# Définir l'endpoint SPARQL de Wikidata et la requête
sparql = SPARQLWrapper("https://query.wikidata.org/sparql")
sparql_query = """
SELECT ?image
WHERE {
  {
    ?item wdt:P31 wd:Q1074; # éléments qui sont des paysages
    wdt:P18 ?image.
  } UNION {
    ?item wdt:P31 wd:Q1420; # éléments qui sont des voitures
    wdt:P18 ?image.
  } UNION {
    ?item wdt:P31 wd:Q31629; # éléments qui sont des sports
    wdt:P18 ?image.
  } UNION {
    ?item wdt:P31 wd:Q3305213; # éléments qui sont des œuvres d'art
    wdt:P18 ?image.
  }
}
LIMIT 100
"""
sparql.setQuery(sparql_query)
sparql.setReturnFormat(JSON)
results = sparql.query().convert()

# Télécharger les images et enregistrer les métadonnées
for i, result in enumerate(results["results"]["bindings"]):
    image_url = result["image"]["value"]
    try:
        headers = {'User-Agent': 'Votre User-Agent ici'}
        response = requests.get(image_url, headers=headers)
        if response.status_code == 200:
            image_path = f'images/image_{i}.jpg'
            with open(image_path, 'wb') as file:
                file.write(response.content)

            image = Image.open(BytesIO(response.content))
            metadata = image._getexif()

            if metadata:
                formatted_metadata = {}
                for tag, value in metadata.items():
                    decoded_tag = ExifTags.TAGS.get(tag, tag)
                    if isinstance(value, bytes):
                        value = value.decode('utf-8', 'ignore')  # Convertir les bytes en string
                    formatted_metadata[decoded_tag] = value

                metadata_path = f'metadata/metadata_{i}.json'
                with open(metadata_path, 'w') as file:
                    json.dump(formatted_metadata, file, ensure_ascii=False, indent=4)
            else:
                print(f"Pas de métadonnées EXIF pour l'image {i}")

            print(f"Image {i} téléchargée avec succès.")
        else:
            print(response.status_code)
            print(image_url)  
    except Exception as e:
        print(f"Erreur lors du téléchargement de l'image {i}: {e}")


Pas de métadonnées EXIF pour l'image 0
Image 0 téléchargée avec succès.
Pas de métadonnées EXIF pour l'image 1
Image 1 téléchargée avec succès.
Erreur lors du téléchargement de l'image 2: Object of type IFDRational is not JSON serializable
Erreur lors du téléchargement de l'image 3: Object of type IFDRational is not JSON serializable
Pas de métadonnées EXIF pour l'image 4
Image 4 téléchargée avec succès.
Erreur lors du téléchargement de l'image 5: Object of type bytes is not JSON serializable
Erreur lors du téléchargement de l'image 6: Object of type IFDRational is not JSON serializable
Erreur lors du téléchargement de l'image 7: Object of type IFDRational is not JSON serializable
Pas de métadonnées EXIF pour l'image 8
Image 8 téléchargée avec succès.
Pas de métadonnées EXIF pour l'image 9
Image 9 téléchargée avec succès.
Pas de métadonnées EXIF pour l'image 10
Image 10 téléchargée avec succès.
Pas de métadonnées EXIF pour l'image 11
Image 11 téléchargée avec succès.
Pas de métadonnées



Erreur lors du téléchargement de l'image 96: Object of type IFDRational is not JSON serializable
Pas de métadonnées EXIF pour l'image 97
Image 97 téléchargée avec succès.
Pas de métadonnées EXIF pour l'image 98
Image 98 téléchargée avec succès.
Pas de métadonnées EXIF pour l'image 99
Image 99 téléchargée avec succès.
