In [2]:
!pip install sparqlwrapper
!python3 -m pip install pandas



In [3]:
import sys
from SPARQLWrapper import SPARQLWrapper, JSON

endpoint_url = "https://query.wikidata.org/sparql"

# Get tanks
query = """SELECT DISTINCT ?tank ?tankLabel ?image WHERE {
  ?tank   wdt:P31 wd:Q920182;
          rdfs:label ?tankLabel;
          wdt:P18 ?image.
 SERVICE wikibase:label { bd:serviceParam wikibase:language "fr". }
 FILTER(lang(?tankLabel)="en")
}
LIMIT 10000"""


def get_results(endpoint_url, query):
    user_agent = "WDQS-example Python/%s.%s" % (sys.version_info[0], sys.version_info[1])
    sparql = SPARQLWrapper(endpoint_url, agent=user_agent)
    sparql.setQuery(query)
    sparql.setReturnFormat(JSON)
    return sparql.query().convert()


array = []
results = get_results(endpoint_url, query)

for result in results["results"]["bindings"]:
    array.append((result["tankLabel"]["value"], result["image"]["value"]))

In [4]:
import urllib.request
import json
import pandas as pd

dataframe = pd.DataFrame(array, columns=["tank", "image"])
dataframe = dataframe.astype(
    dtype={"tank": "<U200", "image": "<U200"}
)
dataframe

Unnamed: 0,tank,image
0,MBT-70,http://commons.wikimedia.org/wiki/Special:File...
1,T-54/55 operators and variants,http://commons.wikimedia.org/wiki/Special:File...
2,Al-Khalid tank,http://commons.wikimedia.org/wiki/Special:File...
3,T-84-120 Yatagan tank,http://commons.wikimedia.org/wiki/Special:File...
4,Leclerc,http://commons.wikimedia.org/wiki/Special:File...
...,...,...
59,Durjoy tanks,http://commons.wikimedia.org/wiki/Special:File...
60,M-95 Degman,http://commons.wikimedia.org/wiki/Special:File...
61,Type 99 tank,http://commons.wikimedia.org/wiki/Special:File...
62,Tank EX,http://commons.wikimedia.org/wiki/Special:File...


In [5]:
import requests
import shutil
import os
import hashlib

def download_image(url):
    
    # Le dossier dans lequel enregistrer les images
    directory = "./images"

    # Création du dossier s'il n'existe pas encore
    if not os.path.exists(directory):
        os.makedirs(directory)
    
    headers = {"User-Agent":"Mozilla/5.0"}
    request = requests.get(url,
        allow_redirects=True,
        headers=headers,
        stream=True)
    
    try:
        request = requests.get(url, stream=True)
        request.raise_for_status()
    except requests.exceptions.HTTPError as e:
        print(f"HTTP error occurred: {e}")
        return None
    except Exception as e:
        print(f"An error occurred: {e}")
        return None
    

    if request.status_code == 200:
        filename = hashlib.md5(url.encode('utf-8')).hexdigest() + ".jpg"
        filepath = os.path.join(directory, filename)

        with open(filepath, 'wb') as image:
            request.raw.decode_content = True
            shutil.copyfileobj(request.raw, image)
            
    return request.status_code

In [6]:
dataframe.image.apply(download_image)

HTTP error occurred: 403 Client Error: Forbidden. Please comply with the User-Agent policy: https://meta.wikimedia.org/wiki/User-Agent_policy for url: https://upload.wikimedia.org/wikipedia/commons/5/5c/T-84-120%2C_Kyiv_2018%2C_05.jpg
HTTP error occurred: 403 Client Error: Forbidden. Please comply with the User-Agent policy: https://meta.wikimedia.org/wiki/User-Agent_policy for url: https://upload.wikimedia.org/wikipedia/commons/d/d3/Swedish_Leopard_2_Tank.jpg
HTTP error occurred: 403 Client Error: Forbidden. Please comply with the User-Agent policy: https://meta.wikimedia.org/wiki/User-Agent_policy for url: https://upload.wikimedia.org/wikipedia/commons/7/7d/Korean_K1_Tank.JPEG
HTTP error occurred: 403 Client Error: Forbidden. Please comply with the User-Agent policy: https://meta.wikimedia.org/wiki/User-Agent_policy for url: https://upload.wikimedia.org/wikipedia/commons/f/fb/Type_88_tanks_01.jpg
HTTP error occurred: 403 Client Error: Forbidden. Please comply with the User-Agent poli

0     200.0
1     200.0
2     200.0
3       NaN
4     200.0
      ...  
59      NaN
60    200.0
61      NaN
62    200.0
63    200.0
Name: image, Length: 64, dtype: float64

In [7]:
import numpy as np
from sklearn.cluster import KMeans

def get_dominant_colors(image_path, n_colors):
    # Charger l'image et la convertir en une matrice numpy
    img = Image.open(image_path)
    img = np.array(img)

    # Obtenir un tableau de pixels en deux dimensions
    pixels = img.reshape(-1, 3)
    #-1 car l'argument s'adapte à la taille de l'image et 3 pour le RGB
    
    # Créer un objet de clustering
    kmeans = KMeans(n_clusters=n_colors)

    # Entraîner le modèle
    kmeans.fit(pixels)

    # Récupérer les couleurs dominantes
    dominant_colors = kmeans.cluster_centers_

    # Convertir les couleurs en entiers et les ajouter à une liste
    dominant_colors = [tuple(map(int, color)) for color in dominant_colors]

    return dominant_colors

In [41]:
# import random
import random

def satisfied_or_not():
    
    #Fonction pour générer un avis aléatoire (positif ou négatif) de l'utilisateur pour pouvoir effectuer des tests
    
    return random.choice(['Yes', 'No'])

In [1]:
import os
from PIL import Image

# Chemin du dossier contenant les images
folder_path = './images'

# Liste des extensions de fichier que nous voulons inclure dans l'analyse
extensions = ['.jpg', '.jpeg', '.png']

# Initialisation de la liste pour stocker les informations de chaque image
images_info = []

# Boucle à travers chaque fichier dans le dossier
for filename in os.listdir(folder_path):
    
    try:
        # Vérifie si le fichier est une image avec une extension spécifiée
        if any(filename.lower().endswith(ext) for ext in extensions):
            # Chemin complet de l'image
            filepath = os.path.join(folder_path, filename)
            # Ouvre l'image avec PIL
            with Image.open(filepath) as img:
                # Récupère les informations EXIF de l'image
                exif = img.getexif()
                # Stocke les informations dans un dictionnaire
                image_info = {'filename': filename, 
                              'size': os.path.getsize(filepath),
                              'format': img.format,
                              'orientation': exif.get(274),
                              'date_created': exif.get(36867),
                              'camera_make': exif.get(271),
                              'camera_model': exif.get(272),
                              'k-means_regions': get_dominant_colors(filepath,3),
                              'favorite_utilisateur1': satisfied_or_not(),
                              'favorite_utilisateur2': satisfied_or_not(),
                              'favorite_utilisateur3': satisfied_or_not(),
                              'favorite_utilisateur4': satisfied_or_not()}
                # Ajoute le dictionnaire à la liste
                images_info.append(image_info)
    except Exception as e:
            print(f"Erreur lors de l'extraction des informations de {filename}: {e}")
            continue

Erreur lors de l'extraction des informations de 66156f63d4db0e4a64a9d9fd69fd5e30.jpg: name 'get_dominant_colors' is not defined
Erreur lors de l'extraction des informations de 369166bcfc3f23591eb92c2d63bcdaf0.jpg: name 'get_dominant_colors' is not defined
Erreur lors de l'extraction des informations de 9ce1bcc37637069038ea9f6d61d115d2.jpg: name 'get_dominant_colors' is not defined
Erreur lors de l'extraction des informations de 9dec0fdc54ee851d7d3354a8c63a619c.jpg: name 'get_dominant_colors' is not defined
Erreur lors de l'extraction des informations de e829798658c557da82b2a1688d127616.jpg: name 'get_dominant_colors' is not defined
Erreur lors de l'extraction des informations de 7f1b8197efad81f1c1e0303c0936faf4.jpg: name 'get_dominant_colors' is not defined
Erreur lors de l'extraction des informations de dea229ef7c7fb50d43d8b7c44a9efd52.jpg: name 'get_dominant_colors' is not defined
Erreur lors de l'extraction des informations de be46d214200653b65a0ed14b862e4508.jpg: name 'get_dominant

In [43]:
# Écriture des informations dans un fichier JSON
with open('./data_images.json', 'w') as d:
    json.dump(images_info, d)