# **Manipuler des images avec Python: partie 1**

## Introduction à l'analyse des images - 32M7132

*Adrien Jeanrenaud (adrien.jeanrenaud@unige.ch)*

<div class="alert alert-block alert-info">
<b>Manipulations des images partie 1</b> : jusque là nous avons manipulé les images une par. Dès aujourd'hui, nous allons voir comment manipuler les images en quatité, leur appliquer des transformations et retirer des informations:
</div>

## **Plan du cours**

> **Importer des images**
> * Rappel sur les chemins
> * Une fonction pour importer un dossier
> * Une fonction pour importer seulement des images

> **Extraire des informations**
> * Rappel sur les informations
> * Extraires des informations en boucles
> * Visualiser les informations

> **Travailler avec des données textuelles et visuelles**
> * Importer et visualiser un tableau de données
> * Télécharger les données visuelles
> * Lier les données visuelles et textuelles
> * Viualiser les informations

## **Importer des images**

Pour importer des images, il faut revenir aux cours précédents et se rappeler comment naviguer sur notre machine et cibler un dossier. Ensuite, il nous faut stocker les images dans une varaible. Le but final est de créer une fonction utilisable en tous temps.

### Rappel sur les chemins

La librairie "os" permet de naviguer sur notre machine et cibler un dossier avec des images.

In [None]:
import os

In [None]:
# dans quel dossier nous sommes

os.getcwd()

In [None]:
# sortir d'un dossier

path = ".."

In [None]:
# fichiers et dossiers au bout du chemin

os.listdir(path)

In [None]:
# Cibler un dossier

path = " "

In [None]:
# fichiers et dossiers au bout du chemin

os.listdir(path)

In [None]:
# nombre de fichiers et dossiers au bout du chemin

len(os.listdir(path))

### Une fonction pour importer un dossier

Pour importer des images et les stocker il faut principalement:
* scanner un dossier à l'aide d'une boucle
* lire les images une à une
* une liste vide pour stocker les images

In [None]:
# Créer une boucle

dossier = os.listdir(path)
for files in dossier:
    print(files)

In [None]:
# Pour lire les images

import cv2

In [None]:
# Lire les images

dossier = os.listdir(path)
for files in dossier:
    image_dossier = os.path.join(path, files) # on joint notre fichier à notre chemin
    image = cv2.imread(image_dossier) # on utilise la fonction pour lire les images
    print(image)

In [None]:
# Lire et enregistrer les images

liste_images = [] # on crée une liste pour y enregister nos images
dossier = os.listdir(path)
for files in dossier:
    image_dossier = os.path.join(path, files)
    image = cv2.imread(image_dossier)
    liste_images.append(image) # après avoir lu nos images, on les enregistre
        
print("Nombre d'images : ", len(liste_images))

In [None]:
# Créeons une fonction simple pour importer les images d'un dossier

def importer_images(path):
    
    liste_images = []
    dossier = os.listdir(path)
    for files in dossier:
        image_dossier = os.path.join(path, files)
        image = cv2.imread(image_dossier)
        liste_images.append(image)
    return liste_images

In [None]:
# Utilisons la fonction

mes_images = importer_images(path=path)

In [None]:
len(mes_images)

**La fonction est simple mais pas assez robuste. Il nous faut être sûr que ce sont des images que nous importons.**

### Une fonction pour importer seulement des images

Pour importer uniquement les images d'un dossier, il faut ajouter des conditions à notre fonction

In [None]:
# Créer une boucle avec une condition

dossier = os.listdir(path)
for files in dossier:
    if files.endswith('.jpeg'):
        print(files)

In [None]:
# Créer une boucle avec plusieurs conditions

ext = [".jpeg", ".png", ".jpg"] # choisir les extensions qui définissent nos images
dossier = os.listdir(path)
for files in dossier:
    if files.endswith(tuple(ext)): # ici le code change un peu pour intégrer les extensions
        print(files)

**Profitons-en pour changer l'ordre des canaux de couleurs**

In [None]:
def importer_images(path):
    
    liste_images = []
    ext = [".jpeg", ".png", ".jpg"]
    dossier = os.listdir(path)
    for files in dossier:
        if files.endswith(tuple(ext)):
            image_dossier = os.path.join(path, files)
            image = cv2.imread(image_dossier)
            image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
            liste_images.append(image)
    return liste_images

In [None]:
# Utilisons la fonction

mes_images = importer_images(path=path)

In [None]:
len(mes_images)

<div class="alert alert-block alert-warning">
<b>Exercice</b>: importer un dossier contenant des images. Lorsque vous créer votre boucle, ajoutez la <b>vérification du chemin</b>. Vous ajouterez également des <b>print aux étapes qui vous paraissent importantes</b> ainsi que la ligne de <b>code ci-dessous</b> qui permet de voir la progression de la fonction.</div>

In [None]:
from tqdm.notebook import tqdm

dossier = os.listdir(path)
liste_images=[]
for files in tqdm(dossier):# ajout de tqdm
    liste_images.append(image)

## **Extraire des informations**

Lorsqu'on importe un dossier avec des images, il peut être utile d'en extraire les informations. Ces informations nous permettent de décrire nos données tout en rendant notre fonction plus robuste 

### Rappel sur les informations

Les informations sont d'une part extraites et d'autres part stockées. 

#### Rappel sur les dictionnaires

In [None]:
# Rappel sur les dictionnaires

# un dictionnaire se définit par des {}
# la clé se définit sur la gauche, entre " "
# entre la clé et la valeur, il y a :
# la valeur se définit sur la droit, selon le type (str, int, float, ...)
# entre chaque ligne, il y a une ,

eleve = { 
    "nom" : "Adrien", 
    "prenom" : "Jeanrenaud"
}

In [None]:
# L'objet

print(eleve)

In [None]:
# Pour accéder aux éléments, par les clés

print(eleve["nom"])

In [None]:
# passer d'un dictionnaire à un tableur

import pandas as pd

In [None]:
df = pd.DataFrame.from_dict(eleve, orient ='index')
df

#### Rappel sur les informations de bases de l'image

In [None]:
# commencer par choisir une image

image = mes_images[0]

In [None]:
# visualiser

import matplotlib.pyplot as plt

plt.imshow(image)
plt.show()

In [None]:
# Est-ce une image ?

type(image)

In [None]:
# Quelles dimensions

image.shape

In [None]:
# Quelle taille

image.size

**On peut également retirer les informations à partir du chemin**

In [None]:
# A partir d'un chemin

path = "fauvisme1904_1908"

In [None]:
# Le nom de l'image est une information importante

files = os.listdir(path)
files[:10]

In [None]:
# os.path.splitext, pour diviser le chemin 
# d'un côté le chemin (le nom)
# de l'autre l'extension

os.path.splitext(files[0])

In [None]:
# Récupérer les informations

file, ext = os.path.splitext(files[0])

In [None]:
ext

In [None]:
file

In [None]:
# Dans le titre, il y a également des informations

file_info = file.split("_") # choisir le caractère pour diviser
file_info

### Extraires des informations en boucles

Nous pouvons reprendre la fonction précédente et ajouter du code pour extraire et enregistrer les informations

In [None]:
# Où récupérer les informations ?

dossier = os.listdir(path)
for files in dossier[:5]:
    if files.endswith(tuple(ext)):
        image_dossier = os.path.join(path, files)
        file, ext = os.path.splitext(files)
        image = cv2.imread(image_dossier)
        print(image.shape, file, ext)

In [None]:
# Tout enregistrer dans un dictionnaire

liste_dic = [] # comme lorsque nous voulions enregistrer nos images, il faut une liste pour enregistrer le dictionnaire 
dossier = os.listdir(path)
for files in dossier[:5]:
    if files.endswith(tuple(ext)):
        image_dossier = os.path.join(path, files)
        file, ext = os.path.splitext(files)
        image = cv2.imread(image_dossier)
        dic = {
            "nom": file,
            "ext": ext,
            "hauteur": image.shape[0],
            "largeur": image.shape[1],
            "canaux": image.shape[2],
            "taille": image.size
        }
        liste_dic.append(dic)
print(liste_dic)

In [None]:
# passer à un tableur

df = pd.DataFrame.from_dict(liste_dic)
df

### Visualiser les informations

A partir du tableur, visualiser les informations permet de dégager des tendances et comprendre le type de données à partir desquelles nous travaillons

In [None]:
# Quelques infos sur son tableur

df.info()

In [None]:
df.describe()

In [None]:
# Accéder aux informations

print(f"Hauteur min. = {df.describe().iloc[3].hauteur} \nLargeur min. = {df.describe().iloc[3].largeur}")

In [None]:
# Sur les couleurs et les valeurs de gris 

canaux = df.canaux.value_counts()
print(canaux)

In [None]:
# avec un graphique

canaux.plot(kind='bar')

In [None]:
df.taille.value_counts().plot(kind='bar')
plt.xticks(rotation =45)

In [None]:
# ajouter des informations sur le graphique

plt.figure(figsize=(14, 8))
df.ext.value_counts().plot(kind='bar', color="blue")
plt.xticks(rotation =45)
plt.title("Extensions des images")
plt.xlabel('Extensions')
plt.ylabel('Compte')
plt.show()

In [None]:
# enregistrer le graphique

plt.figure(figsize=(14, 8))
df.ext.value_counts().plot(kind='bar', color="blue")
plt.xticks(rotation =45)
plt.title("Extensions des images")
plt.xlabel('Extensions')
plt.ylabel('Compte')
plt.savefig("extensions.png", dpi=200)

In [None]:
new_rc_params = {'text.usetex': False,
"svg.fonttype": 'none'
}
plt.rcParams.update(new_rc_params)

In [None]:
# enregistrer le graphique en SVG

plt.figure(figsize=(14, 8))
df.ext.value_counts().plot(kind='bar', color="blue")
plt.xticks(rotation =45)
plt.title("Extensions des images")
plt.xlabel('Extensions')
plt.ylabel('Compte')
plt.savefig("extensions.svg")

**Lorsque le graphique est en SVG, vous pouvez le retoucher en dehors de votre code à l'aide d'un logiciel de traitement graphique. De plus, l'image a une meilleur définition.**

<div class="alert alert-block alert-warning">
<b>Exercice</b>: importer un dossier contenant des images. Reprenez la fonction de l'exercice précédent et ajoutez les informations sur l'image et sur le chemin. Votre fonction devra également imprimer les dimensions minimum, maximum ainsi que le nombre d'images en couleurs et en valeurs de gris.</div>

## **Travailler avec des données textuelles et visuelles**

Les données textuelles sont importantes dans le traitement numérique des images. Ces données permettent de décrire l'image tout en la manipulant sur notre machine. D'une certaine manière, les données textuelles sont un préalable à la vision par ordinateur.

Nous allons voir comment, à partir d'un tableur nous pouvons travailler avec des images

### Importer et visualiser un tableau de données

Nous venons de le faire précédemment: visualiser et comprendre les données d'un tableur. Désormais, nous le feront à partir d'un tableur de données "inconnues".

* importer le fichier
* informations sur les données
* subdiviser les données selon nos intérêts

In [None]:
df = pd.read_csv('wikiart_scraped.csv')

In [None]:
df.info()

In [None]:
# quels styles?

df.Style.value_counts().head(50)

In [None]:
# subdiviser les données

dff = df[df["Style"] == "Fauvism"]
dff

In [None]:
# quelles dates

dff.Date.value_counts()

**Visiblement nos données ne sont pas propres, il faudrait les nettoyer afin d'avoir des dates uniques**

In [None]:
# Le fauvisme : entre 1904 et 1908 (?)

dffy = dff[(dff["Date"] == "1904") | (dff["Date"] == "1905") | (dff["Date"] == "1906")| (dff["Date"] == "1907")| (dff["Date"] == "1908")]
dffy

In [None]:
dffy.info()

### Télécharger les données visuelles

Nous avons un tableau de données avec un lien pour télécharger les images. Lors de cette phase, le plus important est:

* créer un dossier pour récupérer nos images
* créer des noms de fichier "robuste"
* lier les données textuelles et visuelles

In [None]:
path_images = "fauvisme_1904_1908"
if not os.path.isdir(path_images):
        os.mkdir(path_images)

In [None]:
# vérifier le chemin au dossier

os.path.isdir(path_images)

In [None]:
# créer un hash pour éviter que deux images aient le même nom

dffy["Filename"] = pd.util.hash_pandas_object(dffy, index=False).astype(str)

In [None]:
dffy.head()

In [None]:
# ajouter des informations dans le nom et une extension

dffy.Filename = dffy.Filename + "_" + dffy.Artist.str.replace(' ', '') +"_"+ dffy.Date+ ".jpg"

In [None]:
dffy.head()

In [None]:
# créer un dicitonnaire avec le lien et le nom du fichier

id_dict = dffy[['Link', 'Filename']].set_index('Link')['Filename'].to_dict()

In [None]:
id_dict

In [None]:
# on reprend le code du cours précédent

import requests

for media_url, identifier in tqdm(id_dict.items(), desc="Images_downloaded"):
    filename = os.path.join(path_images, identifier)
    img = requests.get(media_url, stream=True).content
    with open(filename, 'wb') as handler:
        handler.write(img)

In [None]:
# Enregistrer le tableur

dffy.to_csv("fauvisme1904_1908.csv")

### Viualiser les informations

D'un côté nous avons les informations textuelles et les informations visuelles. Quelles données avons-nous sous la main ?

In [None]:
dffy.info()

In [None]:
dffy.Date.hist()
plt.xticks(rotation =45)

In [None]:
import matplotlib.pyplot as plt

plt.figure(figsize=(14, 8))
dffy.Artist.value_counts().plot(kind='bar', color="blue")
plt.title("Artistes fauves")
plt.xlabel('Artistes')
plt.ylabel('Compte')
plt.show()

<div class="alert alert-block alert-warning">
<b>Exercice</b>: importer le dossier contenant les images fauves (en liant le chemin et le nom du fichier dans le tableur) et visualiser, à l'aide d'une boucle, uniquement les réalisation de Sonia Delaunay en imprimant également le nom de le titre de l'oeuvre ainsi que la date.</div>