# Pipeline final pour l'entreprise **TouNum**

L'entreprise TouNum travaille sur la numérisation de documents (textes, images...). Leurs services sont souvent requis par des entreprises numérisant leur base de documents papier. Ils souhaitent étendre leur gamme de services pour inclure des outils de Machine Learning. En effet, certains de leurs clients ont une grande quantité de données à numériser, et un service de catégorisation automatique serait plus que valorisable.

Cette pipeline sert donc à remplir l'objectif de TouNum, pour cela elle est divisée en 3 grande partie :
1. Classification d'image selon 5 catégories [Photo, Peinture, Schéma, Croquis, Texte]

2. Débruitage des images classifiées "Photo", suppresion de 4 types de bruits : [Gaussian, Poisson, Speckles, Salt & pepper]
   
3. Génération des descriptions pour les photos débruitées.


---
## Dépendances

Chargement des différentes dépendances nécessaires au bon fonctionnement de la pipeline, ainsi que de la configuration de la pipeline.

In [None]:
# Import des dépendances
import os
import sys



import matplotlib.pyplot as plt
import numpy as np
import PIL
import tensorflow as tf
from collections import defaultdict
import shutil
import random
import kaggle
import requests
from zipfile import ZipFile

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Flatten, Dropout, Conv2D, MaxPooling2D
from tensorflow.keras.optimizers import Adam
from tensorflow import keras
from tensorflow.keras import layers
from tensorflow.keras.preprocessing.image import ImageDataGenerator
from tensorflow.keras.utils import img_to_array, load_img


# Ajouter le dossier courant au path si nécessaire pour accéder à notre librairies utils.py
sys.path.append(os.getcwd())
import utils

In [None]:
# Configuration Principale
datas_path = "./datas" # Dossier de stockage des données qui sont des images


---
## Partie 1 : Classification de photo (Livrable 1)

Dans cette partie, nous allons charger notre modèle de classification d'images capable de distinguer entre 5 catégories : [Photo, Peinture, Schéma, Croquis, Texte]. 

Pour ce faire, nous allons suivre les étapes suivantes :
1. Préparation des données : collecte, nettoyage et augmentation des données pour chaque catégorie.
2. Chargement du modèle : utilisation d'un réseau de neurones convolutionnel (CNN) pour effectuer la classification.
3. Classification des données réelles : Classification des images fournies par l'entreprise TouNum. 
4. Visualisation des résultats : Visualisations de plusieurs résultats de notre modèle.

L'objectif est de fournir un modèle robuste et performant qui pourra être intégré dans la pipeline globale de l'entreprise.

### 1.1 Préparations des données
Chargement et nettoyage de celle-ci.

In [None]:
# Chargement des données


In [None]:
# Affichages des statistiques des images
get_infos_datas(datas_path)

In [None]:
# Affichage de quelques images
display_random_images(datas_path)

In [None]:
# Nettoyage des données
clean_images_dataset(datas_path)

### 1.2 Chargement du modèle
Chargement de notre modèle précèdement entrainé.

In [None]:
# Chargement de notre modèle


### 1.3 Classification des données
Classification des images selon 5 catégories

In [None]:
# Classification des images (stocker les images de types "Photo")


### 1.4 Affichage de quelques résultats

---
## Partie 2 : Débruitage de nos images (Livrable 2)

Dans cette partie, nous allons utiliser notre modèle de débruitage d'images pour les images classifiées comme "Photo". L'objectif est de supprimer efficacement les bruits présents dans les images tout en préservant leurs détails importants. Les étapes suivantes seront suivies :

1. Identification des types de bruits : analyse des images pour détecter les bruits de type [Gaussian, Poisson, Speckles, Salt & Pepper].
2. Application de techniques de débruitage : utilisation de filtres adaptés (médian, gaussien, etc.) et de méthodes avancées comme les autoencodeurs pour réduire le bruit.
3. Évaluation de la qualité des images débruitées : comparaison avec les images originales à l'aide de métriques telles que le PSNR (Peak Signal-to-Noise Ratio) et le SSIM (Structural Similarity Index).
4. Validation sur des images réelles : test des méthodes sur des images fournies par l'entreprise TouNum pour garantir leur efficacité dans des scénarios pratiques.

L'objectif est de fournir des images de haute qualité prêtes pour l'étape suivante de la pipeline.

## Partie 3 : Captionning d'images (Livrable 3)

......