

PREREQUIREMENTS


In [None]:
!pip install pytesseract
!pip install opencv-python
!pip install tensorflow
!pip install faker

Collecting pytesseract
  Downloading pytesseract-0.3.13-py3-none-any.whl.metadata (11 kB)
Downloading pytesseract-0.3.13-py3-none-any.whl (14 kB)
Installing collected packages: pytesseract
Successfully installed pytesseract-0.3.13
Collecting faker
  Downloading Faker-33.0.0-py3-none-any.whl.metadata (15 kB)
Downloading Faker-33.0.0-py3-none-any.whl (1.9 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.9/1.9 MB[0m [31m27.8 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: faker
Successfully installed faker-33.0.0


In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


GENERATING FAKE DATA

In [None]:
from faker import Faker
from PIL import Image, ImageDraw, ImageFont
import os
import random

# Initialisation de Faker
fake = Faker('fr_FR')

# Dossier de sortie pour stocker les images subdivisées
output_dir = 'sputum_cytology_reports'
os.makedirs(output_dir, exist_ok=True)

# Créer des sous-dossiers pour chaque catégorie
splits = ['train', 'test', 'val']
categories = ['normal', 'pneumonie', 'tuberculose']
for split in splits:
    for category in categories:
        os.makedirs(os.path.join(output_dir, split, category), exist_ok=True)

# Taille de l'image et configuration de la police
image_width, image_height = 800, 600
try:
    font_path = "/usr/share/fonts/truetype/dejavu/DejaVuSans-Bold.ttf"
    font = ImageFont.truetype(font_path, 18)
except OSError:
    print("La police spécifiée n'a pas pu être chargée. Utilisation de la police par défaut.")
    font = ImageFont.load_default()

# Fonction pour attribuer des caractéristiques de rapport spécifiques à chaque catégorie
def generate_cytology_data(category):
    if category == 'normal':
        return {
            "Cellules squameuses": f"{random.randint(0, 10)} / HPF",
            "Cellules inflammatoires": f"{random.randint(10, 30)} / HPF",
            "Cellules atypiques": "Absentes",
            "Bactéries": "Absentes",
            "Champignons": "Absents",
            "Conclusion": "Aucun signe de malignité détecté."
        }
    elif category == 'pneumonie':
        return {
            "Cellules squameuses": f"{random.randint(5, 15)} / HPF",
            "Cellules inflammatoires": f"{random.randint(50, 100)} / HPF",
            "Cellules atypiques": random.choice(["Présentes", "Absentes"]),
            "Bactéries": "Présentes",
            "Champignons": random.choice(["Absents", "Présents"]),
            "Conclusion": "Présence d'une inflammation sévère et de bactéries; suspicion de pneumonie."
        }
    elif category == 'tuberculose':
        return {
            "Cellules squameuses": f"{random.randint(10, 20)} / HPF",
            "Cellules inflammatoires": f"{random.randint(70, 120)} / HPF",
            "Cellules atypiques": "Présentes",
            "Bactéries": "Absentes",
            "Champignons": "Absents",
            "Conclusion": "Présence de cellules atypiques; nécessitant un suivi pour tuberculose."
        }

# Fonction pour générer une image de rapport de cytologie de l’expectoration
def generate_sputum_cytology_report(index, split, category):
    # Créer une nouvelle image blanche
    image = Image.new("RGB", (image_width, image_height), "white")
    draw = ImageDraw.Draw(image)

    # Données fictives du patient et du rapport
    patient_name = fake.name()
    patient_id = fake.uuid4()[:8]
    date_of_birth = fake.date_of_birth(minimum_age=18, maximum_age=90).strftime("%d/%m/%Y")
    report_date = fake.date_this_year().strftime("%d/%m/%Y")

    # Générer les données de cytologie spécifiques à la catégorie
    cytology_results = generate_cytology_data(category)

    # Position de départ pour le texte
    x, y = 50, 50

    # Ajouter les informations du patient
    draw.text((x, y), f"Rapport de Cytologie - ID: {patient_id}", fill="black", font=font)
    y += 40
    draw.text((x, y), f"Nom du patient : {patient_name}", fill="black", font=font)
    y += 30
    draw.text((x, y), f"Date de naissance : {date_of_birth}", fill="black", font=font)
    y += 30
    draw.text((x, y), f"Date du rapport : {report_date}", fill="black", font=font)
    y += 40

    # Ajouter les résultats de cytologie
    draw.text((x, y), "Résultats de cytologie de l'expectoration :", fill="black", font=font)
    y += 30
    for test, result in cytology_results.items():
        draw.text((x, y), f"{test} : {result}", fill="black", font=font)
        y += 30

    # Définir le chemin de sauvegarde en fonction du split et de la catégorie
    image_path = os.path.join(output_dir, split, category, f"sputum_cytology_report_{index}.png")
    image.save(image_path)
    print(f"Image sauvegardée : {image_path}")

# Génération des rapports de cytologie
num_reports = 200
for i in range(num_reports):
    # Déterminer le split
    if i < 0.6 * num_reports:
        split = 'train'
    elif i < 0.8 * num_reports:
        split = 'test'
    else:
        split = 'val'

    # Déterminer la catégorie (normal, pneumonie, tuberculose)
    category = random.choice(categories)

    # Générer et sauvegarder l'image
    generate_sputum_cytology_report(i, split, category)


La police spécifiée n'a pas pu être chargée. Utilisation de la police par défaut.
Image sauvegardée : sputum_cytology_reports/train/normal/sputum_cytology_report_0.png
Image sauvegardée : sputum_cytology_reports/train/pneumonie/sputum_cytology_report_1.png
Image sauvegardée : sputum_cytology_reports/train/pneumonie/sputum_cytology_report_2.png
Image sauvegardée : sputum_cytology_reports/train/normal/sputum_cytology_report_3.png
Image sauvegardée : sputum_cytology_reports/train/tuberculose/sputum_cytology_report_4.png
Image sauvegardée : sputum_cytology_reports/train/pneumonie/sputum_cytology_report_5.png
Image sauvegardée : sputum_cytology_reports/train/pneumonie/sputum_cytology_report_6.png
Image sauvegardée : sputum_cytology_reports/train/pneumonie/sputum_cytology_report_7.png
Image sauvegardée : sputum_cytology_reports/train/tuberculose/sputum_cytology_report_8.png
Image sauvegardée : sputum_cytology_reports/train/pneumonie/sputum_cytology_report_9.png
Image sauvegardée : sputum_cyt

BUILD AND TRAIN THE CNN MODEL


In [None]:
import os
import cv2
import numpy as np
import pandas as pd
from PIL import Image
import pytesseract
from tensorflow.keras.preprocessing.image import ImageDataGenerator
from tensorflow.keras.callbacks import EarlyStopping, ModelCheckpoint

from keras.models import Sequential
from keras.layers import Conv2D, MaxPooling2D, Flatten, Dense, Dropout, Input

class MedicalReportOCR:
    def __init__(self):
        # Configuration Tesseract OCR
        self.tesseract_config = "--oem 3 --psm 6"
        self.model = self._build_model()

    def _build_model(self):
        """
        Crée un modèle CNN pour la classification ou l'amélioration d'image
        """
        model = Sequential([
            Input(shape=(224, 224, 3)),
            Conv2D(32, (3, 3), activation='relu'),
            MaxPooling2D(2, 2),
            Conv2D(64, (3, 3), activation='relu'),
            MaxPooling2D(2, 2),
            Conv2D(128, (3, 3), activation='relu'),
            MaxPooling2D(2, 2),
            Flatten(),
            Dense(512, activation='relu'),
            Dropout(0.5),
            Dense(256, activation='relu'),
            Dense(128, activation='relu'),
            Dense(3, activation='softmax')  # Changed the output layer to 3 units to match the number of categories
        ])
        model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])
        return model

    def train_model(self, train_dir, validation_dir, epochs=50):
        """
        Entraîne le modèle sur des images de rapports médicaux avec early stopping
        """
        # Génération de données pour l'entraînement et la validation
        train_datagen = ImageDataGenerator(
            rescale=1./255,
            rotation_range=20,
            width_shift_range=0.2,
            height_shift_range=0.2,
            shear_range=0.2,
            zoom_range=0.2,
            horizontal_flip=True,
            fill_mode='nearest'
        )
        validation_datagen = ImageDataGenerator(rescale=1./255)

        # Chargement des données d'entraînement et de validation
        train_generator = train_datagen.flow_from_directory(
            train_dir,
            target_size=(224, 224),
            batch_size=32,
            class_mode='categorical'
        )
        validation_generator = validation_datagen.flow_from_directory(
            validation_dir,
            target_size=(224, 224),
            batch_size=32,
            class_mode='categorical'
        )

        # Définir les callbacks
        early_stopping = EarlyStopping(
            monitor='val_loss',  # Surveillance de la perte de validation
            patience=10,         # Nombre d'époques sans amélioration avant l'arrêt
            restore_best_weights=True  # Restaurer les poids du meilleur modèle
        )

        # Chemin pour sauvegarder le meilleur modèle
        model_checkpoint = ModelCheckpoint(
            '/content/drive/MyDrive/best_ocr_model.keras',
            monitor='val_loss',
            save_best_only=True,
            mode='min'
        )

        # Entraîner le modèle avec les callbacks
        history = self.model.fit(
            train_generator,
            steps_per_epoch=train_generator.samples // 32,
            epochs=epochs,
            validation_data=validation_generator,
            validation_steps=validation_generator.samples // 10,
            callbacks=[early_stopping, model_checkpoint]
        )

        # Sauvegarder le modèle final
        final_model_path = '/content/drive/MyDrive/final_ocr_model.keras'
        self.model.save(final_model_path)
        print(f"Modèle final sauvegardé à {final_model_path}")

        return history

    def preprocess_image(self, image_path):
        """
        Prépare l'image pour de meilleurs résultats OCR
        """
        image = cv2.imread(image_path)
        image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
        image = cv2.resize(image, (224, 224))

        # Seuillage adaptatif
        gray = cv2.cvtColor(image, cv2.COLOR_RGB2GRAY)
        thresh = cv2.adaptiveThreshold(gray, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY, 11, 2)
        denoised = cv2.fastNlMeansDenoising(thresh)

        return denoised

    def enhance_image(self, image):
        """
        Améliore la qualité de l'image pour OCR
        """
        clahe = cv2.createCLAHE(clipLimit=2.0, tileGridSize=(8, 8))
        enhanced = clahe.apply(image)
        kernel = np.array([[-1, -1, -1], [-1, 9, -1], [-1, -1, -1]])
        sharpened = cv2.filter2D(enhanced, -1, kernel)
        return sharpened

    def extract_text(self, image_path):
        """
        Extraire le texte de l'image du rapport médical
        """
        processed_image = self.preprocess_image(image_path)
        enhanced_image = self.enhance_image(processed_image)
        pil_image = Image.fromarray(enhanced_image)

        # Extraire le texte
        text = pytesseract.image_to_string(pil_image, config=self.tesseract_config)
        extracted_data = {
            'full_text': text,
            'measurements': [],
            'values': [],
            'units': []
        }

        lines = text.splitlines()
        for line in lines:
            if any(char.isdigit() for char in line):
                parts = line.split()
                for part in parts:
                    if any(char.isdigit() for char in part):
                        extracted_data['values'].append(part)
                    elif any(unit in part.lower() for unit in ['mg', 'ml', 'g', 'l']):
                        extracted_data['units'].append(part)

        return extracted_data

    def test_model_on_dataset(self, test_dir, output_dir):
        """
        Tester le modèle sur un ensemble de test et sauvegarder les résultats
        """
        results = []
        os.makedirs(output_dir, exist_ok=True)

        for image_file in os.listdir(test_dir):
            image_path = os.path.join(test_dir, image_file)
            if not image_file.lower().endswith(('.png', '.jpg', '.jpeg')):
                continue

            extracted_data = self.extract_text(image_path)
            results.append({
                'filename': image_file,
                'full_text': extracted_data['full_text'],
                'values': ' | '.join(extracted_data['values']),
                'units': ' | '.join(extracted_data['units'])
            })

            # Sauvegarder le texte complet pour chaque image
            text_file_path = os.path.join(output_dir, f"{os.path.splitext(image_file)[0]}_full.txt")
            with open(text_file_path, 'w') as f:
                f.write(extracted_data['full_text'])

        # Enregistrer les résultats dans un fichier CSV
        df = pd.DataFrame(results)
        csv_output_path = os.path.join(output_dir, 'extracted_data.csv')
        df.to_csv(csv_output_path, index=False)
        print(f"Résultats enregistrés dans : {csv_output_path}")

# Exemple d'utilisation
def main():
    ocr_system = MedicalReportOCR()

    # Chemins d'entraînement, de validation, et de test
    train_dir = "/content/sputum_cytology_reports/train"
    validation_dir = "/content/sputum_cytology_reports/val"
    test_dir = "/content/sputum_cytology_reports/test"
    output_dir = "/content/drive/MyDrive/OCR_Results"

    # Entraîner le modèle
    ocr_system.train_model(train_dir, validation_dir, epochs=50)

    # Tester le modèle sur l'ensemble de test
    ocr_system.test_model_on_dataset(test_dir, output_dir)

if __name__ == "__main__":
    main()

Found 120 images belonging to 3 classes.
Found 40 images belonging to 3 classes.
Epoch 1/50


  self._warn_if_super_not_called()


[1m3/3[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 6s/step - accuracy: 0.4340 - loss: 5.0434

  self.gen.throw(typ, value, traceback)


[1m3/3[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m28s[0m 9s/step - accuracy: 0.4245 - loss: 5.3087 - val_accuracy: 0.2000 - val_loss: 1.5664
Epoch 2/50
[1m3/3[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m13s[0m 4s/step - accuracy: 0.2500 - loss: 1.4855 - val_accuracy: 0.2000 - val_loss: 1.2938
Epoch 3/50
[1m3/3[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m31s[0m 8s/step - accuracy: 0.3924 - loss: 1.2189 - val_accuracy: 0.4000 - val_loss: 1.0862
Epoch 4/50
[1m3/3[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m17s[0m 6s/step - accuracy: 0.4062 - loss: 1.0775 - val_accuracy: 0.4000 - val_loss: 1.0698
Epoch 5/50
[1m3/3[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m25s[0m 7s/step - accuracy: 0.3242 - loss: 1.1166 - val_accuracy: 0.4000 - val_loss: 1.0743
Epoch 6/50
[1m3/3[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 836ms/step - accuracy: 0.2500 - loss: 1.1263 - val_accuracy: 0.4000 - val_loss

ACCURACY

In [None]:
from tensorflow.keras.models import load_model
from tensorflow.keras.preprocessing.image import ImageDataGenerator
from sklearn.metrics import confusion_matrix, accuracy_score, f1_score

# Chemin du modèle et du dossier de test
model_path = 'content/drive/MyDrive/ocr_model.h5'
test_dir = "/content/sputum_cytology_reports/test"
model = load_model('/content/drive/MyDrive/ocr_model.h5')
# Charger le modèle

# Préparer le générateur de données de test
test_datagen = ImageDataGenerator(rescale=1./255)
test_generator = test_datagen.flow_from_directory(
    test_dir,
    target_size=(224, 224),
    batch_size=32,
    class_mode='categorical'
)

# Évaluer le modèle sur l'ensemble de test
loss, accuracy = model.evaluate(test_generator)
print(f"Loss sur l'ensemble de test : {loss}")
print(f"Accuracy sur l'ensemble de test : {accuracy * 100:.2f}%")




Found 40 images belonging to 3 classes.


  self._warn_if_super_not_called()


[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 290ms/step - accuracy: 0.3042 - loss: 1.1062
Loss sur l'ensemble de test : 1.1083437204360962
Accuracy sur l'ensemble de test : 30.00%
