# T√¢che 3 : D√©tection de Fraude OCR dans les Documents d'Identit√©

Ce notebook a pour objectif de r√©soudre la troisi√®me t√¢che du challenge ANIP : d√©tecter les fraudes dans les documents d'identit√© en utilisant des techniques d'OCR et de vision par ordinateur.

## Objectif

D√©velopper une IA capable de distinguer automatiquement les documents d'identit√© authentiques des documents falsifi√©s, en analysant :
- Les incoh√©rences visuelles
- Les anomalies textuelles via OCR
- Les patterns de falsification

## Types de Documents Analys√©s

Notre dataset contient des documents de diff√©rents pays/types :
- **Arizona DL** : Permis de conduire d'Arizona
- **ESP** : Documents espagnols  
- **EST** : Documents estoniens
- **RUS** : Documents russes

## Strat√©gie Adopt√©e

Notre approche sera m√©thodique et multi-modale :

1. **Analyse Exploratoire des Donn√©es** : Comprendre les types de fraudes et leur distribution
2. **Pr√©paration des Donn√©es** : Organisation par type de document et de fraude
3. **Extraction de Features** : OCR + Features visuelles + Analyse de qualit√© d'image
4. **Mod√©lisation Multi-Classe** : Classification binaire et d√©tection du type de fraude
5. **√âvaluation Robuste** : M√©triques adapt√©es √† la s√©curit√© (pr√©cision sur les fraudes)
6. **Pipeline de Production** : Syst√®me de d√©tection en temps r√©el

In [None]:
# Importation des biblioth√®ques fondamentales
import os
import re
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
from PIL import Image
import cv2
from collections import Counter, defaultdict
import warnings
warnings.filterwarnings('ignore')

# Biblioth√®ques pour OCR et traitement d'image
try:
    import pytesseract
    print("‚úÖ Tesseract OCR disponible")
except ImportError:
    print("‚ö†Ô∏è  Tesseract OCR non install√© - installation n√©cessaire")

# Biblioth√®ques ML/DL
from sklearn.model_selection import train_test_split, StratifiedKFold
from sklearn.metrics import classification_report, confusion_matrix, roc_auc_score
from sklearn.preprocessing import LabelEncoder
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import Dataset, DataLoader
import torchvision.transforms as transforms
import torchvision.models as models

# Configuration des graphiques
plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette("viridis")
plt.rcParams['figure.figsize'] = (12, 8)

# Configuration du device
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print(f"‚úÖ Device utilis√©: {device}")
print("‚úÖ Biblioth√®ques de base import√©es.")

In [None]:
# Configuration des chemins de donn√©es
from pathlib import Path
import os

# Chemins vers les donn√©es de la t√¢che 3
DATA_ROOT = Path('/workspaces/anip-facial-ocr-challenge/dataset_tache_3/dataset_tache_3')
TRAIN_DIR = DATA_ROOT / 'train'
SUBMISSIONS_DIR = Path('/workspaces/anip-facial-ocr-challenge/submissions')

print("üéØ Configuration des chemins:")
print(f"   üìÅ Dataset root: {DATA_ROOT}")
print(f"   üöÇ Train directory: {TRAIN_DIR}")
print(f"   üì§ Submissions: {SUBMISSIONS_DIR}")

# V√©rification de l'existence des donn√©es
train_exists = TRAIN_DIR.exists()
print(f"\nüîç V√©rification:")
print(f"   Train folder: {'‚úÖ' if train_exists else '‚ùå'} {TRAIN_DIR}")

if train_exists:
    # Explorer la structure des donn√©es
    document_types = [d for d in TRAIN_DIR.iterdir() if d.is_dir()]
    print(f"\nüìä Types de documents trouv√©s: {len(document_types)}")
    
    for doc_type in document_types:
        print(f"\nüìã {doc_type.name.upper()}:")
        subdirs = [d for d in doc_type.iterdir() if d.is_dir()]
        
        for subdir in subdirs:
            # Compter les images dans chaque sous-dossier
            image_files = []
            for ext in ['*.jpg', '*.JPG', '*.jpeg', '*.JPEG', '*.png', '*.PNG']:
                image_files.extend(list(subdir.glob(ext)))
            
            print(f"   üìÅ {subdir.name}: {len(image_files)} images")
            
            # Afficher quelques exemples de noms de fichiers
            if len(image_files) > 0:
                print(f"      üîé Exemples: {', '.join([f.name for f in image_files[:3]])}")
                if len(image_files) > 3:
                    print(f"         ... et {len(image_files) - 3} autres")
else:
    print("   ‚ö†Ô∏è  Les donn√©es de la t√¢che 3 ne sont pas disponibles!")
    print("   üí° Assure-toi que le dataset est bien plac√© dans le bon r√©pertoire")

In [None]:
# Cr√©ation d'un DataFrame complet avec toutes les images et leurs labels
def create_fraud_dataset():
    """
    Cr√©e un DataFrame avec toutes les images, leurs chemins et labels
    """
    data_list = []
    
    if not TRAIN_DIR.exists():
        print("‚ùå Donn√©es non disponibles")
        return pd.DataFrame()
    
    document_types = [d for d in TRAIN_DIR.iterdir() if d.is_dir()]
    
    for doc_type in document_types:
        doc_name = doc_type.name
        subdirs = [d for d in doc_type.iterdir() if d.is_dir()]
        
        for subdir in subdirs:
            category = subdir.name
            
            # D√©terminer le label de fraude
            if category == 'normal':
                fraud_label = 'authentic'
                fraud_type = 'none'
            elif category == 'gt':
                fraud_label = 'ground_truth'
                fraud_type = 'reference'
            elif category.startswith('forgery_'):
                fraud_label = 'fraud'
                fraud_type = category
            else:
                fraud_label = 'unknown'
                fraud_type = category
            
            # R√©cup√©rer toutes les images
            image_files = []
            for ext in ['*.jpg', '*.JPG', '*.jpeg', '*.JPEG', '*.png', '*.PNG']:
                image_files.extend(list(subdir.glob(ext)))
            
            # Ajouter chaque image au dataset
            for img_path in image_files:
                data_list.append({
                    'file_path': str(img_path),
                    'filename': img_path.name,
                    'document_type': doc_name,
                    'category': category,
                    'fraud_label': fraud_label,
                    'fraud_type': fraud_type,
                    'file_size': img_path.stat().st_size if img_path.exists() else 0
                })
    
    return pd.DataFrame(data_list)

# Cr√©er le dataset principal
print("üîç CR√âATION DU DATASET DE FRAUDE DOCUMENTAIRE")
print("="*50)

df_fraud = create_fraud_dataset()

if len(df_fraud) > 0:
    print(f"‚úÖ Dataset cr√©√© avec succ√®s!")
    print(f"   Total d'images: {len(df_fraud):,}")
    print(f"   Types de documents: {df_fraud['document_type'].nunique()}")
    print(f"   Cat√©gories: {df_fraud['category'].nunique()}")
    
    print("\nüìä Aper√ßu du dataset:")
    print(df_fraud.head(10))
    
    print(f"\nüìã Informations sur le dataset:")
    print(df_fraud.info())
    
else:
    print("‚ùå Impossible de cr√©er le dataset - donn√©es non disponibles")

## 2. Analyse Exploratoire des Donn√©es de Fraude

Maintenant que nous avons explor√© la structure, analysons en d√©tail les diff√©rents types de fraudes et leurs caract√©ristiques.

## 2. Analyse Exploratoire des Donn√©es de Fraude

Maintenant que nous avons explor√© la structure, analysons en d√©tail les diff√©rents types de fraudes et leurs caract√©ristiques.