# Automatiser la Conversion de PDF et d'Images en Document Word et Traduction avec Python

Dans le monde dynamique du traitement de données et de la gestion de documents, l'automatisation est essentielle. Si vous avez souvent besoin de convertir des fichiers PDF et des images en documents Word et de traduire le contenu dans une autre langue, ce guide est fait pour vous. 

Dans ce code, je  vous présenterai un script Python qui automatise la conversion de fichiers PDF et d'images en documents Word, puis traduit le contenu de l'anglais vers le français en utilisant Tesseract OCR, PDF2Image et Google Translate.


## Étapes pour la Conversion avec Tesseract sur macOS : 
- Pour plus d'autres systemes d'exploitation(windows,ubuntu,linux,etc), veuillez consulter le site officiel pour l'instalation de Tesseract: https://tesseract-ocr.github.io/tessdoc/Installation.html

### 1- Installer Homebrew
Si vous ne l'avez pas encore installé, Homebrew est un gestionnaire de paquets pour macOS. Ouvrez Terminal et exécutez :

In [None]:
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"


## 2-Installer Tesseract
Une fois Homebrew installé, vous pouvez installer Tesseract et Poppler en exécutant :


In [None]:
brew install tesseract


In [None]:
brew install poppler


## 3- Installer les bibliothèques Python nécessaires
Vous aurez besoin de <i>pytesseract, Pillow, python-docx et pdf2image </i> :

In [None]:
pip install pytesseract pillow python-docx pdf2image


## 4- Script Python pour la Conversion d'une image en document word
Créez un fichier nommé <b>convertir_image_en_doc.py</b> et copiez le code suivant ou vous pouvez travailler directement sur JupyterNotebook :

In [2]:
import pytesseract
from PIL import Image
from docx import Document

# Définir le chemin de Tesseract (nécessaire surtout pour Windows)
#pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe' # Remplacez par le chemin correct

# Chemin de l'image
image_path = 'image.jpeg'

# Charger l'image
image = Image.open(image_path)

# Utiliser pytesseract pour extraire le texte
texte = pytesseract.image_to_string(image)

# Créer un nouveau document
document = Document()

# Ajouter le texte extrait au document
document.add_paragraph(texte)

# Enregistrer le document
document.save('document.docx')


## 5- Script Python pour la Conversion d'un PDF en document Word.

In [23]:
import pytesseract
from PIL import Image
from docx import Document
from pdf2image import convert_from_path

# Chemin du fichier PDF
pdf_path = 'doc.pdf'

# Convertir les pages du PDF en images
pages = convert_from_path(pdf_path)

# Créer un nouveau document Word
document = Document()

# Parcourir chaque page convertie en image
for page_number, page in enumerate(pages):
    # Utiliser pytesseract pour extraire le texte de l'image
    texte = pytesseract.image_to_string(page)
    
    # Ajouter une indication de page dans le document Word
    document.add_paragraph(f'Page {page_number + 1}')
    
    # Ajouter le texte extrait au document Word
    document.add_paragraph(texte)

# Enregistrer le document Word
document.save('news.docx')


## 6- Script Python pour la Conversion d'un PDF en document Word et traduction

In [8]:
import pytesseract
from PIL import Image
from docx import Document
from pdf2image import convert_from_path
from googletrans import Translator

# Chemin du fichier PDF
pdf_path = 'transperfect.pdf'

# Convertir les pages du PDF en images
pages = convert_from_path(pdf_path)

# Créer un nouveau document Word
document = Document()

# Initialiser le traducteur
translator = Translator()

# Parcourir chaque page convertie en image
for page_number, page in enumerate(pages):
    # Utiliser pytesseract pour extraire le texte de l'image
    texte = pytesseract.image_to_string(page, lang='eng')  # Préciser la langue ici si nécessaire
    
    # Traduire le texte extrait en français
    texte_traduit = translator.translate(texte, src='en', dest='fr').text
    
    # Ajouter une indication de page dans le document Word
    document.add_paragraph(f'Page {page_number + 1}')
    
    # Ajouter le texte traduit au document Word
    document.add_paragraph(texte_traduit)

# Enregistrer le document Word
document.save('transperfect.docx')


## 6- Exécution du Script
Dans Terminal, exécutez le  :

In [None]:
python convertir_image_en_doc.py


Ce script lit l'image, extrait le texte avec Tesseract, et crée un document Word contenant ce texte. Le fichier sera enregistré sous le nom document_modifiable.docx.

<b>Pourquoi c'est Important ?</b>

Transformer des documents scannés ou des images en fichiers Word modifiables permet de :

<li><b>Faciliter l'édition et la mise à jour :</b> Gagnez du temps en modifiant directement le contenu sans avoir à le retaper.
    
<li><b>Rendre les documents accessibles et exploitables :</b> Accédez facilement aux informations, effectuez des recherches rapides et extrayez les données nécessaires.
    
<li><b>Améliorer l'efficacité et la productivité :</b> Automatisez des tâches répétitives et concentrez-vous sur des activités à plus forte valeur ajoutée.
    
   J'espère que vous trouverez cette technique utile. N'hésitez pas à me contacter si vous avez des questions ou des commentaires !

Nikiema Boubacar 
Email: nikiemaboubacar@gmail.com