In [5]:
import time
from pathlib import Path
import glob
import pickle
import spacy
import pandas as pd
import pytesseract
import numpy as np
from pdf2image import convert_from_path
import cv2
import torch
import torch.backends.cudnn as cudnn
from numpy import random
import sys
import os
import fitz
import re

## Tesseract V1

In [24]:
def get_coordinate(label, width, height):
    """Input:The label, width and height of the image
    Output: The coordinates of the image"""
    x_c, y_c, w, h = label[0], label[1], label[2], label[3]

    x_min = 2 * width * x_c - (width / 2) * (2 * x_c + w)
    x_max = (width / 2) * (2 * x_c + w)

    y_min = 2 * height * y_c - (height / 2) * (2 * y_c + h)
    y_max = (height / 2) * (2 * y_c + h)

    return int(x_min), int(x_max), int(y_min), int(y_max)

def tesseract_gars_sur(img):
    """Input:The converted pdf to image
    Output: The cutting bloc of the image"""
    
    gray = cv2.cvtColor(img, cv2.COLOR_RGB2GRAY)
    gray, img_bin = cv2.threshold(gray, 128, 255, cv2.THRESH_BINARY | cv2.THRESH_OTSU)
    gray = cv2.bitwise_not(img_bin)

    kernel = np.ones((1, 1), np.uint8)
    img = cv2.erode(gray, kernel, iterations=1)
    img = cv2.dilate(img, kernel, iterations=1)
    out_below = pytesseract.image_to_string(img)

    return out_below

def bloc(labels, images):
    """Input: The convert pdf into image and the predicted labels
    Output: A dictionnary with all the predicted bloc"""
    with open(labels, 'r') as f:
        labels = f.read()
    labels = [l.split(' ') for l in labels.split("""\n""")]
    final_labels = list()
    for w in labels[:-1]:
        final_labels.append([float(x) for x in w])
    bloc_dict = {}
    cnt = 0
    for label in final_labels:
        l, coordinate = label[0], label[1:]
        img = cv2.imread(images)
        h, w, _ = img.shape
        x_min, x_max, y_min, y_max = get_coordinate(coordinate, w, h)
        bloc_dict[cnt] = tesseract_gars_sur(img[y_min:y_max, x_min:x_max])
        cnt += 1
    print(bloc_dict)
    return bloc_dict

In [7]:
bloc('0_CV-Jessica_raphael-2020.txt', '0_CV-Jessica_raphael-2020.jpg')

{0: "it aie Professionnelles\n\noie ~- LONGCHAMP\npene - ae Retail\n+ Validation et mise 4 jour des tarifs de ventes/soldes/outlets\n+ Hotline de gestion et informatique de premier niveau pour les\nboutiques et les concessions + Suivi des demandes des équipes Retail\net des points de ventes + Mise a jour quotidienne de fichiers de sui\n\neKe|=<Ji/ale]s(/aKe(-¥0\\e) aI RC\\-A alc\n\na _- FORMATION en perfectionnement d’anglais\noe oe Ta) yee\naad ne|S\\6l6(-melU IN (Ol-1(\n\n~ = LA MARTINIERE GROUPE Paris (14°)\nAssistante de direction commerciale\n+ Renseigner un client + Realiser une étude technique\net commerciale, Dégressif des ventes ...- Etablir un devis\n+ Iransmettre des données techniques et commerciales + Enregistrer\nles données d'une commande + Préparation Showroom beaux\nlivres fin d’'année + Suivre des éléments de paiement de commandes\n\n+ Réaliser un suivi des dossiers clients, fournisseurs\n\n= EDITIONS DU SEUIL Paris (14°)\nService juridique\n+ Enregistrements de contr

## Tesseract V2

In [41]:
def tesseract_remy(img_path, folder_path, file_name):
    """Input: file_name --> nom qu'on donnera au pdf ainsi exporté --- img_path: path du jpeg
            folder_path --> path du folder où l'on save les pdf ainsi crées
       Output: CV JPEG exporté au format PDF"""
    # Get a searchable PDF
    pdf = pytesseract.image_to_pdf_or_hocr(img_path, extension='pdf')
    with open(os.path.join(folder_path, file_name), 'w+b') as f:
        f.write(pdf) # pdf type is bytes by default

def pdf2text(folder_path, file_name):
    """ Input : folder path and name path du pdf
        Output : Text"""
    pdfcv = os.path.join(folder_path, file_name)
    doc = fitz.open(pdfcv)
    text = ""
    for page in doc:
        text += str(page.getText())
    #print(text)
    return text

def bloc_remy(labels, images, file_name, folder_path):
    """Meme principe que la fontion 'bloc'"""
    # Here we extract blocs from the JPEG CV
    with open(labels, 'r') as f:
        labels = f.read()
    labels = [l.split(' ') for l in labels.split("""\n""")]
    final_labels = list()
    for w in labels[:-1]:
        final_labels.append([float(x) for x in w])
    bloc_dict = {}
    cnt = 0
    for label in final_labels:
        l, coordinate = label[0], label[1:]
        img = cv2.imread(images)
        # Une fois l'image exporté je l'exporte au format PDF via tesseract Remy
        h, w, _ = img.shape
        x_min, x_max, y_min, y_max = get_coordinate(coordinate, w, h)
        tesseract_remy(img[y_min:y_max, x_min:x_max], folder_path, file_name+str(cnt))
        bloc_dict[cnt] = pdf2text(folder_path, file_name+str(cnt))
        cnt += 1
    return bloc_dict

In [43]:
# Test de la fonction
folder_path = '/Users/remyadda/Desktop/AD/Projets/ALFRED/ALFRED_PROJECT/Tesseract/Test_REM'
file_name = 'remyTest'
bloc_remy('0_CV-Jessica_raphael-2020.txt', '0_CV-Jessica_raphael-2020.jpg', file_name, folder_path)

{0: "Experiences Professionnelles \nDéc.2019 - mars 2020 - LONGCHAMP \nAssistante — Service Retail \n+ Validation et mise a jour des tarifs de ventes/soldes/outlets \n+ Hotline de gestion et informatique de premier niveau pour les \nboutiques et les concessions + Suivi des demandes des équipes Retail \net des points de ventes + Mise a jour quotidienne de fichiers de sui! \ndq destination des points de vente \n2019 (janv.-mai) - FORMATION en perfectionnement d’anglais \nStage intensif en Angleterre \n+ Passage du loeic \n2014-2018 - LA MARTINIERE GROUPE \nParis (14°) \nAssistante de direction commerciale \n+ Renseigner un client + Réaliser une étude technique \net commerciale, Dégressif des ventes ...-+ Etablir un devis \n+ Transmettre des données techniques et commerciales + Enregistrer \nles données d'une commande + Préparation Showroom beaux \nlivres fin d'année + Suivre des éléments de paiement de commandes \n+ Réaliser un suivi des dossiers clients, fournisseurs \n2013-2014 - EDITI

### Creation de deux fichiers textes pour comparer les deux tesseract

In [26]:
pdf_files = []
txt_files = []

for file in os.listdir():
    if '.jpg' in file:
        pdf_files.append(file)
    if '.txt' in file:
        txt_files.append(file)

In [32]:
texte = ''
for file, label in zip(sorted(pdf_files), sorted(txt_files)):
    texte += str(bloc_remy(label, file, 'remyTest', folder_path))

{0: "Experiences Professionnelles \nDéc.2019 - mars 2020 - LONGCHAMP \nAssistante — Service Retail \n+ Validation et mise a jour des tarifs de ventes/soldes/outlets \n+ Hotline de gestion et informatique de premier niveau pour les \nboutiques et les concessions + Suivi des demandes des équipes Retail \net des points de ventes + Mise a jour quotidienne de fichiers de sui! \ndq destination des points de vente \n2019 (janv.-mai) - FORMATION en perfectionnement d’anglais \nStage intensif en Angleterre \n+ Passage du loeic \n2014-2018 - LA MARTINIERE GROUPE \nParis (14°) \nAssistante de direction commerciale \n+ Renseigner un client + Réaliser une étude technique \net commerciale, Dégressif des ventes ...-+ Etablir un devis \n+ Transmettre des données techniques et commerciales + Enregistrer \nles données d'une commande + Préparation Showroom beaux \nlivres fin d'année + Suivre des éléments de paiement de commandes \n+ Réaliser un suivi des dossiers clients, fournisseurs \n2013-2014 - EDITI

{0: '2018 \n2017 \n2016 \n  \nExpérience Professionnelle \nChargée de recrutement - Adaptel - Agence d’intérim secteur hdtellerie - restauration (CDI - 2,5 ans), Paris \n> Anticiper les besoins client et construire une relation de confiance \no \nMettre en place une veille du marché pour anticiper les besoins et proposer des prestations et profils adaptés \no \n Rencontrer Managers opérationnels et Clients pour analyser leurs demandes de recrutement, formaliser fiches et profils de poste \no \nDévelopper la relation commerciale et fidéliser le portefeuille clients \n%, \nRésultats: 26 appels par session de prospection téléphonique de 3h - 10 rendez-vous obtenus par semaine \n> Réussir les recrutements et fidéliser les candidats \no \nIdentifier les canaux de sourcing, participer aux forums et salons emploi, rédiger et diffuser les offres sur les jobboards adaptés \no \nSélectionner les CV, qualifier et évaluer les candidats, effectuer les contrdéles de références \no \n Présenter les c

{0: 'CONTACT \nTELEPHONE \ne \n06 13 49 92 67 \nADRESSE \n46 Avenue Alexis Varagne \n95400 Villiers-le-Bel \nEMAIL \nismaelamarante.pro@gmail.com \n03/03/1998 \ni \n/ismaelamarante/\n', 1: 'FORMATION \n  \n2019 — BTS MUC LYCEE VAN GOGH, ERMONT \n2017 — BACCALAUREAT PROFESSIONNEL COMMERCE \nLYCEE CHARLES BEAUDELAIRE, FOSSES\n', 2: 'COMPETENCES \n  \nMaitrise des techniques de vente \nBon niveau Pack Office \nConnaissance des produits et du magasin \nContact facile avec la clientele \nAdaptabilité \nCapacité de persuasion\n', 3: '  \neS \nLangues \nPortugais C2 \neo \nEspagnol B1 \nS \nAnglais A2 \n2\n', 4: 'S EXPERIENCES \n  \nJuin 2020/ Décembre 2020 [centre d’appel \nSAV télécom] Paritel \nPrise d’appel, rassurer le client, traiter et \névaluer la demande \nOctobre 2019 | Enquéte de satisfaction (Chef \nd’équipe) \n| BVA \nContact avec la clientele, Gestion planning des \nenquéteurs, Suivi des résultats \nJuin/Aout 2019| Preparateur de commande |Hella SA \nGestion du stock, préparatio

{0: '\\ \n. \n. \nA \nNadege Ahlinvi \nMall: ublievinadesctateont\n', 1: "Depuis juillet 2020 - Assistante technique BTP (Clichy) \n- Rédaction de devis et contrats de sous-traitance \n- Gestion du pdle degat des eaux / Administratif et secrétariat classique \nAssistante administrative au Stade Francais - 2018 / 2020 (Paris) \n- Préparation des ordres du jour des reunions et des documents d’informations du comite directeur \n- Soutien administratif et confidentiel a l’equipe de direction et aux membres du bureau \n- Saisi et traitement du courrier administratif \n- Classement et archivage des dossiers \n- Création de supports de communication interne et externe (Annuaire 2020 du Stade Frangais, \nelaboration de la newsletter hebdomadaire, creation de flyers) \n- Reservation des salles pour l’ensemble des 20 sections sportives \nChargée de promotion Salons - (Boulogne Billancourt) \n2017 (6 mois) - Groupe L’Etudiant \n- Mise en place et suivi des actions de promotion directe multicanale

In [33]:
with open('new_tesseract.txt', 'a') as the_file:
    the_file.write(texte)

In [35]:
texte = ''
for file, label in zip(sorted(pdf_files), sorted(txt_files)):
    texte += str(bloc(label, file))

{0: "it aie Professionnelles\n\noie ~- LONGCHAMP\npene - ae Retail\n+ Validation et mise 4 jour des tarifs de ventes/soldes/outlets\n+ Hotline de gestion et informatique de premier niveau pour les\nboutiques et les concessions + Suivi des demandes des équipes Retail\net des points de ventes + Mise a jour quotidienne de fichiers de sui\n\neKe|=<Ji/ale]s(/aKe(-¥0\\e) aI RC\\-A alc\n\na _- FORMATION en perfectionnement d’anglais\noe oe Ta) yee\naad ne|S\\6l6(-melU IN (Ol-1(\n\n~ = LA MARTINIERE GROUPE Paris (14°)\nAssistante de direction commerciale\n+ Renseigner un client + Realiser une étude technique\net commerciale, Dégressif des ventes ...- Etablir un devis\n+ Iransmettre des données techniques et commerciales + Enregistrer\nles données d'une commande + Préparation Showroom beaux\nlivres fin d’'année + Suivre des éléments de paiement de commandes\n\n+ Réaliser un suivi des dossiers clients, fournisseurs\n\n= EDITIONS DU SEUIL Paris (14°)\nService juridique\n+ Enregistrements de contr

{0: '2018\n\n2017\n\n2016\n\n \n\nExpérience Professionnelle\n\nChargée de recrutement - Adaptel - Agence d’intérim secteur hdtellerie - restauration (CDI - 2,5 ans), Paris\n\n> Anticiper les besoins client et construire une relation de confiance\n\no Mettre en place une veille du marché pour anticiper les besoins et proposer des prestations et profils adaptés\no Rencontrer Managers opérationnels et Clients pour analyser leurs demandes de recrutement, formaliser fiches et profils de poste\no Développer la relation commerciale et fidéliser le portefeuille clients\n\n4, Résultats: 26 appels par session de prospection téléphonique de 3h - 10 rendez-vous obtenus par semaine\n\n> Réussir les recrutements et fidéliser les candidats\n\no Identifier les canaux de sourcing, participer aux forums et salons emploi, rédiger et diffuser les offres sur les jobboards adaptés\no Sélectionner les CV, qualifier et évaluer les candidats, effectuer les contrdles de références\n\no  Présenter les candidats

{0: 'CONTACT\n\nTELEPHONE\nrt) 06 13 49 92 67\ngM ADRESSE\n\nm 46 Avenue Alexis Varagne\n95400 Villiers-le-Bel\n\nEMAIL\nismaelamarante.pro@gmail.com\n\n03/03/1998\n‘in /ismaelamarante/\n\n \n\x0c', 1: 'FORMATION i\n\n2019 — BTS MUC LYCEE VAN GOGH, ERMONT\n\n2017 — BACCALAUREAT PROFESSIONNEL COMMERCE\nLYCEE CHARLES BEAUDELAIRE, FOSSES\n\x0c', 2: 'COMPETENCES\n\n \n\nMaitrise des techniques de vente\nBon niveau Pack Office\nConnaissance des produits et du magasin\n\nContact facile avec la clientele\n\nAdaptabilité\n\nCapacité de persuasion\n\x0c', 3: ' \n\n2D Langues\n\nPortugais C2 >\n\nEspagnol B1 2\nAnglais A2 —\n\x0c', 4: 'By isqacieness\n\n \n\nJuin 2020/ Décembre 2020 [centre d’appel\nSAV télécom] Paritel\n\nPrise d’appel, rassurer le client, traiter et\névaluer la demande\n\nOctobre 2019 |Enquéte de satisfaction (Chef\nd’équipe) | BVA\n\nContact avec la clientele, Gestion planning des\nenquéteurs, Suivi des résultats\n\nJuin/Aout 2019| Preparateur de commande |Hella SA\nGestion d

{0: "Angelina Duarte\n\n \n\nJe suis analyste de ventes avec une connaissance accrue du développement des ventes a I'internationale.\nJ'ai également de l'expérience dans la coordination de projets entre BU.\n\n06 51 12 91 36 angelina-duarte@outlook.com @angelinaduarte\n\x0c", 1: 'Expériences Professionnelles\n\nAMEE Analyste de Prix\n\ne Mise en place de la politique commerciale et de prix des\nvaccins au sein des régions : Afrique, Moyen-Orient et\nLe |\n\nAnalyste Ventes et Marketing\ne Prévision des ventes en volume et valeur de PC par client:\n\nCarrefour, Auchan, E.Leclcerc, Fnac-Darty et Amazon,\nCidscount, Rue du Commerce\n\nResponsable Budget zone Amérique\n\ne Planification des ventes, en fixant des objectifs financiers par\npoint de vente et par pays, EU, Canada, Mexique et Brésil\n\ni 7 i ,\nee a en)\ni Ses\n\nAmbassadrice de Marque\n\nAssistante Responsable de Ventes\n\nResponsable Commercial\n\ne Réalisation de ventes a la commission en cosmétique: chiffre\nd’affaire journ

In [36]:
with open('old_tesseract.txt', 'a') as the_file:
    the_file.write(texte)

In [None]:
bloc('0_CV-Jessica_raphael-2020.txt', '0_CV-Jessica_raphael-2020.jpg')