In [32]:
import fitz  # PyMuPDF
import pandas as pd
from collections import Counter
from difflib import SequenceMatcher

# Chemins vers les fichiers
pdf_path1 = 'Jeremy_bourguet.pdf'
pdf_path2 = 'Alireza NIKKHAH CV - v2.pdf'
csv_path = 'skills1.csv'

# Fonction pour extraire les mots uniques d'un PDF
def extraire_mots_pdf(pdf_path):
    mots_pdf = set()  # Utilisation d'un set pour éviter les doublons
    with fitz.open(pdf_path) as pdf:
        for page in pdf:
            text = page.get_text()
            mots = text.split()  # Divise le texte en mots
            mots_pdf.update(mots)
    return mots_pdf

# Extraire les mots des deux PDFs
mots_pdf1 = extraire_mots_pdf(pdf_path1)
mots_pdf2 = extraire_mots_pdf(pdf_path2)

# Charger le fichier CSV et extraire les mots de la colonne ciblée
df = pd.read_csv(csv_path)
colonne_cible = 'Rédaction'  # Remplacez par le nom de la colonne cible dans le CSV
mots_csv = set(df[colonne_cible].dropna().astype(str).str.split().sum())

# Fonction pour calculer le pourcentage de similarité entre deux mots
def similarite_mots(mot1, mot2):
    return SequenceMatcher(None, mot1, mot2).ratio() * 100

# Comparer les mots des PDFs et du CSV pour la similarité
mots_ressemblants = {}
seuil_similarite = 80  # Seuil de similarité en pourcentage

for mot_pdf1 in mots_pdf1:
    for mot_pdf2 in mots_pdf2:
        similarite_pdf = similarite_mots(mot_pdf1, mot_pdf2)
        if similarite_pdf >= seuil_similarite:
            mots_ressemblants[(mot_pdf1, mot_pdf2)] = similarite_pdf

# Ajouter la comparaison avec les mots du CSV
mots_ressemblants_csv = {}

for mot_csv in mots_csv:
    for mot_pdf in mots_pdf1.union(mots_pdf2):
        similarite_csv = similarite_mots(mot_csv, mot_pdf)
        if similarite_csv >= seuil_similarite:
            mots_ressemblants_csv[(mot_csv, mot_pdf)] = similarite_csv

# Afficher les mots ressemblants entre les deux PDFs et avec le CSV
print(f"Mots avec une similarité de {seuil_similarite}% ou plus entre les deux PDFs :")
for (mot1, mot2), pourcentage in mots_ressemblants.items():
    print(f"{mot1} - {mot2} : {pourcentage:.2f}%")

print(f"\nMots avec une similarité de {seuil_similarite}% ou plus entre les PDFs et le CSV :")
for (mot_csv, mot_pdf), pourcentage in mots_ressemblants_csv.items():
    print(f"{mot_csv} - {mot_pdf} : {pourcentage:.2f}%")

# Optionnel : enregistrer les résultats dans un fichier texte
with open('mots_ressemblants_pdfs_et_csv.txt', 'w', encoding='utf-8') as f:
    f.write(f"Mots avec une similarité de {seuil_similarite}% ou plus entre les deux PDFs :\n")
    for (mot1, mot2), pourcentage in mots_ressemblants.items():
        f.write(f"{mot1} - {mot2} : {pourcentage:.2f}%\n")

    f.write(f"\nMots avec une similarité de {seuil_similarite}% ou plus entre les PDFs et le CSV :\n")
    for (mot_csv, mot_pdf), pourcentage in mots_ressemblants_csv.items():
        f.write(f"{mot_csv} - {mot_pdf} : {pourcentage:.2f}%\n")

Mots avec une similarité de 80% ou plus entre les deux PDFs :
vidéo - video : 80.00%
: - : : 100.00%
2025 - 2025) : 88.89%
Projet - projet : 83.33%
Astronomie - gastronomie : 85.71%
système - système : 100.00%
système - systèmes : 93.33%
3, - S3, : 80.00%
Les - Les : 100.00%
jeux - jeux : 100.00%
PHP - PHP : 100.00%
Mobile - mobile : 83.33%
Expert - expert : 83.33%
d'un - d'un : 100.00%
d'un - d'une : 88.89%
Java - Java : 100.00%
des - de : 80.00%
des - des : 100.00%
Autonome - autonome. : 82.35%
Autonome - autonome : 87.50%
HTML - HTML : 100.00%
Actuellement - Actuellement : 100.00%
et - et : 100.00%
en - en : 100.00%
sur - sur : 100.00%
du - du : 100.00%
me - mes : 80.00%
2020: - 2020) : 80.00%
le - le : 100.00%
le - les : 80.00%
CSS - CSS : 100.00%
Création - Création : 100.00%
PROFESSIONNEL - PROFESSIONELLES : 85.71%
Formations - Formation : 94.74%
Formations - formation : 84.21%
d'information, - d'information : 96.30%
d'information, - d'information. : 92.86%
les - le : 80.00%
les 

In [58]:
import json
from pdfminer.high_level import extract_text
from fuzzywuzzy import fuzz

# Charger le fichier JSON avec encodage UTF-8
def load_json(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        data = json.load(file)
    return data

# Extraire le texte du fichier PDF
def extract_text_from_pdf(file_path):
    text = extract_text(file_path)
    return text

# Extraire tous les mots du JSON (en supposant que le JSON est un dictionnaire imbriqué)
def extract_words_from_json(data):
    words = []
    def extract_recursive(obj):
        if isinstance(obj, dict):
            for value in obj.values():
                extract_recursive(value)
        elif isinstance(obj, list):
            for item in obj:
                extract_recursive(item)
        elif isinstance(obj, str):
            words.extend(obj.split())
    
    extract_recursive(data)
    return words

# Comparer chaque mot du JSON et du PDF en utilisant FuzzyWuzzy
def compare_words(json_words, pdf_words, threshold=80):
    similar_words = []
    for json_word in json_words:
        for pdf_word in pdf_words:
            similarity = fuzz.ratio(json_word, pdf_word)
            if similarity >= threshold:
                similar_words.append((json_word, pdf_word, similarity))
    return similar_words

# Main
if __name__ == "__main__":
    # Charger les fichiers
    json_data = load_json("fichier_json.json")
    pdf_text = extract_text_from_pdf("Alireza NIKKHAH CV - v2.pdf")
    
    # Extraire les mots des fichiers PDF et JSON
    json_words = extract_words_from_json(json_data)
    pdf_words = pdf_text.split()

    # Comparaison de chaque mot entre JSON et PDF
    similar_words = compare_words(json_words, pdf_words)
    print("Similarité trouvée entre les mots du JSON et du PDF:")
    for json_word, pdf_word, similarity in similar_words:
        print(f"Mot JSON: '{json_word}' - Mot PDF: '{pdf_word}' - Similarité: {similarity}%")

Similarité trouvée entre les mots du JSON et du PDF:
Mot JSON: 'PHP' - Mot PDF: 'PHP' - Similarité: 100%
Mot JSON: 'HTML' - Mot PDF: 'HTML' - Similarité: 100%
Mot JSON: 'd'équipe' - Mot PDF: 'équipe' - Similarité: 86%


In [61]:
import json
from pdfminer.high_level import extract_text
from fuzzywuzzy import fuzz

# Charger le fichier JSON avec encodage UTF-8
def load_json(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        data = json.load(file)
    return data

# Extraire le texte du fichier PDF
def extract_text_from_pdf(file_path):
    text = extract_text(file_path)
    return text

# Extraire tous les mots du JSON (en supposant que le JSON est un dictionnaire imbriqué)
def extract_words_from_json(data):
    words = []
    def extract_recursive(obj):
        if isinstance(obj, dict):
            for value in obj.values():
                extract_recursive(value)
        elif isinstance(obj, list):
            for item in obj:
                extract_recursive(item)
        elif isinstance(obj, str):
            words.extend(obj.split())
    
    extract_recursive(data)
    return words

# Comparer chaque mot du JSON avec chaque mot du PDF en utilisant FuzzyWuzzy (seulement ceux supérieurs à 80%)
def compare_words(json_words, pdf_words, threshold=60):
    word_similarities = []
    for json_word in json_words:
        for pdf_word in pdf_words:
            similarity = fuzz.ratio(json_word, pdf_word)
            if similarity >= threshold:
                word_similarities.append((json_word, pdf_word, similarity))
    return word_similarities

# Main
if __name__ == "__main__":
    # Charger les fichiers
    json_data = load_json("fichier_json.json")
    pdf_text = extract_text_from_pdf("Alireza NIKKHAH CV - v2.pdf")
    
    # Extraire les mots des fichiers PDF et JSON
    json_words = extract_words_from_json(json_data)
    pdf_words = pdf_text.split()

    # Comparaison de chaque mot entre JSON et PDF
    word_similarities = compare_words(json_words, pdf_words)
    print("Similarité (supérieure à 80%) entre chaque mot du JSON et du PDF:")
    for json_word, pdf_word, similarity in word_similarities:
        print(f"Mot JSON: '{json_word}' - Mot PDF: '{pdf_word}' - Similarité: {similarity}%")

Similarité (supérieure à 80%) entre chaque mot du JSON et du PDF:
Mot JSON: 'Javascript' - Mot PDF: 'Java' - Similarité: 57%
Mot JSON: 'Javascript' - Mot PDF: 'Java' - Similarité: 57%
Mot JSON: 'Javascript' - Mot PDF: 'python' - Similarité: 25%
Mot JSON: 'Javascript' - Mot PDF: 'flask' - Similarité: 27%
Mot JSON: 'Javascript' - Mot PDF: 'rust' - Similarité: 29%
Mot JSON: 'Javascript' - Mot PDF: 'rail' - Similarité: 29%
Mot JSON: 'Javascript' - Mot PDF: 'bootstarp' - Similarité: 32%
Mot JSON: 'Javascript' - Mot PDF: 'vueJs' - Similarité: 27%
Mot JSON: 'Javascript' - Mot PDF: 'angular' - Similarité: 35%
Mot JSON: 'Javascript' - Mot PDF: 'material' - Similarité: 33%
Mot JSON: 'Javascript' - Mot PDF: 'rigoureux' - Similarité: 21%
Mot JSON: 'Javascript' - Mot PDF: 'scrum' - Similarité: 40%
Mot JSON: 'Javascript' - Mot PDF: 'astro' - Similarité: 40%
Mot JSON: 'Javascript' - Mot PDF: 'wordpress' - Similarité: 21%
Mot JSON: 'Javascript' - Mot PDF: 'drupal' - Similarité: 25%
Mot JSON: 'Javascri