In [14]:
import csv
import re
import numpy as np

percent = 0
input_word = ""

# Fonction de prétraitement des compétences
def preprocess_skill(skill):
    skill = skill.lower()  # Conversion en minuscules
    skill = re.sub(r'[^\w\s]', '', skill)  # Suppression de la ponctuation
    return skill

# Fonction pour charger les données à partir d'un fichier CSV
def load_data(file_path):
    skills = []
    with open(file_path, 'r', encoding='utf-8') as file:
        reader = csv.reader(file)
        for row in reader:
            skills.extend(row)
    return skills

# Fonction pour créer un vocabulaire à partir des compétences
def create_vocab(data):
    all_skills = ' '.join(data).split()
    vocab = set(all_skills)
    return vocab

# Fonction pour encoder les compétences en vecteurs one-hot
def encode_skills(data, vocab):
    encoded_skills = []
    for skill in data:
        encoded_skill = np.zeros(len(vocab))
        for idx, word in enumerate(vocab):
            if word in skill:
                encoded_skill[idx] = 1
        encoded_skills.append(encoded_skill)
    return np.array(encoded_skills)

# Fonction pour calculer la similarité de cosinus entre deux compétences
def cosine_similarity(skill1_vec, skill2_vec):
    dot_product = np.dot(skill1_vec, skill2_vec)
    norm_skill1 = np.linalg.norm(skill1_vec)
    norm_skill2 = np.linalg.norm(skill2_vec)
    if norm_skill1 == 0 or norm_skill2 == 0:
        return 0  # Si l'un des vecteurs est nul, la similarité est zéro
    similarity = dot_product / (norm_skill1 * norm_skill2)
    return similarity

# Exemple d'utilisation
file_path = 'skills1.csv'  # Chemin vers votre fichier CSV
search_word_path = 'CV_word.txt'  # Chemin vers votre fichier texte

# Chargement des données à partir du fichier CSV
data = load_data(file_path)

# Prétraitement des compétences
data = [preprocess_skill(skill) for skill in data]

# Charger les données à partir du fichier texte
with open(search_word_path, 'r', encoding='latin-1') as file:
    search_words = [preprocess_skill(word) for word in file.readlines()]

# Création du vocabulaire
vocab = create_vocab(data)

# Encodage des compétences en vecteurs one-hot
data_encoded = encode_skills(data, vocab)
search_words_encoded = encode_skills(search_words, vocab)

# Calcul de la similarité de cosinus entre chaque mot de recherche et toutes les compétences du dataset
similarities = []
for search_word_encoded in search_words_encoded:
    word_similarities = []
    for skill_encoded in data_encoded:
        similarity = cosine_similarity(search_word_encoded, skill_encoded)
        word_similarities.append(similarity)
    similarities.append(word_similarities)

# Affichage des mots de recherche et de leur similarité avec chaque compétence
for search_word, word_similarities in zip(search_words, similarities):
    # print(f"Similarities between '{search_word}' and all skills:")
    for skill, similarity in zip(data, word_similarities):
        if percent < similarity :
            percent = similarity
            input_word = skill

    print("Le mot avec le plus de similarité du mot '"+ str(search_word) + "' est : '" + str(input_word) + "' avec : " + str(round(percent * 100)) + "%")
    percent = 0

Le mot avec le plus de similarité du mot 'contactezmoi
' est : 'contact client' avec : 77%
Le mot avec le plus de similarité du mot '
' est : 'contact client' avec : 0%
Le mot avec le plus de similarité du mot '9 1 chemin de la plane 31700
' est : 'succession planning' avec : 71%
Le mot avec le plus de similarité du mot 'cornebarrieu
' est : 'archivage' avec : 80%
Le mot avec le plus de similarité du mot '
' est : 'archivage' avec : 0%
Le mot avec le plus de similarité du mot ' jeremybourguetoutlookfr
' est : 'outlook' avec : 63%
Le mot avec le plus de similarité du mot '
' est : 'outlook' avec : 0%
Le mot avec le plus de similarité du mot 'fin wwwlinkedincominjérémy
' est : 'linkedin' avec : 77%
Le mot avec le plus de similarité du mot 'bourguet
' est : 'préouverture' avec : 67%
Le mot avec le plus de similarité du mot '
' est : 'préouverture' avec : 0%
Le mot avec le plus de similarité du mot ' 0679 42 29 16
' est : 'web 20' avec : 41%
Le mot avec le plus de similarité du mot '
' est