In [17]:
import streamlit as st
import pandas as pd
import openai
import os
import time
from dotenv import load_dotenv, find_dotenv

# 🔹 Charger les variables d'environnement
_ = load_dotenv(find_dotenv())

# 🔹 Configurer OpenAI
client = openai.OpenAI(api_key=os.environ.get('OPENAI_API_KEY'))

# 🔹 Fonction pour charger les données SIREN
@st.cache_data
def load_data(file_path):
    df = pd.read_csv(file_path, sep=',')  # Vérifie le séparateur
    return df

def get_keyword_from_openai(description):
    """
    Utilise l'API OpenAI pour récupérer les mots clés d'une entreprise à partir de sa description.
    """
    if pd.isna(description) or description.strip() == "":
        return "Pas de description"

    try:
        print("\n" + "=" * 60)
        print(f"🔎 Recherche des mots clés pour : {description[:50]}...")

        # 🔹 Prompt détaillé
        prompt = (
            f"À partir de la description suivante, génère **4 mots-clés** "
            "qui décrivent **le plus précisément possible** l'entreprise."
            "Les mots-clés doivent être représentatifs du secteur, de la technologie ou du marché cible."
            "Les mots clés doivent être simple en un seul mot. Pas #ContentCreation ou DigitalWorkplace qui sont 2 mots collés."
            "Utilise **des hashtags** si pertinent (ex: #3DPrinting, #IA, #Fintech)."
            "\n\n"
            f"Description : {description}\n"
            "Mots-clés :"
        )

        # 🔹 Appel à l'API OpenAI
        response = client.chat.completions.create(
            model="gpt-4o",
            messages=[
                {"role": "system", "content": "Tu es un expert en technologies et en analyse de marché."},
                {"role": "user", "content": prompt}
            ],
            max_tokens=50,
            temperature=0.2
        )

        # 🔹 Extraction de la réponse
        keywords = response.choices[0].message.content.strip()

        print(f"✅ Mots-clés trouvés : {keywords}")
        return keywords

    except Exception as e:
        print(f"❌ Erreur pour la description '{description[:50]}...': {e}")
        return "Erreur"

# 🔹 Charger le fichier CSV contenant les entreprises
input_csv = "mot_cles_openai_clean.csv"  # Remplace par ton fichier source
output_csv = "resul_mot_cles.csv"

df = load_data(input_csv)

# 🔹 Vérifier si la colonne "mots_cles" existe déjà, sinon la créer
if "mots_cles" not in df.columns:
    df["mots_cles"] = None

# 🔹 Remplir les mots-clés pour les entreprises qui n'en ont pas encore
for index, row in df.iterrows():
    if pd.isna(row["mots_cles"]) or row["mots_cles"].strip() == "":
        df.at[index, "mots_cles"] = get_keyword_from_openai(row["description"])
        time.sleep(1)  # 🔹 Pause pour éviter les limitations d'OpenAI

# 🔹 Sauvegarder le fichier mis à jour
df.to_csv(output_csv, index=False)

print(f"✅ Fichier enregistré : {output_csv}")


2025-01-31 23:03:14.094 No runtime found, using MemoryCacheStorageManager



🔎 Recherche des mots clés pour : Klaxoon is an all-in-one work collaboration platfo...
✅ Mots-clés trouvés : #Collaboration, #Productivité, #Engagement, #Innovation

🔎 Recherche des mots clés pour : Pitchy is a simplified online video editor for lar...
✅ Mots-clés trouvés : #VideoEditing, #Corporate, #AI, #ContentCreation

🔎 Recherche des mots clés pour : Contentsquare is a leading digital experience anal...
✅ Mots-clés trouvés : #Analytics, #UX, #IA, #DigitalExperience

🔎 Recherche des mots clés pour : Braincube offers innovative digital solutions, bac...
✅ Mots-clés trouvés : #IA, #Manufacturing, #Sustainability, #DataAnalytics

🔎 Recherche des mots clés pour : Deepomatic is a pioneer in the field of First Time...
✅ Mots-clés trouvés : #IA, #ComputerVision, #Automation, #Infrastructure

🔎 Recherche des mots clés pour : DAVI AI provides Digital Employees with profession...
✅ Mots-clés trouvés : #IA, #Automatisation, #Productivité, #Collaborateurs

🔎 Recherche des mots clés pour : Ene

In [None]:
import streamlit as st
import pandas as pd
import openai
import os
import time
from dotenv import load_dotenv, find_dotenv

# 🔹 Charger les variables d'environnement
_ = load_dotenv(find_dotenv())

# 🔹 Configurer OpenAI
client = openai.OpenAI(api_key=os.environ.get('OPENAI_API_KEY'))

# 🔹 Fonction pour charger les données SIREN
@st.cache_data
def load_data(file_path):
    df = pd.read_csv(file_path, sep=',')  # Vérifie le séparateur
    return df

def get_keyword_from_openai(description):
    """
    Utilise l'API OpenAI pour récupérer les mots clés d'une entreprise à partir de sa description.
    """
    if pd.isna(description) or description.strip() == "":
        return "Pas de description"

    try:
        print("\n" + "=" * 60)
        print(f"🔎 Recherche des mots clés pour : {description[:50]}...")

        # 🔹 Prompt détaillé
        prompt = (
            f"À partir de la description suivante, génère **4 mots-clés** "
            "qui décrivent **le plus précisément possible** l'entreprise."
            "Les mots-clés doivent être représentatifs du secteur, de la technologie ou du marché cible."
            "Les mots clés doivent être simple en un seul mot. Pas #ContentCreation ou DigitalWorkplace qui sont 2 mots collés."
            "Utilise **des hashtags** si pertinent (ex: #3DPrinting, #IA, #Fintech)."
            "\n\n"
            f"Description : {description}\n"
            "Mots-clés :"
        )

        # 🔹 Appel à l'API OpenAI
        response = client.chat.completions.create(
            model="gpt-4o",
            messages=[
                {"role": "system", "content": "Tu es un expert en technologies et en analyse de marché."},
                {"role": "user", "content": prompt}
            ],
            max_tokens=50,
            temperature=0.2
        )

        # 🔹 Extraction de la réponse
        keywords = response.choices[0].message.content.strip()

        print(f"✅ Mots-clés trouvés : {keywords}")
        return keywords

    except Exception as e:
        print(f"❌ Erreur pour la description '{description[:50]}...': {e}")
        return "Erreur"

# 🔹 Charger le fichier CSV contenant les entreprises
input_csv = "mot_cles_openai_clean.csv"  # Remplace par ton fichier source
output_csv = "resul_mot_cles.csv"

df = load_data(input_csv)

# 🔹 Vérifier si la colonne "mots_cles" existe déjà, sinon la créer
if "mots_cles" not in df.columns:
    df["mots_cles"] = None

# 🔹 Remplir les mots-clés pour les entreprises qui n'en ont pas encore
for index, row in df.iterrows():
    if pd.isna(row["mots_cles"]) or row["mots_cles"].strip() == "":
        df.at[index, "mots_cles"] = get_keyword_from_openai(row["description"])
        time.sleep(1)  # 🔹 Pause pour éviter les limitations d'OpenAI

# 🔹 Sauvegarder le fichier mis à jour
df.to_csv(output_csv, index=False)

print(f"✅ Fichier enregistré : {output_csv}")
