In [1]:
import pandas as pd

file_path = r'C:\Users\HP\Documents\Projets\Projet1\data1.xlsx'

try:
    # Lire le fichier Excel dans un DataFrame Pandas
    # Nous ajoutons l'encodage 'utf-8' au cas o√π il y aurait des caract√®res sp√©ciaux
    df_brut = pd.read_excel(file_path)
    
    # Afficher les premi√®res lignes du DataFrame pour v√©rifier
    print("‚úÖ Donn√©es brutes lues avec succ√®s :")
    print(df_brut.head())
    
    # Afficher le type de donn√©es et le nombre de lignes
    print("\n--- Informations sur le DataFrame ---")
    df_brut.info()
    
    # Stocker le texte brut pour l'√©tape suivante (Extraction LLM)
    full_text_input = "\n\n".join(df_brut['Texte_Brut'].astype(str).tolist())
    print(f"\nLe texte brut total √† analyser contient {len(full_text_input)} caract√®res.")
    
except FileNotFoundError:
    # Cette erreur signifie que le fichier n'est pas trouv√© √† cet endroit pr√©cis
    print(f"‚ùå ERREUR : Le fichier n'a pas √©t√© trouv√© au chemin '{file_path}'.")
    print("V√©rifiez l'orthographe du chemin et le nom du fichier ('Projet 1 data RO.xlsx').")
except KeyError:
    # Cette erreur signifie que les en-t√™tes de colonnes ne sont pas corrects
    print("‚ùå ERREUR : Le DataFrame ne contient pas la colonne 'Texte_Brut'. V√©rifiez l'orthographe de l'en-t√™te de colonne dans votre fichier Excel.")
except Exception as e:
    print(f"‚ùå Une erreur inattendue est survenue : {e}")

‚úÖ Donn√©es brutes lues avec succ√®s :
  ID_Commande                 Texte_Brut (√Ä extraire par le LLM)
0     ORD-A-1  La P-Alpha (48 kilos, 10 m¬≥) doit √™tre livr√©e....
1     ORD-B-2  Note urgente : Le colis M-Beta fait environ 30...
2     ORD-C-3  Pour le C-Gamma, il est √† 42 kg et 12 m¬≥. Sa v...
3     ORD-D-4  Le plus important est le G-Delta, qui p√®se 36 ...
4     ORD-E-5  N'oublie pas S-Epsilon (36 kg, 9 m¬≥). Valeur :...

--- Informations sur le DataFrame ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 2 columns):
 #   Column                              Non-Null Count  Dtype 
---  ------                              --------------  ----- 
 0   ID_Commande                         10 non-null     object
 1   Texte_Brut (√Ä extraire par le LLM)  10 non-null     object
dtypes: object(2)
memory usage: 292.0+ bytes
‚ùå ERREUR : Le DataFrame ne contient pas la colonne 'Texte_Brut'. V√©rifiez l'orthographe de l'en-t√™te de colonne dans

In [4]:
# Installation des librairies
!pip install pandas langchain-openai pydantic python-dotenv



'DOSKEY' n'est pas reconnu en tant que commande interne
ou externe, un programme exÔøΩcutable ou un fichier de commandes.

[notice] A new release of pip is available: 25.0 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip


In [6]:
import pandas as pd
from pydantic import BaseModel, Field
from typing import List
from langchain_openai import ChatOpenAI
#from langchain.output_parsers import PydanticOutputParser
#from langchain.prompts import PromptTemplate
import os
from dotenv import load_dotenv

# --- 1. Charger la cl√© API ---
# Assurez-vous d'avoir un fichier .env contenant : OPENAI_API_KEY="votre_cle"
load_dotenv() 

# ----------------------------------------------------
# A. D√âFINITION DU SCH√âMA (Pydantic)
# ----------------------------------------------------
class Item(BaseModel):
    """Repr√©sente un colis ou un article √† charger."""
    # Description pr√©cise pour aider le LLM √† extraire la bonne information
    ID_Colis: str = Field(description="L'identifiant unique de l'article (ex: P-Alpha, M-Beta).")
    Poids_kg: int = Field(description="Le poids de l'article en kilogrammes. DOIT √äTRE UN NOMBRE ENTIER.")
    Volume_m3: int = Field(description="Le volume de l'article en m√®tres cubes. DOIT √äTRE UN NOMBRE ENTIER.")
    Priorite: int = Field(description="Niveau de priorit√© ou valeur √† maximiser. DOIT √äTRE UN NOMBRE ENTIER.")

class ExtractedData(BaseModel):
    """Conteneur pour la liste de tous les items extraits du texte."""
    items: List[Item] = Field(description="La liste compl√®te de tous les articles trouv√©s dans la commande brute.")

print("‚úÖ Sch√©ma Pydantic d√©fini.")

‚úÖ Sch√©ma Pydantic d√©fini.


In [7]:
# Le chemin d'acc√®s complet (absolu) de votre fichier
file_path = r'C:\Users\HP\Documents\Projets\Projet1\data1.xlsx' 
COLUMN_NAME = 'Texte_Brut (√Ä extraire par le LLM)' # Nom exact de la colonne

try:
    df_brut = pd.read_excel(file_path)
    
    # Concat√©ner tout le texte brut en une seule grande cha√Æne.
    # Chaque commande sera s√©par√©e par un double saut de ligne pour aider le LLM.
    full_text_input = "\n\n".join(df_brut[COLUMN_NAME].astype(str).tolist())
    
    print(f"‚úÖ Fichier lu et {len(df_brut)} lignes de commandes concat√©n√©es en une seule entr√©e pour le LLM.")
    # Affiche un aper√ßu pour confirmation
    print("\n--- D√©but de l'input LLM ---")
    print(full_text_input[:300] + "...") 
    
except Exception as e:
    print(f"‚ùå ERREUR lors de la lecture ou de la pr√©paration de l'input : {e}")
    # Arr√™te l'ex√©cution si les donn√©es n'ont pas pu √™tre charg√©es
    raise

‚úÖ Fichier lu et 10 lignes de commandes concat√©n√©es en une seule entr√©e pour le LLM.

--- D√©but de l'input LLM ---
La P-Alpha (48 kilos, 10 m¬≥) doit √™tre livr√©e. Priorit√© (valeur) : 10.

Note urgente : Le colis M-Beta fait environ 30kg et seulement 8 m√®tres cubes. Il a une forte valeur : 30.

Pour le C-Gamma, il est √† 42 kg et 12 m¬≥. Sa valeur est de 25.

Le plus important est le G-Delta, qui p√®se 36 kg et fait ...


In [9]:
!pip install langchain langchain-openai openai

Collecting langchain
  Downloading langchain-1.1.0-py3-none-any.whl.metadata (4.9 kB)
Collecting langgraph<1.1.0,>=1.0.2 (from langchain)
  Downloading langgraph-1.0.4-py3-none-any.whl.metadata (7.8 kB)
Collecting langgraph-checkpoint<4.0.0,>=2.1.0 (from langgraph<1.1.0,>=1.0.2->langchain)
  Downloading langgraph_checkpoint-3.0.1-py3-none-any.whl.metadata (4.7 kB)
Collecting langgraph-prebuilt<1.1.0,>=1.0.2 (from langgraph<1.1.0,>=1.0.2->langchain)
  Downloading langgraph_prebuilt-1.0.5-py3-none-any.whl.metadata (5.2 kB)
Collecting langgraph-sdk<0.3.0,>=0.2.2 (from langgraph<1.1.0,>=1.0.2->langchain)
  Downloading langgraph_sdk-0.2.10-py3-none-any.whl.metadata (1.6 kB)
Collecting ormsgpack>=1.12.0 (from langgraph-checkpoint<4.0.0,>=2.1.0->langgraph<1.1.0,>=1.0.2->langchain)
  Downloading ormsgpack-1.12.0-cp312-cp312-win_amd64.whl.metadata (1.2 kB)
Downloading langchain-1.1.0-py3-none-any.whl (101 kB)
Downloading langgraph-1.0.4-py3-none-any.whl (157 kB)
Downloading langgraph_checkpoint

'DOSKEY' n'est pas reconnu en tant que commande interne
ou externe, un programme exÔøΩcutable ou un fichier de commandes.

[notice] A new release of pip is available: 25.0 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip


In [15]:
from dotenv import load_dotenv
import os

# Remplace "chemin/vers/.env" par le chemin r√©el
load_dotenv(dotenv_path=r'C:\Users\HP\Documents\Projets\Projet1')

print(os.getenv("OPENAI_API_KEY"))  # Devrait afficher ta cl√©

None


In [17]:
from dotenv import load_dotenv
import os

load_dotenv()  # charge le .env
api_key = os.getenv("OPENAI_API_KEY")
assert api_key is not None, "Cl√© API non trouv√©e ! V√©rifie ton .env"
print("Cl√© API OK :", api_key[:4] + "‚Ä¶")  # affiche seulement les 4 premiers caract√®res


Cl√© API OK : sk-p‚Ä¶


In [18]:
# ----------------------------------------------------
# B. PR√âPARATION DES OUTILS LANGCHAIN (suite)
# ----------------------------------------------------
from langchain_openai import ChatOpenAI
from langchain_core.output_parsers import PydanticOutputParser
from langchain_core.prompts import PromptTemplate

# 1. Configuration du LLM (si non fait dans la Cellule 2)
# Nous utilisons gpt-3.5-turbo qui est rapide et efficace pour cette t√¢che.
llm = ChatOpenAI(model="gpt-3.5-turbo", temperature=0 ,openai_api_key=os.getenv("OPENAI_API_KEY")) 

# 2. Le Parser Pydantic pour formater la sortie
parser = PydanticOutputParser(pydantic_object=ExtractedData)

# 3. Le Prompt Engineering (Instruction donn√©e au LLM)
format_instructions = parser.get_format_instructions()
prompt_template = """
Tu es un expert en traitement de commandes logistiques. Ta t√¢che est d'analyser le TEXTE DE COMMANDE BRUT ci-dessous 
et d'en extraire TOUTES les informations d'articles, en respectant rigoureusement le FORMAT JSON STICT. 
Pour chaque item trouv√©, extrait son ID, son poids en kg, son volume en m3, et sa priorit√© (valeur). 
Convertis TOUTES les valeurs num√©riques en nombres ENTIERS (int).

TEXTE DE COMMANDE BRUT:
---
{commande_text}
---

{format_instructions}
"""
prompt = PromptTemplate(
    template=prompt_template,
    input_variables=["commande_text"],
    partial_variables={"format_instructions": format_instructions}
)

# ----------------------------------------------------
# C. EX√âCUTION
# ----------------------------------------------------

# La cha√Æne de LangChain : Prompt -> LLM -> Parser
chain = prompt | llm | parser

print("üöÄ D√©marrage de l'extraction LLM... (cela peut prendre quelques secondes)")

try:
    # Ex√©cuter l'extraction sur l'ensemble du texte concat√©n√©
    extracted_data_pydantic = chain.invoke({"commande_text": full_text_input})
    
    # Transformer le mod√®le Pydantic en DataFrame Pandas
    extracted_items = [item.model_dump() for item in extracted_data_pydantic.items]
    df_clean = pd.DataFrame(extracted_items)
    
    # Enregistrer les donn√©es propres
    df_clean.to_csv('donnees_propres_RO.csv', index=False)
    
    print("\n‚úÖ Extraction termin√©e avec succ√®s!")
    print(f"Donn√©es structur√©es enregistr√©es dans 'donnees_propres_RO.csv'")
    print("\n--- Aper√ßu des donn√©es extraites (Pr√™tes pour la RO) ---")
    print(df_clean)

except Exception as e:
    print(f"\n‚ùå ERREUR lors de l'extraction. V√©rifiez votre cl√© API ou si le LLM a renvoy√© un format incorrect : {e}")

üöÄ D√©marrage de l'extraction LLM... (cela peut prendre quelques secondes)

‚ùå ERREUR lors de l'extraction. V√©rifiez votre cl√© API ou si le LLM a renvoy√© un format incorrect : Error code: 429 - {'error': {'message': 'You exceeded your current quota, please check your plan and billing details. For more information on this error, read the docs: https://platform.openai.com/docs/guides/error-codes/api-errors.', 'type': 'insufficient_quota', 'param': None, 'code': 'insufficient_quota'}}


In [14]:
from dotenv import load_dotenv
import os

load_dotenv()  # charge le .env
api_key = os.getenv("OPENAI_API_KEY")
print("Cl√© API :", api_key)


Cl√© API : None
