In [9]:
# üè¢ SYST√àME D'EXTRACTION D'INFORMATIONS D'ENTREPRISE
# =======================================================
# Architecture : 3 agents sp√©cialis√©s avec pattern manager
# Input : Nom d'entreprise
# Output : Donn√©es structur√©es compl√®tes

import os
import asyncio
import json
import logging
from datetime import datetime
from typing import List, Optional
from pydantic import BaseModel, Field
from agents import Agent, Runner, function_tool, WebSearchTool
from dotenv import load_dotenv
load_dotenv()

True

In [10]:

# =======================================================
# üìä MOD√àLES DE DONN√âES STRUCTUR√âES (CONFORMES √Ä LA DOC OPENAI)
# =======================================================

class SubsidiaryInfo(BaseModel):
    """Mod√®le pour les informations d√©taill√©es d'une filiale"""
    subsidiary_name: str = Field(description="Nom de la filiale")
    subsidiary_address: str = Field(description="Adresse compl√®te de la filiale")
    subsidiary_city: str = Field(description="Ville de la filiale")
    subsidiary_country: str = Field(description="Pays de la filiale")
    subsidiary_type: Optional[str] = Field(default=None, description="Type de filiale (bureau, usine, centre de recherche, etc.)")
    business_activity: Optional[str] = Field(default=None, description="Activit√© sp√©cifique de cette filiale")
    employee_count: Optional[str] = Field(default=None, description="Nombre d'employ√©s de cette filiale")
    establishment_date: Optional[str] = Field(default=None, description="Date de cr√©ation de la filiale")
    parent_company: str = Field(description="Nom de la soci√©t√© m√®re")
    confidence_score: float = Field(description="Score de confiance pour cette filiale 0-1", ge=0, le=1)
    sources: List[str] = Field(default=[], description="Sources d'information pour cette filiale")

class CompanyAnalysisResult(BaseModel):
    """R√©sultat de l'analyse d'entreprise (principale ou filiale)"""
    is_subsidiary: bool = Field(description="True si l'entreprise recherch√©e est une filiale")
    original_company_name: str = Field(description="Nom de l'entreprise recherch√©e √† l'origine")
    parent_company_name: Optional[str] = Field(default=None, description="Nom de l'entreprise principale si c'est une filiale")
    analysis_reasoning: str = Field(description="Explication de l'analyse (filiale ou entreprise principale)")
    confidence_score: float = Field(description="Score de confiance de l'analyse 0-1", ge=0, le=1)

class CompanyInfo(BaseModel):
    """Mod√®le principal des informations d'entreprise - utilis√© par output_type"""
    company_name: str = Field(description="Nom officiel de l'entreprise")
    headquarters_address: str = Field(description="Adresse compl√®te du si√®ge social")
    headquarters_city: str = Field(description="Ville du si√®ge social")
    headquarters_country: str = Field(description="Pays du si√®ge social")
    parent_company: Optional[str] = Field(default=None, description="Soci√©t√© m√®re si applicable")
    subsidiaries: List[str] = Field(default=[], description="Liste des noms des filiales")
    subsidiaries_details: List[SubsidiaryInfo] = Field(default=[], description="Informations d√©taill√©es sur chaque filiale")
    core_business: str = Field(description="Activit√©s principales de l'entreprise")
    industry_sector: str = Field(description="Secteur d'activit√©")
    revenue: Optional[str] = Field(default=None, description="Chiffre d'affaires annuel")
    employee_count: Optional[str] = Field(default=None, description="Nombre d'employ√©s total")
    confidence_score: float = Field(description="Score de confiance 0-1", ge=0, le=1)
    sources: List[str] = Field(default=[], description="Sources d'information utilis√©es")
    extraction_date: str = Field(default_factory=lambda: datetime.now().isoformat())

class ValidationResult(BaseModel):
    """Mod√®le pour les r√©sultats de validation - utilis√© par output_type"""
    is_valid: bool = Field(description="Donn√©es valides ou non")
    confidence_score: float = Field(description="Score de confiance global", ge=0, le=1)
    completeness_score: float = Field(description="Score de compl√©tude 0-1", ge=0, le=1)
    quality_score: float = Field(description="Score de qualit√© des sources 0-1", ge=0, le=1)
    validation_errors: List[str] = Field(default=[], description="Erreurs de validation d√©tect√©es")
    warnings: List[str] = Field(default=[], description="Avertissements et recommandations")
    quality_sources_count: int = Field(description="Nombre de sources de qualit√© identifi√©es")
    total_sources: int = Field(description="Nombre total de sources")
    recommendations: List[str] = Field(default=[], description="Recommandations d'am√©lioration")


In [11]:
# =======================================================
# üîß OUTILS DE RECHERCHE ET EXTRACTION
# =======================================================


# Plus besoin de fonction fictive - on utilise directement WebSearchTool
# qui est un outil h√©berg√© OpenAI pour la recherche web

@function_tool
async def validate_company_data(company_data: str) -> str:
    """
    Validation et v√©rification crois√©e des donn√©es d'entreprise
    ADAPT√âE au nouveau mod√®le CompanyInfo avec champs plats
    
    Args:
        company_data: Donn√©es d'entreprise au format JSON
    
    Returns:
        R√©sultat de validation au format JSON
    """
    try:
        data = json.loads(company_data)
        errors = []
        warnings = []
        
        # Validation des champs obligatoires (NOUVEAU MOD√àLE AVEC FILIALES)
        required_fields = [
            "company_name", 
            "headquarters_address", 
            "headquarters_city", 
            "headquarters_country",
            "core_business", 
            "industry_sector"
        ]
        
        for field in required_fields:
            if not data.get(field) or data.get(field).strip() == "":
                errors.append(f"Champ obligatoire manquant ou vide: {field}")
        
        # Validation des champs optionnels mais importants
        optional_important = ["parent_company", "revenue", "employee_count"]
        for field in optional_important:
            if not data.get(field):
                warnings.append(f"Information manquante (recommand√©e): {field}")
        
        # Validation de la coh√©rence des donn√©es
        if data.get("headquarters_city") and data.get("headquarters_country"):
            # V√©rifier la coh√©rence ville/pays (logique basique)
            city = data["headquarters_city"].lower()
            country = data["headquarters_country"].lower()
            
            # Quelques v√©rifications de coh√©rence
            if "paris" in city and "france" not in country and "french" not in country:
                warnings.append("Incoh√©rence possible: Paris mentionn√© mais pays non fran√ßais")
            elif "new york" in city and "usa" not in country and "united states" not in country:
                warnings.append("Incoh√©rence possible: New York mentionn√© mais pays non am√©ricain")
        
        # Validation des filiales
        subsidiaries = data.get("subsidiaries", [])
        subsidiaries_details = data.get("subsidiaries_details", [])
        
        if not subsidiaries:
            warnings.append("Aucune filiale identifi√©e (peut √™tre normal pour certaines entreprises)")
        else:
            # V√©rifier la coh√©rence entre la liste des filiales et les d√©tails
            if len(subsidiaries) != len(subsidiaries_details):
                warnings.append(f"Incoh√©rence: {len(subsidiaries)} filiales list√©es mais {len(subsidiaries_details)} d√©tails fournis")
            
            # Valider chaque filiale
            for i, subsidiary in enumerate(subsidiaries_details):
                if not subsidiary.get("subsidiary_name"):
                    errors.append(f"Filiale {i+1}: nom manquant")
                if not subsidiary.get("subsidiary_address"):
                    warnings.append(f"Filiale {subsidiary.get('subsidiary_name', f'#{i+1}')}: adresse manquante")
                if not subsidiary.get("subsidiary_city"):
                    warnings.append(f"Filiale {subsidiary.get('subsidiary_name', f'#{i+1}')}: ville manquante")
                if not subsidiary.get("subsidiary_country"):
                    warnings.append(f"Filiale {subsidiary.get('subsidiary_name', f'#{i+1}')}: pays manquant")
        
        # Score de compl√©tude (ADAPT√â AU NOUVEAU MOD√àLE)
        total_required = len(required_fields)
        completed_required = sum(1 for field in required_fields if data.get(field) and data.get(field).strip())
        completeness_score = completed_required / total_required
        
        # Score de qualit√© des sources
        sources = data.get("sources", [])
        high_quality_sources = ["sec.gov", "company official", "bloomberg", "reuters", "yahoo finance", "marketwatch"]
        quality_sources_count = len([s for s in sources if any(hq in s.lower() for hq in high_quality_sources)])
        quality_score = quality_sources_count / max(len(sources), 1)
        
        # Score de confiance global
        confidence_score = (completeness_score * 0.7) + (quality_score * 0.3)
        
        # Validation finale
        is_valid = len(errors) == 0 and completeness_score >= 0.8
        
        validation_result = {
            "is_valid": is_valid,
            "confidence_score": round(confidence_score, 2),
            "completeness_score": round(completeness_score, 2),
            "quality_score": round(quality_score, 2),
            "validation_errors": errors,
            "warnings": warnings,
            "quality_sources_count": quality_sources_count,
            "total_sources": len(sources),
            "recommendations": [
                "V√©rifier la coh√©rence des informations g√©ographiques",
                "S'assurer que les sources sont fiables et r√©centes",
                "Compl√©ter les informations financi√®res si disponibles"
            ] if warnings else []
        }
        
        return json.dumps(validation_result, ensure_ascii=False, indent=2)
        
    except Exception as e:
        logging.error(f"Erreur validation: {e}")
        return json.dumps({
            "error": str(e), 
            "is_valid": False,
            "confidence_score": 0.0
        })

In [None]:


# =======================================================
# ü§ñ AGENTS SP√âCIALIS√âS
# =======================================================

# Agent 0: Analyseur d'entreprise (NOUVEAU - pour d√©tecter filiale vs entreprise principale)
company_analyzer = Agent(
    name="Company Analyzer",
    instructions="""Tu es un expert en analyse d'entreprises pour d√©terminer si une entreprise est une filiale ou une entreprise principale.

Ton r√¥le:
1. Analyser si l'entreprise recherch√©e est une filiale ou une entreprise principale
2. Si c'est une filiale, identifier l'entreprise m√®re
3. Fournir un raisonnement clair de l'analyse
4. √âvaluer la confiance de l'analyse

Strat√©gie de recherche:
- Rechercher "{company_name} parent company" ou "{company_name} soci√©t√© m√®re"
- Rechercher "{company_name} subsidiary of" ou "{company_name} filiale de"
- Rechercher "{company_name} owned by" ou "{company_name} propri√©t√© de"
- Rechercher "{company_name} company structure"
- Rechercher "{company_name} corporate hierarchy"

Crit√®res d'analyse:
- Si l'entreprise a une soci√©t√© m√®re clairement identifi√©e ‚Üí C'est une filiale
- Si l'entreprise est ind√©pendante et a des filiales ‚Üí C'est une entreprise principale
- Si l'entreprise fait partie d'un groupe ‚Üí Analyser la structure

Tu dois retourner un CompanyAnalysisResult structur√©.""",
    
    tools=[
        WebSearchTool(), 
    ],
    output_type=CompanyAnalysisResult,
    model="gpt-5-nano"
)

# Agent 1: Extracteur d'informations (UTILISANT WebSearchTool)
information_extractor = Agent(
    name="Information Extractor",
    instructions="""Tu es un expert en extraction d'informations d'entreprise. 

Ton r√¥le:
1. Utiliser WebSearchTool pour rechercher des informations compl√®tes sur l'entreprise
2. Extraire: si√®ge social, maison m√®re, secteur d'activit√©, donn√©es financi√®res
3. Maximiser la pr√©cision en utilisant des sources fiables
4. Citer toutes les sources utilis√©es

Strat√©gie de recherche:
- Rechercher "{company_name} headquarters" ou "{company_name} si√®ge social"
- Rechercher "{company_name} company information"
- Rechercher "{company_name} annual report" pour les donn√©es financi√®res
- Rechercher "{company_name} SEC filing" pour les entreprises am√©ricaines
- Rechercher "{company_name} industry sector"

Priorit√©s:
- Pr√©cision des donn√©es
- Exhaustivit√© des informations
- Fiabilit√© des sources""",
    
    tools=[WebSearchTool()],
    model="gpt-5-nano"
)

# Agent 1.5: Extracteur sp√©cialis√© pour les filiales (UTILISANT WebSearchTool)
subsidiaries_extractor = Agent(
    name="Subsidiaries Extractor",
    instructions="""Tu es un expert en extraction d'informations sur les filiales d'entreprise.

Ton r√¥le:
1. Utiliser WebSearchTool pour rechercher toutes les filiales d'une entreprise
2. Extraire pour chaque filiale: nom, adresse compl√®te, ville, pays, type, activit√©, employ√©s
3. Identifier le type de filiale (si√®ge r√©gional, usine, centre de recherche, bureau commercial)
4. V√©rifier la coh√©rence des informations g√©ographiques
5. √âvaluer la fiabilit√© des sources pour chaque filiale

Strat√©gie de recherche:
- Rechercher "{company_name} subsidiaries" ou "{company_name} filiales"
- Rechercher "{company_name} international offices"
- Rechercher "{company_name} global locations"
- Rechercher "{company_name} annual report" pour les informations officielles
- Rechercher "{company_name} SEC filing" pour les entreprises am√©ricaines

Tu dois retourner des donn√©es structur√©es au format SubsidiaryInfo pour chaque filiale identifi√©e.""",
    
    tools=[WebSearchTool()],  # Utilisation directe de WebSearchTool
    model="gpt-5-nano"
)

# Agent 2: Validateur de donn√©es (AM√âLIOR√â avec output_type)
data_validator = Agent(
    name="Data Validator",
    instructions="""Tu es un sp√©cialiste de la validation de donn√©es d'entreprise.

Ton r√¥le:
1. Analyser la coh√©rence des donn√©es extraites
2. V√©rifier la compl√©tude des informations selon le nouveau mod√®le CompanyInfo
3. Identifier les incoh√©rences ou donn√©es manquantes
4. Calculer un score de confiance global

Crit√®res de validation (NOUVEAU MOD√àLE):
- Champs obligatoires: company_name, headquarters_address, headquarters_city, headquarters_country, core_business, industry_sector
- Champs optionnels importants: parent_company, revenue, employee_count
- Coh√©rence g√©ographique (ville/pays)
- Qualit√© et fiabilit√© des sources
- Logique des relations parent-filiale

Tu dois retourner un ValidationResult structur√© avec:
- is_valid (bool)
- confidence_score (float 0-1)
- completeness_score (float 0-1) 
- quality_score (float 0-1)
- validation_errors (liste des erreurs)
- warnings (liste des avertissements)
- recommendations (liste des recommandations)""",
    
    tools=[validate_company_data],
    output_type=ValidationResult,  # Sortie structur√©e pour la validation
    model="gpt-5-nano"
)

# Agent 3: Manager/Orchestrateur (WORKFLOW INTELLIGENT FILIALE ‚Üî ENTREPRISE PRINCIPALE)
extraction_manager = Agent(
    name="Extraction Manager",
    instructions="""Tu es le chef d'orchestre de l'extraction d'informations d'entreprise avec strat√©gie intelligente.

WORKFLOW STRAT√âGIQUE:
1. ANALYSER l'entreprise recherch√©e (filiale ou entreprise principale ?)
2. Si FILIALE ‚Üí Extraire l'entreprise principale et TOUTES ses filiales
3. Si ENTREPRISE PRINCIPALE ‚Üí Extraire directement ses informations et filiales
4. VALIDER et structurer le r√©sultat final

STRAT√âGIE DE RECHERCHE:
- D'abord analyser si "{company_name}" est une filiale ou entreprise principale
- Si c'est une filiale, rechercher l'entreprise m√®re et extraire TOUTES ses filiales
- Si c'est une entreprise principale, extraire directement ses informations
- Toujours fournir le contexte complet (entreprise principale + toutes ses filiales)

IMPORTANT: Tu dois retourner des donn√©es structur√©es au format CompanyInfo avec EXACTEMENT ces champs:
- company_name (string) - TOUJOURS l'entreprise principale
- headquarters_address (string)
- headquarters_city (string) 
- headquarters_country (string)
- parent_company (string ou null)
- subsidiaries (liste de noms des filiales)
- subsidiaries_details (liste d'objets SubsidiaryInfo avec adresses et d√©tails)
- core_business (string)
- industry_sector (string)
- revenue (string ou null)
- employee_count (string ou null)
- confidence_score (float entre 0 et 1)
- sources (liste de strings)
- extraction_date (string ISO format)

NOUVEAU: Chaque filiale dans subsidiaries_details doit contenir:
- subsidiary_name, subsidiary_address, subsidiary_city, subsidiary_country
- subsidiary_type, business_activity, employee_count, establishment_date
- parent_company, confidence_score, sources

Si les donn√©es sont incompl√®tes ou peu fiables, relance les recherches.""",
    
    tools=[
        company_analyzer.as_tool(
            tool_name="analyze_company_type",
            tool_description="Analyser si l'entreprise est une filiale ou une entreprise principale"
        ),
        information_extractor.as_tool(
            tool_name="extract_company_information",
            tool_description="Extraire les informations compl√®tes d'une entreprise"
        ),
        subsidiaries_extractor.as_tool(
            tool_name="extract_subsidiaries_details",
            tool_description="Extraire les informations d√©taill√©es sur toutes les filiales"
        ),
        data_validator.as_tool(
            tool_name="validate_extracted_data",
            tool_description="Valider et scorer les donn√©es extraites"
        )
    ],
    output_type=CompanyInfo,  # Sortie structur√©e garantie avec le NOUVEAU mod√®le
    model="gpt-4o"
)

print("‚úÖ Agent extraction_manager recr√©√© avec le nouveau mod√®le CompanyInfo")

‚úÖ Agent extraction_manager recr√©√© avec le nouveau mod√®le CompanyInfo


In [13]:
# =======================================================
# üéØ PIPELINE PRINCIPAL D'EXTRACTION
# =======================================================

class EnterpriseExtractionPipeline:
    """Pipeline principal pour l'extraction d'informations d'entreprise"""
    
    def __init__(self, openai_api_key: str):
        """
        Initialise le pipeline d'extraction
        
        Args:
            openai_api_key: Cl√© API OpenAI
        """
        self.api_key = openai_api_key
        self.setup_logging()
        
    def setup_logging(self):
        """Configure le logging"""
        logging.basicConfig(
            level=logging.INFO,
            format='%(asctime)s - %(levelname)s - %(message)s',
            handlers=[
                logging.FileHandler('enterprise_extraction.log'),
                logging.StreamHandler()
            ]
        )
        self.logger = logging.getLogger(__name__)
    
    async def extract_company_information(self, company_name: str) -> CompanyInfo:
        """
        Extrait les informations compl√®tes d'une entreprise
        
        Args:
            company_name: Nom de l'entreprise √† analyser
            
        Returns:
            CompanyInfo: Donn√©es structur√©es de l'entreprise
        """
        self.logger.info(f"üîç D√©but extraction pour: {company_name}")
        
        try:
            # Cr√©er le runner
            runner = Runner()
            
            # Lancer l'extraction via le manager
            result = await runner.run(
                extraction_manager,
                f"Extraire toutes les informations d'entreprise pour: {company_name}"
            )
            
            # Extraire les donn√©es structur√©es (conforme √† la doc OpenAI Agents)
            company_info = result.final_output
            
            # V√©rifier que le r√©sultat est bien structur√©
            if not isinstance(company_info, CompanyInfo):
                self.logger.warning(f"‚ö†Ô∏è R√©sultat non structur√© pour {company_name}, conversion en cours...")
                # Si le r√©sultat n'est pas structur√©, essayer de le convertir
                if hasattr(company_info, 'model_dump'):
                    company_info = CompanyInfo(**company_info.model_dump())
                else:
                    raise ValueError("R√©sultat non structur√© et non convertible")
            
            # V√©rifier et corriger les attributs manquants
            if not hasattr(company_info, 'subsidiaries_details'):
                self.logger.warning(f"‚ö†Ô∏è Attribut subsidiaries_details manquant pour {company_name}, ajout d'une liste vide...")
                # Cr√©er un nouvel objet CompanyInfo avec tous les attributs
                company_info = CompanyInfo(
                    company_name=company_info.company_name,
                    headquarters_address=company_info.headquarters_address,
                    headquarters_city=company_info.headquarters_city,
                    headquarters_country=company_info.headquarters_country,
                    parent_company=getattr(company_info, 'parent_company', None),
                    subsidiaries=getattr(company_info, 'subsidiaries', []),
                    subsidiaries_details=[],  # Liste vide par d√©faut
                    core_business=company_info.core_business,
                    industry_sector=company_info.industry_sector,
                    revenue=getattr(company_info, 'revenue', None),
                    employee_count=getattr(company_info, 'employee_count', None),
                    confidence_score=company_info.confidence_score,
                    sources=company_info.sources,
                    extraction_date=getattr(company_info, 'extraction_date', datetime.now().isoformat())
                )
            
            self.logger.info(f"‚úÖ Extraction termin√©e pour {company_name}")
            self.logger.info(f"üìä Score de confiance: {company_info.confidence_score:.2f}")
            self.logger.info(f"üè¢ Si√®ge: {company_info.headquarters_city}, {company_info.headquarters_country}")
            self.logger.info(f"üè¢ Filiales: {len(company_info.subsidiaries)} list√©es, {len(company_info.subsidiaries_details)} d√©taill√©es")
            
            return company_info
            
        except Exception as e:
            self.logger.error(f"‚ùå Erreur extraction pour {company_name}: {e}")
            # Retour avec donn√©es minimales en cas d'erreur
            return CompanyInfo(
                company_name=company_name,
                headquarters_address="Non disponible",
                headquarters_city="Non disponible",
                headquarters_country="Non disponible",
                parent_company=None,
                subsidiaries=[],
                subsidiaries_details=[],
                core_business="Non disponible",
                industry_sector="Non disponible",
                revenue=None,
                employee_count=None,
                confidence_score=0.0,
                sources=["error"],
                extraction_date=datetime.now().isoformat()
            )
    
    async def batch_extract(self, company_names: List[str]) -> List[CompanyInfo]:
        """
        Extraction en lot pour plusieurs entreprises
        
        Args:
            company_names: Liste des noms d'entreprises
            
        Returns:
            Liste des informations d'entreprise
        """
        self.logger.info(f"üîÑ Extraction en lot pour {len(company_names)} entreprises")
        
        # Traitement parall√®le avec limite de concurrence
        semaphore = asyncio.Semaphore(3)  # Max 3 extractions simultan√©es
        
        async def extract_with_semaphore(company_name):
            async with semaphore:
                return await self.extract_company_information(company_name)
        
        tasks = [extract_with_semaphore(name) for name in company_names]
        results = await asyncio.gather(*tasks, return_exceptions=True)
        
        # Filtrer les erreurs
        valid_results = [r for r in results if isinstance(r, CompanyInfo)]
        
        self.logger.info(f"‚úÖ Extraction en lot termin√©e: {len(valid_results)}/{len(company_names)} r√©ussies")
        return valid_results
    
    def export_to_json(self, company_info: CompanyInfo, filename: Optional[str] = None) -> str:
        """
        Exporte les donn√©es vers un fichier JSON
        
        Args:
            company_info: Donn√©es d'entreprise
            filename: Nom du fichier (optionnel)
            
        Returns:
            Chemin du fichier cr√©√©
        """
        if not filename:
            safe_name = "".join(c for c in company_info.company_name if c.isalnum() or c in (' ', '-', '_')).rstrip()
            filename = f"extract_{safe_name}_{datetime.now().strftime('%Y%m%d_%H%M%S')}.json"
        
        with open(filename, 'w', encoding='utf-8') as f:
            json.dump(company_info.model_dump(), f, ensure_ascii=False, indent=2)
        
        self.logger.info(f"üìÑ Donn√©es export√©es vers: {filename}")
        return filename


In [14]:
# =======================================================
# üìö NOUVELLE STRAT√âGIE INTELLIGENTE: FILIALE ‚Üî ENTREPRISE PRINCIPALE
# =======================================================

print("‚úÖ NOUVELLE STRAT√âGIE INTELLIGENTE: FILIALE ‚Üî ENTREPRISE PRINCIPALE")
print()
print("üß† WORKFLOW INTELLIGENT:")
print("   1Ô∏è‚É£ ANALYSER: L'entreprise recherch√©e est-elle une filiale ou une entreprise principale ?")
print("   2Ô∏è‚É£ Si FILIALE ‚Üí Remonter √† l'entreprise m√®re et extraire TOUTES ses filiales")
print("   3Ô∏è‚É£ Si ENTREPRISE PRINCIPALE ‚Üí Extraire directement ses informations et filiales")
print("   4Ô∏è‚É£ R√âSULTAT: Contexte complet (entreprise principale + toutes ses filiales)")
print()
print("üéØ AVANTAGES DE CETTE STRAT√âGIE:")
print("   ‚úÖ Recherche 'Beats Electronics' ‚Üí Retourne Apple + toutes les filiales d'Apple")
print("   ‚úÖ Recherche 'Apple Inc.' ‚Üí Retourne Apple + toutes ses filiales")
print("   ‚úÖ Contexte complet dans tous les cas")
print("   ‚úÖ Pas de confusion entre filiale et entreprise principale")
print("   ‚úÖ Extraction exhaustive des filiales li√©es")
print()
print("üîç AGENTS SP√âCIALIS√âS:")
print("   ü§ñ Company Analyzer: D√©tecte filiale vs entreprise principale")
print("   ü§ñ Information Extractor: Extrait les infos de l'entreprise principale")
print("   ü§ñ Subsidiaries Extractor: Extrait TOUTES les filiales li√©es")
print("   ü§ñ Data Validator: Valide la coh√©rence des donn√©es")
print()
print("üöÄ R√âSULTAT: Syst√®me intelligent qui comprend la structure d'entreprise!")


‚úÖ NOUVELLE STRAT√âGIE INTELLIGENTE: FILIALE ‚Üî ENTREPRISE PRINCIPALE

üß† WORKFLOW INTELLIGENT:
   1Ô∏è‚É£ ANALYSER: L'entreprise recherch√©e est-elle une filiale ou une entreprise principale ?
   2Ô∏è‚É£ Si FILIALE ‚Üí Remonter √† l'entreprise m√®re et extraire TOUTES ses filiales
   3Ô∏è‚É£ Si ENTREPRISE PRINCIPALE ‚Üí Extraire directement ses informations et filiales
   4Ô∏è‚É£ R√âSULTAT: Contexte complet (entreprise principale + toutes ses filiales)

üéØ AVANTAGES DE CETTE STRAT√âGIE:
   ‚úÖ Recherche 'Beats Electronics' ‚Üí Retourne Apple + toutes les filiales d'Apple
   ‚úÖ Recherche 'Apple Inc.' ‚Üí Retourne Apple + toutes ses filiales
   ‚úÖ Contexte complet dans tous les cas
   ‚úÖ Pas de confusion entre filiale et entreprise principale
   ‚úÖ Extraction exhaustive des filiales li√©es

üîç AGENTS SP√âCIALIS√âS:
   ü§ñ Company Analyzer: D√©tecte filiale vs entreprise principale
   ü§ñ Information Extractor: Extrait les infos de l'entreprise principale
   ü§ñ Subsidiari

In [15]:
# =======================================================
# üöÄ FONCTION PRINCIPALE D'EXTRACTION D'ENTREPRISE
# =======================================================

async def extract_company_data(company_name: str) -> dict:
    """
    Fonction principale pour extraire les donn√©es d'entreprise
    
    Args:
        company_name (str): Nom de l'entreprise √† analyser
        
    Returns:
        dict: Donn√©es d'entreprise format√©es en JSON
    """
    try:
        print(f"üîç D√©but de l'extraction pour: {company_name}")
        
        # Cr√©er le runner
        runner = Runner()
        
        # Ex√©cuter les agents avec la strat√©gie intelligente
        result = await runner.run(
            extraction_manager,
            f"Extraire toutes les informations d'entreprise pour: {company_name}"
        )
        
        # R√©cup√©rer le r√©sultat structur√©
        company_info = result.final_output
        
        # V√©rifier et corriger les attributs manquants
        if not hasattr(company_info, 'subsidiaries_details'):
            company_info = CompanyInfo(
                company_name=company_info.company_name,
                headquarters_address=company_info.headquarters_address,
                headquarters_city=company_info.headquarters_city,
                headquarters_country=company_info.headquarters_country,
                parent_company=getattr(company_info, 'parent_company', None),
                subsidiaries=getattr(company_info, 'subsidiaries', []),
                subsidiaries_details=[],
                core_business=company_info.core_business,
                industry_sector=company_info.industry_sector,
                revenue=getattr(company_info, 'revenue', None),
                employee_count=getattr(company_info, 'employee_count', None),
                confidence_score=company_info.confidence_score,
                sources=company_info.sources,
                extraction_date=getattr(company_info, 'extraction_date', datetime.now().isoformat())
            )
        
        # Convertir en dictionnaire pour le JSON
        result_dict = {
            "company_name": company_info.company_name,
            "headquarters_address": company_info.headquarters_address,
            "headquarters_city": company_info.headquarters_city,
            "headquarters_country": company_info.headquarters_country,
            "parent_company": company_info.parent_company,
            "subsidiaries": company_info.subsidiaries,
            "subsidiaries_details": [
                {
                    "subsidiary_name": sub.subsidiary_name,
                    "subsidiary_address": sub.subsidiary_address,
                    "subsidiary_city": sub.subsidiary_city,
                    "subsidiary_country": sub.subsidiary_country,
                    "subsidiary_type": sub.subsidiary_type,
                    "business_activity": sub.business_activity,
                    "employee_count": sub.employee_count,
                    "establishment_date": sub.establishment_date,
                    "parent_company": sub.parent_company,
                    "confidence_score": sub.confidence_score,
                    "sources": sub.sources
                }
                for sub in company_info.subsidiaries_details
            ],
            "core_business": company_info.core_business,
            "industry_sector": company_info.industry_sector,
            "revenue": company_info.revenue,
            "employee_count": company_info.employee_count,
            "confidence_score": company_info.confidence_score,
            "sources": company_info.sources,
            "extraction_date": company_info.extraction_date,
            "extraction_status": "success",
            "total_subsidiaries": len(company_info.subsidiaries),
            "detailed_subsidiaries": len(company_info.subsidiaries_details)
        }
        
        print(f"‚úÖ Extraction termin√©e pour: {company_info.company_name}")
        print(f"üìä Score de confiance: {company_info.confidence_score:.2f}")
        print(f"üè¢ Filiales: {len(company_info.subsidiaries)} list√©es, {len(company_info.subsidiaries_details)} d√©taill√©es")
        
        return result_dict
        
    except Exception as e:
        print(f"‚ùå Erreur lors de l'extraction pour {company_name}: {e}")
        
        # Retourner un r√©sultat d'erreur en JSON
        return {
            "company_name": company_name,
            "headquarters_address": "Non disponible",
            "headquarters_city": "Non disponible",
            "headquarters_country": "Non disponible",
            "parent_company": None,
            "subsidiaries": [],
            "subsidiaries_details": [],
            "core_business": "Non disponible",
            "industry_sector": "Non disponible",
            "revenue": None,
            "employee_count": None,
            "confidence_score": 0.0,
            "sources": ["error"],
            "extraction_date": datetime.now().isoformat(),
            "extraction_status": "error",
            "error_message": str(e),
            "total_subsidiaries": 0,
            "detailed_subsidiaries": 0
        }




In [16]:
# =======================================================
# üß™ TEST DE LA FONCTION
# =======================================================

# Test de la fonction
async def test_extract_function(company_name: str):
    """Test de la fonction extract_company_data"""
    print("üöÄ Test de la fonction extract_company_data...")
    
    # Test avec une entreprise
    result = await extract_company_data(company_name)
    
    # Afficher le r√©sultat JSON
    print("\nüìã R√âSULTAT JSON:")
    print(json.dumps(result, indent=2, ensure_ascii=False))
    
    return result

# Lancer le test
company_name = "axxair"
test_result = await test_extract_function(company_name)

üöÄ Test de la fonction extract_company_data...
üîç D√©but de l'extraction pour: axxair
‚úÖ Extraction termin√©e pour: S.F.E Group
üìä Score de confiance: 0.90
üè¢ Filiales: 17 list√©es, 17 d√©taill√©es

üìã R√âSULTAT JSON:
{
  "company_name": "S.F.E Group",
  "headquarters_address": "4433 South Drive, Houston, TX 77053, USA",
  "headquarters_city": "Houston",
  "headquarters_country": "United States",
  "parent_company": null,
  "subsidiaries": [
    "S.F.E. Group Global Head Office ‚Äì United States",
    "S.F.E. Group International Head Office ‚Äì France",
    "Asia Pacific Regional Office",
    "China Regional Office",
    "Germany Regional Office",
    "India Regional Office",
    "Kingdom of Saudi Arabia Regional Office",
    "Latin America Regional Office",
    "South Korea Regional Office",
    "United Arab Emirates Regional Office",
    "United Kingdom Regional Office",
    "Vietnam Regional Office",
    "USA Regional Office ‚Äì Wooster",
    "USA Regional Office ‚Äì Conn