# Chapitre 3: Sources de Donn√©es et Outils RAG

## Vue d'Ensemble du Syst√®me

Dans ce TP, nous travaillons avec un syst√®me RAG multi-sources pour **V√©loCorp**, une entreprise de v√©los. L'agent doit pouvoir acc√©der √† diff√©rentes sources de donn√©es pour r√©pondre aux questions.

## Les Sources de Donn√©es

### 1. **API CRM (Azure Functions)**
- **Ce que c'est** : API REST h√©berg√©e sur Azure Functions
- **Donn√©es disponibles** :
  - Opportunit√©s commerciales (montants, statuts, commerciaux)
  - Prospects (scores, sources, taux de conversion)
  - Commerciaux (r√©gions, quotas, performances)
  - Analytics et KPIs
- **Usage** : Questions sur les performances commerciales, pipeline, prospects

### 2. **Base de Donn√©es SQL (Azure SQL)**
- **Ce que c'est** : Base de donn√©es relationnelle SQL Server
- **Donn√©es disponibles** :
  - Donn√©es structur√©es (clients, commandes, produits)
  - Historique transactionnel
  - M√©triques d√©taill√©es
- **Usage** : Requ√™tes complexes, agr√©gations, analyses quantitatives

### 3. **Azure Cognitive Search**
- **Ce que c'est** : Service de recherche hybride avec support keyword + vectoriel
- **Embedding model** : `sentence-transformers/all-MiniLM-L6-v2` (384 dimensions)
- **Donn√©es disponibles** :
  - Documents (guides produits, documentation technique, conversations clients)
  - Champs index√©s : content, filename, type, created, document_id
  - Vecteurs d'embeddings pour recherche s√©mantique
- **Modes de recherche** :
  - **Keyword search** : Recherche textuelle classique (BM25)
  - **Vector search** : Recherche s√©mantique par similarit√©
  - **Hybrid search** : Combine les deux approches
- **Usage** : Questions sur les produits, documentation, recherche s√©mantique

### 4. **Recherche Internet (DuckDuckGo)**
- **Ce que c'est** : API de recherche web sans cl√© API
- **Donn√©es disponibles** : Informations publiques du web
- **Usage** : Informations actuelles, contexte externe, comparaisons march√©

### 5. **Writer (Report Generator)**
- **Ce que c'est** : Outil de g√©n√©ration de rapports format√©s
- **Formats support√©s** : Markdown, HTML, Text
- **Usage** : G√©n√©rer des rapports structur√©s, analyses, synth√®ses

## Comment D√©crire les Outils : C'est CRUCIAL ! üéØ

La qualit√© de la description des outils d√©termine si le LLM saura les utiliser correctement.

### Anatomie d'une Bonne Description

In [None]:
from typing import Optional
from langchain_core.tools import tool

@tool
def crm_opportunities_tool(
    status: Optional[str] = None,
    min_value: Optional[float] = None,
    sales_rep_id: Optional[int] = None
) -> str:
    """Get CRM opportunities (opportunit√©s commerciales) from V√©loCorp CRM.

    Returns opportunities with pipeline metrics (valeur_pipeline, taux_gain, etc).

    Args:
        status: Filter by status (e.g., "Proposition", "N√©gociation", "Gagn√©", "Perdu")
        min_value: Minimum opportunity value in euros
        sales_rep_id: Filter by sales rep ID

    Returns:
        CRM opportunities data with pipeline metrics
    """
    # Implementation...
    pass

### Les √âl√©ments Cl√©s

1. **Nom de la fonction** : Clair et descriptif (`crm_opportunities_tool`)
2. **Premi√®re ligne** : QUOI fait l'outil + contexte m√©tier
   - ‚úÖ "Get CRM opportunities (opportunit√©s commerciales) from V√©loCorp CRM"
   - ‚ùå "Get data from API"
3. **Deuxi√®me ligne** : CE QUE √ßa retourne (aide le LLM √† comprendre)
   - ‚úÖ "Returns opportunities with pipeline metrics (valeur_pipeline, taux_gain, etc)"
4. **Args** : Description de CHAQUE param√®tre avec EXEMPLES
   - ‚úÖ `status: Filter by status (e.g., "Proposition", "N√©gociation", "Gagn√©", "Perdu")`
   - ‚ùå `status: The status`
5. **Types Python** : Utiliser `Optional`, `Literal`, etc.

### Pourquoi C'est Important ?

Le LLM utilise la description pour :
- **D√©cider** quel outil utiliser
- **Comprendre** quels param√®tres passer
- **Savoir** quels exemples de valeurs sont valides

## Exemples d'Usage des Outils

### Exemple 1 : Outil CRM - Opportunit√©s

**üìÅ Code complet** : [rag_attack/tools/api_tool.py](https://github.com/racousin/rag_attack/blob/main/rag_attack/tools/api_tool.py)

**Points p√©dagogiques cl√©s** :
- Utilisation de `Optional` pour tous les param√®tres de filtrage
- Exemples de valeurs dans chaque description (`e.g., "Proposition", "N√©gociation"`)
- Mention explicite de ce qui est retourn√© ("pipeline metrics")
- Contexte m√©tier dans la premi√®re ligne ("V√©loCorp CRM")

In [None]:
# Extrait simplifi√© pour montrer la structure
@tool
def crm_opportunities_tool(
    status: Optional[str] = None,
    min_value: Optional[float] = None,
    sales_rep_id: Optional[int] = None
) -> str:
    """Get CRM opportunities (opportunit√©s commerciales) from V√©loCorp CRM.

    Returns opportunities with pipeline metrics (valeur_pipeline, taux_gain, etc).

    Args:
        status: Filter by status (e.g., "Proposition", "N√©gociation", "Gagn√©", "Perdu")
        min_value: Minimum opportunity value in euros
        sales_rep_id: Filter by sales rep ID

    Returns:
        CRM opportunities data with pipeline metrics
    """
    config = get_config()
    params = {}
    if status:
        params["status"] = status
    if min_value is not None:
        params["min_value"] = min_value
    if sales_rep_id is not None:
        params["sales_rep_id"] = sales_rep_id

    return azure_function_api_tool(
        config,
        endpoint="/crm/opportunites",
        params=params if params else None
    )

**Questions que cet outil peut traiter :**
- "Quelles sont les opportunit√©s en cours de n√©gociation ?"
  ‚Üí `status="N√©gociation"`
- "Montre-moi les deals de plus de 5000‚Ç¨"
  ‚Üí `min_value=5000`
- "Quelle est la valeur totale du pipeline ?"
  ‚Üí Pas de filtre, agr√©gation dans la r√©ponse

### Exemple 2 : Outil SQL - Requ√™tes Structur√©es

**üìÅ Code complet** : [rag_attack/tools/sql_tool.py](https://github.com/racousin/rag_attack/blob/main/rag_attack/tools/sql_tool.py)

**Points p√©dagogiques cl√©s** :
- ‚ö†Ô∏è **IMPORTANT** : Mention explicite de la syntaxe T-SQL (SQL Server)
- Exemples de syntaxe dans la description (`SELECT TOP 5` au lieu de `LIMIT 5`)
- Restriction de s√©curit√© : "SELECT only"
- Gestion du `max_rows` pour √©viter les r√©sultats trop volumineux

In [None]:
@tool
def sql_query_tool(query: str, max_rows: int = 10) -> str:
    """Execute SQL queries against Azure SQL Server Database (T-SQL syntax).

    IMPORTANT: This is SQL Server, use T-SQL syntax:
    - Use TOP N instead of LIMIT N
    - Example: SELECT TOP 5 * FROM table ORDER BY column DESC

    Args:
        query: The SQL query to execute (SELECT only, T-SQL syntax)
        max_rows: Maximum number of rows to return (default: 10)

    Returns:
        Query results as formatted string
    """
    # Security check - only allow SELECT queries
    query_lower = query.lower().strip()
    if not query_lower.startswith("select"):
        return "Error: Only SELECT queries are allowed for safety"
    # ... rest of implementation

**Questions que cet outil peut traiter :**
- "Combien de clients avons-nous par r√©gion ?"
  ‚Üí `SELECT region, COUNT(*) FROM customers GROUP BY region`
- "Top 10 des produits les plus vendus"
  ‚Üí `SELECT TOP 10 product_name, SUM(quantity) FROM orders GROUP BY product_name ORDER BY SUM(quantity) DESC`

**Note importante** : La description inclut "T-SQL syntax" et "Use TOP N instead of LIMIT N" pour √©viter les erreurs !

### Exemple 3 : Azure Search - Recherche Keyword

**üìÅ Code complet** : [rag_attack/tools/azure_search_tool.py](https://github.com/racousin/rag_attack/blob/main/rag_attack/tools/azure_search_tool.py)

**Points p√©dagogiques cl√©s** :
- Recherche textuelle classique (BM25)
- Param√®tre `search_fields` pour cibler des champs sp√©cifiques
- Bonne pour les termes exacts, noms propres, SKUs

In [None]:
@tool
def azure_search_tool(
    query: str,
    top: int = 5,
    search_fields: Optional[str] = None,
    index_name: str = "documents"
) -> str:
    """Search documents in Azure Cognitive Search.

    Args:
        query: The search query
        top: Number of results to return (default: 5)
        search_fields: Comma-separated list of fields to search
        index_name: Name of the search index (default: "documents")

    Returns:
        Formatted search results as a string
    """
    # Implementation uses Azure SDK...

**Questions que cet outil peut traiter :**
- "Quelles sont les caract√©ristiques du v√©lo √©lectrique E-City ?"
  ‚Üí `query="v√©lo √©lectrique E-City"`
- "Documentation sur la garantie"
  ‚Üí `query="garantie", search_fields="content,title"`

**Note** : Recherche keyword (BM25) - bonne pour les termes exacts, noms propres, SKUs.

### Exemple 3b : Azure Vector Search - Recherche S√©mantique üîç

**üìÅ Code complet** : [rag_attack/tools/azure_search_tool.py](https://github.com/racousin/rag_attack/blob/main/rag_attack/tools/azure_search_tool.py)

**Points p√©dagogiques cl√©s** :
- ‚ö†Ô∏è **CRUCIAL** : Utilisation du M√äME mod√®le d'embedding que lors de l'indexation
- Mod√®le : `sentence-transformers/all-MiniLM-L6-v2` (384 dimensions)
- Nom du champ vectoriel : `"embedding"` (doit correspondre au sch√©ma de l'index)
- Support des filtres OData pour combiner recherche s√©mantique + filtres structur√©s

In [None]:
from langchain.embeddings import HuggingFaceEmbeddings
from azure.search.documents.models import VectorizedQuery

@tool
def azure_vector_search_tool(
    query: str,
    top: int = 5,
    filter: Optional[str] = None,
    index_name: str = "documents"
) -> str:
    """Perform vector search using Azure Cognitive Search with embeddings.

    Uses sentence-transformers/all-MiniLM-L6-v2 for semantic similarity search.

    Args:
        query: The search query to vectorize
        top: Number of results to return (default: 5)
        filter: OData filter expression (e.g., "type eq 'manuel'")
        index_name: Name of the search index (default: "documents")

    Returns:
        Formatted search results with relevance scores
    """
    # 1. Generate embedding using SAME model as index
    embedding_fn = HuggingFaceEmbeddings(
        model_name="sentence-transformers/all-MiniLM-L6-v2"
    )
    query_embedding = embedding_fn.embed_query(query)

    # 2. Vector search using "embedding" field (384D)
    vector_query = VectorizedQuery(
        vector=query_embedding,
        k_nearest_neighbors=top,
        fields="embedding"  # ‚ö†Ô∏è Must match field name in index
    )
    # ... execute search

**Questions que cet outil peut traiter :**
- "Comment entretenir mon v√©lo ?"
  ‚Üí Trouve des docs sur maintenance/entretien/nettoyage (similarit√© s√©mantique)
- "Probl√®mes de freinage"
  ‚Üí Trouve des docs sur freins, s√©curit√©, r√©parations (m√™me si mots diff√©rents)
- "Documentation pour v√©los urbains"
  ‚Üí `filter="type eq 'manuel'"` pour ne chercher que dans les manuels

### Keyword vs Vector Search - Quand utiliser quoi ?

| Type de Question | Outil Recommand√© | Raison |
|------------------|------------------|--------|
| "SKU-ELC-2024" | `azure_search_tool` | Terme exact |
| "v√©lo √©lectrique rouge" | `azure_search_tool` | Mots-cl√©s pr√©cis |
| "comment r√©parer mon v√©lo" | `azure_vector_search_tool` | Intention s√©mantique |
| "probl√®mes de batterie" | `azure_vector_search_tool` | Concepts similaires |
| "garantie E-City" | `azure_search_tool` | Nom propre + terme |

### ‚ö†Ô∏è Point Critique : Coh√©rence des Embeddings

Le mod√®le d'embedding DOIT √™tre le m√™me :
- ‚úÖ Index cr√©√© avec `all-MiniLM-L6-v2` (384D) ‚Üí [voir upload_azure_search.py](https://github.com/racousin/rag_attack/blob/main/scai_onepoint_rag/data/ingestion/upload_azure_search.py#L163)
- ‚úÖ Recherche utilise `all-MiniLM-L6-v2` (384D)
- ‚ùå Si diff√©rents ‚Üí r√©sultats incoh√©rents !

**Pourquoi ?** Les embeddings sont des vecteurs dans un espace sp√©cifique √† chaque mod√®le. M√©langer les mod√®les revient √† comparer des pommes et des oranges.

### Exemple 4 : Recherche Web - Informations Externes

**üìÅ Code complet** : [rag_attack/tools/api_tool.py](https://github.com/racousin/rag_attack/blob/main/rag_attack/tools/api_tool.py)

**Points p√©dagogiques cl√©s** :
- Utilisation de DuckDuckGo (pas besoin de cl√© API)
- Utile pour informations actuelles non pr√©sentes dans les bases internes
- Retourne titre + snippet + URL pour chaque r√©sultat

In [None]:
@tool
def web_search_tool(query: str, num_results: int = 5) -> str:
    """Search the web using DuckDuckGo (no API key required).

    Args:
        query: The search query
        num_results: Number of results to return

    Returns:
        Web search results
    """
    try:
        from duckduckgo_search import DDGS
        with DDGS() as ddgs:
            results = list(ddgs.text(query, max_results=num_results))
            # Format results...
    except ImportError:
        return "DuckDuckGo search not available. Install with: pip install duckduckgo-search"

**Questions que cet outil peut traiter :**
- "Quel temps fait-il √† Toulouse aujourd'hui ?"
- "Quels sont les tendances du march√© du v√©lo √©lectrique en 2024 ?"
- "Comparaison prix v√©los √©lectriques concurrents"

### Exemple 5 : Report Writer - G√©n√©ration de Rapports

**üìÅ Code complet** : [rag_attack/tools/report_writer_tool.py](https://github.com/racousin/rag_attack/blob/main/rag_attack/tools/report_writer_tool.py)

**Points p√©dagogiques cl√©s** :
- Utilisation de `Literal` pour restreindre les valeurs valides de `report_type`
- Templates diff√©rents selon le type de rapport
- Support de multiples formats de sortie (markdown, HTML, text)
- Ajout automatique de m√©tadonn√©es (timestamp, g√©n√©rateur)

In [None]:
@tool
def report_writer_tool(
    title: str,
    content: str,
    report_type: str = "general",
    format: str = "markdown"
) -> str:
    """Generate a professional report with proper formatting.

    Args:
        title: Title of the report
        content: Main content/analysis for the report
        report_type: Type of report (general, technical, business, customer_analysis)
        format: Output format (markdown, text, html)

    Returns:
        Formatted report as a string
    """
    timestamp = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
    
    if format == "markdown":
        return _generate_markdown_report(title, content, report_type, timestamp)
    # ... autres formats

**Questions que cet outil peut traiter :**
- "G√©n√®re un rapport d'analyse des ventes du Q4"
  ‚Üí `title="Analyse Ventes Q4", content="...", report_type="business"`
- "Cr√©e un rapport technique sur les performances"
  ‚Üí `report_type="technical", format="markdown"`

## Principes de Conception des Outils

### 1. **Un Outil = Une Responsabilit√©**
- Ne pas cr√©er un outil qui fait "tout"
- Pr√©f√©rer plusieurs outils sp√©cialis√©s
- Exemple : `crm_opportunities_tool` vs `crm_prospects_tool` plut√¥t qu'un seul `crm_tool`

### 2. **Param√®tres Optionnels pour la Flexibilit√©**

In [None]:
def my_tool(
    required_param: str,           # Toujours n√©cessaire
    optional_filter: Optional[str] = None  # Flexibilit√©
):
    pass

### 3. **Exemples dans les Descriptions**
- Le LLM apprend par exemple
- Inclure des valeurs r√©alistes
- Format : `(e.g., "value1", "value2", "value3")`

### 4. **Gestion des Erreurs**

In [None]:
try:
    # Logic
    return result
except Exception as e:
    return f"Error: {str(e)}"  # Retourner l'erreur comme string

### 5. **Format de Retour Coh√©rent**
- Toujours retourner des strings
- JSON format√© avec `json.dumps(..., indent=2)`
- Messages d'erreur clairs

## Flux de D√©cision du LLM

```
Question Utilisateur
    ‚Üì
LLM analyse la question
    ‚Üì
LLM lit les descriptions des outils
    ‚Üì
LLM choisit le(s) outil(s) appropri√©(s)
    ‚Üì
LLM g√©n√®re les param√®tres
    ‚Üì
Ex√©cution de l'outil
    ‚Üì
LLM re√ßoit le r√©sultat
    ‚Üì
LLM peut :
    - Utiliser un autre outil
    - Formuler la r√©ponse finale
```

## Questions de R√©flexion

1. **Pourquoi s√©parer les outils CRM en plusieurs fonctions** (`crm_opportunities_tool`, `crm_prospects_tool`, etc.) au lieu d'un seul `crm_tool` ?

2. **Pourquoi inclure des exemples de valeurs** dans les descriptions de param√®tres ?

3. **Que se passe-t-il si on ne sp√©cifie pas que la base SQL utilise T-SQL** (et non PostgreSQL) ?

4. **Comment le LLM d√©cide-t-il entre utiliser `azure_search_tool` vs `web_search_tool`** pour une question sur les produits ?

5. **Pourquoi retourner des strings plut√¥t que des objets Python** depuis les outils ?

6. **Que se passe-t-il si le mod√®le d'embedding utilis√© pour la recherche est diff√©rent de celui utilis√© lors de l'indexation** ? (par exemple, utiliser `all-MiniLM-L6-v2` pour l'index mais `text-embedding-ada-002` pour la recherche)

## Comparaison : Bonne vs Mauvaise Description

### ‚ùå Mauvaise Description

In [None]:
@tool
def get_data(param: str) -> str:
    """Get data"""
    pass

**Probl√®mes** :
- Nom vague
- Pas de contexte
- Pas d'exemples
- Le LLM ne saura pas quand l'utiliser

### ‚úÖ Bonne Description

In [None]:
@tool
def crm_prospects_tool(
    status: Optional[str] = None,
    min_score: Optional[int] = None,
    source: Optional[str] = None,
    limit: int = 50
) -> str:
    """Get CRM prospects from V√©loCorp CRM.

    Returns prospects with summary stats (total, qualified, conversion rate, etc).

    Args:
        status: Filter by prospect status (e.g., "Nouveau", "Qualifi√©", "Contact√©")
        min_score: Minimum lead score (0-100)
        source: Filter by lead source (e.g., "Site web", "Salon", "R√©f√©rence")
        limit: Maximum number of prospects to return (default: 50)

    Returns:
        CRM prospects data with conversion metrics
    """
    pass

**Avantages** :
- Nom clair et contextualis√©
- Indique CE QUI est retourn√©
- Exemples de valeurs pour chaque param√®tre
- Le LLM comprend quand et comment l'utiliser

## R√©sum√©

**Ce chapitre couvre** :
- ‚úÖ Les 5 sources de donn√©es (API, SQL, Search, Web, Writer)
- ‚úÖ Comment d√©crire les outils de mani√®re efficace
- ‚úÖ Exemples d'usage pour chaque type d'outil
- ‚úÖ Principes de conception des outils

**Points cl√©s √† retenir** :
1. La description de l'outil est AUSSI importante que son impl√©mentation
2. Inclure des exemples de valeurs dans les param√®tres
3. Un outil = une responsabilit√© claire
4. Toujours retourner des strings format√©es
5. G√©rer les erreurs explicitement
6. Pour la recherche vectorielle : utiliser le M√äME mod√®le d'embedding que lors de l'indexation

**Prochaine √©tape** : Nous allons combiner ces outils avec LangGraph pour cr√©er un agent RAG complet capable de r√©pondre √† des questions complexes n√©cessitant plusieurs sources !

---

**üìö Ressources** :
- [Code source complet sur GitHub](https://github.com/racousin/rag_attack)
- [Tools directory](https://github.com/racousin/rag_attack/tree/main/rag_attack/tools)
- [Data ingestion scripts](https://github.com/racousin/rag_attack/tree/main/scai_onepoint_rag/data/ingestion)