# Overview 

**Dans ce notebook, on cr√©e notre agent IA et on le prompt pour avoir une solution au porbl√®me de Veolia**

In [14]:
import boto3
import os
import time
import json

Test pour cr√©er une session et voir si ca marche correctement:

In [None]:
session = boto3.Session()
print(session)

Session(region_name='us-west-2')


On va maintenant lister tous les mod√®les LLM disponibles dans notre r√©gion:

In [3]:
bedrock = boto3.client('bedrock', region_name='us-west-2') 
models = bedrock.list_foundation_models()

for model in models['modelSummaries']:
    print(f"Model ID: {model['modelId']}")

Model ID: amazon.titan-tg1-large
Model ID: amazon.titan-embed-g1-text-02
Model ID: amazon.titan-text-lite-v1:0:4k
Model ID: amazon.titan-text-lite-v1
Model ID: amazon.titan-text-express-v1:0:8k
Model ID: amazon.titan-text-express-v1
Model ID: amazon.nova-pro-v1:0
Model ID: amazon.nova-lite-v1:0
Model ID: amazon.nova-micro-v1:0
Model ID: amazon.titan-embed-text-v1:2:8k
Model ID: amazon.titan-embed-text-v1
Model ID: amazon.titan-embed-text-v2:0
Model ID: amazon.titan-embed-image-v1:0
Model ID: amazon.titan-embed-image-v1
Model ID: amazon.titan-image-generator-v1:0
Model ID: amazon.titan-image-generator-v1
Model ID: amazon.titan-image-generator-v2:0
Model ID: amazon.rerank-v1:0
Model ID: stability.stable-diffusion-xl-v1:0
Model ID: stability.stable-diffusion-xl-v1
Model ID: stability.sd3-large-v1:0
Model ID: stability.sd3-5-large-v1:0
Model ID: stability.stable-image-core-v1:0
Model ID: stability.stable-image-core-v1:1
Model ID: stability.stable-image-ultra-v1:0
Model ID: stability.stable

On va √† pr√©sent √©tablir une connection √† Amazon Redshift, notre base de donn√©es serverless:

In [5]:
# Initialisation du client Redshift Data
client = boto3.client('redshift-data', region_name='us-west-2')

# Param√®tres de connexion
database = 'dev'  # nom de notre base de donn√©es
workgroup_name = 'wz-solutions-redshift-workgroup'  # notre workgroup

# Requ√™te simple pour tester la connexion
sql_query = 'SELECT * from consommations;'

try:
    response = client.execute_statement(
        Database=database,
        WorkgroupName=workgroup_name, 
        Sql=sql_query
    )
    print("Connexion r√©ussie !")
except Exception as e:
    print(f"Erreur de connexion : {e}")

Connexion r√©ussie !


On va test de faire une requ√™te SQL √† Amazon Redshift (notre base de donn√©es) et afficher le r√©sultat de la requ√™te: 

In [7]:
sql_query = 'SELECT * FROM consommations LIMIT 10;' # on limite √† 10 lignes

try:
    # Ex√©cuter la requ√™te SQL
    response = client.execute_statement(
        Database=database,
        WorkgroupName=workgroup_name, 
        Sql=sql_query
    )
    
    # R√©cup√©rer l'ID de l'ex√©cution de la requ√™te
    statement_id = response['Id']
    print(f"Requ√™te envoy√©e, ID : {statement_id}")

    # Attendre que la requ√™te soit termin√©e
    while True:
        status_response = client.describe_statement(Id=statement_id)
        status = status_response['Status']

        if status in ['FINISHED', 'FAILED', 'ABORTED']:
            break
        print("En attente des r√©sultats...")
        time.sleep(2)  # Pause avant la prochaine v√©rification

    # V√©rifier si la requ√™te s'est bien ex√©cut√©e
    if status == 'FINISHED':
        # R√©cup√©rer les r√©sultats
        result_response = client.get_statement_result(Id=statement_id)
        records = result_response.get('Records', [])

        # Afficher les r√©sultats
        if records:
            print("\nR√©sultats de la requ√™te :")
            for row in records:
                print([col.get('stringValue', 'NULL') for col in row])  # Adaptation pour afficher chaque ligne
        else:
            print("Aucun r√©sultat trouv√©.")

    else:
        print(f"Erreur lors de l'ex√©cution : {status_response.get('Error', 'Erreur inconnue')}")

except Exception as e:
    print(f"Erreur de connexion ou d'ex√©cution : {e}")

Requ√™te envoy√©e, ID : 932147b8-8af9-4780-86af-26a157cf0ebd

R√©sultats de la requ√™te :
['GN|11801801030951', 'Hauts de France', 'Littoral Audomarois', 'YU001', 'BATIMENTS COLLECTIFS PRIVES', 'NULL', 'ABAQUE_ML_INTERPO', 'NULL', 'NULL', '2022-05-01', 'NULL']
['GN|11811811000142', 'Hauts de France', 'Littoral Audomarois', 'YU001', 'PROFESSIONNELS', 'NULL', 'ABAQUE_REGION_INTERPO', 'NULL', 'NULL', '2022-05-01', 'NULL']
['GN|11802802006107', 'Hauts de France', 'Littoral Audomarois', 'YU001', 'BATIMENTS COLLECTIFS PRIVES', 'NULL', 'ABAQUE_TR_INTERPO', 'NULL', 'NULL', '2022-05-01', 'NULL']
['GN|11801801029965', 'Hauts de France', 'Littoral Audomarois', 'YU001', 'BATIMENTS COLLECTIFS PRIVES', 'NULL', 'ABAQUE_ML_INTERPO', 'NULL', 'NULL', '2022-05-01', 'NULL']
['GN|11809809004582', 'Hauts de France', 'Littoral Audomarois', 'YU001', 'BATIMENTS COLLECTIFS PRIVES', 'NULL', 'ABAQUE_ML_INTERPO', 'NULL', 'NULL', '2022-05-01', 'NULL']
['GN|11804804005498', 'Hauts de France', 'Littoral Audomarois', 

## On va maintenant passer √† la cr√©ation de notre agent et aux prompts

Configurations: 

In [15]:
# ---- AWS CONFIGURATION ----
AWS_REGION = "us-west-2"
MODEL_ID = "mistral.mixtral-8x7b-instruct-v0:1"  # Utilisation de Mistral AI

# ---- REDSHIFT SERVERLESS CONFIGURATION ----
DATABASE = "dev"  # nom de notre base de donn√©es
WORKGROUP_NAME = "wz-solutions-redshift-workgroup"  # notre workgroup

# ---- INITIALISATION DES CLIENTS ----
bedrock = boto3.client("bedrock-runtime", region_name=AWS_REGION)
redshift_client = boto3.client("redshift-data", region_name=AWS_REGION)

Prompt 1: Analyse des tables et colonnes de notre base de donn√©es

In [13]:
# ---- FONCTION POUR R√âCUP√âRER LES TABLES REDSHIFT ----
def get_redshift_tables():
    """R√©cup√®re la liste des tables disponibles dans la base de donn√©es Redshift."""
    sql_query = "SELECT tablename FROM pg_catalog.pg_tables WHERE schemaname = 'public';"
    try:
        response = redshift_client.execute_statement(
            Database=DATABASE,
            WorkgroupName=WORKGROUP_NAME,
            Sql=sql_query
        )

        statement_id = response['Id']
        while True:
            status_response = redshift_client.describe_statement(Id=statement_id)
            status = status_response["Status"]
            if status in ["FINISHED", "FAILED", "ABORTED"]:
                break
            time.sleep(2)

        if status == "FINISHED":
            result_response = redshift_client.get_statement_result(Id=statement_id)
            tables = [row[0].get('stringValue', 'NULL') for row in result_response.get("Records", [])]
            return tables if tables else "Aucune table trouv√©e."
        else:
            return f"Erreur lors de l'ex√©cution : {status_response.get('Error', 'Erreur inconnue')}"

    except Exception as e:
        return f"Erreur de connexion ou d'ex√©cution : {str(e)}"


# ---- FONCTION POUR R√âCUP√âRER LES COLONNES D'UNE TABLE ----
def get_table_columns(table_name):
    """R√©cup√®re les colonnes et leur description d'une table Redshift."""
    sql_query = f"""
        SELECT column_name, data_type
        FROM information_schema.columns
        WHERE table_name = '{table_name}';
    """
    try:
        response = redshift_client.execute_statement(
            Database=DATABASE,
            WorkgroupName=WORKGROUP_NAME,
            Sql=sql_query
        )

        statement_id = response['Id']
        while True:
            status_response = redshift_client.describe_statement(Id=statement_id)
            status = status_response["Status"]
            if status in ["FINISHED", "FAILED", "ABORTED"]:
                break
            time.sleep(2)

        if status == "FINISHED":
            result_response = redshift_client.get_statement_result(Id=statement_id)
            columns = [
                f"{row[0].get('stringValue', 'NULL')} ({row[1].get('stringValue', 'NULL')})"
                for row in result_response.get("Records", [])
            ]
            return columns if columns else "Aucune colonne trouv√©e."
        else:
            return f"Erreur lors de l'ex√©cution : {status_response.get('Error', 'Erreur inconnue')}"

    except Exception as e:
        return f"Erreur de connexion ou d'ex√©cution : {str(e)}"


# ---- FONCTION POUR ANALYSER LES TABLES AVEC L'AGENT ----
def agent_analyze_tables():
    """Analyse et d√©crit chaque table d√©tect√©e dans Redshift."""
    tables = get_redshift_tables()
    if isinstance(tables, str):
        return tables

    all_tables_info = []
    for table in tables:
        columns = get_table_columns(table)
        all_tables_info.append(f"Table: {table}\nColonnes: {', '.join(columns)}")

    # Construire le prompt pour Mistral AI
    prompt = f"""
    Tu es un expert en bases de donn√©es. Analyse et d√©cris chacune des tables trouv√©es dans Amazon Redshift.
    
    Voici les informations trouv√©es :
    {chr(10).join(all_tables_info)}

    Pour chaque table :
    1. Donne son r√¥le dans la base de donn√©es.
    2. Explique √† quoi sert chaque colonne.
    
    R√©ponds de mani√®re simple et concise, chaque description de colonne doit √™tre de la m√™me longueur et la plus courte et compl√®te possible.
    """

    return analyze_with_mistral(prompt)


# ---- FONCTION POUR INTERAGIR AVEC MISTRAL AI ----
def analyze_with_mistral(prompt):
    """Envoie un prompt √† Mistral AI via Amazon Bedrock."""
    request_body = {
        "prompt": prompt,
        "max_tokens": 1000,
        "temperature": 0.3,
        "top_p": 0.9
    }

    response = bedrock.invoke_model(
        modelId=MODEL_ID,
        body=json.dumps(request_body)
    )

    response_body = json.loads(response["body"].read())
    return response_body.get("outputs", [{}])[0].get("text", "")


# ---- EX√âCUTION ----
if __name__ == "__main__":
    response = agent_analyze_tables()
    print("\n Analyse des Tables Redshift \n")
    print(response) 
    rep_prompt1 = response 



 Analyse des Tables Redshift 


    abonnements
    1. G√®re les informations sur les abonnements des clients.
    2. cle_abonnement : identifiant unique de l'abonnement
     date_entree_local_abonnement : date d'entr√©e en vigueur locale de l'abonnement
     date_resiliation_abonnement : date de r√©siliation de l'abonnement
     date_souscription_abonnement : date de souscription de l'abonnement

    consommations
    1. Enregistre les donn√©es de consommation des clients.
    2. annee_conso : ann√©e de la consommation
     mois_conso : mois de la consommation
     diametre_nominal : diam√®tre nominal de la conduite
     volume_mois : volume consomm√© dans le mois
     type_abaque : type d'abaque utilis√© pour le calcul de la consommation
     libelle_categorie_abonne : libell√© de la cat√©gorie de l'abonn√©
     code_contrat : code du contrat
     libelle_territoire : libell√© du territoire
     libelle_region : libell√© de la r√©gion
     cle_pds : identifiant unique du point de li

Prompt 2: Rapport d'Anomalies sur une table choisie par l'utilisateur

In [21]:
# ---- FONCTION POUR R√âCUP√âRER UN √âCHANTILLON D'UNE TABLE ----
def get_table_sample(table_name):
    """R√©cup√®re 100 lignes d'une table Redshift pour analyse."""
    sql_query = f"SELECT * FROM {table_name} LIMIT 100;"
    
    try:
        print(f"üîÑ Envoi de la requ√™te √† Redshift: {sql_query}")
        response = redshift_client.execute_statement(
            Database=DATABASE,
            WorkgroupName=WORKGROUP_NAME,
            Sql=sql_query
        )

        statement_id = response['Id']
        print(f"‚úÖ Requ√™te envoy√©e, ID: {statement_id}")

        # Timeout apr√®s 60 secondes
        start_time = time.time()
        while True:
            status_response = redshift_client.describe_statement(Id=statement_id)
            status = status_response["Status"]

            if status in ["FINISHED", "FAILED", "ABORTED"]:
                break
            
            # V√©rification du timeout (60 secondes max)
            if time.time() - start_time > 60:
                print("‚è≥ Timeout d√©pass√© (60s). Annulation de la requ√™te.")
                return "Timeout: La requ√™te a pris trop de temps."

            print("‚è≥ En attente des r√©sultats...")
            time.sleep(3)  # V√©rification toutes les 3 secondes

        if status == "FINISHED":
            print("‚úÖ Requ√™te termin√©e, r√©cup√©ration des r√©sultats...")
            result_response = redshift_client.get_statement_result(Id=statement_id)
            records = [
                ", ".join([col.get('stringValue', 'NULL') for col in row])
                for row in result_response.get("Records", [])
            ]
            return records if records else "Aucune donn√©e trouv√©e."
        else:
            print(f"‚ùå Erreur d'ex√©cution: {status}")
            return f"Erreur lors de l'ex√©cution: {status_response.get('Error', 'Erreur inconnue')}"

    except Exception as e:
        print(f"‚ùå Erreur de connexion ou d'ex√©cution : {str(e)}")
        return f"Erreur : {str(e)}"


# ---- FONCTION POUR D√âTECTER LES ANOMALIES ----
def agent_detect_anomalies(table_name):
    """D√©tecte les anomalies d'une table sp√©cifique dans Redshift via Mistral AI."""
    table_sample = get_table_sample(table_name)
    
    if isinstance(table_sample, str):
        return table_sample  # Si erreur, on la renvoie directement

    formatted_sample = "\n".join(table_sample)

    # Construction du prompt
    prompt = f"""
    Tu es un expert en qualit√© des donn√©es.
    {rep_prompt1}
    
    Voici un √©chantillon de la table "{table_name}":
    {formatted_sample}
    
    Identifie les anomalies (valeurs nulles, doublons, erreurs de format, etc.).
    G√©n√®re une requ√™te SQL pour afficher les lignes contenant des donn√©es incorrectes.

    R√©ponds en suivant ce format :
    - **Type d'anomalie** : [Cat√©gorie de l'anomalie]
    - **Description** : [Br√®ve explication]
    - **Requ√™te SQL** : [Requ√™te pour afficher les donn√©es erron√©es]
    """

    return analyze_with_mistral(prompt)


# ---- FONCTION POUR INTERAGIR AVEC MISTRAL AI ----
def analyze_with_mistral(prompt):
    """Envoie un prompt √† Mistral AI via Amazon Bedrock."""
    request_body = {
        "prompt": prompt,
        "max_tokens": 3000,
        "temperature": 0.3,
        "top_p": 0.9
    }

    try:
        print("üîÑ Envoi du prompt √† Mistral AI...")
        response = bedrock.invoke_model(
            modelId=MODEL_ID,
            body=json.dumps(request_body)
        )
        print("‚úÖ R√©ponse re√ßue de Mistral.")

        response_body = json.loads(response["body"].read())
        return response_body.get("outputs", [{}])[0].get("text", "")

    except Exception as e:
        print(f"‚ùå Erreur d'interaction avec Mistral AI : {str(e)}")
        return f"Erreur : {str(e)}"


# ---- EX√âCUTION ----
if __name__ == "__main__":
    table_name = input("üîç Entrez le nom de la table √† analyser : ")
    response = agent_detect_anomalies(table_name)

    print("\n Rapport d'Anomalies \n")
    print(response)
    rep_prompt2 = response

üîÑ Envoi de la requ√™te √† Redshift: SELECT * FROM factures LIMIT 100;
‚úÖ Requ√™te envoy√©e, ID: aa5bb81d-51f5-4f0a-a13e-025e6ab4b9df
‚è≥ En attente des r√©sultats...
‚úÖ Requ√™te termin√©e, r√©cup√©ration des r√©sultats...
üîÑ Envoi du prompt √† Mistral AI...
‚úÖ R√©ponse re√ßue de Mistral.

üîé **Rapport d'Anomalies** üîé


    Anomalie 1
    ----------------------------------------------------------------------------------------------------------------
    - **Type d'anomalie** : Valeurs nulles
    - **Description** : Il y a des lignes avec des valeurs nulles dans la colonne "nb_factures_par_pds".
    - **Requ√™te SQL** : 
    ```
    SELECT * FROM factures WHERE nb_factures_par_pds IS NULL;
    ```
    
    Anomalie 2
    ----------------------------------------------------------------------------------------------------------------
    - **Type d'anomalie** : Valeurs nulles
    - **Description** : Il y a des lignes avec des valeurs nulles dans la colonne "conso_facture".
   

Prompt 3: Rapport d'Anomalies entre deux tables choisies par l'utilisateur (jointures des tables)

In [22]:
# ---- FONCTION POUR ANALYSER DES ANOMALIES DANS LES JOINTURES ----
def agent_detect_join_anomalies(table1, table2):
    """D√©tecte les incoh√©rences entre deux tables en utilisant Mistral AI."""
    
    # Construction de la requ√™te SQL pour joindre les tables et analyser les incoh√©rences
    sql_query = f"""
    SELECT 
        a.CLE_ABONNEMENT, 
        a.DATE_RESILIATION_ABONNEMENT,
        c.VOLUME_MOIS,
        f.CONSO_FACTURE,
        f.DATE_EMISSION_FACTURE
    FROM abonnements a
    LEFT JOIN consommations c ON a.CLE_ABONNEMENT = c.CLE_PDS
    LEFT JOIN factures f ON a.CLE_ABONNEMENT = f.CLE_ABONNEMENT
    WHERE 
        (a.DATE_RESILIATION_ABONNEMENT IS NOT NULL AND a.DATE_RESILIATION_ABONNEMENT < CURRENT_DATE)
        OR (c.VOLUME_MOIS > 0 AND a.DATE_RESILIATION_ABONNEMENT IS NOT NULL AND a.DATE_RESILIATION_ABONNEMENT < CURRENT_DATE)
        OR (f.CONSO_FACTURE > 0 AND a.DATE_RESILIATION_ABONNEMENT IS NOT NULL AND a.DATE_RESILIATION_ABONNEMENT < CURRENT_DATE)
    LIMIT 100;

    """
    
    print(f"üîÑ Ex√©cution de la requ√™te : {sql_query}")
    
    try:
        response = redshift_client.execute_statement(
            Database=DATABASE,
            WorkgroupName=WORKGROUP_NAME,
            Sql=sql_query
        )

        statement_id = response['Id']
        print(f"‚úÖ Requ√™te envoy√©e, ID: {statement_id}")

        # Timeout apr√®s 60s
        start_time = time.time()
        while True:
            status_response = redshift_client.describe_statement(Id=statement_id)
            status = status_response["Status"]
            if status in ["FINISHED", "FAILED", "ABORTED"]:
                print(f"üî¥ Statut final : {status}")
                break

            if time.time() - start_time > 60:
                print("‚è≥ Timeout d√©pass√© (60s). Annulation.")
                return "Timeout: La requ√™te a pris trop de temps."

            print("‚è≥ En attente des r√©sultats...")
            time.sleep(3)

        if status == "FINISHED":
            print("‚úÖ Requ√™te termin√©e, r√©cup√©ration des r√©sultats...")
            result_response = redshift_client.get_statement_result(Id=statement_id)
            records = [
                ", ".join([col.get('stringValue', 'NULL') for col in row])
                for row in result_response.get("Records", [])
            ]
            return records if records else "Aucune anomalie trouv√©e."
        else:
            print(f"‚ùå Erreur d'ex√©cution: {status}")
            return f"Erreur lors de l'ex√©cution: {status_response.get('Error', 'Erreur inconnue')}"

    except Exception as e:
        print(f"‚ùå Erreur de connexion ou d'ex√©cution : {str(e)}")
        return f"Erreur : {str(e)}"


# ---- FONCTION POUR DEMANDER √Ä L‚ÄôAGENT D‚ÄôANALYSER LES ANOMALIES ----
def agent_analyze_join_anomalies(table1, table2):
    """Envoie un prompt √† Mistral AI pour analyser les incoh√©rences entre deux tables."""
    anomalies = agent_detect_join_anomalies(table1, table2)
    
    if isinstance(anomalies, str):
        return anomalies  # Si erreur, on la renvoie direct 

    formatted_anomalies = "\n".join(anomalies)

    # Construction du prompt pour Mistral AI
    prompt = f"""
    Tu es un expert en qualit√© des donn√©es.
    {rep_prompt1}

    Voici les incoh√©rences trouv√©es entre les tables "{table1}" et "{table2}":
    {formatted_anomalies}
    
    Ton objectif :
    1. Identifier les types d'anomalies liant ces tables (exemple : consommations sans abonnement actif).
    2. Expliquer chaque anomalie de mani√®re simple, courte et pr√©cise.
    3. G√©n√©rer une requ√™te SQL permettant d'afficher ces anomalies.

    R√©ponds en suivant ce format :
    - **Type d'anomalie** : [Cat√©gorie de l'anomalie]
    - **Description** : [Br√®ve explication]
    - **Requ√™te SQL** : [Requ√™te pour afficher les donn√©es erron√©es]
    """

    return analyze_with_mistral(prompt)


# ---- FONCTION POUR INTERAGIR AVEC MISTRAL AI ----
def analyze_with_mistral(prompt):
    """Envoie un prompt structur√© √† Mistral AI via Amazon Bedrock."""
    request_body = {
        "prompt": prompt,
        "max_tokens": 3000,
        "temperature": 0.3,
        "top_p": 0.9
    }

    try:
        print("üîÑ Envoi du prompt √† Mistral AI...")
        response = bedrock.invoke_model(
            modelId=MODEL_ID,
            body=json.dumps(request_body)
        )
        print("‚úÖ R√©ponse re√ßue de Mistral.")

        response_body = json.loads(response["body"].read())
        return response_body.get("outputs", [{}])[0].get("text", "")

    except Exception as e:
        print(f"‚ùå Erreur d'interaction avec Mistral AI : {str(e)}")
        return f"Erreur : {str(e)}"


# ---- EX√âCUTION ----
if __name__ == "__main__":
    print("üîç D√©tection d'anomalies dans les jointures entre tables")
    table1 = input("Entrez le premier nom de table : ")
    table2 = input("Entrez le deuxi√®me nom de table : ")
    
    response = agent_analyze_join_anomalies(table1, table2)

    print("\nüîé **Rapport d'Anomalies dans les Jointures** üîé\n")
    print(response)

üîç D√©tection d'anomalies dans les jointures entre tables
üîÑ Ex√©cution de la requ√™te : 
    SELECT 
        a.CLE_ABONNEMENT, 
        a.DATE_RESILIATION_ABONNEMENT,
        c.VOLUME_MOIS,
        f.CONSO_FACTURE,
        f.DATE_EMISSION_FACTURE
    FROM abonnements a
    LEFT JOIN consommations c ON a.CLE_ABONNEMENT = c.CLE_PDS
    LEFT JOIN factures f ON a.CLE_ABONNEMENT = f.CLE_ABONNEMENT
    WHERE 
        (a.DATE_RESILIATION_ABONNEMENT IS NOT NULL AND a.DATE_RESILIATION_ABONNEMENT < CURRENT_DATE)
        OR (c.VOLUME_MOIS > 0 AND a.DATE_RESILIATION_ABONNEMENT IS NOT NULL AND a.DATE_RESILIATION_ABONNEMENT < CURRENT_DATE)
        OR (f.CONSO_FACTURE > 0 AND a.DATE_RESILIATION_ABONNEMENT IS NOT NULL AND a.DATE_RESILIATION_ABONNEMENT < CURRENT_DATE)
    LIMIT 100;

    
‚úÖ Requ√™te envoy√©e, ID: 751809c8-f4c0-4229-aaba-feae77c25af0
üî¥ Statut final : FINISHED
‚úÖ Requ√™te termin√©e, r√©cup√©ration des r√©sultats...
üîÑ Envoi du prompt √† Mistral AI...
‚úÖ R√©ponse re√ßue de M