In [None]:
!pip install selenium beautifulsoup4 pandas tqdm



In [None]:
!pip install transformers
!pip install sentencepiece



In [None]:
import time
import pandas as pd
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from tqdm import tqdm

# 🔌 Monter Google Drive
from google.colab import drive
drive.mount('/content/drive')

# 🔍 Mots-clés liés aux pannes
mots_cles = [
    "panne", "moteur", "embrayage", "électronique", "fuite", "problème",
    "injecteur", "défaut", "turbo", "batterie", "boîte", "frein",
    "vibration", "ralenti", "essuie-glace"
]

# 🔧 Fonction pour extraire proprement la marque et le modèle depuis l'URL
def extraire_nom_modele_et_marque(depuis_url):
    # /essai-kia/essai-692-test-complet-kia-ev6.php
    parts = depuis_url.split('/')
    marque_raw = parts[1].replace("essai-", "")  # 'kia'
    nom_fichier = parts[-1].replace('.php', '')  # 'essai-692-test-complet-kia-ev6'
    morceaux = nom_fichier.split('-')

    # Recherche de la marque dans les morceaux
    try:
        index_marque = morceaux.index(marque_raw)
        modele = " ".join(morceaux[index_marque + 1:]).upper()  # 'ev6'
    except ValueError:
        modele = " ".join(morceaux[2:]).upper()

    return marque_raw.capitalize(), modele

# ⚙️ Configuration Selenium (Chrome headless)
options = Options()
options.add_argument('--headless')
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')
driver = webdriver.Chrome(options=options)

base_url = "https://www.fiches-auto.fr"
essai_base = f"{base_url}/essai-auto/"
data = []
seen_entries = set()

# 1. Récupération de toutes les marques
driver.get(essai_base)
time.sleep(3)
soup = BeautifulSoup(driver.page_source, 'html.parser')
marque_links = soup.select('div#contenu a[href*="/essai-"]')
marques = {
    a['href'].split('/essai-')[-1].replace('/', '').strip(): base_url + a['href']
    for a in marque_links if "/essai-" in a['href']
}

print(f"\n📌 Nombre de marques trouvées : {len(marques)}")

# 2. Parcours de toutes les marques et tous les modèles
for nom_marque, marque_url in tqdm(marques.items(), desc="🔄 Marques"):

    driver.get(marque_url)
    time.sleep(1.5)
    soup = BeautifulSoup(driver.page_source, 'html.parser')
    essais = soup.select('a[href*="/essai-"][href$=".php"]')

    for essai in essais:
        essai_url = base_url + essai['href']
        marque, modele = extraire_nom_modele_et_marque(essai['href'])

        entry = (marque, modele, essai_url)
        if entry in seen_entries:
            continue
        seen_entries.add(entry)

        try:
            driver.get(essai_url)
            time.sleep(1.5)
            essai_soup = BeautifulSoup(driver.page_source, 'html.parser')
            defauts_titres = essai_soup.find_all('p', class_='titre_defauts')

            for titre in defauts_titres:
                next_node = titre.find_next_sibling()
                while next_node:
                    if next_node.name == 'p' and 'titre_' in next_node.get('class', [''])[0]:
                        break
                    if next_node.name in ['ul', 'ol', 'div', 'p', 'li']:
                        texte = next_node.get_text(strip=True)
                        if texte and len(texte) > 20:
                            if any(mot in texte.lower() for mot in mots_cles):
                                data.append({
                                    "marque": marque,
                                    "modele": modele,
                                    "url": essai_url,
                                    "commentaire": texte
                                })
                    next_node = next_node.find_next_sibling()

        except Exception as e:
            print(f"⚠️ Erreur avec {essai_url} : {e}")

# 3. Nettoyage des doublons et regroupement des commentaires
df = pd.DataFrame(data)
df.drop_duplicates(subset=["marque", "modele", "commentaire"], inplace=True)

# ✅ Regrouper les commentaires par marque + modèle
df_grouped = df.groupby(['marque', 'modele'])['commentaire'].apply(lambda x: '\n\n'.join(x)).reset_index()

# 💾 Sauvegarde unique des commentaires regroupés
csv_grouped = '/content/drive/MyDrive/commentaires_groupes_par_modele_COMPLET.csv'
df_grouped.to_csv(csv_grouped, index=False)
print(f"✅ Commentaires regroupés enregistrés ici : {csv_grouped}")

# 🚪 Fermer le navigateur
driver.quit()


Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).

📌 Nombre de marques trouvées : 99


🔄 Marques: 100%|██████████| 99/99 [1:01:12<00:00, 37.09s/it]


✅ Commentaires regroupés enregistrés ici : /content/drive/MyDrive/commentaires_groupes_par_modele_COMPLET.csv


In [None]:
import pandas as pd

# 🔁 Charger les commentaires regroupés
df = pd.read_csv('/content/drive/MyDrive/commentaires_groupes_par_modele_COMPLET.csv')

# Affichage test
df.head()


Unnamed: 0,marque,modele,commentaire
0,Alfa-romeo,TEST COMPLET ALFA ROMEO 147,Pare chocs moyennement protégés des rayuresHab...
1,Alfa-romeo,TEST COMPLET ALFA ROMEO 156,"Rayon de braquage.(1.9 JTD 150 ch 165000kms, c..."
2,Alfa-romeo,TEST COMPLET ALFA ROMEO 159,Habitabilité aux places arrières limitée pour ...
3,Alfa-romeo,TEST COMPLET ALFA ROMEO GIULIA,Infodivertissement obsolète avant la mise à jo...
4,Alfa-romeo,TEST COMPLET ALFA ROMEO GIULIETTA,. Il ne sont pas nombreux mais il serait injus...


In [None]:
print(f"Longueur du commentaire : {len(df['commentaire'][0])}")
print(df['commentaire'][0])


Longueur du commentaire : 11071
Pare chocs moyennement protégés des rayuresHabitabilité limitée (places arrières pour 2)Style vieillissant même si il plaît encoreBoîte Selespeed moyenne, temps de réponse un peu long et quelques à coups sont à noterQuelques soucis de fiabilité, n'oubliez pas de changer la courroie de distribution à 60 000 km au lieu de 120 000 km (fragilité connue sur les 1.6 qui peut mener à une casse moteur), le volant moteur fait aussi parler de lui sur les motorisations JTD ...Banquette arrière peu confortableMontants qui peuvent parfois gêner la visibilité sous certains angles

Le coffre est petit et fait petite citadine aujourd'hui.Tout vieillit mal sur cette alfa mais elle ne rouille pas. L'électronique est fidèle à sa réputation, en panne et cher à réparer.Les pièces de qualité quelconque sont très chères et le marché secondaire ne l'est pas moins.Alfa n'a jamais eu de réseau sérieux.(1.9 JTD 140 ch bvm, 380 000km, distinctive)Distribution tous les 60000km ou 4/

In [None]:
import pandas as pd
from transformers import pipeline
from tqdm import tqdm
import re
from collections import Counter

# 📦 Pipeline de résumé avec le modèle BART
summarizer = pipeline("summarization", model="facebook/bart-large-cnn")

# 💡 Fonction pour découper et résumer les commentaires longs
def resume_commentaire(texte, seuil=1000, max_input_tokens=1024):
    if not isinstance(texte, str) or texte.strip() == "":
        return ""  # Texte vide ou invalide

    if len(texte) < seuil:
        return texte  # Pas besoin de résumer si le texte est déjà court

    try:
        # Découper le texte en morceaux pour ne pas dépasser la limite de tokens
        morceaux = [texte[i:i+max_input_tokens] for i in range(0, len(texte), max_input_tokens)]
        résumés_partiels = []

        for morceau in morceaux:
            # Dynamiser la longueur max en fonction du texte
            max_len = min(len(morceau) // 2, 130)  # Utiliser la moitié du texte ou 130 caractères
            if max_len < 30:  # Si le texte est vraiment court
                max_len = 30  # Ne pas avoir de résumés plus courts que 30 caractères
            res = summarizer(morceau, max_length=max_len, min_length=30, do_sample=False)
            résumés_partiels.append(res[0]['summary_text'])

        # Regrouper les résumés partiels en un seul résumé
        return ' '.join(résumés_partiels)

    except Exception as e:
        print(f"⚠️ Erreur de résumé : {e}")
        return texte  # Retourne le texte brut en cas d'erreur

# Fonction pour extraire les pannes fréquentes à partir du résumé
def extraire_pannes(resume):
    # Liste de mots-clés de pannes possibles (exemples)
    pannes_possibles = [
        "moteur", "frein", "suspension", "embrayage", "démarrage", "direction", "crémaillère", "amortissement",
        "peinture", "batterie", "charge", "surchauffe", "mécanisme", "boîte de vitesses", "transmission",
        "pompe", "radiateur", "volant", "bruit", "vibration", "climatisation", "fuite", "surconsommation",
        "réservoir", "filtre", "turbine", "capteur", "culasse", "injecteur", "alternateur", "courroie", "biellette",
        "jante", "pneu", "freinage", "frenes", "système électrique", "tableau de bord", "écran", "airbag",
        "batterie hybride", "système hybride", "compresseur", "moteur thermique", "essuie-glace", "choc",
        "accélérateur", "détection", "voyant", "huile", "radiateur", "climatisation", "panne électrique",
        "système de navigation", "feux", "optique", "démarreur", "grincement", "conso", "réparation", "fusible",
        "plaquettes", "câble", "fuite d'huile", "moteur électrique", "levier de vitesses", "cable d'accélérateur",
        "sonde", "capteur", "pneu crevé", "alimentation", "arrêt moteur", "cloche de moteur", "soupape",
        "soupapes", "générateur", "bouchon de radiateur", "rupture", "transmission automatique", "transmission manuelle",
        "circuit de refroidissement", "système d'échappement", "silencieux", "volant moteur", "surconsommation d'essence",
        "batterie défectueuse", "panier", "cable d'alimentation", "moteur en surchauffe", "problème de démarrage"
    ]

    pannes_trouvees = []

    # Recherche des pannes possibles dans le résumé
    for panne in pannes_possibles:
        if re.search(r'\b' + re.escape(panne) + r'\b', resume.lower()):
            pannes_trouvees.append(panne)

    return pannes_trouvees

# 🔁 Charger les commentaires regroupés
df = pd.read_csv('/content/drive/MyDrive/commentaires_groupes_par_modele_COMPLET.csv')

# Affichage des premières lignes du dataframe pour vérification
print(df.head())  # Vérification du chargement des données

# Appliquer la fonction de résumé sur les commentaires et l'extraction des pannes
tqdm.pandas()
df['resume'] = df['commentaire'].progress_apply(resume_commentaire)
df['pannes'] = df['resume'].progress_apply(extraire_pannes)

# Compter les pannes les plus fréquentes par modèle
pannes_frequentes = Counter([panne for sublist in df['pannes'] for panne in sublist])

# Affichage des pannes les plus fréquentes
print("Pannes les plus fréquentes :")
for panne, count in pannes_frequentes.items():
    print(f"{panne}: {count}")

# Sauvegarde du fichier avec les résumés et les pannes
df.to_csv('/content/drive/MyDrive/commentaires_résumés_avec_pannes_COMPLET.csv', index=False)

print(f"✅ Résumés appliqués et pannes extraites, fichier sauvegardé sous : /content/drive/MyDrive/commentaires_résumés_avec_pannes_COMPLET.csv")


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/1.58k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.63G [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/363 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

Device set to use cuda:0


       marque                             modele  \
0  Alfa-romeo        TEST COMPLET ALFA ROMEO 147   
1  Alfa-romeo        TEST COMPLET ALFA ROMEO 156   
2  Alfa-romeo        TEST COMPLET ALFA ROMEO 159   
3  Alfa-romeo     TEST COMPLET ALFA ROMEO GIULIA   
4  Alfa-romeo  TEST COMPLET ALFA ROMEO GIULIETTA   

                                         commentaire  
0  Pare chocs moyennement protégés des rayuresHab...  
1  Rayon de braquage.(1.9 JTD 150 ch 165000kms, c...  
2  Habitabilité aux places arrières limitée pour ...  
3  Infodivertissement obsolète avant la mise à jo...  
4  . Il ne sont pas nombreux mais il serait injus...  


  0%|          | 0/476 [00:00<?, ?it/s]You seem to be using the pipelines sequentially on GPU. In order to maximize efficiency please use a dataset
  0%|          | 2/476 [00:11<46:11,  5.85s/it]Your max_length is set to 116, but your input_length is only 86. Since this is a summarization task, where outputs shorter than the input are typically wanted, you might consider decreasing max_length manually, e.g. summarizer('...', max_length=43)
  1%|          | 3/476 [00:13<33:52,  4.30s/it]Your max_length is set to 76, but your input_length is only 61. Since this is a summarization task, where outputs shorter than the input are typically wanted, you might consider decreasing max_length manually, e.g. summarizer('...', max_length=30)
  2%|▏         | 9/476 [00:42<38:21,  4.93s/it]Your max_length is set to 130, but your input_length is only 123. Since this is a summarization task, where outputs shorter than the input are typically wanted, you might consider decreasing max_length manually, e.

Pannes les plus fréquentes :
moteur: 301
suspension: 86
embrayage: 62
peinture: 67
pompe: 47
volant: 72
courroie: 19
tableau de bord: 45
huile: 56
direction: 62
bruit: 98
plaquettes: 14
crémaillère: 4
système hybride: 4
vibration: 14
frein: 28
démarrage: 34
radiateur: 12
injecteur: 10
jante: 34
accélérateur: 8
conso: 36
amortissement: 32
volant moteur: 10
mécanisme: 3
écran: 51
feux: 33
batterie: 54
réservoir: 63
freinage: 49
optique: 3
arrêt moteur: 3
climatisation: 34
pneu: 27
charge: 55
fuite: 19
capteur: 42
soupapes: 2
silencieux: 6
transmission: 9
filtre: 14
alternateur: 10
choc: 10
culasse: 8
voyant: 19
surconsommation: 5
réparation: 15
fusible: 3
boîte de vitesses: 11
système de navigation: 2
surchauffe: 5
sonde: 8
câble: 7
alimentation: 2
essuie-glace: 2
airbag: 4
détection: 4
grincement: 4
circuit de refroidissement: 1
compresseur: 5
moteur électrique: 4
moteur thermique: 4
fuite d'huile: 2
démarreur: 3
rupture: 2
levier de vitesses: 1
problème de démarrage: 1
✅ Résumés appliq

In [None]:
import pandas as pd
from tqdm import tqdm
import re
from collections import Counter

# 💡 Fonction pour découper un texte en phrases
def decouper_en_phrases(texte):
    if not isinstance(texte, str):
        return []
    phrases = re.split(r'[.!?]\s+', texte)
    return [phrase.strip() for phrase in phrases if phrase.strip() != ""]

# 🔍 Fonction pour extraire les pannes depuis le texte brut
def extraire_pannes_depuis_texte(texte):
    pannes_possibles = [
        "moteur", "frein", "suspension", "embrayage", "démarrage", "direction", "crémaillère", "amortissement",
        "peinture", "batterie", "surchauffe", "mécanisme", "boîte de vitesses", "transmission",
        "pompe", "radiateur", "volant", "bruit", "vibration", "climatisation", "fuite", "surconsommation",
        "réservoir", "filtre", "turbine", "capteur", "culasse", "injecteur", "alternateur", "courroie", "biellette",
        "jante", "pneu", "freinage", "système électrique", "tableau de bord", "écran", "airbag",
        "batterie hybride", "système hybride", "compresseur", "moteur thermique", "essuie-glace", "choc",
        "accélérateur", "détection", "voyant", "huile", "panne électrique", "système de navigation", "feux",
        "optique", "démarreur", "grincement", "conso", "réparation", "fusible", "plaquettes", "câble",
        "fuite d'huile", "moteur électrique", "levier de vitesses", "cable d'accélérateur", "sonde", "pneu crevé",
        "alimentation", "arrêt moteur", "cloche de moteur", "soupape", "générateur", "bouchon de radiateur",
        "rupture", "transmission automatique", "transmission manuelle", "circuit de refroidissement",
        "système d'échappement", "silencieux", "volant moteur", "surconsommation d'essence",
        "batterie défectueuse", "cable d'alimentation", "moteur en surchauffe", "problème de démarrage"
    ]

    phrases = decouper_en_phrases(texte)
    pannes_trouvees = []

    for phrase in phrases:
        phrase_lower = phrase.lower()
        for panne in pannes_possibles:
            if re.search(r'\b' + re.escape(panne) + r'\b', phrase_lower):
                pannes_trouvees.append(panne)

    return list(set(pannes_trouvees))

# 📥 Charger les commentaires
df = pd.read_csv('/content/drive/MyDrive/commentaires_groupes_par_modele_COMPLET.csv')
print(df.head())

# 🔁 Appliquer l'extraction de pannes
tqdm.pandas()
df['pannes'] = df['commentaire'].progress_apply(extraire_pannes_depuis_texte)

# 📊 Compter les pannes les plus fréquentes
pannes_frequentes = Counter([panne for sublist in df['pannes'] for panne in sublist])

# 📋 Affichage
print("🔧 Pannes les plus fréquentes :")
for panne, count in pannes_frequentes.most_common():
    print(f"{panne}: {count}")

# 💾 Sauvegarde
output_path = '/content/drive/MyDrive/commentaires_avec_pannes_sans_resume.csv'
df.to_csv(output_path, index=False)
print(f"✅ Extraction terminée. Fichier sauvegardé : {output_path}")


       marque                             modele  \
0  Alfa-romeo        TEST COMPLET ALFA ROMEO 147   
1  Alfa-romeo        TEST COMPLET ALFA ROMEO 156   
2  Alfa-romeo        TEST COMPLET ALFA ROMEO 159   
3  Alfa-romeo     TEST COMPLET ALFA ROMEO GIULIA   
4  Alfa-romeo  TEST COMPLET ALFA ROMEO GIULIETTA   

                                         commentaire  
0  Pare chocs moyennement protégés des rayuresHab...  
1  Rayon de braquage.(1.9 JTD 150 ch 165000kms, c...  
2  Habitabilité aux places arrières limitée pour ...  
3  Infodivertissement obsolète avant la mise à jo...  
4  . Il ne sont pas nombreux mais il serait injus...  


100%|██████████| 476/476 [00:21<00:00, 21.90it/s]


🔧 Pannes les plus fréquentes :
moteur: 436
bruit: 285
suspension: 240
volant: 230
peinture: 176
direction: 176
embrayage: 172
huile: 168
batterie: 156
freinage: 143
tableau de bord: 142
écran: 142
réservoir: 140
frein: 139
conso: 138
jante: 135
pompe: 132
démarrage: 127
feux: 118
amortissement: 91
fuite: 88
voyant: 86
pneu: 74
climatisation: 72
réparation: 66
capteur: 65
transmission: 61
filtre: 56
courroie: 56
volant moteur: 51
plaquettes: 47
injecteur: 44
choc: 44
sonde: 38
culasse: 37
accélérateur: 37
vibration: 34
câble: 31
alternateur: 30
radiateur: 30
compresseur: 29
boîte de vitesses: 26
surconsommation: 26
airbag: 23
silencieux: 23
grincement: 20
essuie-glace: 18
surchauffe: 17
moteur électrique: 15
moteur thermique: 15
démarreur: 13
mécanisme: 12
détection: 11
crémaillère: 10
fuite d'huile: 9
optique: 8
fusible: 7
alimentation: 6
rupture: 6
système de navigation: 6
système hybride: 5
arrêt moteur: 5
système électrique: 5
soupape: 5
circuit de refroidissement: 5
problème de dém

In [None]:
import pandas as pd
from tqdm import tqdm
import re
from collections import Counter
from transformers import pipeline

# 💡 Fonction pour découper un texte en phrases
def decouper_en_phrases(texte):
    if not isinstance(texte, str):
        return []
    phrases = re.split(r'[.!?]\s+', texte)
    return [phrase.strip() for phrase in phrases if phrase.strip() != ""]

# 🔍 Fonction pour extraire les pannes depuis le texte brut
def extraire_pannes_depuis_texte(texte):
    pannes_possibles = [
        "moteur", "frein", "suspension", "embrayage", "démarrage", "direction", "crémaillère", "amortissement",
        "peinture", "batterie", "surchauffe", "mécanisme", "boîte de vitesses", "transmission",
        "pompe", "radiateur", "volant", "bruit", "vibration", "climatisation", "fuite", "surconsommation",
        "réservoir", "filtre", "turbine", "capteur", "culasse", "injecteur", "alternateur", "courroie", "biellette",
        "jante", "pneu", "freinage", "système électrique", "tableau de bord", "écran", "airbag",
        "batterie hybride", "système hybride", "compresseur", "moteur thermique", "essuie-glace", "choc",
        "accélérateur", "détection", "voyant", "huile", "panne électrique", "système de navigation", "feux",
        "optique", "démarreur", "grincement", "conso", "réparation", "fusible", "plaquettes", "câble",
        "fuite d'huile", "moteur électrique", "levier de vitesses", "cable d'accélérateur", "sonde", "pneu crevé",
        "alimentation", "arrêt moteur", "cloche de moteur", "soupape", "générateur", "bouchon de radiateur",
        "rupture", "transmission automatique", "transmission manuelle", "circuit de refroidissement",
        "système d'échappement", "silencieux", "volant moteur", "surconsommation d'essence",
        "batterie défectueuse", "cable d'alimentation", "moteur en surchauffe", "problème de démarrage"
    ]

    phrases = decouper_en_phrases(texte)
    pannes_trouvees = []

    for phrase in phrases:
        phrase_lower = phrase.lower()
        for panne in pannes_possibles:
            if re.search(r'\b' + re.escape(panne) + r'\b', phrase_lower):
                pannes_trouvees.append(panne)

    return list(set(pannes_trouvees))

# 📥 Charger les commentaires
df = pd.read_csv('/content/drive/MyDrive/commentaires_groupes_par_modele_COMPLET.csv')
print(df.head())

# 🔁 Appliquer l'extraction de pannes
tqdm.pandas()

# 🔧 Initialiser le pipeline de classification des pannes
classifier = pipeline("zero-shot-classification", model="facebook/bart-large-mnli")

# 🔧 Liste des catégories de pannes à classifier
categories_pannes = [
    "moteur", "frein", "suspension", "embrayage", "démarrage", "direction", "batterie",
    "radiateur", "pompe", "vibration", "huile", "climatisation", "transmission"
]

# 🔁 Fonction de classification des pannes via pipeline Hugging Face
def classifier_commentaire(texte):
    result = classifier(texte, candidate_labels=categories_pannes)
    return result['labels'][0]  # Retourne la panne la plus probable

# 🔁 Appliquer l'extraction de pannes et la classification
def extraire_et_classifier_pannes(texte):
    pannes_mots_cles = extraire_pannes_depuis_texte(texte)
    panne_classifiee = classifier_commentaire(texte)
    pannes_mots_cles.append(panne_classifiee)
    return list(set(pannes_mots_cles))

# Application de la fonction
df['pannes_combinees'] = df['commentaire'].progress_apply(extraire_et_classifier_pannes)

# 📊 Compter les pannes les plus fréquentes
pannes_frequentes = Counter([panne for sublist in df['pannes_combinees'] for panne in sublist])

# 📋 Affichage des pannes les plus fréquentes
print("🔧 Pannes les plus fréquentes :")
for panne, count in pannes_frequentes.most_common():
    print(f"{panne}: {count}")

# 💾 Sauvegarde des résultats dans un fichier CSV
output_path = '/content/drive/MyDrive/commentaires_avec_pannes_combinees.csv'
df.to_csv(output_path, index=False)
print(f"✅ Extraction terminée. Fichier sauvegardé : {output_path}")


       marque                             modele  \
0  Alfa-romeo        TEST COMPLET ALFA ROMEO 147   
1  Alfa-romeo        TEST COMPLET ALFA ROMEO 156   
2  Alfa-romeo        TEST COMPLET ALFA ROMEO 159   
3  Alfa-romeo     TEST COMPLET ALFA ROMEO GIULIA   
4  Alfa-romeo  TEST COMPLET ALFA ROMEO GIULIETTA   

                                         commentaire  
0  Pare chocs moyennement protégés des rayuresHab...  
1  Rayon de braquage.(1.9 JTD 150 ch 165000kms, c...  
2  Habitabilité aux places arrières limitée pour ...  
3  Infodivertissement obsolète avant la mise à jo...  
4  . Il ne sont pas nombreux mais il serait injus...  


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/1.15k [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


model.safetensors:   0%|          | 0.00/1.63G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

Device set to use cuda:0
  2%|▏         | 11/476 [00:31<24:01,  3.10s/it]You seem to be using the pipelines sequentially on GPU. In order to maximize efficiency please use a dataset
100%|██████████| 476/476 [25:41<00:00,  3.24s/it]

🔧 Pannes les plus fréquentes :
moteur: 437
bruit: 285
embrayage: 248
suspension: 241
climatisation: 236
volant: 230
direction: 183
peinture: 176
huile: 168
batterie: 159
démarrage: 145
freinage: 143
tableau de bord: 142
écran: 142
frein: 140
réservoir: 140
conso: 138
jante: 135
pompe: 133
feux: 118
vibration: 98
amortissement: 91
fuite: 88
voyant: 86
pneu: 74
réparation: 66
capteur: 65
transmission: 62
courroie: 56
filtre: 56
volant moteur: 51
plaquettes: 47
injecteur: 44
choc: 44
sonde: 38
culasse: 37
radiateur: 37
accélérateur: 37
câble: 31
alternateur: 30
compresseur: 29
boîte de vitesses: 26
surconsommation: 26
silencieux: 23
airbag: 23
grincement: 20
essuie-glace: 18
surchauffe: 17
moteur électrique: 15
moteur thermique: 15
démarreur: 13
mécanisme: 12
détection: 11
crémaillère: 10
fuite d'huile: 9
optique: 8
fusible: 7
alimentation: 6
rupture: 6
système de navigation: 6
système hybride: 5
arrêt moteur: 5
système électrique: 5
soupape: 5
circuit de refroidissement: 5
problème de dé




In [None]:
!pip install streamlit pyngrok

Collecting streamlit
  Downloading streamlit-1.44.1-py3-none-any.whl.metadata (8.9 kB)
Collecting pyngrok
  Downloading pyngrok-7.2.4-py3-none-any.whl.metadata (8.7 kB)
Collecting watchdog<7,>=2.1.5 (from streamlit)
  Downloading watchdog-6.0.0-py3-none-manylinux2014_x86_64.whl.metadata (44 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m44.3/44.3 kB[0m [31m4.4 MB/s[0m eta [36m0:00:00[0m
Collecting pydeck<1,>=0.8.0b4 (from streamlit)
  Downloading pydeck-0.9.1-py2.py3-none-any.whl.metadata (4.1 kB)
Downloading streamlit-1.44.1-py3-none-any.whl (9.8 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m9.8/9.8 MB[0m [31m86.6 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading pyngrok-7.2.4-py3-none-any.whl (23 kB)
Downloading pydeck-0.9.1-py2.py3-none-any.whl (6.9 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m6.9/6.9 MB[0m [31m115.6 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading watchdog-6.0.0-py3-none-manylinux2014_x86_64.whl (7

In [None]:
!pip install transformers accelerate

Collecting nvidia-cuda-nvrtc-cu12==12.4.127 (from torch>=2.0.0->accelerate)
  Downloading nvidia_cuda_nvrtc_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.4.127 (from torch>=2.0.0->accelerate)
  Downloading nvidia_cuda_runtime_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-cupti-cu12==12.4.127 (from torch>=2.0.0->accelerate)
  Downloading nvidia_cuda_cupti_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cudnn-cu12==9.1.0.70 (from torch>=2.0.0->accelerate)
  Downloading nvidia_cudnn_cu12-9.1.0.70-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cublas-cu12==12.4.5.8 (from torch>=2.0.0->accelerate)
  Downloading nvidia_cublas_cu12-12.4.5.8-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cufft-cu12==11.2.1.3 (from torch>=2.0.0->accelerate)
  Downloading nvidia_cufft_cu12-11.2.1.3-py3-none-manylinux2014_x86_64.wh

In [None]:
!pip install python-dotenv

Collecting python-dotenv
  Downloading python_dotenv-1.1.0-py3-none-any.whl.metadata (24 kB)
Downloading python_dotenv-1.1.0-py3-none-any.whl (20 kB)
Installing collected packages: python-dotenv
Successfully installed python-dotenv-1.1.0


In [None]:
!pip install streamlit pandas transformers accelerate



In [None]:
!pip install streamlit pyngrok

Collecting pyngrok
  Downloading pyngrok-7.2.4-py3-none-any.whl.metadata (8.7 kB)
Downloading pyngrok-7.2.4-py3-none-any.whl (23 kB)
Installing collected packages: pyngrok
Successfully installed pyngrok-7.2.4


In [None]:
!pip install torch



In [None]:
import torch
torch.cuda.empty_cache()

In [None]:
!pip install -U langchain-community

Collecting langchain-community
  Downloading langchain_community-0.3.22-py3-none-any.whl.metadata (2.4 kB)
Collecting langchain-core<1.0.0,>=0.3.55 (from langchain-community)
  Downloading langchain_core-0.3.55-py3-none-any.whl.metadata (5.9 kB)
Collecting langchain<1.0.0,>=0.3.24 (from langchain-community)
  Downloading langchain-0.3.24-py3-none-any.whl.metadata (7.8 kB)
Collecting dataclasses-json<0.7,>=0.5.7 (from langchain-community)
  Downloading dataclasses_json-0.6.7-py3-none-any.whl.metadata (25 kB)
Collecting pydantic-settings<3.0.0,>=2.4.0 (from langchain-community)
  Downloading pydantic_settings-2.9.1-py3-none-any.whl.metadata (3.8 kB)
Collecting httpx-sse<1.0.0,>=0.4.0 (from langchain-community)
  Downloading httpx_sse-0.4.0-py3-none-any.whl.metadata (9.0 kB)
Collecting marshmallow<4.0.0,>=3.18.0 (from dataclasses-json<0.7,>=0.5.7->langchain-community)
  Downloading marshmallow-3.26.1-py3-none-any.whl.metadata (7.3 kB)
Collecting typing-inspect<1,>=0.4.0 (from dataclasses-

In [None]:
!pip install faiss-cpu

Collecting faiss-cpu
  Downloading faiss_cpu-1.10.0-cp311-cp311-manylinux_2_28_x86_64.whl.metadata (4.4 kB)
Downloading faiss_cpu-1.10.0-cp311-cp311-manylinux_2_28_x86_64.whl (30.7 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m30.7/30.7 MB[0m [31m76.6 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: faiss-cpu
Successfully installed faiss-cpu-1.10.0


In [None]:
import torch
torch.cuda.empty_cache()

In [None]:
!pkill streamlit

In [None]:
from pyngrok import ngrok
ngrok.kill()

In [None]:
from dotenv import load_dotenv
import os

api_key = input("Entrez votre clé HF_TOKEN Google : ")

# Ouvrir le fichier .env en mode ajout et enregistrer la clé API
with open(".env", "a") as f:
    f.write(f"HF_TOKEN={api_key}\n")

print("✅ Clé API ajoutée avec succès au fichier .env !")
#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
#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
#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
#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
#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
#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
#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
#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
#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
#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
#testfinal
#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

Entrez votre clé HF_TOKEN Google : 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
✅ Clé API ajoutée avec succès au fichier .env !


In [None]:
from dotenv import load_dotenv
import os

# Étape 1 : Ajouter la clé au fichier .env
api_key = input("Entrez votre clé HF_TOKEN : ")

# On remplace la clé s’il y en a déjà une
with open(".env", "r") as f:
    lines = f.readlines()

with open(".env", "w") as f:
    found = False
    for line in lines:
        if line.startswith("HF_TOKEN="):
            f.write(f"HF_TOKEN={api_key}\n")
            found = True
        else:
            f.write(line)
    if not found:
        f.write(f"HF_TOKEN={api_key}\n")

print("✅ Clé API enregistrée ou mise à jour dans le fichier .env !")

# Étape 2 : Charger la variable d’environnement et vérifier
load_dotenv()
print("🔐 HF_TOKEN =", os.getenv("HF_TOKEN"))


Entrez votre clé HF_TOKEN : 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
✅ Clé API enregistrée ou mise à jour dans le fichier .env !
🔐 HF_TOKEN = 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


In [None]:
from dotenv import load_dotenv
import os

# Force l'écrasement des anciennes valeurs
load_dotenv(override=True)

print("🔐 HF_TOKEN =", os.getenv("HF_TOKEN"))


🔐 HF_TOKEN = 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


In [None]:
%%writefile app.py
import streamlit as st
import pandas as pd
from transformers import pipeline
from dotenv import load_dotenv
import os
from huggingface_hub import login

# Charger les variables d'environnement
load_dotenv(override=True)
hf_token = os.getenv("HF_TOKEN")

if not hf_token:
    st.error("⚠️ La clé API Hugging Face est manquante.")
    st.stop()

# Connexion Hugging Face
login(hf_token)

# Configuration de la page
st.set_page_config(page_title="Diagnostic Auto", layout="wide")

# Chargement des données
@st.cache_data
def load_data():
    return pd.read_csv('/content/drive/MyDrive/commentaires_avec_pannes_combinees.csv')

df = load_data()

st.title("🔧 Plateforme Diagnostic Automobile")

col1, col2 = st.columns([1, 2])

# Choix du profil
with col1:
    st.header("Choisissez votre profil")
    profil = st.radio("Vous êtes :", ["🚗 Client", "🔧 Pro de la casse"])

# Choix véhicule
with col2:
    st.header("Informations véhicule")
    marques = df["marque"].dropna().unique()
    marque_selection = st.selectbox("Sélectionnez la marque", marques)

    modeles = df[df["marque"] == marque_selection]["modele"].dropna().unique()
    modele_selection = st.selectbox("Sélectionnez le modèle", modeles)

    pannes = df[(df["marque"] == marque_selection) & (df["modele"] == modele_selection)]["pannes_combinees"].values

    if profil == "🚗 Client":
        st.subheader("🔍 Pannes fréquentes à connaître")
        if pannes:
            liste_pannes = [p.strip() for p in pannes[0].strip("[]").replace("'", "").split(",")]
            pannes_str = " | ".join(liste_pannes)
            st.markdown(f"<div style='background-color:#f0f2f6;padding:10px;border-radius:10px;font-size:18px;'>"
                        f"{pannes_str}</div>", unsafe_allow_html=True)
        else:
            st.warning("Aucune information sur les pannes pour ce modèle.")

    elif profil == "🔧 Pro de la casse":
        st.subheader("♻️ Idées de pièces à recycler")
        if pannes:
            pieces = [p.strip() for p in pannes[0].strip("[]").replace("'", "").split(",")]
            st.markdown("Proposez à la vente les pièces liées aux problèmes suivants :")
            st.markdown("<ul style='list-style-type:none;'>", unsafe_allow_html=True)
            for piece in pieces:
                st.markdown(f"<li style='font-size:16px;'>✅ {piece}</li>", unsafe_allow_html=True)
            st.markdown("</ul>", unsafe_allow_html=True)
        else:
            st.warning("Aucune panne détectée pour ce modèle.")# 🔮 SECTION CHATBOT INTELLIGENT

st.divider()
st.header("💬 Posez une question à notre assistant intelligent !")

@st.cache_resource
def load_chatbot():
    return pipeline(
        "text-generation",
        model="HuggingFaceH4/zephyr-7b-beta",
        tokenizer="HuggingFaceH4/zephyr-7b-beta",
        device=0,
        torch_dtype="auto"
    )

chatbot = load_chatbot()

if "chat_history" not in st.session_state:
    st.session_state.chat_history = []

user_input = st.text_input("Votre question :")

if user_input:
    if profil == "🚗 Client":
        system_prompt = (
            "Tu es un expert automobile spécialisé dans l'achat de voitures d'occasion. "
            "Aide le client à identifier les risques liés aux pannes fréquentes et donne des conseils d'inspection."
        )
    else:  # profil == "🔧 Pro de la casse"
        system_prompt = (
            "Tu es un expert en recyclage automobile. "
            "Aide le professionnel de la casse à identifier les pièces les plus demandées et récupérables en fonction des pannes fréquentes."
        )

    # Récupération et formatage des pannes
    if pannes:
        pannes_liste = [p.strip() for p in pannes[0].strip("[]").replace("'", "").split(",")]
        toutes_les_pannes = "; ".join(pannes_liste)
    else:
        toutes_les_pannes = "aucune panne connue"

    prompt = (
        f"<|system|>{system_prompt} Le véhicule concerné est une {marque_selection} {modele_selection}. "
        f"Les pannes fréquentes sont : {toutes_les_pannes}.\n"
        f"<|user|>{user_input}\n"
        f"<|assistant|>"
    )

    with st.spinner("Réflexion de l'assistant... 🤖"):
        response = chatbot(prompt, max_new_tokens=500, do_sample=True, temperature=0.7)[0]["generated_text"]
        reponse_utilisateur = response.split("<|assistant|>")[-1].strip()

    st.session_state.chat_history.append((user_input, reponse_utilisateur))

# Affichage de l'historique
st.subheader("📜 Historique du Chat")
for question, answer in reversed(st.session_state.chat_history):
    st.markdown(f"**Vous :** {question}")
    st.markdown(f"**Assistant :** {answer}")
    st.markdown("---")

# Réinitialisation du chat
if st.button("🔄 Réinitialiser le chat"):
    st.session_state.chat_history = []
    st.success("Chat réinitialisé avec succès.")


Overwriting app.py


In [None]:
from huggingface_hub import HfApi
api = HfApi()
print(api.whoami())

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


{'type': 'user', 'id': '67d443d5d1aa68b4b9b79d93', 'name': 'majdaImane', 'fullname': 'majdadi imane', 'isPro': False, 'avatarUrl': '/avatars/cc82a7aac0fbc26c1359f92221f6d5ea.svg', 'orgs': [], 'auth': {'type': 'access_token', 'accessToken': {'displayName': 'HF_TOKEN', 'role': 'fineGrained', 'createdAt': '2025-04-23T15:47:14.410Z', 'fineGrained': {'canReadGatedRepos': True, 'global': [], 'scoped': [{'entity': {'_id': '67d443d5d1aa68b4b9b79d93', 'type': 'user', 'name': 'majdaImane'}, 'permissions': ['repo.content.read', 'inference.serverless.write']}]}}}}


In [None]:
import os
print(os.getenv("HF_TOKEN"))  # Affiche la clé pour vérifier qu'elle est bien récupérée

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


In [None]:
import os
os.environ["NGROK_AUTHTOKEN"] = "2vAfYKCiT2iwJEGT8Zm18GkzlDS_5YtBje7GiDabSi2Tpx4Y7"


In [None]:
import threading
import os
from pyngrok import ngrok

# Fermer les anciens tunnels
ngrok.kill()

# Tunnel public
public_url = ngrok.connect(8501)
print(f"🌍 URL publique : {public_url}")

# Lancer Streamlit
def run_app():
    os.system('streamlit run app.py')

thread = threading.Thread(target=run_app)
thread.start()


🌍 URL publique : NgrokTunnel: "https://7266-34-87-7-10.ngrok-free.app" -> "http://localhost:8501"


In [None]:
import pandas as pd
# 🔁 Charger les commentaires regroupés
df = pd.read_csv('/content/drive/MyDrive/commentaires_résumés_avec_pannes_COMPLET.csv')

# Affichage test
df.head()

Unnamed: 0,marque,modele,commentaire,resume,pannes
0,Alfa-romeo,TEST COMPLET ALFA ROMEO 147,Pare chocs moyennement protégés des rayuresHab...,Alfa n'a jamais eu de réseau sérieux. Distribu...,"['moteur', 'suspension', 'embrayage', 'peintur..."
1,Alfa-romeo,TEST COMPLET ALFA ROMEO 156,"Rayon de braquage.(1.9 JTD 150 ch 165000kms, c...",On s'habitue !!!(1.9 JTD 115 ch année 2002 boi...,[]
2,Alfa-romeo,TEST COMPLET ALFA ROMEO 159,Habitabilité aux places arrières limitée pour ...,Moteurs JTD un peu creux dans les bas régimes....,"['moteur', 'direction']"
3,Alfa-romeo,TEST COMPLET ALFA ROMEO GIULIA,Infodivertissement obsolète avant la mise à jo...,Alfa veut vendre des Stelvio. Infodivertissem...,"['moteur', 'peinture', 'bruit', 'huile', 'plaq..."
4,Alfa-romeo,TEST COMPLET ALFA ROMEO GIULIETTA,. Il ne sont pas nombreux mais il serait injus...,Le plastique est globalement de mauvaise quali...,"['moteur', 'peinture']"
