In [None]:
import pandas as pd
import re

# Charger le dataset
dataset = pd.read_csv("pc_prediction8.csv")

# Renommer les colonnes
dataset.rename(columns={
    "Nom du PC": "nom_du_pc",
    "Processeur": "processeur",
    "Écran": "ecran",
    "Mémoire": "memoire",
    "Carte graphique": "carte_graphique"
}, inplace=True)

# Nettoyer la colonne "Mémoire"
def clean_memory(value):
    match = re.search(r"(\d+)\s?(Go|GB|go|gb)", str(value))
    return f"{match.group(1)} GB" if match else "Non spécifié"

dataset["memoire"] = dataset["memoire"].apply(clean_memory)

# Nettoyer la colonne "Écran"
def clean_screen(value):
    size_match = re.search(r"(\d{1,2}(\.\d{1})?)\s?\"", str(value))
    size = f"{size_match.group(1)} pouces" if size_match else "Taille inconnue"

    resolution_match = re.search(r"(\d{3,4}x\d{3,4})", str(value))
    resolution = resolution_match.group(1) if resolution_match else "Résolution inconnue"

    return f"{size}, {resolution}"

dataset["ecran"] = dataset["ecran"].apply(clean_screen)

# Nettoyer la colonne "Processeur"
def clean_processor(value):
    return value.split(",")[0].strip()

dataset["processeur"] = dataset["processeur"].apply(clean_processor)

# Remplacer les valeurs manquantes
dataset.fillna("Non spécifié", inplace=True)

# Listes des marques, cartes graphiques, processeurs et écrans
marques = ["DELL", "HP", "LENOVO", "ASUS", "GIGABYTE", "MSI", "Apple", 
           "Acer", "dynabook", "SCHNEIDER", "Huawei", "Crown", "White Label"]

cartes_graphiques = [
    "Graphique intégrée", "Nvidia GeForce", "Intel Arc", "AMD Radeon", 
    "Intel Iris X Graphics", "Intel UHD 600", "Iris Xe Graphics", "Intel HD Graphics","Intel UHD Graphics intégrée"
]

processeurs = [
    "Intel Core i3", "Intel Core i5", "Intel Core i7", "AMD Ryzen 5", "AMD Ryzen 7", 
    "Intel Core i9", "Intel Core Ultra 7 155H", "Intel Core Ultra 7 155U", 
    "AMD Ryzen 9", "AMD Athlon Silver", "AMD Dual Core", "AMD Ryzen 3", 
    "Apple M1", "Apple M2", "Apple M3 Pro", "Intel Atom", "Intel Celeron", 
    "Intel Core Ultra 5", "Intel Celeron Dual Core"
]

ecrans = [
    "Full HD", "WUXGA", "HD", "WQXGA", "Full HD +", "2.8K OLED", "3K", 
    "3K OLED", "QHD+", "WQXGA+", "2.8K QHD+", "QHD",
    '12"', '13,6"', '13.3"', '14.6"', '14" - 15.6"', '16"', '17.3"',"15.6",'14.1" Full HD'
]

# Fonction générique pour extraire une valeur à partir d'une liste
def extraire_valeur(value, liste):
    for item in liste:
        if item.lower() in str(value).lower():
            return item
    return "Inconnu"

# Nettoyer les colonnes spécifiques
dataset["nom_du_pc"] = dataset["nom_du_pc"].apply(lambda x: extraire_valeur(x, marques))
dataset["carte_graphique"] = dataset["carte_graphique"].apply(lambda x: extraire_valeur(x, cartes_graphiques))
dataset["processeur"] = dataset["processeur"].apply(lambda x: extraire_valeur(x, processeurs))
dataset["ecran"] = dataset["ecran"].apply(lambda x: extraire_valeur(x, ecrans))

# Sauvegarder le dataset nettoyé
dataset.to_csv("dataset_nettoye_complet.csv", index=False)

print("Dataset nettoyé et sauvegardé sous le nom 'dataset_nettoye_complet.csv'")
