In [17]:
import pandas as pd

# Chargement du fichier CSV
try:
    df = pd.read_csv('resultats_scraping_jumiaNG1.csv', encoding='utf-8-sig')
    print("Fichier chargé avec succès.")
except Exception as e:
    print(f"Erreur lors du chargement du fichier : {e}")
    exit()


# Nettoyage des données
# 1. Renommer les colonnes pour une meilleure lisibilité
df.columns = ['Site', 'Titre', 'Prix_dollard', 'Note', 'Avis', 'Stock', 'Promo']


# 2. Nettoyer la colonne "Prix_Naira" pour extraire les valeurs numériques
df['Prix_dollard'] = df['Prix_dollard'].str.replace('₦', '').str.replace(',', '').str.strip()

# Function to handle ranges 
def convert_price(price):
    if '-' in price:
        prices = price.split('-')
        prices = [float(p.strip()) for p in prices]
        return sum(prices) /2
    else:
        return price

# Apply the function to the column
df['Prix_dollard'] = (df['Prix_dollard'].apply(convert_price).astype(float)) * 0.00066

# 3. Convertir la colonne "Note" en float
df['Note'] = df['Note'].astype(float)

# 4. Extraire le nombre d'avis depuis la colonne "Avis"
df['Avis'] = df['Avis'].str.extract(r'\((\d+)\)').fillna(0).astype(int)

# 5. Normaliser la colonne "Stock" 
df['Stock'] = df['Stock']

# 6. Nettoyer la colonne "Rabais" pour extraire les pourcentages
df['Promo'] = (df['Promo'].str.replace('%', '').str.replace('Aucun rabais', '0').str.strip().astype(float))*0.01


df = df[['Site', 'Titre', 'Prix_dollard', 'Note', 'Avis', 'Promo', 'Stock']] 



# Affichage des premières lignes après nettoyage
print("\nAperçu des données après nettoyage :")
print(df.head())



Fichier chargé avec succès.

Aperçu des données après nettoyage :
    Site                                              Titre  Prix_dollard  \
0  jumia  TiLECC T800 Smart Watch Ultra 8 Door Access  S...       6.99534   
1  jumia  TiLECC T800 Smart Watch Ultra 8 Door Access  S...       7.25934   
2  jumia  Ultra Smartwatches 8 Men Ultra Women IP67 Wate...       8.92848   
3  jumia  Oraimo Smart Watch Magnetic Charger Cable & Or...       1.84734   
4  jumia  2023 Smart Watch Ultra Series 8 NFC Smartwatch...       9.07632   

   Note  Avis  Promo          Stock  
0   3.5  1671   0.40  Non renseigné  
1   3.6  1144   0.44  Non renseigné  
2   4.2     9   0.70  Non renseigné  
3   4.3   171   0.00  Non renseigné  
4   3.9    11   0.56  Non renseigné  


In [24]:
# Fonction pour classifier les produits
def classify_product(title):
    title_lower = str(title).lower()  # Convertir en minuscules pour uniformiser la recherche
    if 'smart watch' in title_lower or 'smartwatch' in title_lower:
        return 'Smartwatch'
    elif 'smartphone' in title_lower or 'android' in title_lower or 'redmi' in title_lower or 'sim' in title_lower or 'itel' in title_lower or 'zte' in title_lower:
        return 'Smartphone'
    elif 'airpods' in title_lower or 'pods' in title_lower or 'earphone' in title_lower or 'ear' in title_lower:
        return 'AirPods'
    elif 'laptop' in title_lower or 'book' in title_lower or 'pc' in title_lower or 'intel' in title_lower or 'dell' in title_lower or 'hp' in title_lower:
        return 'Laptop'
    else:
        return 'Autre'

# Ajout d'une nouvelle colonne "Type de Produit"
df['Produit'] = df['Titre'].apply(classify_product)

In [25]:
# Export des données traitées vers un nouveau fichier CSV
df.to_csv('Fin_jumiaNG1.csv', index=False, encoding='utf-8-sig')
print("\nDonnées traitées sauvegardées dans 'Fin_jumiaNG1.csv'")


Données traitées sauvegardées dans 'Fin_jumiaNG1.csv'
