In [None]:
################################################ main #####################################################
"""
The project is divided into two parts:

First Part: Extract all car models (ListeBrandDic) for each brand and each year from a target website. During this phase, 
            the variable is_for_extract_models is set to True.

Second Part: Launch multiple threads to work in parallel on the models extracted in the first part (ListeBrandDic). 
             In this phase, threads process the models in SharedListBrandDic. Each thread takes a model from SharedListBrandDic 
             and extracts information about car parts from the target website. The variable is_for_extract_models is set to False 
             to indicate that this part of the script is in progress.

At the beginning, I initialize the variable is_for_extract_models to True to start the first part. After completing the first part, 
I change the value of is_for_extract_models to False and run the script to begin the second part.
"""
###########################################################################################################

import threading
import time
import os
from SharedListBrandDic import SharedListBrandDic
from WorkerThread import WorkerThread
from ProxyLoader import ProxyLoader
from ListeBrandDic import ListeBrandDic

file_path = r"./proxies/Webshare 100 proxies.txt"
proxy_loader = ProxyLoader(file_path)

# First Part
is_for_extract_models = False

if is_for_extract_models: # First Part
    
    list_of_targeted_brands = ['ACURA','AUDI','CADILLAC','CHANGAN','CHEVROLET','CHIREY','CHRYSLER','DODGE','FIAT','FORD','GENESIS',
                                'GMC','HONDA','HYUNDAI','INFINITI','ISUZU','JAC']
    
    list_of_targeted_brands = ["BMW","JAGUAR","JEEP","KIA","LAND ROVER","LEXUS","MAZDA","MERCEDES-BENZ",
                               "MG","MINI","MITSUBISHI","NISSAN","OPEL","RENAULT","SUZUKI","TOYOTA","VOLKSWAGEN",
                               "VOLVO","MERCURY"
                                ]
    threads = []
    for i, brand in enumerate(list_of_targeted_brands):
        thread = WorkerThread(i+1, start_brand=brand, end_brand=brand, is_for_extract_models=is_for_extract_models,proxyLoader=proxy_loader)
        thread.start()
        threads.append(thread)
        time.sleep(2)
        
    for thread in threads:
        thread.join()
    listeBrandDic = ListeBrandDic()
    listeBrandDic.merge_json_files()
    
else: # Second Part
    # Créer une liste partagée, une file de résultats et un verrou CSV
    shared_list = SharedListBrandDic()
    # Créer et démarrer les threads
    num_threads = 20
    
    start = 0
    end = min(shared_list.nb_BrandDic,shared_list.nb_BrandDic)
    step = shared_list.nb_BrandDic
    
    for i in range(start, end, step):
        
        shared_list.select_data(i,i+step)
        
        threads = []
        for j in range(num_threads):
            thread = WorkerThread(j+1, shared_list=shared_list, proxyLoader=proxy_loader)
            thread.start()
            threads.append(thread)
            time.sleep(1)
            
        # Attendre que tous les threads se terminent
        for thread in threads:
            thread.join()
        
        print(f"%"*100)
        print("Brand_Dic finished : ",i+step)
        print(f"%"*100)

****************************************************************************************************
start brand_dic_item = {'start_brand': 'BMW', 'start_year': '2024', 'start_model': '118I', 'end_brand': 'BMW', 'end_year': '2024', 'end_model': '118I'} ||| by_thread_id = 1 ||| with_proxy = {'PROXY_HOST': '161.123.152.67', 'PROXY_PORT': '6312', 'PROXY_USER': 'yedzvwaz', 'PROXY_PASS': '5es5islnfwxo'}
****************************************************************************************************
****************************************************************************************************
start brand_dic_item = {'start_brand': 'BMW', 'start_year': '2024', 'start_model': '128TI', 'end_brand': 'BMW', 'end_year': '2024', 'end_model': '128TI'} ||| by_thread_id = 2 ||| with_proxy = {'PROXY_HOST': '154.73.250.157', 'PROXY_PORT': '6058', 'PROXY_USER': 'yedzvwaz', 'PROXY_PASS': '5es5islnfwxo'}
*********************************************************************************************

## work with models in exceptions.csv file

In [8]:
import pandas as pd
import boto3
import json

# Charger le fichier CSV
df = pd.read_csv('results_1/exceptions.csv')

# Extraire la colonne 'brand_dic' et convertir les chaînes en dictionnaires
df['brand_dic'] = df['brand_dic'].apply(eval)  # Utilise eval pour convertir les strings en dict

# Trier les dictionnaires par 'start_brand'
sorted_list = sorted(df['brand_dic'].tolist(), key=lambda x: x['start_brand'])

# Enregistrer la liste triée en fichier JSON local
json_file_path = 'liste_brand_dic_1.json'
with open(json_file_path, 'w') as json_file:
    json.dump(sorted_list, json_file, indent=4)

# Télécharger le fichier JSON dans AWS S3
s3 = boto3.client('s3')
bucket_name = 'test-s3-650251706104'
s3_file_path = 'results/ListBrandDic/liste_brand_dic_1.json'

s3.upload_file(json_file_path, bucket_name, s3_file_path)

print(f"Fichier JSON téléchargé avec succès dans {bucket_name}/{s3_file_path}")


Fichier JSON téléchargé avec succès dans test-s3-650251706104/results/ListBrandDic/liste_brand_dic_1.json


## work with models in check_parts.csv file

## Extract agencies locations

In [2]:
import pandas as pd

# Lire le fichier Excel sans en-tête
df = pd.read_excel('agencies locations.xlsx', header=None)

# Renommer les colonnes
df.columns = ['brand_name', 'address', 'location']
# Enregistrer le DataFrame dans un fichier CSV
df.to_csv('agencies_locations.csv', index=False)
df

Unnamed: 0,brand_name,address,location
0,ACURA,"Acura Almulla, Car Dealer Rd, Kuwait",https://maps.app.goo.gl/J3oPuFs33svZGpK89
1,AUDI,"Shuwaikh Industrial, Kuwait",https://maps.app.goo.gl/N2tDDcLCBw2xHk2Q9
2,BMW,"Airport Rd, Al Shuwaikh 21540, Kuwait",https://maps.app.goo.gl/a4zTsfhJ9c3wUL337
3,CADILLAC,"Alghanim Showroom, 11 St, Shuwaikh Industrial,...",https://maps.app.goo.gl/kxHFEddNPWyQsTtGA
4,CHANGAN,"Changan Showroom Al Rai, Mohammed Bin Al Qasim...",https://maps.app.goo.gl/MznfGxTJiJkdNNEx6
5,CHEVROLET,"Chevrolet Alghanim - Service Shuwaikh, 7 Stree...",https://maps.app.goo.gl/h9CBiAxPYf3GbAAs5
6,CHIREY,Chery Alghanim Service Center - مركز خدمة شيري...,https://maps.app.goo.gl/SbgCyiYFuA1bjdMNA
7,CHRYSLER,"Chrysler كرايزلر الصيانة - الشويخ, ٥٢،, الشويخ...",https://maps.app.goo.gl/Bj3ameF57Y73aAP8A
8,DODGE,,
9,FIAT,,


## Extract: trader_id and brand_img

In [7]:
import json
import csv
import pandas

# Chemin du fichier traders_id.txt
input_file = 'traders_id.txt'
output_file = 'traders_info.csv'

# Fonction pour extraire le chemin des deux premiers dossiers dans brand_img
def extract_brand_img_path(brand_img):
    return '/'.join(brand_img.split('/')[:3])

# Lire et traiter le fichier JSON
with open(input_file, 'r', encoding='utf-8') as file:
    data = json.load(file)

# Extraire les informations nécessaires
traders_info = []
for trader in data['traders']:
    brand_name = trader['brand_name'].upper() if trader['brand_name'] else 'N/A'
    trader_id = trader['trader_id']
    brand_img = extract_brand_img_path(trader['brand_img']) if trader['brand_img'] else 'N/A'
    
    traders_info.append([brand_name, trader_id, brand_img])

# Écrire dans un fichier CSV
with open(output_file, 'w', newline='', encoding='utf-8') as csvfile:
    writer = csv.writer(csvfile)
    writer.writerow(['brand_name', 'trader_id', 'brand_img'])
    writer.writerows(traders_info)

print(f'Les informations ont été enregistrées dans {output_file}')
df = pandas.read_csv("traders_info.csv")
df

Les informations ont été enregistrées dans traders_info.csv


Unnamed: 0,brand_name,trader_id,brand_img
0,TOYOTA,11,/uploads/+201012244851
1,SCS,12,/uploads/+96555605725
2,SCS,13,/uploads/+96555605722
3,ADEL,14,/uploads/+96576895026
4,,15,
5,ACURA,16,/uploads/+96511111111
6,AUDI,17,/uploads/+96511111112
7,JAGUAR,19,/uploads/+96511111114
8,GENESIS,20,/uploads/+96511111115
9,CADILLAC,21,/uploads/+96511111118


## Test Proxy

In [15]:
import requests

# Détails du proxy (avec ou sans authentification)
proxy = f"http://yedzvwaz:5es5islnfwxo@161.123.152.67:6312"

proxy = {
    "http": proxy,
    "https": proxy
}

# URL de test (par exemple, un service qui retourne ton IP)
url = "http://httpbin.org/ip"

try:
    response = requests.get(url, proxies=proxy, timeout=5)
    print("Statut:", response.status_code)
    print("IP retournée par le proxy:", response.json())
except requests.exceptions.RequestException as e:
    print(f"Le proxy a échoué: {e}")


Statut: 200
IP retournée par le proxy: {'origin': '161.123.152.67'}


# Data Processing

### combine all files for each brand

In [10]:
# Chemin du dossier principal
main_folder_results = 'results_2'

In [14]:
import os
import pandas as pd

# Dossier où les fichiers combinés seront enregistrés
output_folder = os.path.join(main_folder_results, 'combined_brands')

# extraire chaque sous-dossier (chaque marque)
listdir_in_main_folder = os.listdir(main_folder_results)

# Créer le dossier 'combined_brands' s'il n'existe pas
os.makedirs(output_folder, exist_ok=True)

# Parcourir chaque sous-dossier (chaque marque)
for brand_folder in listdir_in_main_folder:
    brand_folder_path = os.path.join(main_folder_results, brand_folder)
    
    # Vérifier que c'est un dossier
    if os.path.isdir(brand_folder_path):
        combined_data = []
        
        # Parcourir chaque fichier CSV du sous-dossier
        for csv_file in os.listdir(brand_folder_path):
            if csv_file.endswith('.csv'):
                csv_path = os.path.join(brand_folder_path, csv_file)
                
                # Lire le fichier CSV et l'ajouter à la liste
                df = pd.read_csv(csv_path)
                combined_data.append(df)
        
        # Combiner tous les DataFrames en un seul
        if combined_data:
            combined_df = pd.concat(combined_data, ignore_index=True)
            
            # Sauvegarder le fichier combiné
            output_file = os.path.join(output_folder, f'combined_{brand_folder}.csv')
            combined_df.to_csv(output_file, index=False)
            print(f'Fichier combiné créé pour {brand_folder}: {output_file}')

Fichier combiné créé pour BMW: results_2\combined_brands\combined_BMW.csv
Fichier combiné créé pour JAGUAR: results_2\combined_brands\combined_JAGUAR.csv
Fichier combiné créé pour JEEP: results_2\combined_brands\combined_JEEP.csv
Fichier combiné créé pour KIA: results_2\combined_brands\combined_KIA.csv
Fichier combiné créé pour LAND_ROVER: results_2\combined_brands\combined_LAND_ROVER.csv
Fichier combiné créé pour LEXUS: results_2\combined_brands\combined_LEXUS.csv


### calculate the number of lignes for each brand, and the total number of all products

In [16]:
import os
import pandas as pd

# Chemin du dossier 'combined_brands'
combined_brands_folder = f'{main_folder_results}/combined_brands'

def count_products_number(combined_brands_folder):
    # Initialiser une variable pour la somme totale des lignes
    total_lines = 0
    
    # Parcourir chaque fichier CSV dans 'combined_brands'
    for csv_file in os.listdir(combined_brands_folder):
        if csv_file.endswith('.csv'):
            csv_path = os.path.join(combined_brands_folder, csv_file)
            
            # Lire le fichier CSV
            df = pd.read_csv(csv_path)
            
            # Nombre de lignes du fichier CSV
            num_lines = len(df)
            total_lines += num_lines
            
            # Afficher le nombre de lignes pour chaque fichier
            print(f'{csv_file}: {num_lines} lignes')
    
    # Afficher la somme totale des lignes
    print(f'Somme totale des lignes dans tous les fichiers combinés: {total_lines}')

count_products_number(combined_brands_folder)

combined_BMW.csv: 78453 lignes
combined_JAGUAR.csv: 9809 lignes
combined_JEEP.csv: 19681 lignes
combined_KIA.csv: 16370 lignes
combined_LAND_ROVER.csv: 9637 lignes
combined_LEXUS.csv: 8223 lignes
Somme totale des lignes dans tous les fichiers combinés: 142173


In [5]:
import os
import pandas as pd
import threading

# Directory containing the CSV files
results_data_dir = f'{main_folder_results}/combined_brands'
output_folder = f"{main_folder_results}/combined_brands/updated_price_img_data"

# Créer le dossier 'combined_brands' s'il n'existe pas
os.makedirs(output_folder, exist_ok=True)

# DataFrame to store rows without price
df_without_price = pd.DataFrame()
df_without_img = pd.DataFrame()

lock_df_price = threading.Lock()
lock_df_img = threading.Lock()

# Function to process each CSV file
def process_csv_file(file_path):
    global df_without_price, df_without_img
    
    # Load the CSV file into a DataFrame
    df = pd.read_csv(file_path)
    
    df['type'] = 'original'

    # List of indices to remove after processing ( products without img && products without price)
    rows_to_remove = []

    # process products_img colomn
    for idx, row in df[
                        (df['products_img'].isna()) |  # Vérifie les valeurs NaN
                        (df['products_img'] == 'None') | 
                        (df['products_img'].str.lower() == 'none') |  # Insensible à la casse pour "none"
                        (df['products_img'].str.lower() == 'nan')  # Insensible à la casse pour "nan"
                    ].iterrows():
        # Get the previous years' data for the same product
        previous_years = df[(df['products_name'] == row['products_name']) &
                            # (df['Model'] == row['Model']) &
                            (df['Brand'] == row['Brand']) &
                            (df['Year'] != row['Year']) &
                            ((df['products_img'].notna()) &  # Vérifie les valeurs NaN
                            (df['products_img'] != 'None') & 
                            (df['products_img'].str.lower() != 'none') &  # Insensible à la casse pour "none"
                            (df['products_img'].str.lower() != 'nan'))  # Insensible à la casse pour "nan"
        ]
        
        # If there is a products_img available from the previous year(s), update the 'products_img'
        if not previous_years.empty:
            previous_img = previous_years.sort_values(by='Year', ascending=False)['products_img'].values[0]
            df.at[idx, 'products_img'] = previous_img
        else:
            # If no previous products_img is found, add the row to df_without_img and mark for removal
            row["products_img"] =  None
            with lock_df_img:
                df_without_img = pd.concat([df_without_img, pd.DataFrame([row])], ignore_index=True)
            rows_to_remove.append(idx)


    
    # Fix the 'price' column for 'Out of Stock' values
    for idx, row in df[df['price'] == 'Out of Stock'].iterrows():
        # Get the previous years' data for the same product
        previous_years = df[(df['products_name'] == row['products_name']) &
                            (df['Model'] == row['Model']) &
                            (df['Brand'] == row['Brand']) &
                            (df['Year'] != row['Year']) &
                            (df['price'] != 'Out of Stock')]
        
        # If there is a price available from the previous year(s), update the 'price'
        if not previous_years.empty:
            previous_price = previous_years.sort_values(by='Year', ascending=False)['price'].values[0]
            df.at[idx, 'price'] = previous_price
        else:
            # If no previous price is found, add the row to df_without_price and mark for removal
            row["price"] =  None
            with lock_df_price:
                df_without_price = pd.concat([df_without_price, pd.DataFrame([row])], ignore_index=True)
            rows_to_remove.append(idx)
            
            
    # Remove rows from the original DataFrame
    df.drop(index=list(set(rows_to_remove)), inplace=True)
    
    # Save the updated DataFrame to the same file or a new file
    # Sauvegarder le fichier modifié dans le dossier de sortie
    output_file_path = os.path.join(output_folder, os.path.basename(file_path))
    df.to_csv(output_file_path, index=False, encoding='utf-8-sig')
    print(output_file_path)

# Function to be executed by each thread
def thread_task(file_path):
    process_csv_file(file_path)

# Create threads for each CSV file
threads = []

# Process each CSV file in the directory
for filename in os.listdir(results_data_dir):
    if filename.endswith('.csv'):
        file_path = os.path.join(results_data_dir, filename)
        thread = threading.Thread(target=thread_task, args=(file_path,))
        threads.append(thread)
        thread.start()
        
# Wait for all threads to complete
for thread in threads:
    thread.join()

# Save df_without_price to a CSV file
df_without_price.to_csv(f'{output_folder}/rows_without_price.csv', index=False, encoding='utf-8-sig')
# Save df_without_price to a CSV file
df_without_img.to_csv(f'{output_folder}/rows_without_img.csv', index=False, encoding='utf-8-sig')

print("All files processed successfully.")

results_1/combined_brands/updated_price_img_data\combined_MG.csv
results_1/combined_brands/updated_price_img_data\combined_MERCURY.csv
results_1/combined_brands/updated_price_img_data\combined_SUZUKI.csv
results_1/combined_brands/updated_price_img_data\combined_JEEP.csv
results_1/combined_brands/updated_price_img_data\combined_MAZDA.csv
results_1/combined_brands/updated_price_img_data\combined_MINI.csv
results_1/combined_brands/updated_price_img_data\combined_JAGUAR.csv
results_1/combined_brands/updated_price_img_data\combined_MITSUBISHI.csv
results_1/combined_brands/updated_price_img_data\combined_LAND_ROVER.csv
results_1/combined_brands/updated_price_img_data\combined_VOLVO.csv
results_1/combined_brands/updated_price_img_data\combined_KIA.csv
results_1/combined_brands/updated_price_img_data\combined_RENAULT.csv
results_1/combined_brands/updated_price_img_data\combined_VOLKSWAGEN.csv
results_1/combined_brands/updated_price_img_data\combined_TOYOTA.csv
results_1/combined_brands/updated

In [15]:
count_products_number(output_folder)

combined_BMW.csv: 34813 lignes
combined_JAGUAR.csv: 3616 lignes
combined_JEEP.csv: 2515 lignes
combined_KIA.csv: 11500 lignes
combined_LAND_ROVER.csv: 4545 lignes
combined_LEXUS.csv: 17375 lignes
combined_MAZDA.csv: 5199 lignes
combined_MERCEDES-BENZ.csv: 37681 lignes
combined_MERCURY.csv: 1768 lignes
combined_MG.csv: 180 lignes
combined_MINI.csv: 4931 lignes
combined_MITSUBISHI.csv: 5480 lignes
combined_NISSAN.csv: 22491 lignes
combined_RENAULT.csv: 4235 lignes
combined_SUZUKI.csv: 4416 lignes
combined_TOYOTA.csv: 14471 lignes
combined_VOLKSWAGEN.csv: 10425 lignes
combined_VOLVO.csv: 7188 lignes
rows_without_img.csv: 3452 lignes
rows_without_price.csv: 22530 lignes
Somme totale des lignes dans tous les fichiers combinés: 218811


## add trader_id and update products_img

In [3]:
import pandas as pd
import os
import json

folder_path = 'results_1/combined_brands/updated_price_img_data'
output_folder = 'results_1/combined_brands/last_results'
os.makedirs(output_folder, exist_ok=True)

# Charger les fichiers traders_info.csv et agencies_locations.csv
traders_info_df = pd.read_csv('traders_info.csv')
agencies_locations_df = pd.read_csv('agencies_locations.csv')

# Fonction pour obtenir trader_id et brand_img
def get_trader_info(brand_name):
    row = traders_info_df[traders_info_df['brand_name'] == brand_name].iloc[0]
    return row['trader_id'], row['brand_img']

# Fonction pour obtenir l'address et location
def get_agency_info(brand_name):
    row = agencies_locations_df[agencies_locations_df['brand_name'] == brand_name].iloc[0]
    return [{"address": row['address'], "location": row['location']}]

for file_name in os.listdir(folder_path):
    if file_name.endswith('.csv'):
        file_path = os.path.join(folder_path, file_name)
        if file_name not in ['rows_without_img.csv', 'rows_without_price.csv']:
            # Charger le fichier CSV
            df = pd.read_csv(file_path)
            
            # Modifier 'trader_id' et 'products_img' et 'address' pour chaque ligne
            for i, row in df.iterrows():
                brand_name = row['brand_name']
                
                # Modifier 'trader_id' et 'products_img'
                trader_id, brand_img = get_trader_info(brand_name)
                df.at[i, 'trader_id'] = trader_id
                df.at[i, 'products_img'] = df.at[i, 'products_img'].replace(f"images/{brand_name}", brand_img)
                
                # Modifier 'address' avec la structure JSON
                address_info = get_agency_info(brand_name)
                df.at[i, 'address'] = str(address_info)
            
            # Enregistrer les modifications
            new_file_path = os.path.join(output_folder, file_name)
            df.to_csv(new_file_path, index=False)
            print(new_file_path)

results_1/combined_brands/last_results\combined_BMW.csv
results_1/combined_brands/last_results\combined_JAGUAR.csv
results_1/combined_brands/last_results\combined_JEEP.csv
results_1/combined_brands/last_results\combined_KIA.csv
results_1/combined_brands/last_results\combined_LAND_ROVER.csv
results_1/combined_brands/last_results\combined_LEXUS.csv
results_1/combined_brands/last_results\combined_MAZDA.csv
results_1/combined_brands/last_results\combined_MERCEDES-BENZ.csv
results_1/combined_brands/last_results\combined_MERCURY.csv
results_1/combined_brands/last_results\combined_MG.csv
results_1/combined_brands/last_results\combined_MINI.csv
results_1/combined_brands/last_results\combined_MITSUBISHI.csv
results_1/combined_brands/last_results\combined_NISSAN.csv
results_1/combined_brands/last_results\combined_RENAULT.csv
results_1/combined_brands/last_results\combined_SUZUKI.csv
results_1/combined_brands/last_results\combined_TOYOTA.csv
results_1/combined_brands/last_results\combined_VOLKSWA

## add products_name_ar

In [75]:
import pandas as pd
df = pd.read_csv('products_name_en_ar.csv')
our_products_name_en = list(set(list(df['products_name_en'])))
print(len(our_products_name_en))

3471


In [77]:
import pandas as pd
import os

# Chemin vers le dossier contenant les fichiers CSV
dossier = 'results_1/combined_brands/last_results'

# Liste pour stocker les noms de produits
noms_produits = []

# Boucle sur tous les fichiers dans le dossier
for fichier in os.listdir(dossier):
    if fichier.endswith('.csv'):
        chemin_fichier = os.path.join(dossier, fichier)
        # Lire le fichier CSV
        df = pd.read_csv(chemin_fichier)
        # Ajouter les noms de produits à la liste
        if 'products_name' in df.columns:
            noms_produits.extend(df['products_name'].tolist())

# Supprimer les doublons en convertissant la liste en set, puis de nouveau en liste
noms_produits_uniques = list(set(noms_produits))
len(noms_produits_uniques)

1265

In [17]:
i=0
for name in noms_produits_uniques:
    if name not in our_products_name_en:
        print(f"{i} : {name}")
        i+=1

0 : A/C Condenser
1 : Rear Window Wiper Relay
2 : Rocker Panel Molding
3 : Shock / Strut & Coil Spring Assembly
4 : Headlamp Switch
5 : Side Marker Light Bulb
6 : Master Cylinder Cap
7 : Yaw Sensor Connector
8 : Headlamp Socket
9 : Distributor
10 : Timing Chain Tensioner Gasket / Seal
11 : Steering Gear Bolt
12 : Timing Idler
13 : Fluid Pan Gasket
14 : Camshaft Gasket
15 : Windshield Molding / Seal
16 : Liftgate Release Cable
17 : Oil Cooler Mounting Kit
18 : Shock Dust Cover
19 : Caliper Piston
20 : Wheel Cover / Hub Cap
21 : Extension Harness
22 : Door Handle
23 : Steering Wheel Position Sensor
24 : Fender Retainer / Clip
25 : Transfer Case Shift Fork
26 : Impact / Crash Sensor
27 : Grille and Lamp Kit
28 : Temperature Sender / Sensor Clip
29 : Brake Bleeder Screw
30 : Door Mirror Illumination / Puddle Light Bulb
31 : Shock / Strut Bearing
32 : Tail Lamp Socket / Connector Plate
33 : 4WD Actuator
34 : Brake Shoe C-Washer
35 : Engine Control Module Wiring Relay
36 : Park Assist Contro

In [63]:
new_products_name_en_ar = {
   
}

In [65]:
import pandas as pd

# Charger le fichier CSV existant
df = pd.read_csv('products_name_en_ar.csv')

# Convertir le dictionnaire en DataFrame
new_entries = pd.DataFrame(list(new_products_name_en_ar.items()), columns=['products_name_en', 'products_name_ar'])

# Ajouter les nouvelles lignes au DataFrame existant
df = pd.concat([df, new_entries], ignore_index=True)
df = df.drop_duplicates(subset=['products_name_en'], keep='first')
# Enregistrer le fichier CSV mis à jour
df.to_csv('products_name_en_ar.csv', index=False)

In [80]:
import pandas as pd
df_name_en_ar = pd.read_csv('products_name_en_ar.csv')
our_products_name_en = list(set(list(df_name_en_ar['products_name_en'])))
print(len(our_products_name_en))

3471


In [82]:
i=0
for name in noms_produits_uniques:
    if name not in our_products_name_en:
        print(f"{i} : {name}")
        i+=1

In [86]:
import pandas as pd
import os

# Chemin vers le dossier contenant les fichiers CSV
input_folder = 'results_1/combined_brands/last_results'
# Chemin vers le fichier de traductions
translations_file = 'products_name_en_ar.csv'

# Charger le fichier de traductions
translations = pd.read_csv(translations_file)
# Créer un dictionnaire pour la traduction
translation_dict = dict(zip(translations['products_name_en'], translations['products_name_ar']))

# Parcourir chaque fichier CSV dans le dossier
for filename in os.listdir(input_folder):
    if filename.endswith('.csv'):
        file_path = os.path.join(input_folder, filename)
        
        # Charger le fichier CSV
        df = pd.read_csv(file_path)
        
        # Ajouter la nouvelle colonne avec les traductions
        df['products_name_ar'] = df['products_name'].map(translation_dict)
        
        # Sauvegarder le fichier CSV mis à jour
        df.to_csv(file_path, index=False)

print("Les traductions ont été ajoutées à chaque fichier CSV.")


Les traductions ont été ajoutées à chaque fichier CSV.


### * drop_duplicates(subset=['products_img', 'frontOrRear', 'products_name', 'Year', 'Model'], keep='first') 
### * drop first_img_src column

In [90]:
import os
import pandas as pd

# Dossier contenant les fichiers CSV
dossier_csv = 'results_1/combined_brands/last_results'  # Directory containing the CSV files after updated_price_img_data

# Dossier où enregistrer les fichiers résultants
dossier_resultat = "results_1/combined_brands/final_results"

# Créer le dossier 'last_results' s'il n'existe pas
os.makedirs(dossier_resultat, exist_ok=True)

# Parcourir tous les fichiers CSV dans le dossier
for fichier in os.listdir(dossier_csv):
    if fichier.endswith(".csv"):
        # Chemin complet du fichier CSV
        chemin_fichier = os.path.join(dossier_csv, fichier)

        # Lire le fichier CSV
        df = pd.read_csv(chemin_fichier)

        # Supprimer les doublons en fonction des colonnes spécifiques
        df_sans_doublons = df.drop_duplicates(subset=['products_img', 'frontOrRear', 'products_name', 'Year', 'Model'], keep='first')
        df_sans_doublons = df_sans_doublons.drop(columns=['first_img_src'])
        
        # Chemin complet pour enregistrer le fichier dans le dossier 'last_results'
        chemin_resultat = os.path.join(dossier_resultat, fichier)

        # Enregistrer le fichier CSV sans doublons
        df_sans_doublons.to_csv(chemin_resultat, index=False, encoding='utf-8-sig')

        print(f"Le fichier {fichier} a été traité et enregistré dans {dossier_resultat}.")

Le fichier combined_BMW.csv a été traité et enregistré dans results_1/combined_brands/final_results.
Le fichier combined_JAGUAR.csv a été traité et enregistré dans results_1/combined_brands/final_results.
Le fichier combined_JEEP.csv a été traité et enregistré dans results_1/combined_brands/final_results.
Le fichier combined_KIA.csv a été traité et enregistré dans results_1/combined_brands/final_results.
Le fichier combined_LAND_ROVER.csv a été traité et enregistré dans results_1/combined_brands/final_results.
Le fichier combined_LEXUS.csv a été traité et enregistré dans results_1/combined_brands/final_results.
Le fichier combined_MAZDA.csv a été traité et enregistré dans results_1/combined_brands/final_results.
Le fichier combined_MERCEDES-BENZ.csv a été traité et enregistré dans results_1/combined_brands/final_results.
Le fichier combined_MERCURY.csv a été traité et enregistré dans results_1/combined_brands/final_results.
Le fichier combined_MG.csv a été traité et enregistré dans res

In [94]:
count_products_number(dossier_resultat)

combined_BMW.csv: 34333 lignes
combined_JAGUAR.csv: 3610 lignes
combined_JEEP.csv: 2514 lignes
combined_KIA.csv: 11460 lignes
combined_LAND_ROVER.csv: 4495 lignes
combined_LEXUS.csv: 17355 lignes
combined_MAZDA.csv: 5175 lignes
combined_MERCEDES-BENZ.csv: 37658 lignes
combined_MERCURY.csv: 1768 lignes
combined_MG.csv: 180 lignes
combined_MINI.csv: 4895 lignes
combined_MITSUBISHI.csv: 5471 lignes
combined_NISSAN.csv: 22476 lignes
combined_RENAULT.csv: 4228 lignes
combined_SUZUKI.csv: 4372 lignes
combined_TOYOTA.csv: 14462 lignes
combined_VOLKSWAGEN.csv: 10424 lignes
combined_VOLVO.csv: 7183 lignes
Somme totale des lignes dans tous les fichiers combinés: 192059
