# Traitement & Nettoyages des donnees provenant de webscrapper

In [228]:
import pandas as pd # type: ignore
import numpy as np # type: ignore

## Je lis mes datasets

In [229]:
vehicules = pd.read_csv("./data/vehicules.csv")
motos = pd.read_csv("./data/motos.csv")
telephones = pd.read_csv("./data/telephones.csv")
locations_vehicules = pd.read_csv("./data/locations_vehicules.csv")

# Tratement du datasets Motos

## Obsertations

In [230]:
motos.head()

Unnamed: 0,web-scraper-order,web-scraper-start-url,links,links-href,marque,price,adresse,image-link-src
0,1738752868-1,https://dakarvente.com/index.php?page=annonces...,Gilera piaggio stalker 50,https://www.dakarvente.com/annonce-98-gilera-p...,,350.000 FCFA,Offre d'un particulier à Plateau,media/annonces/pics/d21019275a66badba841be57ea...
1,1738752879-2,https://dakarvente.com/index.php?page=annonces...,T-max,https://www.dakarvente.com/annonce-9-t-max.html,,1.700.000 FCFA,Offre d'un particulier à Plateau,media/annonces/pics/78b7dd4158bd818b569ec884c6...
2,1738752890-3,https://dakarvente.com/index.php?page=annonces...,Honda sh,https://www.dakarvente.com/annonce-194-honda-s...,,1.200.000 FCFA,Offre d'un particulier à Plateau,media/annonces/pics/6f3687b2965ffde414a321f13d...
3,1738752904-4,https://dakarvente.com/index.php?page=annonces...,Tmax 530,https://www.dakarvente.com/annonce-195-tmax-53...,,2.300.000 FCFA,Offre d'un particulier à Plateau,media/annonces/pics/940f418806fbd25c6f871ba3b3...
4,1738752916-5,https://dakarvente.com/index.php?page=annonces...,Vespa 250,https://www.dakarvente.com/annonce-256-vespa-2...,,550.000 FCFA,Offre d'un particulier à Plateau,media/annonces/pics/a8b8f7d93d2b0a32eed02e11ef...


In [231]:
motos["links-href"].iloc[0] 
# C'est pour voir si cette feature correspond au lien d'access de chaque page d'article -> c'est le cas

'https://www.dakarvente.com/annonce-98-gilera-piaggio-stalker-50.html'

In [232]:
motos.columns

Index(['web-scraper-order', 'web-scraper-start-url', 'links', 'links-href',
       'marque', 'price', 'adresse', 'image-link-src'],
      dtype='object')

In [233]:
motos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 449 entries, 0 to 448
Data columns (total 8 columns):
 #   Column                 Non-Null Count  Dtype 
---  ------                 --------------  ----- 
 0   web-scraper-order      449 non-null    object
 1   web-scraper-start-url  449 non-null    object
 2   links                  449 non-null    object
 3   links-href             449 non-null    object
 4   marque                 386 non-null    object
 5   price                  424 non-null    object
 6   adresse                445 non-null    object
 7   image-link-src         435 non-null    object
dtypes: object(8)
memory usage: 28.2+ KB


In [234]:
motos.describe().transpose()

Unnamed: 0,count,unique,top,freq
web-scraper-order,449,449,1738759195-449,1
web-scraper-start-url,449,12,https://dakarvente.com/index.php?page=annonces...,41
links,449,406,Honda sh,5
links-href,449,449,https://www.dakarvente.com/annonce-50429-des-m...,1
marque,386,148,Etat :\nNeuf,147
price,424,140,350.000 FCFA,25
adresse,445,78,Offre d'un particulier à Dakar,78
image-link-src,435,417,img/nophoto.png,19


### <font color="yellow"> Traitement gnrale

In [235]:
all_df = {"motos": motos, "vehicules": vehicules, "locations_vehicules": locations_vehicules, "telephones": telephones}

In [236]:
# Je redefinis mes col pour prendre que les cols concernees
new_columns = ['links-href', 'marque', 'price', 'adresse', 'image-link-src']

for key, df in all_df.items():

    new_df = df[new_columns]

    # Je renomme la col image-link-src to image-link, et links-href to page-link
    new_df = new_df.rename({'image-link-src': "image-link","links-href": "page-link"}, axis=1)

    # je valide dans le all_df original
    all_df[key] = new_df

In [237]:
# un coup d'oeil
all_df["motos"].head()

Unnamed: 0,page-link,marque,price,adresse,image-link
0,https://www.dakarvente.com/annonce-98-gilera-p...,,350.000 FCFA,Offre d'un particulier à Plateau,media/annonces/pics/d21019275a66badba841be57ea...
1,https://www.dakarvente.com/annonce-9-t-max.html,,1.700.000 FCFA,Offre d'un particulier à Plateau,media/annonces/pics/78b7dd4158bd818b569ec884c6...
2,https://www.dakarvente.com/annonce-194-honda-s...,,1.200.000 FCFA,Offre d'un particulier à Plateau,media/annonces/pics/6f3687b2965ffde414a321f13d...
3,https://www.dakarvente.com/annonce-195-tmax-53...,,2.300.000 FCFA,Offre d'un particulier à Plateau,media/annonces/pics/940f418806fbd25c6f871ba3b3...
4,https://www.dakarvente.com/annonce-256-vespa-2...,,550.000 FCFA,Offre d'un particulier à Plateau,media/annonces/pics/a8b8f7d93d2b0a32eed02e11ef...


#### Nettoyage des textes

In [238]:
motos = all_df["motos"]

In [239]:
motos[motos["marque"].notna()]

Unnamed: 0,page-link,marque,price,adresse,image-link
11,https://www.dakarvente.com/annonce-913-vend-ho...,Description : \nHoverboard authentique en vent...,100.000 FCFA,Offre d'un particulier à Plateau,media/annonces/pics/7c9b21df1416530386abf290c9...
12,https://www.dakarvente.com/annonce-981-sh-125-...,Description : \nSh 125 scooter tout neuf 10 00...,,Offre d'un particulier à Plateau,media/annonces/pics/3f2353e92c3e1d282dea68b6bb...
19,https://www.dakarvente.com/annonce-1521-typhoo...,Description : \nTyphoon energy neuve moteur 12...,220.000 FCFA,Offre d'un particulier à Plateau,media/annonces/pics/a32417e4ab620ff7258d962947...
20,https://www.dakarvente.com/annonce-1572-vends-...,Description : \nJe vends tmax 500 injection en...,1.200.000 FCFA,Offre d'un particulier à Plateau,media/annonces/pics/3a31d94713e909340dff48cfcc...
22,https://www.dakarvente.com/annonce-1661-scoote...,Description : \nScooter majesty venant avec to...,420.000 FCFA,Offre d'un particulier à Plateau,media/annonces/pics/fb9437845d1d47458b27080e79...
...,...,...,...,...,...
444,https://www.dakarvente.com/annonce-50163-moto-...,Etat :\nNeuf,1.850.000 FCFA,Offre d'un particulier à Keur Massar,media/annonces/pics/a9644273f1d179ba72bf8462f0...
445,https://www.dakarvente.com/annonce-50164-ktm-j...,Etat :\nNeuf,420.000 FCFA,Offre d'un particulier à Keur Massar,media/annonces/pics/e1fc3f7e26551e1edf72f3bc53...
446,https://www.dakarvente.com/annonce-50234-moto-...,Etat :\nOccasion,600.000 FCFA,Offre d'un particulier à Mermoz,media/annonces/pics/5a37bc8fcd83eb990f842611b3...
447,https://www.dakarvente.com/annonce-50271-moto-...,Etat :\nNeuf,650.000 FCFA,Offre d'un particulier à Keur Massar,media/annonces/pics/9fca9beff6cfacd2feed07f4b4...


In [240]:
# Mettre en forme "marque"
# Separer le price en deux col: "price -> float" ete "devise" -> object
for key, df in all_df.items():

    # new_df[key] = df

    all_df[key]["marque"] = df["marque"].str.split(":").str[-1].str.strip()

    price = df["price"].str.strip().str.split(" ").str[0].str.replace(".", "").astype("float")
    devise = df["price"].str.strip().str.split(" ").str[-1]

    all_df[key]["price"] = price
    all_df[key]["devise"] = devise

    # Je profite pour juste recuperer le nom du quartier dans "adresse"
    all_df[key]["adresse"] = df["adresse"].str.strip().str.split(" ").str[-1]


In [241]:
motos[["marque", "price", "devise", "adresse"]]

Unnamed: 0,marque,price,devise,adresse
0,,350000.0,FCFA,Plateau
1,,1700000.0,FCFA,Plateau
2,,1200000.0,FCFA,Plateau
3,,2300000.0,FCFA,Plateau
4,,550000.0,FCFA,Plateau
...,...,...,...,...
444,Neuf,1850000.0,FCFA,Massar
445,Neuf,420000.0,FCFA,Massar
446,Occasion,600000.0,FCFA,Mermoz
447,Neuf,650000.0,FCFA,Massar


In [242]:
motos.head()

Unnamed: 0,page-link,marque,price,adresse,image-link,devise
0,https://www.dakarvente.com/annonce-98-gilera-p...,,350000.0,Plateau,media/annonces/pics/d21019275a66badba841be57ea...,FCFA
1,https://www.dakarvente.com/annonce-9-t-max.html,,1700000.0,Plateau,media/annonces/pics/78b7dd4158bd818b569ec884c6...,FCFA
2,https://www.dakarvente.com/annonce-194-honda-s...,,1200000.0,Plateau,media/annonces/pics/6f3687b2965ffde414a321f13d...,FCFA
3,https://www.dakarvente.com/annonce-195-tmax-53...,,2300000.0,Plateau,media/annonces/pics/940f418806fbd25c6f871ba3b3...,FCFA
4,https://www.dakarvente.com/annonce-256-vespa-2...,,550000.0,Plateau,media/annonces/pics/a8b8f7d93d2b0a32eed02e11ef...,FCFA


# Traitement des valeurs manquantes

In [258]:
for key, df in all_df.items():
    # pour les marque NAN, je les remplace par "Inconnu!"
    all_df[key]["marque"] = df["marque"].fillna("INCONNU!")

    # Les Prix par la moyenne
    all_df[key]["price"] = df["price"].fillna(df["price"].mean())

    # Les Links par une chaine vide
    all_df[key]["image-link"] = df["image-link"].fillna("")

    # Les devise par Inconnue!
    all_df[key]["devise"] = df["devise"].fillna("INCONNU!")

    # Les devise par Inconnue!
    all_df[key]["adresse"] = df["adresse"].fillna("Non défini!")

In [259]:
motos = all_df["motos"]
motos.head()

Unnamed: 0,page-link,marque,price,adresse,image-link,devise
0,https://www.dakarvente.com/annonce-98-gilera-p...,INCONNU!,350000.0,Plateau,media/annonces/pics/d21019275a66badba841be57ea...,FCFA
1,https://www.dakarvente.com/annonce-9-t-max.html,INCONNU!,1700000.0,Plateau,media/annonces/pics/78b7dd4158bd818b569ec884c6...,FCFA
2,https://www.dakarvente.com/annonce-194-honda-s...,INCONNU!,1200000.0,Plateau,media/annonces/pics/6f3687b2965ffde414a321f13d...,FCFA
3,https://www.dakarvente.com/annonce-195-tmax-53...,INCONNU!,2300000.0,Plateau,media/annonces/pics/940f418806fbd25c6f871ba3b3...,FCFA
4,https://www.dakarvente.com/annonce-256-vespa-2...,INCONNU!,550000.0,Plateau,media/annonces/pics/a8b8f7d93d2b0a32eed02e11ef...,FCFA


In [264]:
motos = all_df["motos"]
vehicles = all_df["vehicules"]
locations_vehicles = all_df["locations_vehicules"]
telephones = all_df["telephones"]

In [266]:
for _, df in all_df.items():
    print(df.isnull().sum())

page-link     0
marque        0
price         0
adresse       0
image-link    0
devise        0
dtype: int64
page-link     0
marque        0
price         0
adresse       0
image-link    0
devise        0
dtype: int64
page-link     0
marque        0
price         0
adresse       0
image-link    0
devise        0
dtype: int64
page-link     0
marque        0
price         0
adresse       0
image-link    0
devise        0
dtype: int64


# Sauvegarde des donnees nettoyees

In [268]:
for key, df in all_df.items():
    df.to_csv(f"./data-cleaned/{key}.csv", index=False)