<h1 style='color: rgba(0, 0, 0, 0.6); background: whitesmoke; padding: 25px; border-radius: 25px; text-align: center'>III. Correction des anomalies des données</h1>

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import re
from functools import reduce

In [2]:
dataframe = pd.read_csv('MarocAnnoncesDataset.csv')
dataframe.head(3)

Unnamed: 0,id,nom d'annonce,nom d'annonceur,téléphone,prix,date d'ajout,ville,visite,année,kilométrage,carburant,puissance,marque,modèle,description
0,8518045,Ford Fiesta a vendre,Chakir adil,060-631-3532,55000 DH,22 Dec-21:00,Rabat,2.0,2005.0,155000.0,Diesel,,Ford,Fiesta,Une voiture à vendre marque ford Fiesta diesel...
1,8518030,Forf fiesta 2010,said,066-212-8670,65000 DH,22 Dec-21:00,Mohammedia,1.0,2010.0,160000.0,Essence,7 CV,Ford,Fiesta,Ford fiesta \n\r\n- modèle 2010 \r\n- Couleur ...
2,8518014,Xsara Picasso 2004 à vendre,Houda,062-020-6539,53000 DH,22 Dec-21:00,Casablanca,2.0,2004.0,,Essence,8 CV,Citroen,Xsara Picasso,Je met en vente une Xsara Picasso modèle 2004 ...


In [3]:
initial_size = len(dataframe)
print(f"DataFrame length: {initial_size}")

DataFrame length: 44830


In [4]:
print("\n".join(dataframe.columns))

id
nom d'annonce
nom d'annonceur
téléphone
prix
date d'ajout
ville
visite
année
kilométrage
carburant
puissance
marque
modèle
description


<h3 style='color: rgba(0, 0, 0, 0.6); background: #fddddb; padding: 10px; border-radius: 25px;'>1. Extraction d'article de chaque voiture</h3>

In [5]:
# exist means the value is defined 
# if  kilométrage exist
#     carburant exist or
#     puissance exist or
#     marque exist or
#     modèle exist or
#     description contains one of the words:
#            "car" or "voiture" or "سيارة"  or "طونوبيل" or "tonobil" or "tomobil" or "kilométrage" or "carburant"
#             "puissance" or "marque" or "modèle"

In [6]:
exists = lambda n: dataframe[n].notnull()

exists("kilométrage")

0         True
1         True
2        False
3         True
4        False
         ...  
44825    False
44826    False
44827    False
44828    False
44829    False
Name: kilométrage, Length: 44830, dtype: bool

In [7]:
def contains(name, tokens):
    regex = re.compile("|".join(tokens))
    return dataframe[name].str.contains(regex)

contains("description", ["car"])

0        False
1        False
2        False
3        False
4        False
         ...  
44825    False
44826    False
44827    False
44828    False
44829    False
Name: description, Length: 44830, dtype: object

In [8]:
dataframe = dataframe[exists("kilométrage") | exists("carburant") | exists("puissance") | exists("marque") | exists("modèle") | contains("description", ["car", "voiture", "سيارة", "طونوبيل", "tonobil", "tomobil", "kilometrage", "kilométrage", "carburant", "puissance", "marque", "modele", "modèle"])]
dataframe

Unnamed: 0,id,nom d'annonce,nom d'annonceur,téléphone,prix,date d'ajout,ville,visite,année,kilométrage,carburant,puissance,marque,modèle,description
0,8518045,Ford Fiesta a vendre,Chakir adil,060-631-3532,55000 DH,22 Dec-21:00,Rabat,2.0,2005.0,155000,Diesel,,Ford,Fiesta,Une voiture à vendre marque ford Fiesta diesel...
1,8518030,Forf fiesta 2010,said,066-212-8670,65000 DH,22 Dec-21:00,Mohammedia,1.0,2010.0,160000,Essence,7 CV,Ford,Fiesta,Ford fiesta \n\r\n- modèle 2010 \r\n- Couleur ...
2,8518014,Xsara Picasso 2004 à vendre,Houda,062-020-6539,53000 DH,22 Dec-21:00,Casablanca,2.0,2004.0,,Essence,8 CV,Citroen,Xsara Picasso,Je met en vente une Xsara Picasso modèle 2004 ...
3,8517942,Clio 4 bleue,Amine oubriri,061-065-5301,84000 DH,22 Dec-18:40,Casablanca,1.0,2017.0,44000,Diesel,7 CV,Renault,Clio,Toute options\r\nPremière main
5,8517814,OPEL INSIGNIA,MEKKAOUI,063-314-6833,81500 DH,22 Dec-17:05,Casablanca,1.0,2010.0,228000,Diesel,8 CV,Opel,Insignia,OPEL INSIGNIA A VENDRE TOUTE OPTION NOIR prix ...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
44813,7532955,Jet SKy 1800 FZR,ahmed,063-280-1417,135000 DH,24 Nov-14:16,Casablanca,32.0,,,,,,,je mets en vente un jet sky Yamaha FZR préparé...
44816,7543469,40 zodiac neuf poids entre 92 kg,Ahmed,069-524-2566,200 DH,23 Nov-11:13,Casablanca,14.0,,,,,,,Je mets en vente 40 bateaux gonflable neuf\r\n...
44817,7551218,Jet Ski Rouge & Noir,Karim,066-214-2208,65000 DH,29 Nov-15:57,Casablanca,38.0,,,,,,,"Vend jet ski Rouge & Noir, 900 Ho\r\nDe marque..."
44824,7658749,Zodiac 380cm,Aziz,061-367-3483,25000 DH,25 Nov-0:50,Nador,15.0,,,,,,,Zodiac 380cm marque jolly3 made frence n9iya t...


In [9]:
print(f'{initial_size - len(dataframe)} rows have been deleted!')

8208 rows have been deleted!


In [10]:
dataframe.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 36622 entries, 0 to 44825
Data columns (total 15 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   id               36622 non-null  int64  
 1   nom d'annonce    36622 non-null  object 
 2   nom d'annonceur  36621 non-null  object 
 3   téléphone        36622 non-null  object 
 4   prix             32658 non-null  object 
 5   date d'ajout     36622 non-null  object 
 6   ville            36584 non-null  object 
 7   visite           36622 non-null  float64
 8   année            31564 non-null  float64
 9   kilométrage      26709 non-null  object 
 10  carburant        30480 non-null  object 
 11  puissance        27850 non-null  object 
 12  marque           31399 non-null  object 
 13  modèle           31032 non-null  object 
 14  description      36622 non-null  object 
dtypes: float64(2), int64(1), object(12)
memory usage: 4.5+ MB



<h3 style='color: rgba(0, 0, 0, 0.6); background: #fddddb; padding: 10px; border-radius: 25px;'>2. Cleaning du prix</h3>

In [11]:
no_currency = dataframe["prix"].str.replace(" DH", "")
no_currency

0         55000
1         65000
2         53000
3         84000
5         81500
          ...  
44813    135000
44816       200
44817     65000
44824     25000
44825    130000
Name: prix, Length: 36622, dtype: object

In [12]:
dataframe["prix"] = pd.to_numeric(no_currency)
dataframe["prix"]

0         55000.0
1         65000.0
2         53000.0
3         84000.0
5         81500.0
           ...   
44813    135000.0
44816       200.0
44817     65000.0
44824     25000.0
44825    130000.0
Name: prix, Length: 36622, dtype: float64

<h3 style='color: rgba(0, 0, 0, 0.6); background: #fddddb; padding: 10px; border-radius: 25px;'>3. Cleaning du date d'ajout</h3>

In [13]:
dataframe["date d'ajout"]

0        22 Dec-21:00
1        22 Dec-21:00
2        22 Dec-21:00
3        22 Dec-18:40
5        22 Dec-17:05
             ...     
44813    24 Nov-14:16
44816    23 Nov-11:13
44817    29 Nov-15:57
44824     25 Nov-0:50
44825    13 Oct-19:00
Name: date d'ajout, Length: 36622, dtype: object

In [14]:
dataframe["date d'ajout"][0]

'22 Dec-21:00'

In [15]:
# format
# https://docs.python.org/2/library/datetime.html#strftime-and-strptime-behavior
str_to_dt = pd.to_datetime(dataframe["date d'ajout"], format='%d %b-%H:%M')
str_to_dt

0       1900-12-22 21:00:00
1       1900-12-22 21:00:00
2       1900-12-22 21:00:00
3       1900-12-22 18:40:00
5       1900-12-22 17:05:00
                ...        
44813   1900-11-24 14:16:00
44816   1900-11-23 11:13:00
44817   1900-11-29 15:57:00
44824   1900-11-25 00:50:00
44825   1900-10-13 19:00:00
Name: date d'ajout, Length: 36622, dtype: datetime64[ns]

In [16]:
dataframe["pub_hour"] = str_to_dt.dt.hour
dataframe["pub_hour"]

0        21
1        21
2        21
3        18
5        17
         ..
44813    14
44816    11
44817    15
44824     0
44825    19
Name: pub_hour, Length: 36622, dtype: int64

In [17]:
dataframe["pub_day"] = str_to_dt.dt.day
dataframe["pub_day"]

0        22
1        22
2        22
3        22
5        22
         ..
44813    24
44816    23
44817    29
44824    25
44825    13
Name: pub_day, Length: 36622, dtype: int64

In [18]:
dataframe["pub_month"] = str_to_dt.dt.month
dataframe["pub_month"]

0        12
1        12
2        12
3        12
5        12
         ..
44813    11
44816    11
44817    11
44824    11
44825    10
Name: pub_month, Length: 36622, dtype: int64

In [19]:
dataframe.drop("date d'ajout", axis=1, inplace=True)
dataframe

Unnamed: 0,id,nom d'annonce,nom d'annonceur,téléphone,prix,ville,visite,année,kilométrage,carburant,puissance,marque,modèle,description,pub_hour,pub_day,pub_month
0,8518045,Ford Fiesta a vendre,Chakir adil,060-631-3532,55000.0,Rabat,2.0,2005.0,155000,Diesel,,Ford,Fiesta,Une voiture à vendre marque ford Fiesta diesel...,21,22,12
1,8518030,Forf fiesta 2010,said,066-212-8670,65000.0,Mohammedia,1.0,2010.0,160000,Essence,7 CV,Ford,Fiesta,Ford fiesta \n\r\n- modèle 2010 \r\n- Couleur ...,21,22,12
2,8518014,Xsara Picasso 2004 à vendre,Houda,062-020-6539,53000.0,Casablanca,2.0,2004.0,,Essence,8 CV,Citroen,Xsara Picasso,Je met en vente une Xsara Picasso modèle 2004 ...,21,22,12
3,8517942,Clio 4 bleue,Amine oubriri,061-065-5301,84000.0,Casablanca,1.0,2017.0,44000,Diesel,7 CV,Renault,Clio,Toute options\r\nPremière main,18,22,12
5,8517814,OPEL INSIGNIA,MEKKAOUI,063-314-6833,81500.0,Casablanca,1.0,2010.0,228000,Diesel,8 CV,Opel,Insignia,OPEL INSIGNIA A VENDRE TOUTE OPTION NOIR prix ...,17,22,12
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
44813,7532955,Jet SKy 1800 FZR,ahmed,063-280-1417,135000.0,Casablanca,32.0,,,,,,,je mets en vente un jet sky Yamaha FZR préparé...,14,24,11
44816,7543469,40 zodiac neuf poids entre 92 kg,Ahmed,069-524-2566,200.0,Casablanca,14.0,,,,,,,Je mets en vente 40 bateaux gonflable neuf\r\n...,11,23,11
44817,7551218,Jet Ski Rouge & Noir,Karim,066-214-2208,65000.0,Casablanca,38.0,,,,,,,"Vend jet ski Rouge & Noir, 900 Ho\r\nDe marque...",15,29,11
44824,7658749,Zodiac 380cm,Aziz,061-367-3483,25000.0,Nador,15.0,,,,,,,Zodiac 380cm marque jolly3 made frence n9iya t...,0,25,11


<h3 style='color: rgba(0, 0, 0, 0.6); background: #fddddb; padding: 10px; border-radius: 25px;'>4. Cleaning de l'année</h3>

In [20]:
dataframe.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 36622 entries, 0 to 44825
Data columns (total 17 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   id               36622 non-null  int64  
 1   nom d'annonce    36622 non-null  object 
 2   nom d'annonceur  36621 non-null  object 
 3   téléphone        36622 non-null  object 
 4   prix             32658 non-null  float64
 5   ville            36584 non-null  object 
 6   visite           36622 non-null  float64
 7   année            31564 non-null  float64
 8   kilométrage      26709 non-null  object 
 9   carburant        30480 non-null  object 
 10  puissance        27850 non-null  object 
 11  marque           31399 non-null  object 
 12  modèle           31032 non-null  object 
 13  description      36622 non-null  object 
 14  pub_hour         36622 non-null  int64  
 15  pub_day          36622 non-null  int64  
 16  pub_month        36622 non-null  int64  
dtypes: float64(3

In [21]:
type(dataframe["année"][0])

numpy.float64

In [22]:
from datetime import date

date.today().year

2021

In [23]:
dataframe["age d'article"] = date.today().year - dataframe["année"]

In [24]:
dataframe["age d'article"]

0        16.0
1        11.0
2        17.0
3         4.0
5        11.0
         ... 
44813     NaN
44816     NaN
44817     NaN
44824     NaN
44825     NaN
Name: age d'article, Length: 36622, dtype: float64

In [25]:
dataframe

Unnamed: 0,id,nom d'annonce,nom d'annonceur,téléphone,prix,ville,visite,année,kilométrage,carburant,puissance,marque,modèle,description,pub_hour,pub_day,pub_month,age d'article
0,8518045,Ford Fiesta a vendre,Chakir adil,060-631-3532,55000.0,Rabat,2.0,2005.0,155000,Diesel,,Ford,Fiesta,Une voiture à vendre marque ford Fiesta diesel...,21,22,12,16.0
1,8518030,Forf fiesta 2010,said,066-212-8670,65000.0,Mohammedia,1.0,2010.0,160000,Essence,7 CV,Ford,Fiesta,Ford fiesta \n\r\n- modèle 2010 \r\n- Couleur ...,21,22,12,11.0
2,8518014,Xsara Picasso 2004 à vendre,Houda,062-020-6539,53000.0,Casablanca,2.0,2004.0,,Essence,8 CV,Citroen,Xsara Picasso,Je met en vente une Xsara Picasso modèle 2004 ...,21,22,12,17.0
3,8517942,Clio 4 bleue,Amine oubriri,061-065-5301,84000.0,Casablanca,1.0,2017.0,44000,Diesel,7 CV,Renault,Clio,Toute options\r\nPremière main,18,22,12,4.0
5,8517814,OPEL INSIGNIA,MEKKAOUI,063-314-6833,81500.0,Casablanca,1.0,2010.0,228000,Diesel,8 CV,Opel,Insignia,OPEL INSIGNIA A VENDRE TOUTE OPTION NOIR prix ...,17,22,12,11.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
44813,7532955,Jet SKy 1800 FZR,ahmed,063-280-1417,135000.0,Casablanca,32.0,,,,,,,je mets en vente un jet sky Yamaha FZR préparé...,14,24,11,
44816,7543469,40 zodiac neuf poids entre 92 kg,Ahmed,069-524-2566,200.0,Casablanca,14.0,,,,,,,Je mets en vente 40 bateaux gonflable neuf\r\n...,11,23,11,
44817,7551218,Jet Ski Rouge & Noir,Karim,066-214-2208,65000.0,Casablanca,38.0,,,,,,,"Vend jet ski Rouge & Noir, 900 Ho\r\nDe marque...",15,29,11,
44824,7658749,Zodiac 380cm,Aziz,061-367-3483,25000.0,Nador,15.0,,,,,,,Zodiac 380cm marque jolly3 made frence n9iya t...,0,25,11,


<h3 style='color: rgba(0, 0, 0, 0.6); background: #fddddb; padding: 10px; border-radius: 25px;'>4. Cleaning de la puissance fiscale</h3>

In [26]:
dataframe["puissance"]

0         NaN
1        7 CV
2        8 CV
3        7 CV
5        8 CV
         ... 
44813     NaN
44816     NaN
44817     NaN
44824     NaN
44825     NaN
Name: puissance, Length: 36622, dtype: object

In [27]:
dataframe[dataframe["puissance"].notnull() & dataframe["puissance"].str.contains(" CV")]["puissance"]

1         7 CV
2         8 CV
3         7 CV
5         8 CV
6         6 CV
         ...  
43966    10 CV
43967    12 CV
43968     8 CV
43969     8 CV
43971     8 CV
Name: puissance, Length: 2239, dtype: object

In [28]:
dataframe[dataframe["puissance"].notnull() & dataframe["puissance"].str.contains(" chevaux")]["puissance"]

1410     08-10 chevaux
1495     05-07 chevaux
1502     08-10 chevaux
1550     08-10 chevaux
1578     08-10 chevaux
             ...      
43882    05-07 chevaux
43883    11-13 chevaux
44352    05-07 chevaux
44421    05-07 chevaux
44422    05-07 chevaux
Name: puissance, Length: 25596, dtype: object

In [29]:
dataframe[dataframe["puissance"].notnull() & ~(dataframe["puissance"].str.contains(" chevaux") | dataframe["puissance"].str.contains(" CV"))]["puissance"]

3032        05-07 خيول
5031      11-13 horses
22706     05-07 horses
24956     05-07 الخيول
29287       05-07 خيول
41506    08-10 paarden
41533     08-10 horses
41545        13 horses
41623        13 horses
41958     11-13 horses
41969     11-13 horses
41970     08-10 horses
42066     11-13 horses
42067     05-07 horses
42108     08-10 horses
Name: puissance, dtype: object

In [30]:
dataframe["puissance"] = dataframe["puissance"].str.replace('خيول', 'chevaux')

In [31]:
dataframe["puissance"] = dataframe["puissance"].str.replace('horses', 'chevaux')

In [32]:
dataframe[dataframe["puissance"].notnull() & ~(dataframe["puissance"].str.contains(" chevaux") | dataframe["puissance"].str.contains(" CV"))]["puissance"]

24956    05-07 الchevaux
41506      08-10 paarden
Name: puissance, dtype: object

In [33]:
dataframe["puissance"] = dataframe["puissance"].str.replace(r" (CV|chevaux|الchevaux|paarden)", '')
dataframe["puissance"]

0        NaN
1          7
2          8
3          7
5          8
        ... 
44813    NaN
44816    NaN
44817    NaN
44824    NaN
44825    NaN
Name: puissance, Length: 36622, dtype: object

In [34]:
import functools

numbers = [1, 2, 3, 4]
functools.reduce(lambda p,c: p + c, numbers)

10

In [35]:
def transform_to_number(x):
    if x != x: # NaN
        return x
    elif "-" not in x: # '8'
        return float(x)
    return functools.reduce(lambda p,c: (int(p) + int(c)) / 2, x.split("-"))

dataframe["puissance"] = dataframe["puissance"].apply(transform_to_number)
dataframe["puissance"]

0        NaN
1        7.0
2        8.0
3        7.0
5        8.0
        ... 
44813    NaN
44816    NaN
44817    NaN
44824    NaN
44825    NaN
Name: puissance, Length: 36622, dtype: float64

In [36]:
dataframe

Unnamed: 0,id,nom d'annonce,nom d'annonceur,téléphone,prix,ville,visite,année,kilométrage,carburant,puissance,marque,modèle,description,pub_hour,pub_day,pub_month,age d'article
0,8518045,Ford Fiesta a vendre,Chakir adil,060-631-3532,55000.0,Rabat,2.0,2005.0,155000,Diesel,,Ford,Fiesta,Une voiture à vendre marque ford Fiesta diesel...,21,22,12,16.0
1,8518030,Forf fiesta 2010,said,066-212-8670,65000.0,Mohammedia,1.0,2010.0,160000,Essence,7.0,Ford,Fiesta,Ford fiesta \n\r\n- modèle 2010 \r\n- Couleur ...,21,22,12,11.0
2,8518014,Xsara Picasso 2004 à vendre,Houda,062-020-6539,53000.0,Casablanca,2.0,2004.0,,Essence,8.0,Citroen,Xsara Picasso,Je met en vente une Xsara Picasso modèle 2004 ...,21,22,12,17.0
3,8517942,Clio 4 bleue,Amine oubriri,061-065-5301,84000.0,Casablanca,1.0,2017.0,44000,Diesel,7.0,Renault,Clio,Toute options\r\nPremière main,18,22,12,4.0
5,8517814,OPEL INSIGNIA,MEKKAOUI,063-314-6833,81500.0,Casablanca,1.0,2010.0,228000,Diesel,8.0,Opel,Insignia,OPEL INSIGNIA A VENDRE TOUTE OPTION NOIR prix ...,17,22,12,11.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
44813,7532955,Jet SKy 1800 FZR,ahmed,063-280-1417,135000.0,Casablanca,32.0,,,,,,,je mets en vente un jet sky Yamaha FZR préparé...,14,24,11,
44816,7543469,40 zodiac neuf poids entre 92 kg,Ahmed,069-524-2566,200.0,Casablanca,14.0,,,,,,,Je mets en vente 40 bateaux gonflable neuf\r\n...,11,23,11,
44817,7551218,Jet Ski Rouge & Noir,Karim,066-214-2208,65000.0,Casablanca,38.0,,,,,,,"Vend jet ski Rouge & Noir, 900 Ho\r\nDe marque...",15,29,11,
44824,7658749,Zodiac 380cm,Aziz,061-367-3483,25000.0,Nador,15.0,,,,,,,Zodiac 380cm marque jolly3 made frence n9iya t...,0,25,11,


<h3 style='color: rgba(0, 0, 0, 0.6); background: #fddddb; padding: 10px; border-radius: 25px;'>4. Cleaning du carburant</h3>

In [37]:
dataframe["carburant"].unique()

array(['Diesel', 'Essence', nan, 'ديزل', 'Gasoline', 'Petrol'],
      dtype=object)

In [38]:
dataframe["carburant"] = dataframe["carburant"].str.replace('ديزل', 'Diesel')
dataframe["carburant"].unique()

array(['Diesel', 'Essence', nan, 'Gasoline', 'Petrol'], dtype=object)

In [39]:
def label_encoding(x):
    if x != x: # NaN
        return x
    return 0 if x == 'Diesel' else 1
    
dataframe["carburant"] = dataframe["carburant"].apply(label_encoding)
dataframe["carburant"].unique()

array([ 0.,  1., nan])

In [40]:
dataframe["carburant"]

0        0.0
1        1.0
2        1.0
3        0.0
5        0.0
        ... 
44813    NaN
44816    NaN
44817    NaN
44824    NaN
44825    NaN
Name: carburant, Length: 36622, dtype: float64

In [41]:
dataframe

Unnamed: 0,id,nom d'annonce,nom d'annonceur,téléphone,prix,ville,visite,année,kilométrage,carburant,puissance,marque,modèle,description,pub_hour,pub_day,pub_month,age d'article
0,8518045,Ford Fiesta a vendre,Chakir adil,060-631-3532,55000.0,Rabat,2.0,2005.0,155000,0.0,,Ford,Fiesta,Une voiture à vendre marque ford Fiesta diesel...,21,22,12,16.0
1,8518030,Forf fiesta 2010,said,066-212-8670,65000.0,Mohammedia,1.0,2010.0,160000,1.0,7.0,Ford,Fiesta,Ford fiesta \n\r\n- modèle 2010 \r\n- Couleur ...,21,22,12,11.0
2,8518014,Xsara Picasso 2004 à vendre,Houda,062-020-6539,53000.0,Casablanca,2.0,2004.0,,1.0,8.0,Citroen,Xsara Picasso,Je met en vente une Xsara Picasso modèle 2004 ...,21,22,12,17.0
3,8517942,Clio 4 bleue,Amine oubriri,061-065-5301,84000.0,Casablanca,1.0,2017.0,44000,0.0,7.0,Renault,Clio,Toute options\r\nPremière main,18,22,12,4.0
5,8517814,OPEL INSIGNIA,MEKKAOUI,063-314-6833,81500.0,Casablanca,1.0,2010.0,228000,0.0,8.0,Opel,Insignia,OPEL INSIGNIA A VENDRE TOUTE OPTION NOIR prix ...,17,22,12,11.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
44813,7532955,Jet SKy 1800 FZR,ahmed,063-280-1417,135000.0,Casablanca,32.0,,,,,,,je mets en vente un jet sky Yamaha FZR préparé...,14,24,11,
44816,7543469,40 zodiac neuf poids entre 92 kg,Ahmed,069-524-2566,200.0,Casablanca,14.0,,,,,,,Je mets en vente 40 bateaux gonflable neuf\r\n...,11,23,11,
44817,7551218,Jet Ski Rouge & Noir,Karim,066-214-2208,65000.0,Casablanca,38.0,,,,,,,"Vend jet ski Rouge & Noir, 900 Ho\r\nDe marque...",15,29,11,
44824,7658749,Zodiac 380cm,Aziz,061-367-3483,25000.0,Nador,15.0,,,,,,,Zodiac 380cm marque jolly3 made frence n9iya t...,0,25,11,


<h3 style='color: rgba(0, 0, 0, 0.6); background: #fddddb; padding: 10px; border-radius: 25px;'>5. Cleaning du kilométrage</h3>

In [42]:
dataframe["kilométrage"].unique()

array(['155000', '160000', nan, ..., '53200', '2750000', '82900'],
      dtype=object)

In [43]:
len(dataframe["kilométrage"].unique())

3666

In [44]:
list(dataframe[dataframe["kilométrage"].notnull() & (dataframe["kilométrage"].str.contains(r"^\d+$") == False)]["kilométrage"])

['135000 Km',
 '111 866',
 '100000-102000',
 '440 000',
 '140 000 ',
 '221925 km',
 '240 000',
 '52 000',
 '14.5',
 '200 000',
 '179 000',
 'Xxxxx',
 '167 000',
 '172 000',
 '25 000',
 '180000km',
 '300000km',
 '165 000',
 '250000 Km',
 '15 000',
 '11 500',
 '70 000',
 '200000km',
 '160000 KM',
 '115 000 ',
 '295 000',
 '180 000',
 '170 000',
 '140k',
 '200 000',
 '129 000',
 '84.000km',
 '190 000',
 '170 000',
 '112 000',
 '160 000',
 '175000km ',
 '136.5',
 '170 000',
 '160000-170000',
 '57000km',
 '158 000 km',
 '170 000',
 '130000km',
 '70 000',
 '193 000',
 '108 400',
 '52 000',
 '220 000',
 '199 000',
 '369 000',
 '60000km ',
 '170000 KM',
 '166 000',
 '100,000',
 '160000-169000',
 '60000 km',
 '60000 km',
 '180 000',
 '160000km ',
 '146 000',
 '140alf',
 '103,000',
 '.',
 '62000km',
 '61 000',
 '8 700',
 '180 000',
 '62000km',
 '85 000 ',
 '80000 km',
 '93 000',
 '129 684',
 '132 000',
 '167 000',
 '16,500',
 '120 000',
 '200000-240000',
 '85 000',
 '150 000',
 '65000-69000',
 '

In [45]:
kilometrage = dataframe["kilométrage"].apply(lambda x: '' if x != x or not re.search(r"\d", x) else x)
kilometrage

0        155000
1        160000
2              
3         44000
5        228000
          ...  
44813          
44816          
44817          
44824          
44825          
Name: kilométrage, Length: 36622, dtype: object

In [46]:
pd.set_option('display.max_rows', 100)
pd.DataFrame(kilometrage.str.replace(r"( |\d)+", "").value_counts())

Unnamed: 0,kilométrage
,35290
km,412
-,407
KM,99
.km,64
",",42
.,37
.Km,29
Km,28
/,22


In [47]:
value_counts = dict(kilometrage.str.replace(r"( |\d)+", "").value_counts())

to_remove = []
for key in value_counts:
    if value_counts[key] <= 22:
        to_remove.append(key)
        
to_remove

['/',
 '_',
 'OOO',
 'kms',
 '-km',
 '.KM',
 'klm',
 '..',
 '\tkm',
 'k',
 '...',
 'alf',
 'p',
 'ooo',
 '.-.',
 '>',
 'plus',
 ',km',
 'plusde',
 'KMS',
 'E+',
 'environ',
 'O',
 '..km',
 'a',
 '⁴',
 ')',
 'ET',
 'km/',
 'plusque',
 'Mazdaavendre',
 'et',
 '.,',
 '.klm',
 'à',
 'Plusde',
 'Plus',
 '/klm',
 ',.km',
 'M',
 '.Kms',
 'plusquekm',
 '.Km²',
 '*',
 'OOOO',
 'f',
 '.kh/m',
 'entreKMKM',
 '+',
 'PRESQUE',
 ';',
 'xxx',
 'Fordfiesta.dieselbj',
 'km/h',
 'Mkm',
 'ZZ',
 'mille',
 'PLUSDEKM',
 'inférieureà',
 'entrekmetkm',
 '.E+',
 'Kilométrage:',
 'Moin',
 '(km)',
 'l',
 'entreet',
 'maarafchbidabte',
 '..KM',
 'MoinsdeKm',
 'Env.',
 'xxxx/xxx',
 "'",
 '-ppp',
 'k,',
 'Entreetkm',
 'km-',
 'K-K',
 '..klm',
 'OpelCorsa,.CDTI',
 ',miles',
 '---',
 'OOOOkm',
 'lkhayle',
 'Km/Km',
 'ooooo',
 '\tKM',
 '~_',
 '<',
 '????']

In [48]:
kilometrage = kilometrage.apply(lambda x: '' if re.sub(r"( |\d)+", "", x) in to_remove else x)
kilometrage

0        155000
1        160000
2              
3         44000
5        228000
          ...  
44813          
44816          
44817          
44824          
44825          
Name: kilométrage, Length: 36622, dtype: object

In [49]:
pd.set_option('display.max_rows', 100)
pd.DataFrame(kilometrage.str.replace(r"( |\d)+", "").value_counts())

Unnamed: 0,kilométrage
,35504
km,412
-,407
KM,99
.km,64
",",42
.,37
.Km,29
Km,28


In [50]:
kilometrage.str.replace(r"( |\d)+", "").unique()

array(['', 'Km', '-', 'km', '.', 'KM', '.km', ',', '.Km'], dtype=object)

In [51]:
re.findall(r"\d+", "12-45-87")

['12', '45', '87']

In [52]:
def clean_kilometrage(x):
    global maxLength
    
    if x == '':
        return None
    y = x
    
    x = re.sub(r"\s+", "", x)
    
    # 125784,00
    if re.search(",00$", x):
        x = re.sub(r",00$", "", x)
       
    # 125,000
    if re.search(",\d{3}$", x):
        x = re.sub(r",", "", x)
    
    # 14,5
    if re.search(",\d{1,2}$", x):
        x = re.sub(r",", "", x) + "00"
    
    # 31.500km
    if re.search("km$", x.lower()):
        x = re.sub(r"km$", "", x.lower())
        
    # 125784.00
    if re.search("\.00$", x):
        x = re.sub(r"\.00$", "", x)
       
    # 125.000
    if re.search("\.\d{3}$", x):
        x = re.sub(r"\.", "", x)
    
    # 14.5
    if re.search("\.\d{1,2}$", x):
        x = re.sub(r"\.", "", x) + "00"
        
    
    numbers = re.findall(r"\d+", x) # [number1, number2]

    if len(numbers) == 1:
        return float(numbers[0])
    else:
        return (float(numbers[0]) + float(numbers[1])) / 2

kilometrage = kilometrage.apply(clean_kilometrage)
kilometrage

0        155000.0
1        160000.0
2             NaN
3         44000.0
5        228000.0
           ...   
44813         NaN
44816         NaN
44817         NaN
44824         NaN
44825         NaN
Name: kilométrage, Length: 36622, dtype: float64

In [53]:
dataframe["kilométrage"] = kilometrage
dataframe["kilométrage"]

0        155000.0
1        160000.0
2             NaN
3         44000.0
5        228000.0
           ...   
44813         NaN
44816         NaN
44817         NaN
44824         NaN
44825         NaN
Name: kilométrage, Length: 36622, dtype: float64

In [54]:
dataframe.head(3)

Unnamed: 0,id,nom d'annonce,nom d'annonceur,téléphone,prix,ville,visite,année,kilométrage,carburant,puissance,marque,modèle,description,pub_hour,pub_day,pub_month,age d'article
0,8518045,Ford Fiesta a vendre,Chakir adil,060-631-3532,55000.0,Rabat,2.0,2005.0,155000.0,0.0,,Ford,Fiesta,Une voiture à vendre marque ford Fiesta diesel...,21,22,12,16.0
1,8518030,Forf fiesta 2010,said,066-212-8670,65000.0,Mohammedia,1.0,2010.0,160000.0,1.0,7.0,Ford,Fiesta,Ford fiesta \n\r\n- modèle 2010 \r\n- Couleur ...,21,22,12,11.0
2,8518014,Xsara Picasso 2004 à vendre,Houda,062-020-6539,53000.0,Casablanca,2.0,2004.0,,1.0,8.0,Citroen,Xsara Picasso,Je met en vente une Xsara Picasso modèle 2004 ...,21,22,12,17.0


<h3 style='color: rgba(0, 0, 0, 0.6); background: #fddddb; padding: 10px; border-radius: 25px;'>6. téléphone</h3>

In [55]:
telephone = dataframe["téléphone"].str.replace(r"-| ", "")
telephone

0        0606313532
1        0662128670
2        0620206539
3        0610655301
5        0633146833
            ...    
44813    0632801417
44816    0695242566
44817    0662142208
44824    0613673483
44825    0661177950
Name: téléphone, Length: 36622, dtype: object

In [56]:
telephone[~telephone.str.contains(r"^(?:(?:\+|00)212|0)[5-7]\d{8}$")].unique()

array(['2.1266E+11', '2.12663E+11', '2.12618E+11', '2.12665E+11',
       '65878751', '33663579936', '66165875', '2.12669E+11', 'Téléphone:',
       '2.1262E+11', '661163774', '64177020', '64992593', '65887516',
       '2.12691E+11', '6017724', '1', '2060', '662783636', '2.12653E+11',
       '6616756728', '67264638', '67555029', '64094756', '683561790',
       '2.12662E+11', '41615439521', '67779884', '2.12661E+11',
       '28370843', '60186054', '2.12699E+11', '2.12658E+11',
       '2.12664E+11', '661739360', '611715984', '640437406',
       '21698259185', '2.12066E+12', '2.12622E+11', '642408897',
       '775324652', '33673999692', '66135662', '0487490482',
       '33627050023', '602974810', '34635418815', '628280014',
       '637171790', '61338433', '2.12666E+11', '66935049', '2.12615E+11',
       '7861130', '6009856', '66503404', '21261862372', '21244099363',
       '2.12628E+11', '66975558', '61334534', '0000000000', '61529307',
       '6504357853', '33665407405', '66378084', '3375

In [57]:
telephone.str.contains(r"^(?:(?:\+|00)212|0)[5-7]\d{8}$")

dataframe["téléphone"] = telephone.apply(lambda x: x if x and re.search(r"^(?:(?:\+|00)212|0)[5-7]\d{8}$", x) else None)
dataframe["téléphone"]

0        0606313532
1        0662128670
2        0620206539
3        0610655301
5        0633146833
            ...    
44813    0632801417
44816    0695242566
44817    0662142208
44824    0613673483
44825    0661177950
Name: téléphone, Length: 36622, dtype: object

<h3 style='color: rgba(0, 0, 0, 0.6); background: #fddddb; padding: 10px; border-radius: 25px;'>7. description</h3>

In [58]:
dataframe["description"]

0        Une voiture à vendre marque ford Fiesta diesel...
1        Ford fiesta \n\r\n- modèle 2010 \r\n- Couleur ...
2        Je met en vente une Xsara Picasso modèle 2004 ...
3                           Toute options\r\nPremière main
5        OPEL INSIGNIA A VENDRE TOUTE OPTION NOIR prix ...
                               ...                        
44813    je mets en vente un jet sky Yamaha FZR préparé...
44816    Je mets en vente 40 bateaux gonflable neuf\r\n...
44817    Vend jet ski Rouge & Noir, 900 Ho\r\nDe marque...
44824    Zodiac 380cm marque jolly3 made frence n9iya t...
44825    je vend mon bateau marque Seadoo Bombardie. Mo...
Name: description, Length: 36622, dtype: object

In [59]:
dataframe["description"] = dataframe["description"].apply(lambda x: None if x != x else re.sub(r"\s+", " ", x)).str.lower()
dataframe["description"]

0        une voiture à vendre marque ford fiesta diesel...
1        ford fiesta - modèle 2010 - couleur gris d’arg...
2        je met en vente une xsara picasso modèle 2004 ...
3                              toute options première main
5        opel insignia a vendre toute option noir prix ...
                               ...                        
44813    je mets en vente un jet sky yamaha fzr préparé...
44816    je mets en vente 40 bateaux gonflable neuf poi...
44817    vend jet ski rouge & noir, 900 ho de marque se...
44824    zodiac 380cm marque jolly3 made frence n9iya t...
44825    je vend mon bateau marque seadoo bombardie. mo...
Name: description, Length: 36622, dtype: object

<h3 style='color: rgba(0, 0, 0, 0.6); background: #fddddb; padding: 10px; border-radius: 25px;'>8. ville</h3>

In [60]:
dataframe["ville"] = dataframe["ville"].str.lower()
dataframe["ville"].unique()

array(['rabat', 'mohammedia', 'casablanca', 'kénitra', 'fès', 'marrakech',
       'salé', 'safi', 'chafchaouen', 'oujda', 'agadir', 'temara',
       'berrechid', 'meknès', 'khemisset', 'tanger', 'beni mellal',
       'errachidia', 'boujdour', 'guercif', 'azrou', 'nador',
       'tout le maroc', 'larache', 'el jadida', 'settat', 'tetouan',
       'tantan', 'zagora', 'tiznit', 'sidi bennour', 'ouarzazate',
       'el hajeb', 'ouazzane', 'laayoune', 'taza', 'khouribga', 'sefrou',
       'benslimane', 'martil', 'aoussered', 'berkane', 'tinghir',
       'essaouira', 'bouskoura', 'dakhla', 'taroudant', 'autre ville',
       'guelmim', 'al hoceima', 'fkih ben salah', 'bouznika', 'tamesna',
       'khenifra', 'tifelt', 'sidi ifni', 'assilah', 'sidi kacem',
       'sidi rahal', 'ksar el kebir', 'midelt', 'kabila', 'ifrane',
       'essmara', 'tarfaya', nan, 'melilia', 'sebta', 'oualidia',
       'sidi slimane'], dtype=object)

<h3 style='color: rgba(0, 0, 0, 0.6); background: #fddddb; padding: 10px; border-radius: 25px;'>9. marque</h3>

In [61]:
dataframe["marque"].unique()

array(['Ford', 'Citroen', 'Renault', 'Opel', 'Fiat', 'Peugeot', 'Seat',
       'Jeep', 'Land rover', 'Volvo', 'Audi', 'Land Rover', 'Honda',
       'Toyota', 'Dacia', 'Mini', 'Mercedes-Benz', 'Kia', 'Hyundai', nan,
       'BMW', 'Nissan', 'Volkswagen', 'Alfa Romeo', 'Skoda', 'Ssangyong',
       'Chrysler', 'Chevrolet', 'Jaguar', 'Suzuki', 'Daihatsu', 'Smart',
       'TVR', 'Mazda', 'Mitsubishi', 'Isuzu', 'Rover', 'Porsche',
       'Hummer', 'Bmw', 'Chery', 'Aston Martin', 'Daewoo', 'Mercedes',
       'Maserati', 'Mahindra', 'Lexus', 'Lancia', 'Bertone', 'Ferrari',
       'Subaru', 'Dodge', 'Bentley', 'Ginetta', 'Alfa romeo', 'MG',
       'Rolls-Royce', 'Modèle: Freelander', 'Modèle: Discovery',
       'Infiniti', 'Gmc', 'Modèle: Defender', 'Cadillac', 'Santana',
       'Lada', 'Ford usa'], dtype=object)

In [62]:
dataframe["marque"] = dataframe["marque"].str.lower()
dataframe["marque"].unique()

array(['ford', 'citroen', 'renault', 'opel', 'fiat', 'peugeot', 'seat',
       'jeep', 'land rover', 'volvo', 'audi', 'honda', 'toyota', 'dacia',
       'mini', 'mercedes-benz', 'kia', 'hyundai', nan, 'bmw', 'nissan',
       'volkswagen', 'alfa romeo', 'skoda', 'ssangyong', 'chrysler',
       'chevrolet', 'jaguar', 'suzuki', 'daihatsu', 'smart', 'tvr',
       'mazda', 'mitsubishi', 'isuzu', 'rover', 'porsche', 'hummer',
       'chery', 'aston martin', 'daewoo', 'mercedes', 'maserati',
       'mahindra', 'lexus', 'lancia', 'bertone', 'ferrari', 'subaru',
       'dodge', 'bentley', 'ginetta', 'mg', 'rolls-royce',
       'modèle: freelander', 'modèle: discovery', 'infiniti', 'gmc',
       'modèle: defender', 'cadillac', 'santana', 'lada', 'ford usa'],
      dtype=object)

In [63]:
# modèle: discovery
# modèle: defender
# modèle: freelander

dataframe["marque"] = dataframe["marque"].str.replace("modèle: (discovery|defender|freelander)", "land rover")
dataframe["marque"].unique()

array(['ford', 'citroen', 'renault', 'opel', 'fiat', 'peugeot', 'seat',
       'jeep', 'land rover', 'volvo', 'audi', 'honda', 'toyota', 'dacia',
       'mini', 'mercedes-benz', 'kia', 'hyundai', nan, 'bmw', 'nissan',
       'volkswagen', 'alfa romeo', 'skoda', 'ssangyong', 'chrysler',
       'chevrolet', 'jaguar', 'suzuki', 'daihatsu', 'smart', 'tvr',
       'mazda', 'mitsubishi', 'isuzu', 'rover', 'porsche', 'hummer',
       'chery', 'aston martin', 'daewoo', 'mercedes', 'maserati',
       'mahindra', 'lexus', 'lancia', 'bertone', 'ferrari', 'subaru',
       'dodge', 'bentley', 'ginetta', 'mg', 'rolls-royce', 'infiniti',
       'gmc', 'cadillac', 'santana', 'lada', 'ford usa'], dtype=object)

<h3 style='color: rgba(0, 0, 0, 0.6); background: #fddddb; padding: 10px; border-radius: 25px;'>10. modèle</h3>

In [64]:
dataframe["modèle"].unique()

array(['Fiesta', 'Xsara Picasso', 'Clio', 'Insignia', 'Fluence', 'Uno',
       '307', '206', 'Leon', 'Ka', 'Compass', 'Discovery', 'Xc90', 'A4',
       'Range Rover Evoque', 'A1', '500', 'CR-V', 'Yaris',
       'TURNEO CONNECT', 'Cr_v', 'Logan', 'One D', 'Focus', 'Classe CLS',
       'Megane', 'Picanto', 'Corsa', 'IX35', 'V40', 'Berlingo', 'I10',
       nan, 'A5', '320D', '208', 'Corolla', 'H-1', '407', 'C5',
       'PATHFINDER', 'Polo', 'Passat', '301', 'I20', 'Jazz (2001)',
       'Ibiza', 'Fox', 'Serie 5', '159', 'C3', 'Rav 4', 'Civic', 'Kangoo',
       'Sandero', 'RANGE ROVER SPORT', 'Elantra', 'C4 Picasso', 'Octavia',
       'Actyon', 'COUNTRYMAN', 'Sebring', 'BIPPER', 'Aveo', 'TIGUAN',
       '508', 'Cherokee', '350', 'XKR', 'Golf', '206+', '300M', 'Tiguan',
       'TUCSON', 'C-Max', 'Serie 7', 'QASHQAI ~2', 'Cooper', 'C4',
       'Range Rover', 'Accent', 'Classe C', 'GUILIA', 'Tipo', 'Classe A',
       'Swift', 'YRV', '306', 'Symbol', 'Astra', 'JUKE', 'Gol', 'I30',
       'RAV 4

In [65]:
dataframe["modèle"] = dataframe["modèle"].str.lower()
dataframe["modèle"].unique()

array(['fiesta', 'xsara picasso', 'clio', 'insignia', 'fluence', 'uno',
       '307', '206', 'leon', 'ka', 'compass', 'discovery', 'xc90', 'a4',
       'range rover evoque', 'a1', '500', 'cr-v', 'yaris',
       'turneo connect', 'cr_v', 'logan', 'one d', 'focus', 'classe cls',
       'megane', 'picanto', 'corsa', 'ix35', 'v40', 'berlingo', 'i10',
       nan, 'a5', '320d', '208', 'corolla', 'h-1', '407', 'c5',
       'pathfinder', 'polo', 'passat', '301', 'i20', 'jazz (2001)',
       'ibiza', 'fox', 'serie 5', '159', 'c3', 'rav 4', 'civic', 'kangoo',
       'sandero', 'range rover sport', 'elantra', 'c4 picasso', 'octavia',
       'actyon', 'countryman', 'sebring', 'bipper', 'aveo', 'tiguan',
       '508', 'cherokee', '350', 'xkr', 'golf', '206+', '300m', 'tucson',
       'c-max', 'serie 7', 'qashqai ~2', 'cooper', 'c4', 'range rover',
       'accent', 'classe c', 'guilia', 'tipo', 'classe a', 'swift', 'yrv',
       '306', 'symbol', 'astra', 'juke', 'gol', 'i30', 'scenic', 'duster',
   

<h3 style='color: rgba(0, 0, 0, 0.6); background: #fddddb; padding: 10px; border-radius: 25px;'>11. nom d'annonce</h3>

In [66]:
dataframe["nom d'annonce"] = dataframe["nom d'annonce"].str.lower()

In [67]:
dataframe["nom d'annonce"]

0                     ford fiesta a vendre
1                         forf fiesta 2010
2              xsara picasso 2004 à vendre
3                             clio 4 bleue
5                            opel insignia
                       ...                
44813                     jet sky 1800 fzr
44816    40 zodiac  neuf poids entre 92 kg
44817                 jet ski rouge & noir
44824                         zodiac 380cm
44825     bateau seadoo bombardie à vendre
Name: nom d'annonce, Length: 36622, dtype: object

---

In [68]:
dataframe.head(5)

Unnamed: 0,id,nom d'annonce,nom d'annonceur,téléphone,prix,ville,visite,année,kilométrage,carburant,puissance,marque,modèle,description,pub_hour,pub_day,pub_month,age d'article
0,8518045,ford fiesta a vendre,Chakir adil,606313532,55000.0,rabat,2.0,2005.0,155000.0,0.0,,ford,fiesta,une voiture à vendre marque ford fiesta diesel...,21,22,12,16.0
1,8518030,forf fiesta 2010,said,662128670,65000.0,mohammedia,1.0,2010.0,160000.0,1.0,7.0,ford,fiesta,ford fiesta - modèle 2010 - couleur gris d’arg...,21,22,12,11.0
2,8518014,xsara picasso 2004 à vendre,Houda,620206539,53000.0,casablanca,2.0,2004.0,,1.0,8.0,citroen,xsara picasso,je met en vente une xsara picasso modèle 2004 ...,21,22,12,17.0
3,8517942,clio 4 bleue,Amine oubriri,610655301,84000.0,casablanca,1.0,2017.0,44000.0,0.0,7.0,renault,clio,toute options première main,18,22,12,4.0
5,8517814,opel insignia,MEKKAOUI,633146833,81500.0,casablanca,1.0,2010.0,228000.0,0.0,8.0,opel,insignia,opel insignia a vendre toute option noir prix ...,17,22,12,11.0


In [69]:
dataframe.to_csv('MarocAnnoncesDataset_corrected.csv')