# **E2 - Projet Cars 🚗 - CLEANING**

## **Import des librairies 📕**

In [11]:
import pandas as pd 
import numpy as np 
import sqlite3 as sql
import warnings
warnings.filterwarnings("ignore")

from bdd_sql_manager import SqlManager

## **Connection à la base de donnée via sqlite3 📁**

In [12]:
DATABASE = r"../../data/data.db"

In [13]:
sql_manager  = SqlManager(DATABASE)
data_global = sql_manager.select_dataset()

data = data_global.copy()
print(data.info())
data.head()

Connexion réussie à SQLite
BDD importée
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7201 entries, 0 to 7200
Data columns (total 12 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   Name               7201 non-null   object
 1   Year               7201 non-null   int64 
 2   Owner_Type         7201 non-null   object
 3   Seats              7201 non-null   int64 
 4   Kilometers_Driven  7201 non-null   object
 5   Fuel_Type          7201 non-null   object
 6   Transmission       7201 non-null   object
 7   Mileage            7201 non-null   object
 8   Engine             7201 non-null   object
 9   Power              7201 non-null   object
 10  Price              7201 non-null   object
 11  IsTrain            7201 non-null   int64 
dtypes: int64(3), object(9)
memory usage: 675.2+ KB
None


Unnamed: 0,Name,Year,Owner_Type,Seats,Kilometers_Driven,Fuel_Type,Transmission,Mileage,Engine,Power,Price,IsTrain
0,Maruti Wagon R LXI CNG,2010,First,5,72000,CNG,Manual,26.6 km/kg,998 CC,58.16 bhp,1.75,1
1,Hyundai Creta 1.6 CRDi SX Option,2015,First,5,41000,Diesel,Manual,19.67 kmpl,1582 CC,126.2 bhp,12.5,1
2,Honda Jazz V,2011,First,5,46000,Petrol,Manual,18.2 kmpl,1199 CC,88.7 bhp,4.5,1
3,Maruti Ertiga VDI,2012,First,7,87000,Diesel,Manual,20.77 kmpl,1248 CC,88.76 bhp,6.0,1
4,Audi A4 New 2.0 TDI Multitronic,2013,Second,5,40670,Diesel,Automatic,15.2 kmpl,1968 CC,140.8 bhp,17.74,1


## **Nettoyage des données** 🧹

In [14]:
data["Name"] = [str(x).replace("Maruti","Suzuki")for x in data["Name"]]

##### *En observant mon jeu de données de plus près, je constate que la feature Mileage possède plusieurs unités (km/kg et kmpl), celles-ci diffèrent en fonction du type de carburant utilisé :*

##### * *CNG --> km/kg* 
##### * *Diesel --> kmpl* 
##### * *Petrol --> kmpl*  
##### * *LPG --> km/kg*  
##### * *Electric --> """"*

In [15]:
data["Fuel_Type"].value_counts()

Diesel      3838
Petrol      3287
CNG           62
LPG           12
Electric       2
Name: Fuel_Type, dtype: int64

##### *Il y a très peu de voitures roulantes au CNG, LPG et seulement 2 voitures électriques. Afin d'être le plus représentatif possible vis à vis de ma distribution de voiture, je prends le choix de supprimer toutes ces lignes (76), ce qui affecte globalement peu mon Dataframe qui possède 7201 lignes*

In [16]:
data = data[data["Fuel_Type"].str.contains("CNG|LPG|Electric") == False]

##### *Afin de mieux pouvoir exploiter mes données, je souhaite à présent enlever les unités derrière chaque valeur concernant les features Mileage, Engine et Power*

In [17]:
data["Engine"] = [str(x).replace(" CC","") for x in data["Engine"]]
data["Power"] = [str(x).replace(" bhp","")for x in data["Power"]]
data = data[data["Power"] != 'null']
data["Mileage"] = [str(x).replace(" kmpl","")for x in data["Mileage"]]

data.replace('', np.nan, inplace=True)
data.dropna(inplace=True)

# Je converti les types de mes features
data["Engine"] = data["Engine"].astype(float)
data["Power"] = data["Power"].astype(float)
data["Mileage"] = data["Mileage"].astype(float)
data["Kilometers_Driven"] = data["Kilometers_Driven"].astype(float)

data.head()

Unnamed: 0,Name,Year,Owner_Type,Seats,Kilometers_Driven,Fuel_Type,Transmission,Mileage,Engine,Power,Price,IsTrain
1,Hyundai Creta 1.6 CRDi SX Option,2015,First,5,41000.0,Diesel,Manual,19.67,1582.0,126.2,12.5,1
2,Honda Jazz V,2011,First,5,46000.0,Petrol,Manual,18.2,1199.0,88.7,4.5,1
3,Suzuki Ertiga VDI,2012,First,7,87000.0,Diesel,Manual,20.77,1248.0,88.76,6.0,1
4,Audi A4 New 2.0 TDI Multitronic,2013,Second,5,40670.0,Diesel,Automatic,15.2,1968.0,140.8,17.74,1
6,Nissan Micra Diesel XV,2013,First,5,86999.0,Diesel,Manual,23.08,1461.0,63.1,3.5,1


##### *Je sépare mon jeu de données en 2 :* **TRAIN & TEST**
##### *La différence vient de la feature IsTrain : 

##### *1 --> Jeu de TRAIN*
##### *0 --> Jeu de TEST*

In [18]:
data["IsTrain"].value_counts()

1    5807
0    1193
Name: IsTrain, dtype: int64

In [19]:
train, test = data[data["IsTrain"].eq(1)], data[data["IsTrain"].eq(0)]

train.drop("IsTrain", axis=1, inplace=True)
train.reset_index(inplace=True, drop=True)
test.drop("IsTrain", axis=1, inplace=True)
test.reset_index(inplace=True, drop=True)

print(f"TRAIN shape : {train.shape}\nTEST shape : {test.shape}")

TRAIN shape : (5807, 11)
TEST shape : (1193, 11)


## **Enregistrement des fichiers TRAIN et TEST** 💾

In [20]:
train.to_csv("../../data/curated/train.csv")
test.to_csv("../../data/curated/test.csv")