### 3.1: Exploratory Data Analysis (EDA)

#### 3.1.1 Data Source

In [None]:
import numpy as np                # Mempermudah operasi aritmatika dalam data
import pandas as pd               # Operasi CRUD pada tabel dan data
import seaborn as sns             # Visualisasi data
import matplotlib.pyplot as plt   # Membuat chart dan grafik

In [None]:
df = pd.read_csv('./../resource/data_car.csv') # Membaca dataset dari data_car.csv
df.head()                                      # Menampilkan 5 data teratas dari dataset

#### 3.1.2 Data Types

In [None]:
df.dtypes       # Memeriksa tipe data yang digunakan setiap fitur

#### 3.1.3 Seleksi Fitur Manual

In [None]:
# Menyaring fitur yang tidak diperlukan
df=df.drop(['Engine Fuel Type','Market Category', 'Vehicle Style', 'Popularity', 'Number of Doors', 'Vehicle Size'], axis=1)
df.head()

#### 3.1.4 Renaming The Columns

In [None]:
# Mengubah nama fitur
rename_label = {
  'Engine HP': 'HP',
  'Engine Cylinders': 'Cylinders',
  'Transmission Type': 'Transmission',
  'Driven_Wheels': 'Drive Mode',
  'highway MPG': 'MPG-H',
  'city mpg': 'MPG-C',
  'MSRP': 'Price'
}
df = df.rename(columns=rename_label) 
df.head()

### 3.1.5 Dropping The Dupicate Rows

In [None]:
df.shape

In [None]:
# Mencari jumlah baris yang sama (duplicate rows)
duplicate_rows_df = df[df.duplicated()]
print(f'Number of duplicate rows: {duplicate_rows_df.shape}')

In [None]:
df.count() # Menghitung jumlah baris dari masing-masing fitur

In [None]:
# Menghilangkan baris yang sama (duplicate rows)
df=df.drop_duplicates()
df.head()

In [None]:
df.count()

#### 3.1.6 Dropping The Missing Or Null Values

In [None]:
print(df.isnull().sum()) # Menampilkan fitur yang memiliki missing value

In [None]:
# Menghapus missing value dari setiap fitur yang memilikinya
df = df.dropna()
df.count()

In [None]:
print(df.isnull().sum()) # Menampilkan fitur yang memiliki missing value

#### 3.1.7 Outliers Detection

In [None]:
# Menampilkan sebaran data menggunakan plot distribusi dan boxplot
f = plt.figure(figsize=(12,4))
f.add_subplot(1,2,1)
df['HP'].plot(kind='kde')
f.add_subplot(1,2,2)
plt.boxplot(df['HP'])
plt.show()

In [None]:
# Menampilkan sebaran menggunakan boxplot
sns.boxplot(x=df['HP'])

#### 3.1.8 Univariate Analysis

In [None]:
df['Price'].describe() # Menampilkan sebaran data dari fitur Price

In [None]:
sns.boxplot(x=df['Price']) # Menampilkan sebaran fitur Price menggunakan boxplot

In [None]:
# Membuat visualisasi histogram
df.Make.value_counts().nlargest(40).plot(kind='bar', figsize=(10,5))
plt.title('Number of cars by make')
plt.ylabel('Number of cars')
plt.xlabel('Make')

#### 3.1.9 Bivariate Analysis

In [None]:
# Membuat visualisasi data scatter plot antara fitur Price dan HP
fig, ax = plt.subplots(figsize=(10,6))
ax.scatter(df['HP'], df['Price'])
ax.set_xlabel('HP')
ax.set_ylabel('Price')
plt.show()

In [None]:
df[['HP', 'Price']].corr() # Menampilkan korelasi antara fitur HP dan fitur Price

In [None]:
# Menampilkan korelasi seluruh fitur menggunakan Heat Map.
plt.figure(figsize=(10,5))
c = df.corr()
sns.heatmap(c, cmap='BrBG', annot=True)
c

#### 3.1.10 Multivariate Analysis

In [None]:
# Mencari korelasi antara fitur Transmission, Drive Mode dan Price
result = pd.pivot_table(data=df, index='Transmission', columns='Drive Mode', values='Price')
print(result)

In [None]:
# Menampilkan hasil korelasi 3 fitur tersebut dalam bentuk Heat Map
sns.heatmap(result, annot=True, cmap='RdYlGn', center=0.117)
plt.show()