# Faktor Apakah yang Menjual Sebuah Mobil?

Anda adalah seorang analis di Crankshaft List. Ratusan iklan kendaraan gratis ditayangkan di situs web Anda setiap hari. Anda perlu mempelajari kumpulan data selama beberapa tahun terakhir dan menentukan faktor-faktor yang memengaruhi harga sebuah kendaraan.

## Tujuan

Proyek ini befokus pada Exploratory Data Analysis(EDA) dan Data Visualization. Analisis yang dilakukan yaitu menentukan hubungan antara harga sebuah mobil dengan usia, jarak tempuh, kondisi, tipe transmisi, dan warnanya. Selanjutnya ditentukan faktor yang paling memengaruhi harga kendaraan. Data dianalisis menggunakan teknik statistik atau alat visualisasi untuk mengidentifikasi pola atau tren serta untuk mengungkap insights dalam data.

### Hipotesis

1. Mobil yang memiliki tahun terbit yang lebih tua memiliki harga mobil yang lebih murah.
2. Jarak tempuh mobil yang lebih kecil memiliki harga mobil yang lebih murah.
3. Mobil dengan kondisi yang bagus memiliki harga mobil yang lebih mahal.
4. Tipe transmisi mobil matic lebih mahal daripadi tipe transisi mobil manual.
5. Warna-warna yang tidak umum, seperti kuning, hijau, biru, merah, cenderung kurang peminat. Ini menjadikan dari segi harga tidak sebaik warna hitam, putih atau silver.

### Tahapan

Data tentang spesifikasi mobil disimpan dalam file `/datasets/vehicles_us.csv`. Tidak ada informasi terkait kualitas data tersebut, jadi perlu dilakukan pemeriksaan terlebih dahulu sebelum menguji hipotesis.

Proyek ini terdiri dari tiga tahap:

1. Pra-pemrosesan Data
2. Pengujian Hipotesis Data
3. Analisis Data Exploratif (EDA)


## 1. Pra-pemrosesan

**Import *library* yang dibutuhkan:**

In [57]:
import pandas as pd
import matplotlib.pyplot as plt

### 1.1. Memuat Data

In [58]:
try:
    data = pd.read_csv('vehicles_us.csv')
except:
    data = pd.read_csv('/datasets/vehicles_us.csv') 

data

Unnamed: 0,price,model_year,model,condition,cylinders,fuel,odometer,transmission,type,paint_color,is_4wd,date_posted,days_listed
0,9400,2011.0,bmw x5,good,6.0,gas,145000.0,automatic,SUV,,1.0,2018-06-23,19
1,25500,,ford f-150,good,6.0,gas,88705.0,automatic,pickup,white,1.0,2018-10-19,50
2,5500,2013.0,hyundai sonata,like new,4.0,gas,110000.0,automatic,sedan,red,,2019-02-07,79
3,1500,2003.0,ford f-150,fair,8.0,gas,,automatic,pickup,,,2019-03-22,9
4,14900,2017.0,chrysler 200,excellent,4.0,gas,80903.0,automatic,sedan,black,,2019-04-02,28
...,...,...,...,...,...,...,...,...,...,...,...,...,...
51520,9249,2013.0,nissan maxima,like new,6.0,gas,88136.0,automatic,sedan,black,,2018-10-03,37
51521,2700,2002.0,honda civic,salvage,4.0,gas,181500.0,automatic,sedan,white,,2018-11-14,22
51522,3950,2009.0,hyundai sonata,excellent,4.0,gas,128000.0,automatic,sedan,blue,,2018-11-15,32
51523,7455,2013.0,toyota corolla,good,4.0,gas,139573.0,automatic,sedan,black,,2018-07-02,71


### 1.2. Mengeksplorasi Data Awal

**Deskripsi Data**: 


- `price` — harga mobil
- `model_year` — tahun produksi mobil
- `model` — merk dan seri mobil
- `condition`  — kondisi mobil
- `cylinders` — jumlah silinder mesin mobil
- `fuel` — gas, disel, dan lain-lain.
- `odometer` — jarak tempuh kendaraan saat iklan ditayangkan  
- `transmission` — tipe transisi mobil
- `type` — tipe mobil
- `paint_color` — warna mobil
- `is_4wd` — apakah kendaraan memiliki penggerak 4 roda (tipe Boolean)
- `date_posted` — tanggal iklan ditayangkan 
- `days_listed` — jumlah hari iklan ditayangkan hingga dihapus 

In [59]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51525 entries, 0 to 51524
Data columns (total 13 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   price         51525 non-null  int64  
 1   model_year    47906 non-null  float64
 2   model         51525 non-null  object 
 3   condition     51525 non-null  object 
 4   cylinders     46265 non-null  float64
 5   fuel          51525 non-null  object 
 6   odometer      43633 non-null  float64
 7   transmission  51525 non-null  object 
 8   type          51525 non-null  object 
 9   paint_color   42258 non-null  object 
 10  is_4wd        25572 non-null  float64
 11  date_posted   51525 non-null  object 
 12  days_listed   51525 non-null  int64  
dtypes: float64(4), int64(2), object(7)
memory usage: 5.1+ MB


In [60]:
data.head(10)

Unnamed: 0,price,model_year,model,condition,cylinders,fuel,odometer,transmission,type,paint_color,is_4wd,date_posted,days_listed
0,9400,2011.0,bmw x5,good,6.0,gas,145000.0,automatic,SUV,,1.0,2018-06-23,19
1,25500,,ford f-150,good,6.0,gas,88705.0,automatic,pickup,white,1.0,2018-10-19,50
2,5500,2013.0,hyundai sonata,like new,4.0,gas,110000.0,automatic,sedan,red,,2019-02-07,79
3,1500,2003.0,ford f-150,fair,8.0,gas,,automatic,pickup,,,2019-03-22,9
4,14900,2017.0,chrysler 200,excellent,4.0,gas,80903.0,automatic,sedan,black,,2019-04-02,28
5,14990,2014.0,chrysler 300,excellent,6.0,gas,57954.0,automatic,sedan,black,1.0,2018-06-20,15
6,12990,2015.0,toyota camry,excellent,4.0,gas,79212.0,automatic,sedan,white,,2018-12-27,73
7,15990,2013.0,honda pilot,excellent,6.0,gas,109473.0,automatic,SUV,black,1.0,2019-01-07,68
8,11500,2012.0,kia sorento,excellent,4.0,gas,104174.0,automatic,SUV,,1.0,2018-07-16,19
9,9200,2008.0,honda pilot,excellent,,gas,147191.0,automatic,SUV,blue,1.0,2019-02-15,17


In [61]:
data.sample(10)

Unnamed: 0,price,model_year,model,condition,cylinders,fuel,odometer,transmission,type,paint_color,is_4wd,date_posted,days_listed
9880,12995,2014.0,chevrolet equinox,good,4.0,gas,38358.0,automatic,SUV,white,,2019-04-11,11
48038,10499,2015.0,volkswagen passat,excellent,4.0,gas,67796.0,automatic,sedan,black,,2018-09-27,22
26485,29999,2011.0,ford econoline,like new,10.0,gas,117000.0,automatic,van,white,,2019-04-09,59
37849,7999,2011.0,gmc acadia,excellent,6.0,gas,149000.0,automatic,SUV,white,1.0,2018-08-13,28
2665,8900,2008.0,chevrolet suburban,good,8.0,gas,239000.0,automatic,SUV,black,1.0,2018-07-29,18
49421,33995,2014.0,jeep grand cherokee,good,8.0,gas,90753.0,automatic,SUV,,1.0,2019-03-04,25
40051,11000,2010.0,chevrolet suburban,excellent,8.0,gas,194723.0,automatic,SUV,white,1.0,2018-10-12,35
12897,12995,2017.0,toyota camry,like new,4.0,gas,36000.0,automatic,sedan,silver,,2019-04-07,6
8250,4499,2010.0,honda civic lx,good,4.0,gas,,automatic,sedan,blue,,2018-07-29,3
42785,13995,2002.0,ford f350,excellent,8.0,diesel,185000.0,automatic,pickup,green,1.0,2018-06-22,23


**Kesimpulan sementara:**

* Dari 10 data pertama, terlihat ada beberapa nilai yang hilang. 
* Kolom `model_year` akan terlihat lebih rapih apabila menggunakan integer.
* Kolom `condition` terlihat lebih rapih apabila nilai string diganti dengan skala numerik.
* Kolom `date_posted` sebaiknya menggunakan format dtype datetime64.

In [62]:
data.isna().sum().sort_values(ascending=False)

is_4wd          25953
paint_color      9267
odometer         7892
cylinders        5260
model_year       3619
price               0
model               0
condition           0
fuel                0
transmission        0
type                0
date_posted         0
days_listed         0
dtype: int64

In [63]:
print(data['transmission'].unique())
print(data['type'].unique())

['automatic' 'manual' 'other']
['SUV' 'pickup' 'sedan' 'truck' 'coupe' 'van' 'convertible' 'hatchback'
 'wagon' 'mini-van' 'other' 'offroad' 'bus']


In [64]:
data.duplicated().sum()

0

**Kesimpulan sementara:**

* Kolom `model_year`, `cylinders`, `odometer`, `paint_color`, dan  `is_4wd` terdapat nilai hilang yang perlu dianalisis.
* Kolom `transmission` dan `type` terdapat nilai other yang merupakan anomali sehingga perlu dianalisis lebih dalam.
* Dataset tidak memiliki duplikat pada datanya.


In [65]:
data.describe()

Unnamed: 0,price,model_year,cylinders,odometer,is_4wd,days_listed
count,51525.0,47906.0,46265.0,43633.0,25572.0,51525.0
mean,12132.46492,2009.75047,6.125235,115553.461738,1.0,39.55476
std,10040.803015,6.282065,1.66036,65094.611341,0.0,28.20427
min,1.0,1908.0,3.0,0.0,1.0,0.0
25%,5000.0,2006.0,4.0,70000.0,1.0,19.0
50%,9000.0,2011.0,6.0,113000.0,1.0,33.0
75%,16839.0,2014.0,8.0,155000.0,1.0,53.0
max,375000.0,2019.0,12.0,990000.0,1.0,271.0


**Kesimpulan sementara:**

* Kolom `price` terdapat nilai yang tidak wajar, yaitu min price adalah 1.000000 sehingga perlu dianalisis.
* Kolom `transmission` dan `type` terdapat nilai other yang merupakan anomali sehingga perlu dianalisis lebih dalam.
* Dataset tidak memiliki duplikat pada datanya.


### Kesimpulan dan Langkah-Langkah Selanjutnya

#### **Nilai yang Hilang**

Setiap baris dalam tabel menyimpan data terkait harga sebuah mobil yang telah terjual. Sejumlah kolom menyimpan data yang mendeskripsikan mobil itu sendiri: tahun produksi, merk mobil, kondisi mobil, silinder mesin, tipe gas, jarak tembuh mobil, tipe transisi, tipe mobil, warna mobil, dan tipe kendaraan yang memiliki penggerak 4 roda. Sisanya menyimpan data terkait informasi mobil terjual: tanggal iklan ditayangkan serta hari iklan ditayangkan hingga dihapus.

Jelas bahwa data yang kita miliki cukup untuk menguji hipotesis. Meski demikian, kita memiliki nilai-nilai yang hilang.

* Nilai yang hilang dalam kolom `cylinders` dan `is_4wd` tidak begitu penting karena nilai yang hilang tersebut tidak berpengaruh terhadap penelitian. Cukup menggantinya dengan penanda yang jelas. 
* Nilai yang hilang dalam kolom `model_year`, `odometer`, dan `paint_color` dapat memengaruhi perbandingan harga sebuah kendaraan. Oleh sebab itu perlu dilakukan evaluasi mengenai seberapa besar nilai yang hilang dapat memengaruhi perhitungan.

Alasan mengapa data tersebut hilang sangatlah berguna untuk mempelajari dan mencoba memperbaikinya namun sayangnya, kita belum memiliki kesempatan tersebut dalam proyek ini.

#### **Gaya Penulisan**

Setelah mengatasi nilai-nilai yang hilang, langkah selanjutnya yaitu merapihkan data:

* Mengubah nilai pada kolom `model_year` menjadi integer.
* Mengganti nilai pada kolom `condition` menjadi skala numerik.
* Mengubah format dtype pada kolom `date_posted` menjadi format datetime64.
* Akan lebih baik apabila terdapat data tentang hari dalam minggu, bulan, dan tahun iklan ditayangkan.
* Menambahkan kolom baru tentang usia kendaraan (dalam tahun) ketika iklan ditayangkan dan jarak tempuh rata-rata kendaraan per tahun.

#### **Duplikat**

Selanjutnya memeriksa duplikat pada data. Namun, pada dataset ini tidak memiliki data duplikat pada data. Sehingga tidak perlu dilakukan analisis duplikat awal.

#### **Anomali Data**

Setelah memeriksa data duplikat perlu memepertimbangkan data anomali berikut, karena data tersebut mempengaruhi analisis penelitian.

* Pada kolom `price` terdapat nilai harga mobil yang tidak wajar, yaitu 1.000000.
* Pada kolom `transmission` dan `type` terdapat nilai **other** yang seharusnya diketahui karena merupakan data yang mendeskripsikan mobil itu sendiri.

### 1.3. Mengatasi Nilai-Nilai yang Hilang

In [66]:
data.isna().sum().sort_values(ascending=False)

is_4wd          25953
paint_color      9267
odometer         7892
cylinders        5260
model_year       3619
price               0
model               0
condition           0
fuel                0
transmission        0
type                0
date_posted         0
days_listed         0
dtype: int64

**Langkah pertama** dalam menangani nilai-nilai yang hilang yaitu menghitung persentasenya serta dibandingkan dengan keseluruhan data untuk mengetahui dampak dari nilai-nilai yang hilang tersebut terhadap dataset.

In [67]:
for col in data.columns:
    missing = data[col].isnull().sum()
    total = data[col].shape[0]
    percent = (missing/total) * 100
    print(f"Kolom {col}: {percent:.2f}% nilai yang hilang.")

Kolom price: 0.00% nilai yang hilang.
Kolom model_year: 7.02% nilai yang hilang.
Kolom model: 0.00% nilai yang hilang.
Kolom condition: 0.00% nilai yang hilang.
Kolom cylinders: 10.21% nilai yang hilang.
Kolom fuel: 0.00% nilai yang hilang.
Kolom odometer: 15.32% nilai yang hilang.
Kolom transmission: 0.00% nilai yang hilang.
Kolom type: 0.00% nilai yang hilang.
Kolom paint_color: 17.99% nilai yang hilang.
Kolom is_4wd: 50.37% nilai yang hilang.
Kolom date_posted: 0.00% nilai yang hilang.
Kolom days_listed: 0.00% nilai yang hilang.


**Kesimpulan sementara:**

* Persentase data yang hilang pada pada kolom `is_4wd` yaitu 50.37%.
* Persentase data yang hilang pada pada kolom `paint_color` yaitu 17.99%. 
* Persentase data yang hilang pada pada kolom `odometer` yaitu 15.32%.
* Persentase data yang hilang pada pada kolom `cylinders` yaitu 10.21%.
* Persentase data yang hilang pada pada kolom `model_year` yaitu 7.02%.

Dalam beberapa situasi, nilai yang hilang jika bagiannya tidak banyak (katakanlah, 5-10%), nilai tersebut dapat dihapus.


**Langkah kedua** dalam menangani nilai-nilai yang hilang yaitu menentukan nilai yang hilang termasuk dalam variabel kategoris atau kuantitatif.

In [68]:
def find_missing_variable_type(data):
    
    missing_variable_type = {}
    
    for col in data.columns:
        unique_values = data[col].nunique()
        
        # Jika ada kurang dari 10 nilai unik, asumsikan kolom tersebut adalah kategoris
        if unique_values < 10:
            missing_variable_type[col] = "kategoris"
        # Kalau tidak, asumsikan kolom itu kuantitatif
        else:
            missing_variable_type[col] = "kuantitatif"
    
    return missing_variable_type

In [69]:
missing_variable_type = find_missing_variable_type(data)
print(missing_variable_type)

{'price': 'kuantitatif', 'model_year': 'kuantitatif', 'model': 'kuantitatif', 'condition': 'kategoris', 'cylinders': 'kategoris', 'fuel': 'kategoris', 'odometer': 'kuantitatif', 'transmission': 'kategoris', 'type': 'kuantitatif', 'paint_color': 'kuantitatif', 'is_4wd': 'kategoris', 'date_posted': 'kuantitatif', 'days_listed': 'kuantitatif'}


**Kesimpulan sementara:**

* Kolom `is_4wd` memiliki nilai hilang yang termasuk variabel katagoris.
* Kolom `paint_color` memiliki nilai hilang yang termasuk variabel kuantitatif. 
* Kolom `odometer` memiliki nilai hilang yang termasuk variabel kuantitatif.
* Kolom `cylinders` memiliki nilai hilang yang termasuk variabel katagoris.
* Kolom `model_year` memiliki nilai hilang yang termasuk variabel kuantitatif.

**Langkah ketiga** dalam menangani nilai-nilai yang hilang yaitu:


1. Jika kategoris maka ditentukan apakah nilai yang hilang memiliki suatu pola. 
* Jika nilainya tidak terdapat pola, nilai tersebut dapat diganti dengan nilai default, seperti string kosong atau kata tertentu. 
* Jika berpola, maka perlu analisis lebih lanjut.


2. Jika kuantitatif maka ditentukan apakah data memiliki outlier yang signifikan.
* Jika tidak terdapat outlier yang signifikan, nilai tersebut dapat dihitung rata-rata data pada kolom atau seluruh dataset.
* Jika data memiliki oulier yang signifikan, nilai tersebut dapat dihitung median data pada kolom atau seluruh dataset.

In [70]:
def check_missing_pattern(data):
    
    missing_pattern = {}
    
    for col in data.columns:
        # Buat boolean mask untuk mengidentifikasi nilai yang hilang
        mask = data[col].isnull()
        # Dapatkan jumlah nilai yang hilang
        missing = data[col].isnull().sum()
        
        # Jika tidak ada nilai yang hilang, polanya adalah "none"
        if missing == 0:
            missing_pattern[col] = "none"
        # Jika ada nilai yang hilang, periksa apakah ada polanya
        else:
            # Buat boolean mask untuk mengidentifikasi nilai yang tidak hilang
            mask_not_missing = ~mask
            # Hitung jumlah nilai unik di kolom
            unique_values = data[col].nunique()
            # Jika ada lebih sedikit nilai unik daripada nilai yang hilang, polanya adalah "random"
            if unique_values < missing:
                missing_pattern[col] = "random"
            # Jika tidak, polanya adalah "pattern"
            else:
                missing_pattern[col] = "pattern"
    
    return missing_pattern


In [71]:
missing_pattern = check_missing_pattern(data)
print(missing_pattern)

{'price': 'none', 'model_year': 'random', 'model': 'none', 'condition': 'none', 'cylinders': 'random', 'fuel': 'none', 'odometer': 'pattern', 'transmission': 'none', 'type': 'none', 'paint_color': 'random', 'is_4wd': 'random', 'date_posted': 'none', 'days_listed': 'none'}


**Kesimpulan sementara:**

* Kolom `is_4wd` memiliki nilai hilang yang tidak berpola.
* Kolom `paint_color` memiliki nilai tidak berpola. 
* Kolom `odometer` memiliki nilai hilang yang berpola.
* Kolom `cylinders` memiliki nilai hilang yang tidak berpola.
* Kolom `model_year` memiliki nilai hilang yang tidak berpola.

**Kolom `is_4wd`** memiliki nilai hilang sebesar 50.37% dengan variabel katagoris dan tidak berpola. Maka nilai hilang tersebut dapat diisi dengan nilai yang lainnya, yaitu 1.0.

In [72]:
data['is_4wd'] = data['is_4wd'].fillna(1.0)

**Kolom `paint_color`** memiliki nilai hilang sebesar 17.99% dengan variabel kuantitatif. Maka nilai hilang tersebut ditentukan terlebih dahulu outliernya.

**Kolom `odometer`** memiliki nilai hilang sebesar 15.32% dengan variabel kuantitatif. Maka nilai hilang tersebut ditentukan terlebih dahulu outliernya.

**Kolom `cylinders`** memiliki nilai hilang sebesar 10.21% dengan variabel katagoris dan tidak berpola. Maka nilai hilang tersebut perlu dianalisis lebih dalam. Namun karena memiliki persentase yang kecil, maka dapat diisi dengan penanda. Pada kasus ini diisi dengan 0 karena tidak berpengaruh pada penelitian.

In [73]:
data['cylinders'] = data['cylinders'].fillna(0.0)

**Kolom `model_year`** memiliki nilai hilang sebesar 7.02% dengan variabel kuantitatif. Maka nilai hilang tersebut akan ditentukan terlebih dahulu outliernya. Walaupun memiliki persentase yang kecil, namun nilai ini berpengaruh terhadap penelitian. 

In [74]:
data.isna().sum().sort_values(ascending=False)

paint_color     9267
odometer        7892
model_year      3619
price              0
model              0
condition          0
cylinders          0
fuel               0
transmission       0
type               0
is_4wd             0
date_posted        0
days_listed        0
dtype: int64

Nilai hilang pada tiap kolom sementara diisi dengan median untuk mempermudah riset penelitan. Hipotesis awal adalah nilai tersebut memiliki outlier yang signifikan. Data dibuat baru agar tidak mempengaruhi data awal.

In [75]:
data_new = data.copy()

def fill_missing_value (dataframe, agg_column, value_column):
    
    # Menghitung nilai median untuk setiap grup di kolom agregasi
    grouped_values = dataframe.groupby(agg_column)[value_column].median().reset_index()
    
    # Mengsi nilai yang hilang pada kolom dengan nilai median yang dihitung untuk setiap grup
    dataframe[value_column] = dataframe[value_column].fillna(dataframe[agg_column].map(grouped_values.set_index(agg_column)[value_column]))
    
    return dataframe

In [76]:
# mengisi nilai yang hilang pada kolom odometer
data_new = fill_missing_value(data_new, 'condition', 'odometer')

# mengisi nilai yang hilang pada kolom model_year
data_new = fill_missing_value(data_new, 'model', 'model_year') 


Nilai hilang pada kolom `paint_color` untuk sementara diisi dengan 'unknown' karena tidak diketahui secara pasti.

In [77]:
data_new['paint_color'] = data_new['paint_color'].fillna('unknown')

In [78]:
data_new.isna().sum()

price           0
model_year      0
model           0
condition       0
cylinders       0
fuel            0
odometer        0
transmission    0
type            0
paint_color     0
is_4wd          0
date_posted     0
days_listed     0
dtype: int64

### 1.4 Memperbaiki Tipe Data

Data pada kolom `model_year` diubah menjadi integer.

In [79]:
data_new['model_year'] = data_new['model_year'].astype(int)

Data pada kolom `condition` diubah menjadi skala numerik.

In [80]:
def conditions(scale):   
    if scale == 'new':
        return 5
    if scale == 'like new':
        return 4
    if scale == 'excellent':
        return 3
    if scale == 'good':
        return 2
    if scale == 'fair':
        return 1
    else:
        return 0
    return 'Unidentified' 

In [81]:
data_new['condition'] = data_new['condition'].apply(conditions)
data_new['condition'].value_counts()

3    24773
2    20145
4     4742
1     1607
5      143
0      115
Name: condition, dtype: int64

Data pada kolom `date_posted` diubah formatnya menjadi format datetime64.

In [82]:
data_new['date_posted'] = pd.to_datetime(data_new['date_posted'], format='%Y-%m-%d')
data_new['date_posted'].info()

<class 'pandas.core.series.Series'>
RangeIndex: 51525 entries, 0 to 51524
Series name: date_posted
Non-Null Count  Dtype         
--------------  -----         
51525 non-null  datetime64[ns]
dtypes: datetime64[ns](1)
memory usage: 402.7 KB


### 1.5 Memperbaiki Kualitas Data

Menambahkan kolom hari dalam minggu, bulan, dan tahun iklan ditayangkan.

In [83]:
data_new['day_of_week'] = data_new['date_posted'].dt.day_name()
data_new['month'] = data_new['date_posted'].dt.month_name()
data_new['year'] = data_new['date_posted'].dt.year

Menambahkan kolom usia kendaraan (dalam tahun) ketika iklan ditayangkan.

In [84]:
data_new['car_age'] = data_new['year'] - data_new['model_year']

Menambahkan kolom jarak tempuh rata-rata kendaraan per tahun.

In [85]:
data_new['avg_mileage'] = data_new['odometer'] / data_new['car_age'].mean()

### Memeriksa Data yang Sudah Bersih

In [86]:
data_new.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51525 entries, 0 to 51524
Data columns (total 18 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   price         51525 non-null  int64         
 1   model_year    51525 non-null  int32         
 2   model         51525 non-null  object        
 3   condition     51525 non-null  int64         
 4   cylinders     51525 non-null  float64       
 5   fuel          51525 non-null  object        
 6   odometer      51525 non-null  float64       
 7   transmission  51525 non-null  object        
 8   type          51525 non-null  object        
 9   paint_color   51525 non-null  object        
 10  is_4wd        51525 non-null  float64       
 11  date_posted   51525 non-null  datetime64[ns]
 12  days_listed   51525 non-null  int64         
 13  day_of_week   51525 non-null  object        
 14  month         51525 non-null  object        
 15  year          51525 non-null  int64 

In [87]:
data_new.sample(10)

Unnamed: 0,price,model_year,model,condition,cylinders,fuel,odometer,transmission,type,paint_color,is_4wd,date_posted,days_listed,day_of_week,month,year,car_age,avg_mileage
43825,4900,2005,gmc yukon,3,8.0,gas,235963.0,automatic,SUV,white,1.0,2018-07-05,52,Thursday,July,2018,13,27715.011603
4949,16395,2017,ford escape,3,4.0,gas,104230.0,automatic,SUV,unknown,1.0,2018-06-21,109,Thursday,June,2018,1,12242.324684
50956,4750,2009,ford escape,2,6.0,gas,156708.0,automatic,SUV,red,1.0,2019-02-24,6,Sunday,February,2019,10,18406.123156
38910,18500,2017,ram 1500,3,8.0,gas,76000.0,automatic,pickup,grey,1.0,2019-04-01,27,Monday,April,2019,2,8926.572733
47854,22991,2016,honda odyssey,3,6.0,gas,43606.0,automatic,mini-van,white,1.0,2018-09-21,51,Friday,September,2018,2,5121.738561
934,14995,2011,gmc sierra 1500,2,0.0,gas,129000.0,automatic,truck,grey,1.0,2019-02-04,22,Monday,February,2019,8,15151.682665
19167,17990,2008,jeep wrangler unlimited,3,6.0,gas,71000.0,automatic,SUV,black,1.0,2018-10-04,24,Thursday,October,2018,10,8339.298211
50208,6900,1999,gmc sierra 1500,2,8.0,gas,180300.0,automatic,truck,grey,1.0,2018-12-30,28,Sunday,December,2018,19,21177.11926
44794,4950,2007,toyota camry,3,4.0,gas,150477.0,automatic,sedan,white,1.0,2018-07-22,47,Sunday,July,2018,11,17674.261647
13322,8800,2008,honda odyssey,3,6.0,gas,120454.0,automatic,mini-van,grey,1.0,2019-01-19,119,Saturday,January,2019,11,14147.913053


## Mempelajari Parameter Inti 
[Pilih pendekatan yang tepat untuk mempelajari parameter yang tercantum di bawah ini, berikan perhatian khusus bagaimana *outlier* memengaruhi bentuk dan kemudahan pembacaan histogram.]

- Parameternya adalah 
- Harga
- Usia kendaraan ketika iklan ditayangkan
- Jarak tempuh
- Jumlah silinder 
- Kondisi

[Jika Anda merasa perlu untuk mengulangi pekerjaan yang sama beberapa kali, pikirkan tentang instrumen pengkodean apa yang mungkin berguna untuk hal tersebut guna menghindari penduplikasian kode Anda.]

In [None]:
#



In [None]:
#



In [None]:
#



In [None]:
#



In [None]:
#



In [None]:
#



## Mempelajari dan Menangani Outlier

[Dengan hasil di atas, tentukan kolom apa yang mungkin berisi *outlier*, dan buatlah sebuah DataFrame tanpa *outlier* tersebut. Petunjuk: *Outlier* dapat diidentifikasi dengan menentukan batas bawah/atas untuk rentang nilai normal.]

In [None]:
# Tentukan batas bawah outlier 


In [None]:
# Tentukan batas atas outlier 


In [None]:
# Simpan data tanpa outlier dalam DataFrame yang terpisah



## Mempelajari Parameter Inti Tanpa Outlier

[Gunakan data yang telah difilter untuk membuat grafik baru. Bandingkan dengan data sebelumnya (yang berisi *outlier*). Tarik kesimpulan masing-masing.]

## Masa Berlaku Iklan 
[Pelajari berapa hari iklan ditayangkan (`days_listed`). Hitung rata-rata dan mediannya. Jelaskan berapa lama umumnya sebuah iklan ditayangkan. Tentukan kapan iklan dihapus dengan cepat, dan kapan iklan ditayangkan dalam waktu yang sangat lama.]

## Harga Rata-Rata Setiap Jenis Kendaraan

[Lakukan analisis terhadap jumlah iklan dan harga rata-rata untuk setiap jenis kendaraan. Buatlah grafik yang menunjukkan ketergantungan jumlah iklan pada jenis kendaraan. Pilih dua jenis kendaraan dengan jumlah iklan yang paling banyak.]

## Faktor Harga

[Apakah faktor yang paling memengaruhi harga kendaraan? Ambil masing-masing jenis kendaraan populer yang Anda temukan pada tahap sebelumnya dan pelajari apakah harganya bergantung pada usia, jarak tempuh, kondisi, tipe transmisi, dan warnanya. Buatlah grafik *boxplot* untuk variabel kategorik (jenis transmisi dan warna), lalu buatlah *scatterplot* untuk sisanya. Ketika menganalisis variabel kategorik, ingatlah bahwa kategori harus memiliki setidaknya 50 iklan. Jika tidak, parameternya tidak akan valid untuk digunakan saat analisis.]

[Manfaatkan matriks korelasi dan plot korelasi]

## Kesimpulan Umum
[Tuliskan kesimpulan penting Anda di bagian akhir ini, pastikan kesimpulan tersebut menyertakan kesimpulan yang menjelaskan cara Anda memproses dan menganalisis data. Laporkan nilai yang hilang, duplikat, *outlier*, dan kemungkinan alasan serta solusi untuk permasalahan yang harus Anda tangani. Jangan lupa untuk menghapus semua komentar dalam tanda kurung sebelum mengirimkan proyek Anda.]