# Faktor Apakah yang Menjual Sebuah Mobil?

Anda adalah seorang analis di Crankshaft List. Ratusan iklan kendaraan gratis ditayangkan di situs web Anda setiap hari. Anda perlu mempelajari kumpulan data selama beberapa tahun terakhir dan menentukan faktor-faktor yang memengaruhi harga sebuah kendaraan.

## Tujuan

Proyek ini befokus pada Exploratory Data Analysis(EDA) dan Data Visualization. Hasil analisis diharapkan akan membantu  dalam mengidentifikasi outlier serta menemukan pola dalam data. Hasil visualisasi data akan membantu menjelaskan ketergantungan data dengan menggambarkan data ke dalam bentuk visual yang lebih mudah dipahami.

### Hipotesis

1. Apakah terdapat hubungan antara tahun terbitnya mobil dan probabilitas harga sebuah mobil?
2. Apakah terdapat hubungan antara jarak tempuh mobil dan probabilitas harga sebuah mobil?
3. Apakah terdapat hubungan antara kondisi mobil dan probabilitas harga sebuah mobil?
4. Bagaimana perbedaan tipe transmisi mobil memengaruhi probabilitas harga sebuah mobil?
5. Bagaimana perbedaan Warna mobil memengaruhi probabilitas harga sebuah mobil?

### Tahapan

Data tentang spesifikasi mobil disimpan dalam file `/datasets/vehicles_us.csv`. Tidak ada informasi terkait kualitas data tersebut, jadi perlu dilakukan pemeriksaan terlebih dahulu sebelum menguji hipotesis.

Proyek ini akan terdiri dari tiga tahap:

1. Pra-pemrosesan Data
2. Pengujian Hipotesis Data
3. Analisis Data Exploratif (EDA)


## 1. Pra-pemrosesan

**Import *library* yang dibutuhkan:**

In [2]:
import pandas as pd

### 1.1 Memuat Data

In [3]:
try:
    data = pd.read_csv('vehicles_us.csv')
except:
    data = pd.read_csv('/datasets/vehicles_us.csv') 

data

Unnamed: 0,price,model_year,model,condition,cylinders,fuel,odometer,transmission,type,paint_color,is_4wd,date_posted,days_listed
0,9400,2011.0,bmw x5,good,6.0,gas,145000.0,automatic,SUV,,1.0,2018-06-23,19
1,25500,,ford f-150,good,6.0,gas,88705.0,automatic,pickup,white,1.0,2018-10-19,50
2,5500,2013.0,hyundai sonata,like new,4.0,gas,110000.0,automatic,sedan,red,,2019-02-07,79
3,1500,2003.0,ford f-150,fair,8.0,gas,,automatic,pickup,,,2019-03-22,9
4,14900,2017.0,chrysler 200,excellent,4.0,gas,80903.0,automatic,sedan,black,,2019-04-02,28
...,...,...,...,...,...,...,...,...,...,...,...,...,...
51520,9249,2013.0,nissan maxima,like new,6.0,gas,88136.0,automatic,sedan,black,,2018-10-03,37
51521,2700,2002.0,honda civic,salvage,4.0,gas,181500.0,automatic,sedan,white,,2018-11-14,22
51522,3950,2009.0,hyundai sonata,excellent,4.0,gas,128000.0,automatic,sedan,blue,,2018-11-15,32
51523,7455,2013.0,toyota corolla,good,4.0,gas,139573.0,automatic,sedan,black,,2018-07-02,71


### Mengeksplorasi Data Awal

**Deskripsi Data**: 


- `price` — harga mobil
- `model_year` — tahun produksi mobil
- `model` — merk dan seri mobil
- `condition`  — kondisi mobil
- `cylinders` — jumlah silinder mesin mobil
- `fuel` — gas, disel, dan lain-lain.
- `odometer` — jarak tempuh kendaraan saat iklan ditayangkan  
- `transmission` — tipe transisi mobil
- `type` — tipe mobil
- `paint_color` — warna mobil
- `is_4wd` — apakah kendaraan memiliki penggerak 4 roda (tipe Boolean)
- `date_posted` — tanggal iklan ditayangkan 
- `days_listed` — jumlah hari iklan ditayangkan hingga dihapus 

In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51525 entries, 0 to 51524
Data columns (total 13 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   price         51525 non-null  int64  
 1   model_year    47906 non-null  float64
 2   model         51525 non-null  object 
 3   condition     51525 non-null  object 
 4   cylinders     46265 non-null  float64
 5   fuel          51525 non-null  object 
 6   odometer      43633 non-null  float64
 7   transmission  51525 non-null  object 
 8   type          51525 non-null  object 
 9   paint_color   42258 non-null  object 
 10  is_4wd        25572 non-null  float64
 11  date_posted   51525 non-null  object 
 12  days_listed   51525 non-null  int64  
dtypes: float64(4), int64(2), object(7)
memory usage: 5.1+ MB


In [5]:
data.head(10)

Unnamed: 0,price,model_year,model,condition,cylinders,fuel,odometer,transmission,type,paint_color,is_4wd,date_posted,days_listed
0,9400,2011.0,bmw x5,good,6.0,gas,145000.0,automatic,SUV,,1.0,2018-06-23,19
1,25500,,ford f-150,good,6.0,gas,88705.0,automatic,pickup,white,1.0,2018-10-19,50
2,5500,2013.0,hyundai sonata,like new,4.0,gas,110000.0,automatic,sedan,red,,2019-02-07,79
3,1500,2003.0,ford f-150,fair,8.0,gas,,automatic,pickup,,,2019-03-22,9
4,14900,2017.0,chrysler 200,excellent,4.0,gas,80903.0,automatic,sedan,black,,2019-04-02,28
5,14990,2014.0,chrysler 300,excellent,6.0,gas,57954.0,automatic,sedan,black,1.0,2018-06-20,15
6,12990,2015.0,toyota camry,excellent,4.0,gas,79212.0,automatic,sedan,white,,2018-12-27,73
7,15990,2013.0,honda pilot,excellent,6.0,gas,109473.0,automatic,SUV,black,1.0,2019-01-07,68
8,11500,2012.0,kia sorento,excellent,4.0,gas,104174.0,automatic,SUV,,1.0,2018-07-16,19
9,9200,2008.0,honda pilot,excellent,,gas,147191.0,automatic,SUV,blue,1.0,2019-02-15,17


**Kesimpulan sementara:**

* Dari 10 data pertama, terlihat ada beberapa nilai yang hilang. 
* `model_year` akan terlihat lebih rapih apabila menggunakan integer.
* `condition` akan terlihat lebih rapih apabila nilai string diganti dengan skala numerik.

In [6]:
data['type'].unique()

array(['SUV', 'pickup', 'sedan', 'truck', 'coupe', 'van', 'convertible',
       'hatchback', 'wagon', 'mini-van', 'other', 'offroad', 'bus'],
      dtype=object)

[Apakah terdapat kolom dengan tipe data yang tidak sesuai?]

In [7]:
data['is_4wd'].unique()

array([ 1., nan])

[Apakah terdapat nilai yang hilang di semua kolom atau hanya beberapa? Kolom apakah yang berisi paling banyak nilai yang hilang? Jelaskan secara singkat apa yang Anda amati dalam 1-2 kalimat.]

### Kesimpulan dan Langkah-Langkah Selanjutnya

* Akan lebih baik apabila terdapat data tentang hari dalam minggu, bulan, dan tahun iklan ditayangkan.

[Rumuskan kesimpulan Anda tentang data awal. Menurut Anda apa yang terlihat normal dan apa yang tidak?] 
[Jelaskan langkah Anda selanjutnya dan bagaimana hubungannya dengan kesimpulan yang Anda buat sejauh ini. Khususnya, Anda harus menyatakan dengan jelas bagian data mana yang harus ditangani agar lebih sesuai untuk analisis yang diperlukan.]

## Mengatasi Nilai-Nilai yang Hilang (Jika Ada)

[Pelajari nilai yang hilang untuk setiap kolom secara lebih detail dan putuskan apa yang harus dilakukan dengan nilai tersebut berdasarkan hipotesis.]

## Memperbaiki Tipe Data

[Karena data kurang lebih telah lengkap, maka perbaiki tipe datanya jika dibutuhkan.]

## Memperbaiki Kualitas Data

[Berikan faktor tambahan pada data agar lebih mudah dianalisis.]

In [None]:
# Tambahkan nilai waktu dan tanggal pada saat iklan ditayangkan 


In [None]:
# Tambahkan usia kendaraan saat iklan ditayangkan


In [None]:
# Tambahkan jarak tempuh rata-rata kendaraan per tahun 


In [None]:
# Mungkin membantu untuk mengganti nilai pada kolom 'condition' dengan sesuatu yang dapat dimanipulasi dengan lebih mudah 



## Memeriksa Data yang Sudah Bersih

[Mengingat data sudah siap untuk dianalisis, mari kita lihat data Anda sekilas lagi. Sangat berguna untuk melihat apa yang sebenarnya akan Anda gunakan untuk analisis.]

In [None]:
# tampilkan informasi/rangkuman umum tentang DataFrame



In [None]:
# tampilkan sampel data 


## Mempelajari Parameter Inti 
[Pilih pendekatan yang tepat untuk mempelajari parameter yang tercantum di bawah ini, berikan perhatian khusus bagaimana *outlier* memengaruhi bentuk dan kemudahan pembacaan histogram.]

- Parameternya adalah 
- Harga
- Usia kendaraan ketika iklan ditayangkan
- Jarak tempuh
- Jumlah silinder 
- Kondisi

[Jika Anda merasa perlu untuk mengulangi pekerjaan yang sama beberapa kali, pikirkan tentang instrumen pengkodean apa yang mungkin berguna untuk hal tersebut guna menghindari penduplikasian kode Anda.]

In [None]:
#



In [None]:
#



In [None]:
#



In [None]:
#



In [None]:
#



In [None]:
#



## Mempelajari dan Menangani Outlier

[Dengan hasil di atas, tentukan kolom apa yang mungkin berisi *outlier*, dan buatlah sebuah DataFrame tanpa *outlier* tersebut. Petunjuk: *Outlier* dapat diidentifikasi dengan menentukan batas bawah/atas untuk rentang nilai normal.]

In [None]:
# Tentukan batas bawah outlier 


In [None]:
# Tentukan batas atas outlier 


In [None]:
# Simpan data tanpa outlier dalam DataFrame yang terpisah



## Mempelajari Parameter Inti Tanpa Outlier

[Gunakan data yang telah difilter untuk membuat grafik baru. Bandingkan dengan data sebelumnya (yang berisi *outlier*). Tarik kesimpulan masing-masing.]

## Masa Berlaku Iklan 
[Pelajari berapa hari iklan ditayangkan (`days_listed`). Hitung rata-rata dan mediannya. Jelaskan berapa lama umumnya sebuah iklan ditayangkan. Tentukan kapan iklan dihapus dengan cepat, dan kapan iklan ditayangkan dalam waktu yang sangat lama.]

## Harga Rata-Rata Setiap Jenis Kendaraan

[Lakukan analisis terhadap jumlah iklan dan harga rata-rata untuk setiap jenis kendaraan. Buatlah grafik yang menunjukkan ketergantungan jumlah iklan pada jenis kendaraan. Pilih dua jenis kendaraan dengan jumlah iklan yang paling banyak.]

## Faktor Harga

[Apakah faktor yang paling memengaruhi harga kendaraan? Ambil masing-masing jenis kendaraan populer yang Anda temukan pada tahap sebelumnya dan pelajari apakah harganya bergantung pada usia, jarak tempuh, kondisi, tipe transmisi, dan warnanya. Buatlah grafik *boxplot* untuk variabel kategorik (jenis transmisi dan warna), lalu buatlah *scatterplot* untuk sisanya. Ketika menganalisis variabel kategorik, ingatlah bahwa kategori harus memiliki setidaknya 50 iklan. Jika tidak, parameternya tidak akan valid untuk digunakan saat analisis.]

[Manfaatkan matriks korelasi dan plot korelasi]

## Kesimpulan Umum
[Tuliskan kesimpulan penting Anda di bagian akhir ini, pastikan kesimpulan tersebut menyertakan kesimpulan yang menjelaskan cara Anda memproses dan menganalisis data. Laporkan nilai yang hilang, duplikat, *outlier*, dan kemungkinan alasan serta solusi untuk permasalahan yang harus Anda tangani. Jangan lupa untuk menghapus semua komentar dalam tanda kurung sebelum mengirimkan proyek Anda.]