# Study Case 01 - Data Mining dan Business Intelligence : EDA Pada Data Property

**Kelompok A :**
1. M Dzaky Jaya (1806193640)
2. Michael Mario Bramanthyo Adhi (1906299534)
3. Rahmi Radhia (1906375796)
4. Rosyda Hanavania (1906299566)

## Kasus:
- Anda adalah seorang Data Analyst yang bekerja di PT Ray Pink Property Indonesia (RPPI).
- RPPI adalah perusahaan property yang berdiri sejak 11 tahun yang lalu.
- RPPI memliki kantor cabang di 7 propinsi di Indonesia dan jumlahnya terus bertambah.
- Valuasi RPPI tahun ini mencapai Rp 7 Trilyun, meningkat 7% dari tahun sebelumnya.
- Bidang usaha RPPI adalah investasi dan jual-beli property secara umum, termasuk bekerja sama dengan developer perumahan.
- Data Engineer (DE)/Database Administrator (DBA) RPPI berhasil mengumpulkan data rumah-rumah yang dijual di beberapa kota di Indonesia.
- Sebagai Data Analyst anda akan hadir dan melakukan presentasi pada rapat direksi untuk memberikan insight dari data ke upper management (C-Level, senior managers, dan komisaris perusahaan).
- Di studi kasus ini anda mempersiapkan "bahan presentasi" dengan cara melakukan EDA pada data yang diterima dari DE/DBA.

## Petunjuk
Di studi kasus pertama, anda mendapat bantuan keterangan dari manajemen. Setelah berdiskusi over lunch dengan beberapa manager senior, anda mendengar bahwa mereka ingin mengetahui:

1. Kualitas data yang dimiliki perusahaan.
2. Apakah ada saran perbaikan data ke DE/DBA perusahaan agar RPPI menjadi data driven company yang unggul.
3. Dari data yang ada, apakah ada kecenderungan rumah disuatu kota lebih mahal/murah dibandingkan kota lain?
4. Dari data yang ada, apakah bisa dibuat rekomendasi sebaiknya RPPI membuat kantor cabang berikutnya di kota mana? Mengapa? (Asumsikan RPPI belum memiliki cabang di kota-kota yang disebutkan di data).
5. Rumah dengan karakteristik seperti apa yang paling banyak dijual?
6. Jika RPPI ingin melakukan investasi (max) Rp. 25 Milyar minggu besok, apakah dari data anda dapat memberikan rekomendasi rumah mana saja yang akan berpotensi menghasilkan keuntungan bagi perusahaan?
7. Dan yang terpenting, informasi berharga apa lagi yang bisa anda dapatkan dari data?

## Catatan
- Anda diperbolehkan melakukan augmentasi data (menambah data eksternal).
- Yakinkan menuliskan asumsi anda atas kesimpulan dan rekomendasi yang diberikan ke perusahaan.
- Yakinkan kesimpulan dan rekomendasi ditujukan ke perusahaan (bukan dosen mata kuliah).
- Anda boleh menggunakan software visualisasi apapun, misal excel, Ms Word, Photoshop, dsb.
- Yakinkan file images dapat dibuka (nampak) saat ipynb di Jupyter notebook anda dibuka di Google Colab.
		- Tips: hati-hati dalam melakukan penamaan file, Google colab case sensitive.
- Interpretasi diberikan menggunakan cell markdown tepat dibawah output code yang relevan diatasnya.
- Anda tidak diperkenankan bertanya pertanyaan yang:
        - Merupakan jawaban atau menjurus ke jawaban studi kasus.
        - Debugging - code error (anda diharapkan melakukan code troubleshooting sendiri via mesin pencari)
- Pada studi kasus ini anda hanya diperkenankan untuk melakukan EDA (bukan modeling seperti prediksi/forecasting)

## Komponen Penilaian:
- Code tidak diubah sejak deadline studi kasus.
- Code dapat di "Run-All" di Google Colab oleh dosen tanpa error.
- Pemilihan preprocessing dan visualisasi yang tepat
- Interpretasi dan rekomendasi dengan narasi dan kualitas yang baik, serta berdasarkan atas (pengolahan) data.
- Kreativitas dan inovasi pengolahan data dan penyajian visualisasi.

## 1. Preparation

### 1.1 Libraries and Utilities

In [1]:
#Data Manipulatiom
import pandas as pd
import numpy as np
import sklearn
import scipy

#Visualization
import seaborn as sns           
import matplotlib.pyplot as plt 
%matplotlib inline 
sns.set(color_codes=True)

#Modelling
from imblearn import under_sampling, over_sampling
from sklearn.model_selection import train_test_split
from sklearn import preprocessing
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from matplotlib import pyplot as plt
from sklearn.preprocessing import StandardScaler 
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score 
from sklearn.metrics import roc_auc_score
np.random.seed(1234)
from catboost import CatBoostClassifier
from lightgbm import LGBMClassifier
from sklearn.model_selection import cross_val_score
from sklearn.pipeline import Pipeline
from sklearn.feature_selection import RFE
from sklearn.model_selection import RepeatedStratifiedKFold

### 1.2 Data Loading

### Import Data

In [2]:
# Loading Data:
import pandas as pd

try: # Running Locally, yakinkan "file_" berada di folder "data"
    dfJ = pd.read_csv(r"C:\Users\USER\SEMESTER 7\Data Mining\Study Case 01 - EDA Pada Data Property\jakarta.csv", low_memory = False, encoding='utf8')
    dfD = pd.read_csv(r"C:\Users\USER\SEMESTER 7\Data Mining\Study Case 01 - EDA Pada Data Property\depok.csv", low_memory = False, encoding='utf8')
    dfB = pd.read_csv(r"C:\Users\USER\SEMESTER 7\Data Mining\Study Case 01 - EDA Pada Data Property\bogor.csv", low_memory = False, encoding='utf8')
    dfT = pd.read_csv(r"C:\Users\USER\SEMESTER 7\Data Mining\Study Case 01 - EDA Pada Data Property\tangerang.csv", low_memory = False, encoding='utf8')
    dfX = pd.read_csv(r"C:\Users\USER\SEMESTER 7\Data Mining\Study Case 01 - EDA Pada Data Property\bekasi.csv", low_memory = False, encoding='utf8')    
except: # Running in Google Colab
    !mkdir data
    !wget -P data/ https://raw.githubusercontent.com/taufiksutanto/ADM-Case-01-EDA/master/data/jakarta.csv
    !wget -P data/ https://raw.githubusercontent.com/taufiksutanto/ADM-Case-01-EDA/master/data/depok.csv
    !wget -P data/ https://raw.githubusercontent.com/taufiksutanto/ADM-Case-01-EDA/master/data/bogor.csv
    !wget -P data/ https://raw.githubusercontent.com/taufiksutanto/ADM-Case-01-EDA/master/data/tangerang.csv
    !wget -P data/ https://raw.githubusercontent.com/taufiksutanto/ADM-Case-01-EDA/master/data/bekasi.csv
    dfJ = pd.read_csv("data/jakarta.csv", low_memory = False, encoding='utf8')
    dfD = pd.read_csv("data/depok.csv", low_memory = False, encoding='utf8')
    dfB = pd.read_csv("data/bogor.csv", low_memory = False, encoding='utf8')
    dfT = pd.read_csv("data/tangerang.csv", low_memory = False, encoding='utf8')
    dfX = pd.read_csv("data/bekasi.csv", low_memory = False, encoding='utf8')
    
dfJ.shape, dfD.shape, dfB.shape, dfT.shape, dfX.shape

((1024, 26), (998, 26), (999, 26), (128, 26), (992, 26))

### 1.3 Data Understanding

Keterangan Varabel:
* Created_at: Tanggal dimana iklan rumah dibuat
* LT		: Luas Tanah properti yang ditawarkan
* LB		: Luas Bangunan properti yang ditawarkan
* KT		: Jumlah Kamar Tidur properti yang ditawarkan
* KM		: Jumlah Kamar Mandi properti yang ditawarkan
* Garasi	: Jumlah Kapasitas Garasi di properti yang ditawarkan
* Carport	: Jumlah kapasitas Carport di properti yang ditawarkan
* Lokasi	: Detail lokasi properti yang ditawarkan
* Sertifikat: Jenis sertifikat properti yang ditawarkan
* Listrik	: Daya listrik dari properti yang ditawarkan
* Hadap		: Keterangan property yang ditawarkan menghadap ke arah mana
* Harga 	: Harga property yang ditawarkan dalam Rupiah
* URL		: Alamat tautan (link) property yang ditawarkan.
* Deskripsi	: Deskripsi iklan property yang ditawarkan. 

### Menambahkan kolom "Kota"

In [3]:
dfJ = dfJ.assign(Kota = "Jakarta")
dfD = dfJ.assign(Kota = "Depok")
dfB = dfJ.assign(Kota = "Bogor")
dfT = dfJ.assign(Kota = "Tangerang")
dfX = dfJ.assign(Kota = "Bekasi")

### Menggabungkan data kelima kota

In [4]:
df = pd.concat([dfJ, dfD, dfB, dfT, dfX])
df.head()

Unnamed: 0,created_at,LT,LB,KT,KM,garasi,carport,lokasi,sertifikat,listrik,...,Unnamed: 17,Unnamed: 18,Unnamed: 19,Unnamed: 20,Unnamed: 21,Unnamed: 22,Unnamed: 23,Unnamed: 24,Unnamed: 25,Kota
0,06-12-2021,202.0,198.0,8.0,3.0,,,Jakarta Pusat,SHM,2200.0,...,,,,,,,,,,Jakarta
1,02-12-2021,30.0,55.0,2.0,1.0,,1.0,Jakarta Pusat,SHM,2200.0,...,,,,,,,,,,Jakarta
2,06-12-2021,19.0,35.0,2.0,1.0,,,Jakarta Pusat,SHM,2200.0,...,,,,,,,,,,Jakarta
3,06-12-2021,33.0,42.0,2.0,2.0,,1.0,Jakarta Pusat,SHM,2200.0,...,,,,,,,,,,Jakarta
4,06-12-2021,30.0,55.0,2.0,2.0,,1.0,Jakarta Pusat,SHM,2200.0,...,,,,,,,,,,Jakarta


In [6]:
list(df.columns)

['created_at',
 'LT',
 'LB',
 'KT',
 'KM',
 'garasi',
 'carport',
 'lokasi',
 'sertifikat',
 'listrik',
 'hadap',
 'harga',
 'URL',
 'deskripsi',
 'Unnamed: 14',
 'Unnamed: 15',
 'Unnamed: 16',
 'Unnamed: 17',
 'Unnamed: 18',
 'Unnamed: 19',
 'Unnamed: 20',
 'Unnamed: 21',
 'Unnamed: 22',
 'Unnamed: 23',
 'Unnamed: 24',
 'Unnamed: 25',
 'Kota']

In [7]:
df.dtypes

created_at      object
LT             float64
LB             float64
KT             float64
KM             float64
garasi         float64
carport        float64
lokasi          object
sertifikat      object
listrik        float64
hadap           object
harga          float64
URL             object
deskripsi       object
Unnamed: 14    float64
Unnamed: 15    float64
Unnamed: 16    float64
Unnamed: 17    float64
Unnamed: 18    float64
Unnamed: 19    float64
Unnamed: 20    float64
Unnamed: 21    float64
Unnamed: 22    float64
Unnamed: 23    float64
Unnamed: 24    float64
Unnamed: 25    float64
Kota            object
dtype: object

### Pengelompokkan Kolom Berdasarkan Tipe Data

In [8]:
# melihat kolom dengan tipe data yang berbeda (number dan object)

df_number = []
df_int = []
df_float = []
df_object = []

df_number.append(df.select_dtypes('number').columns.tolist()) # menampilkan nama kolom yang berisi data dengan tipe number
df_int.append(df.select_dtypes('integer').columns.tolist()) # menampilkan nama kolom yang berisi data dengan tipe number
df_float.append(df.select_dtypes('float').columns.tolist()) # menampilkan nama kolom yang berisi data dengan tipe number
df_object.append(df.select_dtypes('object').columns.tolist()) # menampilkan nama kolom yang berisi data dengan tipe object

print('Kolom bertipe Number (Integer/Float):\n\n',df_number,'\n')
print('Kolom bertipe Integer               :\n',df_int,'\n')
print('Kolom bertipe Float                 :\n',df_float,'\n')
print('Kolom bertipe Object                :\n\n',df_object)

Kolom bertipe Number (Integer/Float):

 [['LT', 'LB', 'KT', 'KM', 'garasi', 'carport', 'listrik', 'harga', 'Unnamed: 14', 'Unnamed: 15', 'Unnamed: 16', 'Unnamed: 17', 'Unnamed: 18', 'Unnamed: 19', 'Unnamed: 20', 'Unnamed: 21', 'Unnamed: 22', 'Unnamed: 23', 'Unnamed: 24', 'Unnamed: 25']] 

Kolom bertipe Integer               :
 [[]] 

Kolom bertipe Float                 :
 [['LT', 'LB', 'KT', 'KM', 'garasi', 'carport', 'listrik', 'harga', 'Unnamed: 14', 'Unnamed: 15', 'Unnamed: 16', 'Unnamed: 17', 'Unnamed: 18', 'Unnamed: 19', 'Unnamed: 20', 'Unnamed: 21', 'Unnamed: 22', 'Unnamed: 23', 'Unnamed: 24', 'Unnamed: 25']] 

Kolom bertipe Object                :

 [['created_at', 'lokasi', 'sertifikat', 'hadap', 'URL', 'deskripsi', 'Kota']]


In [9]:
#Feature yang data typenya float
df_float = df.select_dtypes(include='float').columns
print(df_float)

Index(['LT', 'LB', 'KT', 'KM', 'garasi', 'carport', 'listrik', 'harga',
       'Unnamed: 14', 'Unnamed: 15', 'Unnamed: 16', 'Unnamed: 17',
       'Unnamed: 18', 'Unnamed: 19', 'Unnamed: 20', 'Unnamed: 21',
       'Unnamed: 22', 'Unnamed: 23', 'Unnamed: 24', 'Unnamed: 25'],
      dtype='object')


### Data Preprocessing

In [10]:
# Total number of rows and columns
print("Dimensi data awal :", df.shape)
# df.shape

Dimensi data awal : (5120, 27)


### Statistika Deskriptif

In [11]:
### Summary Statistics ###
df.describe()

Unnamed: 0,LT,LB,KT,KM,garasi,carport,listrik,harga,Unnamed: 14,Unnamed: 15,Unnamed: 16,Unnamed: 17,Unnamed: 18,Unnamed: 19,Unnamed: 20,Unnamed: 21,Unnamed: 22,Unnamed: 23,Unnamed: 24,Unnamed: 25
count,605.0,605.0,605.0,605.0,220.0,450.0,600.0,605.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
mean,247.586777,279.495868,4.272727,3.380165,1.863636,1.955556,5425.0,8985955000.0,,,,,,,,,,,,
std,367.162799,284.32944,1.895446,1.703406,1.504801,1.469141,7865.196153,15823440000.0,,,,,,,,,,,,
min,16.0,21.0,1.0,1.0,1.0,1.0,900.0,380000000.0,,,,,,,,,,,,
25%,84.0,97.0,3.0,2.0,1.0,1.0,2200.0,1600000000.0,,,,,,,,,,,,
50%,135.0,200.0,4.0,3.0,1.0,2.0,3500.0,3400000000.0,,,,,,,,,,,,
75%,250.0,350.0,5.0,4.0,2.0,2.0,4425.0,7250000000.0,,,,,,,,,,,,
max,3422.0,2000.0,10.0,10.0,8.0,10.0,66000.0,105000000000.0,,,,,,,,,,,,


### Handling Missing Value

It is used to remove outliers and duplicates from the dataset. Moreover, it is a very common practice to scale the columns on a standard scale, it helps in faster convergence and gives better results.

In [12]:
sum(df.duplicated())

4510

In [13]:
#Remove Duplicate
df.drop_duplicates(inplace=True)
print(df.duplicated().sum()) # no more duplicates
print(df.shape) # re-check by printing data size

0
(610, 27)


### Memilih data object

In [14]:
#Feature yang data typenya object
df_object = df.select_dtypes(include='object').columns
print(df_object)

Index(['created_at', 'lokasi', 'sertifikat', 'hadap', 'URL', 'deskripsi',
       'Kota'],
      dtype='object')


In [15]:
obj = list(df_object)
df[obj].nunique()

created_at     19
lokasi          5
sertifikat      7
hadap          10
URL           120
deskripsi     112
Kota            5
dtype: int64

### Drop Variabel Kategorik yang Tidak Berguna

In [16]:
df.hadap.value_counts()

Timur              50
Utara              50
Selatan            25
Barat              20
timur              10
timur utara         5
Selatan & Barat     5
Timur Laut          5
Barat & Selatan     5
selatan             5
Name: hadap, dtype: int64

### Handling variabel "hadap"

In [17]:
df.hadap = df.hadap.str.lower()

In [18]:
df.replace({
"hadap" : ["selatan & barat","barat & selatan"]
}, {"hadap" : "selatan & barat"}, inplace = True)

In [19]:
df.hadap.value_counts()

timur              60
utara              50
selatan            30
barat              20
selatan & barat    10
timur utara         5
timur laut          5
Name: hadap, dtype: int64

In [20]:
df.URL.value_counts()

https://www.rumah.com/listing-properti/dijual-rumah-bangunan-baru-di-kalideres-permai-cengkareng-jakarta-barat-oleh-fransisca-ferra-jong-19021419    10
https://www.rumah.com/listing-properti/dijual-rumah-murah-cempaka-putih-jakarta-pusat-oleh-irwan-18848789                                             5
https://www.rumah.com/listing-properti/dijual-sunter-jakarta-utara-oleh-iin-maria-19274386                                                            5
https://www.rumah.com/listing-properti/dijual-koja-jakarta-utara-oleh-hera-18409487                                                                   5
https://www.rumah.com/listing-properti/dijual-koja-jakarta-utara-oleh-hera-18424942                                                                   5
                                                                                                                                                     ..
https://rumahdijual.com/tebet/8555409-dijual-rumah-tebet-timur-brand-new-tahap-finishing

karena data berbentuk URL maka dianggap data tidak berguna sehingga data URL akan dihapus

In [21]:
df.deskripsi.value_counts()

Dekat Cikini Salemba Taman Isamail Marzuki Kampus Universitas Indonesia UI YAI RSCM dan RS. PGI Cikini                                                                                                                                                                                                                                                                         5
Mengusung konsep minimalis, dan didukung dengan lingkungan yang tenang dan lokasi yang sangat strategis area Jakarta Pusat                                                                                                                                                                                                                                                     5
Dijual Cepat Rumah Koja Di Jakarta Utara Dng Luas 15 X 25 M2                                                                                                                                                                                                          

karena data berbentuk deskripsi maka dianggap data tidak berguna sehingga data deskripsi akan dihapus

In [22]:
del df['URL']
del df['deskripsi']

In [23]:
#Setelah menghapus beberapa variabel kategorik
df_object = df.select_dtypes(include='object').columns
print(df_object)

Index(['created_at', 'lokasi', 'sertifikat', 'hadap', 'Kota'], dtype='object')


### Memilih data numerik

In [24]:
#Setelah menghapus beberapa fitur numerik
df_float = df.select_dtypes(include='float').columns
print(df_float)

Index(['LT', 'LB', 'KT', 'KM', 'garasi', 'carport', 'listrik', 'harga',
       'Unnamed: 14', 'Unnamed: 15', 'Unnamed: 16', 'Unnamed: 17',
       'Unnamed: 18', 'Unnamed: 19', 'Unnamed: 20', 'Unnamed: 21',
       'Unnamed: 22', 'Unnamed: 23', 'Unnamed: 24', 'Unnamed: 25'],
      dtype='object')


### Drop Variabel Numerik yang Tidak Berguna

In [25]:
del df['Unnamed: 14']
del df['Unnamed: 15']
del df['Unnamed: 16']
del df['Unnamed: 17']
del df['Unnamed: 18']
del df['Unnamed: 19']
del df['Unnamed: 20']
del df['Unnamed: 21']
del df['Unnamed: 22']
del df['Unnamed: 23']
del df['Unnamed: 24']
del df['Unnamed: 25']

In [26]:
#Setelah menghapus beberapa numerik
df_float = df.select_dtypes(include='float').columns
print(df_float)

Index(['LT', 'LB', 'KT', 'KM', 'garasi', 'carport', 'listrik', 'harga'], dtype='object')


In [27]:
# Informasi Jumlah dan Persentase Missing Value

## general

df_mv = df.isnull().sum()                      # menampilkan jumlah total missing value per kolom
df_pmv = (df.isnull().sum()/len(df))*100     # menampilkan persentase missing value per kolom

df_missing = pd.concat([df_mv,df_pmv],axis = 1).reset_index() # menampilkan data dalam bentuk data frame

df_missing.columns = ['Kolom','Jumlah Missing Value','Persentase Missing Value']
missing_value = df_missing

print('Data Missing Value:\n')
print(missing_value.sample(5),'\n')
print('Persentase Missing Value Terbesar                  : ',missing_value['Persentase Missing Value'].max())
print('Persentase Missing Value Keseluruhan               : ',missing_value['Persentase Missing Value'].sum())


print('Data Duplikat:\n')
print('Jumlah terdapat data duplikat pada data df         : ',df.duplicated().sum(), '(',(df.duplicated().sum()/len(df))*100,'%',')')

Data Missing Value:

         Kolom  Jumlah Missing Value  Persentase Missing Value
10       hadap                   430                 70.491803
0   created_at                     5                  0.819672
12        Kota                     0                  0.000000
9      listrik                    10                  1.639344
2           LB                     5                  0.819672 

Persentase Missing Value Terbesar                  :  70.49180327868852
Persentase Missing Value Keseluruhan               :  170.49180327868854
Data Duplikat:

Jumlah terdapat data duplikat pada data df         :  0 ( 0.0 % )


In [28]:
print('Jumlah Data Missing Value:\n')
print(df.isnull().sum())

Jumlah Data Missing Value:

created_at      5
LT              5
LB              5
KT              5
KM              5
garasi        390
carport       160
lokasi          5
sertifikat     15
listrik        10
hadap         430
harga           5
Kota            0
dtype: int64


In [29]:
df.dropna(subset=["created_at"], axis=0, inplace=True)
df.dropna(subset=["LT"], axis=0, inplace=True)
df.dropna(subset=["LB"], axis=0, inplace=True)
df.dropna(subset=["KM"], axis=0, inplace=True)
df.dropna(subset=["lokasi"], axis=0, inplace=True)
df.dropna(subset=["sertifikat"], axis=0, inplace=True)
df.dropna(subset=["listrik"], axis=0, inplace=True)
df.dropna(subset=["harga"], axis=0, inplace=True)
df.reset_index(drop=True, inplace=True)

In [30]:
print('Jumlah Data Missing Value:\n')
print(df.isnull().sum())

Jumlah Data Missing Value:

created_at      0
LT              0
LB              0
KT              0
KM              0
garasi        380
carport       145
lokasi          0
sertifikat      0
listrik         0
hadap         410
harga           0
Kota            0
dtype: int64


Handling Missing Value untuk Variabel "hadap", "garasi", dan "carport dengan melakukan imputasi backwise, forward, dan mean

In [31]:
df.fillna(method = "ffill", limit = 2, inplace=True)

In [32]:
df.fillna(method = "bfill", limit = 2, inplace=True)

In [33]:
df.fillna({"hadap": dfJ.hadap.mode(),
             "garasi": dfJ.garasi.mean(),
             "carport": dfJ.carport.mean()
            }, inplace=True)

## Hasil data setelah di cleansing

In [34]:
df.head()

Unnamed: 0,created_at,LT,LB,KT,KM,garasi,carport,lokasi,sertifikat,listrik,hadap,harga,Kota
0,06-12-2021,202.0,198.0,8.0,3.0,1.863636,1.0,Jakarta Pusat,SHM,2200.0,Timur,4500000000.0,Jakarta
1,02-12-2021,30.0,55.0,2.0,1.0,1.863636,1.0,Jakarta Pusat,SHM,2200.0,Utara,1100000000.0,Jakarta
2,06-12-2021,19.0,35.0,2.0,1.0,1.863636,1.0,Jakarta Pusat,SHM,2200.0,,395000000.0,Jakarta
3,06-12-2021,33.0,42.0,2.0,2.0,1.863636,1.0,Jakarta Pusat,SHM,2200.0,,835000000.0,Jakarta
4,06-12-2021,30.0,55.0,2.0,2.0,1.0,1.0,Jakarta Pusat,SHM,2200.0,timur,1100000000.0,Jakarta


### Export Hasil Data Cleansing to csv file

In [35]:
df.to_csv("C://Users/USER/SEMESTER 7/Data Mining/Study Case 01 - EDA Pada Data Property/Hasil Data Cleansing.csv")

### Interpretasi

1.

Kualitas Data
Terdapat banyak attribut/variabel yang tidak memiliki nilai, sehingga ukuran data menjadi lebih besar dengan isi yang tidak bermanfaat. Selain itu, attribut deskripsi dan url tidak diperlukan, karena tidak relevan dengan data

2.

Saran perbaikan data:
Karena masih terdapat missing value, duplicate, noise berupa kesalahan entry nama pada variabel Garasi, Carport, dan Hadap. Maka langkah yang perlu dilakukan adalah untuk missing value yang tergolong sedikit 1 sampai 3 akan dihilangkan pada data. Untuk missing value yang tergolong banyak, akan dilakukan imputasi. Untuk variabel string hadap akan diimputasi menggunakan modus. Untuk variabel garasi dan carport, proses imputasi missing value dilakukan dengan menggunakan mean dengan metode backward dan forward. \\

Selain itu, untuk proses komputasi yang lebih mudah dan efisien maka dataframe dari berbagai kota tersebut akan dijadikan satu dataframe bernama df dengan menggunakan funtion concat. Selanjutnya, untuk membandingkan asal dari dataframe sebelumnya akan dibentuk kolom baru bernama “Kota” berisi entri “Jakarta, Depok, Bogor, Tangerang, dan Bekasi” sesuai asal dataframe sebelumnya.

# Terima kasih