# Pengumpulan Data dalam Machine Learning

## Tahapan Pengumpulan Data

### 1. Menentukan Kebutuhan Data
- Tentukan apa yang ingin diprediksi atau dianalisis.
- Identifikasi jenis data yang diperlukan dan jumlahnya.

### 2. Memilih Sumber Data
Pilih sumber data yang sesuai:
- **Data Internal**: Data dari operasional bisnis seperti penjualan atau data pelanggan.
- **Data Eksternal**: Data publik dari pemerintah atau data yang diambil dari internet.
- **Data Sintetis**: Data yang dibuat secara artifisial berdasarkan karakteristik data nyata.
- **Data dari Pengguna**: Data dari interaksi pengguna, ulasan produk, atau perilaku penelusuran.

### 3. Mengumpulkan dan Menyimpan Data
Kumpulkan data melalui:
- **API**: Mengambil data dari layanan web.
- **Survei**: Mengumpulkan data langsung dari responden.
- **Web Scraping**: Mengambil data dari situs web.
- **Impor Data**: Mengimpor data dari file seperti CSV atau Excel.

Simpan data dengan baik dan aman dalam format yang mudah diakses.

### 4. Validasi dan Pembersihan Data
- Periksa data untuk kesalahan atau data yang hilang.
- Bersihkan data untuk memastikan kualitas tinggi.

## Cara Mengumpulkan Data

### 1. Mengekstrak Data
- Gunakan teknik web scraping untuk mengumpulkan data dari internet.

### 2. Membuat Dataset Sendiri
- Lakukan survei atau buat aplikasi untuk mengumpulkan data.
- Gabungkan beberapa dataset dari data internal.

### 3. Menggunakan Dataset yang Telah Ada
- Gunakan dataset publik yang tersedia secara bebas atau dengan batasan tertentu.

## Pentingnya Pengumpulan Data
- **Menentukan Akurasi Model**: Data yang relevan dan berkualitas tinggi meningkatkan akurasi model.
- **Mencegah Bias**: Data yang seimbang mengurangi risiko bias dalam model.
- **Mengakomodasi Variasi**: Data yang mencerminkan variasi dunia nyata membuat model lebih adaptif.

Dengan mengikuti tahapan dan cara pengumpulan data di atas, Anda dapat memastikan bahwa model machine learning Anda memiliki fondasi yang kuat untuk memberikan hasil yang andal.

In [47]:
import pandas as pd
import numpy as np
import os
import zipfile
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

In [55]:
house_price_df = pd.read_csv(r'/workspaces/Belajar-Machine-Learning-Dasar/Belajar /data/jabodetabek_house_price.csv')

In [58]:
house_price_df.head(5)



Unnamed: 0,url,price_in_rp,title,address,district,city,lat,long,facilities,property_type,...,electricity,maid_bedrooms,maid_bathrooms,floors,building_age,year_built,property_condition,building_orientation,garages,furnishing
0,https://www.rumah123.com/properti/bekasi/hos11...,2990000000.0,Rumah cantik Sumarecon Bekasi\nLingkungan asri...,"Summarecon Bekasi, Bekasi",Summarecon Bekasi,Bekasi,-6.223945,106.986275,"Tempat Jemuran, Jalur Telepon, Taman, Taman",rumah,...,4400 mah,0.0,1.0,2.0,5.0,2017.0,bagus,,0.0,unfurnished
1,https://www.rumah123.com/properti/bekasi/hos10...,1270000000.0,"Rumah Kekinian, Magenta Summarecon Bekasi","Summarecon Bekasi, Bekasi",Summarecon Bekasi,Bekasi,-6.223945,106.986275,Taman,rumah,...,2200 mah,0.0,0.0,2.0,,,bagus,,0.0,
2,https://www.rumah123.com/properti/bekasi/hos10...,1950000000.0,Rumah Cantik 2 Lantai Cluster Bluebell Summare...,"Summarecon Bekasi, Bekasi",Summarecon Bekasi,Bekasi,-6.223945,106.986275,"Jogging Track, Kolam Renang, Masjid, Taman,...",rumah,...,2200 mah,1.0,1.0,2.0,,,bagus,,1.0,unfurnished
3,https://www.rumah123.com/properti/bekasi/hos10...,3300000000.0,Rumah Mewah 2Lantai L10x18 C di Cluster VERNON...,"Summarecon Bekasi, Bekasi",Summarecon Bekasi,Bekasi,-6.223945,106.986275,"Jalur Telepon, Jogging Track, Track Lari, K...",rumah,...,3500 mah,1.0,1.0,2.0,6.0,2016.0,bagus sekali,utara,2.0,unfurnished
4,https://www.rumah123.com/properti/bekasi/hos10...,4500000000.0,"Rumah Hoek di Cluster Maple Summarecon Bekasi,...","Summarecon Bekasi, Bekasi",Summarecon Bekasi,Bekasi,-6.223945,106.986275,"Jogging Track, Kolam Renang, Taman, Jalur Te...",rumah,...,3500 mah,1.0,1.0,2.0,9.0,2013.0,bagus,utara,1.0,unfurnished


In [59]:
house_price_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3553 entries, 0 to 3552
Data columns (total 27 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   url                   3553 non-null   object 
 1   price_in_rp           3553 non-null   float64
 2   title                 3553 non-null   object 
 3   address               3553 non-null   object 
 4   district              3553 non-null   object 
 5   city                  3553 non-null   object 
 6   lat                   3553 non-null   float64
 7   long                  3553 non-null   float64
 8   facilities            3553 non-null   object 
 9   property_type         3552 non-null   object 
 10  ads_id                3549 non-null   object 
 11  bedrooms              3519 non-null   float64
 12  bathrooms             3524 non-null   float64
 13  land_size_m2          3551 non-null   float64
 14  building_size_m2      3551 non-null   float64
 15  carports             