# Konsep Pengumpulan Data

Pada notebook ini, kita akan membahas konsep dasar pengumpulan data yang penting dalam data science dan machine learning.

## Apa itu Pengumpulan Data?

Pengumpulan data adalah proses mengumpulkan dan mengukur informasi dari berbagai sumber untuk mendapatkan gambaran lengkap dan akurat tentang area yang diminati. Dalam konteks data science, pengumpulan data adalah langkah fundamental yang menentukan kualitas analisis dan model yang akan dibangun.

## Jenis-jenis Data

1. **Data Kuantitatif**
   - Data numerik yang dapat diukur
   - Contoh: tinggi badan, berat badan, suhu, harga

2. **Data Kualitatif**
   - Data deskriptif yang tidak dapat diukur secara numerik
   - Contoh: warna, jenis kelamin, tingkat kepuasan

## Metode Pengumpulan Data

1. **Survei dan Kuesioner**
2. **Wawancara**
3. **Observasi**
4. **Eksperimen**
5. **Data Logging**
6. **Web Scraping**
7. **API**
8. **Database

In [23]:
# Import library yang diperlukan
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Set style untuk visualisasi
plt.style.use('seaborn')
sns.set_palette("husl")

OSError: 'seaborn' is not a valid package style, path of style file, URL of style file, or library style name (library styles are listed in `style.available`)

In [25]:
# Import library yang diperlukan
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Contoh data sederhana
np.random.seed(42)
n_samples = 100
data = {
    'Usia': np.random.normal(25, 5, n_samples),
    'Pendapatan': np.random.normal(5000000, 1000000, n_samples),
    'Pengalaman': np.random.normal(3, 1, n_samples)
}

## Sumber Data

### 1. Data Primer
Data yang dikumpulkan langsung dari sumber pertama. Contoh:
- Survei langsung
- Wawancara
- Eksperimen
- Observasi lapangan

### 2. Data Sekunder
Data yang diperoleh dari sumber yang sudah ada. Contoh:
- Database publik
- Laporan penelitian
- Data pemerintah
- Dataset online

## Teknik Pengumpulan Data

### 1. Survei dan Kuesioner
- Metode terstruktur untuk mengumpulkan data
- Dapat mencakup pertanyaan tertutup atau terbuka
- Efektif untuk mengumpulkan data dalam jumlah besar
- Contoh implementasi:

In [28]:
# Contoh data survei sederhana
survey_data = {
    'Responden': range(1, 6),
    'Usia': [25, 30, 35, 28, 32],
    'Pendapatan': [5000000, 7000000, 8000000, 6000000, 7500000],
    'Kepuasan': ['Puas', 'Sangat Puas', 'Puas', 'Kurang Puas', 'Puas']
}

# Membuat DataFrame
df_survey = pd.DataFrame(survey_data)
print("Data Hasil Survei:")
print(df_survey)

# Analisis sederhana
print("\nRata-rata Usia:", df_survey['Usia'].mean())
print("Rata-rata Pendapatan:", df_survey['Pendapatan'].mean())
print("\nDistribusi Tingkat Kepuasan:")
print(df_survey['Kepuasan'].value_counts())

Data Hasil Survei:
   Responden  Usia  Pendapatan     Kepuasan
0          1    25     5000000         Puas
1          2    30     7000000  Sangat Puas
2          3    35     8000000         Puas
3          4    28     6000000  Kurang Puas
4          5    32     7500000         Puas

Rata-rata Usia: 30.0
Rata-rata Pendapatan: 6700000.0

Distribusi Tingkat Kepuasan:
Kepuasan
Puas           3
Sangat Puas    1
Kurang Puas    1
Name: count, dtype: int64


### 2. Web Scraping
Web scraping adalah teknik untuk mengekstrak data dari website. Beberapa hal yang perlu diperhatikan:
- Pastikan mematuhi robots.txt
- Perhatikan rate limiting
- Gunakan header yang sesuai
- Simpan data dalam format yang terstruktur

Contoh implementasi sederhana menggunakan requests dan BeautifulSoup:

In [29]:
# Import library untuk web scraping
import requests
from bs4 import BeautifulSoup

# Contoh URL
url = "https://example.com"

# Fungsi sederhana untuk scraping
def scrape_example():
    try:
        # Kirim request
        response = requests.get(url)
        
        # Parse HTML
        soup = BeautifulSoup(response.text, 'html.parser')
        
        # Contoh ekstraksi data
        title = soup.title.string
        paragraphs = soup.find_all('p')
        
        return {
            'title': title,
            'paragraphs': [p.text for p in paragraphs]
        }
    except Exception as e:
        return f"Error: {str(e)}"

# Note: Kode di atas hanya contoh dan tidak dieksekusi
print("Catatan: Kode di atas adalah contoh implementasi web scraping.")
print("Dalam praktik nyata, pastikan untuk:")
print("1. Memeriksa robots.txt")
print("2. Menambahkan delay antara requests")
print("3. Menggunakan header yang sesuai")
print("4. Menangani error dengan baik")

Catatan: Kode di atas adalah contoh implementasi web scraping.
Dalam praktik nyata, pastikan untuk:
1. Memeriksa robots.txt
2. Menambahkan delay antara requests
3. Menggunakan header yang sesuai
4. Menangani error dengan baik


### 3. API (Application Programming Interface)
API adalah cara terstruktur untuk mengakses data dari layanan web. Keuntungan menggunakan API:
- Data terstruktur dan konsisten
- Rate limiting yang jelas
- Dokumentasi yang tersedia
- Lebih reliable dibanding web scraping

Contoh penggunaan API:

In [31]:
# Contoh penggunaan API (menggunakan requests)
def get_data_from_api(api_url, params=None):
    try:
        # Headers standar
        headers = {
            'User-Agent': 'Mozilla/5.0',
            'Accept': 'application/json'
        }
        
        # Kirim request ke API
        response = requests.get(api_url, headers=headers, params=params)
        
        # Cek status response
        if response.status_code == 200:
            return response.json()
        else:
            return f"Error: Status code {response.status_code}"
            
    except Exception as e:
        return f"Error: {str(e)}"

# Contoh URL API (dummy)
api_url = "https://api.example.com/data"

# Contoh parameter
params = {
    "limit": 10,
    "offset": 0
}

print("Contoh struktur fungsi untuk mengakses API")
print("\nCatatan penting dalam penggunaan API:")
print("1. Selalu baca dokumentasi API")
print("2. Perhatikan rate limiting")
print("3. Gunakan API key dengan aman")
print("4. Handle errors dengan baik")
print("5. Simpan data response dengan format yang sesuai")

Contoh struktur fungsi untuk mengakses API

Catatan penting dalam penggunaan API:
1. Selalu baca dokumentasi API
2. Perhatikan rate limiting
3. Gunakan API key dengan aman
4. Handle errors dengan baik
5. Simpan data response dengan format yang sesuai


## Best Practices dalam Pengumpulan Data

1. **Perencanaan yang Matang**
   - Tentukan tujuan pengumpulan data
   - Identifikasi sumber data yang relevan
   - Pilih metode yang sesuai
   - Siapkan infrastruktur yang diperlukan

2. **Kualitas Data**
   - Pastikan data akurat dan lengkap
   - Validasi data yang dikumpulkan
   - Dokumentasikan proses pengumpulan
   - Lakukan pembersihan data awal

3. **Etika dan Legalitas**
   - Patuhi regulasi privasi data (GDPR, dll)
   - Dapatkan persetujuan jika diperlukan
   - Jaga kerahasiaan data sensitif
   - Hormati hak cipta dan terms of service

4. **Manajemen Data**
   - Gunakan format penyimpanan yang sesuai
   - Buat backup data secara regular
   - Dokumentasikan metadata
   - Terapkan version control

## Latihan

1. Buatlah survei sederhana menggunakan Google Forms atau tool serupa
2. Lakukan web scraping pada website yang mengizinkan scraping
3. Gunakan API publik untuk mengumpulkan data
4. Implementasikan best practices dalam pengumpulan data

## Kesimpulan

Pengumpulan data adalah langkah fundamental dalam data science yang memerlukan:
1. Pemahaman mendalam tentang berbagai metode pengumpulan data
2. Kemampuan teknis dalam implementasi
3. Kesadaran akan aspek etika dan legalitas
4. Penerapan best practices untuk menjamin kualitas data

Dalam praktik nyata, seringkali diperlukan kombinasi dari berbagai metode pengumpulan data untuk mendapatkan dataset yang komprehensif dan berkualitas.

## Referensi

1. Data Collection Methods in Research
2. Web Scraping Best Practices
3. API Documentation Best Practices
4. Data Privacy and Protection Guidelines
5. Survey Design and Implementation