## 1. Import Libraries

In [None]:
import pandas as pd
import numpy as np
import random

# Set random seed untuk reproduksibilitas
np.random.seed(42)
random.seed(42)

## 2. Generate Data Pengguna (user_df)

In [None]:
# Data pengguna
num_users = 28  # Jumlah user antara 20-35

# Daftar kota di Jawa Timur
kota_jatim = ['Surabaya', 'Malang', 'Kediri', 'Jember', 'Banyuwangi', 
              'Madiun', 'Blitar', 'Probolinggo', 'Pasuruan', 'Mojokerto']

# Generate data user
user_data = {
    'user_id': [f'U{i+1}' for i in range(num_users)],
    'umur': np.random.randint(17, 56, num_users),
    'asal_kota': np.random.choice(kota_jatim, num_users),
    'jenis_kelamin': np.random.choice(['L', 'P'], num_users)
}

user_df = pd.DataFrame(user_data)
print(f"Jumlah user: {len(user_df)}")
user_df.head(10)

## 3. Generate Data Wisata (item_df)

In [None]:
# Data wisata terkenal di Jawa Timur
wisata_data = {
    'wisata_id': ['W1', 'W2', 'W3', 'W4', 'W5', 'W6', 'W7', 'W8'],
    'nama_wisata': [
        'Gunung Bromo',
        'Kawah Ijen',
        'Pantai Klayar',
        'Telaga Sarangan',
        'Air Terjun Tumpak Sewu',
        'Pantai Balekambang',
        'Goa Gong Pacitan',
        'Pantai Watu Karung'
    ],
    'kategori': [
        'Alam',
        'Alam',
        'Alam',
        'Alam',
        'Alam',
        'Alam',
        'Sejarah',
        'Alam'
    ],
    'harga': [
        35000,
        100000,
        10000,
        15000,
        10000,
        15000,
        20000,
        5000
    ],
    'fasilitas': [
        'Parkir, Toilet, Warung, Spot Foto, Penginapan',
        'Parkir, Toilet, Warung, Spot Foto, Guide',
        'Parkir, Toilet, Warung, Spot Foto',
        'Parkir, Toilet, Warung, Spot Foto, Perahu',
        'Parkir, Toilet, Warung, Spot Foto',
        'Parkir, Toilet, Warung, Spot Foto',
        'Parkir, Toilet, Warung, Spot Foto, Guide',
        'Parkir, Toilet, Warung, Spot Foto'
    ],
    'lokasi': [
        'Probolinggo',
        'Banyuwangi',
        'Pacitan',
        'Magetan',
        'Lumajang',
        'Malang',
        'Pacitan',
        'Pacitan'
    ]
}

item_df = pd.DataFrame(wisata_data)
print(f"Jumlah wisata: {len(item_df)}")
item_df

## 4. Generate Data Interaksi (interaction_df)

In [None]:
# Generate sparse interaction data
# Setiap user hanya memberi rating ke beberapa wisata (tidak semua)

interactions = []

for user_id in user_df['user_id']:
    # Setiap user memberi rating ke 2-6 wisata secara random
    num_ratings = np.random.randint(2, 7)
    
    # Pilih wisata secara random
    rated_wisata = np.random.choice(item_df['wisata_id'], num_ratings, replace=False)
    
    for wisata_id in rated_wisata:
        # Rating antara 1-5
        rating = np.random.randint(1, 6)
        interactions.append({
            'user_id': user_id,
            'wisata_id': wisata_id,
            'rating': rating
        })

interaction_df = pd.DataFrame(interactions)

print(f"Jumlah interaksi: {len(interaction_df)}")
print(f"Rata-rata rating per user: {len(interaction_df) / len(user_df):.2f}")
print(f"Sparsity: {len(interaction_df) / (len(user_df) * len(item_df)) * 100:.2f}%")
print()
interaction_df.head(15)

## 5. Verifikasi Data

In [None]:
# Cek distribusi rating
print("Distribusi Rating:")
print(interaction_df['rating'].value_counts().sort_index())
print()

# Cek apakah semua user_id dan wisata_id konsisten
print("User ID di interaction_df yang tidak ada di user_df:")
print(set(interaction_df['user_id']) - set(user_df['user_id']))
print()

print("Wisata ID di interaction_df yang tidak ada di item_df:")
print(set(interaction_df['wisata_id']) - set(item_df['wisata_id']))

## 6. Preview Semua DataFrame

In [None]:
print("="*60)
print("USER DATAFRAME")
print("="*60)
display(user_df.head(10))

print("\n" + "="*60)
print("WISATA DATAFRAME")
print("="*60)
display(item_df)

print("\n" + "="*60)
print("INTERACTION DATAFRAME")
print("="*60)
display(interaction_df.head(20))

## 7. (Opsional) Export ke CSV

In [None]:
# Uncomment jika ingin menyimpan ke CSV
user_df.to_csv('user_data.csv', index=False)
item_df.to_csv('wisata_data.csv', index=False)
interaction_df.to_csv('interaction_data.csv', index=False)
print("Data berhasil disimpan ke file CSV!")