# 📊 Penggabungan Dataset Steam dan IGDB

## 1️⃣ Membaca Dataset
Dataset yang digunakan:
- **Steam Dataset** (`steam_games.csv`)
- **IGDB Dataset** (`IGN games from best to worst.csv`)

Kode berikut digunakan untuk membaca dataset dan menampilkan 5 baris pertama dari masing-masing:

In [7]:
import pandas as pd

# Path file yang diunggah
steam_file_path = "./data/steam_games.csv"
igdb_file_path = "./data/IGN games from best to worst.csv"

df_steam = pd.read_csv(steam_file_path)
df_igdb = pd.read_csv(igdb_file_path)

# Menampilkan 5 baris pertama dari masing-masing dataset
print("\n=== Steam Dataset ===")
print(df_steam.head())
print("\n=== IGDB Dataset ===")
print(df_igdb.head())


=== Steam Dataset ===
            Name Published Date Original Price Discount Price   Reviews  \
0     Schedule I   Mar 24, 2025         $19.99         $16.99   16703.0   
1          inZOI   Mar 27, 2025            NaN         $39.99    5513.0   
2       R.E.P.O.   Feb 26, 2025            NaN          $9.99   59865.0   
3  Marvel Rivals    Dec 5, 2024            NaN           Free  253579.0   
4     Steam Deck   Jan 17, 2025            NaN        $399.00       NaN   

  Search Query  
0   topsellers  
1   topsellers  
2   topsellers  
3   topsellers  
4   topsellers  

=== IGDB Dataset ===
                 title  score score_phrase        platform              genre  \
0       Checkered Flag   10.0  Masterpiece            Lynx             Racing   
1       Chrono Trigger   10.0  Masterpiece             Wii        Action, RPG   
2   Dragon Warrior III   10.0  Masterpiece  Game Boy Color                RPG   
3  Grand Theft Auto IV   10.0  Masterpiece        Xbox 360  Action, Adventure 

## 2️⃣ Normalisasi Nama Game
Untuk memastikan pencocokan lebih akurat, kita normalisasi kolom nama game:

In [8]:
df_steam["Name"] = df_steam["Name"].str.strip().str.lower()
df_igdb["title"] = df_igdb["title"].str.strip().str.lower()

## 3️⃣ Penggabungan Dataset
Menggunakan **outer join** agar semua game dari kedua dataset tetap masuk:

In [9]:
df_merged = df_steam.merge(df_igdb, left_on="Name", right_on="title", how="outer")

# Hapus kolom duplikat setelah penggabungan
df_merged = df_merged.drop(columns=["title"], errors='ignore')

## 4️⃣ Menyimpan Dataset Hasil Gabungan
Dataset hasil penggabungan disimpan dalam format CSV:

In [10]:
merged_file_path = "./data/dataClean/merged_steam_igdb.csv"
df_merged.to_csv(merged_file_path, index=False)
print(f"\nDataset berhasil digabung! Total baris: {df_merged.shape[0]}")


Dataset berhasil digabung! Total baris: 28262


✅ Dengan metode ini, kita mendapatkan dataset yang lebih lengkap untuk analisis lebih lanjut!

## 📌 5️⃣ Pertanyaan yang Bisa Dijawab dengan Visualisasi
Dengan dataset ini, kita bisa menjawab beberapa pertanyaan berikut menggunakan visualisasi:

📊 **Game apa yang paling populer di Steam dalam 1 tahun terakhir?**
   - Menggunakan jumlah pemain aktif dan ulasan dari Steam.

📊 **Bagaimana tren jumlah pemain untuk game tertentu?**
   - Analisis tren berdasarkan jumlah pemain dari waktu ke waktu.

📊 **Genre game apa yang paling banyak dimainkan di tahun 2024?**
   - Menganalisis genre berdasarkan jumlah pemain dan popularitas.

📊 **Korelasi antara rating Metacritic dan jumlah pemain?**
   - Menggunakan data skor Metacritic dari IGDB untuk melihat apakah game dengan rating tinggi memiliki lebih banyak pemain.

📊 **Bagaimana hype game di Reddit/Twitter sebelum dan setelah rilis?**
   - Bisa ditambahkan dataset dari API sosial media untuk menganalisis tren percakapan sebelum dan setelah peluncuran game.