In [2]:
import pandas as pd
import ast
from huggingface_hub import InferenceClient

# === 1. Inisialisasi API Client ===
client = InferenceClient(
    model="meta-llama/Meta-Llama-3-8B-Instruct",
    token="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"  # Ganti dengan token kamu
)

# === 2. Load CSV ===
df = pd.read_csv("archetype_characteristics.csv")
topics = pd.read_csv("final_topic_keywords.csv")

# === 3. Ekstrak Keyword dari Dominant_Topic ===
def extract_keywords(topic_list_str):
    topic_ids = [int(t.strip()) for part in topic_list_str.split("],") for t in part.strip(" []").split(",") if t.strip().isdigit()]
    all_keywords = []
    for tid in topic_ids:
        keywords_row = topics[topics['cluster'] == float(tid)]
        if not keywords_row.empty:
            keywords_str = keywords_row['keywords'].values[0]
            keywords = ast.literal_eval(keywords_str)
            all_keywords.extend(keywords)
    return ", ".join(all_keywords[:10])

df["Keywords"] = df["Dominant_Topic"].apply(extract_keywords)

# === 4. Buat Prompt Terstruktur ===
def make_prompt(row):
    return f"""
Berikut adalah hasil segmentasi pemain game berdasarkan data statistik dan topik review. Tolong interpretasikan informasi ini dan isikan ke dalam format tabel di bawah. Jangan menambahkan penjelasan tambahan.

Data:
- Rata-rata waktu bermain: {round(row['Avg_Playtime'], 2)} jam
- Rata-rata jumlah game dimiliki: {round(row['Avg_Owned_Game'], 2)}
- Rata-rata pencapaian (achievement): {round(row['Avg_Achievement'], 2)}
- Genre dominan: {row['Dominant_Genre']}
- Keyword topik review: {row['Keywords']}

Tabel yang harus diisi:

Arketipe\tFitur Kuantitatif\tInterpretasi Topik\tKarakteristik Pemain\tTipe Insight Discovery
{row['Archetype']}\t- Playtime: {round(row['Avg_Playtime'], 2)} jam 
- Game dimiliki: {round(row['Avg_Owned_Game'], 2)} 
- Achievement: {round(row['Avg_Achievement'], 2)}\t"""

# === 5. Generate via chat_completion ===
interpretations = []
for _, row in df.iterrows():
    prompt = make_prompt(row)
    response = client.chat_completion(
        messages=[
            {"role": "system", "content": "Kamu adalah analis data ahli dalam psikografi dan segmentasi pemain game."},
            {"role": "user", "content": prompt}
        ],
        max_tokens=500,
        temperature=0.3  # lebih stabil
    )
    interpreted_part = response.choices[0].message.content.split("Arketipe")[-1].strip()
    interpretations.append("Arketipe\t" + interpreted_part)

# === 6. Tampilkan Output ===
for output in interpretations:
    print("\n" + "="*80)
    print(output)



Arketipe	| Fitur Kuantitatif | Interpretasi Topik | Karakteristik Pemain | Tipe Insight Discovery |
| --- | --- | --- | --- | --- |
| 0 | - Playtime: 326.07 jam | Pemain yang sangat aktif dan komitmen dalam bermain game | Pemain yang memiliki waktu luang yang cukup dan minat yang tinggi dalam bermain game | Komitmen, Aktivitas Tinggi |
|  | - Game dimiliki: 10.75 | Pemain yang memiliki koleksi game yang luas dan beragam | Pemain yang memiliki minat yang luas dan beragam dalam bermain game | Luas, Beragam |
|  | - Achievement: 372.0 | Pemain yang memiliki kemampuan dan motivasi yang tinggi dalam mencapai pencapaian | Pemain yang memiliki ambisi dan motivasi yang tinggi dalam bermain game | Ambisi, Motivasi Tinggi |
|  |  |  |  |  |
|  |  | Genre dominan: Simulation, Strategy, Indie, Simulation, Strategy, Action, Adventure | Pemain yang memiliki minat yang kuat dalam genre-game tertentu | Minat, Genre-Spesifik |
|  |  | Keyword topik review:  | Pemain yang memiliki preferensi dan opini 

In [None]:
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

In [3]:


import pandas as pd
import re

def parse_llm_output_to_df(llm_outputs: list):
    """
    Mem-parsing daftar output teks dari LLM yang diasumsikan berisi tabel Markdown
    dan mengubahnya menjadi satu DataFrame pandas.

    Fungsi ini dirancang untuk lebih tangguh dalam menangani:
    - Teks pembuka atau penutup dari LLM sebelum/sesudah tabel.
    - Variasi spasi dalam format tabel.
    - Hanya mengekstrak baris yang sesuai dengan struktur tabel.

    Args:
        llm_outputs (list): Sebuah list di mana setiap elemennya adalah string
                            berisi output mentah dari LLM untuk satu atau lebih arketipe.

    Returns:
        pd.DataFrame: DataFrame tunggal yang berisi semua data arketipe yang 
                      berhasil di-parse. Mengembalikan DataFrame kosong jika tidak ada data.
    """
    all_parsed_rows = []

    # Definisikan header yang kita harapkan untuk validasi dan penamaan kolom.
    # Urutan ini harus sama dengan urutan kolom di tabel Markdown.
    expected_headers = [
        "Arketipe",
        "Fitur Kuantitatif",
        "Interpretasi Topik",
        "Karakteristik Pemain",
        "Tipe Insight Discovery"
    ]

    for text_output in llm_outputs:
        lines = text_output.strip().split('\n')
        
        # Filter untuk hanya mendapatkan baris yang terlihat seperti baris tabel Markdown.
        # Baris yang valid harus diawali dan diakhiri dengan '|'.
        table_lines = [line.strip() for line in lines if line.strip().startswith('|') and line.strip().endswith('|')]
        
        if len(table_lines) < 3: # Minimal harus ada baris header, pemisah, dan 1 baris data
            continue

        # Baris data biasanya dimulai setelah baris header dan baris pemisah ('|---|---|...').
        # Kita cari baris pemisah untuk menentukan di mana data dimulai.
        data_start_index = -1
        for i, line in enumerate(table_lines):
            # Baris pemisah biasanya mengandung '---'
            if '---' in line:
                data_start_index = i + 1
                break
        
        if data_start_index == -1:
            continue # Tidak ditemukan struktur tabel yang valid

        data_rows = table_lines[data_start_index:]

        for row in data_rows:
            # Ekstrak konten sel dari setiap baris data.
            # `split('|')[1:-1]` akan membuang elemen kosong di awal dan akhir.
            cells = [cell.strip() for cell in row.split('|')][1:-1]
            
            # Pastikan jumlah sel sesuai dengan jumlah header yang diharapkan
            if len(cells) == len(expected_headers):
                # Buat dictionary dari pasangan header dan sel, lalu tambahkan ke list
                parsed_row = dict(zip(expected_headers, cells))
                all_parsed_rows.append(parsed_row)

    if not all_parsed_rows:
        print("Peringatan: Tidak ada data valid yang berhasil di-parse dari output LLM.")
        return pd.DataFrame(columns=expected_headers)
        
    # Konversi list of dictionaries menjadi DataFrame
    return pd.DataFrame(all_parsed_rows)

# === BAGIAN UTAMA PROGRAM ===
def main():
    """
    Fungsi utama untuk menjalankan proses.
    """
    # Langkah 1: Dapatkan hasil interpretasi dari LLM.
    # GANTILAH list ini dengan output aktual dari LLM setelah Anda menggunakan prompt yang baru.
    # Setiap elemen dalam list adalah string output dari LLM untuk satu atau lebih arketipe.
    # Contoh di bawah ini adalah placeholder.
    
    interpretations = [
        """
        Tentu, berikut adalah analisis untuk Arketipe 0 dalam format tabel Markdown:

        | Arketipe | Fitur Kuantitatif                                                              | Interpretasi Topik                                       | Karakteristik Pemain                                                                      | Tipe Insight Discovery |
        |----------|--------------------------------------------------------------------------------|----------------------------------------------------------|-------------------------------------------------------------------------------------------|------------------------|
        | 0        | Playtime sangat tinggi (326 jam), Achievement sangat banyak (372).             | Topik dominan terkait strategi kompleks & manajemen.      | Pemain yang sangat berdedikasi, metodis, dan menikmati tantangan yang butuh pemikiran mendalam. | Cool Blue              |
        """,
        """
        Berikut adalah hasil untuk Arketipe 1:

        | Arketipe | Fitur Kuantitatif                                       | Interpretasi Topik                             | Karakteristik Pemain                                                                 | Tipe Insight Discovery |
        |----------|---------------------------------------------------------|------------------------------------------------|--------------------------------------------------------------------------------------|------------------------|
        | 1        | Playtime sedang (143 jam), jumlah game & achievement standar. | Topik terkait RPG, simulasi, dan kompetisi.    | Pemain yang suka bersaing dan berorientasi pada tujuan untuk menyelesaikan game.      | Fiery Red              |
        """,
        """
        Analisis Arketipe 2:

        | Arketipe | Fitur Kuantitatif                                  | Interpretasi Topik                              | Karakteristik Pemain                                                                   | Tipe Insight Discovery |
        |----------|----------------------------------------------------|-------------------------------------------------|----------------------------------------------------------------------------------------|------------------------|
        | 2        | Playtime sedang (141 jam), Genre dominan Action-RPG. | Topik terkait kerja sama tim dalam game Action. | Pemain yang menikmati bermain bersama teman dalam game aksi, cenderung suportif dan kooperatif. | Earth Green            |
        """,
        """
        Hasil akhir untuk Arketipe 3:

        | Arketipe | Fitur Kuantitatif                           | Interpretasi Topik                               | Karakteristik Pemain                                                                      | Tipe Insight Discovery |
        |----------|---------------------------------------------|--------------------------------------------------|-------------------------------------------------------------------------------------------|------------------------|
        | 3        | Playtime rendah (79 jam), genre sangat beragam. | Topik terkait kustomisasi dan game indie/kasual. | Pemain yang ekspresif, antusias mencoba banyak hal baru, dan menikmati interaksi sosial. | Sunshine Yellow        |
        """
    ]

    print("Memulai proses parsing output dari LLM...")
    
    # Langkah 2: Panggil fungsi parser untuk memproses data.
    df_final = parse_llm_output_to_df(interpretations)

    # Langkah 3: Tampilkan hasil DataFrame di konsol.
    if not df_final.empty:
        print("\nProses parsing berhasil. Hasil DataFrame:")
        print(df_final.to_string()) # .to_string() untuk menampilkan semua kolom dan baris

        # Langkah 4: Simpan hasil ke file CSV baru.
        output_filename = "interpretasi_segmentasi_final.csv"
        try:
            df_final.to_csv(output_filename, index=False, encoding='utf-8')
            print(f"\nDataFrame berhasil disimpan ke file: {output_filename}")
        except Exception as e:
            print(f"\nTerjadi kesalahan saat menyimpan file: {e}")
    else:
        print("\nProses selesai, namun tidak ada data yang dihasilkan.")

if __name__ == '__main__':
    main()

Memulai proses parsing output dari LLM...

Proses parsing berhasil. Hasil DataFrame:
  Arketipe                                                   Fitur Kuantitatif                                    Interpretasi Topik                                                                             Karakteristik Pemain Tipe Insight Discovery
0        0  Playtime sangat tinggi (326 jam), Achievement sangat banyak (372).  Topik dominan terkait strategi kompleks & manajemen.  Pemain yang sangat berdedikasi, metodis, dan menikmati tantangan yang butuh pemikiran mendalam.              Cool Blue
1        1       Playtime sedang (143 jam), jumlah game & achievement standar.           Topik terkait RPG, simulasi, dan kompetisi.                 Pemain yang suka bersaing dan berorientasi pada tujuan untuk menyelesaikan game.              Fiery Red
2        2                Playtime sedang (141 jam), Genre dominan Action-RPG.       Topik terkait kerja sama tim dalam game Action.  Pemain yang menikmati 