<small>

# 🤖 Generative AI Solution Using RAG (Retrieval-Augmented Generation)

##### **Author: Tania Arsyat Syahara**
---

### 🧠 What is Generative AI?

**Generative AI (GenAI)** refers to AI systems that can generate new content — such as text, answers, code, or summaries — by learning from vast amounts of data.

In this solution, we focus on **text-based GenAI** that is able to answer business-related questions using internal or external data.

---

### 🔍 Why Use RAG?

RAG stands for **Retrieval-Augmented Generation**, a powerful approach that combines:

- 🔎 **Retrieval** → Find relevant data from your internal sources  
- ✍️ **Generation** → Use a Large Language Model (LLM) to answer based on that data

> With RAG, the model doesn't "guess" — it answers using real data from your domain.

---

### ✅ Business Case Example: Credit Risk

We use **RAG** to let business users ask questions like:

- “What does a high-risk borrower usually look like?”
- “How does income level affect default probability?”
- “Give an example of a borrower who defaulted despite good credit score.”

The system retrieves top-matching customer records from internal datasets, then **generates a grounded, explainable answer using GPT-4**.

---

### 🧱 Technical Architecture (RAG)

1. **Sentence Embedding** using `paraphrase-MiniLM-L6-v2`
2. **FAISS Vector Store** for similarity search
3. **OpenAI GPT-4** to generate answers
4. **Streamlit UI** for real-time Q&A
5. Optional: add LangChain or logging layer

---

### ⚙️ Workflow Summary

```text
User Query ──> Vectorized ──> FAISS Search ──> Top-k Context ──> LLM Answer ──> Display
```

<small>

<small>

### Step 1: Preparing Tabular Data

To enable the LLM to generate relevant answers based on real information, we first need to prepare the data in a **tabular format**.

Tabular data refers to structured datasets organized in **rows and columns**, where each row represents a record (e.g., a customer), and each column represents a feature or attribute (e.g., income, credit amount, age).

The format of the data can vary — commonly used formats include:
- `.csv` (Comma-Separated Values)
- `.xlsx` (Excel files)
- SQL tables
- Other structured data sources

> Well-structured tabular data is essential for effective retrieval and contextual gen

<small>

In [None]:
# 📘 Retrieval-Augmented Generation untuk Prediksi Risiko Kredit
# By: Tania Arsyat Syahara

# === 1. Import Library ===
import pandas as pd
import numpy as np
import faiss
from sentence_transformers import SentenceTransformer, util
import openai


# === 2. Load dan Siapkan Data ===
df = pd.read_csv(r"C:\Users\Modinity\Downloads\app train selected.csv")

df["AGE"] = (-df["DAYS_BIRTH"] / 365).round(1)
df["YEARS_EMPLOYED"] = (-df["DAYS_EMPLOYED"] / 365).round(1)

# untuk embedding dan analisis
selected_cols = [
    "SK_ID_CURR", "TARGET", "CODE_GENDER", "CNT_CHILDREN", "NAME_FAMILY_STATUS",
    "NAME_EDUCATION_TYPE", "NAME_INCOME_TYPE", "AMT_INCOME_TOTAL", "AMT_CREDIT",
    "AMT_ANNUITY", "AMT_GOODS_PRICE", "FLAG_OWN_CAR", "FLAG_OWN_REALTY",
    "NAME_HOUSING_TYPE", "OCCUPATION_TYPE", "AGE", "YEARS_EMPLOYED", "DAYS_LAST_PHONE_CHANGE",
    "BUREAU_AMT_CREDIT_SUM", "BUREAU_AMT_CREDIT_SUM_DEBT", 
    "PREV_AMT_CREDIT_MAX", "PREV_AMT_ANNUITY_MAX", 
    "INS_AMT_PAYMENT_SUM", "CC_AMT_BALANCE"
]

# Gabungkan column ke dalam teks
def clean_and_concat(df, cols):
    df_clean = df.copy()
    df_clean[cols] = df_clean[cols].fillna("N/A").astype(str)
    df_clean["teks"] = df_clean[cols].agg(" | ".join, axis=1)
    return df_clean

df = clean_and_concat(df, selected_cols)
df[["SK_ID_CURR", "TARGET", "teks"]].head(2)

Unnamed: 0,SK_ID_CURR,TARGET,teks
0,100002,1,100002 | 1 | M | 0 | Single / not married | Se...
1,100003,0,100003 | 0 | F | 0 | Married | Higher educatio...


<small>

### Step 2: Transforming Tabular Data into Text Format

While tabular data is structured and easy for machines to process, it is **not natively understandable by LLMs**. This is because each column in a table exists independently, and LLMs are designed to process continuous text rather than disconnected fields.

To help the LLM "understand" a customer's profile holistically, we convert each row of data into a **single natural-language sentence** that combines all column values.

---

#### 🧾 Example: From Tabular to Text

**Tabular Format (Credit Risk Example)**

| SK_ID_CURR | INCOME | OCCUPATION_TYPE | CREDIT_AMOUNT |
|------------|--------|------------------|----------------|
| 100001     | 4,500K | Laborer          | 270,000        |

**Transformed Text Format**

```python
SK_ID_CURR: 100001 | INCOME: 4,500K | OCCUPATION_TYPE: Laborer | CREDIT_AMOUNT: 270,000
```

<small>

In [None]:
# Gabungkan column ke dalam teks
def clean_and_concat(df, cols):
    df_clean = df.copy()
    df_clean[cols] = df_clean[cols].fillna("N/A").astype(str)
    df_clean["teks"] = df_clean[cols].agg(" | ".join, axis=1)
    return df_clean

df = clean_and_concat(df, selected_cols)
df[["SK_ID_CURR", "TARGET", "teks"]].head(2)

<small>

### Step 3: Text Similarity Search

#### Step 3.1: Text Embedding

In this step, the goal is to convert text into a numerical representation (vector) that captures the **meaning or semantics** of the text. This meaning is essential to measure how **similar or close** one data point is to another.

Understanding the similarity between data points is crucial because the primary objective of **Retrieval-Augmented Generation (RAG)** is to **retrieve relevant data** based on a given query, in order to generate **contextually accurate responses** from the LLM.

---

**Model Used: `paraphrase-MiniLM-L6-v2`**

This model is part of the **Sentence Transformers** library, built on top of **BERT**, and is particularly well-suited for **text embedding tasks**. It provides fast and lightweight sentence-level embeddings, making it ideal for semantic search applications like RAG.

Key characteristics:
- Small and fast (~80MB)
- Trained for paraphrase and semantic similarity detection
- Works well with cosine similarity or FAISS indexing

> Tip: replace this with stronger models like `all-mpnet-base-v2` or `e5-large-v2` for bet

<small>

In [14]:
model = SentenceTransformer("paraphrase-MiniLM-L6-v2")

embedding_df = model.encode(df["teks"], convert_to_numpy=True)
embedding_df = embedding_df / np.linalg.norm(embedding_df, axis=1, keepdims=True)
embedding_df = embedding_df.astype("float32")

index = faiss.IndexFlatL2(embedding_df.shape[1])
index.add(embedding_df)

<small>

#### Step 3.2: FAISS Indexing from Query

**FAISS** (Facebook AI Similarity Search) is a library developed by Facebook AI Research designed for **fast similarity search** over high-dimensional vectors. FAISS is widely used in applications such as **semantic search**, **image similarity**, and **retrieval in RAG (Retrieval-Augmented Generation)**.

---

##### 🛠 How FAISS Works:

1. **Extract vector embeddings** from text using a SentenceTransformer model.
2. **Create and populate the index** with these vectors using FAISS.
3. **Perform nearest neighbor search** based on a query to retrieve the most similar entries.

This indexing and search process enables the system to quickly identify which pieces of information are most relevant to a given query — making it a critical step in any RAG pipeline.

> FAISS supports multiple indexing strategies (e.g., Flat, HNSW, IVFPQ), but `IndexFlatL2` is commonly used for small to medium datasets due to its simplicity and precision.

<small>

In [15]:
def retrieve(query, index, df, top_k=3):
    query_embedding = model.encode([query], convert_to_numpy=True)
    query_embedding = query_embedding / np.linalg.norm(query_embedding, axis=1, keepdims=True)
    query_embedding = query_embedding.astype("float32")

    scores, indices = index.search(query_embedding, top_k)
    result_df = df.iloc[indices[0]].copy()
    result_df['similarity_score'] = scores[0]
    return result_df

In [16]:
import openai

def generate_answer(query, context, api_key):
    openai.api_key = api_key
    system_message = (
        "Kamu adalah analis risiko kredit. Berdasarkan data customer yang diberikan, "
        "analisa kemungkinan gagal bayar dan jelaskan alasan risikonya secara logis dan jelas."
    )

    user_message = f"""Pertanyaan: {query}
    Data customer terkait:
    {context}
    """
    response = openai.ChatCompletion.create(
        model="gpt-4-1106-preview",
        messages=[
            {"role": "system", "content": system_message},
            {"role": "user", "content": user_message}
        ],
        temperature=0.3,
        max_tokens=1000
    )
    return response.choices[0].message["content"]


In [None]:
import textwrap
from IPython.display import Markdown, display

# === 1. Query dan Retrieve Context ===
query = "Apa pola risiko utama nasabah yang gagal bayar?"
context_df = retrieve(query, index, df, top_k=3)
context = "\n".join(context_df["teks"].tolist())

# === 2. Generate Jawaban dari OpenAI ===
jawaban = generate_answer(
    query=query,
    context=context,
    api_key="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" 
)

wrapped = textwrap.fill(jawaban, width=100)
display(Markdown(wrapped))


Untuk menganalisis risiko gagal bayar, kita akan melihat beberapa faktor yang dapat mempengaruhi
kemampuan nasabah dalam membayar kredit. Berikut adalah faktor-faktor tersebut dan analisisnya
berdasarkan data yang diberikan:  1. **Pendapatan**: Pendapatan yang stabil dan cukup tinggi
biasanya mengindikasikan kemampuan yang lebih baik untuk membayar kembali kredit. Nasabah dengan ID
151111 memiliki pendapatan tertinggi (247500.0), yang mungkin menunjukkan risiko gagal bayar yang
lebih rendah dibandingkan dengan nasabah lainnya.  2. **Jumlah Kredit**: Jumlah kredit yang besar
dapat meningkatkan risiko gagal bayar jika tidak sebanding dengan pendapatan nasabah. Nasabah dengan
ID 151111 memiliki jumlah kredit yang sangat besar (1154565.0), yang meskipun memiliki pendapatan
tinggi, dapat menimbulkan risiko jika terjadi perubahan pada kondisi keuangannya.  3. **Cicilan per
Bulan**: Cicilan bulanan yang tinggi relatif terhadap pendapatan dapat menyebabkan beban keuangan
yang berat. Nasabah dengan ID 168563 memiliki cicilan bulanan yang cukup tinggi (30271.5)
dibandingkan dengan pendapatannya, yang dapat meningkatkan risiko gagal bayar.  4. **Status
Perkawinan**: Status perkawinan dapat mempengaruhi stabilitas keuangan. Misalnya, nasabah yang sudah
menikah (seperti ID 168563) mungkin memiliki tanggungan yang lebih banyak dibandingkan dengan yang
lajang.  5. **Pendidikan**: Tingkat pendidikan dapat mempengaruhi kemampuan nasabah untuk
mendapatkan pekerjaan dengan pendapatan yang stabil. Semua nasabah memiliki pendidikan "Secondary /
secondary special", yang tidak memberikan informasi diferensiasi yang signifikan.  6. **Jenis
Pekerjaan**: Pekerjaan dengan tingkat keahlian tinggi biasanya menawarkan pendapatan yang lebih
stabil. Nasabah dengan ID 168563 bekerja sebagai "High skill tech staff", yang mungkin menunjukkan
stabilitas pekerjaan yang lebih baik.  7. **Umur**: Umur nasabah dapat mempengaruhi kemampuan mereka
untuk bekerja dan membayar kembali kredit. Nasabah dengan ID 151111 berumur 58.4 tahun, yang mungkin
mendekati usia pensiun dan dapat meningkatkan risiko gagal bayar karena potensi penurunan
pendapatan.  8. **Lama Bekerja**: Lama bekerja yang lebih pendek (seperti pada ID 168530 dengan
-289.0 hari) dapat menunjukkan ketidakstabilan pekerjaan, yang meningkatkan risiko gagal bayar.  9.
**Utang Lainnya**: Jumlah utang lain yang tinggi dapat mengindikasikan beban keuangan yang lebih
besar. Nasabah dengan ID 168563 memiliki utang lain yang cukup besar (699131.5650000001), yang dapat
meningkatkan risiko gagal bayar.  10. **Kepemilikan Rumah**: Kepemilikan rumah dapat menunjukkan
stabilitas keuangan. Semua nasabah tinggal di apartemen milik pemerintah (Municipal apartment), yang
tidak memberikan informasi diferensiasi yang signifikan.  Berdasarkan analisis ini, nasabah dengan
ID 151111 memiliki risiko gagal bayar yang tinggi karena jumlah kredit yang besar dan usia yang
mendekati pensiun, meskipun memiliki pendapatan yang tinggi. Nasabah dengan ID 168563 juga memiliki
risiko yang cukup tinggi karena cicilan bulanan yang tinggi relatif terhadap pendapatannya dan
jumlah utang lain yang besar. Nasabah dengan ID 168530 memiliki risiko gagal bayar yang lebih rendah
karena jumlah kredit yang lebih kecil dan tidak memiliki utang lain, meskipun memiliki lama bekerja
yang sangat pendek yang mungkin menunjukkan ketidakstabilan pekerjaan.

In [None]:
query = "Apa risiko jika penghasilan rendah dan lama bekerja?"
context_df = retrieve(query, index, df, top_k=3)
context = "\n".join(context_df["teks"].tolist())

jawaban = generate_answer(
    query=query,
    context=context,
    api_key="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"  
)

wrapped = textwrap.fill(jawaban, width=100)
display(Markdown(wrapped))


Untuk menganalisis risiko gagal bayar berdasarkan data customer yang diberikan, kita akan melihat
beberapa faktor penting seperti penghasilan, lama bekerja, jenis pekerjaan, status kepemilikan
rumah, dan beban kredit yang ada. Kita akan fokus pada customer pertama dengan penghasilan rendah
dan lama bekerja yang lebih pendek.  Customer pertama memiliki data sebagai berikut: - Penghasilan:
112,500.0 - Lama bekerja: 4.4 tahun - Status pernikahan: Married - Pendidikan: Secondary / secondary
special - Jenis pekerjaan: Commercial associate - Status kepemilikan rumah: Municipal apartment -
Jumlah kredit: 590,337.0 - Pembayaran kredit per bulan: 30,271.5 - Jumlah pinjaman lain: 395,842.5 -
Hutang lain: 257,823.0 - Pembayaran hutang lain per bulan: 8,647.1 - Total beban kredit: 699,131.565
Dari data di atas, kita dapat melihat bahwa customer ini memiliki penghasilan tahunan 112,500.0,
yang relatif rendah. Dengan penghasilan bulanan sekitar 9,375.0 (112,500.0 dibagi 12 bulan),
customer ini memiliki beban pembayaran kredit bulanan sebesar 30,271.5, yang jauh melebihi
penghasilannya. Ini menunjukkan bahwa customer ini memiliki rasio hutang terhadap penghasilan (debt-
to-income ratio) yang sangat tinggi, yang merupakan indikator utama dari risiko gagal bayar.  Selain
itu, lama bekerja yang hanya 4.4 tahun menunjukkan bahwa customer ini mungkin belum memiliki
stabilitas pekerjaan yang kuat. Hal ini dapat meningkatkan risiko gagal bayar karena kurangnya
keamanan pekerjaan dapat berarti bahwa penghasilan mereka tidak terjamin.  Status kepemilikan rumah
sebagai "Municipal apartment" mungkin menunjukkan bahwa customer ini tidak memiliki aset properti
yang dapat dijadikan jaminan atau dijual untuk membayar hutang jika diperlukan.  Beban kredit total
yang tinggi (699,131.565) dibandingkan dengan penghasilan tahunan juga menunjukkan bahwa customer
ini memiliki banyak kewajiban keuangan yang harus dipenuhi, yang meningkatkan risiko gagal bayar.
Berdasarkan analisis ini, risiko gagal bayar untuk customer pertama ini sangat tinggi karena
kombinasi dari penghasilan rendah, lama bekerja yang relatif pendek, rasio hutang terhadap
penghasilan yang sangat tinggi, dan kurangnya aset yang dapat dijadikan jaminan. Bank atau lembaga
pemberi kredit harus sangat berhati-hati jika mempertimbangkan untuk memberikan pinjaman kepada
customer ini dan mungkin memerlukan jaminan tambahan atau menolak aplikasi pinjaman.

In [None]:
query = "Apa penyebab utama seseorang gagal bayar berdasarkan data historis?"
context_df = retrieve(query, index, df, top_k=3)
context = "\n".join(context_df["teks"].tolist())

jawaban = generate_answer(
    query=query,
    context=context,
    api_key="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" 
)

wrapped = textwrap.fill(jawaban, width=100)
display(Markdown(wrapped))

Untuk menganalisis kemungkinan gagal bayar berdasarkan data historis, kita perlu mempertimbangkan
berbagai faktor yang dapat mempengaruhi kemampuan seseorang untuk membayar kembali pinjaman. Berikut
ini adalah beberapa faktor utama yang dapat menyebabkan gagal bayar:  1. Tingkat Pendapatan:
Pendapatan yang rendah dapat menyebabkan kesulitan dalam memenuhi pembayaran bulanan, terutama jika
jumlah pinjaman relatif tinggi dibandingkan dengan pendapatan.  2. Tingkat Utang: Rasio utang
terhadap pendapatan yang tinggi menunjukkan bahwa sebagian besar pendapatan digunakan untuk membayar
utang, meningkatkan risiko gagal bayar.  3. Status Pekerjaan: Ketidakstabilan pekerjaan atau
penghasilan yang tidak teratur dapat mempengaruhi kemampuan untuk membayar kembali pinjaman secara
konsisten.  4. Status Perkawinan: Status 'Separated' dapat menunjukkan perubahan kondisi keuangan
yang signifikan, seperti pembagian aset atau tanggung jawab keuangan tambahan.  5. Riwayat Kredit:
Riwayat gagal bayar sebelumnya atau skor kredit yang rendah adalah indikator kuat dari perilaku
pembayaran di masa depan.  6. Tingkat Pendidikan: Tingkat pendidikan yang lebih rendah dapat
berkorelasi dengan pendapatan yang lebih rendah dan pengetahuan keuangan yang kurang, yang dapat
meningkatkan risiko gagal bayar.  7. Jenis Properti: Kepemilikan rumah dapat menunjukkan stabilitas
keuangan, sedangkan tinggal dengan orang tua atau di apartemen milik pemerintah dapat menunjukkan
kurangnya aset.  8. Usia: Usia dapat mempengaruhi stabilitas pendapatan dan tanggung jawab keuangan,
dengan usia yang lebih muda atau lebih tua sering kali memiliki risiko yang lebih tinggi.  9. Lama
Bekerja: Lama bekerja yang lebih pendek dapat menunjukkan kurangnya stabilitas pekerjaan.  10. Lama
Tinggal: Lama tinggal yang pendek dapat menunjukkan kurangnya stabilitas tempat tinggal, yang bisa
menjadi indikator risiko keuangan.  Berdasarkan data yang diberikan, kita dapat melihat beberapa
faktor risiko pada masing-masing customer:  - Customer pertama memiliki pendapatan yang relatif
rendah dibandingkan dengan jumlah pinjaman dan pembayaran bulanan yang tinggi, serta status
'Separated' yang dapat menunjukkan perubahan keuangan yang signifikan.  - Customer kedua memiliki
pendapatan yang lebih tinggi, tetapi juga memiliki jumlah pinjaman yang sangat besar dan pembayaran
bulanan yang tinggi. Status 'Separated' dan tinggal dengan orang tua juga dapat menunjukkan potensi
masalah keuangan.  - Customer ketiga memiliki pendapatan yang rendah, jumlah pinjaman yang tinggi,
dan status 'Separated'. Tinggal di apartemen milik pemerintah dapat menunjukkan kurangnya aset.
Secara keseluruhan, faktor-faktor seperti status perkawinan 'Separated', tingkat pendapatan yang
rendah dibandingkan dengan jumlah pinjaman, dan tingkat utang yang tinggi dapat meningkatkan risiko
gagal bayar. Untuk analisis yang lebih mendalam, kita juga perlu mempertimbangkan informasi tambahan
seperti skor kredit, riwayat pembayaran, dan kondisi ekonomi saat ini.

In [None]:
query = "Seperti apa profil umum nasabah dengan risiko tinggi?"
context_df = retrieve(query, index, df, top_k=3)
context = "\n".join(context_df["teks"].tolist())

jawaban = generate_answer(
    query=query,
    context=context,
    api_key="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" 
)

wrapped = textwrap.fill(jawaban, width=100)
display(Markdown(wrapped))

Untuk menganalisis risiko gagal bayar dari data customer yang diberikan, kita perlu mempertimbangkan
beberapa faktor yang umumnya mempengaruhi kemungkinan gagal bayar. Faktor-faktor tersebut bisa
termasuk pendapatan, jumlah utang, jenis pekerjaan, status pernikahan, dan riwayat kredit. Berikut
adalah analisis profil umum nasabah dengan risiko tinggi berdasarkan data yang diberikan:  1.
**Pendapatan (Income):**    - Nasabah dengan pendapatan yang lebih rendah cenderung memiliki risiko
gagal bayar yang lebih tinggi karena mereka mungkin memiliki kesulitan dalam mengelola pembayaran
utang jika terjadi perubahan keuangan yang tidak terduga.  2. **Jumlah Utang (Credit Amount):**    -
Jika jumlah utang relatif tinggi dibandingkan dengan pendapatan, ini menunjukkan beban keuangan yang
lebih besar, yang meningkatkan risiko gagal bayar.  3. **Pembayaran Bulanan (Annuity):**    -
Pembayaran bulanan yang tinggi dibandingkan dengan pendapatan bulanan juga dapat meningkatkan risiko
gagal bayar karena dapat membatasi kemampuan nasabah untuk memenuhi kebutuhan keuangan lainnya.  4.
**Status Pekerjaan dan Pendidikan:**    - Pekerjaan dengan tingkat keamanan yang lebih rendah atau
pendidikan yang lebih rendah dapat meningkatkan risiko gagal bayar karena potensi ketidakstabilan
pendapatan.  5. **Status Perkawinan:**    - Status perkawinan seperti "Separated" dapat menunjukkan
adanya perubahan keuangan atau tanggungan yang dapat mempengaruhi kemampuan untuk membayar utang.
6. **Riwayat Kredit (Days Employed):**    - Lama bekerja yang negatif atau rendah dapat menunjukkan
ketidakstabilan pekerjaan, yang dapat berdampak pada risiko gagal bayar.  Berdasarkan data yang
diberikan, kita dapat mengidentifikasi profil risiko tinggi sebagai berikut:  - Nasabah pertama
memiliki pendapatan yang cukup tinggi, namun jumlah utangnya juga tinggi, yang dapat menunjukkan
beban keuangan yang lebih besar. Status pernikahan "Married" mungkin memberikan stabilitas tambahan,
tetapi ini harus ditimbang dengan faktor lain seperti pembayaran bulanan yang tinggi dan nilai utang
yang besar.  - Nasabah kedua, meskipun memiliki pendidikan tinggi dan pendapatan yang wajar,
memiliki status pernikahan "Separated" dan tinggal dengan orang tua, yang mungkin menunjukkan adanya
perubahan keuangan atau dukungan yang kurang stabil. Riwayat kredit yang singkat juga bisa menjadi
tanda risiko.  - Nasabah ketiga memiliki pendapatan yang tinggi dan status pernikahan "Separated".
Meskipun memiliki pendapatan yang tinggi, jumlah utang yang sangat besar dibandingkan dengan
pendapatan dapat menunjukkan risiko gagal bayar yang tinggi. Tinggal dengan orang tua juga mungkin
menunjukkan kurangnya dukungan keuangan yang stabil.  Dari ketiga profil, nasabah ketiga tampaknya
memiliki risiko gagal bayar yang paling tinggi karena kombinasi pendapatan yang tinggi dengan jumlah
utang yang sangat besar, status pernikahan yang mungkin tidak stabil, dan tinggal dengan orang tua.
Namun, analisis lebih lanjut diperlukan untuk menilai risiko secara keseluruhan, termasuk
mempertimbangkan faktor-faktor seperti riwayat pembayaran, jumlah tanggungan, dan kondisi ekonomi
saat ini.

In [None]:
query = "Fitur mana yang paling informatif dalam memprediksi risiko gagal bayar?"
context_df = retrieve(query, index, df, top_k=3)
context = "\n".join(context_df["teks"].tolist())

jawaban = generate_answer(
    query=query,
    context=context,
    api_key="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" 
)

wrapped = textwrap.fill(jawaban, width=100)
display(Markdown(wrapped))

Untuk memprediksi risiko gagal bayar, kita harus mempertimbangkan berbagai faktor yang dapat
mempengaruhi kemampuan seseorang untuk membayar kembali pinjaman. Berikut adalah beberapa fitur yang
paling informatif dalam memprediksi risiko gagal bayar berdasarkan data yang diberikan:  1. **Status
Kredit Sebelumnya (kolom kedua)**: Angka "0" atau "1" menunjukkan apakah pelanggan memiliki catatan
kredit yang buruk atau tidak. Seorang pelanggan dengan catatan kredit yang buruk (1) memiliki risiko
gagal bayar yang lebih tinggi.  2. **Pendapatan Total (kolom ke-8)**: Pendapatan total pelanggan
merupakan indikator kemampuan mereka untuk membayar kembali pinjaman. Semakin tinggi pendapatan,
semakin rendah risiko gagal bayar.  3. **Jumlah Pinjaman Kredit (kolom ke-9)**: Jumlah total
pinjaman kredit yang diambil pelanggan. Semakin besar jumlah pinjaman, semakin tinggi risiko gagal
bayar.  4. **Cicilan Kredit Bulanan (kolom ke-10)**: Jumlah cicilan bulanan yang harus dibayar
pelanggan. Jika cicilan ini merupakan porsi yang signifikan dari pendapatan bulanan pelanggan,
risiko gagal bayar meningkat.  5. **Jumlah Pinjaman yang Disetujui (kolom ke-11)**: Jumlah pinjaman
yang disetujui oleh bank. Jika jumlah ini jauh lebih besar daripada pendapatan pelanggan, ini dapat
menunjukkan risiko gagal bayar yang lebih tinggi.  6. **Umur (kolom ke-16)**: Umur pelanggan dapat
mempengaruhi stabilitas pendapatan dan kemungkinan perubahan dalam kehidupan yang dapat mempengaruhi
kemampuan membayar kembali.  7. **Lama Bekerja (kolom ke-17)**: Lama waktu pelanggan bekerja di
tempat kerja saat ini. Stabilitas pekerjaan adalah indikator yang baik dari kemampuan untuk membayar
kembali pinjaman.  8. **Hari Terakhir dari Aplikasi Sebelumnya (kolom ke-18)**: Jika pelanggan baru-
baru ini mengajukan pinjaman lain, ini bisa menjadi tanda bahwa mereka mungkin mengalami kesulitan
keuangan.  9. **Total Aset (kolom ke-22)**: Aset yang dimiliki pelanggan dapat digunakan sebagai
jaminan atau sebagai sumber dana untuk membayar kembali pinjaman.  10. **Rata-rata Sisa Pinjaman
Sebelumnya (kolom ke-23)**: Jika pelanggan memiliki banyak pinjaman yang belum lunas dengan jumlah
yang besar, ini meningkatkan risiko gagal bayar.  Berdasarkan data yang diberikan, untuk pelanggan
pertama (176516), risiko gagal bayar mungkin lebih rendah karena tidak ada catatan kredit yang
buruk, pendapatan yang tinggi, dan aset yang cukup besar. Untuk pelanggan kedua (168563), risiko
gagal bayar mungkin lebih tinggi karena jumlah pinjaman yang besar dibandingkan dengan
pendapatannya. Untuk pelanggan ketiga (178322), tidak adanya data pendapatan dan aset membuatnya
sulit untuk menilai, tetapi catatan kredit yang buruk meningkatkan risiko gagal bayar.  Secara
keseluruhan, fitur yang paling informatif biasanya adalah status kredit sebelumnya, rasio cicilan
bulanan terhadap pendapatan, jumlah pinjaman yang disetujui dibandingkan dengan pendapatan, dan
stabilitas pekerjaan. Untuk analisis yang lebih akurat, model prediktif yang mempertimbangkan semua
variabel ini secara bersamaan dapat digunakan.

In [None]:
query = "Apa kriteria minimum yang sebaiknya dimiliki nasabah agar dianggap low risk?"
context_df = retrieve(query, index, df, top_k=3)
context = "\n".join(context_df["teks"].tolist())

jawaban = generate_answer(
    query=query,
    context=context,
    api_key="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" 
)

wrapped = textwrap.fill(jawaban, width=100)
display(Markdown(wrapped))

Untuk menilai risiko kredit dari nasabah, kita perlu mempertimbangkan berbagai faktor yang dapat
mempengaruhi kemampuan mereka untuk membayar kembali pinjaman. Berikut adalah beberapa kriteria yang
umumnya dianggap penting dalam menentukan risiko kredit yang rendah:  1. **Skor Kredit (Credit
Score)**: Skor kredit yang tinggi biasanya menunjukkan sejarah pembayaran yang baik dan manajemen
kredit yang bertanggung jawab.  2. **Pendapatan**: Pendapatan yang stabil dan cukup untuk menutupi
pembayaran bulanan pinjaman.  3. **Rasio Hutang terhadap Pendapatan (Debt-to-Income Ratio)**:
Persentase pendapatan sebelum pajak yang digunakan untuk membayar hutang. Rasio yang lebih rendah
menunjukkan risiko yang lebih rendah.  4. **Riwayat Pekerjaan**: Stabilitas pekerjaan dan pengalaman
kerja yang panjang dapat menunjukkan pendapatan yang stabil.  5. **Status Perumahan**: Kepemilikan
rumah atau tinggal di tempat yang sama untuk waktu yang lama dapat menunjukkan stabilitas.  6.
**Status Pernikahan dan Tanggungan**: Status pernikahan dan jumlah tanggungan dapat mempengaruhi
stabilitas keuangan.  7. **Pendidikan**: Tingkat pendidikan yang lebih tinggi sering kali dikaitkan
dengan pendapatan yang lebih tinggi dan risiko kredit yang lebih rendah.  8. **Umur**: Umur dapat
mempengaruhi pengalaman dan stabilitas keuangan.  9. **Riwayat Pinjaman**: Riwayat pinjaman yang
baik dengan pembayaran tepat waktu dan tanpa default.  10. **Jenis Pekerjaan**: Pekerjaan dalam
sektor yang stabil atau dengan perusahaan yang memiliki reputasi baik.  Berdasarkan data yang
diberikan, mari kita analisis masing-masing nasabah:  **Nasabah 1**:  - Pendapatan: 225,000.0 -
Pinjaman: 332,946.0 - Pembayaran Bulanan: 14,796.0 - Umur: 60.4 - Pengalaman Kerja: 11.8 tahun -
Pendidikan: Secondary/secondary special - Status Perumahan: Municipal apartment - Status Pernikahan:
Separated - Rasio Hutang terhadap Pendapatan: Tinggi - Riwayat Kredit: Tidak diketahui  **Nasabah
2**:  - Pendapatan: 108,000.0 - Pinjaman: 646,344.0 - Pembayaran Bulanan: 17,181.0 - Umur: 25.6 -
Pengalaman Kerja: 1.1 tahun - Pendidikan: Higher education - Status Perumahan: House/apartment -
Status Pernikahan: Single/not married - Rasio Hutang terhadap Pendapatan: Sangat tinggi - Riwayat
Kredit: Tidak diketahui  **Nasabah 3**:  - Pendapatan: 405,000.0 - Pinjaman: 495,000.0 - Pembayaran
Bulanan: 16,096.5 - Umur: 50.0 - Pengalaman Kerja: 0.9 tahun - Pendidikan: Higher education - Status
Perumahan: House/apartment - Status Pernikahan: Single/not married - Rasio Hutang terhadap
Pendapatan: Rendah - Riwayat Kredit: Tidak diketahui  Berdasarkan kriteria di atas, **Nasabah 3**
tampaknya memiliki risiko kredit yang paling rendah karena memiliki pendapatan yang tinggi, rasio
hutang terhadap pendapatan yang rendah, pendidikan tinggi, dan status perumahan yang stabil.
Sementara itu, **Nasabah 2** memiliki risiko yang paling tinggi karena memiliki rasio hutang
terhadap pendapatan yang sangat tinggi, pengalaman kerja yang sangat sedikit, dan pinjaman yang
besar dibandingkan dengan pendapatannya. **Nasabah 1** memiliki risiko menengah dengan pertimbangan
usia yang lebih tua yang mungkin mempengaruhi kemampuan untuk bekerja