# 🏄 LBB: Predicting Credit Card Balance

Suatu institusi perbankan multinasional ingin mempelajari faktor-faktor yang mempengaruhi **balance kartu kredit** pemegang kartunya menggunakan machine learning. Prediksi balance kartu kredit dapat memberikan manfaat yang signifikan bagi perbankan yaitu perbankan dapat meningkatkan kualitas layanan dan keuntungan. Analisis ini juga dapat membantu perusahaan untuk memahami perilaku pemegang kartu.


## 1. Read data `credit card`

Kita akan memahami konsep dasar dari linear regression dengan menggunakan data `credit_card.csv`, yaitu dataset yang terdiri dari informasi 310 pemegang kartu kredit di suatu perbankan.

In [18]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col
from pyspark.ml.feature import VectorAssembler, StringIndexer
from pyspark.ml.regression import LinearRegression
from pyspark.ml.evaluation import RegressionEvaluator
from pyspark.ml.feature import StringIndexer, OneHotEncoder
from pyspark.ml import Pipeline

In [5]:
# code here
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("CreditCardBalancePrediction").getOrCreate()

In [7]:
file_path = "data_input/credit_card.csv"  # Sesuaikan path dengan lokasi file Anda
credit_card= spark.read.csv(file_path, header=True, inferSchema=True)

**Deskripsi:**

- `Income`: Besaran gaji nasabah per tahun (dalam $100)
- `Limit` : Besaran kredit limit
- `Rating` : Skor yang diberikan kepada individu berdasarkan kelayakan kreditnya. Semakin besar maka semakin baik
- `Cards` : Jumlah banyaknya kartu kredit yang dimiliki oleh nasabah
- `Age` : Usia nasabah
- `Education` : Level/lamanya pendidikan yang ditempuh oleh nasabah
- `Gender`: Jenis kelamin nasabah
    - Male
    - Female
- `Student` : Apakah nasabah seorang pelajar atau bukan
    - Yes -> Pelajar
    - No -> Bukan pelajar
- `Married`: Status pernikahan
    - Yes -> Sudah menikah
    - No -> Belum menikah
- `Ethnicity`: Etnis nasabah
    - African American
    - Asian
    - Caucasian
- `Balance`: Rata-rata pengeluaran dalam 3 bulan menggunakan kartu kredit

**Asumsi data**: Balance dihitung sebagai rata-rata transaksi selama periode penagihan/billing cycle (dalam hal ini 3 bulan). Sebagai contoh, jika seorang pemegang kartu mengeluarkan `$400`, `$500`, dan `$600` dalam 3 bulan, maka Balance akan dicatat sebagai `$500`.

## 2. Data Pre-processing

#### 1️⃣ Check Data Stucture and Data Types

In [11]:
# code here
credit_card.show()


+------------+-----+------+-----+---+---------+------+-------+-------+----------------+-------+
|      Income|Limit|Rating|Cards|Age|Education|Gender|Student|Married|       Ethnicity|Balance|
+------------+-----+------+-----+---+---------+------+-------+-------+----------------+-------+
|  221.741881| 3606|   283|    2| 34|       11|  Male|     No|    Yes|       Caucasian|    333|
|11241.300625| 6645|   483|    3| 82|       15|Female|    Yes|    Yes|           Asian|    903|
|10939.695649| 7075|   514|    4| 71|       11|  Male|     No|     No|           Asian|    580|
|22178.357776| 9504|   681|    3| 36|       11|Female|     No|     No|           Asian|    964|
| 3122.797924| 4897|   357|    2| 68|       16|  Male|     No|    Yes|       Caucasian|    331|
|   6428.8324| 8047|   569|    4| 77|       10|  Male|     No|     No|       Caucasian|   1151|
|  440.832016| 3388|   259|    2| 37|       12|Female|     No|     No|African American|    203|
| 5099.102464| 7114|   512|    2| 87|   

In [12]:
credit_card.printSchema()

root
 |-- Income: double (nullable = true)
 |-- Limit: integer (nullable = true)
 |-- Rating: integer (nullable = true)
 |-- Cards: integer (nullable = true)
 |-- Age: integer (nullable = true)
 |-- Education: integer (nullable = true)
 |-- Gender: string (nullable = true)
 |-- Student: string (nullable = true)
 |-- Married: string (nullable = true)
 |-- Ethnicity: string (nullable = true)
 |-- Balance: integer (nullable = true)



### 2️⃣ Dummy Variable Encoding

- **List categorical columns**

In [15]:
# code here
categorical_columns = [col for col, dtype in credit_card.dtypes if dtype == "string"]

# Menampilkan hasil
print("Kolom kategorikal:", categorical_columns)

Kolom kategorikal: ['Gender', 'Student', 'Married', 'Ethnicity']


- **Buat list kosong untuk tahapan pipeline**

In [16]:
# code here
from pyspark.ml import Pipeline

# Inisialisasi list kosong untuk tahapan pipeline
pipeline_stages = []

# Menampilkan hasil
print("Pipeline stages initialized:", pipeline_stages)


Pipeline stages initialized: []


- **Melakukan tahapan `StringIndexer` dan `OneHotEncoder`**

In [None]:

# Loop untuk setiap kolom kategorikal
for col_name in categorical_columns:
    # Tahap 1: StringIndexer untuk mengonversi kategori ke indeks numerik
    indexer = StringIndexer(inputCol=col_name, outputCol=f"{col_name}_index")
    
    # Tahap 2: OneHotEncoder untuk mengubah indeks menjadi vektor biner
    encoder = OneHotEncoder(inputCol=f"{col_name}_index", outputCol=f"{col_name}_encoded")
    
    # Tambahkan ke pipeline
    pipeline_stages += [indexer, encoder]

# Inisialisasi pipeline dengan tahapan yang sudah dibuat
pipeline = Pipeline(stages=pipeline_stages)


- **Membuat pipeline**

In [None]:
# code here


- **Fit pipeline**

In [None]:
# code here


### 3️⃣ Splitting Train-Test Data

Silahkan untuk melakukan proses splitting data dengan kondisi sebagai berikut : 
- Proporsi split = 80:20
- Seed = 123

In [None]:
# code here


### 4️⃣ Feature Selection

Melakukan pemilihan fitur dan menggabungkannya menjadi satu kesatuan vector dengan menggunakan `VectorAssembler()`

- **List kolom predictor**

In [None]:
# code here


- **Menggabungkan semua fitur**

In [None]:
# code here


- **Transformasi data**

In [None]:
# code here


## 3. Training Model Regression 

- **Membangun dan melatih model**

In [None]:
# code here


- **Menampilkan hasil summary**

In [None]:
# code here


## 4. Model Prediction

- **Melakukan prediksi**

In [None]:
# code here


- **Menampilkan hasil prediksi**

In [None]:
# code here


## 5. Model Evaluation

- **Menghitung nilai MAE**

In [None]:
# code here


- **Menghitung nilai RMSE**

In [None]:
# code here
