# **Lion Parcel Loan Data Analysis**

## 1. Introduction

Nama : Vincent Timothy Djaja

Batch : FTDS-017-RMT

Dataset : `lion-loan-train` dan `lion-loan-test`

Objective : 
* Mengetahui radar chart dari setiap kolom

* Melihat Total Order dan Average Loan Amount Term dari dataset yang tersedia

## 2. External Link

Berikut ini link Github dan Dashboard :

- Github:https://github.com/Vincentim27/Talentfair_June_2023

- Looker:https://lookerstudio.google.com/reporting/7d0b6690-8a3f-43b2-8750-9c968050d3b2

## 3. Working Area

*Working Area* ini berisi poin pengerjaan, *import libraries*, hingga *exploratory data analysis*.

### 3.1 Import Libraries

*Library* adalah *package* python yang digunakan untuk membantu mempersingkat proses. Library ini nantinya akan saya gunakan untuk kebutuhan *import data, cleaning data*, analysis data, dan visualisasi data.

In [3]:
# Library Pengolahan Data
import pandas as pd
import numpy as np

# Library Visualisasi
import matplotlib.pyplot as plt
import seaborn as sns

### 3.2 Data Loading

Setelah *import libraries* selanjutnya saya akan mengimport dataset nya.

In [5]:
# Import data dengan pandas dan simpan ke dalam variabel df_ori
df_ori = pd.read_csv('https://raw.githubusercontent.com/ardhiraka/talent_fair_sample_challenge/main/datasets/lion-loan-train.csv')

# Menduplikat data original dan simpan ke dalam variabel df
df = df_ori.copy()

Kemudian saya akan memeriksa 5 data teratas dan 5 data terakhir untuk memeriksa apakah data sudah ter-import semua.

In [6]:
# Menampilkan 5 data teratas
df.head()

Unnamed: 0,Loan_ID,Gender,Married,Dependents,Education,Self_Employed,ApplicantIncome,CoapplicantIncome,LoanAmount,Loan_Amount_Term,Credit_History,Property_Area,Loan_Status
0,LP001002,Male,No,0,Graduate,No,5849,0.0,,360.0,1.0,Urban,Y
1,LP001003,Male,Yes,1,Graduate,No,4583,1508.0,128.0,360.0,1.0,Rural,N
2,LP001005,Male,Yes,0,Graduate,Yes,3000,0.0,66.0,360.0,1.0,Urban,Y
3,LP001006,Male,Yes,0,Not Graduate,No,2583,2358.0,120.0,360.0,1.0,Urban,Y
4,LP001008,Male,No,0,Graduate,No,6000,0.0,141.0,360.0,1.0,Urban,Y


In [7]:
# Menampilkan 5 data terakhir
df.tail()

Unnamed: 0,Loan_ID,Gender,Married,Dependents,Education,Self_Employed,ApplicantIncome,CoapplicantIncome,LoanAmount,Loan_Amount_Term,Credit_History,Property_Area,Loan_Status
609,LP002978,Female,No,0,Graduate,No,2900,0.0,71.0,360.0,1.0,Rural,Y
610,LP002979,Male,Yes,3+,Graduate,No,4106,0.0,40.0,180.0,1.0,Rural,Y
611,LP002983,Male,Yes,1,Graduate,No,8072,240.0,253.0,360.0,1.0,Urban,Y
612,LP002984,Male,Yes,2,Graduate,No,7583,0.0,187.0,360.0,1.0,Urban,Y
613,LP002990,Female,No,0,Graduate,Yes,4583,0.0,133.0,360.0,0.0,Semiurban,N


Kemudian saya akan memeriksa data duplikat pada dataframe

In [8]:
# Cek data yang duplikat dengan .duplicate().sum()
df.duplicated().sum()

0

Dari informasi di atas dapat disimpulkan bahwa tidak ada data yang duplikat. Selanjutnya adalah pengecekan informasi dari dataset dengan syntax `.info()`

In [9]:
# Mengetahui informasi dataset dengan .info()
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 614 entries, 0 to 613
Data columns (total 13 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Loan_ID            614 non-null    object 
 1   Gender             601 non-null    object 
 2   Married            611 non-null    object 
 3   Dependents         599 non-null    object 
 4   Education          614 non-null    object 
 5   Self_Employed      582 non-null    object 
 6   ApplicantIncome    614 non-null    int64  
 7   CoapplicantIncome  614 non-null    float64
 8   LoanAmount         592 non-null    float64
 9   Loan_Amount_Term   600 non-null    float64
 10  Credit_History     564 non-null    float64
 11  Property_Area      614 non-null    object 
 12  Loan_Status        614 non-null    object 
dtypes: float64(4), int64(1), object(8)
memory usage: 62.5+ KB


Dari informasi di atas dapat disimpulkan bahwa:
* Dataset terdiri dari 614 data atau baris dan 13 kolom
* Terdapat *missing value* atau *NaN* yang akan dihitung jumlah nya dengan syntax `.isnull().sum()` berikut ini: 

In [10]:
# Menghitung jumlah missing value pada setiap kolomnya
df.isnull().sum()

Loan_ID               0
Gender               13
Married               3
Dependents           15
Education             0
Self_Employed        32
ApplicantIncome       0
CoapplicantIncome     0
LoanAmount           22
Loan_Amount_Term     14
Credit_History       50
Property_Area         0
Loan_Status           0
dtype: int64

Dapat di lihat dari tabel di atas bahwa:
* Kolom **Gender** memiliki 13 data yang kosong atau selanjutnya disebut NaN
* Kolom **Married** memiliki 3 data NaN
* Kolom **Dependents** memiliki 15 data NaN
* Kolom **Self_Employed** memiliki 32 data NaN
* Kolom **LoanAmount** memiliki 22 data NaN
* Kolom **Loan_Amount_Term** memiliki 14 data NaN
* Kolom **Credit_History** memiliki 50 data NaN

Untuk *categorical column* karena jumlah NaN nya di bawah 5%, saya akan drop *missing value* kecuali kolom **Self_Employed** akan diisi dengan jumlah kategori paling banyak, sedangkan untuk *numerical column* saya akan drop juga kecuali kolom **Credit_History** isi dengan nilai *mean* -nya. 

In [17]:
# Mencaritahu kategori terbanyak di Self_Employed column
print(df.Self_Employed.value_counts())

No     500
Yes     82
Name: Self_Employed, dtype: int64


In [18]:
# Mengisi missing value dengan 'No'
df.fillna({'Self_Employed': 'No'}, inplace=True)

In [19]:
# Mencaritahu nilai mean di Credit_History column
print(df.Credit_History.mean())

0.8421985815602837


In [20]:
# Mengisi missing value dengan 'mean'
df.fillna({'Credit_History': df.Credit_History.mean()}, inplace=True)

In [22]:
# Drop semua missing value
df.dropna(inplace=True)

In [23]:
# Memeriksa kembali semua missing value
df.isnull().sum()

Loan_ID              0
Gender               0
Married              0
Dependents           0
Education            0
Self_Employed        0
ApplicantIncome      0
CoapplicantIncome    0
LoanAmount           0
Loan_Amount_Term     0
Credit_History       0
Property_Area        0
Loan_Status          0
dtype: int64

### 3.3 Exploratory Data Analysis (EDA)

Setelah memindahkan data ke python, selanjutnya adalah eksplorasi data lebih lanjut yang akan dilakukan pada Dashboard, untuk itu saya akan melakukan export data yang sudah di *cleaning*.

In [24]:
# Export data untuk Dashboard
df.to_csv('Lion_after_cleaning.csv')

### 3.4 Conclusion

Dari analisa yang sudah dilakukan dapat disimpulkan bahwa:
* Total Order yang terjadi pada data train terdapat 553 order
* Loan amount average sebesar 341.66
* Married status rata-rata memiliki pendapatan lebih besar ketimbang yang belum married
* Gender laki-laki memiliki pendapatan lebih besar daripada perempuan
* Dependents 3+ memiliki income lebih besar ketimbang kategori lainnya
* Education dengan kategori graduate memiliki income lebih besar ketimbang yang belum graduate.

---

$$Thank You$$

---