# Personal Loan data
* Data from: [Personal Loan](https://www.kaggle.com/itsmesunil/bank-loan-modelling)  
Personal Loan 데이터는 고객을 더 늘리고자 하는 가상의 은행 데이터이다.  
이 회사의 경영진은 부채를 가진 고객을 개인 대출 고객으로 전환하는 방법을 모색하려고 한다.


- 금융 회사에서 흔히 볼 수 있는 기본적인 데이터이며, 목적을 가진 데이터
- 간단한 로지스틱 회귀 분석을 통해 모델링을 해보고, 결과를 분석

## 1.데이터 둘러보기

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [4]:
plt.style.use('seaborn')
sns.set(font_scale=1)
# 한글 처리
plt.rc('font', family = 'NanumGothic')
# 음수 처리
plt.rc('axes', unicode_minus = False)

In [9]:
import warnings
warnings.simplefilter('ignore')

In [15]:
bank = pd.read_csv('./dataset/Personal Loan.csv')
bank.head()

Unnamed: 0,ID,Age,Experience,Income,ZIP Code,Family,CCAvg,Education,Mortgage,Personal Loan,Securities Account,CD Account,Online,CreditCard
0,1,25,1,49,91107,4,1.6,1,0,0,1,0,0,0
1,2,45,19,34,90089,3,1.5,1,0,0,1,0,0,0
2,3,39,15,11,94720,1,1.0,1,0,0,0,0,0,0
3,4,35,9,100,94112,1,2.7,2,0,0,0,0,0,0
4,5,35,8,45,91330,4,1.0,2,0,0,0,0,0,1


<컬럼 설명>

* ID: 고객 번호
* Age: 나이
* Experience:   
* Income: 연간 수입(000)  
* Zipcode: 우편번호  
* Family: 가족 구성원 수
* CCAvg: 신용카드 월평균 이용 금액(000)  
* Education: 학력(1: Undergrad, 2: Graduate, 3: Advanced/Professional)
* Mortgage: 주택 담보 대출 금액(000)
* Personal Loan: 지난번 영업에서 고객이 개인대출을 받았는가?(0: N, 1: Y)  
* Securities Account: 보험 유무(0: N, 1: Y)  
* CD Account:양도성 예금증서 보유 유무(0: N, 1: Y)  
* Online: 온라인 뱅킹 유무(0: N, 1: Y)
* Credit Card: 신용카드 보유 유무(0: N, 1: Y)


* 범주형 변수: *빈도frequency 계산 가능*
               ID, zipcode, educaiont, personal loan, securities account, cd account, online, credit card
* 연속형 변수: *평균, 표준편차, min/max 등 수치 계산 가능*
               age, experience, income, family, ccavg, mortgage

In [16]:
bank.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2500 entries, 0 to 2499
Data columns (total 14 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   ID                  2500 non-null   int64  
 1   Age                 2500 non-null   int64  
 2   Experience          2500 non-null   int64  
 3   Income              2500 non-null   int64  
 4   ZIP Code            2500 non-null   int64  
 5   Family              2500 non-null   int64  
 6   CCAvg               2500 non-null   float64
 7   Education           2500 non-null   int64  
 8   Mortgage            2500 non-null   int64  
 9   Personal Loan       2500 non-null   int64  
 10  Securities Account  2500 non-null   int64  
 11  CD Account          2500 non-null   int64  
 12  Online              2500 non-null   int64  
 13  CreditCard          2500 non-null   int64  
dtypes: float64(1), int64(13)
memory usage: 273.6 KB


In [22]:
print('Education ',bank['Education'].unique())
print('Personal Loan ',bank['Personal Loan'].unique())
print('Securities Account ',bank['Securities Account'].unique())
print('CD Account  ',bank['CD Account'].unique())
print('Online ',bank['Online'].unique())
print('CreditCard ',bank['CreditCard'].unique())

Education  [1 2 3]
Personal Loan  [0 1]
Securities Account  [1 0]
CD Account   [0 1]
Online  [0 1]
CreditCard  [0 1]


In [24]:
bank.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
ID,2500.0,1250.5,721.83216,1.0,625.75,1250.5,1875.25,2500.0
Age,2500.0,45.346,11.519521,23.0,35.0,45.0,55.0,67.0
Experience,2500.0,20.1208,11.523824,-2.0,10.0,20.0,30.0,42.0
Income,2500.0,74.4472,46.6724,8.0,39.0,64.0,99.25,205.0
ZIP Code,2500.0,93135.6916,2420.763339,9307.0,92007.0,93407.0,94609.0,96651.0
Family,2500.0,2.408,1.15986,1.0,1.0,2.0,4.0,4.0
CCAvg,2500.0,1.951284,1.795449,0.0,0.7,1.5,2.5,10.0
Education,2500.0,1.8656,0.83655,1.0,1.0,2.0,3.0,3.0
Mortgage,2500.0,57.3884,100.816403,0.0,0.0,0.0,104.0,617.0
Personal Loan,2500.0,0.1024,0.303234,0.0,0.0,0.0,0.0,1.0


In [25]:
print('총 데이터 수 :',bank.shape[0] * bank.shape[1])
print('고객 나이는 {}세부터 {}세까지 있으며, 평균 나이는 {:.1f}세이다'.format(bank['Age'].min(), bank['Age'].max(), bank['Age'].mean()))

총 데이터 수 : 35000
고객 나이는 23세부터 67세까지 있으며, 평균 나이는 45.3세이다


## 3.데이터 정비하기

### 3-1. 컬럼명 바꾸기

### 3-2. 필요없는 컬럼 제거

## 2.질문하기

* 수입/월평균신용카드사용량/가족인원수와 대출 사이의 관계는?
* 월 평균 사용 금액을 구간화 해서 특징을 볼 수 있을까?
* 로지스틱 회귀 분석을 사용해서 신규 고객의 대출여부를 예측하는 모델 만들기


## 4.EDA & Visualization

### 4-1. 간단한 분석

### 변수의 분포 확인하기

### 변수 간 상관관계 파악하기

### 구간화 해서 그래프 그리기

## 로지스틱 회귀분석  
로지스틱 회귀분석(Logistic regression):  
종속변수와 독립변수 사이의 관계를 함수로 나타내어, 이 다음을 예측하는 방식.  
독립변수 사이의 선형 결합으로 종속변수를 설명하는 것은 선형 회귀와 동일하지만, **종속변수가 범주형 데이터를 대상**으로 한다는 점이 다르다.