[UCI Machine Learning Repository: Bank Marketing Data Set](https://archive.ics.uci.edu/ml/datasets/Bank+Marketing)

* 2008~2013년에 수집한 데이터를 통해 포루투갈 은행의 텔레마케팅 데이터를 150개 피처의 데이터를 수집
* 2012년 7월 이전까지의 데이터로 22개의 피처로 데이터 모델링을 진행

관련 논문 : [A Data-Driven Approach to Predict the
Success of Bank Telemarketing](https://core.ac.uk/download/pdf/55631291.pdf)

[Moro et al., 2014] S. Moro, P. Cortez and P. Rita. A Data-Driven Approach to Predict the Success of Bank Telemarketing. Decision Support Systems, Elsevier, 62:22-31, June 2014




### bank client data:

1. age (numeric)
2. job : type of job (categorical: 'admin.','blue-collar','entrepreneur','housemaid','management','retired','self-employed','services','student','technician','unemployed','unknown')
3. marital : marital status (categorical: 'divorced','married','single','unknown'; note: 'divorced' means divorced or widowed)
4. education (categorical: 'basic.4y','basic.6y','basic.9y','high.school','illiterate','professional.course','university.degree','unknown')
5. default: has credit in default? (categorical: 'no','yes','unknown')
6. housing: has housing loan? (categorical: 'no','yes','unknown')
7. loan: has personal loan? (categorical: 'no','yes','unknown')

```
1. 연령 (숫자)
2. 직업 : 직업 유형 (카테고리 : 'admin', '생산직', '사업가', '가정부', '관리자(management)', '퇴직' , '자영업', '서비스', '학생', '기술자', '실업', '미상')
3. 결혼 여부 : 결혼 여부 (범주 : '이혼', '기혼', '미혼', '알 수 없음)'; 참고 :'이혼 '은 이혼 또는 사별을 의미합니다.
4. 교육 (카테고리 :'basic.4y ','basic.6y ','basic.9y ','high.school','문해 자','professional.course ','university.degree ','unknown ')
5. 신용불량 : 신용불량입니까? (카테고리 : '아니오', 'yes ','unknown ') 
6. 주택 : 주택 대출이 있습니까? (카테고리 : '아니오', '예', '알 수 없음')
7. 대출 : 개인 대출이 있습니까? (카테고리 : '아니오', '예', '알 수 없음')
```

### related with the last contact of the current campaign:

8. contact: contact communication type (categorical: 'cellular','telephone')
9. month: last contact month of year (categorical: 'jan', 'feb', 'mar', ..., 'nov', 'dec')
10. day_of_week: last contact day of the week (categorical: 'mon','tue','wed','thu','fri')
11. duration: last contact duration, in seconds (numeric). Important note: this attribute highly affects the output target (e.g., if duration=0 then y='no'). Yet, the duration is not known before a call is performed. Also, after the end of the call y is obviously known. Thus, this input should only be included for benchmark purposes and should be discarded if the intention is to have a realistic predictive model.

```
8. 접촉 : 접촉 통신 유형 (범주 : '셀룰러', '전화')
9. 월 : 연중 마지막 접촉 월 (범주 : 'jan', 'feb', ' mar ', ...,'nov ','dec ')
10. day_of_week : 마지막 연락 요일 (범주 :'mon ','tue ','wed ','thu ','fri ')
11. 기간 : 마지막 접촉 기간 (초) (숫자). 중요 참고 :이 속성은 출력 대상에 큰 영향을 미칩니다 (예 : duration = 0이면 y = 'no'). 그러나 통화가 수행되기 전에 기간은 알 수 없습니다. 또한 통화 종료 후 y는 분명히 알려져 있습니다. 그러므로, 이 입력은 벤치 마크 목적으로 만 포함되어야하며 실제 예측 모델을 사용하려는 경우에는 버려야합니다.
```

### other attributes:

12. campaign: number of contacts performed during this campaign and for this client (numeric, includes last contact)
13. pdays: number of days that passed by after the client was last contacted from a previous campaign (numeric; 999 means client was not previously contacted)
14. previous: number of contacts performed before this campaign and for this client (numeric)
15. poutcome: outcome of the previous marketing campaign (categorical: 'failure','nonexistent','success')

```
12. 캠페인 :이 캠페인 중 및이 고객에 대해 수행 된 연락 수 (숫자, 마지막 연락 포함)
13. pdays : 이전 캠페인에서 고객이 마지막으로 연락 한 후 경과 한 일 수 (숫자, 999는 고객이 이전에 연락 함)
14. 이전 :이 캠페인 이전 고객에 대해 수행 된 연락 수 (숫자)
15. poutcome : 이전 마케팅 캠페인의 결과 (범주 : '실패', '존재하지 않음', '성공')
```

### social and economic context attributes

16. emp.var.rate: employment variation rate. quarterly indicator (numeric)
17. cons.price.idx: consumer price index. monthly indicator (numeric)
18. cons.conf.idx: consumer confidence index. monthly indicator (numeric)
19. euribor3m: euribor 3 month rate. daily indicator (numeric)
20. nr.employed: number of employees. quarterly indicator (numeric)

Output variable (desired target):
21. y. has the client subscribed a term deposit? (binary: 'yes','no')

```
16. emp.var.rate : 고용 변동률-분기 별 지표 (숫자)
17. cons. price.idx : 소비자 물가 지수-월별 지표 (숫자)
18. cons.conf.idx : 소비자 신뢰 지수-월간 지표 (숫자)
19. euribor3m : euribor 3 개월 금리-일일 지표 (숫자)
20. 고용인 수 : 직원 수-분기 별 지표 (숫자)

출력 변수 (원하는 target) :
21. y.고객이 정기 예금을 신청 했습니까? (이진법 : '예', '아니오')
```

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()

import plotly.graph_objs as go

In [None]:
df = pd.read_csv("data/bank.csv")
df.shape

In [None]:
df.head()

In [None]:
df.tail()

In [None]:
df.info()

In [None]:
df.describe()

In [None]:
h = df.hist(figsize=(15, 8), bins=20)

In [None]:
num_cols = df.select_dtypes(include=np.number).columns.tolist()
num_cols

In [None]:
fig, ax = plt.subplots(3, 2, figsize=(20, 15))
h = df.loc[df["deposit"] == "yes", num_cols[:6]].hist(alpha=0.5, bins=50, ax=ax)
h = df.loc[df["deposit"] == "no", num_cols[:6]].hist(alpha=0.5, bins=50, ax=ax)
plt.legend(['yes', 'no'], shadow=True)

In [None]:
sns.countplot(data=df, x="deposit")

In [None]:
sns.barplot(data=df, x="education", y="balance", hue="deposit")

In [None]:
object_desc = df.describe(include="object")
object_desc

In [None]:
col_object = object_desc.columns
col_object

In [None]:
fig, axes = plt.subplots(5, 2, figsize=(15, 15))
for i, column in enumerate(col_object):
    row = i // 2
    col = i % 2
    sns.countplot(data=df, y=column, hue="deposit", ax = axes[row, col])

In [None]:
col_object

In [None]:
object_unique_count = object_desc.loc["unique"]
object_unique_count = object_unique_count.sort_values()
object_unique_count

## balance

In [None]:
plt.figure(figsize=(20, 5))
sns.kdeplot(data=df, x="balance", hue="deposit")

In [None]:
g = sns.PairGrid(data=df, x_vars=object_unique_count.index[:4], y_vars="balance")
g.map(sns.violinplot)

In [None]:
g = sns.PairGrid(data=df, x_vars=object_unique_count.index[:4], y_vars="balance", hue="deposit", aspect=2, height=5)
g.map(sns.stripplot)

In [None]:
g = sns.PairGrid(data=df, 
                 x_vars=object_unique_count.index[:4], 
                 y_vars="balance", 
                 hue="deposit", aspect=2)
g.map(sns.pointplot)

In [None]:
sns.catplot(data=df, x="job", y="balance", hue="deposit", col="education", 
            kind="bar", col_wrap=1, aspect=4, sharex=False)

In [None]:
sns.catplot(data=df, x="job", y="balance", hue="deposit", col="education", 
            kind="violin", split=True, col_wrap=1, aspect=4, sharex=False)

## 상관계수

In [None]:
corr = df.select_dtypes(include="number").corr()
corr

In [None]:
mask = np.triu(np.ones_like(corr))

In [None]:
plt.figure(figsize=(15, 4))
sns.heatmap(corr, annot=True, fmt=".3f", cmap="coolwarm", vmin=-.7, vmax=.7, mask=mask)

In [None]:
sns.pairplot(df, corner=True)

In [None]:
sns.pairplot(data=df, 
             x_vars=["age", "campaign", "day", "duration"], 
             y_vars=["balance", "duration"], 
             hue="deposit", 
             diag_kind=None)

## 나이에 따른 정기예금 신청 여부 빈도수 

In [None]:
# 범주형 개별 값에 대한 빈도수 
plt.figure(figsize=(20, 5))
sns.countplot(data=df, x="age", hue="deposit")

In [None]:
# 히스토그램의 bins에 따른 빈도수 
sns.displot(data=df, x="age", hue="deposit", aspect=5)

In [None]:
# 히스토그램의 빈도수를 밀도를 추정해서 그림
sns.displot(data=df, x="age", hue="deposit", aspect=5, kind="kde", rug=True)

## month

In [None]:
df["month_bins"]=pd.cut(df.day, bins=4, labels=["q1","q2","q3","q4"])
plt.figure(figsize=(10,5))
sns.countplot(data=df, x="month_bins", hue="deposit")

In [None]:
plt.figure(figsize=(10,5))
sns.countplot(data=df, x="day",hue="deposit")

In [None]:
sns.displot(data=df, x="day", hue="deposit", aspect=4, kind="kde", rug=True)

In [None]:
plt.figure(figsize=(15, 8))
sns.stripplot(data=df, x="month",y="day", hue="deposit",
              order=("jan","feb","mar","apr","may","jun","jul","aug","sep","oct","nov","dec"))

In [None]:
df.head()

In [None]:
pd.crosstab(df["job"], df["marital"]).style.background_gradient(axis=None)

In [None]:
sns.countplot(data=df, y="job", hue="marital")