In [1]:
# 1. 데이터 획득
# 사용할 도구 가져오기
import pandas as pd # 다양한 외부 리소스에 데이터를 읽고 쓸 수 있는 기능
import numpy as np #배열간 연산 실행
import matplotlib.pyplot as plt #pyplot 모듈의 각각의 함수를 사용해서 그래프를 만들고 변화
import seaborn as sns #시각화에 사용
from scipy.stats import ttest_ind #t-검정 공식(두 집단의 비교가 통계적으로 유의미한가를 검정)

In [2]:
# 데이터 불러오기
df = pd.read_csv('c:/bank.csv', sep=',')

In [3]:
# 데이터셋의 모양 확인
row = df.shape[0] #행 갯수 세기
col = df.shape[1] #열 갯수 세기
print('There are {} rows and {} columns in this dataset'.format(row, col))

There are 11162 rows and 17 columns in this dataset


In [4]:
# 탐색적 데이터 분석
df.head()

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,deposit
0,59,admin.,married,secondary,no,2343,yes,no,unknown,5,may,1042,1,-1,0,unknown,yes
1,56,admin.,married,secondary,no,45,no,no,unknown,5,may,1467,1,-1,0,unknown,yes
2,41,technician,married,secondary,no,1270,yes,no,unknown,5,may,1389,1,-1,0,unknown,yes
3,55,services,married,secondary,no,2476,yes,no,unknown,5,may,579,1,-1,0,unknown,yes
4,54,admin.,married,tertiary,no,184,no,no,unknown,5,may,673,2,-1,0,unknown,yes


In [5]:
df.tail()

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,deposit
11157,33,blue-collar,single,primary,no,1,yes,no,cellular,20,apr,257,1,-1,0,unknown,no
11158,39,services,married,secondary,no,733,no,no,unknown,16,jun,83,4,-1,0,unknown,no
11159,32,technician,single,secondary,no,29,no,no,cellular,19,aug,156,2,-1,0,unknown,no
11160,43,technician,married,secondary,no,0,no,yes,cellular,8,may,9,2,172,5,failure,no
11161,34,technician,married,secondary,no,0,no,no,cellular,9,jul,628,1,-1,0,unknown,no


In [6]:
df.info() 
# 열과 해당 데이터 유형
# 모든 열에 대해 null 값은 없지만 렇다고 해서 잘못된 데이터가 없는 것은 아님
# 일부 열은 부울 값(TRUE 또는 FALSE)으로 변환해야 할 수 있다(ex: default, housing).

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11162 entries, 0 to 11161
Data columns (total 17 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   age        11162 non-null  int64 
 1   job        11162 non-null  object
 2   marital    11162 non-null  object
 3   education  11162 non-null  object
 4   default    11162 non-null  object
 5   balance    11162 non-null  int64 
 6   housing    11162 non-null  object
 7   loan       11162 non-null  object
 8   contact    11162 non-null  object
 9   day        11162 non-null  int64 
 10  month      11162 non-null  object
 11  duration   11162 non-null  int64 
 12  campaign   11162 non-null  int64 
 13  pdays      11162 non-null  int64 
 14  previous   11162 non-null  int64 
 15  poutcome   11162 non-null  object
 16  deposit    11162 non-null  object
dtypes: int64(7), object(10)
memory usage: 1.4+ MB


In [7]:
df.describe() # 기초통계량 확인

Unnamed: 0,age,balance,day,duration,campaign,pdays,previous
count,11162.0,11162.0,11162.0,11162.0,11162.0,11162.0,11162.0
mean,41.231948,1528.538524,15.658036,371.993818,2.508421,51.330407,0.832557
std,11.913369,3225.413326,8.42074,347.128386,2.722077,108.758282,2.292007
min,18.0,-6847.0,1.0,2.0,1.0,-1.0,0.0
25%,32.0,122.0,8.0,138.0,1.0,-1.0,0.0
50%,39.0,550.0,15.0,255.0,2.0,-1.0,0.0
75%,49.0,1708.0,22.0,496.0,3.0,20.75,1.0
max,95.0,81204.0,31.0,3881.0,63.0,854.0,58.0


In [8]:
# 데이터 전처리
# 'duration' 속성은 출력 대상에 큰 영향을 미치며 호출이 끝날 때까지 알 수 없기 때문에 제거 -?
df.drop(columns = ['duration'], inplace=True)

In [None]:
# 범주형 열의 고유 값 출력

cols = ['job', 'marital', 'education', 'default', 'housing', 'loan', 'contact', 'month', 'poutcome', 'deposit']
for col in cols:
    print('There are {} unique values in column, "{}"'.format(df[col].nunique(), col)) #각 column에 고유값이 몇 개 있는지 알고싶다면
    print('Unique values of column, "{}": {}'.format(col, df[col].unique())) #데이터가 무엇으로 구성되어있는지 보고 싶다면

In [None]:
# 범주형 열에 대한 Countplot(해당 카테고리 별 데이터의 개수를 보여주는 그래프)

cat_col = ['job', 'marital', 'education', 'default', 'housing', 'loan', 'contact', 'month', 'poutcome', 'deposit']

sns.set_theme() #기본 테마 적용
fig, ax = plt.subplots(nrows=10, ncols=1, figsize=(15, 50)) #한번에 여러개의 그래프를 표현
fig.subplots_adjust(hspace=.5) #서브 플롯 간 간격(hspace:높이변경)을 변경
plt.title('Countplot for categorical variables')

for i, col in enumerate(cat_col): #인덱스와 원소를 차례대로 접근하게 해주는 반복자(iterator)객체를 반환해주는 함수
    sns.countplot(y=col, data=df, ax = ax[i]) #범주형 변수의 빈도수를 시각화
    ax[i].set_title('count of {}'.format(col))
    
# countplot 해석

## job column: job column에는 범주뿐만 아니라 고용 상태도 포함. 그들을 분리하는 것이 좋음
## 'month' column: 12월과 5월은 특히 낮은 카운트와 높은 카운트를 각각 가질 수 있다.
## 'default', 'housing' 및 'loan' ,'deposit' 열은 가능한 0 또는 1만 포함하는 더미 변수로 변환하는 데 유용한 열

In [None]:
# 예/아니오를 이진 변수로 변환(1,0)

binary_col = ['default', 'housing', 'loan', 'deposit']
dict = {'yes':1, 'no':0}

for col in binary_col:
    binary = df[col].map(dict)
    df[col] = binary

In [None]:
# 수치 데이터 분포 시각화 (boxplot)

num_col = ['age', 'balance', 'day', 'campaign', 'pdays', 'previous'] # numeric columns

fig, ax = plt.subplots(nrows=6, ncols=1, figsize=(15, 45)) # 하위 플롯 생성
fig.subplots_adjust(hspace=.5) #플롯 사이의 간격을 조정

for i, col in enumerate(num_col):
    sns.boxplot(x=df[col], ax=ax[i])
    ax[i].set_title('Distribution of {}'.format(col))
    
# 해석

## 'age' column: 대부분의 연령 값은 75세 미만으로 분포되며 중앙값은 30대 중반이다.
## 'balance' column: 균형은 매우 다양했지만 대부분의 값이 0에 집중되었다.
## 'pdays' column: 마지막 마케팅 캠페인 이후 경과된 일수가 0인 것 같다.
## 'previous' column: 이 마케팅 캠페인 이전에 연락처가 거의 없다.

In [None]:
# 변수 분석

## 주어진 속성으로 생성될 수 있는 다양한 세그먼트의 변환 속도를 평가.

### 범주형 열 : 'job', 'marital', 'education', 'default', 'housing', 'loan', 'contact', 'month', 'poutcome', 'deposit'
### 숫자형 열 : 'age', 'balance', 'duration', 'campaign', 'pdays', 'previous'

In [None]:
# 예금 비율 = 1을 계산

def groupby_deposit(col_list): #같은 값을 하나로 묶어 통계 또는 집계 결과를 얻기 위해 사용
    return df.groupby(col_list)['deposit'].mean()

In [None]:
# 속성 세그먼트의 전환율을 플롯하는 기능
def one_col_conv_rate(col):
    sns.set_theme()
    data = groupby_deposit(col).to_frame().reset_index()
    plt.figure(figsize=(14,6))
    ax = sns.barplot(x=data['deposit'],\
                  y=data[col].astype('category'),\
                      ci=95)
    ax.yaxis.grid(True)
    plt.title('Conversion rates for "{}" attribute client segments'.format(col))
    plt.xlabel('Marketing campaign conversion rate (1=100%)')   
    plt.xlim((0,1))

In [None]:
# 2속성 세그먼트의 전환율을 표시하는 함수
def two_col_conv_rate(col_list):
    sns.set_theme()
    data = groupby_deposit(col_list).to_frame().reset_index()
    plt.figure(figsize=(14,6))
    ax = sns.pointplot(x=data['deposit'],\
                  y=data[col_list[0]].astype('category'),\
                  hue=data[col_list[1]].astype('category'),\
                  join=False)
    ax.yaxis.grid(True)
    plt.title('Conversion rates for {}-{} client segments'.format(col_list[0], col_list[1]))
    plt.xlabel('Marketing campaign conversion rate (1=100%)')
    plt.xlim((0,1))

In [None]:
# 범주형 열

#'job', 'deucation', 'default', 'housing', 'housing', 'contact', 'contact', 'month', 'putcome' 

In [None]:
# Job
one_col_conv_rate('job')

# 그래프 해석

# 퇴직자 및 학생 클라이언트의 전환율이 가장 높다.
# 그 이유는 지출이 큰 변동 없이 대부분 '평탄'하기 때문이다.
# 퇴직자는 퇴직금이 있는 반면 학생들은 생활비와 학비를 걱정해야 하는 경우가 많다.
# 블루칼라, 기업가, 서비스업, 가정부 및 서비스업에 종사하는 고객은 전환율이 낮은 것을 볼 수 있는데,
# 이러한 직업들은 일반적으로 고임금이 아니며 저임금을 받는 직업들은 유동성이 적다는 가설을 세울 수 있다.
# 기업가는 일반적으로 성공률이 낮고(5년 내 80% 실패), 활주로에서 낮은 경우가 많다.

In [None]:
# Marital

one_col_conv_rate('marital')

# 기혼 고객들이 예금할 확률이 낮습니다
# 기혼 고객들은 큰 금융 투자인 아이를 가질 가능성이 더 높다. 이것은 또한 그들이 유동성을 가질 가능성이 낮다는 것을 의미한다.

In [None]:
# Education`

one_col_conv_rate('education')

# 교육 수준이 높을수록 전환 가능성이 높아진다.
# 가설: 더 많은 교육을 받은 사람들은 더 많은 돈을 받을 수 있고 따라서 더 많은 자금을 더 많이 받을 수 있다. -?
# 또한, 더 높은 이자율을 감수하면서도 "가둬진" 것에 대해 편안함을 느낀다. -?

In [None]:
# contact

one_col_conv_rate('contact')

In [None]:
# '셀룰러' 및 '전화' 연락 방법의 전환 속도가 다른지 확인

df1 = df[df['contact'] == 'cellular']['deposit']
df2 = df[df['contact'] == 'telephone']['deposit']
pval = ttest_ind(df1, df2).pvalue

print('Chance of "cellular" and "telephone" having a same value: {}%'.format(round(pval*100, 4)))4

# '휴대전화'로 연락한 고객은 '전화'로 연락한 고객보다 전환 가능성이 더 높다.
# 젊은 사람들이 노인 인구보다 휴대전화를 더 많이 가지고 있기 때문일 가능성이 있다.

In [None]:
# month

one_col_conv_rate('month')

# 많은 계절 산업/사업이 있으며, 예금 개통이 그 중 하나일 수 있다.
# 12월, 3월, 9월, 10월은 다른 달보다 전환율이 높았다.

In [None]:
# poutcome

one_col_conv_rate('poutcome')

In [None]:
# 마케팅 캠페인의 과거 실패/성공으로 인해 진행 중인 마케팅 캠페인 전환율에 통계적으로 큰 차이가 있는지 확인

poutcome_failure = df[df['poutcome'] == 'failure']['deposit']
poutcome_success = df[df['poutcome'] == 'success']['deposit']
pval = ttest_ind(poutcome_failure, poutcome_success).pvalue

print('Chance of "failure" and "success" having a same value: {}%'.format(round(pval*100, 4)))

# 마케팅 캠페인의 이전 성공은 통계적으로 충분히 중요한 높은 전환율로 이어지는 것을 알 수 있다.

In [None]:
# 수치형 데이터 히트맵으로 시각화

df_num = df[['age', 'balance', 'campaign', 'pdays', 'previous', 'deposit']]
plt.figure(figsize=(14,6))
sns.heatmap(df_num.corr(), annot=True)

# 히트맵 해석

# (변수 간의 상관 관계가 변수 간의 원인을 의미하는 것은 아니고 상관 관계가 낮다고 해서 반드시 변수 간의 관계가 없는 것은 아님. 
# 엄격히 선형적이지 않을 수 있음)

# Campaign(이 캠페인 동안 수행된 연락처 수)과 deposit의 상관 관계가 미약하고 음의 상관 관계로 나타남
# pdays와 pdays는 모두 이전 캠페인 경험과 관련이 있다.
# pdays : (이전 캠페인의 마지막 연락처 이후 경과된 일수)
# previous : (이 캠페인 이전에 수행된 연락처 수)
# pdays와 previous 둘 다 예금과의 가벼운 사후적 상관관계를 가진다.
# 이전 캠페인이 없는 연락처의 값은 -1
# 이는 이전 캠페인의 연락처가 있는 사람들에게 보증금 가치가 더 높다는 것을 시사한다.
# 다중 공동성 때문에 모델을 장착하기 위해 pdays와 이전 두 열 중 하나만 사용할 수 있지만, 현재로서는 확실하지 않다.

In [None]:
# 경험적 누적 분포 함수 시각화

def plot_ecdf(data, col):
    x = np.sort(data[col])
    y = np.sort(np.arange(1, len(data[col])+1)/(len(data[col])+1))
    x_norm = np.sort(np.random.normal(data[col].mean(), data[col].std(), len(data[col])))

    plt.figure(figsize=(16,8))
    ax = sns.scatterplot(x=x, y=y, label=col, edgecolors=None, linewidth=0, alpha=0.5)
    sns.scatterplot(x=x_norm, y=y, label='Normal Distribution', ax=ax, edgecolors=None, linewidth=0, alpha=0.5)
    plt.title('ECDF of {}'.format(col))
    plt.ylabel('Probability')

In [None]:
# 연령별 전환율

yearly_conv_rate = df.groupby('age')['deposit'].mean().to_frame().reset_index() # conversion rate by age
plt.figure(figsize=(16,8))
ax = sns.lineplot(x='age', y='deposit', data=yearly_conv_rate)
plt.title('Conversion rate by age')
plt.xlabel('Age')
plt.ylabel('Conversion rate (1=100%)')
ax.axvline(30, linestyle = '--')
ax.axvline(60, linestyle = '--')

# 30세 이하와 60세 이상은 이 마케팅 캠페인에서 보증금을 열 가능성이 훨씬 더 높다.
# 왜 그런 결과가 도출되었는지 가설 설정

# 가설 1. 30세에서 60세가 한창 일할 나이이지만, 그들은 많은 돈을 쓸 가능성이 가장 높고(자녀, 주택 등) 따라서 형평성이 낮은 사람들이다.
# 가설 2. 30-60세 연령층은 안정성에 대한 일관된 소득원을 갖는 경향이 있으며, 
#         따라서 더 큰 수익(예: 주식)으로 더 위험한 투자 옵션에 관심이 있다.


In [None]:
# 30세 및 60세 연령 그룹 생성

df.loc[:, 'age_group'] = '<30'
df.loc[(df['age'] >= 30)&(df['age'] < 60), 'age_group'] = '30-60'
df.loc[(df['age'] >= 60),'age_group'] = '>60'

In [None]:
# 각 연령 그룹의 클라이언트 수 카운트

df.value_counts('age_group')

In [None]:
# 연령_그룹별 전환율 참조

one_col_conv_rate('age_group')

plot_ecdf(df, 'balance')

In [None]:
# 잔액을 위한 숫자 그룹 생성

df.loc[:,'balance_group'] = '<0'
df.loc[(df['balance'] >= 0)&(df['balance'] < 1000), 'balance_group'] = '0-1000'
df.loc[(df['balance'] >= 1000)&(df['balance'] < 2500), 'balance_group'] = '1000-2500'
df.loc[(df['balance'] >= 2500), 'balance_group'] = '2500+'

In [None]:
# 전환율 시각화

one_col_conv_rate('balance_group')

# 고객이 잔액(예금 금액)이 많을수록 전환 가능성이 높아지는 것을 알 수 있다.
# 고객이 계좌에 돈이 많을수록 가까운 미래에 보증금의 상당 부분을 사용하거나 
# 이삿짐을 져야 할 가능성은 줄어들 것으로 추측된다. 이 경우 유동성과 부수입을 교환하는 정기예금이 사람들에게 더 유리할 것

In [None]:
# 각 그룹에 대한 샘플이 충분한지 확인

df.value_counts('balance_group').to_frame().sort_values('balance_group')

In [None]:
# Balance

plot_ecdf(df, 'campaign')

# 대부분의 사람들은 1, 2, 3번 연락을 받았고, 점점 더 적은 수의 사람들이 연락을 받았다는 것을 알 수 있다.

In [None]:
# 캠페인 연락처 수별 전환율 (미세한 결과지만 변곡점이 있는 곳을 찾는데 도움을 주기 위함)

df_campaign = df[df['campaign'] <= 10]
campaign_conv_rate = df_campaign.groupby('campaign')['deposit'].mean().to_frame().reset_index() 

# 캠페인별 전환율
plt.figure(figsize=(16,8))
ax = sns.lineplot(x='campaign', y='deposit', data=campaign_conv_rate)
plt.title('Conversion rate by number of contacts in the campaign')
plt.xlabel('Number of contacts to client during the campaign')
plt.ylabel('Conversion rate (1=100%)')
plt.xticks(np.arange(1, 11))
ax.axvline(2, linestyle = '--')
ax.axvline(3, linestyle = '--')
ax.axvline(7, linestyle = '--')

# 첫 번째 연락처를 초과하는 추가 연락처로 인해 전환률이 감소한다.
# 일부 고객은 처음에 언급했듯이 프로세스를 완료하는 데 두 명 이상의 연락처가 필요할 수 있다.
# 전환 비율이 감소하는 연락처 수는 세 번째 통화 이후 크게 증가한다.
# 변환 비율이 훨씬 더 크게 감소하는 접점의 수는 7번째 호출 이후에 시작되지만, 낮은 샘플 크기 때문일 수 있다.

In [None]:
# 캠페인 중 연락처 그룹화를 위한 범주형 데이터 할당

df.loc[:,'campaign_group'] = ''
df.loc[df['campaign'] == 1, 'campaign_group'] = '1'
df.loc[(df['campaign'] == 2) | (df['campaign'] == 3), 'campaign_group'] = '2-3'
df.loc[(df['campaign'] > 3) & (df['campaign'] <= 7), 'campaign_group'] = '4-7'
df.loc[(df['campaign'] > 7), 'campaign_group'] = '7+'

In [None]:
# 그룹별 전환율 시각화

one_col_conv_rate('campaign_group')

In [None]:
# 통화 횟수에 따라 감소하는 전환율을 확인

camp_1 = df[df['campaign'] == 1]
camp_23 = df[(df['campaign'] == 2)|(df['campaign'] == 3)]
pval = ttest_ind(camp_1['deposit'], camp_23['deposit']).pvalue

print('Chance of campaign = 1 and campaign = (2 or 3) having a same converion rate: {}%'.format(round(pval*100, 4)))

In [None]:
# pdays : ECDF

plot_ecdf(df, 'pdays')

# 값의 대부분은 -1이다. 

In [None]:
# pdays' =-1인 행을 제외한 다른 ecdf를 그림으로 표시

plot_ecdf(df[df['pdays'] >= 0], 'pdays')

# 고객과 마지막으로 연락한 날로부터 경과한 일수가 정상적으로 분포되지 않았으며, 
# 이는 이전 마케팅 캠페인과 접촉한 고객이 많았으며 그 사이에 휴식이 있었음을 알 수 있다.

In [None]:
# 날짜를 그룹으로 분류

df.loc[:,'pdays_group'] = 4 
df.loc[~(df['pdays']== -1),'pdays_group'] = pd.qcut(df.loc[~(df['pdays'] == -1), 'pdays'], 4, labels=False)
one_col_conv_rate('pdays_group')

In [None]:
# 레이블 설명:

# 0 : 마지막 마케팅 캠페인 연락처 이후 1분기 경과일
# 1 : 마지막 마케팅 캠페인 연락처 이후 경과일수 2분위
# 2 : 마지막 마케팅 캠페인 연락처 이후 3/4분위수 경과일
# 3 : 마지막 마케팅 캠페인 연락처 이후 4분위수 경과일
# 4 : 이전 마케팅 캠페인 없음
    
# 이전에 연락을 받지 않은 사람의 전환율이 가장 낮고,
# 마지막 캠페인 이후 연결 대기 시간이 길수록 마케팅 캠페인 전환률이 낮다는 것을 알 수 있다.  

In [None]:
# 범주 경계 나열

pd.qcut(df.loc[~(df['pdays'] == -1), 'pdays'], 4)

In [None]:
# 그룹 당 충분한 개수가 있는지 확인

df['pdays_group'].value_counts()

In [None]:
# 'previous' 그래프

plot_ecdf(df, 'previous')

plot_ecdf(df[df['previous'] > 0], 'previous')

# 대부분의 고객은 과거에 연락을 받지 않았다.

In [None]:
# 다중 변수 분석(2계층 분할)
# 두 가지 속성 선택을 사용한 세그먼트의 변환 속도 시각화

# age - balance
col_list = ['age_group','balance_group']
two_col_conv_rate(col_list)

# 고객이 모두 고령(60세 이상)이고 잔고가 0 미만인 경우 고객은 같은 연령 그룹의 동료보다 정기 예금에 등록할 가능성이 훨씬 적다.

In [None]:
# age - poutcome

col_list = ['age_group','poutcome']
two_col_conv_rate(col_list)

# 이전 캠페인의 이전 전환은 90% 이상의 전환 또는 연령 그룹을 의미한다.

In [None]:
# education - marital

col_list = ['education','marital']
two_col_conv_rate(col_list)

# 거의 모든 교육 및 연령대에서 단일 클라이언트의 전환률이 가장 높았습니다.

In [None]:
# age_group - marital

col_list = ['age_group','marital']
two_col_conv_rate(col_list)

# 거의 모든 교육 및 연령대에서 단일 클라이언트의 전환률이 가장 높았습니다.

In [None]:
# 응용

# 이제 데이터의 추세를 이해했으므로 이러한 통찰력을 사용하여 정기 예금에 가입하려는 사람들의 유형을 알아볼 것
# 사용 가능한 데이터와 우리가 발견한 추세를 사용하여 정기 예금에 가입하는 경향이 있는 페르소나 집합에 대한 가설 설정

In [None]:
# 가치 제안 

# 시작하기 전에 정기 예금의 가치 제안을 살펴볼 것이다.
# 왜 사람들은 정기 예금이 매력적이라고 생각할까?
# 참고로 적금이라는 용어는 일반 저축예금에 비해 높은 수익률을 얻기 위해 일정 기간 동안 돈을 예치하는 예금 계좌를 말한다.

# 정기예금은 유동성과 추가 수익(저축 계좌에 비해) 사이의 거래이다. 사람들은 왜 이것에 관심을 두고 있을지 생각

In [None]:
# 가설 1: "나는 돈이 많다"
# 당신이 부유하다면 일상 생활을 위한 유동성은 당신의 관심사가 아닐 것이다.
# 대부분의 사람들에게 큰 구매로 간주되는 품목조차도 단기간에 재정에 영향을 미치지 않습니다.

# 이 가설은 다음 통찰력에 의해 뒷받침됩니다.

# 평균적으로 개인이 더 수익성이 높은 직종(예: 관리)이 다른 직종(예: 블루칼라)보다 전환율이 높았다.
# 평균적으로 고등 교육 배경(예: 고등 교육)을 가진 개인이 세그먼트에서 다른 사람들보다 더 높은 전환율을 보였다.
# 평균적으로 입금액 카테고리가 높을수록 전환율이 높음
# 평균적으로 잔액이 0 미만인 사람들은 계정에 잔액이 있는 사람들보다 전환율이 낮았다.

In [None]:
# 가설 2: "당분간 인출하지 않을 저축이 있다"
# 상당한 금액을 인출할 즉각적인 계획 없이 저축한 돈이 있는 경우 은행에 예금된 돈에 대해 더 나은 수익을 창출한다는 아이디어가 매력적으로 들릴 수 있다.

# 이 가설은 다음 통찰력에 의해 뒷받침 된다.

# 퇴직자금이 있을 가능성이 높은 퇴직자는 다른 직종에 비해 전환율이 높았다.
# 은퇴할 가능성이 더 높은 고령자(60+)는 나머지보다 전환율을 보였다. 
# 미래를 위해 저축할 가능성이 더 높은 젊은 개인(30세 미만)이 노동력 연령(30-60세)보다 전환율이 더 높았다.
# 평균적으로 자녀(들) 관련 비용이 덜 발생할 가능성이 있는 독신 개인은 이혼한 결혼한 사람들보다 여러 부문에서 더 높은 전환율을 보였다.
# 평균적으로 미지급 대출이 없는 사람들이 그렇지 않은 사람들보다 전환율이 더 높았다.