# <span style="background-color:#fff5b1"><span style="color:black"><B>보험사 마케팅 활용을 위한 고객 군집화 모델링(Level 2)

## **Mission 1. 탐색적 데이터 분석**

### **[미션 이해하기]**
* 여러분들은 파인애플 보험사의 직원입니다. 파인애플 보험사는 효과적인 마케팅 전략을 완성시키기 위해 데이터 기반 마케팅을 시작했습니다.
  <br>고객의 행동,성향, 니즈 등의 고객 데이터를 마케팅 전략에 반영하여 고객별로 적절한 마케팅 Action을 주는 미션을 받았습니다.
* 고객별로 특징을 적절하게 반영할 수 있는 마케팅 방안은 고객을 segment 하는 것 인데, 어떤 방법으로 고객을 묶을 수 있을까요? 
  <br>바로, <font color="1E90FF"><b>군집분석을 기반으로 한 고객 segment를 개발 하는 것입니다.</font>


#### <b>[1일차] mission 1 목표 <b>: 고객의 기본 정보, 행동 정보 등을 확인해서 주요 변수를 선정하고 데이터 탐색해보기

#### <b>[실습프로세스]<b>

![image.png](attachment:3c5b7601-3fca-4fe1-8b6b-5f23899f89b1.png)

---------------------------------------------------------------------------------------------
## **(1) 데이터 불러오기**

* numpy, pandas, matplotlib, seaborn 등 데이터 분석에 필요한 라이브러리를 로딩해 봅시다.
* 만약 라이브러리가 없을 때 !pip를 통해 라이브러리를 설치해 주세요. (ex. !pip install pandas)
* 현위치에서 'customers_seg.csv' 파일을 읽어와 주세요.
* 활용하지 않는 변수를 index 화 해주세요. 

In [1]:
# [같이 하기] 필요 라이브러리 로딩
# numpy, pandas, matplotlib, seaborn, os 를 임포트 하기

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os

In [2]:
# 시각화 표에서 에러나는 부분 글꼴 셋팅

plt.rc("font", family = "Malgun Gothic")
sns.set(font="Malgun Gothic", 
rc={"axes.unicode_minus":False}, style='white')

In [3]:
# [같이 하기] 데이터 불러오기
# 1. data 변수에 'customers_seg.csv' 파일을 불러와서 할당, 인코딩은 cp949로 하기
# 2. data 변수 호출해서 상위 5개 행 확인해보기

data = pd.read_csv('customers_seg.csv', encoding = 'CP949')
data.head(5)

Unnamed: 0,CID,AGE,등록(계/피),고용상태,성별,Willingness to pay/Stay,갱신,상품타입,교육수준,소득,...,결혼여부,월 납입액,VOC,타 상품 보유 현황,온라인방문빈도,갱신인센티브,판매채널,총지불금액,자동차,거주지사이즈
0,1,3,피보험자,무직,1,2.616381,0,기본,대학졸업,0,...,미혼,80,0,1,자주방문,없음,자사영업,631000,일반세단,소
1,2,1,계약자,고용,0,6.35253,0,기본,고졸이하,102887400,...,미혼,80,1,4이상,비방문,포인트,인터넷,54000,일반세단,중
2,3,2,계약자,휴직,0,4.974354,0,기본,대학졸업,22159500,...,기혼,60,0,4이상,비방문,할인,자사영업,362000,일반세단,중
3,4,5,계약자,고용,1,13.480284,0,고급,고졸이하,51562500,...,기혼,110,0,2,비방문,할인,자사영업,1264000,컴팩트카,대
4,5,4,계약자,고용,0,9.776436,0,기본,석사,26820200,...,기혼,120,0,3,비방문,없음,대리점,947000,SUV,중


In [4]:
# [같이 하기] Index화 시키기
# 1. 해당 data 셋에서 'CID'는 활용하지 않을 예정으로 index 화 시켜보자.(함수: set_index 활용)
# 2. 잘 바뀌었는지 data 변수 호출해서 상위 5개 행 확인해보기

data.set_index('CID')

Unnamed: 0_level_0,AGE,등록(계/피),고용상태,성별,Willingness to pay/Stay,갱신,상품타입,교육수준,소득,지역,결혼여부,월 납입액,VOC,타 상품 보유 현황,온라인방문빈도,갱신인센티브,판매채널,총지불금액,자동차,거주지사이즈
CID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
1,3,피보험자,무직,1,2.616381,0,기본,대학졸업,0,도시근교,미혼,80,0,1,자주방문,없음,자사영업,631000,일반세단,소
2,1,계약자,고용,0,6.352530,0,기본,고졸이하,102887400,시골,미혼,80,1,4이상,비방문,포인트,인터넷,54000,일반세단,중
3,2,계약자,휴직,0,4.974354,0,기본,대학졸업,22159500,도시근교,기혼,60,0,4이상,비방문,할인,자사영업,362000,일반세단,중
4,5,계약자,고용,1,13.480284,0,고급,고졸이하,51562500,도시근교,기혼,110,0,2,비방문,할인,자사영업,1264000,컴팩트카,대
5,4,계약자,고용,0,9.776436,0,기본,석사,26820200,도시근교,기혼,120,0,3,비방문,없음,대리점,947000,SUV,중
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
11996,1,계약자,고용,1,25.985100,0,기본,대학졸업,86451000,도심,기혼,70,0,2,비방문,설계사독려,인터넷,245000,일반세단,중
11997,3,피보험자,고용,0,3.441000,1,중급,대학졸업,25962000,도시근교,미혼,80,0,1,자주방문,할인,자사영업,468000,일반세단,중
11998,3,피보험자,무직,1,9.057600,0,중급,대학졸업,0,도시근교,미혼,90,3,2,자주방문,할인,자사영업,977000,일반세단,중
11999,4,계약자,고용,1,8.347200,0,중급,대학졸업,26366000,도시근교,기혼,100,0,3,비방문,포인트,자사영업,854000,일반세단,대


---------------------------------------------------------------------------------------------
## **(2) 데이터 기초 정보 확인하기**
* 불러온 데이터셋(data)의 기초 정보들을 확인해봅시다.

In [5]:
# [문제1] 데이터 셋의 상위 5개 행을 확인해보자.

data.head(5)

Unnamed: 0,CID,AGE,등록(계/피),고용상태,성별,Willingness to pay/Stay,갱신,상품타입,교육수준,소득,...,결혼여부,월 납입액,VOC,타 상품 보유 현황,온라인방문빈도,갱신인센티브,판매채널,총지불금액,자동차,거주지사이즈
0,1,3,피보험자,무직,1,2.616381,0,기본,대학졸업,0,...,미혼,80,0,1,자주방문,없음,자사영업,631000,일반세단,소
1,2,1,계약자,고용,0,6.35253,0,기본,고졸이하,102887400,...,미혼,80,1,4이상,비방문,포인트,인터넷,54000,일반세단,중
2,3,2,계약자,휴직,0,4.974354,0,기본,대학졸업,22159500,...,기혼,60,0,4이상,비방문,할인,자사영업,362000,일반세단,중
3,4,5,계약자,고용,1,13.480284,0,고급,고졸이하,51562500,...,기혼,110,0,2,비방문,할인,자사영업,1264000,컴팩트카,대
4,5,4,계약자,고용,0,9.776436,0,기본,석사,26820200,...,기혼,120,0,3,비방문,없음,대리점,947000,SUV,중


In [6]:
# [문제2] 데이터 셋의 하위 5개 행을 확인해보자.
data.tail(5)

Unnamed: 0,CID,AGE,등록(계/피),고용상태,성별,Willingness to pay/Stay,갱신,상품타입,교육수준,소득,...,결혼여부,월 납입액,VOC,타 상품 보유 현황,온라인방문빈도,갱신인센티브,판매채널,총지불금액,자동차,거주지사이즈
11995,11996,1,계약자,고용,1,25.9851,0,기본,대학졸업,86451000,...,기혼,70,0,2,비방문,설계사독려,인터넷,245000,일반세단,중
11996,11997,3,피보험자,고용,0,3.441,1,중급,대학졸업,25962000,...,미혼,80,0,1,자주방문,할인,자사영업,468000,일반세단,중
11997,11998,3,피보험자,무직,1,9.0576,0,중급,대학졸업,0,...,미혼,90,3,2,자주방문,할인,자사영업,977000,일반세단,중
11998,11999,4,계약자,고용,1,8.3472,0,중급,대학졸업,26366000,...,기혼,100,0,3,비방문,포인트,자사영업,854000,일반세단,대
11999,12000,3,피보험자,무직,1,2.8971,0,중급,대학졸업,0,...,미혼,80,0,1,자주방문,없음,콜센터,456000,컴팩트카,중


In [None]:
# [문제3] data 데이터프레임의 행, 열의 개수 확인해보자.(shape)



In [None]:
#[문제4] data 데이터프레임의 컬럼명, 데이터 개수, 데이터 타입 정보를 확인 해보자.


In [None]:
# [문제5] 데이터 셋 수치형 데이터 기초통계 정보를 확인해보자



In [None]:
# [문제6] 데이터 셋의 모든 컬럼명(변수명)을 확인해보자.



---------------------------------------------------------------------------------------------
## **(3) 주요 변수 선정 및 탐색**

#### <b> 21개의 features 값은 어떤 의미일지 알아보고 주요 변수를 선정해 봅시다!
![image.png](attachment:image.png)

---------------------------------------------------------------------------------------------
### *<b>이 중 주요 변수를 선정 해 보았을 때 <font color="1E90FF"><b>11개의 features를 선정하였다.</font>
#### <font color="1E90FF"><b>* 우리의 목표: 군집화가 된 고객 segment 개발</font>
   
<span><b>1. 도메인 내 주요 정보 항목</span>
    <br><br>
        - (1) Willingness to pay/Stay: 계속 보험을 유지할 지 판단하는 지표 (신용점수, 납부/연체기록, 소득 등 활용)
    <br>- (2) 소득 
    <br>- (3) 월 납입액
    <br>- (4) 타상품 보유 현황: 고객이 이용하는 파인애플사의 타 서비스 수(어느정도 고객의 충성도를 알 수 있음)
    <br>- (5) 총지불금액
    
<span><b>2. 분석가 선정 컬럼</span>
    <br><br>- (6)AGE, (7)고용상태, (8)교육수준: 고객 기본 정보
    <br>- (9)상품타입, (10)거주지사이즈, (11)자동차: 소득 등과 연관해서 추정이 가능한 정보

### <b> [분석가 선정 컬럼 탐색하기]
* 분석가 선정 컬럼 : AGE, 고용상태, 교육수준, 상품 타입, 거주지사이즈, 자동차(총 6개 피쳐)
* 위 분석가 선정 컬럼을 crosstab을 통해서 탐색해 보자!

In [None]:
#[문제 7] 분석가 선정 컬럼들이 수치형인지 문자/범주형인지 알아보자! (info 활용)



### **【각각의 변수들이 어떤 의미를 가지고 있을지 데이터 탐색을 해보자!】**

<b>1. AGE

In [None]:
#[같이 하기] age 변수에 대해 교차표를 생성하고 탐색해보자.
#  age는 수치형이나 연령대(20대, 30대...)이므로 교차표(crosstab) 생성해보자.
#  crosstab의 파라미터(data[],columns='percentage',normalize= ) 하고 비율로 바꿔보자.
#  (1: 20대, 2: 30대, 3: 40대, 4: 50대, 5: 60대, 6: 70대)



<b>**age 변수에 대해 간단하게 탐색한 내용을 아래 주석으로 적어보자!**
## ↓ 

In [None]:
# 
#

In [None]:
#[같이 하기] age에 대해 countplot 으로 시각화를 해보자!
# 1. sns.countplot(x=' ', data= )으로 시각화. 색상은 원하는 색상으로!
# 2. title=('age'), grid 도 넣어서 이쁘게 만들어보자.




<b>2. 고용상태

In [None]:
#[문제 8] '고용상태' 변수에 대해 교차표를 생성하고 탐색해보자.(함수: crosstab(),colums='count')



In [None]:
#[문제 9] 생성한 교차표를 비율로 만들어서 탐색해보자.
# Normalize=True(표준화) 하고 * 100을 곱해주어 비율을 확인 해보자.



In [None]:
#[문제 10] 결측치 같아 보이는 것을 확인 해보자.
# 어라.. FALSE 값이 있잖어? 이게 뭐여...결측치가 있네?....info 값에서는 결측치가 안보였는데...?
# 고용상태의 결측치가 있는지 다시 확인해 보자.(isnull().any() 활용)



<b>**'고용상태' 변수에 대해 간단하게 탐색한 내용을 아래 주석으로 적어보자!**
## ↓ 

In [None]:
#
#

In [None]:
#[문제 11] '고용상태'에 대해 countplot 으로 시각화를 해보자!



<b>3. 교육수준

In [None]:
#[문제 12] '교육수준' 변수에 대해 교차표를 생성하고 탐색해보자.(함수: crosstab(),colums='count')



In [None]:
#[문제 13] 교육수준별 생성한 교차표를 비율로 만들어서 탐색해보자.
# Normalize=True(표준화) 하고 * 100을 곱해주어 비율을 확인 해보자.



<b>**'교육수준' 변수에 대해 간단하게 탐색한 내용을 아래 주석으로 적어보자!**
## ↓ 

In [None]:
# 
#

In [None]:
#[문제 14] '교육수준'에 대해 countplot 으로 시각화를 해보자!



<b>4. 상품타입

In [None]:
#[문제 15] '상품타입'변수에 대해 교차표를 생성하고 탐색해보자.(함수: crosstab(),colums='percentage')
# Normalize=True(표준화) 하고 * 100을 곱해주어 비율을 확인 해보자.



<b>**'상품타입' 변수에 대해 간단하게 탐색한 내용을 아래 주석으로 적어보자!**
## ↓ 

In [None]:
# 
#

In [None]:
#[문제 16] '상품타입'에 대해 countplot 으로 시각화를 해보자!



<b>5. 거주지사이즈

In [None]:
#[문제 17]'거주지사이즈'변수에 대해 교차표를 생성하고 탐색해보자.(함수: crosstab(),colums='percentage')
# Normalize=True(표준화) 하고 * 100을 곱해주어 비율을 확인 해보자.



<b>**'거주지사이즈' 변수에 대해 간단하게 탐색한 내용을 아래 주석으로 적어보자!**
## ↓ 

In [None]:
# 
#

In [None]:
#[문제 18] '거주지사이즈'에 대해 countplot 으로 시각화를 해보자!



<b>6. 자동차

In [None]:
#[문제 19]'자동차'변수에 대해 교차표를 생성하고 탐색해보자.(함수: crosstab(),colums='percentage')
# Normalize=True(표준화) 하고 * 100을 곱해주어 비율을 확인 해보자.



<b>**'자동차' 변수에 대해 간단하게 탐색한 내용을 아래 주석으로 적어보자!**
## ↓ 

In [None]:
# 
#

In [None]:
#[문제 20]'자동차'에 대해 countplot 으로 시각화를 해보자!



### **<b>[도메인 주요 항목 컬럼 탐색하기]**
* 도메인 주요 항목 : Willingness to pay/Stay,소득,월 납입액,타상품 보유 현황,총지불금액(총 5개 항목)
* 위 도메인 주요 항목 컬럼을 crosstab, histplot 을 통해서 탐색해 보자

In [None]:
#[문제 21] 도메인 내 주요 항목 컬럼들이 수치형인지 문자형인지 알아보자! (info 활용)



<b> 1. WTP(Willingness to pay/Stay)
* 연속형/수치형 컬럼이기 때문에 histplot으로 데이터 확인해보기


In [None]:
#[같이 하기] 히스토그램으로 'Willingness to pay/Stay(WTP)'에 대한 그래프를 그려보자.

# 1. figsize(12,8) 셋팅하기



# 2. histplot 그리기
# bins = 30, kde = True로 설정해서 그래프를 그려보자.



In [None]:
#[같이 하기] WTP의 평균값을 확인해보자(describe 사용)



<b>**'Willingness to pay/Stay(WTP)' 변수에 대해 간단하게 탐색한 내용을 아래 주석으로 적어보자!**
## ↓ 

In [None]:
# 
# 

<b> 2. 소득
* 연속형/수치형 컬럼이기 때문에 histplot으로 데이터 확인해보기

In [None]:
#[문제 22] 히스토그램으로 '소득'에 대한 그래프를 그려보자.
# bins = 30, kde = True로 설정해서 한번 보자

# 1. figsize(12,8) 셋팅하기


# 2. histplot 그리기
# bins = 30, kde = True로 설정해서 그래프를 그려보자.



<b>**'소득' 변수에 대해 간단하게 탐색한 내용을 아래 주석으로 적어보자!**
## ↓ 

In [None]:
# 
# 

<b> 3. 월 납입액
* 연속형/수치형 컬럼이기 때문에 histplot으로 데이터 확인해보기

In [None]:
#[문제 23] 히스토그램으로 '월 납입액'에 대한 그래프를 그려보자.
# bins = 30, kde = True로 설정해서 한번 보자

# 1. figsize(12,8) 셋팅하기

# 2. histplot 그리기
# bins = 30, kde = True로 설정해서 그래프를 그려보자.


In [None]:
#[문제 24] '월 납입액'의 평균값을 확인해보자(describe 사용)


<b>**'월 납입액' 변수에 대해 간단하게 탐색한 내용을 아래 주석으로 적어보자!**
## ↓ 

In [None]:
# 
#

<b> 4. 타상품 보유
* 문자형/범주형 컬럼이기 때문에 crosstab으로 데이터 확인해보기

In [None]:
#[문제 25] '타상품 보유' 변수에 대해 교차표를 생성하고 탐색해보자.(함수: crosstab(),colums='percentage')
# Normalize=True(표준화) 하고 * 100을 곱해주어 비율을 확인 해보자.



<b>**'타상품 보유' 변수에 대해 간단하게 탐색한 내용을 아래 주석으로 적어보자!**
## ↓ 

In [None]:
# 
# 

<b> 5. 총지불금액
* 연속형/수치형 컬럼이기 때문에 histplot으로 데이터 확인해보기

In [None]:
#[문제 26] 히스토그램으로 '총지불금액'에 대한 그래프를 그려보자.
# bins = 30, kde = True로 설정해서 한번 보자

# 1. figsize(12,8) 셋팅하기


# 2. histplot 그리기
# bins = 30, kde = True로 설정해서 그래프를 그려보자.


In [None]:
#[문제 27] '총지불금액'의 평균값을 확인해보자(describe 사용)



<b>**'총 지불 금액' 변수에 대해 간단하게 탐색한 내용을 아래 주석으로 적어보자!**
## ↓ 

In [37]:
# 
# 

## **[Mission 1-변수 탐색 결론]**

* 수치형 컬럼 이외에도, 주요 변수 중 object 형태의 컬럼이 존재
* 수치형 컬럼은 단위가 각각 다르므로 스케일링 고려 필요
* 범주형 컬럼은 인코딩을 통해서 모델링을 위한 변환이 필요 

### <font color="1E90FF"><b>→ 데이터를 확인하고 탐색하여 전처리의 방향성 및 feature 값에 대한 이해 증대<b><br>
    

# <b>Mission 1 완료!
수고하셨습니다!