# <span style="background-color:#fff5b1"><span style="color:black"><B>보험사 마케팅 활용을 위한 고객 군집화 모델링(Level 2)

## **Mission 3. 분석 모델 개발**

### [미션 이해하기]
* 여러분들은 파인애플 보험사의 직원입니다. 파인애플 보험사는 효과적인 마케팅 전략을 완성시키기 위해 데이터 기반 마케팅을 시작했습니다.
  <br>고객의 행동,성향, 니즈 등의 고객 데이터를 마케팅 전략에 반영하여 고객별로 적절한 마케팅 Action을 주는 미션을 받았습니다.
* 고객별로 특징을 적절하게 반영할 수 있는 마케팅 방안은 고객을 segment 하는 것 인데, 어떤 방법으로 고객을 묶을 수 있을까요? 
  <br>바로, <font color="1E90FF"><b>군집분석을 기반으로 한 고객 segment를 개발 하는 것입니다.</font>


#### <b>[2일차] mission 3 목표<b>: 전처리 한 데이터를 활용하여 군집분석 하고, 데이터 탐색 기반 프로파일링을 통해 군집별 특징 정의 해보기

#### <b>[실습프로세스]<b>

![image.png](attachment:ce2f3be3-dc31-431a-a356-aecb06c3d6f9.png)

---------------------------------------------------------------------------------------------
## **(1) k-means 모델(군집 분석)**

#### **ㅇ k-means 모델이란?**
 > #### **비지도학습의 대표적인 군집분석을 위한 모델로 주어진 데이터를 K개의 클러스터로 묶는 알고리즘**
 > * K 군집의 초기 중심에서 시작해서 중심을 바꾸는 단계를 사용하여 데이터를 가장 가까운 군집으로 포함시켜 분류하는 모델
 > * 장점: 단순 알고리즘 및 빠른 연산 속도
 > * 단점: 이상치, 노이즈에 민감하고 초기 군집 수 결정 단계가 필요함

### **0. 데이터 불러오기**

In [35]:
#[문제 1] 필요 라이브러리 로딩
# numpy, pandas, matplotlib, seaborn, os 를 임포트 하기



In [36]:
# 시각화 표에서 에러나는 부분 글꼴 셋팅

plt.rc("font", family = "Malgun Gothic")
sns.set(font="Malgun Gothic", 
rc={"axes.unicode_minus":False}, style='white')

# 지수표현(소수점 2자리까지 나타내기)

pd.options.display.float_format = '{:.2f}'.format

In [None]:
# [문제 2] 스케일링 한 데이터 불러오기
# 1. data 변수에 'scaler_data.csv' 파일을 불러와서 할당, 인코딩은 utf-8
# 2. data 변수 호출해서 상위 5개 확인해보기



### **1. 군집분석**

##### <b>군집분석을 위해 최적의 그룹 k 값을 찾아보고 최적의 군집 수를 결정해 보자

#### <b>**0) 기본 셋팅**
* yellowbrick을 임포트 해서 군집분석 해보기

In [None]:
#[같이 하기] yellowbrick이 없는 경우 pip로 설치해 주기(!pip install yellowbrick)



In [39]:
# [같이 하기] k-means, yellowbrick의 KElbowVisualizer 불러오기



#### <b>**1) 직접 하나하나 해보기**
* 몇 개의 그룹으로 군집화를 할지 k 값을 바꿔 가면서 '최적의 k 값'을 찾아보는 것을 해보자.

In [None]:
# [같이 하기] 군집화할 그룹(k) 결정하기

# 우리는 먼저 몇개의 그룹으로 군집화 할지 3~10까지 수 중에서 결정하려고 하고, 3부터 2씩 올려서 클러스터링을 해보려고 한다.
# 그러면 3개의 그룹부터 시작해 보자.


# 1.몇개의 그룹(k)으로 군집화 할지 임의로 정해보기


# 2. 모델 만들기 (그룹수 : n_clusters 파라미터 사용)
# 동일값을 위해 random_state=2023, n_init=10으로 설정값을 같이 해본다.
# [참고]n_init의 기본 값이 10 이나 warning을 없애기 위해 지정해준다.



# 3. 정규화가 된(스케일링 된) 데이터에 학습



# 4. 클러스터링 된 결과가 각 데이터가 몇 번째 그룹에 속하는지 확인 및 저장



In [None]:
# [같이 하기] 모델이 찾은 3개의 센트로이드를 확인해보자.
# 센트로이드는 하나의 클러스터(k) 내 데이터의 중심이 되는 점이다.



In [None]:
# [같이 하기] 3가지 성능지표를 통해서 확인해보기

# 1. inertia(이너셔) : 각 데이터와 센트로이드(중심) 사이의 평균 제곱거리로 도출한 모델 (model.inertia_로 쓴다)
# 2. score 매서드: 이너셔의 음수값을 반환( model.score(df))
# 3. %time : 모델학습에 소요되는 시간 측정



<b> k=3을 같이 해봤으니 이제 여러분들이 한번 그룹수(k)를 바꿔가면서 판단을 해보실 차례입니다!
<br>2씩 늘려가면서 k값을 5,7,9개의 그룹으로 나눠서 모델 학습 시키고 성능지표를 확인해 보세요!
### **↓**

In [None]:
#[문제 3] 군집화할 그룹(k)을 5개로 해보자.

# 1.몇개의 그룹(k)으로 군집화 할지 임의로 정해보기(k1에 할당)



# 2. 모델 만들기 (그룹수 : n_clusters 파라미터 사용) (model_2 에 할당)
# 동일값을 위해 random_state=2023, n_init=10으로 설정값을 같이 해본다.
# [참고]n_init의 기본 값이 10 이나 warning을 없애기 위해 지정해준다.



#3. 정규화가 된(스케일링 된) 데이터에 학습



#4. 클러스터링 된 결과 각 데이터가 몇번째 그룹에 속하는지 확인 및 저장



#5. 학습한 결과 inertia,score,time 로 확인 해보기



In [None]:
#[문제 4] 군집화할 그룹(k)을 7개로 해보자.

# 1.몇개의 그룹(k)으로 군집화 할지 임의로 정해보기(k2에 할당)



# 2. 모델 만들기 (그룹수 : n_clusters 파라미터 사용) (model_3 에 할당)
# 동일값을 위해 random_state=2023, n_init=10으로 설정값을 같이 해본다.
# [참고]n_init의 기본 값이 10 이나 warning을 없애기 위해 지정해준다.



#3. 정규화가 된(스케일링 된) 데이터에 학습



#4. 클러스터링 된 결과 각 데이터가 몇번째 그룹에 속하는지 확인 및 저장



#5. 학습한 결과 inertia,score,time 로 확인 해보기



In [None]:
#[문제 5] 군집화할 그룹(k)을 9개로 해보자.

# 1.몇개의 그룹(k)으로 군집화 할지 임의로 정해보기(k3에 할당)



# 2. 모델 만들기 (그룹수 : n_clusters 파라미터 사용) (model_4 에 할당)
# 동일값을 위해 random_state=2023, n_init=10으로 설정값을 같이 해본다.
# [참고]n_init의 기본 값이 10 이나 warning을 없애기 위해 지정해준다.



#3. 정규화가 된(스케일링 된) 데이터에 학습


#4. 클러스터링 된 결과 각 데이터가 몇번째 그룹에 속하는지 확인 및 저장



#5. 학습한 결과 inertia,score,time 로 확인 해보기




-----------

* <b>for 문을 활용해서 그래프로도 확인을 해볼까요?

In [None]:
#[문제 6] for 문을 활용해서 3~11까지 k값을 넣어서 성능지표 확인하기

 # k값 범위 지정(range(3,11)) 후 ks 변수에 할당
 # 이너셔 결과를 저장하기 위한 빈 리스트 생성 (변수명 inertias)

# for문 활용
     # k-means 모델 만들기(그룹수 : n_clusters 파라미터 사용,n_init=10)
     # 모델 학습 & 학습에 소요되는 시간 측정(%time 활용)
     # 이너셔 결과를 inertias 리스트에 계속 저장(append 활용)
     # n_cluster, inertia 결과 출력

 #plt로 결과출력

#### <b>**2) Elbow Method 활용해서 k 값 구하기**
* yellowbrick의 k-Elbow Mehod를 활용해서 최적의 k 값을 구하기(k값 결정하기 쉽게 도와주는 함수)

In [None]:
#[문제 7] Elbow Method를 통해 최적의 군집 수 도출을 해보자.

# 1. 모델 선언하기(random_state=2023, n_init = 10 으로 설정)(model_E로 할당)



# 2. KElbowVisualizer 에 k-means 모델과 k값 넣어서 만들기(Elbow_M 에 할당)
# k값은 k=(3,11)사이의 값중에서 찾는 것으로 넣으면 된다.


# 3. Elbow 모델 학습하기(fit)



# 4. Elbow 모델 확인하기(show()활용)



#### <b>**3) 최적의 k 값으로 모델링**
* Elbow Method를 통해 나온 최적의 k값으로 모델링을 해보자.

In [None]:
# [문제 8] 원본 데이터('customers_seg.csv') 불러오기

# 1. scale이 안된 원본 data에 clust를 맵핑 시키기 위해 원본 데이터('customers_seg.csv')도 불러옵시다(encoding='cp949')
# data_o 라는 변수에 할당하기


# 2. 'CID'는 활용하지 않을 예정으로 index 화 시켜봅시다.(함수: set_index 활용)


# 3. 데이터 상위 5개 확인하기


In [49]:
# [문제 9] 최적의 k 값으로 k-means 모델을 구성해보자.

#1.최적의 k 값으로 군집 수 선택 (k4에 할당)


# 2. 모델 만들기 (그룹수 : n_clusters 파라미터 사용) (model_B 에 할당)
# 동일값을 위해 random_state=2023, n_init=10으로 설정값을 같이 해본다.
# [참고]n_init의 기본 값이 10 이나 warning을 없애기 위해 지정해준다.



#3. 정규화가 된(스케일링 된) 데이터에 학습



#4. 클러스터링 된 결과 각 데이터가 몇번째 그룹에 속하는지 확인 및 저장(kmeans_p에 할당)



#5. 원본 데이터 프레임에 cid(index화 시킨 열) 기준으로 clust 결과 mapping 시키기(data_d1에 할당)



In [None]:
# [문제 10] 데이터 프레임 clust 확인

# 1. data_d1 컬럼명을 clust로 하기


# 2. data_d1 확인해보기


In [None]:
# [문제 11] 원 데이터(data_o) 와 클러스터링 값(data_d1) 합치기 
# 변수는 output으로 저장하고 concat 활용 해서 output 확인 해보기



<b> 각 고객별로 군집(clust) 된 번호가 데이터 프레임에 생성한 것을 볼 수 있습니다! 다 왔습니다!

---------------------------------------------------------------------------------------------
## **(2) 프로파일링**

#### <b>ㅇ 프로파일링 이란? 
> ##### <b>군집의 구조와 내용을 분석하고 도메인 및 현업업무의 '추론'을 바탕으로 분석의 결과를 적용 가능하도록 하는 과정. 데이터를 통해서 군집별 특성을 파악하는 것에 목적은 두는 기법

![image.png](attachment:d7b71213-7155-4935-9d78-903785bb9231.png)

#### <font color="1E90FF"><b>★ 프로파일링을 위해 군집간의 차이를 도메인 및 업무 관점으로 해석해야한다.</font>

* 우리는 총 20개의 컬럼을 clust 별로 업무관점으로 해석하고 정리가 필요하다.
  <br>(범주형/수치형 데이터 별로도 특징과 해석방법이 조금 다르다)
  
* 도메인 지식을 총 동원 해서 각 컬럼의 clust 별 인사이트를 도출 해 보자!

### **0. 컬럼 확인해보기**

In [None]:
#[문제 12] info를 통해서 범주형/수치형 데이터 확인해보고 어떤 컬럼들이 있었는지 확인(output)



##### <b>clust 컬럼을 제외하고 그 다음 컬럼인 age 부터 차례대로 군집간의 차이를 업무관점으로 해석해 보기!

[tip]
* 범주형으로 되어있는 컬럼과 수치형으로 되어있는 컬럼이 해석하는 방법이 다르다.
* 컬럼이 어떤 컬럼인지 확인해보고 특징들을 파악해보자.

----------

### **1. AGE**

In [None]:
# [같이 하기] 'Age' 열에 대해 crosstab을 활용해서 clust별 범주별 합계를 확인 해보자.
# crosstab의 margins='True'을 활용하면 행 합, 열 합을 추가할 수 있다.
# pro_df 변수에 할당해서 확인해보자.



# 비율로도 한번 확인 해보자.
# round 사용해서 각 값들이 전체 대비 얼마만큼 있는지 비율 확인 가능하다.
# round ((df[]/df['All'])* 100, 2) 활용 해서 df['_비울'] 으로 할당하기



# pro_df 값 확인



<b>**'age' 변수에 대한 클러스터별 특징을 파악해보고 아래 주석에 적어보자!**
( 바로 ppt에 작성을 해도 상관없다)
## ↓ 

In [None]:
#[같이 하기]
# 
# 
# 

### **2. 등록(계/피)**

In [None]:
# [문제 13] '등록(계/피)' 열에 대해 crosstab을 활용해서 clust별 범주별 합계를 확인 해보자.



# 각 클러스터의 '계약자','피보험자'의 비율을 한번 체크해보자


# pro_df 확인


<b>**'등록(계/피)' 변수에 대한 클러스터별 특징을 파악해보고 아래 주석에 적어보자!**
( 바로 ppt에 작성을 해도 상관없다)
## ↓ 

In [None]:
# [문제 14]
# 
# 

### **3. 성별**

In [None]:
# [문제 15] '성별' 열에 대해 crosstab을 활용해서 clust별 범주별 합계를 확인 해보자.



# 각 클러스터의 '0','1' 의 비율을 한번 체크해보자
# feature 의미 : 0(여성),1(남성)


# pro_df 확인



<b>**'성별' 변수에 대한 클러스터별 특징을 파악해보고 아래 주석에 적어보자!**
( 바로 ppt에 작성을 해도 상관없다)
## ↓ 

In [None]:
# [문제 16]
# 

### **4. willingness to pay/stay(수치)**

In [None]:
# [같이 하기] WTP의 경우 '보험 유지 기대 확률'로 각 clust 별 min,max,mean,median 통계 값으로 확인해보자.
# groupby 와 agg() 메소드를 활용하여 도출해 보자.




<b>**'WTP' 변수에 대한 클러스터별 특징을 파악해보고 아래 주석에 적어보자!**
( 바로 ppt에 작성을 해도 상관없다)
## ↓ 

In [None]:
# [같이 하기] 
# 
# 

### **5. 상품 타입**

In [None]:
# [문제 17] '상품타입' 열에 대해 crosstab을 활용해서 clust별 범주별 합계를 확인 해보자.



# 각 클러스터의 범주별 비율을 한번 체크해보자



# pro_df 확인


<b>**'상품타입' 변수에 대한 클러스터별 특징을 파악해보고 아래 주석에 적어보자!**
( 바로 ppt에 작성을 해도 상관없다)
## ↓ 

In [None]:
# [문제 18]
# 
# 

### **6. 교육수준**

In [None]:
# [문제 19] '교육수준' 열에 대해 crosstab을 활용해서 clust별 범주별 합계를 확인 해보자.



# 각 클러스터의 범주별 비율을 한번 체크해보자
# 앞의 탐색적 데이터 분석에서 두가지 범주로 구분을 해도 좋을 것 같다고 판단했다.
# 대졸이하(고졸이하 + 대학졸업) / 석사이상(석사+박사)으로 이분하여 비율을 한번 체크해보자


# pro_df 확인


<b>**'교육수준' 변수에 대한 클러스터별 특징을 파악해보고 아래 주석에 적어보자!**
( 바로 ppt에 작성을 해도 상관없다)
## ↓ 

In [None]:
#[문제 20]
# 
# 

### **7. 고용상태**

In [None]:
# [문제 21] '고용상태' 열에 대해 crosstab을 활용해서 clust별 범주별 합계를 확인 해보자.



# 각 클러스터의 범주별 비율을 한번 체크해보자
# false,고용, 무직, 휴직 별로 확인해보자. 



# pro_df 확인



<b>**'고용상태' 변수에 대한 클러스터별 특징을 파악해보고 아래 주석에 적어보자!**
( 바로 ppt에 작성을 해도 상관없다)
## ↓ 

In [None]:
# [문제 22] false(미확인값)을 제외하고 해석해보자

# 
# 

### **8. 소득(수치)**

In [None]:
# [문제 23] '소득'은 수치형으로 각 clust 별 min,max,mean,median 통계 값으로 확인해보자.
# groupby 와 agg() 메소드를 활용하여 도출해 보자.



<b>**'소득' 변수에 대한 클러스터별 특징을 파악해보고 아래 주석에 적어보자!**
( 바로 ppt에 작성을 해도 상관없다)
## ↓ 

In [None]:
# [문제 24]
# 
# 

### **9. 결혼여부**

In [None]:
# [문제 25] '결혼여부' 열에 대해 crosstab을 활용해서 clust별 범주별 합계를 확인 해보자.



# 각 클러스터의 범주별 비율을 한번 체크해보자



# pro_df 확인


<b>**'결혼여부' 변수에 대한 클러스터별 특징을 파악해보고 아래 주석에 적어보자!**
( 바로 ppt에 작성을 해도 상관없다)
## ↓ 

In [None]:
#[문제 26]
# 
# 

### **10. 월 납입액(수치)**

In [None]:
# [문제 27] '월 납입액'은 수치형으로 각 clust 별 min,max,mean,median 통계 값으로 확인해보자.
# groupby 와 agg() 메소드를 활용하여 도출해 보자.



<b>**'월 납입액' 변수에 대한 클러스터별 특징을 파악해보고 아래 주석에 적어보자!**
( 바로 ppt에 작성을 해도 상관없다)
## ↓ 

In [None]:
#[문제 28]
# 
# 

### **11. VOC**

In [None]:
# [문제 29] 'VOC' 열에 대해 crosstab을 활용해서 clust별 범주별 합계를 확인 해보자.



# 각 클러스터의 범주별 비율을 한번 체크해보자
# 우리는 VOC를 가지고 몇개가 많음을 판단하는 기준이 없다. 해서 VOC(불만 접수 사례 수)를 0과 1로 이분화 해보자.
# 0개 / 1개 이상 으로 이분하여 비율을 한번 체크해보자
# 1개 이상은 전체에서 0개 건수를 빼면 나올 것 같다!



# pro_df 확인


<b>**'VOC' 변수에 대한 클러스터별 특징을 파악해보고 아래 주석에 적어보자!**
( 바로 ppt에 작성을 해도 상관없다)
## ↓ 

In [None]:
#[문제 30]
# 
# 

### **12. 타 상품 보유 현황**

In [None]:
# [문제 31] '타 상품 보유 현황' 열에 대해 crosstab을 활용해서 clust별 범주별 합계를 확인 해보자.



# 각 클러스터의 범주별 비율을 한번 체크해보자


# pro_df 확인


<b>**'타 상품 보유 현황	' 변수에 대한 클러스터별 특징을 파악해보고 아래 주석에 적어보자!**
( 바로 ppt에 작성을 해도 상관없다)
## ↓ 

In [None]:
#[문제 32]
# 
# 
# 

### **13. 갱신 인센티브**

In [None]:
# [문제 33] '갱신인센티브' 열에 대해 crosstab을 활용해서 clust별 범주별 합계를 확인 해보자.



# 각 클러스터의 범주별 비율을 한번 체크해보자



# pro_df 확인


<b>**'갱신인센티브	' 변수에 대한 클러스터별 특징을 파악해보고 아래 주석에 적어보자!**
( 바로 ppt에 작성을 해도 상관없다)
## ↓ 

In [None]:
#[문제 34]
# 
# 

### **14. 총 지불 금액(수치)**

In [None]:
# [문제 35] '총지불금액'은 수치형으로 각 clust 별 min,max,mean,median 통계 값으로 확인해보자.
# groupby 와 agg() 메소드를 활용하여 도출해 보자.



<b>**'총지불금액' 변수에 대한 클러스터별 특징을 파악해보고 아래 주석에 적어보자!**
( 바로 ppt에 작성을 해도 상관없다)
## ↓ 

In [None]:
#[문제 36]
# 
# 

### **15. 자동차**

In [None]:
# [문제 37] '자동차' 열에 대해 crosstab을 활용해서 clust별 범주별 합계를 확인 해보자.



# 각 클러스터의 범주별 비율을 한번 체크해보자



# pro_df 확인


<b>**'자동차' 변수에 대한 클러스터별 특징을 파악해보고 아래 주석에 적어보자!**
( 바로 ppt에 작성을 해도 상관없다)
## ↓ 

In [None]:
#[문제 38]
# 
# 

 ### **16. 거주지 사이즈**

In [None]:
# [문제 39] '거주지 사이즈' 열에 대해 crosstab을 활용해서 clust별 범주별 합계를 확인 해보자.



# 각 클러스터의 범주별 비율을 한번 체크해보자



# pro_df 확인


<b>**'거주지사이즈' 변수에 대한 클러스터별 특징을 파악해보고 아래 주석에 적어보자!**
( 바로 ppt에 작성을 해도 상관없다)
## ↓ 

In [None]:
#[문제 40]
# 
# 

### **17. 갱신**

In [None]:
# [문제 41] '갱신' 열에 대해 crosstab을 활용해서 clust별 범주별 합계를 확인 해보자.



# 각 클러스터의 범주별 비율을 한번 체크해보자
# 비갱신(0),갱신(1) 으로 나눠서 비율을 확인해보면 된다.



# pro_df 확인


<b>**'갱신' 변수에 대한 클러스터별 특징을 파악해보고 아래 주석에 적어보자!**
( 바로 ppt에 작성을 해도 상관없다)
## ↓ 

In [None]:
#[문제 42]
# 
# 

### **18. 지역**

In [None]:
# [문제 43] '지역' 열에 대해 crosstab을 활용해서 clust별 범주별 합계를 확인 해보자.



# 각 클러스터의 범주별 비율을 한번 체크해보자



# pro_df 확인



<b>**'지역' 변수에 대한 클러스터별 특징을 파악해보고 아래 주석에 적어보자!**
( 바로 ppt에 작성을 해도 상관없다)
## ↓ 

In [None]:
#[문제 44]
# 
# 

### **19. 온라인방문빈도**

In [None]:
# [문제 45] '온라인방문빈도' 열에 대해 crosstab을 활용해서 clust별 범주별 합계를 확인 해보자.



# 각 클러스터의 범주별 비율을 한번 체크해보자



# pro_df 확인



<b>**'온라인방문빈도' 변수에 대한 클러스터별 특징을 파악해보고 아래 주석에 적어보자!**
( 바로 ppt에 작성을 해도 상관없다)
## ↓ 

In [None]:
#[문제 46]
# 
# 

### **20. 판매채널**

In [None]:
# [문제 47] '판매채널' 열에 대해 crosstab을 활용해서 clust별 범주별 합계를 확인 해보자.



# 각 클러스터의 범주별 비율을 한번 체크해보자




# pro_df 확인


<b>**'판매채널' 변수에 대한 클러스터별 특징을 파악해보고 아래 주석에 적어보자!**
( 바로 ppt에 작성을 해도 상관없다)
## ↓ 

In [None]:
#[문제 48]
# 
# 

---------------------------------------------------------------------------------------------
## **(3) 결과 정리**

### <font color="1E90FF"><b>★ 20가지 피쳐값에 대해 군집별로 분석해 보았고 인사이트도 도출해 보았다. 한번 ppt에 정리해보자!</font>

### <b>[군집별 특성/정의 및 방안]

![image.png](attachment:f7bf886f-c456-4c4d-8908-0963d11c4a28.png)

## **[Mission 3-분석모델 개발]**

* k-means 활용해 군집화 분석 모델 개발 완료
* 프로파일링 기법을 통해 각 피쳐의 군집별 특성에 대해 파악하고 정의 해봄
* 정의 한 것을 가지고 고객 군집별 마케팅 전략 수립

### <font color="1E90FF"><b>→ 여러분들은 어떻게 군집에 대해 정의를 내리고 마케팅 방안을 수립하였나요?<br><b>서로의 군집에 대해서 이야기해 보고 발표해 봅시다.<b><br>
    

# <b>Mission 3 완료!
수고하셨습니다!