# K-means 알고리즘으로 게임고객 세분화하기

- 비지도학습 - Clustering

### # 라이브러리 설치하기

In [None]:
!pip install scikit-learn 

-----------------

### [실습] 게임고객 세분화 하기
- 비지도학습 : 레이블 없이 데이터만 주어짐
- K-means clustering : K-평균 군집화 알고리즘

#### 1. 데이터 준비하기

In [None]:
import pandas as pd
import numpy as np
import matplotlib
import matplotlib.pyplot as plt

# 한글출력 & 그래프 크기 설정
matplotlib.rcParams['font.family'] = 'Malgun Gothic'  
plt.rcParams['figure.figsize'] = (7, 5)  # (가로,세로) 인치 단위

# 데이터 가져오기
file = 'data/game_usage.csv'
df = pd.read_csv(file)
df

In [None]:
# 컬럼명 공백을 다른 문자로 대체하여 사용하기
df.columns = df.columns.str.replace(' ', '_')

# 게임 사용시간 최대인 정보 추출하기
field = 'time_spent'
df.query(f'{field} >= {df[field].max()}')

In [None]:
df['time_spent'].describe()

#### 2. 데이터 그래프로 나타내기 : 산포도 그래프

In [None]:
X = df['time_spent']  # 게임 시간(h)
Y = df['game_level']   # 게임 레벨

# 게임 이용자 분석: 산포도 그래프
plt.title('게임 이용자 현황')
plt.xlabel('게임시간')
plt.ylabel('게임레벨')
plt.scatter(X, Y)
plt.show()

#### 3. K-Means clustering(K-평균 군집화 기법)으로 4개 군집으로 분류
- K-평균 알고리즘은 거리값을 기준으로 가까운 값을 같은 군집으로 본다.
- cluster.KMeans(n_clusters=k)

In [None]:
from sklearn import cluster

def kmeans_predict_plot(data, k):
    model = cluster.KMeans(n_clusters=k)
    model.fit(data)    
    labels = model.predict(data)
    print(labels)
    colors = np.array(['red','green','blue','magenta'])
    
    X = data[:,0]
    Y = data[:, 1]
    plt.suptitle(f'K-means clustering, K={k}',fontsize=16)
    plt.scatter(X, Y, color=colors[labels])
    
gamer_data = np.column_stack((X, Y))  # 예: [39, 944] X,Y배열쌍으로 구성
#print(gamer_data)
kmeans_predict_plot(gamer_data, k=4)

#### 4. X축, Y축의 범위를 동일하게 0~1000으로 일치시켜서 그래프에 표현해보기
- K-평균 알고리즘이 거리값을기준으로 가까운 값을 같은 군집으로 보기 때문에 X축, Y축의 범위가 다르면 적절한 군집화가 이루어지지 않을 있기 때문에 범위를 동일하게 만든다.

In [None]:
kmeans_predict_plot(gamer_data, k=4)
plt.xlim(0, 1000)
plt.ylim(0, 1000)

#### 5. 데이터 정규화(Normalization)하기
- 데이터를 정제하는 방법 중 하나
- 데이터가 적절한 군집화가 이루어질 수 있도록 
- 모든 데이터를 0 ~ 1사이의 값을 갖게 표현하는 것 
- 사이킷런에서는 학습 전에 데이터를 정제하기 위한 방법으로 정규화 클래스(preprocessing 서브 모듈의 MinMaxScaler 클래스)를 이용한다. 
- X축, Y축 분포의 특성이 모두 반영되도록 하는 작업이 데이터 정규화 작업이라고 볼 수 있다

In [None]:
from sklearn.preprocessing import MinMaxScaler

normalscaler = MinMaxScaler()      # min-max 스케일러 객체 생성
normalscaler.fit(gamer_data)       # gamer_data 피팅하기
n_data = normalscaler.transform(gamer_data)    # gamer_data를 0~1 사이의 값으로 변환
print(n_data.shape)

print( n_data[:, 0].mean(), n_data[:, 1].mean() )  # 0~1사이의 0.5에 근사한 값인지 확인한다.

In [None]:
kmeans_predict_plot(n_data, k=4)  # gamer_data -> n_data 정규화 데이터를 입력값으로

#### # 데이터 표준화(Standardization) 정도 알아보기
- 데이터를 정제하는 방법 중 하나
- 표준화는 데이터를 정제할 때 전체의 평균(mean)과 분산(variation)을 사용한다.

In [None]:
from sklearn.preprocessing import StandardScaler

standardScaler = StandardScaler() # 평균 0, 표준편차 1
standardScaler.fit(gamer_data)
s_data = standardScaler.transform(gamer_data)

print( s_data[:, 0].std(), s_data[:, 1].std() )
print( s_data[:, 0].mean(), s_data[:, 1].mean() )

-------

THE END