# 3강 데이터 핸들링 | 데이터 시각화 | 데이터 군집화
지난 시간에는 Requests와 BeautifulSoup / Selenium을 활용하여 데이터 수집을 해보았습니다.<br>
이번 시간에는 수집된 결과물을 전처리하고 데이터 군집화를 해보도록 하겠습니다.<br>
<br>
**3주차 학습 목표**
1. Pandas를 이용한 데이터프레임 핸들링
2. Matplotlib과 Seaborn을 이용한 데이터 시각화
3. Scikit-learn을 활용한 군집화(Clustering)

In [None]:
# 한글 폰트 설치
# 이 셀을 실행시키고 '런타임 > 런타임 다시 시작'을 해주세요

!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm ~/.cache/matplotlib -rf

## 포켓몬 도감 크롤링
이번주에는 **포켓몬 도감**에서 능력치를 가져와 비지도 학습으로 **군집화**를 해보도록 하겠습니다.<br>
이번에는 표를 가지고 오는데, Pandas를 이용해 쉽게 가지고 오는 방법을 설명드리겠습니다.<br>

1. 영문 포켓몬 도감 가지고 오기
2. 한글 포켓몬 도감 가지고 오기
3. 영문 - 한글 포켓몬 도감 병합하기



In [None]:
# 필요한 라이브러리 불러오기
from bs4 import BeautifulSoup
import requests
import pandas as pd
import re

In [None]:
def get_soup(url):
    r = requests.get(url)
    html = # Your Code
    soup = # Your Code

    return soup

In [None]:
# BeautifulSoup으로 영문 포켓몬 도감 수집
url = 'https://pokemondb.net/pokedex/all'
soup = get_soup(url)

In [None]:
# 표 태그 찾기
html_table = # Your Code
print(html_table)

In [None]:
# 표를 데이터 프레임으로 바로 가지고 오기
html_table = str(html_table) # html_table은 soup의 데이터로 되어 있기 때문에 문자열 데이터로 변경해주어야 합니다.
en_df = pd.read_html(html_table)[0] # 표를 리스트 형태로 반환하기 때문에 인덱싱을 해줘야 합니다.

In [None]:
en_df

In [None]:
# 한글 포켓몬 도감 수집
url = 'https://pokemon.fandom.com/ko/wiki/%EC%A0%84%EA%B5%AD%EB%8F%84%EA%B0%90'
soup = get_soup(url)

In [None]:
# 한글 포켓몬 도감 데이터 프레임 생성
kr_df = pd.DataFrame()
for html_table in soup.find_all('table')[:-1]:
    kr_df_part = pd.read_html(str(html_table))[0]
    kr_df_part['지방'] = [re.sub('도감', '지방', kr_df_part.columns[0])]*len(kr_df_part)
    kr_df = pd.concat([kr_df, kr_df_part])

## 데이터 전처리

In [None]:
# 한글 포켓몬 도감 확인
kr_df

# 여기에서 어떤 데이터를 가지고 와야 할지 봅시다.

### 컬럼 추출 | 중복값 제거 | 데이터 병합

In [None]:
# loc를 이용하여 특정 컬럼(또는 로우)를 추출하는 방법
kr_df.# Your Code

In [None]:
# 리스트 인덱싱을 통해 특정 컬럼만 추출하는 방법
kr_df = kr_df[# Your Code]; kr_df

In [None]:
# 병합을 위해 전국 도감 텍스트 전처리
kr_df['전국도감'] = # Your Code

In [None]:
# 중복값 확인 및 제거
kr_df.# Your Code

In [None]:
# 컬럼명 변경
kr_df.columns = ['#', 'Name', 'Region']; kr_df

In [None]:
# 데이터 병합


### 데이터 정보 | 통계
만약 어떤 데이터를 처음 받았다면 구조를 알기 어렵습니다.<br>
컬럼별 데이터 타입을 확인하고, null 값이 있는지 확인하기 위해서는 데이터 정보 확인이 필수입니다.<br>
그리고 정형 데이터의 경우, 대략적인 통계량을 확인하는 것이 좋습니다.<br>
머신러닝 분석을 위해서 데이터 스케일을 조정해야 하는 경우가 있는데 이때 기초 통계량을 확인해둔다면 분석에 도움이 될 것입니다.

In [None]:
# null값과 데이터 타입 확인


In [None]:
# 데이터 프레임의 간략한 통계


### 컬럼 연산

In [None]:
# 타입 분리하기
type_ = df['Type'].str.split() # 자주 쓰는 방법은 아니겠지만, 그래도 이렇게 할 수 있다 정도만 알아두세요.

In [None]:
# 타입 컬럼 추가
df['Type_1'] = type_.str[0]
df['Type_2'] = type_.str[1]

In [None]:
# 컬럼 연산
df['Physical'] = # Your Code
df['Special'] = # Your Code

In [None]:
# .apply를 활용한 컬럼 연산
df.apply(lambda x : x['Attack'] + x['Defense'], axis = 1)

In [None]:
# df 정보 확인
print(df.info())
df

In [None]:
# 중복값 확인
# Your Code

## 데이터 시각화
이제 Matplotlib과 Seaborn을 활용한 데이터 시각화를 해보도록 하겠습니다.<br>
보통은 Matplotlib을 활용해서 시각화를 하는 경우가 많은데 Pandas 데이터프레임을 활용하는 경우 Seaborn을 쓰는 게 편합니다.<br>
그런데 사실 Seaborn은 Matplotlib 위에서 동작하기 때문에 둘 다 알아두시면 좋아요.

In [None]:
# 기본적으로 필요한 라이브러리를 불러오기
from matplotlib import font_manager, rc, rcParams
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# 시각화 설정

# Seaborn에서 기본 스타일을 지정할 수 있습니다.
sns.set_style('whitegrid')
# 폰트 경로
font_path = '/usr/share/fonts/truetype/nanum/NanumBarunGothic.ttf' # 가장 위 코드가 바로 한글 폰트를 다운로드 받는 코드입니다.

# 폰트 이름 얻어오기
font_name = font_manager.FontProperties(fname=font_path).get_name()

# font 설정
rc('font',family=font_name) # Colab에 기본적으로 한글 폰트가 없어서 한글 폰트를 설정해주어야 합니다.
rcParams['axes.unicode_minus'] = False # 마이너스 부호가 표시되지 않는 오류가 발생하기도 해서 미리 설정해주시는 게 좋습니다.

In [None]:
# Countplot | 지방별 포켓몬 수 시각화
plt.figure(dpi=100) # 해상도 설정
plt.xticks(rotation=45, ha = 'right') # 45도 돌리고 오른쪽 맞춤
sns.countplot(x = 'Region', data = df) # data를 df로 지정했다면, df의 컬럼명을 넣는 것만으로 쉽게 시각화가 가능합니다.
plt.show()

In [None]:
# 고윳값 추출
# 타입별 카운트를 알아보기 위해 고윳값을 추출합니다.

type_list = list(df['Type_1'].unique())
print(type_list)

In [None]:
# Boxplot | 타입_1별 포켓몬 능력치
plt.figure(figsize = (10,3), dpi=150) # 여기에서 출력 사이즈를 지정합니다.
plt.xticks(rotation=45, ha = 'right')
sns.boxplot(x = 'Type_1', y = 'Total', data = df, order = type_list)
plt.show()

In [None]:
# Boxplot | 타입_2별 포켓몬 능력치
plt.figure(figsize = (10,3), dpi=150)
plt.xticks(rotation=45, ha = 'right')
sns.boxplot(x = 'Type_2', y = 'Total', data = df, order = type_list)
plt.show()

### EDA를 왜 할까?
단순히 숫자만으로는 파악하기 어려운 데이터간의 분포를 확인하기 위해 EDA를 진행합니다.<br>
EDA를 진행하기 전에 해당 데이터와 관련된 도메인 지식이 필요할 수 있습니다.<br>
<br>
개인적인 의견을 조금 밝히자면, 데이터 분석과 관련된 코드는 이제 ChatGPT를 비롯한 코드 생성 모델이 더 잘 만들어낼 수 있습니다. 그렇다면 그 속에서 데이터 분석가는 무엇을 할 수 있을까요?
머신러닝을 활용하는 데이터 분석가의 역량은 결국 얼마나 깊이 있게 데이터를 해석하고 분석 방법을 정교하게 하느냐에 달려 있다고 생각합니다. 결국, 해당 **데이터를 수집한 방법**부터 **수집한 데이터의 일반적인 특성**, **도메인에 따라 유도할 수 있는 결과** 등을 분석가가 제대로 파악하고 있어야 그에 알맞은 분석 도구들을 활용할 수 있습니다.<br>
<br>
이번 실습에서는 이론적인 부분을 차치하고 분석 도구를 활용하는 데 목적을 두고 있습니다.<br>
하지만 실무에서는 여러분들만의 가설을 세우고 그 가설을 지속적으로 검증하는 과정이 될 것입니다.

In [None]:
# Scatterplot | 두 개의 연속형 데이터의 분포
plt.figure(dpi=100)
sns.scatterplot(# Your Code)
plt.show()

In [None]:
# Regplot | Scatterplot + Regression Line
plt.figure(dpi=100)
sns.regplot(x = 'Defense', y ='Speed', lowess = True,
            scatter_kws={'alpha':0.5},
            line_kws = {'color': 'skyblue'},
            data = df)
plt.show()

In [None]:
# Pairplot | 모든 연속형 데이터의 Scatterplot과 히스토그램을 보고 싶을 때
sns.pairplot(df[['HP', 'Attack', 'Defense', 'Sp. Atk', 'Sp. Def', 'Speed']])
plt.show()

In [None]:
# 인덱스를 활용한 컬럼(또는 로우) 추출
df.iloc[:,4:9]

## 데이터 군집화
Clustering이라고도 불리는 군집화는 대표적인 **비지도 학습 기법** 중에 하나입니다.<br>
포켓몬을 능력치에 따라 구분한다고 하더라도 어떤 기준에 따라 군집화해야 할지 모를 수 있습니다.<br> 비지도 학습은 우리가 정답을 알지 못하더라도, 통계적인 기법을 통해 군집을 나눌 수 있도록 도와줍니다.<br>
물론, 비지도 학습의 특성상 정해진 답이 없기 때문에 최적의 값을 찾기 위한 시행착오가 있을 수 있습니다.

### 차원 축소 모델 (2차원 투영)
보통 하나의 컬럼 당 하나의 차원을 이룹니다.<br>
쉽게 생각해보면 X축과 Y축이 보통 우리가 생각하는 2차원인데요, 여기에 Z축이 포함된다면 3차원이라고 부르지요. 이처럼 하나의 축이 차원이라고 보시면 됩니다.<br>
하지만 군집화를 위해서는 우선 2차원 평면으로 투영(Projection)해야 합니다. 정보의 손실을 최소화하면서 2차원 값을 추출하는 방법으로는 PCA와 t-SNE가 있습니다. 자세한 설명은 생략하고 오늘은 코드만 구현해보겠습니다.

In [None]:
from sklearn.decomposition import PCA
from sklearn.manifold import TSNE

pca = PCA(n_components=2)
result_pca = # Your Code
df[['X', 'Y']] = result_pca

In [None]:
# PCA 차원 축소 결과
sns.scatterplot(x = 'X', y = 'Y', data = df)
plt.show()

In [None]:
tsne = TSNE(n_components=2, learning_rate = 1000, random_state = 319)
result_tsne = # Your Code
df[['X', 'Y']] = result_tsne

In [None]:
# t-SNE 차원 축소 결과
sns.scatterplot(x = 'X', y = 'Y', data = df)
plt.show()

In [None]:
# 포켓몬 타입과 군집의 상관 관계가 있을까?
# Your Code (sns.scatterplot)
plt.legend('')
plt.show()

### 데이터 군집화 모델

In [None]:
from sklearn.cluster import KMeans
from sklearn.cluster import DBSCAN

In [None]:
# DBSCAN 모델
cluster = DBSCAN(eps = 3) # epsilon 값을 변경하면서 최적의 군집 분포를 도출합니다.
label = cluster.fit_predict(df[['X', 'Y']])
df['Cluster'] = label

In [None]:
sns.scatterplot(x = 'X', y = 'Y', hue = 'Cluster', data = df)
plt.show()

In [None]:
# KMeans 모델
kmeans = KMeans(n_clusters=8, random_state=319) # 클러스터 개수를 지정하여 최적의 군집을 찾습니다.
label = kmeans.fit_predict(df[['X', 'Y']])
df['Cluster'] = label

In [None]:
sns.scatterplot(x = 'X', y = 'Y', hue = 'Cluster', data = df)
plt.show()

In [None]:
# 클러스터에 어떤 포켓몬이 포함되어 있을까?
cluster = 3
df[df['Cluster'] == cluster][['Name','Total']]

### 분포별 박스플롯 시각화를 위한 데이터 조작

In [None]:
# 추출하고자 하는 컬럼명
cols = list(df.iloc[:,4:9].columns); print(cols)

In [None]:
# 추출하고자 하는 컬럼명 추가
col_ = ['Physical', 'Special', 'Cluster']
# Your Code

In [None]:
# 데이터 재구조화 (pd.melt)
tmp = pd.melt(df, id_vars = ['#', 'Cluster'], value_vars = cols, var_name = 'Stats', value_name = 'Value')

In [None]:
# 클러스터 확인
cluster = 3
tmp[tmp['Cluster'] == cluster]

In [None]:
# 클러스터별 포켓몬 수 카운트
tmp.groupby('Cluster')['#'].count() / len(tmp.Stats.unique())

In [None]:
# 클러스터별 능력치 평균
tmp.groupby('Cluster')['Value'].mean()

In [None]:
# 클러스터별 박스플롯
plt.figure(figsize = (6,4),dpi = 100)
sns.boxplot(data = df, x = 'Cluster', y = 'Total')
plt.show()

In [None]:
# 클러스터별 세부 능력치 박스플롯
plt.figure(figsize = (20,3),dpi = 100)
sns.boxplot(data = tmp, x = 'Stats', y = 'Value', hue = 'Cluster')

plt.legend(ncol = 8)
plt.show()