## 차원축소를 이용한 데이터 전처리

머신러닝에서 사용되는 데이터는 수 십개의 특징을 갖습니다. 차원축소 알고리즘을 이용하면 방대한 데이터를 압축하고 보다 쉽게 분석할 수 있습니다. 

200차원이 넘는 고차원 리그오브 레전드 게임 챔피언 데이터를 2차원으로 축소하여 비슷한 유형의 챔피언을 분류하고 시각화 하는 코드를 실행해보세요. 

수업 3주차에서는 대표적인 차원축소 알고리즘을 알아보고 엘리스 데이터 챌린지 문제를 풀기 위한 데이터 전처리를 함께 해보겠습니다.

In [3]:
import sklearn.decomposition
import sklearn.preprocessing
import numpy as np
import pandas as pd
import scipy.spatial.distance
import operator
import matplotlib
matplotlib.use("Agg")
import matplotlib.pyplot as plt

def main():
    champs_df = pd.read_pickle('champ_df.pd')

    champ_pca_array = run_PCA(champs_df, 2)
    print(plot_champions(champs_df, champ_pca_array))
    #print(get_closest_champions(champs_df, champ_pca_array, "Ashe", 10))

def run_PCA(champs_df, num_components):
    # Normalize Attributes
    scaler = sklearn.preprocessing.MinMaxScaler()
    for attr in champs_df:
        champs_df[attr] = scaler.fit_transform(np.array(champs_df[attr]).astype('float64').reshape(-1, 1))

    # Run PCA
    pca = sklearn.decomposition.PCA(n_components = num_components)
    pca.fit(champs_df)
    champ_pca_array = pca.transform(champs_df)

    return champ_pca_array

def plot_champions(champs_df, champ_pca_array):
    champ_names = champs_df.index.values

    x = champ_pca_array[:, 0]
    y = champ_pca_array[:, 1]
    difficulty = champs_df['difficulty'].values
    magic = champs_df['attack'].values

    plt.figure(figsize=(20, 10))

    plt.scatter(x, y,  c = magic, s = difficulty*1500, cmap = plt.get_cmap('Spectral'))

    for champ_name, x, y in zip(champ_names, x, y):
        plt.annotate(
            champ_name,
            xy = (x, y), xytext = (-20, 20),
            textcoords = 'offset points', ha = 'right', va = 'bottom',
            bbox = dict(boxstyle = 'round,pad=0.5', fc = 'yellow', alpha = 0.5),
            arrowprops = dict(arrowstyle = '->', connectionstyle = 'arc3,rad=0'))

    plt.savefig("image.svg", format="svg")


if __name__ == '__main__':
    main()


AttributeError: 'tuple' object has no attribute 'items'