In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import mglearn # 학습을 위해 만들어진.. 시각화됨

# 랜덤하게 사이즈를 채운 후 행렬 제곱을 하면 정방행렬이면서 대칭행렬인 것으로 변한다
# 고유값분해 => 고유치와 고유벡터(정직교)가 나옴

# 어제배운 MDS는 행렬곱(직교하는 2 or 3차원) => 2차원이나 3차원 특징을 추출 : 2,3차원의 시각화에 도움

# MLP : Multi layer perceptron : FFNN(Feed forword neural network)
# 순전파(forward propagation) : 예측 or 분류과정 (가중치가 random하게 초기화, 가중치학습을 위해선 역전파필요)
# 역전파(backward propagation) : 가중치 학습과정 (cost function 기울기, )

# solver의 역할 : 미분, learning-rate 조절, => 가중치 조절
# estimator, transformer

from sklearn.neural_network import MLPClassifier # MLP에는 Classifier와 Regressor가 있다.
from sklearn.datasets import make_moons
from sklearn.model_selection import train_test_split

X,y = make_moons(n_samples=100, noise=0.25, random_state=3)

In [None]:
# stratify 층화 변수 선택법 : 층화?
# 무작위로 하는 게 아니라 대상 값의 비율을 맞추는 것
# 하기에서의 y값을 비율로 나누어

# Multi layer => XOR문제를 해결하기 위해, 레이어가 많으면 정밀도를 자동으로 높아지기 때문

X_train, X_test, y_train, y_test = train_test_split(X,y,stratify=y, random_state=42)

# 가중치가 완성 - MLPClassifier가 자동으로 레이어 가중치 지정
mlp = MLPClassifier(random_state=0).fit(X_train, y_train)
mglearn.plots.plot_2d_separator(mlp, X_train, fill=True, alpha=.3)
mglearn.discrete_scatter(X_train[:,0], X_train[:,1], y_train)
plt.xlabel("feature 0")
plt.ylabel("feature 1")

In [None]:
mlp.get_params() # 디폴트 매개변수
# activation : relu ? -> 0 이하를 제거한 활성화 함수 -> 속도가 빨라짐
# epoch 1회반복
# adam : learning-rate를 조절, Momentum을 사용하는 optimizer

In [None]:
mlp.n_layers_

In [None]:
mlp.coefs_ # coefficient # bias: 계수들이 0으로 가는 것을 방지해서 처음에 1로 세팅됨

In [None]:
mlp.classes_

In [None]:
mlp.n_outputs_

In [None]:
mlp = MLPClassifier(solver='lbfgs', random_state=0, hidden_layer_sizes=[10, 5,2])
# SVM의 논리 :고차원으로 데이터 확대(고차원을 선호하는 모델)
    # - 정확도가 높아
    # - 과적합을 방지
    # SVC, SVR
    
# 히든 레이어 사이즈에서 지정하는 것은 무엇인가?
# -> 출력차수만 지정(즉, 추출할 특징 수)
# 여러개 줄수있긴함.

# 레어어가 10개 이상 주면 기울기 소실 문제가 발생함
#

mlp.fit(X_train, y_train)
mglearn.plots.plot_2d_separator(mlp, X_train, fill=True, alpha=.3)

mglearn.discrete_scatter(X_train[:,0], X_train[:,1], y_train)
plt.xlabel("feature 0")
plt.ylabel("feature 1")

In [None]:
# Black box -> 요즘에는 블랙박스를 원인규명해내겠다는 시도도 있다

mlp.coefs_
# 2 x 10
# bias 가 10

# 변수는 2x10 , 10x10 # 10으로 나감
# 변수 2개인건 x,y좌표로 표기된거라서 그럴거임.

# 2x5 , 5x10

# adam과 lbfgs 비교시 adam이 더 일반화하려는 경향이 있음을 알 수 있음

In [None]:
# 신경망 / 다항에 대한 비선형 회귀와 같다
fig, axes = plt.subplots(2, 4, figsize=(20, 8))
for axx, n_hidden_nodes in zip(axes, [10, 100]):
    for ax, alpha in zip(axx, [0.0001, 0.01, 0.1, 1]):
        mlp = MLPClassifier(solver='lbfgs', random_state=0,
                            hidden_layer_sizes=[n_hidden_nodes, n_hidden_nodes],
                            alpha=alpha)
        mlp.fit(X_train, y_train)
        mglearn.plots.plot_2d_separator(mlp, X_train, fill=True, alpha=.3, ax=ax)
        mglearn.discrete_scatter(X_train[:, 0], X_train[:, 1], y_train, ax=ax)
        ax.set_title("n_hidden=[{}, {}]\nalpha={:.4f}".format(
                      n_hidden_nodes, n_hidden_nodes, alpha))

In [None]:
from sklearn.datasets import load_breast_cancer
cancer = load_breast_cancer()
print("유방암 데이터의 특성별 최대값 : \n{}".format(cancer.data.max(axis=0)))

In [None]:
X_train, X_test, y_train, y_test = train_test_split( cancer.data, cancer.target, random_state=0)

mlp = MLPClassifier(random_state = 42) # 디폴트 
mlp.fit(X_train, y_train) # 가중치 결정

print("훈련 세트 정확도 : {:.2f}".format(mlp.score(X_train, y_train))) # parameter tuning
print("테스트 세트 정확도 : {:.2f}".format(mlp.score(X_test, y_test)))
mlp

In [None]:
# 훈련 세트 각 특성의 평균을 계산합니다.
mean_on_train = X_train.mean(axis=0)
# 훈련 세트 각 특성의 표준 편차를 계산합니다.
std_on_train = X_train.std(axis=0)

# Z점수 표준화
# 데이터에서 평균을 빼고 표준 편차로 나누면
# 평균 0, 표준 편차 1인 데이터로 변환됩니다.
X_train_scaled = (X_train - mean_on_train) / std_on_train
# (훈련 데이터의 평균과 표준 편차를 이용해) 같은 변환을 테스트 세트에도 합니다.
X_test_scaled = (X_test - mean_on_train) / std_on_train

mlp = MLPClassifier(random_state=0)
mlp.fit(X_train_scaled, y_train)

print("훈련 세트 정확도: {:.3f}".format(mlp.score(X_train_scaled, y_train)))
print("테스트 세트 정확도: {:.3f}".format(mlp.score(X_test_scaled, y_test)))

In [None]:
mlp = MLPClassifier(max_iter=1000, random_state=0) # 1000 번 반복해라
mlp.fit(X_train_scaled, y_train)
print("훈련 세트 정확도 : {:.3f}".format(mlp.score(X_train_scaled, y_train)))
print("테스트 세트 정확도: {:.3f}".format(mlp.score(X_test_scaled, y_test)))

In [None]:
# 알파값을 바꿔보자 (규제를 줘보자)

mlp = MLPClassifier(max_iter=1000, alpha = 1, random_state=0)
mlp.fit(X_train_scaled, y_train)
print("훈련 세트 정확도 : {:.3f}".format(mlp.score(X_train_scaled, y_train)))
print("테스트 세트 정확도 : {:.3f}".format(mlp.score(X_test_scaled, y_test)))

In [None]:
mlp.coefs_

In [None]:
plt.figure(figsize=(20, 5))
plt.imshow(mlp.coefs_[0], interpolation='none', cmap='viridis')
plt.yticks(range(30), cancer.feature_names)
plt.xlabel("은닉 유닛")
plt.ylabel("입력 특성")
plt.colorbar()

In [None]:
import pandas as pd

wine = pd.read_csv('./wine_data.csv', names = ["Cultivator", "Alchol", "Malic_Acid", "Ash",
                                             "Alcalinity_of_Ash", "Magnesium", "Total_phenols",
                                             "Falvanoids", "Nonflavanoid_phenols",
                                             "Proanthocyanins", "Color_intensity", "Hue",
                                             "OD280", "Proline"], encoding="utf-8") 
wine
# 178관측치, 14변수
# 분류 : 독립변수와 종속변수

In [None]:
# 문제 : wineMLP 분류
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test  = train_test_split(wine.loc[:,'Alchol':'Proline'],wine.loc[:,'Cultivator'])
mlp = MLPClassifier(random_state=42)
mlp.fit(X_train, y_train)

print("훈련 : {:.3f}".format(mlp.score(X_train, y_train)))
print("테스트 : {:.3f}".format(mlp.score(X_test, y_test)), '\n')


####
mlp = MLPClassifier(random_state=42)
mlp.fit(X_train_scaled, y_train)

X_train_mean = X_train.mean(axis=0)
X_train_std = X_train.std(axis=0)

X_train_scaled = (X_train - X_train_mean) / X_train_std
X_test_scaled = (X_test - X_train_mean) / X_train_std

print("z점수 스케일 훈련 : {:.3f}".format(mlp.score(X_train_scaled, y_train)))
print("z점수 스케일 테스트 : {:.3f}".format(mlp.score(X_test_scaled, y_test)))


###

In [None]:
# 선생님 문제풀이

X = wine.drop('Cultivator', axis=1)
y = wine['Cultivator']

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X,y)

In [None]:
print(y.unique())

In [None]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
# StandardScaler(copy=True, with_mean=True, with_std=True)  | 카피 True : 원본은 그대로 두고..
scaler.fit(X_train)

X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

In [None]:
from sklearn.neural_network import MLPClassifier
# 히든 레이어 사이즈의 디폴트는 100이다.
# hidden_layer_sizes(100,)

mlp = MLPClassifier(hidden_layer_sizes = (30,30,30))
mlp.fit(X_train, y_train)

In [None]:
# 모델 평가
from sklearn.metrics import classification_report
# pricision : 정밀도 = TP / (TP+FP) : 예측을 중심으로 생각
# recall : 재현율 = TP / (TP+TN) : 실제값을 중심으로 생각
# f1-score F점수 : 2*(pricision*recall) / (precision + recall)
# support : 총 개수
# 매트릭스에 맞춘개수 나옴

# 행 1,2,3의 의미 : unique해서 나왔던 분류대상
# accuracy : 정확도
# macro avg : 단순평균
# weighted avg : 가중평균

from sklearn.metrics import confusion_matrix
predictions = mlp.predict(X_test)

print(confusion_matrix(y_test, predictions))
print(classification_report(y_test, predictions))

In [None]:
print(mlp.coefs_[0].shape) # 13 x 30
print(mlp.coefs_[1].shape) # 30 x n (지정 30)
print(mlp.coefs_[2].shape) # n x m (지정 30)
plt.figure(figsize=(20,5))
plt.imshow(mlp.coefs_[0], interpolation = 'none', cmap='viridis')
plt.xlabel("은닉 유닛")
plt.ylabel("입력 특성")

In [None]:
# NMF( Non-negative matrix factorization) : 비음수 행렬 분해

- PCA는 음수와 양수의 차이를 상계해서 처리
- NMF는 양수인 데이터에 적용해서 분해를 해줌 : 음성데이터, signal

In [None]:
# 원본 데이터
S = mglearn.datasets.make_signals()
plt.figure(figsize=(6,1))
plt.plot(S,'-')
plt.xlabel("time")
plt.ylabel("signal")
plt.margins(0)

In [None]:
# 원본 데이터에 노이즈 포함
# 노이즈 : 전송 데이터
import numpy as np

A = np.random.RandomState(0).uniform(size=(100,3))
X = np.dot(S,A.T)
print("측정 데이터 형태 : {}".format(X.shape))

In [None]:
# NMF으로 decomposition한 데이터
from sklearn.decomposition import NMF, PCA
nmf = NMF(n_components = 3, random_state=42)
S_=nmf.fit_transform(X)
print("복원한 신호 데이터 형태 : {}".format(S_.shape))

In [None]:
# PCA로 decomposition한 데이터
pca = PCA(n_components = 3)
H = pca.fit_transform(X)

In [None]:
from matplotlib import font_manager, rc
font_name = font_manager.FontProperties(
fname="C:/Windows/Fonts/malgun.ttf").get_name()
rc('font', family=font_name)

In [None]:
# 원본, 노이즈, NMF, PCA
models = [S, X, S_, H]
names = ['측정 신호(처음3개)', '원본 신호', 'NMF로 복원한 신호', 'PCA로 복원한 신호']
fig, axes = plt.subplots(4, figsize=(8,4), gridspec_kw={'hspace':.5},
                        subplot_kw={'xticks':(), 'yticks':()})

for model, name, ax in zip(models, names, axes):
    ax.set_title(name)
    ax.plot(model[:, :3], '-')
    ax.margins(0)
    
# PCA는 양수 데이터 노이즈를 제거하지 못함

In [None]:
# 군집 분석 시각화

In [None]:
import pandas as pd
data = pd.io.stata.read_stata("koweps_h01_13_long_beta1.dta")
data.to_csv('m.csv')

In [1]:
import pyreadstat
data = './koweps_h01_13_long_beta1.dta'
df, meta = pyreadstat.read_dta(data)

In [None]:
type(df)