# 머신러닝의 개념
* 인공지능, 머신러닝, 딥러닝의 개념

1. 인공지능
* 사람처림 느끼고 추론하고 행동하는 컴퓨터 프로그램


2. 머신러닝 - 인공지능을 구현하는 한 방법
* 데이터로부터 **패턴**을 학습하는 방식의 컴퓨터 프로그램
* 순서
    * 데이터 수집 및 정리 -> 데이터 분석 -> 학습 -> 예측
  
3. 딥러닝 - 머신러닝의 한 종류
* 인간 뇌의 신경망을 모사하는 방식의 머신러닝
* ***복잡한 관계성***을 학습하는 방법

In [5]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris

## 데이터 수집

In [7]:
# 딕셔너리 형태
iris = load_iris()

In [11]:
print(iris.data)
print(iris.target)
print(iris.feature_names)
print(iris.target_names)

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 [5.5 3.5 1.3 0.2]
 [4.9 3.6 1.4 0.1]
 [4.4 3.  1.3 0.2]
 [5.1 3.4 1.5 0.2]
 [5.  3.5 1.3 0.3]
 [4.5 2.3 1.3 0.3]
 [4.4 3.2 1.3 0.2]
 [5.  3.5 1.6 0.6]
 [5.1 3.8 1.9 0.4]
 [4.8 3.  1.4 0.3]
 [5.1 3.8 1.6 0.2]
 [4.6 3.2 1.4 0.2]
 [5.3 3.7 1.5 0.2]
 [5.  3.3 1.4 0.2]
 [7.  3.2 4.7 1.4]
 [6.4 3.2 4.5 1.5]
 [6.9 3.1 4.

In [13]:
# 데이터프레임 만들기
raw = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df = raw.copy()
df.head(2)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2


In [14]:
# label을 추가해주기
df['label'] = iris.target
df.head(2)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0


In [17]:
# X, y >> train / test data 구분하기
# array 형태여야 함.
from sklearn.model_selection import train_test_split

X = iris.data
y = df.label

X_train, X_test, y_train, y_test = \
train_test_split(X, y, test_size=0.2, random_state=42)

In [18]:
X_train.shape, X_test.shape

((120, 4), (30, 4))

In [19]:
y_train.shape, y_test.shape

((120,), (30,))

## 데이터 모델링

In [23]:
# 머신러닝 알고리즘 선택 >> 모델링하기
# 의사결정나무 DecisionTreeClassifier
from sklearn.tree import DecisionTreeClassifier

model = DecisionTreeClassifier()

# 훈련 >> 모델 구축
model.fit(X_train, y_train)

In [24]:
# 모델 성능평가 (정확도 검사)
from sklearn.metrics import accuracy_score

# 예측
y_pred = model.predict(X_test)
print(f'의사결정나무 모델의 정확도 : {accuracy_score(y_test, y_pred)*100}%')

의사결정나무 모델의 정확도 : 100.0%


# 추가 실습
* 라벨 인코딩

In [26]:
from sklearn.preprocessing import LabelEncoder

items = ['TV', '냉장고', '전자렌지', '컴퓨터', '아이패드', '모니터', '노트북']

# 라벨 인코더 모듈 불러오기
encoder = LabelEncoder()

# 라벨 인코더로 데이터 훈련하기
encoder.fit(items)
labels = encoder.transform(items)
labels

array([0, 1, 5, 6, 4, 3, 2])

In [27]:
# 원상복구하기
origin = encoder.inverse_transform(labels)
origin

array(['TV', '냉장고', '전자렌지', '컴퓨터', '아이패드', '모니터', '노트북'], dtype='<U4')

* One-Hot 인코딩

In [32]:
from sklearn.preprocessing import OneHotEncoder

labels_ = labels.reshape(-1, 1)

# 모델 생성
encoder = OneHotEncoder()
# 모델 학습
encoder.fit(labels_)
# 레이블링
onehot_labels = encoder.transform(labels_)

print(onehot_labels.shape)
onehot_labels.toarray()

(7, 7)


array([[1., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 0., 1.],
       [0., 0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0.]])

In [None]:
# 판다스 활용 : get_dummies()
# 더미변수 : 1, 0으로 코딩 가능한 변수
# ex) 호텔에 수영장이 있음 : 1, 없음 : 0

In [35]:
pd.get_dummies(pd.DataFrame({'item' : labels}))

Unnamed: 0,item
0,0
1,1
2,5
3,6
4,4
5,3
6,2


## Scaling
* 단위 통일 >> 단위를 1로 만드는 것 (정규화)
* label은 스케일링 하면 안됨.

In [37]:
df.head(2)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0


In [39]:
from sklearn.preprocessing import StandardScaler, MinMaxScaler
# 모델 구축
scaler = StandardScaler()
scaler = MinMaxScaler()

# 데이터 확보 (label은 스케일링하지 않는다.)
df_features = df.iloc[:, :-1]

# 학습하기
scaler.fit(df_features)

# 스케일링하기
scaled_features = scaler.transform(df_features)
scaled_features[:3]

array([[0.22222222, 0.625     , 0.06779661, 0.04166667],
       [0.16666667, 0.41666667, 0.06779661, 0.04166667],
       [0.11111111, 0.5       , 0.05084746, 0.04166667]])

In [40]:
df_scaled = pd.DataFrame(data=scaled_features, columns=iris.feature_names)
df_scaled.head(2)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,0.222222,0.625,0.067797,0.041667
1,0.166667,0.416667,0.067797,0.041667


In [41]:
# 평균, 분산, 표준편차
print(df_scaled.mean(), df_scaled.var(), df_scaled.std())

sepal length (cm)    0.428704
sepal width (cm)     0.440556
petal length (cm)    0.467458
petal width (cm)     0.458056
dtype: float64 sepal length (cm)    0.052908
sepal width (cm)     0.032983
petal length (cm)    0.089522
petal width (cm)     0.100869
dtype: float64 sepal length (cm)    0.230018
sepal width (cm)     0.181611
petal length (cm)    0.299203
petal width (cm)     0.317599
dtype: float64
