# 머신러닝 입문

### feature
머신러닝에서 데이터의 특징을 나타내는 변수

### 데이터 타입
- Numeric : 정량적 측정 가능, 단위가 있는 데이터
- Nominal : 범주로 분류가 가능
- Ordinal : 범주로 분류가 가능하면서 순서가 있음

### 회귀
예측하고자 하는 데이터 Y (종속변수)  
Y에 영향을 주는 데이터 X (독립변수, feature)
각 feature의 가중치 W  

Y = X와 W의 내적

### 고려해야 할 문제점
- 데이터의 최대/최소가 다름 (Scale에 따른 y값에 영향)
- Nominal, Ordinal한 값들의 표현
- 잘못 기입된 값 처리
- 극단값 처리

In [1]:
import numpy as np

In [2]:
w_vector = np.array([[1], [1], [1]])
x_vector = np.array([[3], [4], [5]])
w_vector.T

array([[1, 1, 1]])

In [3]:
w_vector.T.dot(x_vector)

array([[12]])

### 데이터 불러오기

In [4]:
import pandas as pd
import numpy as np

In [5]:
data_url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/housing/housing.data'
df_data = pd.read_csv(data_url, sep='\s+', header = None)

In [6]:
df_data.columns = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
df_data.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222.0,18.7,396.9,5.33,36.2


상수항에 곱해지는 `w0`는 항상 1, 열 추가  
구하려는 목표값(`y`)은 MEDV이므로 열 제거

In [7]:
df_data['weight_0'] = 1
df_data.drop('MEDV', axis=1, inplace=True)

In [8]:
df_data

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,weight_0
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.0900,1,296.0,15.3,396.90,4.98,1
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242.0,17.8,396.90,9.14,1
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242.0,17.8,392.83,4.03,1
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222.0,18.7,394.63,2.94,1
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222.0,18.7,396.90,5.33,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
501,0.06263,0.0,11.93,0,0.573,6.593,69.1,2.4786,1,273.0,21.0,391.99,9.67,1
502,0.04527,0.0,11.93,0,0.573,6.120,76.7,2.2875,1,273.0,21.0,396.90,9.08,1
503,0.06076,0.0,11.93,0,0.573,6.976,91.0,2.1675,1,273.0,21.0,396.90,5.64,1
504,0.10959,0.0,11.93,0,0.573,6.794,89.3,2.3889,1,273.0,21.0,393.45,6.48,1


# 1. Numpy
일반 list에 비해 빠르고 메모리를 효율적으로 사용
> 메모리 사용 방식 비교  
>  
> numpy array : 데이터가 연달아 붙어있는 형태  
> 일반 list : 특정 값의 주소값을 가리키고 있는 형태  

반복문 없이 데이터 배열에 대한 처리 지원

## array의 정보 확인하기

In [9]:
test_arr = np.array([1, 2, 3, 4], int)
# array 내에서는 하나의 데이터 타입으로 통일
test_arr.dtype

dtype('int64')

In [10]:
# array의 크기, 형태 등에 대한 정보를 튜플 형태로 반환
test_arr.shape

(4,)

In [11]:
# array의 메모리 확인하기
# 64bits = 8bytes, 8bytes * 4 = 32bytes
test_arr.nbytes

32

## Handling shape

In [12]:
# size(데이터의 총 크기)만 같다면 reshape 가능
test_arr.reshape(2, 2)
test_arr.flatten()

array([1, 2, 3, 4])

## Indexing & Slicing

In [13]:
test_arr = np.array([[1, 2, 3, 4], 
                    [10, 20, 30, 40],
                    [100, 200, 300, 400]])

test_arr[:2, 1:]

array([[ 2,  3,  4],
       [20, 30, 40]])

In [14]:
# slicing step (건너뛰기)
test_arr[::2, ::3]

array([[  1,   4],
       [100, 400]])

## Creation functions

In [15]:
test_arr = np.arange(0, 100, 5)
test_arr

array([ 0,  5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80,
       85, 90, 95])

In [16]:
test_arr.reshape(-1, 4)

array([[ 0,  5, 10, 15],
       [20, 25, 30, 35],
       [40, 45, 50, 55],
       [60, 65, 70, 75],
       [80, 85, 90, 95]])

In [17]:
np.ones(shape=(3, 4), dtype=np.int8)

array([[1, 1, 1, 1],
       [1, 1, 1, 1],
       [1, 1, 1, 1]], dtype=int8)

In [18]:
np.zeros(shape=(4,2), dtype=np.int8)

array([[0, 0],
       [0, 0],
       [0, 0],
       [0, 0]], dtype=int8)

In [19]:
# 단위행렬 생성
np.identity(n=3, dtype=np.int8)

array([[1, 0, 0],
       [0, 1, 0],
       [0, 0, 1]], dtype=int8)

In [20]:
# 단위행렬을 포함하는 행렬, k : start index
np.eye(3, 5, k=2)

array([[0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

In [21]:
# 대각행렬 추출
matrix = np.arange(9).reshape(3, 3)
np.diag(matrix)

array([0, 4, 8])

In [22]:
# k : start index
np.diag(matrix, k=1)

array([1, 5])

## Operation functions

In [23]:
test_arr = np.arange(1, 11).reshape(2, -1)
test_arr

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10]])

In [24]:
test_arr.sum(dtype=np.float16)

55.0

### axis  
모든 operation function을 실행할 때 기준이 되는 dimension 축  
array shape이 (3, 3, 4)이면 앞에서 차례로  
> axis = 0 --> 3  
> axis = 1 --> 3  
> axis = 2 --> 4  

In [25]:
test_arr.sum(axis=0)

array([ 7,  9, 11, 13, 15])

In [26]:
test_arr.mean()

5.5

In [27]:
test_arr.std(axis=0)

array([2.5, 2.5, 2.5, 2.5, 2.5])

In [28]:
np.exp(test_arr)

array([[2.71828183e+00, 7.38905610e+00, 2.00855369e+01, 5.45981500e+01,
        1.48413159e+02],
       [4.03428793e+02, 1.09663316e+03, 2.98095799e+03, 8.10308393e+03,
        2.20264658e+04]])

In [29]:
# concatenate
a = np.array([1, 2, 3])
b = np.array([3, 4 ,5])
np.vstack((a, b))

array([[1, 2, 3],
       [3, 4, 5]])

In [30]:
a = np.array([[1], [2], [3]])
b = np.array([[3], [4], [5]])
np.hstack((a, b))

array([[1, 3],
       [2, 4],
       [3, 5]])

## Operations between arrays

### Element-wise Operation
Array간의 shape이 같을 때 일어나는 연산

In [31]:
matrix_a = np.arange(1, 13).reshape(3, 4)

In [32]:
matrix_a * matrix_a

array([[  1,   4,   9,  16],
       [ 25,  36,  49,  64],
       [ 81, 100, 121, 144]])

In [33]:
matrix_i = np.identity(4)

In [34]:
# 내적 계산
matrix_a.dot(matrix_i)

array([[ 1.,  2.,  3.,  4.],
       [ 5.,  6.,  7.,  8.],
       [ 9., 10., 11., 12.]])

In [35]:
matrix_b = np.arange(3, 15).reshape(4, -1)
matrix_b

array([[ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [36]:
matrix_a.dot(matrix_b)

array([[ 90, 100, 110],
       [210, 236, 262],
       [330, 372, 414]])

In [37]:
# transpose
matrix_b.dot(matrix_b.T)

array([[ 50,  86, 122, 158],
       [ 86, 149, 212, 275],
       [122, 212, 302, 392],
       [158, 275, 392, 509]])

### broadcasting
shpae이 다른 배열 간 연산을 지원하는 기능

In [38]:
test_matrix = np.arange(3, 12).reshape(3, 3)
scalar = 6
test_matrix

array([[ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [39]:
test_matrix - scalar

array([[-3, -2, -1],
       [ 0,  1,  2],
       [ 3,  4,  5]])

In [40]:
test_matrix // scalar

array([[0, 0, 0],
       [1, 1, 1],
       [1, 1, 1]])

In [41]:
test_matrix ** 2

array([[  9,  16,  25],
       [ 36,  49,  64],
       [ 81, 100, 121]])

Scaler & vector 연산 외에도 vector & matrix 간의 연산 지원

In [42]:
test_matrix

array([[ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [43]:
vector = np.array([1, 2, 3])

In [44]:
test_matrix + vector

array([[ 4,  6,  8],
       [ 7,  9, 11],
       [10, 12, 14]])

In [45]:
vector = vector.reshape(3, 1)
vector

array([[1],
       [2],
       [3]])

In [46]:
test_matrix + vector

array([[ 4,  5,  6],
       [ 8,  9, 10],
       [12, 13, 14]])

## Comparisons
### All & Any

In [47]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [48]:
a > 5

array([False, False, False, False, False, False,  True,  True,  True,
        True])

In [49]:
np.any(a>5), np.any(a>10)

(True, False)

In [50]:
np.all(a>0), np.all(a<10)

(False, True)

### Comparison operation #1
배열의 크기가 동일할 때 element 간 비교의 결과를 boolean type으로 반환

In [54]:
test_a = np.array([2, 4, 5], float)
test_b = np.array([3, 5, 3], float)
test_a > test_b

array([False, False,  True])

### Comparison operation #2
logical_and, not, or

In [51]:
np.logical_and(a>0, a<3)

array([False,  True,  True, False, False, False, False, False, False,
       False])

In [52]:
b = np.array([True, False, False])
np.logical_not(b)

array([False,  True,  True])

### np.where
where(condition, true, false)  
Index 값을 반환

In [57]:
a = np.arange(10)
np.where(a > 5)

(array([6, 7, 8, 9]),)

In [59]:
a = np.array([7, 2, 5])
# true, false 가 아닌 다른 값을 지정하여 출력하도록 할 수도 있음
np.where(a > 3, 1, 0)

array([1, 0, 1])

In [65]:
np.isnan(a)

array([False, False, False])

### argmax & argmin
array 내의 최대값 또는 최소값의 Index 반환

In [66]:
a = np.array([4, 24, 65, 6, 34])
np.argmin(a)

0

In [69]:
a = np.array([[3, 26, 5], [34, 23, 74]])
np.argmax(a, axis=0)

array([1, 0, 1])