# Chapter 2: An understanding of data

- 모델(함수나 수식)을 학습할 때 영향을 주는 것들
- y값에 영향을 주는 x값은 하나는 아님

$$y = ax + b$$

- y: 종속변수(주어진 값)
- x: 독립변수(주어진 값)
- a, b: 알고리즘을 통해 최적값을 찾음

## 개념정리

### 1. Feature

- 머신러닝에서 **데이터 특징을 나타내는 변수**
- feature, 독립변수, input 변수 등은 동일의미로 사용
- 일반적으로 table 상에 data를 표현할 때 column을 의미
- 하나의 **data instance(실제 데이터, row)**는 feature vector(list 형태로 생각하면 편함)로 표현
- scalar는 이탤릭채, vector는 소문자 볼드, matrix는 대문자 볼드로 표기

$$x_j^{(i)} \qquad (i): data\:instance의\:number,\quad j:column$$

$$y=w_1x_1+w_2x_2+\cdots+w_{13}x_{13}+w_0\cdot1 \\
= \sum_{j=0}^{13}w_jx_j = w^Tx$$

### 2. Curse of dimensionality(차원의 저주)

- Feature의 개수가 n개 일때? 4차원 이상이 넘어가면 상상할 수 없음
- 데이터의 차원이 증가할 수록(**=feature가 증가할 수록**) **데이터를 표현하는 공간이 증가하기 때문에** 
    - 희박한 벡터(sparse vector)가 증가(값이 없는 feature가 늘어남)
        - 전체적인 정확도가 떨어짐
    - 샘플데이터가 급속도로 늘어남
        - 데이터 처리속도 저하, 메모리 사용량 증가
- **데이터 분포나 모델 추정의 어려움이 생김**

### 3. 데이터 속성(Data Attibute)

- Feature별로 Data의 유형이 다름, $x_j$에는 어떤 값이 들어갈까?

#### 1) 연속형 값 vs 이산형 값

- 연속형 값(continuous)
    - 값이 끊어지지 않고 연결됨
    - 일반적으로 실수값들(온도, 시험평균 점수, 속도 등)

- 이산형값(discrete)
    - 값이 연속적이지 않음
    - 명목형, Label로 구분되는 값들(성별, 우편주소, 등수 등)

#### 2) 숫자형 vs 범주형 vs 순서형

- 숫자형(numeric Types)
    - 정량적으로 측정 가능한 data type
    - 일반적으로 정수(integer) 또는 실수(real-number)로 표현
        - 온도, 자동차 속도, 날짜의 차이(year or day)
    - **단위(scale)**가 있는 interval-scaled type
    - 비율이 있는 ratio-scaled type

- 범주형(nominal Types)
    - 범주(category)로 분류가 가능한 data type
    - 명목 척도라는 표현으로 사용되기도 함
        - 색깔, 학교명, ID, 전공명 등
    - 두 개의 category만 분류할 때는 binary type으로 구별

- 순서형(ordinal Types)
    - 범주로 분류가 가능하나 범주간의 순서가 있음
    - 명목 척도라는 표현으로 사용되기도 함
        - 음료수 병의 크기, 학점, 5점 척도 설문조사
    - 측정되는 scale 또는 unit이 사람마다 다를 수 있음
    - 순서가 있는 것은 배수로 증가하는 개념과 다름

### 4. Data type에 따라 생길 수 있는 문제점 들

- 데이터의 최대/최소가 다름(데이터의 차이가 너무 나는 경우)
    - scale에 따른 y값에 영향
- Ordinal 또는 Norminal 한 값 들의 표현
- 잘 못 기입된 값들에 대한 처리
- 값이 없을 경우에 대한 처리
- 극단적으로 큰 값, 작은 값들에 대한 처리

## Boston House Price Dataset

- Toy Example(Baseline Example)
    - 머신러닝 등 데이터 분석을 처음 배울 때 가장 대표적으로 사용하는 **Example Dataset**
    - 현업에서 사용하기 보다는 예제를 보여주기 위해 사용
- 1978년에 발표된 데이터, 미국 인구통계 조사 결과 미국 보스턴 지역의 주택 가격(종속변수)에 영향 요소(독립변수)들을 정리함
- 참고사이트
    - http://www.dator.co.kr/ctg258/textyle/1721307
    - http://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html

**독립변수**:

순번|변수명|설명
-|-|-
1|CRIM|자치시(town)별 인당 범죄율
2|ZN|25,000 평방피트를 초과하는 거주지역의 비율
3|INDUS|비소매상업지역이 점유하고 있는 토지의 비율
4|CHAS|찰스강에 대한 더미변수(강의 경계에 위치한 경우는 1, 아니면 0)
5|NOX|10ppm 당 농축 일산화 질소
6|RM|주택 1가구당 평균 방의 개수
7|AGE|1940년 이전에 건축된 소유주택의 비율
8|DIS|5개의 보스턴 직업센터까지의 접근성 지수
9|RAD|방사형 도로까지의 접근성 지수
10|TAX|10,000 달러 당 재산세율
11|PTRATIO|자치시(town)별 학생/교사 비율
12|B|1000(Bk-0.63)^2 여기서 Bk는 자치시별 흑인의 비율을 말함
13|LSTAT|모집단의 하위계층의 비율(%)
**종속변수**:

순번|변수명|설명
-|-|-
14|MEDV|본인 소유의 주택가격(중앙값)(단위: $1,000)

- 데이터의 표현
    - 13개의 x변수, 1개의 y변수
    - x변수의 실제 데이터는 특징(feature)을 나타냄
    - $\beta_n$: 기울기, 가중치, weight
    - $\beta_0$: 절편, 상수항

$$y=\beta_1x_1+\beta_2x_2+\beta_2x_2+\beta_3x_3+\beta_4x_4+\beta_5x_5+\beta_6x_6+\beta_7x_7+\cdots+\beta_13x_13+\beta_0\cdot1$$

### 1. 데이터에 관한 개념 정리

#### 1) 데이터에 관한 용어

- **data table**, sample
- **attribute**, field, **feature**, column
- **data instance, tuple**, row
- feature vector
- data, data value

#### 2) 데이터의 형식

- 일반적으로 데이터 분석시 사용하는 raw data는 binary가 아닌 text 형태의 데이터
- 주로 사용되는 데이터 포맷: csv, json, xml, DB 등
- pandas를 사용하여 데이터를 호출함

### 2. Pandas를 이용한 데이터 로딩

#### 1) Pandas

- 엑셀처럼 데이터 사용
- **구조화된 데이터**의 처리를 지원하는 python 라이브러리
- 고성능 array 라이브러리인 numpy와 통합하여 강력한 스프레드시트 처리기능을 제공
- 인덱싱, 연산용 함수, 전처리 함수 등을 제공 

In [5]:
import pandas as pd # 라이브러리 호출

In [9]:
# Data URL
data_url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/housing/housing.data'
# sep='\s+'은 regexp(regular expression)으로 blank가 1회 이상 반복됨을 나타냄
df_data = pd.read_csv(data_url, sep='\s+', header=None)

In [8]:
# head(): 처음 다섯줄을 출력, head(n): 처음부터 n줄까지 출력
df_data.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222.0,18.7,396.9,5.33,36.2


In [10]:
# Column Header 이름 지정
df_data.columns = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 
                   'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
df_data.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222.0,18.7,396.9,5.33,36.2


In [43]:
#df_data

### 3. 모델 만들기

#### 1) 모델을 컴퓨터로 표현하는 방법

$$y=\beta_1x_1+\beta_2x_2+\beta_2x_2+\beta_3x_3+\beta_4x_4+\beta_5x_5+\beta_6x_6+\beta_7x_7+\cdots+\beta_13x_13+\beta_0\cdot1$$

- 참고사이트
    - https://goo.gl/3PoYSx
    - https://goo.gl/1DgF83
    - https://goo.gl/6uDPX4

- 기본적으로 sympy를 이용하여 표현 가능하나 좀 더 쉽게 표현하기 위해 **vector와 matrix를 이용하여 표현함**

$$y=w_1x_1+w_2x_2+\cdots+w_{13}x_{13}+w_0\cdot1 \\
= \sum_{j=0}^{13}w_jx_j = w^Tx$$

$$ \boldsymbol{w^T \cdot x} 
\qquad
\boldsymbol{w} = 
\begin{bmatrix}
w_0\\
w_1\\
w_2\\
w_3\\
\vdots\\
w_13
\end{bmatrix}
\qquad
\boldsymbol{x^{(i)}} = 
\begin{bmatrix}
1\\
0.00632\\
18\\
2.31\\
0.538\\
\vdots\\
24
\end{bmatrix}
$$

- numpy 이용: vetor 연산 최적 라이브러리

#### 2) Numpy

- Numerical Python의 약자
- 파이썬의 고성능 과학 계산용 기초 패키지
- Matrix와 vector와 같은 array 연산의 사실상 표준
- 일반 list에 비해 빠르고 메모리 효율적
- 반복문 없이 데이터 배열에 대한 처리를 지원
- 선형대수와 관련된 다양한 기능을 제공
- c, c++,포트란 등의 언어와 통합 가능

#### 3) Numpy 계산해보기 예제

$$ \boldsymbol{w^T \cdot x} 
\qquad
\boldsymbol{w} = 
\begin{bmatrix}
1\\
1\\
1\\
\end{bmatrix}
\qquad
\boldsymbol{x^{(1)}} = 
\begin{bmatrix}
3\\
4\\
5\\
\end{bmatrix}
$$

In [13]:
# Numpy 라이브러리 호출
import numpy as np

In [20]:
weight_vector = np.array([[1], [1], [1]]) # 원래 weight vector는 학습을 통해 나와야 함을 주의
x_vector = np.array([[3], [4], [5]])

In [15]:
weight_vector

array([[1],
       [1],
       [1]])

In [17]:
x_vector

array([[3],
       [4],
       [5]])

In [16]:
weight_vector.T

array([[1, 1, 1]])

In [19]:
weight_vector.T.dot(x_vector) # (1*3) + (1*4) + (1*5) = 12

array([[12]])

### 4. Pandas와 Numpy를 이용한 Boston House Price Dataset의 표현

$$ for \, each \, i \sum_{j=0}^{13} = \boldsymbol{w^T \cdot X} $$

- i: data sample
- j: weight number
- X: Data table
- $x_0 = 1$

In [5]:
import pandas as pd # 라이브러리 호출

In [25]:
# Data URL
data_url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/housing/housing.data'
# sep='\s+'은 regexp(regular expression)으로 black가 1회 이상 반복됨을 나타냄
df_data = pd.read_csv(data_url, sep='\s+', header=None)
# Column Header 이름 지정
df_data.columns = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 
                   'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
df_data.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222.0,18.7,396.9,5.33,36.2


In [24]:
# 상수항, x_0 추가
df_data['x_0'] = 1
df_data.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,x_0
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296.0,15.3,396.9,4.98,1
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242.0,17.8,396.9,9.14,1
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242.0,17.8,392.83,4.03,1
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222.0,18.7,394.63,2.94,1
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222.0,18.7,396.9,5.33,1


In [23]:
# 종속변수 MEDV 제거
df_data = df_data.drop('MEDV', axis=1)
df_data.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,x_0
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296.0,15.3,396.9,4.98,1
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242.0,17.8,396.9,9.14,1
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242.0,17.8,392.83,4.03,1
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222.0,18.7,394.63,2.94,1
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222.0,18.7,396.9,5.33,1


In [34]:
# Matrix로 표현: .values, .as_matrix()이용
df_data.values

array([[6.3200e-03, 1.8000e+01, 2.3100e+00, ..., 3.9690e+02, 4.9800e+00,
        2.4000e+01],
       [2.7310e-02, 0.0000e+00, 7.0700e+00, ..., 3.9690e+02, 9.1400e+00,
        2.1600e+01],
       [2.7290e-02, 0.0000e+00, 7.0700e+00, ..., 3.9283e+02, 4.0300e+00,
        3.4700e+01],
       ...,
       [6.0760e-02, 0.0000e+00, 1.1930e+01, ..., 3.9690e+02, 5.6400e+00,
        2.3900e+01],
       [1.0959e-01, 0.0000e+00, 1.1930e+01, ..., 3.9345e+02, 6.4800e+00,
        2.2000e+01],
       [4.7410e-02, 0.0000e+00, 1.1930e+01, ..., 3.9690e+02, 7.8800e+00,
        1.1900e+01]])

In [36]:
# X의 shape: 506*14
df_data.shape

(506, 14)

- X의 shape: 506*14
- y의 shape: 506*1
- weight의 shape: 14*1

In [33]:
# Matrix Data로 변환하기, X 생성
df_matrix = df_data.as_matrix()
df_matrix

array([[6.3200e-03, 1.8000e+01, 2.3100e+00, ..., 3.9690e+02, 4.9800e+00,
        2.4000e+01],
       [2.7310e-02, 0.0000e+00, 7.0700e+00, ..., 3.9690e+02, 9.1400e+00,
        2.1600e+01],
       [2.7290e-02, 0.0000e+00, 7.0700e+00, ..., 3.9283e+02, 4.0300e+00,
        3.4700e+01],
       ...,
       [6.0760e-02, 0.0000e+00, 1.1930e+01, ..., 3.9690e+02, 5.6400e+00,
        2.3900e+01],
       [1.0959e-01, 0.0000e+00, 1.1930e+01, ..., 3.9345e+02, 6.4800e+00,
        2.2000e+01],
       [4.7410e-02, 0.0000e+00, 1.1930e+01, ..., 3.9690e+02, 7.8800e+00,
        1.1900e+01]])

In [37]:
# 랜덤값으로 14*1의 weight vector 생성
weight_vector = np.random.random_sample((14,1))
weight_vector

array([[0.66308458],
       [0.00152664],
       [0.34449115],
       [0.3884217 ],
       [0.8833616 ],
       [0.24340265],
       [0.84155233],
       [0.4493145 ],
       [0.61498789],
       [0.95794912],
       [0.28538402],
       [0.91044967],
       [0.06148582],
       [0.67240198]])

In [38]:
weight_vector.shape

(14, 1)

In [41]:
# y생성
df_matrix.dot(weight_vector).shape

(506, 1)