# An understanding of data

## 모델을 학습할 때 영향을 주는 것들

* 모델: `y = ax + b`, `y = f(x)` 등과 같은 수식 또는 함수
  * `y = ax + b` 에서
    * x: 독립변수(주어진 것. 다른 것의 영향을 받지 않는 것)
    * y: 종속변수(x와 a, b에 의해 결정됨)
    * x와 y: 데이터를 통해 찾음
    * a와 b: 알고리즘을 통해 최적값을 찾게 됨

## Y값에 영향을 주는 X값은 하나인가?

### Boston House Price Dataset
* 데이터 분석 입문 시 대표적으로 사용하는 데이터셋 → toy example / data example
* 1978년 발표. 미국 인구통계 조사결과, 미국 보스턴 지역의 주택 가격(종속변수)에 영향을 주는 요소들(독립변수)을 정리
* 13개의 독립변수와 한 개의 종속변수
  * 독립변수의 실제 데이터는 특징(feature)을 나타냄

### Feature
* 머신러닝에서 데이터의 특징을 나타내는 변수
* feature, 독립변수, input 변수 등은 같은 의미로 사용
* 일반적으로 table 상의 data를 표현할 때 COLUMN(열)을 의미
* 하나의 data instance(실제 데이터)는 feature vector로 표현

### 차원의 저주(curse of dimensionality)
* 데이터의 차원이 증가(feature가 증가)할수록 데이터를 표현하는 공간이 증가하므로
  * 희소 벡터(sparse vector) 증가(값이 없는 feature가 늘어남)
  * 샘플데이터가 급속도로 늘어남
* 데이터 분포나 모델 추정에 어려움

## Data Types

* Feature 마다 필요한 Data 유형이 다름

### 연속형 값(continuous) vs. 이산형 값(discrete)
* continuous
  * 값이 끊어지지 않고 연결됨
  * 온도, 시험 평균 점수, 속도
  * 일반적으로 실수 값
* discrete
  * 값이 연속적이지 않음
  * 성별, 우편, 주소, 등수
  * Label로 구분

### Numeric Types (숫자형 값)
* 정량적으로 측정 가능한 데이터 타입
* 일반적으로 정수(integer) 또는 실수(real-number)로 표현
* 온도, 자동차 속도, 날짜의 차이(year or day)
* 단위(scale)이 있는 Interval-scaled type
* 비율이 있는 Ratio-scaled type

### Nominal Types or Categorical Types
* label(이름)로 표시되는 범주(category)로 분류가 가능한 데이터 타입
* "명목 척도"라는 표현으로 사용되기도 함
* 색깔, 학교명, ID, 전공명 등
* 두 개의 category만 분류할 때는 binary type(T/F)으로 구별

### Ordinal Types
* 범주로 분류가 가능하지만 범주 간에 순서가 있음
* 음료수 병의 크기(대/중/소), 학점, 5점 척도 설문조사(5. 매우 높다 / 4. 높다 / 3. 중간 / 2. 낮다 / 1. 매우 낮다)
* 측정되는 Scale 또는 Unit이 사람마다 다를 수 있음(사람마다 기준으로 하는 단위가 다를 수 있다는 얘기)
* "순서가 있는 것"과 "배수로 증가하는 개념"은 다름

### 발생 가능한 문제점
* 데이터의 최대/최소가 다름 → Scale에 따라 y값에 영향
* Ordinary 또는 Nominal 값의 표현은 어떻게 할 것인지?
* 잘못 기입된 값에 대한 처리는?
* 값이 없을 경우에는?
* 극단적으로 큰 값 또는 작은 값은 어떻게?
* 결국 전처리를 어떻게 하느냐에 따라 달려있음

## Loading data w/ pandas

### 데이터 형식
* 데이터 분석 시 일반적으로 사용하는 raw data는 binary 형태가 아닌 text 형태의 데이터임
* 주로 사용되는 데이터 포맷: csv, json, xml, etc.
* pandas를 이용하여 데이터를 호출

### Pandas
* 구조화된(structured) 데이터의 처리를 지원하는 파이썬 라이브러리
* 고성능 Array 계산 라이브러리인 Numpy와 통합하여 강력한 스프레드시트 처리 기능 제공
* 인덱싱, 연산용 함수, 전처리 함수 등 제공

In [1]:
import pandas as pd

data_url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/housing/housing.data'
df_data = pd.read_csv(data_url, sep='\s+', header=None)
# sep 부분은 정규표현식을 사용하여 공백(blank)을 나타낸 것

In [2]:
df_data.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222.0,18.7,396.9,5.33,36.2


In [3]:
df_data.columns = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
# column header 이름 지정
df_data.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222.0,18.7,396.9,5.33,36.2


In [4]:
df_data

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.0900,1,296.0,15.3,396.90,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242.0,17.8,396.90,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222.0,18.7,396.90,5.33,36.2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
501,0.06263,0.0,11.93,0,0.573,6.593,69.1,2.4786,1,273.0,21.0,391.99,9.67,22.4
502,0.04527,0.0,11.93,0,0.573,6.120,76.7,2.2875,1,273.0,21.0,396.90,9.08,20.6
503,0.06076,0.0,11.93,0,0.573,6.976,91.0,2.1675,1,273.0,21.0,396.90,5.64,23.9
504,0.10959,0.0,11.93,0,0.573,6.794,89.3,2.3889,1,273.0,21.0,393.45,6.48,22.0


### Numpy
* Numerical Python
* 파이썬의 고성능 과학 계산용 패키지
* Matrix, Vector와 같은 Array 연산에서 사실상의 표준
* 한글로는 대부분 넘파이로 통칭
* 일반 리스트(List)에 비해 빠르고 메모리 효율적임
* 반복문 없이 데이터 배열에 대한 처리 지원
* 선형대수와 관련된 다양한 기능 제공
* C, C++, Fortran 등 언어와 통합 가능

In [5]:
import numpy as np

weight_vector = np.array([[1], [1], [1]])
x_vector = np.array([[3], [4], [5]])

# "T"는 transpose: 행렬의 행과 열 바꾸기/축 바꾸기/전치행렬
weight_vector.T.dot(x_vector) # 1 * 3 + 1 * 4 + 1 * 5 = 12

array([[12]])

In [6]:
df_data['weight_0'] = 1
df_data = df_data.drop('MEDV', axis=1)
df_data.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,weight_0
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296.0,15.3,396.9,4.98,1
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242.0,17.8,396.9,9.14,1
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242.0,17.8,392.83,4.03,1
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222.0,18.7,394.63,2.94,1
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222.0,18.7,396.9,5.33,1


In [7]:
# df_data.as_matrix()는 더 이상 사용되지 않음
df_data.values

array([[6.3200e-03, 1.8000e+01, 2.3100e+00, ..., 3.9690e+02, 4.9800e+00,
        1.0000e+00],
       [2.7310e-02, 0.0000e+00, 7.0700e+00, ..., 3.9690e+02, 9.1400e+00,
        1.0000e+00],
       [2.7290e-02, 0.0000e+00, 7.0700e+00, ..., 3.9283e+02, 4.0300e+00,
        1.0000e+00],
       ...,
       [6.0760e-02, 0.0000e+00, 1.1930e+01, ..., 3.9690e+02, 5.6400e+00,
        1.0000e+00],
       [1.0959e-01, 0.0000e+00, 1.1930e+01, ..., 3.9345e+02, 6.4800e+00,
        1.0000e+00],
       [4.7410e-02, 0.0000e+00, 1.1930e+01, ..., 3.9690e+02, 7.8800e+00,
        1.0000e+00]])

In [8]:
df_data.shape

(506, 14)

In [9]:
df_matrix = df_data.values
weight_vector = np.random.random_sample((14, 1))

In [10]:
df_matrix.dot(weight_vector)

array([[287.44157411],
       [250.86063946],
       [246.37391443],
       [232.54022941],
       [234.87710011],
       [234.69221591],
       [298.8803143 ],
       [305.12201673],
       [305.29195945],
       [300.77165348],
       [304.16905682],
       [301.91897906],
       [294.04211708],
       [286.30942168],
       [286.23546377],
       [285.18407809],
       [278.62453814],
       [288.21561841],
       [257.51567376],
       [286.5443809 ],
       [289.45681376],
       [290.53615123],
       [292.97680372],
       [293.83119034],
       [292.2171505 ],
       [269.50304734],
       [287.22728977],
       [270.95615058],
       [290.23492615],
       [287.21153728],
       [285.36803439],
       [288.39724676],
       [254.55960169],
       [284.29734497],
       [259.12705261],
       [271.71574316],
       [266.43995595],
       [267.46855423],
       [265.21296561],
       [308.00957592],
       [306.7434968 ],
       [231.95958866],
       [232.07501654],
       [235

In [11]:
df_matrix.dot(weight_vector).shape

(506, 1)