# [ISLR] Chapter 02 - An Overview of Statistical Learning

* ISLR 책을 공부하며 가벼운 내용 소개, 원래 알고 있던 내용을 함께 정리합니다.
* ISLR 책에 대한 원서는 [여기](http://www-bcf.usc.edu/~gareth/ISL/)에서 확인할 수 있습니다.
* ISLR 책에 대한 참고 블로그는 [Go`s Blog](https://godongyoung.github.io/category/ML.html)를 참고했습니다.
* 코드 구현은 [밑바닥부터 시작하는 데이터 과학](https://book.naver.com/bookdb/book_detail.nhn?bid=10652749) 이 책을 참고했습니다.
* 오타나 틀린 내용, 토의할 내용은 언제나 이슈로 등록해주세요.
---

## Contents
    2.1 What Is Statistical Learning?
        2.1.1 Why Estimate f?
        2.1.2 How Do We Estimate f?
        2.1.3 The Trade-Off Between Prediction Accuracy and Model Interpretability
        2.1.4 Supervised Versus Unsupervised Learning
        2.1.5 Regression Versus Classification Problems
        
    2.2 Assessing Model Accuracy 
        2.2.1 Measuring the Quality of Fit
        2.2.2 The Bias-Variance Trade-Off
        2.2.3 The Classification Setting
---

## 통계적 학습이란 무엇인가?

통계적 학습의 최고 목표는 x와 y가 어떤 관계가 있을 것이라고 가정하고 이를 밝히는 것이다. 좀 더 자세히 말하면 우리에게 $x_1,x_2,..,x_p$ 라는 *input*이 있을 때 $y$라는 *output*이 나오게 되는 관계 즉, **함수**를 찾아내는 것이다. 또는 이를 **패턴**이라고 하기도 한다.

\begin{equation*}
y = f(x)
\end{equation*}

예를 들어, 제품을 판매하는 한 회사에서 Tv, Radio, Newspaper 광고 지출액과 제품의 판매량의 관계를 알고 싶다고 하자. 이때 우리는 통계적 학습을 적용해볼 수 있을 것이다.

이때, x와 y를 지칭하는 용어는 여러가지 있다. x를 **input, predictors, independent variables(독립변수), features**라고 지칭하기도 하고, y를 **output, response, depedent variable(종속변수), target, label**라고 지칭하기도 한다. 경험적으로 통계에선 독립변수, 종속변수 용어를 주로 사용하고 ML쪽에선 Feature, label, target 용어를 주로 사용하는 것 같다.

우리는 이 세상에 존재하는 가장 완벽한 함수 $f$를 찾기를 원한다. 하지만 이는 사실상 불가능하다. 이 세상에 있는 모든 데이터를 구할 수 없기 때문이다. 따라서 우리가 정의한 관계, 함수, 패턴에는 항상 오류를 포함하기 마련이다. 이러한 오류를 포함하기 위해 통계학에서는 *error term 'e'를 넣어줘야 한다. 이를 수식으로 표현하면 다음과 같다.

\begin{equation*}
y = f(x) + e
\end{equation*}

이때 $e$는 우리가 가정한 모델로 절대 줄일 수 없는 오류를 의미한다. 이 역시 모든 데이터를 알 수 없고, 모든 데이터를 알 수 있다고 해도 데이터 속에 완벽한 패턴을 찾아내는 것은 불가능이다.

따라서 우리는 **(1) 우리가 관측한 데이터** 속에서 **(2) 적당한 함수공간**을 고려해 함수를 정의하고 선택해야 한다.

##### key sentences
>* More generally, suppose that we observe a quantitative response $Y$ and p different predictors, $X_1, X_2, ..., X_p$. We assume that there is some relationship between $Y$ and $X = (X_1, X_2, ..., X_p)$, which can be written in the very general form $y = f(x) + e$.
* However, the function $f$ that connects the input variable to the output variable is in general **unknown**. In this situation one must estimate $f$ based on observed points.
* In essence, statistical learning refers to a set of approaches for estimating $f$.

### Why Estimate f?

우리가 함수 $f$를 추정해야 하는데는 2가지 핵심 이유가 있다. ***f: prediction and inference***

#### Prediction (예측)
일반적인 ML 문제에서 많이 다루는 문제이다. Kaggle 이나 많은 빅데이터 컴피티션을 보면 주어진 데이터에 기반해 새로운 데이터가 등장했을 때 어떤 값을 가질 지 예측하는 문제가 정말 많다. 주어진 데이터에 기반해 적당한 함수공간 속 함수 $\hat{f}$을 찾아낸다. 이때 추정된 함수에 의해 새로운 데이터 포인트가 어떤 값을 가질 지 예측할 수 있다.

\begin{equation*}
\hat{y} = \hat{f}(x)
\end{equation*}

참고로 $f$는 가장 완벽한 함수(모든 데이터가 주어지고, 어떤 함수공간인지도 알 때), $\hat{f}$은 특정 함수공간 속에서 주어진 데이터를 기반으로 추정한 함수이다. $\hat{f}$이 특정 함수공간 속 주어진 데이터를 가장 잘 설명할 수도 있고, 아닐수도 있다.

$\hat{y}$에 대한 오류, 즉 함수가 잘못 추정됐을 것이라는 지표는 ***reducible error***와 ***irreducible error***를 통해 확인할 수 있다. 일반적으로 추정된 함수 $\hat{f}$은 주어진 조건에서 데이터를 가장 잘 설명하는 패턴, 함수가 아닐 수 있다. 이런 오류가 **reducible error**이다. 반면, 앞서 설명했던 것처럼 모든 데이터 포인트를 알 지 못하고, 함수공간 채택의 한계가 있기 때문에 발생하는 오류가 있다. 이런 오류는 **irreducible error**이다. 이때 중요한 것이 **irreducible error**는 해당 함수에서 발생할 수 있는 어떤 **속성**같은 것이다. 즉, 해당 함수에서 줄일 수 없는 오류라는 것이지, 결국 우리가 데이터를 더 모으고 더 좋은 함수를 찾아내면 결국 이는 줄일 수 있다. 오해하면 안 될것이 우리 관점에서 줄일 수 없는 오류가 아닌 해당 함수가 갖고 있는 특성의 관점에서 줄일 수 없는 오류라는 것이다!

이를 수식으로 표현하면 다음과 같다.

\begin{equation*}
E(Y-\hat{Y})^2 = E[f(X) + e - \hat{f}(X)]^2 = [f(X) - \hat{f}(X)]^2 + Var(e)
\end{equation*}

이때 $[f(X) - \hat{f}(X)]^2$가 **reducible error**고 $Var(e)$가 **irreducible error**이다. 이 책에서는 어떻게 **reducible error**를 줄일 수 있는 방법에 집중한다.

#### Inference (추론)
ML쪽에서는 주로 다루지 않는 문제이다. 하지만, 국내 많은 빅데이터 컴피티션(L point, Big contest) 등에선 예측에 더불어 추론 역시 요구한다.
우리는 종종 $X_1, X_2, ..., X_p$중 어떤 인자가 $Y$에 영향을 미쳤는 지 궁금해한다. 이 책에선 3가지 주요 관점으로 추론 문제를 다루었다.

* 어떤 독립변수가 종속변수와 관계돼 있을까(Feature Selection 등)?
* 독립변수와 종속변수사이에 어떤 관계가 있을까(인과관계 등)?
* 독립변수와 종속변수의 관계를 선형 방정식 또는 더 복잡한 함수를 통해 적절히 표현할 수 있는가?