# Stay Focused: DOs and DON'Ts

* 우리가 하려는 것은 확률통계학이 아니라 머신러닝이다
  * DON'T: 수학공식/증명은 학습의 대상이 아니다
  * DO: 특정 확률통계적 개념이 무엇이고 언제 사용하는지가 관심사다
* 또한 우리가 하려는 것은 Python을 사용한 머신러닝이다
  * DON'T: 확률통계적 개념을 이해했다고 끝이 아니다.
  * DO: 해당 개념이 Python 라이브러리 상 어떤 함수 호출에 의해 확인 가능한지 알아보아야 한다.

# Overview of Big Data Analysis

## 인공지능에서의 확률론적 모델링

* 기계 학습의 대표적인 활용분야는 특정한 입력 값을 보고 결과를 예측하는 시스템이다.
  * ex. 특정 사진 보고 고양이 여부, 특정 기후조건 보고 날씨 예측
* 이 때 예측시스템의 학습을 위해 우리는 수집한 데이터를 가지고 학습을 진행하는데,
  * 광범위한 전체자료(모집단)의 극히 작은 일부분의 데이터(샘플)를 다루며,
  * 주어진 샘플의 특성을 바탕으로 효과적으로 모집단의 특성을 추측해야 하고
  * 샘플의 어떤 특징이 예측에 효과적인 변수인지 확인하는 것 추려내는 일련의 작업을 필요로 한다.
* 이런 과정은 확률통계학에서 여태까지 해오던 과정으로, 확률통계적 접근이 효과적이다.

## 인공지능, 빅데이터, 기계학습, 딥러닝 관계는?

![](/notebooks/s01_stat/figures/AI_BigData_ML_DeepLearning.png)

## Python Library Stack

![파이썬 라이브러리 스택](/notebooks/s01_stat/figures/py_lib_stack.png)

* Core: Python의 기본 모듈
* NumPy: 숫자의 배열처리에 특화된 라이브러리
* SciPy: 역행렬 등 학문적인 알고리즘을 구현
* Scikit-Learn: 기계학습에 특화된 라이브러리(다양한 학습모델을 제공: 선형회귀~딥러닝)

> SciPy + Scikit-Learn의 단점: 
> GPU 지원등이 없어서 대규모 플랫폼으로는 적합하지 않다

* TensorFlow: 위의 SciPy + Scikit-Learn 조합의 단점을 해결하기 위해 등장
** 참고로, 1차원 array는 vector, 2차원 array는 matrix, 3차원 array는 tensor
** 주로 인공지능에서 3차원 array를 단계별로 진행시켜나가기 때문에 TensorFlow라는 이름도 여기서 착안

> NumPy의 한계: 
> 처리해야할 데이터에는 수로 표시되는 연속형 데이터도 있지만, 
> 서울/경기/인천 등과 같이 범주형(Category) 데이터도 존재하는데, 
> 이런 데이터에 대한 처리가 약하다.

* Pandas: R에서 DataFrame의 개념을 차용하여 구현하면서 범주형 자료도 처리 가능

> Scikit-Learn의 한계:
> 회귀분석에 있어 R과 같은 폭 넓은 분석이 불가능하다
> 대표적으로 p-value 같은 중요한 값을 제공하지 않는다

* StatsModel: 보다 다각적인 분석을 제공하는 라이브러리 모듈

In [7]:
# numpy의 사용법

import numpy as np
a = [1, 2, 3, 4]
b = np.array([1, 2, 3, 4])

# 유용한 method들
print('MEAN', b.mean())
print('VAR', b.var())

# 일반 파이썬과는 다른 연산규칙
print('----OPERATION----')
a = a + a
print(a)
b = b + b
print(b)

b = b * 2
print(b)

MEAN 2.5
VAR 1.25
----OPERATION----
[1, 2, 3, 4, 1, 2, 3, 4]
[2 4 6 8]
[ 4  8 12 16]


In [8]:
# numpy의 유용한 함수들

print('----ARANGE----')
print(np.arange(10))
print(np.arange(1,10,2))

print('----LINSPACE----')
print(np.linspace(0,1,11))

print('----ONES----')
print(np.ones(5)*2)

print('----RANDOM----')
print(np.random.rand(10))    # 균등분포에서 난수 생성
print(np.random.randn(10))   # 표준정규분포에서 난수 생성

print(np.random.seed(1))
print(np.random.rand(10))
print(np.random.rand(10))

print(np.random.seed(1))
print(np.random.rand(10))



----ARANGE----
[0 1 2 3 4 5 6 7 8 9]
[1 3 5 7 9]
----LINSPACE----
[0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]
----ONES----
[2. 2. 2. 2. 2.]
----RANDOM----
[0.39555338 0.07757656 0.47075165 0.86389982 0.7854603  0.92383639
 0.83879778 0.99066701 0.65860128 0.59612328]
[-0.18516407 -0.03040512  0.23752649 -1.1470167   1.32898988  0.82927931
  0.5974142   1.52923884 -0.26100092  1.06767512]
None
[4.17022005e-01 7.20324493e-01 1.14374817e-04 3.02332573e-01
 1.46755891e-01 9.23385948e-02 1.86260211e-01 3.45560727e-01
 3.96767474e-01 5.38816734e-01]
[0.41919451 0.6852195  0.20445225 0.87811744 0.02738759 0.67046751
 0.4173048  0.55868983 0.14038694 0.19810149]
None
[4.17022005e-01 7.20324493e-01 1.14374817e-04 3.02332573e-01
 1.46755891e-01 9.23385948e-02 1.86260211e-01 3.45560727e-01
 3.96767474e-01 5.38816734e-01]


In [9]:
# 문 1. 1과 3 사이에서 균등분포로 난수 100개를 생성하시오.
# 그리고 이들의 평균이 얼마인지 구하시오

btwn_1and3 = np.random.rand(100) * 2 + 1
print(btwn_1and3)
print(btwn_1and3.mean())

[1.83838903 2.370439   1.4089045  2.75623487 1.05477519 2.34093502
 1.8346096  2.11737966 1.28077388 1.39620298 2.60148914 2.93652315
 1.62684836 2.38464523 2.7527783  2.78921333 1.17008842 1.07810957
 1.33966084 2.75628501 1.19669367 1.84221525 2.91577906 2.06633057
 2.38375423 1.63103126 2.37300186 2.66925134 1.03657655 2.50028863
 2.97772218 2.49633131 1.56088798 2.57855866 1.20645201 1.89578705
 2.81719101 1.5872283  1.57555068 1.26005714 1.03873392 2.35767107
 1.42325623 1.53109332 1.98314632 1.10672509 2.14823521 1.29345715
 2.17861107 2.39951672 1.20466886 1.82811198 2.38880032 1.82835854
 1.09990692 2.07179281 2.32758929 2.02977822 2.88918951 2.17311008
 2.80680383 1.27494941 1.27855269 2.61478258 1.79535367 1.33070839
 2.85501716 1.69553172 2.50162421 2.45199597 2.76661218 2.24734441
 2.50188487 1.69779668 1.53985578 2.79177244 1.85618238 2.92968009
 2.326883   2.24339144 1.22949195 2.89897852 1.89982427 2.15677923
 1.81627361 1.47405396 2.80675904 2.14735897 1.00574065 2.2342

In [10]:
# 문 2. 위의 난수 중에서 2보다 작은 것은 모두 몇 개인지 세어보시오

count1 = len([b for b in btwn_1and3 if b < 2])

count2 = (btwn_1and3<2).sum()

count3 = 0
for r in btwn_1and3:
    if r < 2:
        count3 += 1
        
print(f'COUNT1/{count1}, COUNT2/{count2}, COUNT3/{count3}')

COUNT1/46, COUNT2/46, COUNT3/46


# 확률

모집단을 가상의 인원그룹으로 가정하자.
이 때, 모집단 인원들의 키와 성별을 특성으로 알 수 있다고 가정하자.
그렇다면 모집단의 키는 연속형 데이터이고 성별은 범주형 자료가 된다.

이 때, 모집단에서 임의로 사람을 선택(샘플)한다고 할 때,
뽑힌 사람의 키와 성별은 어떤 모습으로 나타날까?

모집단의 연속형 데이터 분포에 따라 샘플의 값을 확률적으로 추정해보는 함수를 확률밀도함수(PDF)라 하고,
모집단의 범주형 데이터 분포에 따라 샘플의 값을 확률적으로 추정해보는 함수를 확률질량함수(PMF)라 한다.

우리가 많이 들어본 정규분포라는 것은 확률밀도함수의 특별한 예이다.

---
우리가 모집단의 모든 구성에 대해서 알고 있을 때,
임의추출로 뽑힌 개별 샘플의 데이터 값을 확률적으로 추측해보는 것이 확률이라면,

임의추출로 뽑힌 관측 자료를 바탕으로,
모집단의 구성을 추측해보는 것이 바로 통계적 접근이다.

## 확률 (Probability)
 
## 기대값 (Expectation)

## 분산 (Variance)

## 정규분포 (Normal Distribution)

## 공분산 (Covariance)

## 조건부 확률 (Conditional Probability)

## 독립 (Independence)



# 통계

