## 자기소개
 * University of Missouri, Columbia. 경제학 박사과정 ([LinkedIn](nkedin.com/in/seanjaeseoklee/))
     - 연구주제: 기후경제와 교육경제의 주제들에 관해서 **_불평등 문제_**
     - ["Academic mobility in U.S. public schools: Evidence from nearly 3 million students"](https://doi.org/10.1016/j.jpubeco.2023.105016)
 * 경제금융학부 2015 졸업
 * [취미](https://photos.app.goo.gl/Q8MYyrtTXNLsTiTt8): 낚시, 등산, 산책
 * TMIs: INTJ

## 강의목적
**_경제학적 접근법의 실제적 문제해결_**  
이 강의는 실제적인 경제학적 사고를 실현하는 것을 목표로 하며, 파이썬을 사용하여 실제에 가까운 문제를 해결하는 방법을 배우게 됩니다. 학생들은 이론적 배경과 계량경제학적 방법론에 대한 이해를 바탕으로, 응용 경제학의 문제해결 방법을 경험하게 됩니다. 이 과정에서 개념의 혼동을 방지하기 위해 주로 원문 용어를 사용하고, 평균과 같은 기본적인 통계량의 중요성의 숙달하는 것에 집중합니다.



## 참고자료 소개
 * Mostly Harmless Econometrics ([link](https://www.mostlyharmlesseconometrics.com/))  
 챕터 3까지의 내용에 집중
     * [Joshua Angrist](https://www.nobelprize.org/prizes/economic-sciences/2021/angrist/facts/) **_2021 노벨경제학상 수상_**  
     * [Jörn-Steffen Pischke](https://personal.lse.ac.uk/pischke/)  
    <img src="doc\img\MHE_cover.jpg" width="300" height="400" border="5"/>
 * The Credibility Revolution in Empirical Economics: How Better Research Design Is Taking the Con out of Econometrics ([link](https://www.aeaweb.org/articles?id=10.1257/jep.24.2.3)) **_인과관계 추정의 방법론_**







## Motivation

- ["All models are wrong, but some are useful." - George Box (1976)](https://en.wikipedia.org/wiki/All_models_are_wrong)
- 모델을 세우는 이유는 어떤 질문에 답하기 위해서.
- 운이 좋다면, 모델에 직접 대입 할 수 있는 데이터가 있음.
- 모델을 계량경제학적 방법으로 추정하면, 누구나 인정해야만 하는 결과가 나올 수 도 있음. 소모적인 논쟁을 피하는 방법. 
    - 기계적인 통계량들을 확인해서 문제가 크게 없다면,
    - 경제적인 의미를 담은 결론을 도출 할 수 있다.
    - 모델을 수정해서 가장 적합한 model specification 찾기

- 회귀분석, OLS, Regression, 최소제곱자승법,.. 비슷비슷 하지만 다름.
- OLS: Ordinary Least Square 
    - linear
    - cost function is (y-y_hat)^2
    - under assumptions
        - normal
        - mean 0
    - OLS는 불확실성이 없는? 뻔한? 예측가능한? 방식이기 때문에 헷갈릴 여지가 없는 방식이고 아직도 발전이 이루어지는(?) 모델.
        - 보다 복잡한 모델의 발전방향은 OLS의 조건이 일부 혹은 전부 성립하지 않을 때, OLS 보다 좀 더 나은 결과를 냄. 그러나 OLS의 범용성이 훨씬 더 중요.
    - OLS 결과를 해석하는 법
        1. 모델의 설명력이 존재함을 Wald test로 확인
        1. 모델의 설명력이 적절한 수준인지, Adjusted R2로 확인
        1. 추정치의 크기를 확인.
        1. 추정치가 통계적으로 의미가 있는지 (0이 아닌지) 확인 (t-stat)
- 평균, 분산, Critical value
- 회귀분석의 목적 - 평균적으로 효과가 있는가? 있다면 얼마나 효과가 있는가?
- 자연스럽게 연결되는 그냥 평균을 비교하는 것은?
    - 모델이 쉽게 복잡해짐. 예를 들어, 20대와 30대의 연봉을 비교한다면, 교육정도, 직업군, 지역, 경력기간, 
        - "평균의 평균의 평균의 평균.."
    - OLS를 사용하면 훨씬 간편하게, 관심있는 변수의 영향을 추정 할 수 있음. 예를 들어, '[Cetris paribus](https://en.wikipedia.org/wiki/Ceteris_paribus)' 1 단위의 교육은 소득에 어떤 영향을 주는가.
- .

OLS 결과에 익숙해지기 위해서, point estimate 인 평균과 평균의 통계적 test 방법인 t-stat에 익숙해 지기.


![normal dist](https://currentprotocols.onlinelibrary.wiley.com/cms/asset/d39ab523-dfbe-4589-89ab-28afcbc9e0c1/cpz1801-fig-0005-m.jpg)  
![t-stat](https://www.scribbr.com/wp-content/uploads/2020/08/diff_scores_ci.png)

## 강의구성

 1. Python crash course ([공식 한글튜토리얼](https://docs.python.org/ko/3/tutorial/index.html))
     * 소프트웨어
          * [Google Colab](https://colab.research.google.com/) - 
               파이썬, [Jupyter](https://jupyter.org/) 노트북
               [![IMAGE ALT TEXT HERE](https://i.ytimg.com/an_webp/inN8seMm7UI/mqdefault_6s.webp?du=3000&sqp=CI7Sn68G&rs=AOn4CLCNMslWhrFZKQt4xdwdy-7SmsAXVA)](https://www.youtube.com/watch?v=inN8seMm7UI)

          * [pandas](https://pandas.pydata.org/docs/reference/index.html#api) - 
               엑셀 
          * [numpy](https://numpy.org/doc/stable/reference/index.html#reference) - 
               기본 함수 
          * [statsmodels](https://www.statsmodels.org/stable/api.html) - 
               회귀분석 
          * [matplotlib](https://matplotlib.org/stable/gallery/index.html) - 
               그래프

     * 기본 사용법
          * 덧셈, 갯수 (https://docs.python.org/ko/3/library/functions.html)
               * sum(), count()
          * 평균, 분산, 표준편차
               * numpy.mean(), numpy.var(), numpy.std()
     * 데이터 불러오기
          * pandas.read_excel(), pandas.read_csv(), pandas.read_html()
          * 데이터 신뢰성 확인
               * numpy.isnan() pandas.describe()
          * 변수의 평균, 분산, 표준편차 및 신뢰구간
 1. 예제 - 교육수준과 소득 (Figure 3.1.3, 1980 Census-IPUMS)
 1. 데이터 불러오기
 1. Descriptive statistics - 기초통계량
     * 교육수준 별 임금 - 평균, 표준편차, 신뢰구간
     * CEF 
          * The CEF for a dependent variable $y_i$, given a $k×1$ vector of covariates $X_i$ (with elements $x_ki$), is the expectation, or population average, of $y_i$, with $X_i$ held fixed.
          * For a specific value of $X_i$, say $X_i = x$, we write $E[y_i|X_i = x]$
               * If $y_i$ is discrete, $E[y_i|X_i = x]$ equals the $\sum_t t P(y_i = t|X_i = x)$, where $P(y_i = t|X_i = x)$ is the conditional probability mass function for $y_i$ given $X_i = x$.
               * For continuous $y_i$ with conditional density $f_y (t|X_i = x)$ at $y_i = t$, the CEF is $E[y_i|X_i = x]= \int tfy(t|X_i = x)dt$.
     * Why expectation?  
     Expectation is a population concept. In practice, data usually come in the form of samples and rarely consist of an entire population. We therefore use samples to make inferences about the population. For example, the sample CEF is used to learn about the population CEF. This is necessary and important, but we postpone a discussion of the formal inference step taking us from sample to population until section 3.1.3. Our “population-first” approach to econometrics is motivated by the fact that we must define the objects of interest before we can use data to study them.

 1. Ordinary Least Squared - 단순회귀분석
     * 수학적 노테이션
     * 파이썬으로 기본으로
     * 통계패키지 사용.

 1. OLS 해석  
     어떤 통계량이 필요한지. 어디에 통계량들이 있는지 알아보기.
     결과를 확인하기 전에 모델이 적절한지에 대해서 통계적으로 확인해보기. "All models are wrong, but some are useful." - George Box (1976)
     
     * Obs 샘플 수. 
     * Wald estimator (모델의 적합성)
     * $\bar{R}^2$
     * Coefficients (평균)
          * $ E(Y|X=x) $
          
     * Standard error (표준오차)
          * $ \sqrt{Var(\hat{\beta})} $
     * Confidence Interval (신뢰구간) with $ \alpha = 0.05 $
          * $ [\hat{\beta} - {Crit}_{\alpha = 0.025} * \frac{SE}{\sqrt{obs}}, \hat{\beta} + {Crit}_{\alpha = 0.975} * \frac{SE}{\sqrt{obs}}] $
     
     의미있는 결과로 해석하기
     * 학사학위의 기대 임금 $ E(Y|X=학사O) - E(Y|x=학사X)  $
          * coeff. 는 구할 수있음. 이 coeff.가 통계적으로 의미 있는지는 wald test or t-test
     
 1. Data Visualization - 데이터 시각화
 

### 기본명령어
* 더하기 (Addition)  
    $ x_0 + x_1 + x_2 +...+x_n $  
    or $ \sum (x_0, x_1, x_2,...,x_n) $


In [2]:
addition_1 = 1+2+3
print('Addition 1:', addition_1)

Addition 1: 6


In [3]:
x_0 = 1
x_1 = 2
x_2 = 3
addition_2 = x_0 + x_1 + x_2
print('Addition 2:', addition_2)

Addition 2: 6


In [4]:
vector = [1, 2, 3]
addition_3 = sum(vector)
print('Addition 3:', addition_3)

Addition 3: 6


* 갯수 (Count) [len()](https://docs.python.org/ko/3/library/functions.html#len)  
    $ \vec{x} = (x_0, x_1, x_2,...,x_n) $  
    이라면, 갯수는 $ dim(\vec{x}) = n $


In [2]:
vector = [1,2,3]
print(len(vector))

3


In [9]:
x_0, x_1, x_2 = 4, 5, 6
vector_x = [x_0, x_1, x_2]
print(len(vector_x))

3


* 평균 (Mean)  
    $ E(x) = \frac{1}{n} (x_0 + x_1 + x_2 +...+x_n) $,  
    or $ \frac{1}{n} \sum (x_0, x_1, x_2,...,x_n) $


In [13]:
# 평균
vector = [1,2,3]
mean_1 = sum(vector) / len(vector)
print('Mean 1:', mean_1)

Mean 1: 2.0


In [14]:
import numpy
numpy.mean(vector)

2.0

 * 분산  
   $ \frac{1}{n-1} \sum (x_i - E(x))^2 $  
    Degree of Freedom 조정
 * 표준편차

In [18]:
numpy.var(vector, ddof=1)

1.0

* 신뢰구간
$ [\bar{x} - {Crit}_{alpha}\frac{SD}{\sqrt{n}}, \bar{x} + {Crit}_{alpha}\frac{SD}{\sqrt{n}}] $  
or $ [x_{percentile=0.025} , x_{percentile=0.975} ] $

In [21]:
numpy.std(vector, ddof=1)

1.0

## 데이터 불러오기

* vector 설명
    - 행벡터
    - 열벡터 
* 매트릭스 설명
가로로는 obs
세로로는 sampled space

[data](Untitled-1.ipynb)

In [None]:
import pandas
'tt'
url = r'https://finance.naver.com/item/fchart.naver?code=069500'
url = r'https://www.google.com/finance/quote/000660:KRX'
# tab_0 = pandas.read_html(url, encoding='EUC-KR')
tab_0 = pandas.read_html(url)
tab_0

In [12]:
import pandas, requests
from io import BytesIO
url = 'https://github.com/SheetJS/test_files/raw/master/Attendance.xlsx'
file = BytesIO(requests.get(url).content)
pandas.read_excel(file, engine='openpyxl')

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8
0,Date,Ben \nAshley,Tom Brooks,Jimmy Cooney,Sue \nDaniels,Berlinda Fong,Terry Jones,Angelina Little,Linda Smith
1,2020-10-01 00:00:00,False,True,True,True,True,True,False,True
2,2020-10-02 00:00:00,False,False,False,False,False,False,False,False
3,2020-10-03 00:00:00,False,False,False,False,False,False,False,False
4,2020-10-04 00:00:00,False,False,False,False,False,False,False,False
5,2020-10-05 00:00:00,False,False,False,False,False,False,False,False
6,2020-10-06 00:00:00,False,False,False,False,False,False,False,False
7,2020-10-07 00:00:00,False,False,False,False,False,False,False,False
8,2020-10-08 00:00:00,False,False,False,False,False,False,False,False
9,2020-10-09 00:00:00,False,False,False,False,False,False,False,False


In [11]:
file

<_io.BytesIO at 0x1b38eb9cae0>

In [14]:
column_vector = [[1],[2],[3]]
numpy.mean(column_vector, axis=0)

array([2.])