# 1. House Sales in King Country, USA

- 사용한 패키지
    - numpy, pandas
    - 통계 : stats, statsmodels.api, ols
    - 기계학습 : sklearn.linear_model, train_test_split
    - 시각화 : matplotlib.pyplot, seaborn

- `df.index += 1`을 통해 데이터프레임 인덱스를 1부터 시작하도록 조정한다.
- `describe()`를 통해 확인할 수 있는 기술 통계값에 더해, 중간값, 결측치, 왜도, 첨도를 추가로 확인한다. 이들 중 치우친 값에 대해 분포를 조정한다.
    - 왜도가 양수로 왼쪽으로 치우친 것에 대해, 자연로그를 활용해 분포를 조정한다.
        - `np.log(df['col']).hist()`
        - 자연로그를 취한 종속변수 분포가 정규분포를 띔 -> 선형회귀 시 자연로그 적용
- `.T` 메서드는 행렬에 대해 transpose를 수행한다.
- `.apply(lambda x: x[0:4])` : 앞의 컬럼을 앞에서부터 4자리만 추출한다.
- 정렬을 이용해 상관관계가 높은 변수들을 편하게 확인 가능

---

- 독립변수들 간 상관관계를 확인해, 상관관계가 높게 나온 변수들의 데이터분포를 `sns.distplot`으로 확인한다.
    - $\to$ 변수들의 분포가 비슷한 것을 확인
    - $\therefore$ 다중공선성이 존재할 경우 이 중 price와 상관관계가 가장 높은 변수 `sqft_living`으로 분석.
    - $\to$ price와 해당 변수를 가지고 단순 선형 회귀 분석 실시
        - 상수항 추가하기 (`X = sm.add_constant(X, has_constant="add")`)

**`summary()`** 함수의 항목별 설명

- Dep. Variable : 종속 변수, 타겟값.
- Model : 학습 모델 / OLS(Ordinary Least Squares), 잔차 제곱합(손실)을 최소로 하는 파라미터를 선택하는 방법
- Method : Least Squares / 잔차 제곱합(손실)을 최소로 하는 파라미터를 선택하는 방법
- No. Observation : 데이터셋 크기
- Df Residuals : 데이터셋 크기 - 추정된 파라미터 수를 뺀 것
- Df Model : 독립 변수의 숫자
- Covariance Type : 공분산 종류 (default: nonrobust)
- R-squared : 결정계수, 모델의 설명력(0~1 사이), 1에 가까울수록 모델의 설명력이 높음
- Adj. R-squared : 조정된 결정계수, 조정된 모델의 설명력
- Std. error : 계수의 표준 오차
- F-statistic : F value
- Prob (F-statistic): p-value
- Log-Likelihood : 최대 로그 우도
- AIC : 모델의 성능지표로 작을수록 좋은 모델
- Coef : 계수값
- P>|t| : p-value (유의수준 0.05보다 작으면 귀무가설 기각)

- `model.resid.plot()`을 통해 잔차를 시각적으로 확인

# 2. 다중 선형 회귀

- 연속형 반응변수 하나, 설명변수 둘 이상.
- 다중공선성 문제(다중 선형회귀에서는 모든 변수에 대해 확인해야 함), 차원의 저주 문제 등 주의.
- 여러가지 분석을 해보고 괜찮은 것을 고르자

---

- 데이터 분포가 비대칭적 $\to$ 반응변수에 자연로그 취해 완화 후 회귀분석.

# 3. 회귀모형의 가정 진단

## 3.1 정규성 검정

- Q-Q 도표 : `sm.qqplot(model.resid, line='s')`
- 잔차 패턴 : `plt.scatter(model.predict(X), model.resid, s=3)`
- 샤피로-윌크 검정 : `stats.shapiro(model.resid)`
    - `stats.shapiro(model.resid)[0]` : F value
    - `stats.shapiro(model.resid)[1]` : p-value

## 3.2 독립성 검정

- 잔차 그래프 : `model.resid.plot()`
- ACF : `sm.graphics.tsa.plot_acf(model.resid)`
    - 0시차 제외, 구간 벗어나는 시차 존재 x이므로 독립성 만족

## 3.3 등분산성

- `sns.distplot(model.resid)`
- `model.resid.plot()`

$\to$ 잔차 그래프를 통해 오차의 등분산성 가정 만족하는지 확인.