# Homework #6

- Date: 2024.04.28
- Due Date: 2024.05.01

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

### Package Install

- conda activate palette-basic
- pip install statsmodels
- pip install plotly

### 기본사용

- 추세선은 Scatter Plot과 함께 사용됩니다.

In [1]:
import plotly.express as px

# 데이터 불러오기
df = px.data.tips()

#그래프 그리기
fig = px.scatter(df, x="total_bill", y="tip", trendline="ols")

fig.show()

- trendline = {"ols", "lowess", "rolling", "ewm", "expanding" } 추세선의 종류를 선택합니다.
    - ols : ordinary least square의 약자로 최소자승법으로 회귀 모델
    - lowess : locally weighted scatterplot smoothing
    - rolling : 기본 이동 평균선
    - expanding : Cumulative 이동 평균선
    - ewm : exponentially weighted 이동평균선

Color 를 통해 범주형 데이터를 분류하면 각 범주 별 추세선을 각각 추가합니다.

In [2]:
df = px.data.tips()
fig = px.scatter(df, x="total_bill", y="tip", color="sex", trendline="ols")

fig.show()

만약 Color로 범주형 데이터를 분류하고 추세선은 전체 데이터를 활용해서 구분하고 싶다면 trendline_scope="overall" 로 지정합니다.

In [3]:
df = px.data.tips()
fig = px.scatter(df, x="total_bill", y="tip", color="sex", trendline="ols",trendline_scope="overall")

fig.show()

### 추세선 결과 Table 보기
- 추세선인 포함되어 그려진 Figure 객체를 활용해서 여러가지 지표가 포함되어 있는 결과테이블 조회가 가능합니다.

In [4]:
results = px.get_trendline_results(fig)
results.px_fit_results.iloc[0].summary()

0,1,2,3
Dep. Variable:,y,R-squared:,0.457
Model:,OLS,Adj. R-squared:,0.454
Method:,Least Squares,F-statistic:,203.4
Date:,"Sun, 12 May 2024",Prob (F-statistic):,6.69e-34
Time:,21:39:29,Log-Likelihood:,-350.54
No. Observations:,244,AIC:,705.1
Df Residuals:,242,BIC:,712.1
Df Model:,1,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,0.9203,0.160,5.761,0.000,0.606,1.235
x1,0.1050,0.007,14.260,0.000,0.091,0.120

0,1,2,3
Omnibus:,20.185,Durbin-Watson:,1.811
Prob(Omnibus):,0.0,Jarque-Bera (JB):,37.75
Skew:,0.443,Prob(JB):,6.35e-09
Kurtosis:,4.711,Cond. No.,53.0


### OLS 로그 함수로 피팅하기
- trendline_options=dict(log_x=True) 로 설정하면 로그 함수로 피팅을 합니다.

In [5]:
df = px.data.gapminder(year=2007)
fig = px.scatter(df, x="gdpPercap", y="lifeExp", trendline="ols", trendline_options=dict(log_x=True))

fig.show()

### Locally Weighted Scatterplot Smoothing (LOWESS)
- LOWESS 추세선은 Local regression 또는r local polynomial regression 이라고 불리며 ols 와 moving average를 generalization 한 추세선 방법입니다. 자세한 설명은 해당 링크를 통해 확인 가능합니다.
- trendline="lowess" 로 설정합니다.

In [6]:
df = px.data.stocks(datetimes=True)
fig = px.scatter(df, x="date", y="GOOG", trendline="lowess")

fig.show()

위에 그래프는 너무 추세가 뭉게져서 나온 느낌입니다. 이럴경우 LOWESS 의 smoothing 정도를 변경하여 수정이 가능합니다.

In [10]:
df = px.data.stocks(datetimes=True)
fig = px.scatter(df, x="date", y="GOOG", trendline="lowess", trendline_options=dict(frac=0.1))

fig.show()

trendline_options=dict(frac=0.1) : frac 을 0.1로 낮춰 좀 더 Local 범위에 유사하게 추종할수 있게 수정하였습니다. (디폴트 frac = 0.666)

## 이동 평균선
### 기본 이동평균선
- trendline : "rolling" 으로 설정합니다.
- trendline_options : 평균을 구할 window size를 설정합니다. .

In [13]:
df = px.data.stocks(datetimes=True)
fig = px.scatter(df, x="date", y="GOOG", trendline="rolling", trendline_options=dict(window=5))

fig.show()

### exponentially weighted 이동평균선
- trendline : "ewm" 으로 설정합니다.
- trendline_options : 반감기(halflife) 를 설정합니다.

In [14]:
df = px.data.stocks(datetimes=True)
fig = px.scatter(df, x="date", y="GOOG", trendline="ewm", trendline_options=dict(halflife=2))

fig.show()

## Cumulative 이동 평균선
- trendline : "expanding" 으로 설정합니다.

In [15]:
df = px.data.stocks(datetimes=True)
fig = px.scatter(df, x="date", y="GOOG", trendline="expanding")

fig.show()

## 추세선만 그리기
- fig.data 의 mode 가 lines 인 것만 남기는 코드를 추가합니다.

In [19]:
df = px.data.stocks(indexed=True, datetimes=True)
px.scatter(df, trendline="rolling", trendline_options=dict(window=5),
           title="5-point moving average")

In [20]:
df = px.data.stocks(indexed=True, datetimes=True)
fig = px.scatter(df, trendline="rolling", trendline_options=dict(window=5),
                title="5-point moving average")

In [22]:
fig.data = [t for t in fig.data if t.mode == "lines"]

fig.update_traces(showlegend=True) 
fig.show()