# 학습목표
- 선형 회귀 모델을 사용하여 교통량 데이터를 학습하고 예측하는 방법을 익힌다.
- 학습 데이터와 테스트 데이터를 나누는 방법을 이해한다.
- R² 점수를 사용하여 모델의 예측 성능을 평가하는 방법을 배운다.   

# 학습 개념  
선형 회귀 모델은 주어진 데이터를 기반으로 독립 변수(X)와 종속 변수(y) 간의 선형 관계를 학습하여 예측을 수행합니다. 이 모델은 새로운 입력값을 주었을 때, 기존 학습 데이터를 바탕으로 가장 적합한 선을 찾아 예측 결과를 반환합니다. scikit-learn의 LinearRegression 클래스를 사용하면 손쉽게 모델을 정의하고 학습할 수 있으며, 학습 데이터를 분할하는 train_test_split 함수와 함께 사용할 수 있습니다. 또한, R² 점수는 모델이 데이터를 얼마나 잘 설명하는지를 나타내는 지표로, 성능 평가에 사용됩니다.  

1.    데이터 불러오기: pandas를 사용하여 엑셀 데이터를 로드하고, '일자' 컬럼을 날짜 형식으로 변환하세요.
2.    데이터 가공: '일자'를 이용해 요일을 계산하고, 특정 지점('성산로(금화터널)')과 방향('유입') 데이터를 필터링하세요.
3.    특징과 목표 변수 설정: 요일을 독립 변수(X), '0시' 교통량을 종속 변수(y)로 설정하세요.
4.    모델 학습: 학습용 데이터와 테스트 데이터를 8:2 비율로 나누고, 선형 회귀 모델을 학습하세요.
5.  모델 평가: 테스트 데이터를 사용해 모델의 R² 점수를 계산하고 출력하세요.

In [170]:
# pip install openpyxl
# pip은 bash창에서 설치하는 거

import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

In [171]:
# 1. 데이터 불러오기
# pandas로 엑셀 데이터를 불러옵니다.
# file_path는 불러올 엑셀 파일의 경로입니다.
# sheet_name은 불러올 시트의 이름을 지정하는데, 여기서는 '2023년 01월' 데이터를 가져옵니다.
# 참고: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html

file_path = '../data/2023년 01월 서울시 교통량.xlsx'
data = pd.read_excel(file_path, sheet_name="2023년 01월")

# 데이터를 살펴보면 현재 일자와 요일이 일치하지 않습니다. 그렇기 때문에 일자 칼럼을 이용하여 요일을 다시 계산해야 합니다.

In [172]:
data.head()

Unnamed: 0,일자,요일,지점명,지점번호,방향,구분,0시,1시,2시,3시,...,14시,15시,16시,17시,18시,19시,20시,21시,22시,23시
0,20230101,일,성산로(금화터널),A-01,유입,봉원고가차도->독립문역,564.0,414.0,268.0,208.0,...,1388.0,1370.0,1322.0,1263.0,979.0,875.0,785.0,824.0,552.0,421.0
1,20230102,월,성산로(금화터널),A-01,유입,봉원고가차도->독립문역,294.0,190.0,146.0,134.0,...,1459.0,1571.0,1566.0,1792.0,1582.0,1248.0,997.0,973.0,872.0,616.0
2,20230103,화,성산로(금화터널),A-01,유입,봉원고가차도->독립문역,419.0,271.0,203.0,177.0,...,1663.0,1678.0,1711.0,1851.0,1697.0,1265.0,1081.0,1090.0,883.0,757.0
3,20230104,수,성산로(금화터널),A-01,유입,봉원고가차도->독립문역,502.0,335.0,247.0,192.0,...,1679.0,1798.0,1719.0,1807.0,1679.0,1240.0,1112.0,1069.0,909.0,769.0
4,20230105,목,성산로(금화터널),A-01,유입,봉원고가차도->독립문역,523.0,334.0,235.0,196.0,...,1530.0,1627.0,1805.0,1798.0,1770.0,1289.0,1152.0,1111.0,1030.0,756.0


In [173]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8618 entries, 0 to 8617
Data columns (total 30 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   일자      8618 non-null   int64  
 1   요일      8618 non-null   object 
 2   지점명     8618 non-null   object 
 3   지점번호    8618 non-null   object 
 4   방향      8618 non-null   object 
 5   구분      8618 non-null   object 
 6   0시      6589 non-null   float64
 7   1시      6588 non-null   float64
 8   2시      6584 non-null   float64
 9   3시      6569 non-null   float64
 10  4시      6567 non-null   float64
 11  5시      6566 non-null   float64
 12  6시      6569 non-null   float64
 13  7시      6570 non-null   float64
 14  8시      6572 non-null   float64
 15  9시      6576 non-null   float64
 16  10시     6581 non-null   float64
 17  11시     6588 non-null   float64
 18  12시     6587 non-null   float64
 19  13시     6587 non-null   float64
 20  14시     6592 non-null   float64
 21  15시     6592 non-null   float64
 22  

# 2. '일자' 컬럼을 datetime 형식으로 변환

```data['일자'] = pd.to_datetime(data['일자'], format = '%Y%m%d')```
format = '%Y%m%d'로 설정해주지 않으면 1970-01-01 00:00:00.020230101 < 처럼 이상하게 설정됨

- to_datetime: int-> datatime64로 바꿔주고
- format = '%Y%m%d'는 1970-01-01 깔끔한 형식으로 바꿔줌


In [174]:
# 2. '일자' 컬럼을 datetime 형식으로 변환
# 이를 datetime 형식으로 변환하면 날짜 관련 작업이 더 쉬워집니다.
# pandas의 to_datetime 함수를 사용하여 '일자' 데이터를 날짜 형식으로 변환합니다.
# (참고: '일자' 컬럼은 날짜를 나타내는 값인데, 이 컬럼의 각 값들은 정수 형식(YYYYMMDD)으로 되어 있습니다.)
# 정수 형식에 대한 format을 선언해줘야 합니다.
# 해주지 않으면 1970-01-01 00:00:00.020230101와 같은 형식으로 표현됩니다.
# 참고: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.to_datetime.html
data['일자'] = pd.to_datetime(data['일자'], format = '%Y%m%d')

In [175]:
data.head()

Unnamed: 0,일자,요일,지점명,지점번호,방향,구분,0시,1시,2시,3시,...,14시,15시,16시,17시,18시,19시,20시,21시,22시,23시
0,2023-01-01,일,성산로(금화터널),A-01,유입,봉원고가차도->독립문역,564.0,414.0,268.0,208.0,...,1388.0,1370.0,1322.0,1263.0,979.0,875.0,785.0,824.0,552.0,421.0
1,2023-01-02,월,성산로(금화터널),A-01,유입,봉원고가차도->독립문역,294.0,190.0,146.0,134.0,...,1459.0,1571.0,1566.0,1792.0,1582.0,1248.0,997.0,973.0,872.0,616.0
2,2023-01-03,화,성산로(금화터널),A-01,유입,봉원고가차도->독립문역,419.0,271.0,203.0,177.0,...,1663.0,1678.0,1711.0,1851.0,1697.0,1265.0,1081.0,1090.0,883.0,757.0
3,2023-01-04,수,성산로(금화터널),A-01,유입,봉원고가차도->독립문역,502.0,335.0,247.0,192.0,...,1679.0,1798.0,1719.0,1807.0,1679.0,1240.0,1112.0,1069.0,909.0,769.0
4,2023-01-05,목,성산로(금화터널),A-01,유입,봉원고가차도->독립문역,523.0,334.0,235.0,196.0,...,1530.0,1627.0,1805.0,1798.0,1770.0,1289.0,1152.0,1111.0,1030.0,756.0


In [176]:
data.info()
#int형에서 datatime64형으로 바뀐걸 볼 수 있다

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8618 entries, 0 to 8617
Data columns (total 30 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   일자      8618 non-null   datetime64[ns]
 1   요일      8618 non-null   object        
 2   지점명     8618 non-null   object        
 3   지점번호    8618 non-null   object        
 4   방향      8618 non-null   object        
 5   구분      8618 non-null   object        
 6   0시      6589 non-null   float64       
 7   1시      6588 non-null   float64       
 8   2시      6584 non-null   float64       
 9   3시      6569 non-null   float64       
 10  4시      6567 non-null   float64       
 11  5시      6566 non-null   float64       
 12  6시      6569 non-null   float64       
 13  7시      6570 non-null   float64       
 14  8시      6572 non-null   float64       
 15  9시      6576 non-null   float64       
 16  10시     6581 non-null   float64       
 17  11시     6588 non-null   float64       
 18  12시     

# 3. 날짜를 기반으로 요일을 자동으로 계산


In [177]:
# 3. 날짜를 기반으로 요일을 자동으로 계산
# 요일이 정수로 변환되면 학습 모델에서 이를 숫자형 데이터로 처리할 수 있습니다.
# datetime 형식으로 변환된 '일자' 컬럼을 기반으로 요일을 계산합니다.
# dt.weekday는 '월요일'=0, '일요일'=6을 반환하므로, +1을 해주어 '월요일'=1, '일요일'=7로 변환합니다.
# 참고: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.dt.html
data['요일'] = data['일자'].dt.weekday + 1

In [178]:
data.head()

Unnamed: 0,일자,요일,지점명,지점번호,방향,구분,0시,1시,2시,3시,...,14시,15시,16시,17시,18시,19시,20시,21시,22시,23시
0,2023-01-01,7,성산로(금화터널),A-01,유입,봉원고가차도->독립문역,564.0,414.0,268.0,208.0,...,1388.0,1370.0,1322.0,1263.0,979.0,875.0,785.0,824.0,552.0,421.0
1,2023-01-02,1,성산로(금화터널),A-01,유입,봉원고가차도->독립문역,294.0,190.0,146.0,134.0,...,1459.0,1571.0,1566.0,1792.0,1582.0,1248.0,997.0,973.0,872.0,616.0
2,2023-01-03,2,성산로(금화터널),A-01,유입,봉원고가차도->독립문역,419.0,271.0,203.0,177.0,...,1663.0,1678.0,1711.0,1851.0,1697.0,1265.0,1081.0,1090.0,883.0,757.0
3,2023-01-04,3,성산로(금화터널),A-01,유입,봉원고가차도->독립문역,502.0,335.0,247.0,192.0,...,1679.0,1798.0,1719.0,1807.0,1679.0,1240.0,1112.0,1069.0,909.0,769.0
4,2023-01-05,4,성산로(금화터널),A-01,유입,봉원고가차도->독립문역,523.0,334.0,235.0,196.0,...,1530.0,1627.0,1805.0,1798.0,1770.0,1289.0,1152.0,1111.0,1030.0,756.0


# 4. 데이터 필터링


In [179]:
# 4. 데이터 필터링
# '성산로(금화터널)' 지점에서 '유입' 방향으로 들어오는 데이터만을 선택합니다.
# 데이터를 먼저 필터링하여 분석에 필요한 데이터만 남깁니다.
# Boolean indexing을 사용하여 조건에 맞는 데이터만 필터링할 수 있습니다.
# 예: filtered_data = 데이터프레임[데이터프레임['컬럼명'] == '값' & 데이터프레임['컬럼명'] == '값']
# 참고: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#boolean-indexing
filtered_data = data[ (data['지점명'] == '성산로(금화터널)') & (data['방향'] == '유입') ]

In [180]:
filtered_data.head()

Unnamed: 0,일자,요일,지점명,지점번호,방향,구분,0시,1시,2시,3시,...,14시,15시,16시,17시,18시,19시,20시,21시,22시,23시
0,2023-01-01,7,성산로(금화터널),A-01,유입,봉원고가차도->독립문역,564.0,414.0,268.0,208.0,...,1388.0,1370.0,1322.0,1263.0,979.0,875.0,785.0,824.0,552.0,421.0
1,2023-01-02,1,성산로(금화터널),A-01,유입,봉원고가차도->독립문역,294.0,190.0,146.0,134.0,...,1459.0,1571.0,1566.0,1792.0,1582.0,1248.0,997.0,973.0,872.0,616.0
2,2023-01-03,2,성산로(금화터널),A-01,유입,봉원고가차도->독립문역,419.0,271.0,203.0,177.0,...,1663.0,1678.0,1711.0,1851.0,1697.0,1265.0,1081.0,1090.0,883.0,757.0
3,2023-01-04,3,성산로(금화터널),A-01,유입,봉원고가차도->독립문역,502.0,335.0,247.0,192.0,...,1679.0,1798.0,1719.0,1807.0,1679.0,1240.0,1112.0,1069.0,909.0,769.0
4,2023-01-05,4,성산로(금화터널),A-01,유입,봉원고가차도->독립문역,523.0,334.0,235.0,196.0,...,1530.0,1627.0,1805.0,1798.0,1770.0,1289.0,1152.0,1111.0,1030.0,756.0


# 5. 피처와 타깃 값 설정

1. 우선 NaN값을 없애준다
```
data = fetch_california_housing()

X = pd.DataFrame(data.data, columns=data.feature_names)  # 독립 변수(특징 데이터)

y = data.target  # 종속 변수 (중간 주택 가격)
```

In [181]:
# 5. 피처와 타깃 값 설정
# '요일'을 독립 변수로, '0시' 교통량을 종속 변수로 설정합니다.
# 참고: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html
data = data.dropna()


X = data[['요일']]
y = data['0시']


In [182]:
y.info()

<class 'pandas.core.series.Series'>
Index: 6520 entries, 0 to 8617
Series name: 0시
Non-Null Count  Dtype  
--------------  -----  
6520 non-null   float64
dtypes: float64(1)
memory usage: 101.9 KB


In [183]:
print(data['0시'].isna().sum())      # '0시'에 있는 NaN 개수


0


In [184]:
X.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6520 entries, 0 to 8617
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   요일      6520 non-null   int32
dtypes: int32(1)
memory usage: 76.4 KB


# 6. 학습 데이터와 테스트 데이터 분할
```train_test_split```

In [185]:
# 6. 학습 데이터와 테스트 데이터 분할
# 학습 데이터와 테스트 데이터를 나누는 함수로 train_test_split을 사용합니다.
# 참고: https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42
)


# 7. 선형 회귀 모델 정의 및 학습
LinearRegression 모델을 불러오고

이 모델 안에 학습데이터train 넣어주기

In [186]:
# 7. 선형 회귀 모델 정의 및 학습
# scikit-learn의 LinearRegression 모델을 사용하여 학습 데이터를 학습시킵니다.
# 참고: https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html
model = LinearRegression()
model.fit(X_train, y_train) #모델에는 X랑 y의 train 데이터 넣어주기 - 학습


y_pred = model.predict(X_test) #X_test로 모델 예측 수행하기


# 8. 모델 평가
```from sklearn.metrics import r2_score```


In [187]:
# 8. 모델 평가
# 학습된 모델을 평가하기 위해 R² 점수를 사용합니다. 1에 가까울수록 좋은 성능을 의미합니다.
# scikit-learn의 score() 함수는 기본적으로 R² 점수를 반환합니다.
# 참고: https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegression.score

from sklearn.metrics import r2_score

r2 = r2_score(y_test, y_pred)
print(f"R²: {r2}")

R²: 0.012180076969120934
