In [1]:
import pandas as pd

In [None]:
raw_data_train = pd.read_csv('train.csv')
raw_data_test = pd.read_csv('test.csv')
raw_data_submission = pd.read_csv('sample_submission.csv')

In [None]:
# 원본 데이터 복사하여 train, test, submission 데이터셋 생성
# => 원본 데이터를 보존하면서 독립적으로 작업

train = raw_data_train.copy()
test = raw_data_test.copy()
submission = raw_data_submission.copy()

In [None]:
train.head()

In [None]:
# train 데이터의 피처 목록 확인
train.columns

In [None]:
# train 데이터 결측치 확인하기 (isna)
train.isna()
train.isnull()

# 위의 isna, isnull 함수와 반대로 동작
train.notnull()

In [None]:
# isnull().sum() => 결측값 (missing value)의 개수 확인
train.isnull().sum()

In [None]:
# train 데이터의 결측치가 아닌 값의 개수 확인
train.notnull().sum()

## 결측치가 제거된 train_dropna 데이터셋 생성

In [None]:
# 결측치가 제거된 train_dropna 데이터셋 생성
# => dropna : 결측치가 포함된 행을 삭제
# => 결측치가 포함된 행을 삭제하면 데이터셋의 크기가 줄어들기 때문에, 이에 따른 모델의 성능 변화도 고려해야 한다.
#    이외에도 다양한 결측치 처리 방법이 존재하므로, 상황에 맞는 적절한 결측치 처리 방법을 선택하는 것이 중요

train_dropna = train.dropna()

In [None]:
# train_dropna 데이터셋의 피처(feature)별 결측치 개수 확인
train_dropna.isnull().sum()

In [None]:
# 데이터셋의 크기 확인
train_dropna.shape

In [None]:
# 결측치를 0으로 채운 train_fill 데이터셋 생성
train_fill = train.fillna(0)

## 회귀분석을 위한 표현식(Formula) 작성하기
- 문자형 변수는 텍스트 형태의 데이터로 구성되어 있어서, 회귀분석에서 바로 사용하기 어렵다.
- 문자형 변수를 사용하려면 이를 수치형으로 변환하는 과정이 필요하다.
- 하지만, 문자형 변수를 수치형으로 변환하는 방법에 따라 결과가 크게 달라질 수 있기 때문에, 문자형 변수의 변환 작업은 상당히 중요한 과정이다.

- 현재는, 문자형 변수를 무시하고 수치형 데이터만 사용하여 회귀분석 모델을 구성할 것

In [None]:
formula = """
box_off_num ~ time + dir_prev_bfnum + dir_prev_num + num_staff + num_actor
"""

## 영화 관객 수 회귀분석 모델 정의 및 학습하기
- sm.OLF.from_formula() 메서드를 사용하여 선형 회귀 모델 생성
- OLS(Ordinary Least Squares)는 잔차제곱합(RSS: Residual Sum of Squares)을 최소화하는 방식.

In [None]:
import statsmodels.api as sm

model = sm.OLS.from_formula(formula, data=train)
model = model.fit()

In [None]:
# 학습 결과를 여러가지 통계 수치를 통해 확인
# - R-squared (결정 계수) : 이 수치는 0과 1사이의 값으로, 우리 모델이 얼마나 데이터를 잘 설명하는지 나타낸다.
# - coef (계수) : 각 피쳐의 기울기. 이를 통해 피처가 타겟 변수에 얼마나 영향을 주는지 알 수 있다.

model.summary()

## 영화 관객 수 모델 예측 결과 확인

In [None]:
predict = model.predict(test)
predict.head()