# 데이터 분석 실무
## 파이썬 라이브러리를 활용해서 통계 기법을 적용한 데이터 분석을 배우는 과정입니다.

#### 회귀분석1 : 마케팅 데이터 분석(단순회귀분석)

* 지금부터 간단한 예시코드를 중심으로 데이터 분석 실습을 진행하겠습니다.

* 마케팅 데이터에서 변수간 상관분석을 위한 가상 데이터셋을 만들어보겠습니다.
* A 제조기업에서는 서비스별 마케팅 관련 데이터를 수집하고 있습니다. 여러 변수를 수집하고 있는데요. 그 중 광고가 판매량에 미치는 영향에 대해 궁금합니다.

    * Advertising: 광고 노출
    * Sales: 판매량

##### 0. 필요 라이브러리 불러오기

In [None]:
import pandas as pd
import numpy as np
import statsmodels.api as sm

##### 1. 데이터 생성

In [None]:
# 마케팅 데이터를 포함한 데이터프레임 생성
np.random.seed(0)

# Advertising 데이터 생성
advertising = np.random.normal(50, 10, 100)
# 종속 변수 (영향을 받는 변수)
sales = 50 + 0.3 * advertising + 0.7 + np.random.normal(0, 10, 100)

# 데이터프레임 생성
data = pd.DataFrame({
    'Advertising': advertising,
    'Sales': sales,
})

##### 2. 독립변수/종속변수 설정

In [None]:
# 독립 변수와 종속 변수 설정
X = data['Advertising']  # 광고 예산
y = data['Sales']  # 판매량

##### 3. 상수항 추가
* 상수항은 회귀분석 모델에서 상수항 또는 절편(intercept)을 의미합니다. 이는 독립 변수가 0일 때 종속 변수의 값을 나타내는데, 회귀분석 모델은 일반적으로 독립 변수의 값을 통해 종속 변수의 값을 예측하고 설명하는 것이 목적입니다.
* 즉 모델의 기준이 되어주는 변수를 추가해주는거라고 이해하시면 좀 더 쉽습니다.
* 일반적으로 회귀분석 모델에는 상수항을 추가하여 독립 변수와 종속 변수 간의 관계를 더 정확하게 모델링하는 것이 일반적입니다.

In [None]:
# 상수항 추가
X = sm.add_constant(X)

##### 4. 회귀식 산출

In [None]:
# 단순 선형 회귀 모델 적합
model = sm.OLS(y, X)
results = model.fit()

##### 5. 모델 결과 출력

In [None]:
# 결과 출력
print(results.summary())

#### 회귀분석2 : 마케팅 데이터 분석(다중회귀분석)

* 지금부터 간단한 예시코드를 중심으로 데이터 분석 실습을 진행하겠습니다.

* 마케팅 데이터에서 변수간 상관분석을 위한 가상 데이터셋을 만들어보겠습니다.
* A 제조기업에서는 서비스별 마케팅 관련 데이터를 수집하고 있습니다. 여러 변수를 수집하고 있는데요. 광고와 웹 트래픽, 소셜미디어 업로드 수가 판매량에 미치는 영향이 궁금합니다.

    * Advertising: 광고 노출
    * Sales: 판매량
    * Website_Traffic: 웹사이트 내 서비스 페이지 트래픽
    * Social_Media: 소셜미디어 업로드 수

##### 0. 필요 라이브러리 불러오기

In [None]:
import numpy as np
import pandas as pd
import statsmodels.api as sm

##### 1. 데이터 생성

In [None]:
# 마케팅 데이터를 포함한 데이터프레임 생성
np.random.seed(0)

# Advertising 데이터 생성
advertising = np.random.normal(50, 10, 100)
# Website_Traffic 데이터 생성
website_traffic = np.random.normal(1000, 200, 100)
# Social_Media 데이터 생성
social_media = np.random.normal(500, 100, 100)
# 종속 변수 (영향을 받는 변수)
sales = 50 + 0.3 * advertising + 0.7 * website_traffic + 0.2 * social_media + np.random.normal(0, 10, 100)

# 데이터프레임 생성
data = pd.DataFrame({
    'Advertising': advertising,
    'Sales': sales,
    'Website_Traffic': website_traffic,
    'Social_Media': social_media,
})

##### 2. 독립변수/종속변수 설정

In [None]:
# 독립 변수와 종속 변수 분리
X = data[['Advertising', 'Website_Traffic', 'Social_Media']]
y = data['Sales']

##### 3. 상수항 추가
* 상수항은 회귀분석 모델에서 상수항 또는 절편(intercept)을 의미합니다. 이는 독립 변수가 0일 때 종속 변수의 값을 나타내는데, 회귀분석 모델은 일반적으로 독립 변수의 값을 통해 종속 변수의 값을 예측하고 설명하는 것이 목적입니다.
* 즉 모델의 기준이 되어주는 변수를 추가해주는거라고 이해하시면 좀 더 쉽습니다.
* 일반적으로 회귀분석 모델에는 상수항을 추가하여 독립 변수와 종속 변수 간의 관계를 더 정확하게 모델링하는 것이 일반적입니다.

In [None]:
# 상수항 추가
X = sm.add_constant(X)

##### 4. 회귀식 산출

In [None]:
# 다중 회귀분석 모델 학습
model = sm.OLS(y, X)
results = model.fit()

##### 5. 모델 결과 출력

In [None]:
# 회귀분석 결과 출력
print(results.summary())

##### 6. 다중공선성 확인

In [None]:
from statsmodels.stats.outliers_influence import variance_inflation_factor

# VIF 계산
vif = pd.DataFrame()
vif["Feature"] = X.columns
vif["VIF"] = [variance_inflation_factor(X.values, i) for i in range(X.shape[1])]

# VIF 결과 출력
print(vif)