#### 회귀 분석(단순 선형, 다중 선형회귀 분석)

In [2]:
"""
회귀 분석은 수치형 변수 간의 관계 또는 원인과 결과 관계를 예측하는데 사용
상관 계수 - 변수간의 강도와 방향을 측정하는 계수로 두 변수 간의 선형적인 관계가 
어느정도 강한지를 나타냄.
"""

import pandas as pd
from scipy import stats

# 주어진 데이터
data = {
    '키': [150, 160, 170, 175, 165],
    '몸무게': [42, 50, 70, 64, 56]
}
df = pd.DataFrame(data)

# 상관계수 계산
correlation = df.corr()

print(correlation)

import pandas as pd

# 주어진 데이터
data = {
    '키': [150, 160, 170, 175, 165],
    '몸무게': [42, 50, 70, 64, 56]
}
df = pd.DataFrame(data)

# 상관계수 계산
correlation = df.corr()

print(correlation)

print(correlation.iloc[0,1])

print(df['키'].corr(df['몸무게']))
print(df['몸무게'].corr(df['키']))

# 피어슨 상관계수 (기본값)
print(df.corr())

# t-검정
t_statistic, p_value = stats.ttest_ind(df['키'], df['몸무게'])
print("t-statistic:", t_statistic)
print("p-value:", p_value)

            키       몸무게
키    1.000000  0.919509
몸무게  0.919509  1.000000
            키       몸무게
키    1.000000  0.919509
몸무게  0.919509  1.000000
0.9195090879163764
0.9195090879163765
0.9195090879163765
            키       몸무게
키    1.000000  0.919509
몸무게  0.919509  1.000000
t-statistic: 16.397410102163175
p-value: 1.92825636508716e-07


#### 단순 선형 회귀 분석

In [16]:
"""
# 독립변수 1개와 종속 변수 1개로 이루어짐
# 키가 몸무게에 미치는 영향을 분석해서 회귀 모델 구축
# statsmodels.formula.api -> ols(formula, data).fit()
# '~' 독립변수 ~ 종속변수 
"""

import pandas as pd

data = {
    '키': [150, 160, 170, 175, 165, 155, 172, 168, 174, 158,
          162, 173, 156, 159, 167, 163, 171, 169, 176, 161],
    '몸무게': [42, 50, 70, 64, 56, 48, 68, 60, 65, 52,
            54, 67, 49, 51, 58, 55, 69, 61, 66, 53]
}
df = pd.DataFrame(data)

# 단순 선형 회귀 모델 구축
from statsmodels.formula.api import ols

model = ols('키 ~ 몸무게', data=df).fit()
print(model.summary())

print("결정계수:", model.rsquared)

# 회귀 계수
print("회귀계수:", model.params)
print("기울기:", model.params["몸무게"])
print("절편:", model.params["Intercept"])

print("pvalue:", model.pvalues['몸무게'])  #지수 표기법
# print("pvalue:", "{:.10f}".format(model.pvalues['몸무게']))
print(f"pvalue: {model.pvalues['몸무게']:.10f}") #일반 표기법

import pandas as pd
from statsmodels.formula.api import ols

# 회귀 모델을 사용해 몸무게가 67일때의 예측 키 구하기
new_df = pd.DataFrame({'몸무게':[60]})
result = model.predict(new_df)
print("몸무게가 60일때의 예측 키:", result[0])

# 잔차 제곱합 (잔차: 실제값 - 예측값)
df['잔차'] = df['키'] - model.predict(df)
# print(sum(df['잔차']**2))
print((df['잔차']**2).sum())

# 평균 제곱 오차
df['잔차'] = df['키'] - model.predict(df)
mse = (df['잔차']**2).mean()
print("MSE:", mse)

# sklearn 모델로 성능 평가
from sklearn.metrics import mean_squared_error

pred = model.predict(df['몸무게'])
mse = mean_squared_error(df['키'], pred)
print("MSE:", mse)

                            OLS Regression Results                            
Dep. Variable:                      키   R-squared:                       0.892
Model:                            OLS   Adj. R-squared:                  0.886
Method:                 Least Squares   F-statistic:                     148.0
Date:                Mon, 18 Nov 2024   Prob (F-statistic):           4.04e-10
Time:                        07:52:13   Log-Likelihood:                -45.761
No. Observations:                  20   AIC:                             95.52
Df Residuals:                      18   BIC:                             97.51
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept    115.0676      4.158     27.671      0.0

#### 다중 선형 회귀 분석(Multiple Linear Regression)

In [23]:
"""
# 2개 이상의 독립변수와 하나의 종속 변수 간의 관계를 분석하는 방법
# statsmodels.formula.api -> ols(formula, data).fit()
# formula = 종속변수 ~ 독립변수 + 독립변수
# 독립변수 - 광고비, 직원수, 종속 변수 - 매출액
"""

import pandas as pd
data = {
    '매출액': [300, 320, 250, 360, 315, 328, 310, 335, 326, 280,
            290, 300, 315, 328, 310, 335, 300, 400, 500, 600],
    '광고비': [70, 75, 30, 80, 72, 77, 70, 82, 70, 80,
            68, 90, 72, 77, 70, 82, 40, 20, 75, 80],
    '직원수': [15, 16, 14, 20, 19, 17, 16, 19, 15, 20,
            14, 5, 16, 17, 16, 14, 30, 40, 10, 50]
    }
df = pd.DataFrame(data)
# print(df.head(3))

# 회귀 모델 구축 및 평가가
from statsmodels.formula.api import ols

formula = "매출액 ~ 광고비 + 직원수"
model = ols(formula, data=df).fit()
print(model.summary())

# # 광고비와 매출액의 상관 계수
# print("상관계수:", df['광고비'].corr(df['매출액']))

# # 직원수와 매출액의 상관 계수
# print("상관계수:", df['직원수'].corr(df['매출액']))

# # t-검정
# from scipy import stats

# # t_statistic, p_value = stats.ttest_ind(df['광고비'], df['매출액'])
# t_statistic, p_value = stats.pearsonr(df['광고비'], df['매출액'])
# print("t-statistic:", t_statistic)
# print("p-value:", p_value)

# 회귀 모델의 결정 계수
print("결정계수(R2):", model.rsquared)

# 회귀 모델의 회귀 계수 - 기울기와 절편
print("회귀계수:\n", model.params)

# 광고비의 회귀 계수가 통계적으로 유의한지 검정
print("pvalue", model.pvalues['광고비'])

# MSE
df['잔차'] = df['매출액'] - model.predict(df)
mse = (df['잔차']**2).mean()
print("MSE:", mse)

# 광고비 50, 직원 수 20인 데이터가 있을때 예상 매출액 구하기
new_df = pd.DataFrame({
    '광고비': [50],
    '직원수': [20]
})

result = model.predict(new_df)
print("예상 매출액:", round(result[0]))

# 각 변수별 95% 신뢰 구간 계산
# print("95% 신뢰구간:", model.conf_int(alpha=0.05))

# # 광고비 45, 직원 수 22일때 95% 신뢰구간과 예측 구간 계산
# new_df = pd.DataFrame({
#     '광고비': [45],
#     '직원수': [22]
# })

# # 예측값
# pred = model.get_prediction(new_df)
# print(pred)
# # 신뢰구간, 예측구간
# result = pred.summary_frame(alpha=0.05)
# print("예측값의 신뢰구간과 예측 구간:", result)

                            OLS Regression Results                            
Dep. Variable:                    매출액   R-squared:                       0.512
Model:                            OLS   Adj. R-squared:                  0.454
Method:                 Least Squares   F-statistic:                     8.907
Date:                Tue, 19 Nov 2024   Prob (F-statistic):            0.00226
Time:                        05:22:10   Log-Likelihood:                -108.22
No. Observations:                  20   AIC:                             222.4
Df Residuals:                      17   BIC:                             225.4
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept    101.0239     71.716      1.409      0.1

#### 범주형 변수

In [29]:
"""
# 회귀 분석에서 독립 변수 중 범주(object)형 변수는 원-핫 인코딩해서 수치(0, 1)로 
변환해야 한다.
# statsmodels의 ols()는 인코딩 작업 없이도 모델을 생성할 수 있음
"""

import pandas as pd
import statsmodels.api as sm
from statsmodels.formula.api import ols

df = pd.read_csv("study.csv")
df.info()
print(df.head())

# 회귀 모델 구축
formula = "score ~ study_hours + material_type"
model = ols(formula, data=df).fit()
print(model.summary())

# 회귀 모델의 결정 계수
print("결정계수(R2):", model.rsquared)

# 회귀 모델의 회귀 계수 - 기울기와 절편
print("회귀계수:\n", model.params)

"""
# 분석
1. 결정계수는 전체 변동의 96.9%를 설명하고 있음
2. 회귀 계수(Coefficients)에서 절편(Intercept)은 59.21로 다른 모든 변수들이
   0일때의 예상 점수다. 이 값은 '강의'에 해당 된다.
3. "강의"를 사용한 경우 예상 점수: 59.12
   "도서"를 사용한 경우 예상 점수: 59.12 - 8.67 = 50.54
   "독학"를 사용한 경우 예상 점수: 59.12 - 17.61 = 41.60
4. study_hours: 공부시간이 1시간 증가할 때마다 점수는 약 0.484점 증가
"""

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 3 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   study_hours    100 non-null    int64 
 1   material_type  100 non-null    object
 2   score          100 non-null    int64 
dtypes: int64(2), object(1)
memory usage: 2.5+ KB
   study_hours material_type  score
0           71            강의     95
1           34            독학     63
2           91            도서     95
3           80            독학     80
4           40            강의     79
                            OLS Regression Results                            
Dep. Variable:                  score   R-squared:                       0.969
Model:                            OLS   Adj. R-squared:                  0.968
Method:                 Least Squares   F-statistic:                     991.9
Date:                Tue, 19 Nov 2024   Prob (F-statistic):           4.42e-72
Time:                

'\n# 분석\n1. 결정계수는 전체 변동의 96.9%를 설명하고 있음\n2. 회귀 계수(Coefficients)에서 절편(Intercept)은 59.21로 다른 모든 변수들이\n   0일때의 예상 점수다. 이 값은 \'강의\'에 해당 된다.\n3. "강의"를 사용한 경우 예상 점수: 59.12\n   "도서"를 사용한 경우 예상 점수: 59.12 - 8.67 = 50.54\n   "독학"를 사용한 경우 예상 점수: 59.12 - 17.61 = 41.60\n4. study_hours: 공부시간이 1시간 증가할 때마다 점수는 약 0.484점 증가\n'

#### 로지스틱 회귀 분석(Rogistic Regression)

In [37]:
"""
# 회귀 분석 중 종속변수가 범주형인 경우 사용하는 방법이다.
# 머신러닝 지도학습 방법으로 이름은 '회귀'이지만 '분류'에 속함
# statsmodels.formula.api -> ols(formula, data).fit()
# 예제 - 특정 질병의 유무를 나타내는 환자 데이터 셋
  - 독립 변수 : age, bmi
  - 종속 변수 : disease
  - bmi(체질량지수) - 자신의 몸무게(kg)를 키의 제곱(m)으로 나눈 값(정상, 과체중, 비만)
"""

import pandas as pd
from statsmodels.formula.api import logit
import numpy as np

df = pd.read_csv("health_survey.csv")
print(df.head())

# 모델 구축 및 평가
model = logit("disease ~ age + bmi", data=df).fit()
print(model.summary())

"""
# bmi 변수가 한 단위 증가할때 질병 발생의 오즈비(Odds Ratio) 계산
# 오즈(Odds) - 어떤 사건이 발생할 확률과 그 사건이 발생하지 않을 확률의 비율
  - 사건 A의 발생확률을 P(A)라 할때 => P(A) / 1-P(A)
# 오즈비(Odds Ratio) - 한 그룹에서 어떤 사건이 발생할 오즈가 다른 그룹에 비해 얼마나 큰 지를 나타냄
  - 오즈비 > 1 : 특정 조건 또는 노출이 사건 발생 가능성을 증가 시킴
  - 오즈비 = 1 : 특정 조건 또는 노출이 사건 발생 가능성에 영향을 미치지 않음
  - 오즈비 < 1 : 특정 조건 또는 노출이 사건 발생 가능성을 감소 시킴
"""
# bmi 계수 값
bmi = model.params['bmi']
print(bmi)
# bmi 값을 지수 함수를 사용해 오즈비로 변환
odds_ratio = np.exp(bmi) 
print("bmi 변수의 오즈비:", odds_ratio)

# 로그 우도(Log-Likeihood)를 구하는 방법과 잔차이탈도(Deviance)를 계산하는 방법
# print("로그 우도:", model.llf)
# print("잔차이탈도:", -2*model.llf )

   age        bmi  smoker  activity_level  disease
0   62  35.179089       0               0        1
1   65  18.576042       0               2        1
2   71  33.178426       0               1        1
3   18  37.063007       1               2        0
4   21  17.613266       0               0        0
Optimization terminated successfully.
         Current function value: 0.643725
         Iterations 5
                           Logit Regression Results                           
Dep. Variable:                disease   No. Observations:                 1000
Model:                          Logit   Df Residuals:                      997
Method:                           MLE   Df Model:                            2
Date:                Tue, 19 Nov 2024   Pseudo R-squ.:                 0.04996
Time:                        05:55:41   Log-Likelihood:                -643.72
converged:                       True   LL-Null:                       -677.58
Covariance Type:            nonrobust  