## statsmodels를 활용한 로지스틱 회귀

In [38]:
import pandas as pd

from sklearn.preprocessing import LabelBinarizer
# from sklearn.linear_model import LogisticRegression
from statsmodels.formula.api import logit

titanic = pd.read_csv("./data/csv/titanic.csv")

# print(titanic.columns)
lb = LabelBinarizer()

lb_sex = lb.fit_transform(titanic["Sex"])

titanic["Sex"] = lb_sex

# print(X)

# LR = LogisticRegression()

# LR.fit(X, y)

# # help(LR)

# # print(LR.feature_names_in_)

# print(LR.coef_)

# print("parch 변수의 계수 값은 ",LR.coef_[0][-1])

formula = "Survived ~ Pclass + Sex + SibSp + Parch"

lr = logit(formula, data=titanic).fit()

lr.params

Optimization terminated successfully.
         Current function value: 0.459658
         Iterations 6


Intercept    3.459608
Pclass      -0.939161
Sex         -2.762364
SibSp       -0.234018
Parch       -0.050260
dtype: float64

## 독립 표본 t test와 F 분포를 통한 평균 비교

연구자는 두 가지 다른 교육 방법이 학생들의 성적에 미치는 영향을 비교하고자 합니다. 연구자는 무작위로 선발된 20명의 학생들을 두 그룹으로 나누어 한 그룹에는 교육 방법 A를, 다른 그룹에는 교육 방법 B를 적용합니다. 교육이 끝난 후, 두 그룹의 성적을 비교하기 위해 독립 표본 t-검정과 ANOVA F-검정을 실시하려고 합니다.

다음은 두 그룹의 성적입니다: 다음의 두 가지 검정을 사용하여 두 교육 방법 간의 성적 차이가 통계적으로 유의한지를 검증하세요

1. 독립 표본 t-검정을 실시하여 t 통계량을 구하세요.
2. 독립 표본 t-검정을 실시하여 p-값을 구하세요.
3. ANOVA F-검정을 실시하여 F 통계량을 구하세요.
4. ANOVA F-검정을 실시하여 p-값을 구하세요.

In [48]:
import pandas as pd
from scipy.stats import ttest_ind, f_oneway, levene

df = pd.DataFrame({
    'A':[77, 75, 82, 80, 81, 83, 84, 76, 75, 87],
    'B':[80, 74, 77, 79, 71, 74, 78, 69, 70, 72],
})

lev = levene(df["A"], df["B"])

print(lev)

if lev[1] < 0.05 : 
    print("귀무가설 기각, 대립가설 채택, 두 집단은 등분산이라 가정할 수 없습니다.")
    
else : 
    print("귀무가설 채택, 두 집단은 등분산이라 가정할 수 있습니다.")


result_t = ttest_ind(df["A"], df["B"], equal_var=True, alternative="two-sided")

print("1번 문제의 답 :", round(result_t[0], 6))
print("2번 문제의 답 :", round(result_t[1], 6))

result_f = f_oneway(df["A"], df["B"])

print("3번 문제의 답 :", round(result_f[0], 6))
print("4번 문제의 답 :", round(result_f[1], 6))

# help(f_oneway)

LeveneResult(statistic=0.04585987261146485, pvalue=0.8328379126548802)
귀무가설 채택, 두 집단은 등분산이라 가정할 수 있습니다.
1번 문제의 답 : 3.106852
2번 문제의 답 : 0.006087
3번 문제의 답 : 9.652531
4번 문제의 답 : 0.006087


## 카이제곱 적합도 검정

고등학교에서는 졸업생들이 선택하는 대학 전공 분야의 선호도가 시간이 지남에 따라 변하지 않는다고 가정합니다. 학교 측은 최근 졸업생들의 전공 선택이 과거와 같은 패턴을 따르는지 알아보기 위해 적합도 검정을 실시하기로 결정했습니다.

과거 자료에 따르면 졸업생들이 선택하는 전공의 분포는 다음과 같습니다:

인문학: 20% 사회과학: 30% 자연과학: 25% 공학: 15% 기타: 10% 올해 졸업한 학생 200명의 전공 선택 분포는 다음과 같았습니다:

인문학: 30명 사회과학: 60명 자연과학: 50명 공학: 40명 기타: 20명 이 데이터를 바탕으로, 졸업생들의 전공 선택 패턴이 과거와 유사한지를 알아보기 위해 카이제곱 적합도 검정을 실시해야 합니다. 유의 수준은 0.05로 설정합니다.

1. 검정 통계량?
2. p-value?
3. 유의수준 하 귀무가설 기각 또는 채택?

In [58]:
import numpy as np
from scipy.stats import chisquare
# from scipy import stats

grad = 200

past_ratio = [0.2, 0.3, 0.25, 0.15, 0.1]

present = [30, 60, 50, 40, 20]

past = [p*grad for p in past_ratio]

# print(past)

array = np.array([past, present])

print(array)

# help(stats)

c2 = chisquare(f_obs=present, f_exp=past)

print(c2)

[[40. 60. 50. 30. 20.]
 [30. 60. 50. 40. 20.]]
Power_divergenceResult(statistic=5.833333333333334, pvalue=0.21194558437271782)


## 지지도, 신뢰도, 향상도

1. 빼빼로'와 '딴짓초코'가 함께 팔린 거래의 지지도를 계산하세요.
2. '빼빼로'가 팔린 거래 중에서 '빼빼로'와 '오징어칩'이 함께 팔린 거래의 신뢰도를 계산하세요.
3. '빼빼로'와 '양조위빵'의 향상도를 계산하세요.  
  
지지도(A,B): A와 B가 함께 팔린 거래 횟수 / 전체 거래 횟수  
신뢰도(A->B): A와 B가 함께 팔린 거래 횟수 / A가 팔린 거래 횟수  
향상도(A,B): 신뢰도(A->B) / 지지도(B)  >> P(A∩B) / {P(A) * P(B)}

In [65]:
df = pd.DataFrame({
    'transaction': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    '빼빼로': [1, 0, 1, 1, 0, 1, 1, 0, 1, 1],
    '딴짓초코': [0, 1, 1, 0, 1, 0, 1, 1, 0, 0],
    '양조위빵': [1, 0, 0, 1, 1, 1, 0, 0, 1, 0],
    '오징어칩': [0, 1, 1, 0, 0, 1, 0, 1, 1, 1],
    '초코파이': [1, 1, 0, 0, 1, 0, 1, 1, 0, 0]
})

len_all = df.shape[0]  # 전체 데이터 개수

len_paparo = df[(df["빼빼로"]==1)].shape[0]   # 빼빼로가 팔린 횟수

len_yang = df[(df["양조위빵"]==1)].shape[0]   # 양조위빵이 팔린 횟수

len_paddan = df[(df["빼빼로"]==1) & (df["딴짓초코"]==1)].shape[0]    # 빼빼로와 딴짓초코가 같이 팔린 횟수

len_paoz = df[(df["빼빼로"]==1) & (df["오징어칩"]==1)].shape[0]    # 빼빼로와 오징어칩 같이 팔린 횟수

len_payang = df[(df["빼빼로"]==1) & (df["양조위빵"]==1)].shape[0]    # 빼빼로와 양조위빵 같이 팔린 횟수

print("1번 문제 정답 : 지지도 = ", len_paddan/len_all)
print("2번 문제 정답 : 신뢰도 = ", len_paoz/len_paparo)
print("3번 문제 정답 : 향상도 = ", (len_payang / len_all)/((len_paparo / len_all) * (len_yang / len_all)))

1번 문제 정답 : 지지도 =  0.2
2번 문제 정답 : 신뢰도 =  0.5714285714285714
3번 문제 정답 : 향상도 =  1.142857142857143


## 포아송 분포

문제: 한 서점에서는 평균적으로 하루에 3명의 고객이 특정 잡지를 구매합니다. 이 데이터는 포아송 분포를 따른다고 가정할 때, 다음 질문에 대한 답을 구하세요.

1. 하루에 정확히 5명의 고객이 잡지를 구매할 확률은 얼마입니까? (%로 값을 정수로 입력하시오)
2. 하루에 적어도 2명의 고객이 잡지를 구매할 확률은 얼마입니까? (%로 값을 정수로 입력하시오)

In [85]:
from scipy.stats import poisson

mu = 3

# 1번 문제

result1 = poisson.pmf(k=5, mu=mu)

print("1번 문제 정답 :", int(100*float(result1)),"%")

# 2번 문제


one_prob = poisson.cdf(k=1, mu=mu)  # 2명이 잡지를 구매할 확률

# poisson.cdf의 k값이 n일 경우,
# 0, 1, 2, 3, ..... , n-1, n까지 발생활 확률을 전부 출력해 줌

result2 = 1 - one_prob

print("2번 문제 정답 :", int(100*float(result2)),"%")

1번 문제 정답 : 10 %
2번 문제 정답 : 80 %


## 독립성 검정

성별과 시험합격은 독립적인가를 검정하시오!
1. 검정 통계량?
2. p-value?
3. 귀무가설 기준 (기각/채택)?
4. 남자의 합격 기대 빈도?

In [93]:
import numpy as np
from scipy.stats import chi2_contingency
from scipy import stats

men_pass = [100, 200]
women_pass = [130, 170]

chi_array = np.array([men_pass, women_pass])

result = chi2_contingency(chi_array)


# print("1번 문제 답 =", result[0])
print("1번 문제 답 = {0}".format(result[0]))
print("2번 문제 답 =", result[1])

print("3번 문제 답 =", end=" ")
if result[1] < 0.05 : 
    print("유의수준 5%에서 p-value가 0.05보다 작으므로 귀무가설 기각, 성별과 시험 합격은 독립이 아닐 수 있다.")
else : 
    print("유의수준 5%에서 p-value가 0.05보다 작지 않으므로 귀무가설 채택, 성별과 시험 합격은 독립이다.")
    
print("4번 문제 답 =", result[-1][0,0])


1번 문제 답 = 5.929494712103407
2번 문제 답 = 0.01488951060599475
3번 문제 답 = 유의수준 5%에서 p-value가 0.05보다 작으므로 귀무가설 기각, 성별과 시험 합격은 독립이 아닐 수 있다.
4번 문제 답 = 115.0


## 베르누이, 이항분포

베르누이 분포와 이항분포
1. 베르누이 분포 : 다음 데이터는 100번의 시도에서 각각 성공(1) 또는 실패(0)를 나타냅니다. 이 데이터를 바탕으로 각 시도의 성공 확률을 계산하시오.  
2. 1번 문제에서 계산한 성공 확률을 사용하여, 100번의 시도 중 정확히 60번 성공할 확률을 계산하시오.

In [110]:
import pandas as pd
from scipy.stats import binom

# help(bernoulli)

ber = pd.read_csv("./data/csv/t3_success.csv")

cnt_suc = ber.sum()

# cnt_suc

prob_suc = float(cnt_suc / ber.shape[0])

print(prob_suc)

print("1번 문제 정답 = {0}".format(str(prob_suc)))


result = binom.pmf(k=60, n=100, p=prob_suc)  # k는 관측하고자 하는 횟수, n은 전체 횟수, p는 관측하고자 하는 사건의 확률
# help(binom)
print("2번 문제 정답 = {0}".format(str(result)))

0.62
1번 문제 정답 = 0.62
2번 문제 정답 = 0.07464985555860272


## 점추정, 구간추정

데이터셋은 어떤 도시의 일일 평균 온도 입니다.

1. 점추정: 데이터셋을 기반으로 이 도시의 평균 연간 온도를 점추정하세요. (반올림하여 소수 둘째자리까지)  
2. 구간추정: 95% 신뢰수준에서 이 도시의 평균 연간 온도에 대한 신뢰구간을 구하세요. (반올림하여 소수 둘째자리까지)

In [141]:
from scipy.stats import shapiro
from scipy.stats import t
import numpy as np

df_mean = pd.read_csv("./data/csv/daily_temperatures.csv")

shap = shapiro(df_mean)

if shap[1] > 0.05 : 

    print("일일 평균 온도는 정규 분포를 따름")

mean_temp = df_mean["Daily Average Temperature"].mean()

print("1번 문제 정답 = {}".format(round(mean_temp, 2)))


std = np.std(df_mean["Daily Average Temperature"], ddof=1)  # ddof가 1이면 자유도가 n-1인 표준편차

# help(t)
result = t.interval(alpha=0.95, df=df_mean.shape[0]-1, loc=mean_temp, scale=std/(df_mean.shape[0]**0.5))  
            # alpha는 신뢰 수준, df는 자유도, loc은 평균, scale은 표본집단의 표준편차

print("1번 문제 정답 = {}".format(result))


일일 평균 온도는 정규 분포를 따름
1번 문제 정답 = 19.94
1번 문제 정답 = (19.427887094620406, 20.44726799333667)
