In [12]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
import pandas as pd

**가설 검정**

1) 단일 표준 검정 : 1개 모집단의 평균이 특정값과 유의미하게 차이나는지 검정

2) 대응 표준 검정 : 1개 모집단에 대해 다른 시간대에서 평균을 2번 구해 두 평균간 차이가 유의미한지 검정

3) 독립 표준 검정 : 2개의 모집단 평균간의 차이가 유의미한지 검정

**분산 검정**

1) 일원 분산 검정 : 3개 이상의 모집단 간 평균의 차이가 유의미한지 검정

2) 이원 분산 검정 : 요인 수가 2개인 경우 검정하며 2개의 주요인과 1개의 상호작용요인을 검정

**카이제곱 검정**

1) 적합도 검정 : 1개의 범주형 변수가 특정분포를 잘 따르는지 검정

2) 독립성 검정 : 2개의 범주형 변수가 서로 연관이 있는지 검정

3) 동질성 검정 : 2개 이상의 집단에서 분산의 동질성을 가졌는지 검정

### CHAPTER 01 가설검정

귀무가설 : 기존에 알려진 사실

대립가설 : 입증하려는 가설

---------------------------

귀무가설이 옳다고 밝혀질 경우 => 귀무가설 기각 못함

대립가설이 옳다고 밝혀질 경우 => 귀무가설 기각

---------------------------

◆ 가설검정 프로세스 : 유의수준을 통해 기각 여부를 판단

1) 통계적 가설 설정 : 귀무가설, 대립가설 설정

2) 유의수준 설정 : 일반적으로 0.05 or 0.01 같은 값을 사용

3) 검정통계량 및 유의확률 계산 : 표본 데이터의 검정통계량(가설 평가에 사용) 계산 => 이를 사용해 유의확률(p-value)을 계산

4) 결과 도출 : 유의확률이 유의수준보다 작으면 귀무가설 기각 , 크다면 귀무가설 채택

#### 단일 표본 (One sample t-test)

In [None]:
# 어떤 집단의 평균의 특정 값과 유의미하게 다른지를 점검하는 통계 방법
df = pd.DataFrame({
    'weights':[122, 121, 120, 119, 125, 115, 121, 118, 117, 127,
           123, 129, 119, 124, 114, 126, 122, 124, 121, 116,
           120, 123, 127, 118, 122, 117, 124, 125, 123, 121],
})

from scipy import stats
t_statstics, p_value = stats.ttest_1samp(df['weights'], 120)
print('t_statstics:', t_statstics)
print('p_value:', p_value)

t_statstics: 2.1155384372682344
p_value: 0.043092957066609296


In [None]:
# 양측 검정 : 귀무가설에 대해 크거나 작음을 모두 검정
# 단측 검정 : 귀무가설에 대해 크거나 또는 작거나 한쪽만 검정

# 귀무가설 : 팝콘 라지 사이즈의 무게가 120g이다
# 대립가설 : 팝콘 라지 사이즈의 무게가 120g 아니다(클수도 작을수도 있음 => 양측 검정)
from scipy import stats
print(stats.ttest_1samp(df['weights'],120, alternative='two-sided'))

# 귀무가설 : 팝콘 라지 사이즈의 무게가 120g이다
# 대립가설 : 팝콘 라지 사이즈의 무게가 120g보다 크다(단측 검정)
from scipy import stats
print(stats.ttest_1samp(df['weights'], 120, alternative='greater'))

# 귀무가설 : 팝콘 라지 사이즈의 무게가 120g이다
# 대립가설 : 팝콘 라지 사이즈의 무게가 120g보다 작다(단측 검정)
from scipy import stats
print(stats.ttest_1samp(df['weights'], 120, alternative='less'))

TtestResult(statistic=2.1155384372682344, pvalue=0.043092957066609296, df=29)
TtestResult(statistic=2.1155384372682344, pvalue=0.021546478533304648, df=29)
TtestResult(statistic=2.1155384372682344, pvalue=0.9784535214666953, df=29)


In [None]:
# 표본 데이터가 정규 분포를 따른다면 모수 검정인 t-검정 사용
# 하지만 정규성을 만족하지 못한다면 비모수 검정 방식을 고려
# 정규성 판단의 대표적 방법은 샤피로-월크 검정(Shapiro-Wilk test)
# 샤피로-월크 검정으로 데이터가 정규성을 만족하지 않는다면 Wilcoxon의 부호 순위 검정으로 가설검정 수행

# 귀무가설 : 팝콘 라지 사이즈의 평균 무게가 120g이다
# 대립가설 : 팝콘 라지 사이즈의 평균 무게가 120g보다 작다(유의수준0.05)
df = pd.DataFrame({
    'weights':[125, 126, 118, 124, 117, 127, 123, 122, 119, 142]
})


# 귀무가설 : 샘플 데이터가 정규 분포를 따른다
# 대립가설 : 샘플 데이터가 정규 분포를 따르지 않는다.
from scipy import stats
print(stats.shapiro(df['weights'])) # 0.05보다 작기 때문에 정규분포를 따르지 않음

# 윌콕슨의 부호 순위 검정은 비모수 검정으로 평균이 아닌 중앙 값에 대한 가설을 검정
# 윌콕슨 검정은 비교하는 중앙값을 빼줘야함
print(stats.wilcoxon(df['weights'] - 120, alternative='less'))

ShapiroResult(statistic=0.8164570347000635, pvalue=0.022960129822451016)
WilcoxonResult(statistic=47.0, pvalue=0.9814453125)


In [None]:
from scipy import stats
# 정규성 띄는지 확인
print(stats.shapiro(df['weights']))

# 정규성을 띈다면 ttest
print(stats.ttest_1samp(df['weights'], 120, alternative='greater')) # 대립가설이 귀무보다 크다 했을 때
print(stats.ttest_1samp(df['weights'], 120, alternative='less')) # 대립가설이 귀모보다 작다고 했을 때
print(stats.ttest_1samp(df['weights'],120, alternative='two-sided')) # 크거나 작을수도 있을 경우

# 정규성을 띄지 않는다면 wilcoxon
print(stats.wilcoxon(df['weights'] - 120, alternative='two-sided'))
print(stats.wilcoxon(df['weights'] - 120, alternative='greater'))
print(stats.wilcoxon(df['weights'] - 120, alternative='less'))

ShapiroResult(statistic=0.8164570347000635, pvalue=0.022960129822451016)
TtestResult(statistic=1.9185470614004296, pvalue=0.04362966581344017, df=9)
TtestResult(statistic=1.9185470614004296, pvalue=0.9563703341865598, df=9)
TtestResult(statistic=1.9185470614004296, pvalue=0.08725933162688033, df=9)
WilcoxonResult(statistic=8.0, pvalue=0.048828125)
WilcoxonResult(statistic=47.0, pvalue=0.0244140625)
WilcoxonResult(statistic=47.0, pvalue=0.9814453125)


#### 대응 표본 검정(Paired sample t-test)

In [None]:
# 대응(쌍체) 표본 검정 = 동일한 그룹(집단)에 대해 시간차를 두고 두번 측정 결과 비교할 때 사용
# 대응 표본 검정 예시 : 체중 감량 프로그램(전후), 약물 효과(전후), 교육 프로그램(전후)
# 단일 표본 검정 예시 : 두 집단의 교육 성과 비교, 두 집단의 수면 효과 비교, 두 집단에 대한 임상실험 비교
import pandas as pd
df = pd.DataFrame({
    'before':[85, 90, 92, 88, 86, 89, 83, 87],
    'after':[85.5,89.9,92.6,89.5,85.8,88.8,84.6,87.8]
})

In [None]:
# 새로운 교육 프로그램이 효과가 있었는지 확인, 단 정규 분포를 따름(유의수준 0.05)
# 단측검정 : (before-after)의 평균 < 0
# 귀무가설 : 새로운 교육 프로그램이 효과가 없다
# 대립가설 : 새로운 교육 프로그램이 효과가 있다.
from scipy import stats
print(stats.ttest_rel(df['before'],df['after'], alternative='less'))

# 단측검정 : (after-before)의 평균 > 0
# 귀무가설 : 새로운 교육 프로그램이 효과가 없다
# 대립가설 : 새로운 교육 프로그램이 효과가 있다.
print(stats.ttest_rel(df['after'], df['before'], alternative='greater'))

TtestResult(statistic=-2.2127749675452324, pvalue=0.03127028733756238, df=7)
TtestResult(statistic=2.2127749675452324, pvalue=0.03127028733756238, df=7)


In [None]:
# 정규 분포를 따른 다른 말이 없다면 샤피로=윌크 검정을 해야함
# 귀무가설 : 새로운 교육 프로그램이 효과가 없다
# 대립가설 : 새로운 교육 프로그램이 효과가 있다.(p-value 0.05)
import pandas as pd
df = pd.DataFrame({
    'before':[85, 90, 92, 88, 86, 89, 83, 87],
    'after':[86, 92, 94, 89, 84, 90, 84, 88]
})

from scipy import stats
df['diff'] = df['after'] - df['before']
print(stats.shapiro(df['diff']))

print(stats.wilcoxon(df['after'], df['before'], alternative='greater')) # 유의 수준보다 커서 귀무가설 채택
print(stats.wilcoxon(df['diff'], alternative='greater'))

ShapiroResult(statistic=0.6886147375920879, pvalue=0.0016734051223900109)
WilcoxonResult(statistic=29.0, pvalue=0.07421875)
WilcoxonResult(statistic=29.0, pvalue=0.07421875)


#### 독립 표본(Independent sample t-test)

In [None]:
# 두 그룹(표본) 간의 평균이 서로 다름을 판단
import pandas as pd
class1 = [85, 90, 92, 88, 86, 89, 83, 87]
class2 = [80, 82, 88, 85, 84]

# 양측 검증
# 귀무가설 : 클래스간 평균 점수는 같다
# 대립가설 : 클래스간 평균 점수는 다르다
from scipy import stats
print(stats.ttest_ind(class1, class2, alternative='two-sided', equal_var=True)) # 두 모집단 간의 분산이 같다고 가정
print(stats.ttest_ind(class1, class2, alternative='two-sided', equal_var=False)) # 두 모집단 간의 분산이 다르다

# 단측 검증
# 귀무가설 : 클래스간 평균 점수는 같다
# 대립가설 : 2클래스 평균 점수가 더 높다
print(stats.ttest_ind(class2, class1, alternative='greater', equal_var=True))

# 단측 검증
# 귀무가설 : 클래스간 평균 점순느 같다
# 대립가설 : 1클래스 평균 점수가 더 높다
print(stats.ttest_ind(class2, class1, alternative='less', equal_var=True))

TtestResult(statistic=2.2108140580092237, pvalue=0.04914857789252186, df=11.0)
TtestResult(statistic=2.1818699281825236, pvalue=0.059589330071355334, df=8.272682358753572)
TtestResult(statistic=-2.2108140580092237, pvalue=0.9754257110537391, df=11.0)
TtestResult(statistic=-2.2108140580092237, pvalue=0.02457428894626093, df=11.0)


In [None]:
# 독립 표본 검정을 수행할 때는 등분산성을 가지는지 확인 해야한다.
# 먼저 shapiro() 함수로 정규성 여부를 평가하고
# 1) 정규성을 띈다면 levene () 함수로 등분산성 검정을 진행한다.
# 등분산성을 띈다면 stats.ttest_ind(data1, data2, alternative)
# 등분산성을 띄지 않는다면 stats.ttest_ind(data1, data2, alternative, equal_var=False)
# 2) 먼저 했던 shapiro() 함수로 정규성을 띄지 않는 것을 확인했다면
# 비모수 검정인 Mann-Whitney U 검정 실시 stats.mannwhitneyu(data1, data2, alternative)

# ==모수 검정==
import pandas as pd
class1 = [85, 90, 92, 88, 86, 89, 83, 87]
class2 = [80, 82, 88, 85, 84]

# 귀무가설 : 반별 수학 평균 점수는 같다
# 대리가설 : 2반 수학 평균 점수가 더 높다
# 1) 정규성을 띄는지 확인
from scipy import stats
print(stats.shapiro(class1))
print(stats.shapiro(class2))

# 2) 둘다 정규성을 띄므로 등분산성 확인
print(stats.levene(class1, class2))

# 3) 등분산성 확인후 독립 표본 검증 실시
print(stats.ttest_ind(class1, class2, alternative='less', equal_var=True))


# ==비모수==
import pandas as pd
class1 = [85, 90, 92, 88, 86, 89, 83, 87]
class2 = [80, 82, 88, 85, 130]

# 귀무가설 : 반별 수학 평균 점수는 같다
# 대리가설 : 2반 수학 평균 점수가 더 높다
# 1) 정규성을 띄는지 확인
from scipy import stats
print(stats.shapiro(class1))
print(stats.shapiro(class2))

# 2) 정규성을 띄지 않아 Mann Whitney U 검정
print(stats.mannwhitneyu(class1,class2, alternative='less'))

ShapiroResult(statistic=0.9981893537736595, pvalue=0.999986994137081)
ShapiroResult(statistic=0.9917398436295009, pvalue=0.9854182266624983)
LeveneResult(statistic=0.0027925869510027727, pvalue=0.958802951766629)
TtestResult(statistic=2.2108140580092237, pvalue=0.9754257110537391, df=11.0)
ShapiroResult(statistic=0.9981893537736595, pvalue=0.999986994137081)
ShapiroResult(statistic=0.6880497349322277, pvalue=0.007151570728885509)
MannwhitneyuResult(statistic=26.0, pvalue=0.8299904236851448)


### CHAPTER 02 분산분석

#### 일원 분산 분석(One-way ANOVA)

일원 분산 분석 : 3개 이상의 집단 간의 평균 차이가 통계적으로 유의한지 결정하는 방법

1) 기본가정
- 독립성 : 각 집단의 관측치들은 모든 다른 집단의 관측치들과 독립적이다 (기본가정)
- 정규성 : 각 집단의 관측치들은 정규 분포를 따른다 (shapiro-wilk test)
- 등분산성 : 각 집단의 관측치들은 동일한 분산을 가진다 (levene test)

2) 귀무가설과 대립가설

귀무가설 : 모든 집단의 평균은 같다

대립가설 : 집단의 평균에는 차이가 있다(모두 같다고 할 수 없겠지만 적어도 두 그룹 간의 평균에 차이가 있다.)

3) 일원 분산 분석
stats.f_oneway(sample1, sample2, sample3, ...)

In [None]:
import pandas as pd
df = pd.DataFrame({
    'A': [10.5, 11.3, 10.8, 9.6, 11.1, 10.2, 10.9, 11.4, 10.5, 10.3],
    'B': [11.9, 12.4, 12.1, 13.2, 12.5, 11.8, 12.2, 12.9, 12.4, 12.3],
    'C': [11.2, 11.7, 11.6, 10.9, 11.3, 11.1, 10.8, 11.5, 11.4, 11.0],
    'D': [9.8, 9.4, 9.1, 9.5, 9.6, 9.9, 9.2, 9.7, 9.3, 9.4]
})

# 귀무가설 : 네가지 비료의 효과는 동일하다
# 대립가설 : 비료의 효과에는 차이가 있다.(적어도 두가지 비료의 효과에는 차이가 있다.)
from scipy import stats
# 정규성 검정
print(stats.shapiro(df['A']))
print(stats.shapiro(df['B']))
print(stats.shapiro(df['C']))
print(stats.shapiro(df['D']))

# 등분산성
print(stats.levene(df['A'], df['B'], df['C'], df['D']))

print(stats.f_oneway(df['A'], df['B'], df['C'], df['D']))

ShapiroResult(statistic=0.9649054066073813, pvalue=0.8400161543468654)
ShapiroResult(statistic=0.9468040874196029, pvalue=0.6308700692815115)
ShapiroResult(statistic=0.9701646110856055, pvalue=0.892367306190296)
ShapiroResult(statistic=0.9752339025839644, pvalue=0.9346854448707653)
LeveneResult(statistic=1.9355354288758708, pvalue=0.14127835331346628)
F_onewayResult(statistic=89.12613851177174, pvalue=1.001838152252373e-16)


In [None]:
# 일원 분산 분석(ols 활용)
# scipy의 f_oneway와 statsmodels 의 ols, anova_lm을 사용한 분석
import pandas as pd
df = pd.read_csv('/content/drive/MyDrive/빅데이터분석기사파일/part3/ch2/fertilizer.csv')

from scipy import stats
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm
model = ols('성장~C(비료)', df).fit()
print(anova_lm(model))

            df    sum_sq    mean_sq          F        PR(>F)
C(비료)      3.0  43.21875  14.406250  89.126139  1.001838e-16
Residual  36.0   5.81900   0.161639        NaN           NaN


#### 이원 분산 분석(Two-way ANOVA)

이원 분산 분석 : 요인의 수가 2개인 경우
예시 : A요인=학습 방법(도서,강의) / B요인=학습 장소(집,카페)

도서(집 or 카페) and 강의(집 or 카페)로 구성

**1) 기본가정**
- 독립성 : 각 집단의 관측치들은 모든 다른 집단의 관측치들과 독립적이다 (기본가정)
- 정규성 : 각 집단의 관측치들은 정규 분포를 따른다 (shapiro-wilk test)
- 등분산성 : 각 집단의 관측치들은 동일한 분산을 가진다 (levene test)

**2) 귀무가설**

이원 분산 분석은 주효과 뿐 아니라 상호작용 효과에도 관심을 둔다. 학습방법과 학습장소를 요인으로 이원 분산 분석을 할 경우 주효과 2개와 상호작용효과 1개로 3가지 가설을 세울 수 있다.

<주효과 : 나무>

귀무가설 : 모든 나무 종류의 성장률은 동일하다

대립가설 : 모든 나무 종류의 성장률은 차이가 있다

<주효과 : 비료>

귀무가설 : 모든 비료의 성장률 효과는 동일하다

대립가설 : 모든 비료의 성장률 효과는 차이가 있다

<상호작용효과>

귀무가설 : 나무종류와 비료 간의 상호작용은 성장률에 영향을 주지 않는다

대립가설 : 나무종류와 비료 간의 성장률에 영향을 주는 상호작용이 있다

**3) 이원 분산 분석**

model = ols(종속변수 ~ C(요인1) + C(요인2) + C(요인1):C(요인2), data=df)
print(anova_lm(model), typ=숫자)

숫자={1: 변수의 순서에 따른 분석, 2: 각 변수의 독립적인 효과 분석, 3: 모든 변수와 상호작용을 동시에 고려해 분석}

In [None]:
import pandas as pd
df = pd.read_csv('/content/drive/MyDrive/빅데이터분석기사파일/part3/ch2/tree.csv')

from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm
model = ols('성장률 ~ C(나무) + C(비료) + C(나무):C(비료)', data=df).fit()
print(anova_lm(model))

                df       sum_sq      mean_sq          F        PR(>F)
C(나무)          3.0  4783.353938  1594.451313  18.855528  6.600012e-10
C(비료)          2.0  1127.924259   563.962129   6.669256  1.857612e-03
C(나무):C(비료)    6.0   717.520672   119.586779   1.414199  2.157357e-01
Residual     108.0  9132.639448    84.561476        NaN           NaN


### CHAPTER 03 카이제곱 검정

In [None]:
# 적합도 검정
# 귀무가설 : 특정 분포를 따른다
# 대립가설 : 특정 분포를 따르지않는다
from scipy import stats

observed = [150, 120, 30]
expected = [0.5*300, 0.35*300, 0.15*300]
print(stats.chisquare(observed, expected))

Power_divergenceResult(statistic=7.142857142857142, pvalue=0.028115659748972056)


In [None]:
# 교차표로 독립성 검정
import pandas as pd
df = pd.DataFrame(data = {'good': [80, 90], 'bad': [30, 10]}, index = ['남자','여자'])

# 독립성 검정
from scipy import stats
print(stats.chi2_contingency(df))

Chi2ContingencyResult(statistic=9.045792112299468, pvalue=0.0026330012530379632, dof=1, expected_freq=array([[89.04761905, 20.95238095],
       [80.95238095, 19.04761905]]))


In [None]:
# 로우 데이터로 독립성 검정
import pandas as pd
data = {
    '성별': ['남자']*110 + ['여자']*100,
    '운동': ['좋아함']*80 + ['좋아하지 않음']*30 + ['좋아함']*90 + ['좋아하지 않음']*10
}
df = pd.DataFrame(data)
print(df.head())

# 독립성 검정
df = pd.crosstab(df['성별'], df['운동'])
print(df)

from scipy import stats
print(stats.chi2_contingency(df))

   성별   운동
0  남자  좋아함
1  남자  좋아함
2  남자  좋아함
3  남자  좋아함
4  남자  좋아함
운동  좋아하지 않음  좋아함
성별              
남자       30   80
여자       10   90
Chi2ContingencyResult(statistic=9.045792112299468, pvalue=0.0026330012530379632, dof=1, expected_freq=array([[20.95238095, 89.04761905],
       [19.04761905, 80.95238095]]))


독립성 검정 : 두 범주형 변수 간에 연관성이 있는지를 확인

동질성 검정 : 서로 다른 그룹 또는 모집단이 동일한 범주 분포를 가졌는지 확인

In [None]:
# 교차표로 동질성 검정
# 귀무가설 : 두 학과의 동아리 가입 비율은 동일하다
# 대립가설 : 두 학과의 동아리 가입 비율은 동일하지 않다
import pandas as pd
from scipy import stats
df = pd.DataFrame([[50, 50], [30, 70]])
print(stats.chi2_contingency(df))

Chi2ContingencyResult(statistic=7.520833333333334, pvalue=0.006098945931214352, dof=1, expected_freq=array([[40., 60.],
       [40., 60.]]))


In [None]:
# 로우 데이터로 동질성 검정
import pandas as pd
data = {
    '학과': ['통계학과']*100 + ['컴퓨터공학과']*100,
    '동아리가입여부': ['가입']*50 + ['미가입']*50 + ['가입']*30 + ['미가입']*70
}
df = pd.DataFrame(data)
df = pd.crosstab(df['학과'], df['동아리가입여부'])
from scipy import stats
print(stats.chi2_contingency(df))

Chi2ContingencyResult(statistic=7.520833333333334, pvalue=0.006098945931214352, dof=1, expected_freq=array([[40., 60.],
       [40., 60.]]))


### CHAPTER 04 상관계수

In [None]:
import pandas as pd

# 주어진 데이터
data = {
    '키': [150, 160, 170, 175, 165],
    '몸무게': [42, 50, 70, 64, 56]
}
df = pd.DataFrame(data)

print(df.corr())
print('키와 몸무게 pearson상관계수:', df.corr().iloc[0,1])
print('키와 몸무게 pearson상관계수:', df['몸무게'].corr(df['키']))
print('키와 몸무게 kendall상관계수:', df['몸무게'].corr(df['키'], method='kendall'))
print('키와 몸무게 spearman상관계수:', df['몸무게'].corr(df['키'], method='spearman'))

            키       몸무게
키    1.000000  0.919509
몸무게  0.919509  1.000000
키와 몸무게 pearson상관계수: 0.9195090879163764
키와 몸무게 pearson상관계수: 0.9195090879163765
키와 몸무게 kendall상관계수: 0.7999999999999999
키와 몸무게 spearman상관계수: 0.8999999999999998


In [None]:
# 상관계수와 유의수준
from scipy import stats
print(stats.pearsonr(df['몸무게'],df['키']))
print(stats.spearmanr(df['몸무게'],df['키']))
print(stats.kendalltau(df['몸무게'],df['키']))

PearsonRResult(statistic=0.9195090879163766, pvalue=0.027079456895589476)
SignificanceResult(statistic=0.8999999999999998, pvalue=0.03738607346849874)
SignificanceResult(statistic=0.7999999999999999, pvalue=0.08333333333333333)


#### 단순 선형 회귀

In [None]:
import pandas as pd

data = {
    '키': [150, 160, 170, 175, 165, 155, 172, 168, 174, 158,
          162, 173, 156, 159, 167, 163, 171, 169, 176, 161],
    '몸무게': [42, 50, 70, 64, 56, 48, 68, 60, 65, 52,
            54, 67, 49, 51, 58, 55, 69, 61, 66, 53]
}
df = pd.DataFrame(data)

from statsmodels.formula.api import ols
model = ols('키~몸무게', data=df).fit()
print(model.summary())
print("rsquared:", model.rsquared)
print("pvalue:","{:.10f}".format(model.pvalues['몸무게']))
print('기울기:', model.params['몸무게'])
print("절편:", model.params['Intercept'])

# 새로운 데이터로 예측
new_data = pd.DataFrame({'몸무게': [67]})
result = model.predict(new_data)
print("예측 몸무게:",result[0])

# 잔차의 제곱합
df['잔차'] = df['키'] - model.predict(df['몸무게'])
print("잔차 제곱합:", sum(df['잔차']**2))

# MSE
from sklearn.metrics import mean_squared_error
pred = model.predict(df['몸무게'])
mse = mean_squared_error(df['키'], pred)
print('MSE:', mse)

# 몸무게 95% 신뢰구간을 구하시오
print(model.conf_int(alpha=0.05).loc['몸무게'])

# 몸무게 50kg 일때 예측 키의 신뢰구간과 예측 구간
new_data = pd.DataFrame({'몸무게': [50]})
pred = model.get_prediction(new_data)
print(pred.summary_frame(alpha=0.05))

                            OLS Regression Results                            
Dep. Variable:                      키   R-squared:                       0.892
Model:                            OLS   Adj. R-squared:                  0.886
Method:                 Least Squares   F-statistic:                     148.0
Date:                Wed, 27 Nov 2024   Prob (F-statistic):           4.04e-10
Time:                        15:21:25   Log-Likelihood:                -45.761
No. Observations:                  20   AIC:                             95.52
Df Residuals:                      18   BIC:                             97.51
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept    115.0676      4.158     27.671      0.0

#### 다중 선형 회귀 분석

In [None]:
import pandas as pd
data = {
    '매출액': [300, 320, 250, 360, 315, 328, 310, 335, 326, 280,
            290, 300, 315, 328, 310, 335, 300, 400, 500, 600],
    '광고비': [70, 75, 30, 80, 72, 77, 70, 82, 70, 80,
            68, 90, 72, 77, 70, 82, 40, 20, 75, 80],
    '직원수': [15, 16, 14, 20, 19, 17, 16, 19, 15, 20,
            14, 5, 16, 17, 16, 14, 30, 40, 10, 50]
    }
df = pd.DataFrame(data)
print(df)

    매출액  광고비  직원수
0   300   70   15
1   320   75   16
2   250   30   14
3   360   80   20
4   315   72   19
5   328   77   17
6   310   70   16
7   335   82   19
8   326   70   15
9   280   80   20
10  290   68   14
11  300   90    5
12  315   72   16
13  328   77   17
14  310   70   16
15  335   82   14
16  300   40   30
17  400   20   40
18  500   75   10
19  600   80   50


In [None]:
# 통계적 요약
from scipy import stats
from statsmodels.formula.api import ols
model = ols('매출액~광고비+직원수', data=df).fit()
print(model.summary())

# 광고비와 매출액 상관계수
print('광고비/매출액 상관계수:',df['광고비'].corr(df['매출액']))

# 광고비와 매출액의 ttest pvalue
print(stats.pearsonr(df['광고비'],df['매출액']))

# 회귀모델의 결정계수
print("R2:", model.rsquared)

# 회귀 계수(기울기, 절편)
print('회귀 계수', model.params)
print('절편:', model.params['Intercept'])

# 광고비의 회귀 계수가 통계적으로 유믜미한지 검정했을때 plvaue
print('pvalue:', model.pvalues['광고비'])

# 광고 50 직원수 20인 데이터가 있을 때 구축한 예상 매출액
new_data=pd.DataFrame({'광고비':[50], '직원수':[20]})
pred = model.predict(new_data)
print('예상 매출액:', pred.loc[0])

# 잔차의 제곱합
df['잔차'] = df['매출액'] - model.predict(df)
print('잔차 제곱합:', sum(df['잔차']**2))

# 잔차의 mse
from sklearn.metrics import mean_squared_error
print(mean_squared_error(df['매출액'], model.predict(df)))

# 각 변수별 95퍼 신뢰 구간을 구하시오
print(model.conf_int(alpha=0.05))

# 광고비 45, 직원수 22 일때 95% 신뢰구간과 예측 구간
new_data=pd.DataFrame({'광고비':[45], '직원수':[22]})
pred = model.get_prediction(new_data)
result = pred.summary_frame(alpha=0.05)
print(result)

                            OLS Regression Results                            
Dep. Variable:                    매출액   R-squared:                       0.512
Model:                            OLS   Adj. R-squared:                  0.454
Method:                 Least Squares   F-statistic:                     8.907
Date:                Thu, 28 Nov 2024   Prob (F-statistic):            0.00226
Time:                        02:05:33   Log-Likelihood:                -108.22
No. Observations:                  20   AIC:                             222.4
Df Residuals:                      17   BIC:                             225.4
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept    101.0239     71.716      1.409      0.1

#### 범주형 변수

In [None]:
import pandas as pd
df = pd.read_csv('/content/drive/MyDrive/빅데이터분석기사파일/part3/ch4/study.csv')

from scipy import stats
from statsmodels.formula.api import ols
model = ols('score~study_hours + material_type', data=df).fit()
print(model.summary())

# rsquared = 0.969
# 여기서 Intercpet는 다른 모든 변수가 0일 때 예상 점수로, 여기서는 강의 예상점수 = 59.2111
# 도서의 예상점수 = Intercept + Intercept_도서 = 59.2111 + (-8.6696) = 50.54
# 독학의 예상점수 = Intercept + Intercept_독학 = 59.2111 + (-17.6129) = 41.60
# study_hours의 회귀 계수가 0.4839으로 공부시간이 1시간 늘어날때 마다 점수는 약 0.4839 증가함
# 모든 변수의 p-value가 0.05보다 작으모로 통계적으로 유의미하다

                            OLS Regression Results                            
Dep. Variable:                  score   R-squared:                       0.969
Model:                            OLS   Adj. R-squared:                  0.968
Method:                 Least Squares   F-statistic:                     991.9
Date:                Thu, 28 Nov 2024   Prob (F-statistic):           4.42e-72
Time:                        02:22:18   Log-Likelihood:                -238.89
No. Observations:                 100   AIC:                             485.8
Df Residuals:                      96   BIC:                             496.2
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                          coef    std err          t      P>|t|      [0.025      0.975]
---------------------------------------------------------------------------------------
Intercept              59.2111    

### CHAPTER 05 로지스틱 회귀 분석


#### 로지스틱 회귀 분석

In [None]:
import pandas as pd
df = pd.read_csv('/content/drive/MyDrive/빅데이터분석기사파일/part3/ch5/health_survey.csv')

from statsmodels.formula.api import logit
import numpy as np
model = logit('disease~age+bmi', data=df).fit()
print("bmi 회귀 계수:", model.params['bmi'])
print("오즈비:", np.exp(model.params['bmi']))
print("로그 우도:", model.llf)
print("잔차이탈도:", -2*model.llf)

pred = model.predict(df)
df['pred'] = (pred >= 0.5).astype(int)
from sklearn.metrics import accuracy_score
print("정확도:", accuracy_score(df['disease'], df['pred']))

Optimization terminated successfully.
         Current function value: 0.643725
         Iterations 5
bmi 회귀 계수: 0.056333879687088535
오즈비: 1.057950853075076
로그 우도: -643.7246164682088
잔차이탈도: 1287.4492329364175
정확도: 0.614


### CHAPTER 06 연습문제

#### Section. 1

In [None]:
import pandas as pd
df = pd.DataFrame({
    'Caffeine(mg)': [
        94.2, 93.7, 95.5, 93.9, 94.0, 95.2, 94.7, 93.5, 92.8, 94.4,
        93.8, 94.6, 93.3, 95.1, 94.3, 94.9, 93.9, 94.8, 95.0, 94.2,
        93.7, 94.4, 95.1, 94.0, 93.6
    ]
})

# 1. 표본 데이터 평균
print("1.", df['Caffeine(mg)'].mean())

# 2. 정규성 확인
from scipy import stats
statstic, pvalue = stats.shapiro(df['Caffeine(mg)'])
print("2.", pvalue)

# 3. 단일 표본 t검정 검정 통계량
statstic, pvalue = stats.ttest_1samp(df['Caffeine(mg)'], 95, alternative='less')
print("3.", statstic)

# 4. 단일 표본 p-value
print("4.",pvalue)

# 5. 귀무가설 채택/기각
if pvalue <= 0.05:
  print('5. 기각')
else:
  print('5. 채택')

1. 94.264
2. 0.9322031137746971
3. -5.501737036221897
4. 5.8686553916715e-06
5. 기각


#### Section. 2

In [None]:
import pandas as pd
df = pd.DataFrame({
    '충전기': ['New'] * 10 + ['Old'] * 10,
    '충전시간': [
        1.5, 1.6, 1.4, 1.7, 1.5, 1.6, 1.7, 1.4, 1.6, 1.5,
        1.7, 1.8, 1.7, 1.9, 1.8, 1.7, 1.8, 1.9, 1.7, 1.6
    ]
})

# 1. 검정 통계량을 구하시오
from scipy import stats
statstic, pvalue = stats.ttest_ind(df[df['충전기']=='New']['충전시간'], df[df['충전기']=='Old']['충전시간'], alternative='less')
print("1.",statstic)

# 2. p-value
print("2.",pvalue)

# 3 귀무가설 채택/기각
if pvalue <= 0.05:
  print('3. 기각')
else:
  print('3. 채택')

1. -4.582575694955849
2. 0.00011546547787696304
3. 기각


#### Section 3

In [None]:
import pandas as pd
df = pd.DataFrame({
    'User': list(range(1, 11)),
    '기존방법': [60.4, 60.7, 60.5, 60.3, 60.8, 60.6, 60.2, 60.5, 60.7, 60.4],
    '새로운방법': [59.8, 60.2, 60.1, 59.9, 59.7, 58.4, 57.0, 60.3, 59.6, 59.8]
})

# 1. 표본 평균
print("1.", (df['새로운방법']-df['기존방법']).mean())

# 2. 검정 통계량
from scipy import stats
statstic, pvalue = stats.ttest_rel(df['새로운방법'],df['기존방법'], alternative='less')
print("2.", statstic)

# 3. p-value
print("3.", pvalue)

# 4. 귀무가설 채택/기각
if pvalue <= 0.05:
  print('4. 기각')
else:
  print('4. 채택')

1. -1.0300000000000005
2. -3.407973078114844
3. 0.0038872633380070652
4. 기각


#### Section 4

In [None]:
import pandas as pd
df = pd.read_csv("/content/drive/MyDrive/빅데이터분석기사파일/part3/ch6/math.csv")

# 1. 그룹별 정규성 확인하고 p-value
from scipy import stats
print(stats.shapiro(df[df['groups']=='group_A']['scores']))
print(stats.shapiro(df[df['groups']=='group_B']['scores']))
print(stats.shapiro(df[df['groups']=='group_C']['scores']))
print(stats.shapiro(df[df['groups']=='group_D']['scores']))

# 2.등분산성 확인하고 p-value
print(stats.levene(df[df['groups']=='group_A']['scores'],df[df['groups']=='group_B']['scores'],df[df['groups']=='group_C']['scores'],df[df['groups']=='group_D']['scores']))

# 3~9
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm
model = ols('scores~groups', data=df).fit()
print(anova_lm(model))

ShapiroResult(statistic=0.9715896670696531, pvalue=0.9051800443853569)
ShapiroResult(statistic=0.9499422438060351, pvalue=0.6678172590861611)
ShapiroResult(statistic=0.9299424104842702, pvalue=0.44732595113862045)
ShapiroResult(statistic=0.9065684572704982, pvalue=0.25824165549017347)
LeveneResult(statistic=1.757685352622062, pvalue=0.17270284963232108)
            df  sum_sq     mean_sq          F        PR(>F)
groups     3.0   411.8  137.266667  34.174274  1.240642e-10
Residual  36.0   144.6    4.016667        NaN           NaN


#### Section 5

In [None]:
import pandas as pd
df = pd.read_csv("/content/drive/MyDrive/빅데이터분석기사파일/part3/ch6/tomato2.csv")

# 1. 비료 유형에 따른 토마토 수확량의 평균에 차이가 있는지 검정하기 위한 검정 통계량
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm
model = ols('수확량 ~ C(비료유형) + C(물주기) + C(비료유형):C(물주기)', data=df).fit()
print(anova_lm(model))
print("1.", anova_lm(model).iloc[0,3])

# 2. 위 통계량 p-value
print("2.", anova_lm(model).iloc[0,4])

# 3. 귀무가설 채택/기각
if anova_lm(model).iloc[0,4] <= 0.05:
  print('3. 기각')
else:
  print('3. 채택')

# 4. 물 주기에 따른 토마토 수확량의 평균에 차이가 있는지 검정하기 위한 검정 통계량
print("4.", anova_lm(model).iloc[1,3])

# 5. 위 통계량 p-value
print("5.", anova_lm(model).iloc[1,4])

# 6. 귀무가설 채택/기각
if anova_lm(model).iloc[1,4] <= 0.05:
  print('6. 기각')
else:
  print('6. 채택')

# 7. 비료 유형과 물 주기 간의 상호작용이 토마토 수확량의 평균에 차이가 있는지 검정하기 위한 검정 통계량
print("7.", anova_lm(model).iloc[2,3])

# 8. 위 통계량 p-value
print("8.", anova_lm(model).iloc[2,4])

# 9. 귀무가설 채택/기각
if anova_lm(model).iloc[2,4] <= 0.05:
  print('9. 기각')
else:
  print('9. 채택')

                  df        sum_sq      mean_sq         F    PR(>F)
C(비료유형)          2.0   5251.722222  2625.861111  3.184685  0.059334
C(물주기)           3.0   9057.000000  3019.000000  3.661490  0.026460
C(비료유형):C(물주기)   6.0   4271.833333   711.972222  0.863491  0.535426
Residual        24.0  19788.666667   824.527778       NaN       NaN
1. 3.1846848364383464
2. 0.059334264550395734
3. 채택
4. 3.661489741602946
5. 0.0264595158315761
6. 기각
7. 0.8634908870397201
8. 0.5354260742088475
9. 채택


#### Section 6

In [None]:
from scipy import stats
obs = [550, 250, 100, 70, 30]
exp = [0.6*1000, 0.25*1000, 0.08*1000, 0.05*1000, 0.02*1000]

# 1. 교통사고 5회 경함자 비율 0과 1사이로
print(30/1000)

# 2. 검정 통계량
statstic, pvalue = stats.chisquare(obs, exp)
print('2.', statstic)

# 3. p-value
print('3.', pvalue)

# 4. 귀무가설 채택/기각
if pvalue <= 0.05:
  print('4. 기각')
else:
  print('4. 채택')

0.03
2. 22.166666666666668
3. 0.00018567620386641427
4. 기각


#### Section 7

In [None]:
import pandas as pd

# 교차표 데이터
df1 = pd.DataFrame({'등록함':[50, 60], '등록안함':[30, 40]}, index=['빅데이터분석기사','정보초리기사캠프'])

# 1. 서로 독립적인지 검정 통계량
from scipy import stats
print(stats.chi2_contingency(df1))
print('1.', 0.03535714285714309)

# 2. 위의 통계량 p-value
print('2.', 0.8508492527705047)

# 3. 귀무가설 채택/기각
print('3. 채택')

# 로우 데이터
df2 = pd.DataFrame({
        '캠프': ['빅분기']*80 + ['정처기']*100,
        '등록여부': ['등록']*50 + ['등록안함']*30 + ['등록']*60 + ['등록안함']*40
})

# 4 ~ 6 위와 같음
df2 = pd.crosstab(df2['캠프'],df2['등록여부'])
print(stats.chi2_contingency())

Chi2ContingencyResult(statistic=0.03535714285714309, pvalue=0.8508492527705047, dof=1, expected_freq=array([[48.88888889, 31.11111111],
       [61.11111111, 38.88888889]]))
1. 0.03535714285714309
2. 0.8508492527705047
3. 채택
Chi2ContingencyResult(statistic=0.03535714285714309, pvalue=0.8508492527705047, dof=1, expected_freq=array([[48.88888889, 31.11111111],
       [61.11111111, 38.88888889]]))


#### Section. 8

In [None]:
import pandas as pd
df = pd.DataFrame({
    '할인율': [28, 24, 13, 0, 27, 30, 10, 16, 6, 5, 7, 11, 11, 30, 25,
            4, 7, 24, 19, 21, 6, 10, 26, 13, 15, 6, 12, 6, 20, 2],
    '온도': [15, 34, 15, 22, 29, 30, 14, 17, 28, 29, 19, 19, 34, 10,
           29, 28, 12, 25, 32, 28, 22, 16, 30, 11, 16, 18, 16, 33, 12, 22],
    '광고비': [342, 666, 224, 764, 148, 499, 711, 596, 797, 484, 986, 347, 146, 362, 642,
            591, 846, 260, 560, 941, 469, 309, 730, 305, 892, 147, 887, 526, 525, 884],
    '주문량': [635, 958, 525, 25, 607, 872, 858, 732, 1082, 863, 904, 686, 699, 615, 893,
            830, 856, 679, 918, 951, 789, 583, 988, 631, 866, 549, 910, 946, 647, 943]
})

# 1. 할인율과 온도의 상관 계수
print('1.', round(df['할인율'].corr(df['온도']),2))

# 2. 모델 결정 계수
from statsmodels.formula.api import ols
model = ols('주문량~할인율+온도+광고비', data=df).fit()
print('2', round(model.rsquared,2))

# 3. 각 변수의 회귀 계수
print('3.\n', model.params)

# 4. 모델의 절편
print('4.', model.params['Intercept'])

# 5. 온도의 회귀 계수 검정
print('5.', round(model.pvalues['온도'],4))

# 6. 할인율 10%, 온도 20도, 광고비 50만원 일때 배달 주문량 예측
new_data = pd.DataFrame({'할인율':[10], '온도': [20], '광고비':[500]})
print('6.', int(model.predict(new_data).iloc[0]))

# 7. 잔차 제곱합
print('7.', sum((df['주문량'] - model.predict(df))**2))

# 8. MSE
from sklearn.metrics import mean_squared_error
print('8.', mean_squared_error(df['주문량'], model.predict(df)))

# 9. 온도의 회귀 계수에 대한 90% 신뢰구간
print(model.conf_int(alpha=0.1).iloc[2,:])

# 10. 할인율 15%, 온도 25도, 광고비 30만원 일때 배달 주문량 예측
new_data = pd.DataFrame({'할인율':[15], '온도': [25], '광고비':[300]})
pred = model.get_prediction(new_data)
print('10.', pred.summary_frame(alpha=0.1))

# 11 독립변수 할인율과 온도를 고정한 상태에서 광고비가 배달 주문량에 영향을 주는지 가설 검정 유의 수준 0.05으로 귀무가설 채택/기각
print('11.', model.pvalues['광고비'], '기각')

1. 0.09
2 0.4
3.
 Intercept    267.660902
할인율            4.206829
온도             9.479843
광고비            0.414827
dtype: float64
4. 267.6609019248268
5. 0.0289
6. 706
7. 732197.8988142073
8. 24406.596627140243
0     2.490702
1    16.468984
Name: 온도, dtype: float64
10.          mean    mean_se  mean_ci_lower  mean_ci_upper  obs_ci_lower  \
0  692.207386  45.555397     614.507283     769.907488    395.622293   

   obs_ci_upper  
0    988.792478  
11. 0.0027398053085788596 기각


#### Section 9

In [None]:
import pandas as pd
df = pd.read_csv('/content/drive/MyDrive/빅데이터분석기사파일/part4/ch8/customer_travel.csv')
dfa = df.iloc[:int(len(df)/2),:]
dfb = df.iloc[int(len(df)/2):, :]
print(dfa.shape, dfb.shape)
print(dfa.head())

# 1. 로지스틱 회귀모델로 유의하지 않는 독립변수 갯수
from statsmodels.formula.api import logit
model = logit('target~age+service+social+booked', data=dfa).fit()
print('1.', sum(model.pvalues[1:] <= 0.05))

# 2. p-value가 0.05보다 작은 변수로만 모델을 다시 만들고 수정된 모델중 가장 큰 p-value가진 변수명
model = logit('target~age+booked', data=dfa).fit()
print('2.', model.pvalues[1:].idxmax())

# 3. 수정된 모델중 가장 큰 양의 회귀계수를 가진 변수명
print('3.\n', model.params[1:], '\n양의 회귀계수 없음')

# 4. 수정된 모델에서 로그 우도
print('4.', model.llf)

# 5. 수정된 모델에서 잔차이탈도
print('5.', -2 * model.llf)

# 6. 수정된 모델에서 booked 변수가 3 증가할 때 오즈비 계산하시오
import numpy as np
print('6.', np.exp(model.params['booked']*3))

# 7. 수정된 모델에서 p-value가 0.05보다 작은 변수들의 회귀 계수의 총합
print('7.', (model.params[model.pvalues < 0.05]).sum())

# 8. 수정된 모델로 b데이터를 사용에 예측 후 정확도
from sklearn.metrics import accuracy_score
pred = model.predict(dfb)
pred = (pred > 0.5).astype(int)
print('8.', accuracy_score(dfb['target'], pred))

# 9. 수정된 모델로 b데이터를 사용에 예측 후 오류율
print('9.', 1 - accuracy_score(dfb['target'], pred))

(400, 5) (400, 5)
   age  service  social  booked  target
0   34        6       0       1       0
1   34        5       1       0       1
2   37        3       1       0       0
3   30        2       0       0       0
4   30        1       0       0       0
Optimization terminated successfully.
         Current function value: 0.527521
         Iterations 6
1. 2
Optimization terminated successfully.
         Current function value: 0.528581
         Iterations 6
2. age
3.
 age      -0.102533
booked   -0.946054
dtype: float64 
양의 회귀계수 없음
4. -211.4323825144558
5. 422.8647650289116
6. 0.058533122917711476
7. 1.409468270586192
8. 0.765
9. 0.235
