# 빅데이터 분석 기사 실기 - 제3유형

---

## Import

In [1]:
import numpy as np
import pandas as pd

## 1. 단일표본 t-검정
 - 같다, 크다, 작다

In [2]:
df = pd.read_csv('./data/단일표본t검정.csv')
df.head()

Unnamed: 0,신장
0,148.0
1,150.0
2,149.0
3,144.0
4,152.0


#### 신장의 평균이 149가 아니 라고 할 수 있는가?
- 귀무가설(H0): 신장의 평균은 149이다
- 대립가설(H1): 신장의 평균은 149가 아니다
- 유의 수준: 0.05

- 독립성, 정규성 가정

1. 검정통계량
2. p-value
3. 검정결과

In [3]:
from scipy import stats

mu = 149
alpha = 0.05  # 유의수준

# t-test
t_statistic, p_value = stats.ttest_1samp(df['신장'], mu, alternative='two-sided')
#t_statistic, p_value = stats.ttest_1samp(df['신장'], mu, alternative='greater')
#t_statistic, p_value = stats.ttest_1samp(df['신장'], mu, alternative='less')

# 결과 출력
print('t-statistic:', round(t_statistic,2))
print('p-value:', round(p_value,2))

# 귀무가설 채택

t-statistic: 0.87
p-value: 0.39


## 2. 대응표본 t-검정

In [4]:
df = pd.read_csv('./data/대응표본t검정.csv')
df.head()

Unnamed: 0,id,사전체력,사후체력
0,1,50.0,36.67
1,2,50.0,61.67
2,3,67.5,85.0
3,4,95.0,75.0
4,5,67.5,75.0


#### 사후체력이 사전체력보다 크다고 할 수 있는가?
- 귀무가설(H0): (사후체력 - 사전체력) <= 0
- 대립가설(H1): (사후체력 - 사전체력)  > 0
- 유의 수준: 0.05

1. 두 그룹의 평균차이(사후체력 - 사전체력)
2. 검정통계량
3. p-value
4. 검정결과

In [5]:
from scipy import stats

alpha = 0.05  # 유의수준

df['diff'] = df['사후체력'] - df['사전체력']

print('평균차이:',round(df['diff'].mean(),2))

t_statistic, p_value = stats.ttest_rel(df['사후체력'], df['사전체력'], alternative='greater')
print('t-statistic:', round(t_statistic,2))
print('p-value:', round(p_value,2))

# 귀무가설 기각, 대립가설 채택

평균차이: 4.18
t-statistic: 2.94
p-value: 0.0


## 3. 독립표본 t-검정
  - 등분산 검정

In [6]:
df = pd.read_csv('./data/독립표본t검정.csv')
df.head()

Unnamed: 0,id,성별,수학성적,국어성적
0,1,남성,78.0,88.0
1,2,남성,84.0,76.0
2,3,남성,76.0,74.0
3,4,남성,88.0,90.0
4,5,남성,70.0,69.0


#### 남성과 여성의 수학성적은 차이가 있는가?
- 귀무가설(H0): 남성의 수학성적과 여성의 수학성적은 같다.
- 대립가설(H1): 남성의 수학성적과 여성의 수학성적은 같지 않다.
- 유의 수준: 0.05

1. 검정통계량
2. p-value
3. 검정결과

In [7]:
group1 = df.loc[df['성별'] == '남성', '수학성적']
group2 = df.loc[df['성별'] == '여성', '수학성적']

In [8]:
# 등분산 검정
# 귀무가설: 두 그룹의 분산이 같다.

from scipy import stats

statistic, p_value = stats.levene(group1, group2, center='mean')

print('statistic:', round(statistic,2))
print('p-value:', round(p_value,2))

# 귀무가설 채택

statistic: 1.56
p-value: 0.22


In [9]:
from scipy import stats

alpha = 0.05  # 유의수준

t_statistic, p_value = stats.ttest_ind(group1, group2, equal_var=True,  alternative='two-sided')
#t_statistic, p_value = stats.ttest_ind(group1, group2, equal_var=False, alternative='two-sided')

print('t-statistic:', round(t_statistic,2))
print('p-value:', round(p_value,2))

# 귀무가설 채택

t-statistic: -1.54
p-value: 0.13


## 4. 분산분석
 - 크루스칼-왈리스 검정(정규성X)
 - 등분산 검정

In [10]:
df = pd.read_csv('./data/일원분산분석.csv')
df.head()

Unnamed: 0,교육방법,판매실적
0,program A,65.0
1,program A,87.0
2,program A,73.0
3,program A,79.0
4,program A,81.0


#### 교육방법에 따른 판매실적은 차이가 있는가?
- 귀무가설(H0): 교육방법에 따른 그룹의 판매실적은 같다.
- 대립가설(H1): 교육방법에 따른 그룹의 판매실적은 같지 않다.
- 유의 수준: 0.05

1. 검정통계량
2. p-value
3. 검정결과

In [11]:
df['교육방법'].value_counts()

program B    7
program A    6
program C    6
program D    4
Name: 교육방법, dtype: int64

In [12]:
group_A = df.loc[df['교육방법'] == 'program A', '판매실적']
group_B = df.loc[df['교육방법'] == 'program B', '판매실적']
group_C = df.loc[df['교육방법'] == 'program C', '판매실적']
group_D = df.loc[df['교육방법'] == 'program D', '판매실적']

In [13]:
# 등분산 검정
# 귀무가설: 모든 그룹의 분산이 같다.

from scipy import stats

statistic, p_value = stats.levene(group_A, group_B, group_C, group_D, center='mean')

print('statistic:', round(statistic,2))
print('p-value:', round(p_value,2))

# 귀무가설 채택

statistic: 1.22
p-value: 0.33


In [14]:
# One-way ANOVA
import statsmodels.formula.api as smf
from statsmodels.stats.anova import anova_lm

model  = smf.ols('판매실적 ~ C(교육방법)', df)
result = model.fit()
anova_lm(result)

Unnamed: 0,df,sum_sq,mean_sq,F,PR(>F)
C(교육방법),3.0,712.586439,237.528813,3.771461,0.028041
Residual,19.0,1196.630952,62.980576,,


In [15]:
# 사후분석 Post-hoc: Tukey HSD
from statsmodels.sandbox.stats.multicomp import MultiComparison
res = MultiComparison(df['판매실적'], df['교육방법']).tukeyhsd(alpha=0.05)
res.summary()

group1,group2,meandiff,p-adj,lower,upper,reject
program A,program B,2.7619,0.9226,-9.653,15.1768,False
program A,program C,-4.8333,0.7201,-17.7168,8.0502,False
program A,program D,12.0833,0.1198,-2.3209,26.4875,False
program B,program C,-7.5952,0.3411,-20.0101,4.8196,False
program B,program D,9.3214,0.2718,-4.6652,23.308,False
program C,program D,16.9167,0.018,2.5125,31.3209,True


## 5. 카이제곱 검정
 - 적합도 검정:각 범주에 속할 확률이 같은지 검정
 - 독립성 검정

### 5.1 적합도 검정: 두 집단간의 각 범주의 비율이 같은지 검정

주어진 데이터를 이용하여 항암제를 투여 받은 환자들의 부작용 분포와 감기약을 투여 받은 환자들의 부작용 분포간 차이가 있는지 확인하시오.  

*데이터*
1. 항암제 투여 환자들의 관찰된 부작용
 - ['무증상', '속쓰림', '무증상', '무증상', '조금아픔', '무증상', '조금아픔', '무증상', '조금아픔', '무증상', '아픔', '무증상', '조금아픔', '무증상', '아픔', '무증상', '속쓰림', '무증상', '아픔', '무증상']
2. 감기약 투여 환자들의 부작용 발생 비율
 - 아픔 5% / 조금아픔 10% / 속쓰림 15% / 무증상 70%

- 귀무가설(H0): 감기약의 부작용과 항암제의 부작용은 동일하다.
- 대립가설(H1): 감기약의 부작용과 항암제의 부작용은 다르다.

##### 감기약의 부작용 비율과 항암제의 부작용 관찰 값이 통계적으로 유의미하게 차이가 있는지 카이제곱 검정을 이용하여 검정 통계량과 p-value를 구하시오.

In [16]:
import numpy as np
import pandas as pd

In [17]:
# 주어진 데이터를 입력
df = pd.DataFrame({'항암제': ['무증상','속쓰림','무증상','무증상','조금아픔','무증상','조금아픔','무증상','조금아픔',
                              '무증상', '아픔','무증상','조금아픔','무증상','아픔','무증상','속쓰림','무증상','아픔','무증상']})
df.head()

Unnamed: 0,항암제
0,무증상
1,속쓰림
2,무증상
3,무증상
4,조금아픔


In [18]:
df['항암제'].value_counts()

무증상     11
조금아픔     4
아픔       3
속쓰림      2
Name: 항암제, dtype: int64

In [19]:
# 감기약 투여 환자들의 부작용 발생 비율
# 무증상 70% / 조금아픔 10% / 아픔 5% / 속쓰림 15%

In [20]:
total = len(df['항암제'])

val1 = df['항암제'].value_counts().to_list()

val2 = [total*0.7, total*0.1, total*0.05, total*0.15]

In [21]:
val1

[11, 4, 3, 2]

In [22]:
val2

[14.0, 2.0, 1.0, 3.0]

In [23]:
import scipy.stats as stats

statistic, p_value = stats.chisquare(val1, val2)

In [24]:
print(statistic)

6.976190476190475


In [25]:
print(p_value)

0.07266054733847582


### 5.2 독립성 검정

In [26]:
df = pd.read_csv('./data/카이제곱검정.csv')
df.head()

Unnamed: 0,세탁기크기,가족규모
0,소형,1-2명
1,소형,1-2명
2,소형,1-2명
3,소형,1-2명
4,소형,1-2명


#### 세탁기크기와 가족규모는 서로 관계가 있는가?
- 귀무가설(H0): 세탁기크기와 가족 규모는 서로 관계가 없다.(독립이다)
- 대립가설(H1): 세탁기크기와 가족 규모는 서로 관계가 있다.
- 유의 수준: 0.05

1. 검정통계량
2. p-value
3. 검정결과

In [27]:
from scipy import stats

obs  = pd.crosstab(index=df['세탁기크기'], columns=df['가족규모'])

# statistic(통계량), p_value, dof(자유도), expected_freq(기대빈도)
statistic, p_value, dof, expected = stats.chi2_contingency(obs)

print(round(statistic,2))
print(round(p_value,2))
print(dof) # 자유도 = (행-1)*(열-1)
print(np.round(expected, 2) )

# 귀무가설 기각: 세탁기 크기와 가족 규모는 관계가 있다.


58.21
0.0
4
[[14.   49.   42.  ]
 [ 9.33 32.67 28.  ]
 [16.67 58.33 50.  ]]


## 6. 다중 회귀 분석

In [28]:
df = pd.read_csv('./data/다중회귀분석.csv')
df.head()

Unnamed: 0,외관,편의성,유용성,만족감
0,4.0,3.0,2.8,3.0
1,5.0,3.0,1.0,5.0
2,4.7,3.0,3.0,4.0
3,5.0,4.0,1.6,3.0
4,5.0,3.0,3.2,5.0


In [29]:
import statsmodels.formula.api as smf
model  = smf.ols('만족감 ~ 외관 + 편의성 + 유용성', df)
result = model.fit()
print(result.summary())

                            OLS Regression Results                            
Dep. Variable:                    만족감   R-squared:                       0.237
Model:                            OLS   Adj. R-squared:                  0.230
Method:                 Least Squares   F-statistic:                     33.31
Date:                Thu, 28 Mar 2024   Prob (F-statistic):           9.04e-19
Time:                        02:58:42   Log-Likelihood:                -295.22
No. Observations:                 325   AIC:                             598.4
Df Residuals:                     321   BIC:                             613.6
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      1.4564      0.197      7.387      0.0

In [30]:
result.params

Intercept    1.456394
외관           0.143731
편의성          0.284086
유용성          0.174961
dtype: float64

In [31]:
result.pvalues

Intercept    1.305064e-12
외관           6.893104e-06
편의성          8.450926e-09
유용성          1.444758e-04
dtype: float64

In [32]:
result.predict(df)

0      3.373469
1      3.202271
2      3.509074
3      3.591334
4      3.587185
         ...   
320    2.201216
321    3.736343
322    2.837298
323    3.978322
324    2.201216
Length: 325, dtype: float64

In [33]:
result.resid

0     -0.373469
1      1.797729
2      0.490926
3     -0.591334
4      1.412815
         ...   
320   -0.901216
321   -0.736343
322   -0.537298
323    1.021678
324   -0.901216
Length: 325, dtype: float64

## 7. 상관 분석

In [34]:
df = pd.read_csv('./data/상관분석.csv')
df.head()

Unnamed: 0,외관,편의성,유용성,만족감
0,4.0,3.0,2.8,3.0
1,5.0,3.0,1.0,5.0
2,4.7,3.0,3.0,4.0
3,5.0,4.0,1.6,3.0
4,5.0,3.0,3.2,5.0


- 귀무가설(H0): 상관계수가 0이다. 두 변수간에 상관관계가 없다.
- 대립가설(H1): 두 변수간에 상관관계가 있다.

In [35]:
from scipy.stats import pearsonr

r, p_value = pearsonr(df['외관'], df['만족감'])

# 1. 상관계수
print(round(r, 2) )

# 2. p-value
print(round(p_value, 2))

# 3. 검정통계량
# T = r * root(n-2) / root(1-r2)

n = len(df)
r2 = r**2
statistic = r * ((n-2)**0.5) / ((1-r2)**0.5)
print(round(statistic, 2))

0.32
0.0
6.15


## 8. 로지스틱 회귀 분석

In [36]:
df = pd.read_csv('./data/로지스틱회귀분석.csv')
df.head()

Unnamed: 0,성별,직급,외관,편의성,유용성,만족감
0,남자,사원,4.0,3.0,3.0,3.0
1,남자,사원,5.0,3.0,1.0,5.0
2,남자,사원,5.0,3.0,3.0,5.0
3,남자,사원,5.0,4.0,3.0,3.0
4,남자,사원,5.0,3.0,4.0,5.0


In [37]:
df.replace({'남자':0, '여자':1}, inplace=True)

In [38]:
import statsmodels.formula.api as smf
model  = smf.logit('성별 ~ 외관 + 편의성 + 유용성 + 만족감', df)
result = model.fit()
print(result.summary())

Optimization terminated successfully.
         Current function value: 0.633501
         Iterations 5
                           Logit Regression Results                           
Dep. Variable:                     성별   No. Observations:                  325
Model:                          Logit   Df Residuals:                      320
Method:                           MLE   Df Model:                            4
Date:                Thu, 28 Mar 2024   Pseudo R-squ.:                 0.03559
Time:                        02:58:42   Log-Likelihood:                -205.89
converged:                       True   LL-Null:                       -213.48
Covariance Type:            nonrobust   LLR p-value:                  0.004315
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept     -2.6440      0.709     -3.729      0.000      -4.034      -1.254
외관            -0.0078      0.

#### 변수가 한 단위 증가 할때 Odds ratio

In [39]:
np.exp(result.params)

Intercept    0.071074
외관           0.992196
편의성          1.340567
유용성          0.903518
만족감          1.498759
dtype: float64

## (체험) 제 3 유형 예제

## 데이터 읽기

In [40]:
import pandas as pd
import numpy as np

In [41]:
df = pd.read_csv('./data/titanic.csv')
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Gender,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [42]:
df['Gender'].replace({'male':0, 'female':1}, inplace=True)

1. Gender와 Survived 변수 간의 독립성 검정을 실시 하였을 때,
   카이제곱 통계량은? (반올림하여 소수 셋째 자리까지 계산)

In [43]:
from scipy import stats
obs  = pd.crosstab(df['Gender'], df['Survived'])
# statistic(통계량), p_value, dof(자유도), expected_freq(기대빈도)
statistic, p_value, dof, expected = stats.chi2_contingency(obs)

print(round(statistic,3))

260.717


2. Gender, SibSp, Parch, Fare를 독립변수로 사용하여 로지스틱
   회귀모형을 실시하였을 때, Parch 변수의 계수값은? (반올림하여 소수 셋째 자리까지 계산)

In [44]:
from scipy import stats
import statsmodels.formula.api as smf
model  = smf.logit('Survived ~ Gender + SibSp + Parch + Fare', df)
result = model.fit()
print(result.summary())

Optimization terminated successfully.
         Current function value: 0.482065
         Iterations 6
                           Logit Regression Results                           
Dep. Variable:               Survived   No. Observations:                  891
Model:                          Logit   Df Residuals:                      886
Method:                           MLE   Df Model:                            4
Date:                Thu, 28 Mar 2024   Pseudo R-squ.:                  0.2761
Time:                        02:58:43   Log-Likelihood:                -429.52
converged:                       True   LL-Null:                       -593.33
Covariance Type:            nonrobust   LLR p-value:                 1.192e-69
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept     -1.6956      0.129    -13.098      0.000      -1.949      -1.442
Gender         2.6422      0.

In [45]:
print(round(result.params['Parch'],3))

-0.201


3. 위 2번 문제에서 추정된 로지스틱 회귀모형에서 SibsP 변수가
   한 단위 증가할 때 생존할 오즈비(Odds ratio) 값은? (반올림하여 소수 셋째 자리까지 계산)

In [46]:
print(round(np.exp(result.params['SibSp']),3))

0.702


---

In [47]:
# End of file