# 빅데이터 분석기사 도움말 활용팁

In [17]:
import scipy
" , ".join(dir(scipy.stats))



- 설명서

In [4]:
help(scipy.stats.chi2_contingency)

Help on function chi2_contingency in module scipy.stats.contingency:

chi2_contingency(observed, correction=True, lambda_=None)
    Chi-square test of independence of variables in a contingency table.
    
    This function computes the chi-square statistic and p-value for the
    hypothesis test of independence of the observed frequencies in the
    contingency table [1]_ `observed`.  The expected frequencies are computed
    based on the marginal sums under the assumption of independence; see
    `scipy.stats.contingency.expected_freq`.  The number of degrees of
    freedom is (expressed using numpy functions and attributes)::
    
        dof = observed.size - sum(observed.shape) + observed.ndim - 1
    
    
    Parameters
    ----------
    observed : array_like
        The contingency table. The table contains the observed frequencies
        (i.e. number of occurrences) in each category.  In the two-dimensional
        case, the table is often described as an "R x C table".
    

# 6회 기출문제 응용

## Section 1 응용
- tips 데이터셋 활용한 적합성 검정
- 정해진 비율의 차이가 실제로 존재하는지 확인하는 코드

In [19]:
import seaborn as sns
tips = sns.load_dataset("tips")
tips.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


### 문제1
- 문제 : Smoker가 'Yes'으로 분류된 남성과 여성의 비율을 소수점 이하 둘째 자리까지 출력하시오.

In [58]:
# 코드

sy = tips.loc[(tips["smoker"] == "Yes"), :].reset_index(drop=True)

sy['sex'].value_counts(dropna=False, normalize=True)


sex
Male      0.645161
Female    0.354839
Name: proportion, dtype: float64

### 문제2
- 팁을 준 고객들 중 남성과 여성의 비율이 50:50인지를 검정하는 간단한 적합도 검정을 수행

In [9]:
import scipy
",".join(dir(scipy.stats))



In [10]:
help(scipy.stats.chisquare)

Help on function chisquare in module scipy.stats._stats_py:

chisquare(f_obs, f_exp=None, ddof=0, axis=0)
    Calculate a one-way chi-square test.
    
    The chi-square test tests the null hypothesis that the categorical data
    has the given frequencies.
    
    Parameters
    ----------
    f_obs : array_like
        Observed frequencies in each category.
    f_exp : array_like, optional
        Expected frequencies in each category.  By default the categories are
        assumed to be equally likely.
    ddof : int, optional
        "Delta degrees of freedom": adjustment to the degrees of freedom
        for the p-value.  The p-value is computed using a chi-squared
        distribution with ``k - 1 - ddof`` degrees of freedom, where `k`
        is the number of observed frequencies.  The default value of `ddof`
        is 0.
    axis : int or None, optional
        The axis of the broadcast result of `f_obs` and `f_exp` along which to
        apply the test.  If axis is None, al

- 팁을 준 고객들 중 남성과 여성의 비율이 50:50인지를 검정하는 간단한 적합도 검정을 수행

In [50]:
# 코드

# 성별 비율 계산
sex_counts = sy['sex'].value_counts()

# 기대 비율 계산
expected_counts = [0.5 * len(sy)] * 2

# 카이제곱 적합도 검정 수행
chi2_stat, p_val = scipy.stats.chisquare(f_obs=sex_counts, f_exp=expected_counts)

print("카이제곱 통계량:", chi2_stat)
print("p-값:", p_val.round(4))

# 위 코드에서 chi2_stat는 카이제곱 통계량을, p_val은 p-값을 나타냅니다. 
# p-값이 유의 수준(예: 0.05)보다 작으면 귀무가설(남성과 여성의 비율이 50:50이다)을 기각할 수 있습니다.

# 따라서 기각

카이제곱 통계량: 7.838709677419355
p-값: 0.0051


### 문제3
- 위의 통계량에 대한 유의확률(p-value)을 출력(반올림하여 소수점 이하 넷째 자리까지 계산)하고, 유의수준 5% 하에서 가설 검정의 결과를 (귀무가설 채택 / 기각) 중 하나를 선택하시오.
- 가설검정
  + 귀무가설 : 남성과 여성 고객의 비율이 50:50이다.
  + 대립가설 : 남성과 여성 고객의 비율이 50:50이 아니다.

## Section 2 응용
- diamonds 데이터셋 활용
- 결측치(NA)를 포함하는 모든 행을 제거한 후, (carat, depth, table) 항목을 이용하여 price를 예측하는 다중 선형회귀 모형을 구축하고 다음 수행 결과를 출력한다.

In [51]:
import seaborn as sns

diamonds = sns.load_dataset("diamonds")
diamonds.head(1)

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43


In [53]:
df = diamonds.dropna()
df.head()

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
1,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31
2,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31
3,0.29,Premium,I,VS2,62.4,58.0,334,4.2,4.23,2.63
4,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75


In [54]:
df.shape, diamonds.shape

((53940, 10), (53940, 10))

### 문제1
- carat 항목에 대한 회귀계수를 구하시오. 단, 출력문은 print()를 이용하고 소수점 이하 넷째 자리에서 반올림하여 소수점 이하 셋째 자리까지 출력하시오.

In [56]:
# 코드

### 문제2
- table 항목에 대한 t-통계량을 소수점 이하 셋째 자리까지 출력하시오.


### 문제3
- 다음 예측변수 값에 대한 Price를 예측하고, carat 항목의 계수값에 대한 95% 신뢰구간을 출력하시오.
  + carat = 0.35,
  + depth = 57.5
  + table = 53.1

# 7회 기출문제 응용

## Section1 응용
- boston 데이터 중에서 상관관계가 가장 작은 값을 구하시오.

In [16]:
from google.colab import drive
drive.mount("/content/drive")

ModuleNotFoundError: No module named 'google.colab'

In [None]:
import pandas as pd

DATA_PATH = '/content/drive/MyDrive/Colab Notebooks/2024/한경-토스뱅크/통계실습문제/'
df = pd.read_csv(DATA_PATH + "boston.csv", encoding="euc-kr", index_col=0)
df.head()

In [None]:
df.corr()

In [None]:
#

## Section2 응용
- tips 데이터를 이용하여 total_bill과 tip 사이의 관계를 분석한다.

### 문제 1
- total bill을 이용하여 tip을 예측하는 모형을 구축하시오.

In [None]:
# code

### 문제2
- 구축된 모형에 대한 결정계수의 값을 출력하시오.

In [None]:
# code

### 문제3
- tip에 대한 키의 오즈비(Odds Ratio, total bill의 변화가 몸무게 로그 오즈에 미치는 영향을 출력하시오)

In [None]:
# code

## Section3 응용


### 문제1
- 독립변수 total_bill, tip으로 sex를 이용하여 성별(Male=0, Female=1)을 분류하는 모형을 구축하시오.
- statsmodels.api에 포함되어 있는 Logit 함수를 이용하시오.

In [None]:
# code

### 문제2
- 키, 몸무게에 대한 유의확률을 출력하고 최대 유의확률 값을 출력하시오.

In [None]:
# code

### 문제3
- 훈련:평가=70:30로 구분하여 평가 데이터에 대한 혼동행렬 ROC, AUC를 출력한다.

In [None]:
# 머신러닝 문제
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, confusion_matrix, roc_curve, auc, roc_auc_score
import pandas as pd
import numpy as np
import statsmodels.api as sm
import seaborn as sns
import matplotlib.pyplot as plt

np.random.seed(12)

tips = sns.load_dataset("tips")
df = tips.copy()
df = df.dropna()
df.loc[:, '성별_변환'] = df['smoker'].replace({'Yes':0, 'No':1})
print(tips.shape, df.shape)

X = df.loc[:, ['total_bill', 'tip']]
y = df['성별_변환']

print(X.shape, y.shape)

# 데이터셋 분리
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=12
)

# 모델 생성
model = sm.Logit(y_train, X_train).fit()
print(model.summary())

# 모델 예측값 생성
y_pred_proba = model.predict(X_test)
y_pred = np.where(y_pred_proba >= 0.5, 1, 0)

confusion_matrix(y_test, y_pred)
# roc_auc_score(y_test, y_pred) AUC 점수를 바로 구하는 코드

fpr, tpr, thresholds = roc_curve(y_test, y_pred)
auc(fpr, tpr) # AUC 점수를 ROC_CURVE 메서드 활용

fig, ax = plt.subplots()
ax.plot(fpr, tpr, color = 'darkblue')
ax.plot([0, 1], [0, 1], lw=2, linestyle='--')

plt.show()