In [None]:
import numpy as np, pandas as pd
from pandas import DataFrame, Series
from sklearn.model_selection import train_test_split

# 이진 분류

### Breast cancer data set used in Royston and Altman (2013)
### 유방암 사망 예측
### rotterdam 데이터셋은 유방암으로 인한 사망 정보를 담고 있습니다.
### death: 생사 여부를 나타냅니다. 0은 생존, 1은 사망을 의미합니다
### 이 데이터셋의 각 열은 다음과 같은 특성을 나타냅니다
|변수명|설명|
|:---|:---|
|pid|환자 식별 번호입니다.|
|year|수술한 연도입니다.|
|age|수술 당시 나이입니다.|
|meno|폐경 상태를 나타냅니다. 0은 성경 전, 1은 성경 후를 의미합니다.|
|size|종양 크기를 나타내며, 크기는 <=20, 20-50, >50의 레벨로 분류됩니다.|
|grade|분화 등급을 나타냅니다. 종양의 분화 등급은 종양 세포가 얼마나 정상 세포와 비슷한지를 나타내는 지표입니다.|
|nodes|양성 림프절의 수를 나타냅니다.|
|pgr|프로게스테론 수용체 수치를 나타냅니다. 이 수치는 fmol/l 단위로 측정됩니다.|
|er|에스트로겐 수용체 수치를 나타냅니다. 이 수치도 fmol/l 단위로 측정됩니다.|
|hormon|호르몬 치료를 받았는지 여부를 나타냅니다. 0은 '아니오', 1은 '예'를 의미합니다.|
|chemo|화학요법을 받았는지 여부를 나타냅니다.|
|rtime|재발까지의 일수 또는 마지막 추적 관찰까지의 일수입니다.|
|recur|재발 여부를 나타냅니다. 0은 재발하지 않음, 1은 재발을 의미합니다.|
|dtime|사망까지의 일수 또는 마지막 추적 관찰까지의 일수입니다.|
|death|생사 여부를 나타냅니다. 0은 생존, 1은 사망을 의미합니다.|

In [None]:
url = "https://vincentarelbundock.github.io/Rdatasets/csv/survival/rotterdam.csv"
rotterdam = pd.read_csv(url, index_col=0)
rotterdam.head()

In [None]:
X_train, X_test, y_train, y_test = train_test_split(rotterdam.iloc[:,:-1], rotterdam.iloc[:,-1], test_size=0.3, random_state=9999)

# 다중 분류

###	Dry Bean Dataset
### Dry Bean 데이터셋은 콩의 종류에 대한 정보를 담고 있습니다.
### beans: 예측 대상이며, SIRA, DERMASON, SEKER, HAZEL, CALI, BARBUNYA, BOMBAY 가 있습니다
### 이 데이터셋의 각 열은 다음과 같은 특성을 나타냅니다
|변수명|설명|
|:---|:---|
|Area|콩의 면적|
|Perimeter|콩의 둘레|
|MajorAxisLength|콩의 주축 길이|
|MinorAxisLength|콩의 부축 길이|
|AspectRation|주축 길이와 부축 길이의 비율|
|Eccentricity|콩의 이심률|
|ConvexArea|콩의 볼록 면적|
|EquivDiameter|콩의 등경 지름|
|Extent|콩의 확장도|
|Solidity|콩의 결속도|
|roundness|콩의 둥글기|
|Compactness|콩의 조밀도|
|ShapeFactor1|콩의 형태 요소 1|
|ShapeFactor2|콩의 형태 요소 2|
|ShapeFactor3|콩의 형태 요소 3|
|ShapeFactor4|콩의 형태 요소 4|
|Class|콩의 종류 (SIRA, DERMASON, SEKER, HAZEL, CALI, BARBUNYA, BOMBAY)|

In [None]:
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/00602/DryBeanDataset.zip"
import requests, zipfile, io
r = requests.get(url)
z = zipfile.ZipFile(io.BytesIO(r.content))
drybean = pd.read_excel(z.open('DryBeanDataset/Dry_Bean_Dataset.xlsx'))
drybean.head()

In [None]:
X_train, X_test, y_train, y_test = train_test_split(drybean.iloc[:,:-1], drybean.Class, test_size=0.3, random_state=42)

# 회귀

### Housing prices in Ames, Iowa
### 아이오와주 Ames에서 판매된 주택 가격(price) 예측
### ames 데이터셋은 미국 아이오와주의 주택 가격에 대한 정보를 포함하고 있는 데이터셋입니다.
|변수명|설명|
|:---|:---|
|Order|관찰 번호로, 각 개별 데이터 포인트를 식별하는 데 사용됩니다.|
|PID|땅 번호로, 도시 웹사이트에서 땅에 대한 정보를 찾는 데 사용될 수 있습니다.|
|area|지상 층(지하 제외)의 총 주거 공간 면적을 제곱피트로 표시한 값입니다.|
|price|부동산의 판매 가격을 미국 달러로 표시한 값입니다.|
|MS.SubClass|판매된 주택의 유형을 식별하는 코드입니다.|
|MS.Zoning|판매된 부동산의 일반적인 존(지역 구획) 분류를 나타냅니다.|
|Lot.Frontage|부동산에 연결된 도로의 선형 피트를 나타냅니다.|
|Lot.Area|부동산의 대지 면적을 제곱피트로 표시한 값입니다.|
|Street|부동산에 대한 도로 접근 유형을 나타냅니다.|
|Alley|부동산에 대한 골목 접근 유형을 나타냅니다.|
|Lot.Shape|부동산의 일반적인 모양을 나타냅니다.|
|Land.Contour|부동산의 평탄도를 나타냅니다.|
|Utilities|사용 가능한 공공 시설 유형을 나타냅니다.|
|Lot.Config|부동산의 대지 설정을 나타냅니다.|
|Land.Slope|부동산의 경사도를 나타냅니다.|
|Neighborhood|Ames 시 내의 물리적 위치를 나타냅니다. (지도 참조 가능)|
|Condition.1 & Condition.2|다양한 조건에 대한 근접성을 나타냅니다. 두 가지 이상의 조건이 있는 경우 Condition.2를 참조하세요.|
|Bldg.Type|주택 유형을 나타냅니다.|
|House.Style|주택의 스타일을 나타냅니다.|
|Overall.Qual|주택의 전반적인 재료와 마감에 대한 등급을 나타냅니다.|
|Overall.Cond|주택의 전반적인 상태에 대한 등급을 나타냅니다.|
|Year.Built|원래의 건설 연도를 나타냅니다.|
|Year.Remod.Add|리모델링 또는 추가 건설의 연도를 나타냅니다. 리모델링 또는 추가 건설이 없는 경우 건설 연도와 동일합니다.|
|Roof.Style|지붕 유형을 나타냅니다.|
|Roof.Matl|지붕 재료를 나타냅니다.|
|Exterior.1st & Exterior.2nd|주택의 외장을 나타냅니다. 두 가지 이상의 재료가 사용된 경우 Exterior.2nd를 참조하세요.|
|Mas.Vnr.Type|벽돌 베니어 유형을 나타냅니다.|
|Mas.Vnr.Area|벽돌 베니어 면적을 제곱피트로 나타냅니다.|
|Exter.Qual|외장 재료의 품질을 평가합니다.|
|Exter.Cond|외장 재료의 현재 상태를 평가합니다.|
|Foundation|기초 유형을 나타냅니다.|
|Bsmt.Qual|지하실의 높이를 평가합니다.|
|Bsmt.Cond|지하실의 일반적인 상태를 평가합니다.|
|Bsmt.Exposure|외출 가능성이나 정원 수준의 벽을 참조합니다.|
|BsmtFin.Type.1 & BsmtFin.Type.2|지하실 완성 영역의 등급을 나타냅니다. 여러 유형의 완성 영역이 있는 경우 BsmtFin.Type.2를 참조하세요.|
|BsmtFin.SF.1 & BsmtFin.SF.2|완성된 지하실의 제곱피트 면적을 나타냅니다. 여러 유형의 완성 영역이 있는 경우 BsmtFin.SF.2를 참조하세요.|
|Bsmt.Unf.SF|완성되지 않은 지하실의 제곱피트 면적을 나타냅니다.|
|Total.Bsmt.SF|지하실의 총 면적을 제곱피트로 나타낸 것입니다.|
|Heating|난방 방식을 나타냅니다.|
|Heating.QC|난방의 품질과 상태를 평가합니다.|
|Central.Air|중앙 에어컨의 유무를 나타냅니다.|
|Electrical|전기 시스템의 유형을 나타냅니다.|
|X1st.Flr.SF|1층의 면적을 제곱피트로 나타냅니다.|
|X2nd.Flr.SF|2층의 면적을 제곱피트로 나타냅니다.|
|Low.Qual.Fin.SF|낮은 품질의 마감 면적을 모든 층에 대해 제곱피트로 나타냅니다.|
|Bsmt.Full.Bath|지하실의 전체 화장실 수를 나타냅니다.|
|Bsmt.Half.Bath|지하실의 반 화장실 수를 나타냅니다.|
|Full.Bath|지상 층의 전체 화장실 수를 나타냅니다.|
|Half.Bath|지상 층의 반 화장실 수를 나타냅니다.|
|Bedroom.AbvGr|지상 층의 침실 수를 나타냅니다. 이에는 지하실의 침실이 포함되지 않습니다.|
|Kitchen.AbvGr|지상 층의 주방 수를 나타냅니다.|
|Kitchen.Qual|주방의 품질을 평가합니다.|
|TotRms.AbvGrd|화장실을 제외한 지상 층의 총 방 수를 나타냅니다.|
|Functional|주택의 기능성을 나타냅니다. 일반적으로는 "Typical"이라고 가정하지만, 차감이 필요한 경우에는 그렇지 않을 수 있습니다.|
|Fireplaces|벽난로의 수를 나타냅니다.|
|Fireplace.Qu|벽난로의 품질을 평가합니다.|
|Garage.Type|차고의 위치를 나타냅니다.|
|Garage.Yr.Blt|차고가 지어진 연도를 나타냅니다.|
|Garage.Finish|차고 내부의 마감 상태를 나타냅니다.|
|Garage.Cars|차고의 수용 가능 차량 수를 나타냅니다.|
|Garage.Area|차고의 면적을 제곱피트로 나타냅니다.|
|Garage.Qual|차고의 품질을 평가합니다.|
|Garage.Cond|차고의 현재 상태를 평가합니다.|
|Paved.Drive|포장된 차도의 유무를 나타냅니다.|
|Wood.Deck.SF|나무 데크의 면적을 제곱피트로 나타냅니다.|
|Open.Porch.SF|열린 현관의 면적을 제곱피트로 나타냅니다.|
|Enclosed.Porch|닫힌 현관의 면적을 제곱피트로 나타냅니다.|
|X3Ssn.Porch|3계절 현관의 면적을 제곱피트로 나타냅니다.|
|Screen.Porch|스크린 현관의 면적을 제곱피트로 나타냅니다.|
|Pool.Area|수영장 면적을 제곱피트로 나타냅니다.|
|Pool.QC|수영장의 품질을 평가합니다.|
|Fence|울타리의 품질을 나타냅니다.|
|Misc.Feature|기타 카테고리에 포함되지 않은 기능을 나타냅니다.|
|Misc.Val|기타 기능의 달러 가치를 나타냅니다.|
|Mo.Sold|판매된 달을 나타냅니다 (MM).|
|Yr.Sold|판매된 연도를 나타냅니다 (YYYY).|
|Sale.Type|판매 유형을 나타냅니다.|
|Sale.Condition|판매 상태를 나타냅니다.|

In [None]:
url = "https://vincentarelbundock.github.io/Rdatasets/csv/openintro/ames.csv"
ames = pd.read_csv(url, index_col=0)
ames.head()

In [None]:
X_train, X_test, y_train, y_test = train_test_split(ames.drop('price',1), ames.price, test_size=0.3, random_state=9999)

# 통계

## 단일표본 T검정

#### 아이오와주의 평균 집값은 $180,000이다. 이 때 Ames에서 판매된 집값의 평균을 아이오와주 집값의 평균과 신뢰수준 95% 이내에서 검정

1. Ames에서 판매된 집값(ames.price)의 표본 평균을 구하시오(반올림하여 소수점 둘째자리까지 계산)

2. 가설을 검정하기 위한 검정통계량을 구하시오(반올림하여 소수점 넷째자리까지 계산)

3. 위의 통계량에 대한 p-값을 구하시오(반올림하여 소수점 넷째자리까지 계산)

4. 유의수준 0.05를 기준으로 귀무가설의 검정 결과를 선택(채택/기각)

## 독립표본 T검정

#### 제발여부(recur)에 따른 프로게스테론 수치(pgr) 평균 차이를 신뢰수준 95% 이내에서 검정(rotterdam 데이터)

1. 유방암의 재발자와 비재발자의 프로게스테론 수치의 표본 평균을 각각 구하시오(반올림하여 소수점 둘째자리까지 계산)

2. 가설을 검정하기 위한 검정통계량을 구하시오(반올림하여 소수점 넷째자리까지 계산)

3. 위의 통계량에 대한 p-값을 구하시오(반올림하여 소수점 넷째자리까지 계산)

4. 유의수준 0.05를 기준으로 귀무가설의 검정 결과를 선택(채택/기각)

## 대응표본 T검정

In [None]:
data = DataFrame([[153, 172, 172, 147, 137, 144, 130, 139, 134, 121, 164, 156, 138, 154, 152, 123, 167, 129, 132, 152, 168, 151, 140, 127, 165, 165, 136, 185, 155, 158, 155, 144, 173, 183, 149, 169, 161, 155, 139, 175, 164, 154, 169, 159, 154, 168, 170, 146, 186, 168, 150, 162, 171, 158, 181, 142, 177, 146, 159, 162, 153, 147, 145, 135, 132, 148, 138, 133, 130, 137, 130, 133, 172, 149, 146, 153, 145, 152, 144, 131, 128, 155, 139, 151, 154, 146, 144, 137, 151, 136, 142, 133, 157, 137, 135, 156, 167, 145, 139, 139, 174, 136, 154, 146, 143, 141, 172, 153, 151, 158, 156, 140, 158, 175, 146, 150, 153, 175, 154, 158], [141, 160, 152, 150, 150, 155, 146, 158, 151, 155, 147, 176, 168, 147, 142, 156, 139, 180, 147, 158, 146, 157, 149, 158, 164, 157, 154, 141, 159, 150, 177, 181, 165, 146, 169, 155, 151, 137, 188, 161, 162, 154, 160, 155, 177, 156, 177, 157, 166, 172, 170, 170, 173, 171, 175, 159, 144, 149, 170, 158, 154, 149, 142, 143, 160, 149, 159, 152, 153, 138, 166, 155, 137, 163, 144, 145, 140, 170, 145, 143, 160, 171, 152, 145, 169, 155, 141, 155, 148, 160, 146, 158, 149, 144, 157, 136, 149, 144, 144, 150, 164, 142, 149, 149, 164, 175, 171, 147, 156, 167, 178, 161, 150, 156, 169, 147, 162, 160, 153, 183]], index = ['before', 'after']).T
data = DataFrame([[153, 172, 172, 147, 137, 144, 130, 139, 134, 121, 164, 156, 138, 154, 152, 123, 167, 129, 132, 152, 168, 151, 140, 127, 165, 165, 136, 185, 155, 158, 155, 144, 173, 183, 149, 169, 161, 155, 139, 175, 164, 154, 169, 159, 154, 168, 170, 146, 186, 168, 150, 162, 171, 158, 181, 142, 177, 146, 159, 162, 153, 147, 145, 135, 132, 148, 138, 133, 130, 137, 130, 133, 172, 149, 146, 153, 145, 152, 144, 131, 128, 155, 139, 151, 154, 146, 144, 137, 151, 136, 142, 133, 157, 137, 135, 156, 167, 145, 139, 139], [141, 160, 152, 150, 150, 155, 146, 158, 151, 155, 147, 176, 168, 147, 142, 156, 139, 180, 147, 158, 146, 157, 149, 158, 164, 157, 154, 141, 159, 150, 177, 181, 165, 146, 169, 155, 151, 137, 188, 161, 162, 154, 160, 155, 177, 156, 177, 157, 166, 172, 170, 170, 173, 171, 175, 159, 144, 149, 170, 158, 154, 149, 142, 143, 160, 149, 159, 152, 153, 138, 166, 155, 137, 163, 144, 145, 140, 170, 145, 143, 160, 171, 152, 145, 169, 155, 141, 155, 148, 160, 146, 158, 149, 144, 157, 136, 149, 144, 144, 150]], index = ['before', 'after']).T

#### 샘플 데이터의 after와 before의 평균 차이를 신뢰수준 95% 이내에서 검정

1. μd(after-before)의 표본 평균을 구하시오(반올림하여 소수점 둘째자리까지 계산)

2. 가설을 검정하기 위한 검정통계량을 구하시오(반올림하여 소수점 넷째자리까지 계산)

3. 위의 통계량에 대한 p-값을 구하시오(반올림하여 소수점 넷째자리까지 계산)

4. 유의수준 0.05를 기준으로 귀무가설의 검정 결과를 선택(채택/기각)

## ANOVA

In [None]:
from sklearn.datasets import load_iris
iris = load_iris()
df = DataFrame(iris.data, columns=list(map(lambda x:x[:-5].replace(' ','_'),iris.feature_names)))
df['target'] = iris.target
iris = df
from sklearn.datasets import load_wine
wine = load_wine()
df = DataFrame(wine.data, columns=list(map(lambda x:x.replace(' ','_').replace('/','_per_'),wine.feature_names)))
df['target'] = wine.target
wine = df

### ANOVA test 1

iris의 sepal_width에 차이가 있는지 검정

### 사후검정 1

tukey 방법을 이용하여 사후 검정을 진행하시오

### ANOVA test 2

wine의 magnesium에 차이가 있는지 검정

### 사후검정 2

Bonferroni 방법을 이용하여 사후검정을 진행하시오

## 교차분석

In [None]:
import seaborn as sns
titanic = sns.load_dataset('titanic')

성별(sex)과 탑승 항구(embarked)는 서로 독립인지, 종속인지 검정

1. Χ²값을 구하시오(반올림하여 소숫점 넷째자리까지 계산)

2. p값을 구하시오(반올림하여 소숫점 넷째자리까지 계산)

3. 유의수준 0.05를 기준으로 가설의 기각 여부를 결정

## 상관분석

캘리포니아 성적 데이터

In [None]:
url = "https://vincentarelbundock.github.io/Rdatasets/csv/AER/CASchools.csv"
CASchools = pd.read_csv(url, index_col=0).sort_index()
t = CASchools.read.value_counts().sort_index(ascending = False)
L1 = []
L2 = []
for i in range(len(t)):
    L1 += list(np.ones(t.iloc[i])*len(L1))
    L2 += list(np.ones(t.iloc[i])*t.index[i])
CASchools = pd.merge(CASchools, DataFrame([L2,L1],index=['read','rank_read']).T.drop_duplicates(), on = 'read')
t = CASchools.math.value_counts().sort_index(ascending = False)
L1 = []
L2 = []
for i in range(len(t)):
    L1 += list(np.ones(t.iloc[i])*len(L1))
    L2 += list(np.ones(t.iloc[i])*t.index[i])
CASchools = pd.merge(CASchools, DataFrame([L2,L1],index=['math','rank_math']).T.drop_duplicates(), on = 'math')
CASchools.loc[:,['rank_read','rank_math']] = CASchools.loc[:,['rank_read','rank_math']].applymap(int)+1

In [None]:
CASchools = CASchools.loc[:4,['district', 'school', 'county', 'read', 'math', 'rank_read', 'rank_math']]

## 상관분석1. 피어슨 상관계수

1. CASchools의 읽기 점수(read)와 수학 점수(math)의 피어슨 상관계수를 구하시오

2. 읽기 점수(read)와 수학 점수(math)의 피어슨 상관계수에 대한 p값을 구하시오

3. 읽기 점수(read)와 수학 점수(math)의 상관관계가 유의미한지 검정하시오

## 상관분석2. 스피어만 상관계수

1. CASchools의 읽기 등수(read_rank)와 수학 등수(math_rank)의 스피어만 상관계수를 구하시오

2. 읽기 등수(read_rank)와 수학 등수(math_rank)의 스피어만 상관계수에 대한 p값을 구하시오

3. 읽기 등수(read_rank)와 수학 등수(math_rank)의 상관관계가 유의미한지 검정하시오