# [빅데이터 분석을 위한 통계 이론]

## 1. 유클리디안 거리, 코사인 유사도 및 거리에 대해 설명하시오. (코드를 예로 들어서)

- ### 유클리디안 거리<br>
    * 두 데이터 간 직선 거리 : 각 차원 요소의 차를 제곱하여 모두 더한 후 제곱근을 한 값이다.  
    * 추천시스템에서 찾고자 하는 값과 가장 유사한 데이터를 찾는 것에 사용한다.
    
$$\sqrt{\sum^n_{i=1} (x_i - y_i)^2}$$

In [None]:
import numpy as np

def euclidean_dist(x, y):   
    return np.sqrt(np.sum((x - y) ** 2))

- ### 코사인 유사도<br>
    * 추천시스템에서 유클리디안 거리의 단점을 보완하기 위해 사용하는 유사도 측정법.    
    * 두 벡터 간의 코사인 각도를 이용하여 구할 수 있는 두 벡터의 유사도를 의미. 두 벡터의 방향이 완전히 동일한 경우에는 1의 값을 가지며, 90°의 각을 이루면 0, 180°로 반대의 방향을 가지면 -1의 값을 갖게 되어 코사인 유사도는 -1 이상 1 이하의 값을 가지며 값이 1에 가까울수록 유사도가 높다고 판단한다.

$$\frac{x\bullet y}{\sqrt{x\bullet x}\sqrt{y\bullet y}}$$

In [None]:
from sklearn.metrics.pairwise import cosine_similarity

cosine_similarity(c_vector, c_vector)[0]

## 2. 표준화와 정규화에 대해 정의하고, 수식에 대해 설명하시오(코드를 예로 들어서)

- ### 표준화  

변수들 간의 척도(scale)가 다른 경우 표준화를 수행한다.
$$z = \frac{x_i-\mu}{\sigma}$$

In [1]:
import numpy as np
from sklearn.preprocessing import StandardScaler

data = np.arange(9).reshape(3, 3)
std_scaler = StandardScaler()
std_scaler.fit_transform(data)

array([[-1.22474487, -1.22474487, -1.22474487],
       [ 0.        ,  0.        ,  0.        ],
       [ 1.22474487,  1.22474487,  1.22474487]])

- ###  정규화

각 열을 기준으로, 각 열 데이터의 값을 0~1사이로 오도록 하는 작업  

$$z = \frac{x - x_\text{min}}{x_\text{max} - x_\text{min}}$$

In [2]:
import numpy as np
from sklearn.preprocessing import MinMaxScaler

data = np.arange(9).reshape(3, 3)
minmax_scaler=MinMaxScaler()
minmax_scaler.fit_transform(data)

array([[0. , 0. , 0. ],
       [0.5, 0.5, 0.5],
       [1. , 1. , 1. ]])

# [파이썬 분석 및 시각화 라이브러리]

In [3]:
import pandas as pd
import numpy as np

In [4]:
titanic = pd.read_csv("titanic.csv")

## 1. 타이타닉 데이터에 대해 아래와 같은 작업을 수행하시오. 

 ### 1-1. Pclass를 원핫인코딩

In [5]:
titanic = pd.concat([titanic, pd.get_dummies(titanic.Pclass, prefix='Pclass')],axis=1)
titanic

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Pclass_1,Pclass_2,Pclass_3
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S,0,0,1
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,1,0,0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S,0,0,1
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S,1,0,0
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S,0,1,0
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S,1,0,0
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S,0,0,1
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C,1,0,0


### 1-2. Age를 이산화(5개 구간으로 나눔)

In [6]:
bin = np.linspace(titanic.Age.min(),titanic.Age.max(),5)
titanic['Agebins'] = np.digitize(titanic.Age, bin)
titanic

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Pclass_1,Pclass_2,Pclass_3,Agebins
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S,0,0,1,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,1,0,0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S,0,0,1,2
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S,1,0,0,2
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S,0,0,1,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S,0,1,0,2
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S,1,0,0,1
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S,0,0,1,5
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C,1,0,0,2


### 1-3. embarked를 원핫인코딩

In [7]:
titanic = pd.concat([titanic, pd.get_dummies(titanic.Embarked, prefix='Embarked')],axis=1)
titanic

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Pclass_1,Pclass_2,Pclass_3,Agebins,Embarked_C,Embarked_Q,Embarked_S
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S,0,0,1,2,0,0,1
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,1,0,0,2,1,0,0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S,0,0,1,2,0,0,1
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S,1,0,0,2,0,0,1
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S,0,0,1,2,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S,0,1,0,2,0,0,1
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S,1,0,0,1,0,0,1
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S,0,0,1,5,0,0,1
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C,1,0,0,2,1,0,0


## 2. 
- bins = [5, 20, 30, 40, 60, 90]  
- labels = ["미성년자", "청년", "중년", "장년", "노년"]  
타이타닉호 승객을 사망자와 생존자 그룹으로 나누고 각 그룹에 대해 '미성년자', '청년', '중년', '장년', '노년' 승객의 비율을 구한다.   
각 그룹 별로 비율의 전체 합은 1이 되어야 한다.

In [8]:
bins = [5, 20, 30, 40, 60, 90]
labels = ["미성년자", "청년", "중년", "장년", "노년"]

In [9]:
titanic['Agebins2'] = pd.cut(titanic.Age, bins, labels=labels)
titanic['Agebins2']

0        청년
1        중년
2        청년
3        중년
4        중년
       ... 
886      청년
887    미성년자
888     NaN
889      청년
890      중년
Name: Agebins2, Length: 891, dtype: category
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

In [10]:
df = pd.DataFrame(titanic.groupby([titanic.Survived, titanic.Agebins2]).size(), columns=['Cnt'])
df

Unnamed: 0_level_0,Unnamed: 1_level_0,Cnt
Survived,Agebins2,Unnamed: 2_level_1
0,미성년자,84
0,청년,146
0,중년,86
0,장년,78
0,노년,17
1,미성년자,51
1,청년,84
1,중년,69
1,장년,50
1,노년,5


In [11]:
df['rate'] = pd.concat([df.loc[0].Cnt/df.loc[0].Cnt.sum(), df.loc[1].Cnt/df.loc[1].Cnt.sum()]).array
df

Unnamed: 0_level_0,Unnamed: 1_level_0,Cnt,rate
Survived,Agebins2,Unnamed: 2_level_1,Unnamed: 3_level_1
0,미성년자,84,0.20438
0,청년,146,0.355231
0,중년,86,0.209246
0,장년,78,0.189781
0,노년,17,0.041363
1,미성년자,51,0.196911
1,청년,84,0.324324
1,중년,69,0.266409
1,장년,50,0.19305
1,노년,5,0.019305


In [12]:
print("사망자 비율의 전체 합: ", df[df.index.get_level_values('Survived')==0].rate.sum())
print("생존자 비율의 전체 합: ", df[df.index.get_level_values('Survived')==1].rate.sum())

사망자 비율의 전체 합:  0.9999999999999999
생존자 비율의 전체 합:  1.0
