In [1]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
from math import sqrt

In [2]:
iris = pd.read_csv("data/iris.csv")
iris

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica
148,6.2,3.4,5.4,2.3,Virginica


## 1. variety - one hot encoding

In [3]:

iris_dummy = pd.get_dummies(iris.variety)
iris_dummy 

Unnamed: 0,Setosa,Versicolor,Virginica
0,1,0,0
1,1,0,0
2,1,0,0
3,1,0,0
4,1,0,0
...,...,...,...
145,0,0,1
146,0,0,1
147,0,0,1
148,0,0,1


## 2. 유클리디안 거리 기반
(4.9, 3.5, 1.4, 0.2)  -> 어떤 종?

In [4]:
## 유클리디안 거리 기반
def distance(arr1, arr2):
    distance = 0
    for i in range(len(arr1)):
        distance += pow((arr1[i] - arr2[i]), 2)
    return sqrt(distance)

In [5]:
dist_arr = np.array(iris[["sepal.length", "sepal.width", "petal.length", "petal.width", "variety"]])

In [6]:
dist = []
target = np.array([4.9, 3.5, 1.4, 0.2])
for arr in dist_arr:
    arr_temp = arr[:4]
    temp = np.append(arr, distance(arr_temp, target))
    dist.append(temp)


In [7]:
df = pd.DataFrame(dist, columns = ["sepal.length", "sepal.width", "petal.length", "petal.width", "variety", "distance"])
df

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety,distance
0,5.1,3.5,1.4,0.2,Setosa,0.200000
1,4.9,3.0,1.4,0.2,Setosa,0.500000
2,4.7,3.2,1.3,0.2,Setosa,0.374166
3,4.6,3.1,1.5,0.2,Setosa,0.509902
4,5.0,3.6,1.4,0.2,Setosa,0.141421
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Virginica,4.726521
146,6.3,2.5,5.0,1.9,Virginica,4.337050
147,6.5,3.0,5.2,2.0,Virginica,4.526588
148,6.2,3.4,5.4,2.3,Virginica,4.702127


In [8]:
df.sort_values(by = "distance", ascending = False).iloc[0]
# Virginica

sepal.length          7.7
sepal.width           2.6
petal.length          6.9
petal.width           2.3
variety         Virginica
distance          6.58103
Name: 118, dtype: object

## 3.  titanic 데이터셋
bins = [1, 20, 39,  50, 70, 99]  
labels = ["미성년자", "청년", "중년", "장년", "노년"]  
타이타닉호 승객을 사망자와 생존자 그룹으로 나누고   
각 그룹에 대해 '미성년자', '청년', '중년', '장년', '노년' 승객의 비율을 구한다.   
각 그룹 별로 비율의 전체 합은 1이 되어야 한다.  

In [9]:
data = pd.read_csv("data/titanic/train.csv")
data

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [10]:
data["bins"] = pd.cut(data["Age"], bins = [1, 20, 39, 50, 70, 99])

In [11]:
data.groupby(["Survived","bins"]).size()

Survived  bins    
0         (1, 20]      95
          (20, 39]    225
          (39, 50]     60
          (50, 70]     38
          (70, 99]      4
1         (1, 20]      70
          (20, 39]    147
          (39, 50]     39
          (50, 70]     21
          (70, 99]      1
dtype: int64

In [12]:
survivedf = data.groupby(["Survived","bins"]).size()[1]
survive = survivedf / survivedf.sum()
survive.index = ["미성년자", "청년", "중년", "장년", "노년"]
print(survive)
print("가장 많이 생존한 연령 : {}".format(survive.idxmax()))
print("가장 적게 생존한 연령 : {}".format(survive.idxmin()))

미성년자    0.251799
청년      0.528777
중년      0.140288
장년      0.075540
노년      0.003597
dtype: float64
가장 많이 생존한 연령 : 청년
가장 적게 생존한 연령 : 노년


In [13]:
survivedf = data.groupby(["Survived","bins"]).size()[0]
survive = survivedf / survivedf.sum()
survive.index = ["미성년자", "청년", "중년", "장년", "노년"]
print(survive)
print("가장 많이 생존한 연령 : {}".format(survive.idxmax()))
print("가장 적게 생존한 연령 : {}".format(survive.idxmin()))

미성년자    0.225118
청년      0.533175
중년      0.142180
장년      0.090047
노년      0.009479
dtype: float64
가장 많이 생존한 연령 : 청년
가장 적게 생존한 연령 : 노년


## 4. digitize 사용

In [14]:
# 결측치 평균치로 보간
data["Age"].isnull().sum() #177
data["Age"] = data["Age"].fillna(data["Age"].mean())

In [15]:
#구간 설정 
bins = [1, 20, 39, 50, 70, 99]
labels = ["유아", "미성년자", "청년", "중년", "장년", "노년"]
binlist = np.digitize(data["Age"], bins = [1, 20, 39, 50, 70, 99])
data["Age_bin"] = [labels[i] for i in binlist] 

In [16]:
#생존자 연령 비율
survived = data[data["Survived"] == 1]
survived["Age_bin"].value_counts() / survived["Age_bin"].count()

청년      0.576023
미성년자    0.210526
중년      0.114035
장년      0.076023
유아      0.020468
노년      0.002924
Name: Age_bin, dtype: float64

In [17]:
#사망자 연령 비율
dead = data[data["Survived"] == 0]
dead["Age_bin"].value_counts() / dead["Age_bin"].count()

청년      0.642987
미성년자    0.154827
중년      0.116576
장년      0.074681
노년      0.010929
Name: Age_bin, dtype: float64