# 정규화
: 0~1 사이의 범위로 데이터를 표준화

분자 : 각 값 - 1 / 분모 : 9-1 

  5  3  1  7  9  => 0 ~ 1
  
5-1/9-1 -> 0.5
3-1/9-1 -> ..
1-1/9-1 -> 0
7-1/9-1 -> ..
9-1/9-1 -> 1

In [62]:
import numpy as np
from pandas import DataFrame

import pandas as pd
import warnings
warnings.filterwarnings(action='ignore')
from sklearn.preprocessing import MinMaxScaler

In [5]:
data = np.array([[10,-10,2],
                 [5,0,6],
                 [0,7,4]])
data

array([[ 10, -10,   2],
       [  5,   0,   6],
       [  0,   7,   4]])

In [17]:
# 함수 없이 수식으로 정규화

data.max()       # 전체 data중 최대값
data.max(axis=0) # 열별 최대값
data.max(axis=1) # 행별 최대값

data_mm = (data - data.min(axis=0)) / (data.max(axis=0)-data.min(axis=0))
data_mm

array([[1.        , 0.        , 0.        ],
       [0.5       , 0.58823529, 1.        ],
       [0.        , 1.        , 0.5       ]])

In [25]:
# MinMaxScaler().fit_transform()로 정규화
mms = MinMaxScaler()
datamms=mms.fit_transform(data)  # 자동으로 행별 정규화 진행
datamms

array([[1.        , 0.        , 0.        ],
       [0.5       , 0.58823529, 1.        ],
       [0.        , 1.        , 0.5       ]])

In [26]:
# minmax_scale함수로 정규화
from sklearn.preprocessing import minmax_scale
datamm = minmax_scale(data, axis=0)
datamm

array([[1.        , 0.        , 0.        ],
       [0.5       , 0.58823529, 1.        ],
       [0.        , 1.        , 0.5       ]])

# 이항변수화
: 연속형 변수를 기준 이하 -> 0 기준 초과 -> 1

확률변수 X가 이항분포를 따른다고 했을 때,

0 또는 1값을 갖는 이항변수화가 필요

베르누이시행 : 성공(1) 실패(0) 두가지의 경우만 존재하는 경우

성공확률이 p인 베르누이시행을 n번 수행.

성공하는 횟수를 x라고하면, 확률변수 x는 모수 n과 p인 이항분포를 따른다

주사위 : 3

3이 나올 확률 : 1/6  / 실패  확률  : 5/6

A, B, C, D
(A만 성공, B만 성공, C만 성공, D만 성공)

A만 성공 : 1/6 * 5/6 * 5/6 * 5/6 = 0.09

B만 성공 : 1/6 * 5/6 * 5/6 * 5/6 = 0.09

C만 성공 : 1/6 * 5/6 * 5/6 * 5/6 = 0.09

D만 성공 : 1/6 * 5/6 * 5/6 * 5/6 = 0.09

0.09 * 4 = 0.36 / 성공확률(p) * 시나리오수(n)

In [31]:
from sklearn.preprocessing import Binarizer

In [47]:
data = np.array([[10,-10,2],
                 [5,0,6],
                 [0,7,4]])
data

array([[ 10, -10,   2],
       [  5,   0,   6],
       [  0,   7,   4]])

In [48]:
bina = Binarizer(threshold=5).fit(data)  # Binarizer(threshold=0.0) (dafault)
#              5이하(0) 5초과(1)
bina.transform(data)

array([[1, 0, 0],
       [0, 0, 1],
       [0, 1, 0]])

In [49]:
from sklearn.preprocessing import binarize

binarize(data, threshold=5, copy=True)  # copy=True (default)  
# copy=False -> 이항변수화한 데이터를 원본 데이터에 저장
data

array([[ 10, -10,   2],
       [  5,   0,   6],
       [  0,   7,   4]])

# 원핫인코더
: 범주형 변수를 이항변수화

__

바이너라이저 : 연속현 변수를 이항변수화

연령대 : 20대 -> 0, 30대 -> 1, 40대 -> 2

성 별 : 남 -> 0, 여 -> 1

학 점 : A;0, B:1, C:2, D:3, F:4

학점

01234

10000(A)

01000(B)

..

00001(F)

20대 여 B => 100 01 01000

30대 남 D => 010 10 00010

In [50]:
from sklearn.preprocessing import OneHotEncoder

In [51]:
#           [성별, 연령, 학점]
data = np.array([[0,0,0],
                [0,1,1],
                [0,2,2],
                [1,0,3],
                [1,1,4]])
data

array([[0, 0, 0],
       [0, 1, 1],
       [0, 2, 2],
       [1, 0, 3],
       [1, 1, 4]])

In [52]:
ohe = OneHotEncoder()

In [56]:
ohe.fit(data)
ohe.active_features_  # [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] = [0 1 0 1 2 0 1 2 3 4]

ohe.n_values_  # [2, 3, 5] 각 범주의 개수

ohe.feature_indices_  # [ 0,  2,  5, 10]
# 성별 : 0이상 2미만,
# 연령 : 2이상 5미만,
# 학점 : 5이상 10미만

array([ 0,  2,  5, 10], dtype=int32)

# 범주형 데이터 -> 이항변수화

In [59]:
# 범주형 데이터 -> 이항변수화
data = np.array([[1,2,3]])
ohe.transform(data).toarray()

array([[0., 1., 0., 0., 1., 0., 0., 0., 1., 0.]])

In [148]:
df = DataFrame({'C1': np.random.randn(20),

   'C2': ['a', 'a', 'a', 'a', 'a', 'a', 'a', 'a', 'a', 'a',

   'b', 'b', 'b', 'b', 'b', 'b', 'b', 'b', 'b', 'b']})

df

Unnamed: 0,C1,C2
0,0.715279,a
1,-1.5454,a
2,-0.008384,a
3,0.621336,a
4,-0.720086,a
5,0.265512,a
6,0.108549,a
7,0.004291,a
8,-0.1746,a
9,0.433026,a


# 이산화

In [None]:
'''
np.digitize함수, np.where함수 : 연속형 변수 -> 이산화
이항변수화 : 0 or 1 값을 갖는 변수를 만드는 것
이산(형)화 : 연속현 변수를 2개 이상의 범주를 갖는 변수로 만드는 것
'''
np.random.seed(10)  # 42  777  1004  
np.random.randn(1)

In [162]:
# df의 c1열 20개 data구성 10개 bin으로 균등하게 나눔

# 연속형 변수에 대해 이산화
df['C1']
df.C1.min()  # -1.97
df.C1.max()  # 1.484

bins = np.linspace(df.C1.min(), df.C1.max(), 10)
bins #[-1.97772828, -1.59303214, -1.208336  , -0.82363985, -0.43894371,
#        -0.05424757,  0.33044857,  0.71514472,  1.09984086,  1.484537  ]

df['C1_bin']=np.digitize(df.C1, bins)
df
# 구간별 요약통계, 범주간 평균 차이, 독립성검정, indexing ..

Unnamed: 0,C1,C2,C1_bin
0,0.715279,a,8
1,-1.5454,a,2
2,-0.008384,a,6
3,0.621336,a,7
4,-0.720086,a,4
5,0.265512,a,6
6,0.108549,a,6
7,0.004291,a,6
8,-0.1746,a,5
9,0.433026,a,7


In [184]:
df.groupby('C1_bin')['C1'].size()  # 각 그룹에 속하는 데이터 건수 확인
# C1_bin으로 그룹화하고 C1의 값이 그룹에 어떻게 속하는지 확인

df.groupby('C1_bin')['C1'].mean()  # 각 그룹에 속하는 데이터 평균 확인
df.groupby('C1_bin')['C1'].std()   # 각 그룹에 속하는 데이터 표준편차 확인
df.groupby('C1_bin')['C2'].value_counts()  # 각 그룹에 속하는 데이터와 그 건수 확인

df[df['C1_bin'] == 6]  # 각 그룹에 속하는 데이터 참조


Unnamed: 0,C1,C2,C1_bin
2,-0.008384,a,6
5,0.265512,a,6
6,0.108549,a,6
7,0.004291,a,6
13,0.22863,b,6
16,0.135137,b,6


In [187]:
# get_dummies() : 가변수 생성

pd.get_dummies(df['C1_bin'], prefix='C1')  # == one-hot 인코딩

# 모델 = x1*가중치 +x2*가중치 .. +x10*가중치 + 바이어스

Unnamed: 0,C1_1,C1_2,C1_3,C1_4,C1_5,C1_6,C1_7,C1_8,C1_9,C1_10
0,0,0,0,0,0,0,0,1,0,0
1,0,1,0,0,0,0,0,0,0,0
2,0,0,0,0,0,1,0,0,0,0
3,0,0,0,0,0,0,1,0,0,0
4,0,0,0,1,0,0,0,0,0,0
5,0,0,0,0,0,1,0,0,0,0
6,0,0,0,0,0,1,0,0,0,0
7,0,0,0,0,0,1,0,0,0,0
8,0,0,0,0,1,0,0,0,0,0
9,0,0,0,0,0,0,1,0,0,0


In [197]:
# np.where()
df['h_l']=np.where(df['C1'] >= df['C1'].mean(),'high','low')
df

df.groupby('h_l')['C1'].size()
df.groupby('h_l')['C1'].mean()
df.groupby('h_l')['C1'].std()



h_l
high    0.512643
low    -1.085612
Name: C1, dtype: float64

In [203]:
# 사분위수 구하기 (np.percentile)
Q1 = np.percentile(df['C1'],25)
Q3 = np.percentile(df['C1'],75)
Q3-Q1
# 연습문제 : C1열 값 <= Q1 then l
# C1열 값 > Q1 and C1열 값 <= Q3 then m
# else then df['h_m_l']=h

df['h_m_l'] = np.where(df['C1']>=Q3,'high',np.where(df['C1'],'medium','low'))
df

Unnamed: 0,C1,C2,C1_bin,h_l,h_m_l
0,0.715279,a,8,high,high
1,-1.5454,a,2,low,medium
2,-0.008384,a,6,high,medium
3,0.621336,a,7,high,high
4,-0.720086,a,4,low,medium
5,0.265512,a,6,high,medium
6,0.108549,a,6,high,medium
7,0.004291,a,6,high,medium
8,-0.1746,a,5,low,medium
9,0.433026,a,7,high,medium


In [204]:
'''
데이터 재구조화
- 피벗테이블(pivot, pivot_table)
- 스택(stack, unstack)
- 멜트(melt)
- wide_to_long, crosstab
'''

'\n데이터 재구조화\n- 피벗테이블(pivot, pivot_table)\n\n'

In [217]:
data = DataFrame({'cust_id': ['c1', 'c1', 'c1', 'c2', 'c2', 'c2', 'c3', 'c3', 'c3'],
                   'prod_cd': ['p1', 'p2', 'p3', 'p1', 'p2', 'p3', 'p1', 'p2', 'p3'],
                   'grade' : ['A', 'A', 'A', 'A', 'A', 'A', 'B', 'B', 'B'],
                   'pch_amt': [30, 10, 0, 40, 15, 30, 0, 0, 10]})
data

Unnamed: 0,cust_id,prod_cd,grade,pch_amt
0,c1,p1,A,30
1,c1,p2,A,10
2,c1,p3,A,0
3,c2,p1,A,40
4,c2,p2,A,15
5,c2,p3,A,30
6,c3,p1,B,0
7,c3,p2,B,0
8,c3,p3,B,10


In [222]:
# pivot(index=행 , columns=열, values=값)
data.pivot(index='cust_id', columns='prod_cd', values='pch_amt')

# pd.pivot_table
pd.pivot_table(data,index='cust_id', columns='prod_cd', values='pch_amt')

# 계층구조  / pivot에서는 에러
data.pivot_table(index=['cust_id','grade'],columns='prod_cd', values='pch_amt')
pd.pivot_table(data,index='cust_id', columns=['prod_cd','grade'], values='pch_amt')

prod_cd,p1,p1,p2,p2,p3,p3
grade,A,B,A,B,A,B
cust_id,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
c1,30.0,,10.0,,0.0,
c2,40.0,,15.0,,30.0,
c3,,0.0,,0.0,,10.0


In [228]:
# pivot_table : 집계함수 제공
pd.pivot_table(data, index='grade',columns='prod_cd',values='pch_amt')

# aggfunc='mean'(default), 'max', 'min', 'sum', 
pd.pivot_table(data, index='grade',columns='prod_cd',values='pch_amt',aggfunc='sum')

prod_cd,p1,p2,p3
grade,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,70,25,30
B,0,0,10


In [234]:
# stack() : 위에서 아래로 쌓는 것
# unstack() : 쌓여있는 것을 옆으로 놓는것 (왼 -> 오)

mul_index = pd.MultiIndex.from_tuples([('cust_1', '2020'), ('cust_1', '2021'),
                                        ('cust_2', '2020'), ('cust_2', '2021')])  

data = DataFrame(data=np.arange(16).reshape(4, 4), index=mul_index,
                 columns=['prd_1', 'prd_2', 'prd_3', 'prd_4'], dtype='int')

In [235]:
data

Unnamed: 0,Unnamed: 1,prd_1,prd_2,prd_3,prd_4
cust_1,2020,0,1,2,3
cust_1,2021,4,5,6,7
cust_2,2020,8,9,10,11
cust_2,2021,12,13,14,15


In [248]:
datastd = data.stack()
datastd

cust_1  2020  prd_1     0
              prd_2     1
              prd_3     2
              prd_4     3
        2021  prd_1     4
              prd_2     5
              prd_3     6
              prd_4     7
cust_2  2020  prd_1     8
              prd_2     9
              prd_3    10
              prd_4    11
        2021  prd_1    12
              prd_2    13
              prd_3    14
              prd_4    15
dtype: int32

In [256]:
datastd.index
datastd['cust_2']['2020'][['prd_1','prd_2']]

prd_1    8
prd_2    9
dtype: int32

In [265]:
from numpy import NaN, nan, NAN
data.iloc[2:4,3]=NaN
data.stack(dropna=False)  # dropna=True(default) NaN은 사라져버림


cust_1  2020  prd_1     0.0
              prd_2     1.0
              prd_3     2.0
              prd_4     3.0
        2021  prd_1     4.0
              prd_2     5.0
              prd_3     6.0
              prd_4     7.0
cust_2  2020  prd_1     8.0
              prd_2     9.0
              prd_3    10.0
              prd_4     NaN
        2021  prd_1    12.0
              prd_2    13.0
              prd_3    14.0
              prd_4     NaN
dtype: float64

In [267]:
data = DataFrame({'cust_ID' : ['C_001', 'C_001', 'C_002', 'C_002'],
                   'prd_CD' : ['P_001', 'P_002', 'P_001', 'P_002'],
                   'pch_cnt' : [1, 2, 3, 4],
                   'pch_amt' : [100, 200, 300, 400]})
data

Unnamed: 0,cust_ID,prd_CD,pch_cnt,pch_amt
0,C_001,P_001,1,100
1,C_001,P_002,2,200
2,C_002,P_001,3,300
3,C_002,P_002,4,400


In [272]:
pd.melt(data, id_vars=['cust_ID','prd_CD'])
pd.melt(data, id_vars=['cust_ID','prd_CD'],var_name='VAR',value_name='VALUE')


Unnamed: 0,cust_ID,prd_CD,VAR,VALUE
0,C_001,P_001,pch_cnt,1
1,C_001,P_002,pch_cnt,2
2,C_002,P_001,pch_cnt,3
3,C_002,P_002,pch_cnt,4
4,C_001,P_001,pch_amt,100
5,C_001,P_002,pch_amt,200
6,C_002,P_001,pch_amt,300
7,C_002,P_002,pch_amt,400


In [283]:
pew = pd.read_csv('pew.csv')
pew.head()
s=pew.iloc[:,0:6]
s.melt(id_vars='religion', var_name='money', value_name='cnt')

In [None]:
billboard.melt(id_vars=['year','artist','track','time','date.entered'])

In [287]:
billboard= pd.read_csv('billboard.csv')
billboard.head(2)

Unnamed: 0,year,artist,track,time,date.entered,wk1,wk2,wk3,wk4,wk5,...,wk67,wk68,wk69,wk70,wk71,wk72,wk73,wk74,wk75,wk76
0,2000,2 Pac,Baby Don't Cry (Keep...,4:22,2000-02-26,87,82.0,72.0,77.0,87.0,...,,,,,,,,,,
1,2000,2Ge+her,The Hardest Part Of ...,3:15,2000-09-02,91,87.0,92.0,,,...,,,,,,,,,,


In [289]:
billboard.melt(id_vars=['year','artist','track','time','date.entered'], var_name='week',value_name='score')

Unnamed: 0,year,artist,track,time,date.entered,week,score
0,2000,2 Pac,Baby Don't Cry (Keep...,4:22,2000-02-26,wk1,87.0
1,2000,2Ge+her,The Hardest Part Of ...,3:15,2000-09-02,wk1,91.0
2,2000,3 Doors Down,Kryptonite,3:53,2000-04-08,wk1,81.0
3,2000,3 Doors Down,Loser,4:24,2000-10-21,wk1,76.0
4,2000,504 Boyz,Wobble Wobble,3:35,2000-04-15,wk1,57.0
...,...,...,...,...,...,...,...
24087,2000,Yankee Grey,Another Nine Minutes,3:10,2000-04-29,wk76,
24088,2000,"Yearwood, Trisha",Real Live Woman,3:55,2000-04-01,wk76,
24089,2000,Ying Yang Twins,Whistle While You Tw...,4:19,2000-03-18,wk76,
24090,2000,Zombie Nation,Kernkraft 400,3:30,2000-09-02,wk76,


In [314]:
s=pd.Series(range(10))
s[3]=nan
s
s.count()  # 9 // 누락값은 제외

df = DataFrame(np.random.randint(5,size=(4,4)),dtype=float)
df


0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [443]:
df.iloc[2,3]=nan
df
df.count() # 4 4 4 3 각 열의 데이터 개수

import seaborn as sns
titanic=sns.load_dataset('titanic')
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [306]:
titanic.count()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

In [312]:
np.random.seed(777)
s2 = pd.Series(np.random.randint(6,size=100))
s2.count()
s2

0     3
1     1
2     5
3     4
4     1
     ..
95    5
96    3
97    4
98    5
99    4
Length: 100, dtype: int32

In [310]:
s2.value_counts()  # Series에 대해 종류별로 데이터 개수를 count

5    20
0    20
4    19
3    15
2    15
1    11
dtype: int64

In [319]:
s2.value_counts()  # 데이터 건수가 많은것 부터 내림차순 정렬
s2.value_counts().sort_index()  # 인덱스 기준 오름차순 정렬

0    20
1    11
2    15
3    15
4    19
5    20
dtype: int64

In [322]:
s.sort_values()  # 값 기준 오름차순 정렬 (NaN은 맨 마지막)
s.sort_values(ascending=False) # 값 기준 내림차순 정렬

9    9.0
8    8.0
7    7.0
6    6.0
5    5.0
4    4.0
2    2.0
1    1.0
0    0.0
3    NaN
dtype: float64

In [330]:
df.iloc[2,3]=nan
# df.sort_values() # error
df.sort_values(by=[1,2])

Unnamed: 0,0,1,2,3
0,3.0,2.0,3.0,0.0
1,1.0,3.0,2.0,3.0
2,0.0,4.0,2.0,
3,0.0,4.0,4.0,2.0


In [341]:
df = DataFrame(np.random.randint(10, size=(4,8)))
df

Unnamed: 0,0,1,2,3,4,5,6,7
0,4,8,5,1,4,9,6,5
1,7,1,2,3,9,7,5,4
2,0,7,2,4,1,9,0,9
3,4,0,2,3,2,0,7,5


In [342]:
# 새로운 열 추가
df['Mysum']=df.sum(axis=1)
df

# 새로운 행 추가
df.loc['total', : ] = df.sum()
df

Unnamed: 0,0,1,2,3,4,5,6,7,Mysum
0,4.0,8.0,5.0,1.0,4.0,9.0,6.0,5.0,42.0
1,7.0,1.0,2.0,3.0,9.0,7.0,5.0,4.0,38.0
2,0.0,7.0,2.0,4.0,1.0,9.0,0.0,9.0,32.0
3,4.0,0.0,2.0,3.0,2.0,0.0,7.0,5.0,23.0
total,15.0,16.0,11.0,11.0,16.0,25.0,18.0,23.0,135.0


# cut(실수 값의 경계 지정), qcut(똑같은 구간을 나눔)

In [349]:
# 실수 데이터 -> 카테고리화
# cut(실수 값의 경계 지정), qcut(똑같은 구간을 나눔)

ages=[0,2,10,21,23,37,31,61,20,42,32,100]
bins=[1,15,25,35,60,99]
labels = ['미성년자','청년','중년','장년','노년']

cats = pd.cut(ages, bins, labels=labels)
cats.categories  # 카테고리의 종류
cats.codes       # 카테고리의 인덱스 번호


array([-1,  0,  0,  1,  1,  3,  2,  4,  1,  3,  2, -1], dtype=int8)

In [369]:
# 데이터프레임에 적용
df = DataFrame(ages, columns=['ages'])
df['age_cat']=pd.cut(ages, bins, labels=labels)
df

# qcut
data = np.random.randn(100)
data
cats = pd.qcut(data,4,labels=['Q1','Q2','Q3','Q4'])
cats
df = DataFrame(data, columns=['value'])
df

Unnamed: 0,value
0,0.216597
1,1.305895
2,-0.719855
3,0.097800
4,-1.231316
...,...
95,-0.075480
96,1.375561
97,0.893697
98,0.423449


1. 타이타닉 데이터에 대해...
Pclass를 원핫인코딩
Age를 이산화(5개 구간으로 나눔)
Fare를 이산화(3개 구간으로 나눔)
embarked를 원핫인코딩

In [544]:
from sklearn.preprocessing import OneHotEncoder

df = pd.read_csv('train.csv')
df = df.fillna(df.mean())
ohe = OneHotEncoder()

# Pclass 원핫인코딩
Pclass = DataFrame(df.Pclass)
Pclass
ohe.fit(Pclass)
ohe.feature_indices_
ohe.n_values_
ohe.transform(Pclass).toarray()

# 100 = 1
# 010 = 2
# 001 = 3

# Age를 이산화(5개 구간으로 나눔)
Age = df.Age
bins = np.linspace(df['Age'].min(),df['Age'].max(),5)  
# [ 0, 20, 40, 60, 80 ]
# 0 <= x < 20 = 1
# 20 <= x < 40 = 2
# 40 <= x < 60 = 3
# 60 <= x < 80 = 4
# 80 = 5
df['Age_digit']=np.digitize(df.Age, bins)
df.groupby('Age_digit')['Age'].min()
df.groupby('Age_digit')['Age'].max()
df.groupby('Age_digit')['Age'].size()
df[df['Age_digit']==5]

# Fare를 이산화(3개 구간으로 나눔)
bins = np.linspace(df['Fare'].min(),df['Fare'].max(),3)  #  0.    , 256.1646, 512.3292
df['Fare_digit'] = np.digitize(df.Fare, bins)
# 0 <= x < 256.1646 = 1
# 256.1646 <= x < 512.3292 = 2
# 512.3292 = 3
df.groupby('Fare_digit')['Fare'].size()
df.groupby('Fare_digit')['Fare'].min()
df.groupby('Fare_digit')['Fare'].max()
df[df['Fare_digit']==5]
   
# Embarked 원핫인코딩
df['Embarked']=df['Embarked'].fillna('-')
Embarked = DataFrame(df.Embarked)

ohe.fit(Embarked)
ohe.feature_indices_
ohe.n_values_
ohe.transform(Embarked).toarray()

# 1000 = -
# 0100 = C
# 0010 = Q
# 0001 = S

pd.get_dummies(df['Fare_digit'], prefix='Fare')


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_digit,Fare_digit
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.0750,,S,1,1
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C,1,1
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7000,G6,S,1,1
12,13,0,3,"Saundercock, Mr. William Henry",male,20.0,0,0,A/5. 2151,8.0500,,S,1,1
14,15,0,3,"Vestrom, Miss. Hulda Amanda Adolfina",female,14.0,0,0,350406,7.8542,,S,1,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
869,870,1,3,"Johnson, Master. Harold Theodor",male,4.0,1,1,347742,11.1333,,S,1,1
875,876,1,3,"Najib, Miss. Adele Kiamie ""Jane""",female,15.0,0,0,2667,7.2250,,C,1,1
876,877,0,3,"Gustafsson, Mr. Alfred Ossian",male,20.0,0,0,7534,9.8458,,S,1,1
877,878,0,3,"Petroff, Mr. Nedelio",male,19.0,0,0,349212,7.8958,,S,1,1


2.
리스트를 거꾸로 출력하는 반복문을 만들어 보세요.
2가지 방법으로 구현합니다.

In [397]:
li = ['a','b','c','d','e','f']

# 리스트를 뒤집어 앞에서부터 출력하기
for i in list(reversed(li)):
    print(i, end=' ')
    
print('\n')

# 리스트의 인덱스 번호를 이용해 뒤에서부터 출력하기
for i in range(len(li)):
    print(li[len(li)-1-i], end=' ')


f e d c b a 

f e d c b a 

3.
리스트에서 중복 값을 제거해 보세요.
ns = [1, 3, 5, 1, 3, 5, 1, 3, 5]

In [372]:
ns = [1, 3, 5, 1, 3, 5, 1, 3, 5]

list(set(ns))

[1, 3, 5]

4.
bins = [1, 15, 25, 35, 60, 99]
labels = ["미성년자", "청년", "중년", "장년", "노년"]
타이타닉호 승객을 사망자와 생존자 그룹으로 나누고 각 그룹에 대해 '미성년자', '청년', '중년', '장년', '노년' 승객의 비율을 구한다. 각 그룹 별로 비율의 전체 합은 1이 되어야 한다.

In [591]:
# 라벨링을 할 bins 값과 labels를 지정
bins = [1, 15, 25, 35, 60, 99]
labels = ["미성년자", "청년", "중년", "장년", "노년"]

# 생존자와 사망자를 나눠 새로운 데이터프레임 생성
Dead = df[df['Survived']==0]
Survived=df[df['Survived']==1]

# cut함수를 이용해 구간을 나누고 라벨링을 한 뒤 데이터프레임에 새로운 열로 붙여넣음
Dead['Age_labels']=pd.cut(df['Age'],bins,labels=labels)
Survived['Age_labels']=pd.cut(df['Age'],bins,labels=labels)