In [1]:
'''
범주형 변수(피쳐)의 처리 방법
- 레이블 인코딩
- 더미화(원 핫 인코딩)
----레이블 인코딩(Label encoding)
문자열(범주형) 값을 0 부터 1씩 증가하는 값으로 변환
숫자의 차이가 모델에 영향을 주지 않는 트리 계열 모델(의사결정나무, 랜덤포레스트)에 적용
숫자의 차이가 모델에 영향을 미치는 선형 계열 모델(로지스틱회귀, SVM, 신경망)에는 사용하지 않음


----더미화 - 원핫 인코딩(One-Hot encoding)
N개의 클래스를 N 차원의 One-Hot 벡터로 표현되도록 변환
고유값들을 피처로 만들고 정답에 해당하는 열은 1로 나머진 0으로 표시
변환해야 하는 값의 종류가 여러 개일 때
숫자의 차이가 모델에 영향을 미치는 선형 계열 모델(로지스틱회귀, SVM, 신경망)에서 범주형 데이터 변환시 라벨 인코딩 보다 원핫 인코딩을 사용
[판다스]
데이타프레임객체.get_dummies(DataFrame [, columns=[변환할 컬럼명]]) 함수 이용
DataFrame에서 범주형(문자열) 변수만 변환
[사이킷런]
sklearn.preprocessing.OneHotEncoder 이용

※케라스 나 텐서플로우는 인코딩하지 않아도 된다.단 사이킷런 API를 사용할때는 문자열을 숫자로 인코딩해야한다

'''
import numpy as np
import pandas as pd

In [2]:
#범주형 데이타 다루기
data=[
    ['남자',20,'A','매우못함'],
    ['여자',35,'B','잘함'],
    ['남자',45,'O','매우잘함'],
    ['남자',32,'AB','못함'],
    ['여자',12,'O','보통'],
    ['여자',24,'O','매우잘함'],
]
df = pd.DataFrame(data,columns=['Gender','Ages','Blood','Acomplish'])
df

Unnamed: 0,Gender,Ages,Blood,Acomplish
0,남자,20,A,매우못함
1,여자,35,B,잘함
2,남자,45,O,매우잘함
3,남자,32,AB,못함
4,여자,12,O,보통
5,여자,24,O,매우잘함


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   Gender     6 non-null      object
 1   Ages       6 non-null      int64 
 2   Blood      6 non-null      object
 3   Acomplish  6 non-null      object
dtypes: int64(1), object(3)
memory usage: 320.0+ bytes


In [4]:
'''
#데이타 프레임 전체 더미화
#Ages컬럼은 범주형 데이타가 아니라 수치형이라 더미화가 안 일어난다
#컬럼 인덱스가 자동으로 생성된다
#4개의 분류(class)를 가졋다면 하나의 컬럼 인덱스가 4개의 컬럼으로 생성된다
#컬럼인덱스명_클래스명 식으로 새롭게 컬럼인덱스가 생성된다
#예:Gender -> Gender_A,Gender_B,Gender_AB,Gender_O
'''
pd.get_dummies(df)

Unnamed: 0,Ages,Gender_남자,Gender_여자,Blood_A,Blood_AB,Blood_B,Blood_O,Acomplish_매우못함,Acomplish_매우잘함,Acomplish_못함,Acomplish_보통,Acomplish_잘함
0,20,1,0,1,0,0,0,1,0,0,0,0
1,35,0,1,0,0,1,0,0,0,0,0,1
2,45,1,0,0,0,0,1,0,1,0,0,0
3,32,1,0,0,1,0,0,0,0,1,0,0
4,12,0,1,0,0,0,1,0,0,0,1,0
5,24,0,1,0,0,0,1,0,1,0,0,0


In [5]:
#특정 컬럼 하나만 더미화:#클래스가 컬럼인덱스가 된다

blood=pd.get_dummies(df['Blood'])#유니크힌 values값이 컬럼인덱스가 된다
print(blood)
blood.columns
dir(df['Blood'].values)
np.unique(df['Blood'].values)

   A  AB  B  O
0  1   0  0  0
1  0   0  1  0
2  0   0  0  1
3  0   1  0  0
4  0   0  0  1
5  0   0  0  1


array(['A', 'AB', 'B', 'O'], dtype=object)

In [6]:
#여러개 컬럼 더미화
pd.get_dummies(df[['Blood','Gender']])#원핫 인코딩된 컬럼들만 데이타프레임으로 나옴

Unnamed: 0,Blood_A,Blood_AB,Blood_B,Blood_O,Gender_남자,Gender_여자
0,1,0,0,0,1,0
1,0,0,1,0,0,1
2,0,0,0,1,1,0
3,0,1,0,0,1,0
4,0,0,0,1,0,1
5,0,0,0,1,0,1


In [7]:
pd.get_dummies(df,columns=['Blood','Gender'])#모든 컬럼이 다 출력(두 개의 컬럼만 더미화)

Unnamed: 0,Ages,Acomplish,Blood_A,Blood_AB,Blood_B,Blood_O,Gender_남자,Gender_여자
0,20,매우못함,1,0,0,0,1,0
1,35,잘함,0,0,1,0,0,1
2,45,매우잘함,0,0,0,1,1,0
3,32,못함,0,1,0,0,1,0
4,12,보통,0,0,0,1,0,1
5,24,매우잘함,0,0,0,1,0,1


In [8]:
#사이킷 런의 함수 사용
#pip install sklearn
from sklearn.preprocessing import OneHotEncoder,LabelEncoder

In [9]:
#데이타프레임에서 Ages컬럼을 제거하기-수치형 데이타 제거(원핫 인코딩 적용)
#df.drop('Ages',axis=1,inplace=True)
#del df['Ages']#원본이 변경이됨
df_class=df.select_dtypes(include='object')
df_class


Unnamed: 0,Gender,Blood,Acomplish
0,남자,A,매우못함
1,여자,B,잘함
2,남자,O,매우잘함
3,남자,AB,못함
4,여자,O,보통
5,여자,O,매우잘함


In [10]:
#레이블 인코딩:범주를 숫자로 변경
# 1. INSTANTIATE
# encode labels with value between 0 and n_classes-1.
lblEncoder = LabelEncoder()
lblEncoder

In [11]:
# 2. use df.apply() to apply label_encoder.fit_transform to all columns
#데이타프레임의 모든 요소 각 각에 fit_transform()함수를 적용하여
#범주형 데이타를 0~n-class -1 사이의 수치로 레이블 인코딩된 데이타프레임 생성
def sqrt(x):
    return np.sqrt(x)
df_apply = pd.DataFrame([1,2,3])
#df_apply.apply(lambda x : np.sqrt(x))
df_apply.apply(sqrt)
df_ = df.apply(lblEncoder.fit_transform)
df_

Unnamed: 0,Gender,Ages,Blood,Acomplish
0,0,1,0,0
1,1,4,2,4
2,0,5,3,1
3,0,3,1,2
4,1,0,3,3
5,1,2,3,1


In [12]:
# TODO: create a OneHotEncoder object, and fit it to all of X
# 1. INSTANTIATE
hotEncoder = OneHotEncoder()
# 2. FIT
df_=hotEncoder.fit(df_class)
df_

In [13]:
# 3. Transform
matrix=hotEncoder.transform(df_class)
matrix

<6x11 sparse matrix of type '<class 'numpy.float64'>'
	with 18 stored elements in Compressed Sparse Row format>

In [14]:
one_hot=matrix.toarray()#Sparse Matrix를 넘파이 배열로 반환
one_hot.dtype
one_hot.shape
one_hot[0]

array([1., 0., 1., 0., 0., 0., 1., 0., 0., 0., 0.])

In [15]:
#'Blood' 와 'Gender' 컬럼에만 적용하기
#1)'Blood' 와 'Gender' 컬럼으로만 넘파이 배열 생성
lbl_df = df[['Gender','Blood']]
lbl_df_=lbl_df.copy()
lbl_df_


Unnamed: 0,Gender,Blood
0,남자,A
1,여자,B
2,남자,O
3,남자,AB
4,여자,O
5,여자,O


In [16]:
#행렬 형태는 레이블 인코딩의 입력으로 넣을 수 없다
#lblEncoder.fit_transform(lbl_df)#ValueError: y should be a 1d array, got an array of shape (6, 2) instead.
lbl_df.iloc[:,0]
lblEncoder.fit_transform(lbl_df.iloc[:,0])

array([0, 1, 0, 0, 1, 1])

In [17]:
lbl_df.iloc[:,-1]
lblEncoder.fit_transform(lbl_df.iloc[:,-1])

array([0, 2, 3, 1, 3, 3])

In [18]:
lbl_df.iloc[:,0]
#hotEncoder.fit(lbl_df.iloc[:,0])#ValueError: Expected 2D array, got1D array instead:
#Reshape your data either using array.reshape(-1, 1) if your data has a single feature or array.reshape(1, -1)
lbl_df_hot=np.array(lbl_df.iloc[:,0]).reshape((-1,1))
lbl_df_hot
hotEncoder.fit(lbl_df_hot)

In [19]:
matrix=hotEncoder.transform(lbl_df_hot)
matrix.toarray#2차원(6,1)
matrix.toarray().reshape(-1)#1차원(6,)

array([1., 0., 0., 1., 1., 0., 1., 0., 0., 1., 0., 1.])

In [20]:
#범주형 데이터 탐색하기
df['Acomplish'].dtype
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   Gender     6 non-null      object
 1   Ages       6 non-null      int64 
 2   Blood      6 non-null      object
 3   Acomplish  6 non-null      object
dtypes: int64(1), object(3)
memory usage: 320.0+ bytes


In [21]:
#object타입을 범주형 타입인 category로 변경
#catetiry 타입으로 변경함으로서 cat과 같은 CategoricalAccessor object를 사용가능
df['Acomplish']=df['Acomplish'].astype('category')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype   
---  ------     --------------  -----   
 0   Gender     6 non-null      object  
 1   Ages       6 non-null      int64   
 2   Blood      6 non-null      object  
 3   Acomplish  6 non-null      category
dtypes: category(1), int64(1), object(2)
memory usage: 490.0+ bytes


In [22]:
#범주를 [매우못함, 매우잘함, 못함, 보통, 잘함]에서 ['F','A','D','C','B']범주로 
df['Acomplish'].cat.rename_categories=['F','B','A','D','C','A']
df['Acomplish']=df['Acomplish'].cat.rename_categories
df['Acomplish']

0    F
1    B
2    A
3    D
4    C
5    A
Name: Acomplish, dtype: object

In [23]:
df['Acomplish']=df['Acomplish'].astype('category')

In [24]:
#새로운 카테코리 추가
df['Acomplish'].cat.set_categories(['A+','A','B','C','D','F'])

0    F
1    B
2    A
3    D
4    C
5    A
Name: Acomplish, dtype: category
Categories (6, object): ['A+', 'A', 'B', 'C', 'D', 'F']

In [30]:
#추가된 카테고리에 새로운 행 추가
df2=pd.DataFrame({'Gender':['남자'],'Acomplish':['A+']})
#df =pd.concat((df,df2))
df.sort_values(by='Acomplish')
#각 학점별 인원수가 몇명인지 카운트
#df.groupby('Acomplish').count():Acomplish컬럼으로 그룹핑해서 나머지 컬럼대해서 count
df.groupby('Acomplish').size() #Acomplish컬럼으로 그룹핑해서 해당 그룹에 대한 빈도수를 반환

Acomplish
A     2
A+    3
B     1
C     1
D     1
F     1
dtype: int64