In [8]:
#   Label Encoding

#   데이터의 Label이 문자코드로 들어가면 추가 연상을 하게 됨.
#   Label 인코딩은 문자 Label을 숫자로 심플하게 처리 / Small=0, Middle=1, Big=2

In [9]:
import numpy as np  # 수학연산을 위한 numpy
import pandas as pd # data 정리를 위한 pandas
import sklearn  #data 전처리를 위한 scikit-learn
import matplotlib.pyplot as plt # data 시각화를 위한 plot

import os
from os.path import join    # 파일로드를 위한 os.path
import warnings # 쓸때없는 경고 없애기
warnings.filterwarnings('ignore')   #자잘한 경고들은 무시하겠다.

In [10]:

abalone_path = join('../99_src/abalone.txt')   # 데이터 로드
column_path = join('../99_src/abalone_attributes.txt')  # 데이터 칼럼 로드

abalone_columns = list()
# column name을 list 객체로 만들기
for l in open(column_path):  # abalone_attributes 열기:
    abalone_columns.append(l.strip()) # list 객체에 하나씩 순서대로 추가
print(abalone_columns)

# ['Sex\n', 'Length\n', 'Diameter\n', 'Height\n', 'Whole weight\n', 'Shucked weight\n', 'Viscera weight\n', 'Shell weight\n', 'Rings'] 이런 식으로 list가 나오기 때문에,
# \n 같은 것은 strip()으로 정리하기!
# strip : 깔끔한 데이터 정리에 필수!

# Pandas를 이용해서 abalone 데이터를 읽어온다.
data = pd.read_csv(abalone_path, header=None, names=abalone_columns) 
# names 속성은 csv를 불러 올때만 사용할 수 있는 속성이다!
# ;로 되어 있는 csv data를 읽을 수 있음 / abalone_path에 경로를 지정했기 때문에 경로지정!
# data 안에 column header 있을경우 알려야하지만, 없을 경우 없다고 해야한다. header=None
# column에 대한 list 객체를 pandas의 data frame의 list로 불러올 수 있음 names=abalone_columns
data

['Sex', 'Length', 'Diameter', 'Height', 'Whole weight', 'Shucked weight', 'Viscera weight', 'Shell weight', 'Rings']


Unnamed: 0,Sex,Length,Diameter,Height,Whole weight,Shucked weight,Viscera weight,Shell weight,Rings
0,M,0.455,0.365,0.095,0.5140,0.2245,0.1010,0.1500,15
1,M,0.350,0.265,0.090,0.2255,0.0995,0.0485,0.0700,7
2,F,0.530,0.420,0.135,0.6770,0.2565,0.1415,0.2100,9
3,M,0.440,0.365,0.125,0.5160,0.2155,0.1140,0.1550,10
4,I,0.330,0.255,0.080,0.2050,0.0895,0.0395,0.0550,7
...,...,...,...,...,...,...,...,...,...
4172,F,0.565,0.450,0.165,0.8870,0.3700,0.2390,0.2490,11
4173,M,0.590,0.440,0.135,0.9660,0.4390,0.2145,0.2605,10
4174,M,0.600,0.475,0.205,1.1760,0.5255,0.2875,0.3080,9
4175,F,0.625,0.485,0.150,1.0945,0.5310,0.2610,0.2960,10


In [11]:
data = pd.read_csv(abalone_path, header=None, names=abalone_columns)
label = data['Sex']
del data

In [12]:
from sklearn.preprocessing import LabelEncoder
labelEncode = LabelEncoder()

encoded_label = labelEncode.fit_transform(label)  # encode된 label이 출력되게 됨
encoded_label

array([2, 2, 0, ..., 2, 0, 2])

In [15]:
#   One-hot Encoding

#   n개의 범주형 데이터를 n개의 비트(1,0) 벡터로 표현
#   small=[1,0,0] / midium=[0,1,0] / big=[0,0,1]
#   차원만큼 데이터를 높여버리면, data의 변별력을 높일 수 있음
#   문제는 종류가 많은 데이터에 label을 넣으면, 처리 속도가 늦어지게 됨.

#   영화 리뷰데이터의 경우 one-hot으로 처리하는 경우가 있음.
#   정말 / 재미 / 있어요 -> [1,0,0]/[01,0]/[0,0,1] 이런 식으로 처리해줌.
#   사람들이 자주 사용하는 단어를 10000개를 뽑아서 10000차원의 데이터 쌓음.
#   리뷰의 분포마다 패턴을 학습 -> 자료에 대해서 label(별의 개수)을 가지고 다른 영화를 유추할 수 있음.

In [17]:
from sklearn.preprocessing import OneHotEncoder
ohe = OneHotEncoder()


In [22]:
label.values   #   전복 데이터의 value를 볼 수 있음!

array(['M', 'M', 'F', ..., 'M', 'F', 'M'], dtype=object)

In [26]:
one_hot_encoded = ohe.fit_transform(label.values.reshape((-1,1)))
# label.values.reshape((-1,1)) # 한 줄에 하나씩 만들어주세요 -> 이 형태를 활용!

In [27]:
one_hot_encoded

<4177x3 sparse matrix of type '<class 'numpy.float64'>'
	with 4177 stored elements in Compressed Sparse Row format>

In [30]:
columns = np.concatenate([np.array(['label']),ohe.categories_[0]])  #   one hot encoding의 categories에 대한 list 만들기
#   concatenate : label과 one hot encoding의 카테고리 정보를 붙여준다.
columns

array(['label', 'F', 'I', 'M'], dtype=object)

In [31]:
from sklearn.preprocessing import OneHotEncoder
ohe = OneHotEncoder(sparse=False)
ohe.fit(label.values.reshape((-1, 1)))
one_hot_encoded = ohe.transform(label.values.reshape((-1,1)))
#   여기까지 one hot encoding

columns = np.concatenate([np.array(['label']) , ohe.categories_[0]])
result = pd.DataFrame(data = np.concatenate(
                      [label.values.reshape((-1,1)), one_hot_encoded.reshape((-1, 3))], 
                      axis=1),columns=columns)
#   보기 좋게 dataframe 형태로 만듬

result.head(10)

Unnamed: 0,label,F,I,M
0,M,0.0,0.0,1.0
1,M,0.0,0.0,1.0
2,F,1.0,0.0,0.0
3,M,0.0,0.0,1.0
4,I,0.0,1.0,0.0
5,I,0.0,1.0,0.0
6,F,1.0,0.0,0.0
7,F,1.0,0.0,0.0
8,M,0.0,0.0,1.0
9,F,1.0,0.0,0.0
