구간 분할
- cut() 함수 활용
    - x = 데이터 배열
    - bins = 경계값 리스트
        - count, bin_dividers = np.histogram(데이터 배열, bins = 나누려는 구간(bin) 개수)
    - labels = bin 이름
    - include_lowest = 첫 경계값 포함여부

In [2]:
# <예제 5-10> 데이터 구간 분할

import pandas as pd
import numpy as np

df = pd.read_csv("./auto-mpg.csv", header = None)
df.columns = ["mpg","cylinders","displacement","horsepower","weight",
             "acceleration","model year","origin","name"]

df["horsepower"].replace("?", np.nan, inplace = True) # "?" -> NaN 변경
df.dropna(subset=["horsepower"], axis = 0, inplace =True) # 누락데이터 행 삭제
df["horsepower"]= df["horsepower"].astype("float") # 문자열을 실수형(float)으로 변환

# np.histogram() 함수로 3개의 bin으로 나누는 경계값의 리스트 구하기
count, bin_dividers = np.histogram(df["horsepower"], bins = 3)
print(bin_dividers)

print("\n")

# 3개의 bin에 이름 지정
bin_names = ["저출력","보통출력","고출력"]

#pd.cut 함수로 각 데이터를 3개의 bin에 할당하여 새로운 열("hp_bin")에 저장
df["hp_bin"] = pd.cut(x = df["horsepower"],
                     bins= bin_dividers,
                     labels = bin_names,
                     include_lowest = True)

print(df[["horsepower","hp_bin"]].head(15))

[ 46.         107.33333333 168.66666667 230.        ]


    horsepower hp_bin
0        130.0   보통출력
1        165.0   보통출력
2        150.0   보통출력
3        150.0   보통출력
4        140.0   보통출력
5        198.0    고출력
6        220.0    고출력
7        215.0    고출력
8        225.0    고출력
9        190.0    고출력
10       170.0    고출력
11       160.0   보통출력
12       150.0   보통출력
13       225.0    고출력
14        95.0    저출력


더미 변수
- one - hot - encoding (원핫인코딩)
    - 컴퓨터가 인식할수 있도록 0과 1로만 구성되는 one hot vextor(원핫벡터)로 변환
- 0 과 1로 표현
    - 어떤 특성이 있는지 없는지 여부 표시
    - 1(존재), 0(존재X)
- pandas.get_dummies(범주형 데이터)
    - 범주형 변수의 모든 고유값을 각각 새로운 더미 변수로 변환하여 반환

In [3]:
# <예제 5-11> 더미 변수
import pandas as pd
import numpy as np

df = pd.read_csv("./auto-mpg.csv", header = None)
df.columns = ["mpg","cylinders","displacement","horsepower","weight",
             "acceleration","model year","origin","name"]

df["horsepower"].replace("?", np.nan, inplace = True) # "?" -> NaN 변경
df.dropna(subset=["horsepower"], axis = 0, inplace =True) # 누락데이터 행 삭제
df["horsepower"]= df["horsepower"].astype("float") # 문자열을 실수형(float)으로 변환

# np.histogram() 함수로 3개의 bin으로 나누는 경계값의 리스트 구하기
count, bin_dividers = np.histogram(df["horsepower"], bins = 3)

bin_names = ["저출력","보통출력","고출력"]


df["hp_bin"] = pd.cut(x = df["horsepower"],
                     bins= bin_dividers,
                     labels = bin_names,
                     include_lowest = True)

# hp_bin 열의 범주형 데이터를 더미 변수로 변환
horsepower_dummies = pd.get_dummies(df["hp_bin"])
print(horsepower_dummies.head(15))

    저출력  보통출력  고출력
0     0     1    0
1     0     1    0
2     0     1    0
3     0     1    0
4     0     1    0
5     0     0    1
6     0     0    1
7     0     0    1
8     0     0    1
9     0     0    1
10    0     0    1
11    0     1    0
12    0     1    0
13    0     0    1
14    1     0    0


원핫인 코딩 (sklearn 라이브러리 이용)
- 범주형 데이터를 0,1를 원소로 갖는 원핫벡터로 변환