# 04. 데이터프레임의 응용: 범주형 데이터 처리, 열 재구성, 필터링

## 1. 범주형 데이터 처리

연속 데이터를 구간으로 나누어 분석 >> 구간분할(binding)

### 구간 분할을 통한 범주형 변수 변환
* cut()함수: 경곗값을 지정해 구간분할
> pandas.cut(데이터프레임[변수명], bins=경곗값리스트, labels=구간이름, include_lowest=False/True)

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns

In [2]:
df = sns.load_dataset('mpg')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 398 entries, 0 to 397
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   mpg           398 non-null    float64
 1   cylinders     398 non-null    int64  
 2   displacement  398 non-null    float64
 3   horsepower    392 non-null    float64
 4   weight        398 non-null    int64  
 5   acceleration  398 non-null    float64
 6   model_year    398 non-null    int64  
 7   origin        398 non-null    object 
 8   name          398 non-null    object 
dtypes: float64(4), int64(3), object(2)
memory usage: 28.1+ KB


In [3]:
df['horsepower']

0      130.0
1      165.0
2      150.0
3      150.0
4      140.0
       ...  
393     86.0
394     52.0
395     84.0
396     79.0
397     82.0
Name: horsepower, Length: 398, dtype: float64

In [4]:
df['hp_bin'] = pd.cut(df['horsepower'],
                     bins=[46,105,165,230],
                     labels=['저출력','보통출력','고출력'],
                     include_lowest=True)
df['hp_bin']

0      보통출력
1      보통출력
2      보통출력
3      보통출력
4      보통출력
       ... 
393     저출력
394     저출력
395     저출력
396     저출력
397     저출력
Name: hp_bin, Length: 398, dtype: category
Categories (3, object): ['저출력' < '보통출력' < '고출력']

구간 분할을 통한 범주형 변수 변환 시 구간값을 모르고 구간수만 알고 있는 경우, numpy의 histogram() 함수를 사용하면 됨.  
단, histogram은 결측치가 없을 때만 사용 가능  

> numpy.histogram(데이터배열,bins=구간의 수)

In [5]:
df = sns.load_dataset('mpg')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 398 entries, 0 to 397
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   mpg           398 non-null    float64
 1   cylinders     398 non-null    int64  
 2   displacement  398 non-null    float64
 3   horsepower    392 non-null    float64
 4   weight        398 non-null    int64  
 5   acceleration  398 non-null    float64
 6   model_year    398 non-null    int64  
 7   origin        398 non-null    object 
 8   name          398 non-null    object 
dtypes: float64(4), int64(3), object(2)
memory usage: 28.1+ KB


In [6]:
df.dropna(subset=['horsepower'], axis=0, inplace=True) # histogram함수를 사용하기 위해 결측치 제거
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 392 entries, 0 to 397
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   mpg           392 non-null    float64
 1   cylinders     392 non-null    int64  
 2   displacement  392 non-null    float64
 3   horsepower    392 non-null    float64
 4   weight        392 non-null    int64  
 5   acceleration  392 non-null    float64
 6   model_year    392 non-null    int64  
 7   origin        392 non-null    object 
 8   name          392 non-null    object 
dtypes: float64(4), int64(3), object(2)
memory usage: 30.6+ KB


In [7]:
np.histogram(df['horsepower'], bins=3)

(array([257, 103,  32]),
 array([ 46.        , 107.33333333, 168.66666667, 230.        ]))

결과가 두 개의 객체로 나타남.   
갯수와 경계값으로 나오기 때문에 아래와 같이 두 개의 변수에 각각 입력해 줌.  
갯수 = count / 경곗값 = bin_dividers

In [8]:
count, bin_dividers = np.histogram(df['horsepower'], bins=3)

In [9]:
bin_dividers

array([ 46.        , 107.33333333, 168.66666667, 230.        ])

이렇게 경곗값을 구해서 bin_dividers에 입력받으면, 이를 이용하여 cut()함수로 구분한다.  

In [10]:
df['hp_bin'] = pd.cut(df['horsepower'],
                     bins = bin_dividers, # 위에서 구한 경곗값 입력
                     labels = ['저출력', '보통출력', '고출력'],
                     include_lowest = True)
df['hp_bin']

0      보통출력
1      보통출력
2      보통출력
3      보통출력
4      보통출력
       ... 
393     저출력
394     저출력
395     저출력
396     저출력
397     저출력
Name: hp_bin, Length: 392, dtype: category
Categories (3, object): ['저출력' < '보통출력' < '고출력']

### 범주형 변수의 더미변수 변환

더미변수(dummy variable): 해당 특성이 존재하면 1, 아니면 0으로 표현

__변환방법__
1. 원 핫 인코딩(one-hot-encoding): 범주값을 변수로 생성하여 범주값과 일치하면 1, 일치하지 않으면 0을 입력하는 방법
2. 축소랭크(reduced-rank): 기준이 되는 변수를 하나 선정하여 reference로 해당 열은 모두 1로 두고 나머지 변수들에 대해 범주값에 해당하면 1, 아니면 0으로 처리 (회귀분석에서는 reference coding이라고도 함)

변환하기 위해서는 get_dummies()함수를 사용. 
> pandas.get_dummies(데이터배열, drop_first=False/True

drop_first = False가 기본값으로 ont-hot-encoding을 수행하고, True를 선택하면 축소랭크 방식으로 변환한다.  

In [11]:
df['hp_bin']

0      보통출력
1      보통출력
2      보통출력
3      보통출력
4      보통출력
       ... 
393     저출력
394     저출력
395     저출력
396     저출력
397     저출력
Name: hp_bin, Length: 392, dtype: category
Categories (3, object): ['저출력' < '보통출력' < '고출력']

##### One-Hot Encoding 방식

In [12]:
horsepower_dummies = pd.get_dummies(df['hp_bin'])
horsepower_dummies

Unnamed: 0,저출력,보통출력,고출력
0,0,1,0
1,0,1,0
2,0,1,0
3,0,1,0
4,0,1,0
...,...,...,...
393,1,0,0
394,1,0,0
395,1,0,0
396,1,0,0


##### 축소 랭크 방식

In [13]:
horsepower_dummies1 = pd.get_dummies(df['hp_bin'], drop_first=True)
horsepower_dummies1

Unnamed: 0,보통출력,고출력
0,1,0
1,1,0
2,1,0
3,1,0
4,1,0
...,...,...
393,0,0
394,0,0
395,0,0
396,0,0


## 2. 열 재구성

### 2-1 열 순서 바꾸기

데이터프레임의 필요한 변수를 순서대로 나열해 재선택. 
> 객체[재구성한 열 이름의 리스트]

In [14]:
df = sns.load_dataset('mpg')
df.columns

Index(['mpg', 'cylinders', 'displacement', 'horsepower', 'weight',
       'acceleration', 'model_year', 'origin', 'name'],
      dtype='object')

In [15]:
df1 = df[['mpg','name','horsepower','cylinders','model_year']]
df1

Unnamed: 0,mpg,name,horsepower,cylinders,model_year
0,18.0,chevrolet chevelle malibu,130.0,8,70
1,15.0,buick skylark 320,165.0,8,70
2,18.0,plymouth satellite,150.0,8,70
3,16.0,amc rebel sst,150.0,8,70
4,17.0,ford torino,140.0,8,70
...,...,...,...,...,...
393,27.0,ford mustang gl,86.0,4,82
394,44.0,vw pickup,52.0,4,82
395,32.0,dodge rampage,84.0,4,82
396,28.0,ford ranger,79.0,4,82


### 2-2 열 순서 정렬
sorted()함수를 이용하여 알파벳 순서로 정렬가능
> sorted(리스트, reverse=False/True)

reverse = False가 기본값으로 오름차순 정렬을 하고, True를 선택하면 내림차순 정렬을 한다.

In [16]:
df = sns.load_dataset('mpg')
list(df.columns)

['mpg',
 'cylinders',
 'displacement',
 'horsepower',
 'weight',
 'acceleration',
 'model_year',
 'origin',
 'name']

In [17]:
list1 = sorted(list(df.columns))
df[list1]

Unnamed: 0,acceleration,cylinders,displacement,horsepower,model_year,mpg,name,origin,weight
0,12.0,8,307.0,130.0,70,18.0,chevrolet chevelle malibu,usa,3504
1,11.5,8,350.0,165.0,70,15.0,buick skylark 320,usa,3693
2,11.0,8,318.0,150.0,70,18.0,plymouth satellite,usa,3436
3,12.0,8,304.0,150.0,70,16.0,amc rebel sst,usa,3433
4,10.5,8,302.0,140.0,70,17.0,ford torino,usa,3449
...,...,...,...,...,...,...,...,...,...
393,15.6,4,140.0,86.0,82,27.0,ford mustang gl,usa,2790
394,24.6,4,97.0,52.0,82,44.0,vw pickup,europe,2130
395,11.6,4,135.0,84.0,82,32.0,dodge rampage,usa,2295
396,18.6,4,120.0,79.0,82,28.0,ford ranger,usa,2625


In [18]:
list2 = sorted(list(df.columns))
df[list2]

Unnamed: 0,acceleration,cylinders,displacement,horsepower,model_year,mpg,name,origin,weight
0,12.0,8,307.0,130.0,70,18.0,chevrolet chevelle malibu,usa,3504
1,11.5,8,350.0,165.0,70,15.0,buick skylark 320,usa,3693
2,11.0,8,318.0,150.0,70,18.0,plymouth satellite,usa,3436
3,12.0,8,304.0,150.0,70,16.0,amc rebel sst,usa,3433
4,10.5,8,302.0,140.0,70,17.0,ford torino,usa,3449
...,...,...,...,...,...,...,...,...,...
393,15.6,4,140.0,86.0,82,27.0,ford mustang gl,usa,2790
394,24.6,4,97.0,52.0,82,44.0,vw pickup,europe,2130
395,11.6,4,135.0,84.0,82,32.0,dodge rampage,usa,2295
396,18.6,4,120.0,79.0,82,28.0,ford ranger,usa,2625


### 2-3 열 분리
하나의 열에 들어있는 데이터를 분리하여 개별 변수로 저장

In [19]:
df = pd.read_excel('./04/주가데이터.xlsx')
df

Unnamed: 0,연월일,시가,고가,저가
0,2021-08-01,10850,10900,10000
1,2021-08-02,10550,10900,9990
2,2021-08-03,10900,10950,10150
3,2021-08-04,10800,11050,10500
4,2021-08-05,10900,11000,10700
5,2021-08-06,11400,11450,11000
6,2021-08-07,11250,11450,10750
7,2021-08-08,11350,11750,11200
8,2021-08-09,11200,11600,10900
9,2021-08-10,11850,11950,11300


연월일 열의 데이터를 년, 월, 일로 분리하여 저장하는 방법
1. 구분할 변수.astype('str') >> 구분할 변수를 문자열로 변환
2. 문자형구분할변수.str.split(구분기호) >> 구분할 기준이 되는 기호 선택하여 문자열 자르기
3. 구분된시리즈자료.str.get(순서번호) >> 번호를 지정하여 데이터 저장

아래와 같이 한 번에 수해할 수도 있음
> 구분할변수.astype('str').str.split(구분기호).str.get(순서번호)

In [20]:
df['연월일'].astype('str')

0     2021-08-01
1     2021-08-02
2     2021-08-03
3     2021-08-04
4     2021-08-05
5     2021-08-06
6     2021-08-07
7     2021-08-08
8     2021-08-09
9     2021-08-10
10    2021-08-11
11    2021-08-12
12    2021-08-13
Name: 연월일, dtype: object

In [21]:
df['연월일'].astype('str').str.split('-')

0     [2021, 08, 01]
1     [2021, 08, 02]
2     [2021, 08, 03]
3     [2021, 08, 04]
4     [2021, 08, 05]
5     [2021, 08, 06]
6     [2021, 08, 07]
7     [2021, 08, 08]
8     [2021, 08, 09]
9     [2021, 08, 10]
10    [2021, 08, 11]
11    [2021, 08, 12]
12    [2021, 08, 13]
Name: 연월일, dtype: object

In [22]:
df['연']=df['연월일'].astype('str').str.split('-').str.get(0)
df['월']=df['연월일'].astype('str').str.split('-').str.get(1)
df['일']=df['연월일'].astype('str').str.split('-').str.get(2)

df

Unnamed: 0,연월일,시가,고가,저가,연,월,일
0,2021-08-01,10850,10900,10000,2021,8,1
1,2021-08-02,10550,10900,9990,2021,8,2
2,2021-08-03,10900,10950,10150,2021,8,3
3,2021-08-04,10800,11050,10500,2021,8,4
4,2021-08-05,10900,11000,10700,2021,8,5
5,2021-08-06,11400,11450,11000,2021,8,6
6,2021-08-07,11250,11450,10750,2021,8,7
7,2021-08-08,11350,11750,11200,2021,8,8
8,2021-08-09,11200,11600,10900,2021,8,9
9,2021-08-10,11850,11950,11300,2021,8,10


## 3. 필터링

### 불린(boolean) 인덱싱
조건식에 해당하는 데이터를 판별하여 추출하기 위한 방법
> 객체.loc[불린시리즈, : ]

In [23]:
df = sns.load_dataset('mpg')
df['mpg']

0      18.0
1      15.0
2      18.0
3      16.0
4      17.0
       ... 
393    27.0
394    44.0
395    32.0
396    28.0
397    31.0
Name: mpg, Length: 398, dtype: float64

In [24]:
mask1 = (df.mpg > 20) & (df.mpg < 30)
df_bool = df.loc[mask1, :] # :은 모든 열을 의미
df_bool['mpg']

14     24.0
15     22.0
17     21.0
18     27.0
19     26.0
       ... 
388    26.0
389    22.0
392    27.0
393    27.0
396    28.0
Name: mpg, Length: 146, dtype: float64

In [25]:
df_bool['mpg'].describe()

count    146.000000
mean      24.807534
std        2.699402
min       20.200000
25%       22.625000
50%       25.000000
75%       27.000000
max       29.900000
Name: mpg, dtype: float64

## 실습

* seaborn 모듈의 "penguin" 데이터

### [과제4-1] 체중을 3개 구간으로 나누어 집단변수 생성
1. 개체 분포를 확인해 3개 구간으로 분할(histogram함수 활용)
2. 집단 변수명을 bm_bin으로 설정

In [26]:
pg = sns.load_dataset('penguins')
pg.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 344 entries, 0 to 343
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   species            344 non-null    object 
 1   island             344 non-null    object 
 2   bill_length_mm     342 non-null    float64
 3   bill_depth_mm      342 non-null    float64
 4   flipper_length_mm  342 non-null    float64
 5   body_mass_g        342 non-null    float64
 6   sex                333 non-null    object 
dtypes: float64(4), object(3)
memory usage: 18.9+ KB


In [27]:
pg.dropna(subset=['body_mass_g','sex'], axis=0, inplace=True)
pg.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 333 entries, 0 to 343
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   species            333 non-null    object 
 1   island             333 non-null    object 
 2   bill_length_mm     333 non-null    float64
 3   bill_depth_mm      333 non-null    float64
 4   flipper_length_mm  333 non-null    float64
 5   body_mass_g        333 non-null    float64
 6   sex                333 non-null    object 
dtypes: float64(4), object(3)
memory usage: 20.8+ KB


In [28]:
count, bm_bin = np.histogram(pg['body_mass_g'], bins=3)
bm_bin

array([2700., 3900., 5100., 6300.])

In [29]:
pg['bm_bin'] = pd.cut(pg['body_mass_g'],
                     bins = bm_bin,
                     labels = ['저체중','정상','고체중'],
                     include_lowest = True)
pg['bm_bin']

0      저체중
1      저체중
2      저체중
4      저체중
5      저체중
      ... 
338     정상
340     정상
341    고체중
342    고체중
343    고체중
Name: bm_bin, Length: 333, dtype: category
Categories (3, object): ['저체중' < '정상' < '고체중']

### [과제 3-2] 결측치 확인 후 누락 데이터 처리하기
1. 앞에서 생성한 집단변수(bm_bin)을 포함해 펭귄종(species), 성별(sex), 서식지(island)만 추출해 새로운 데이터셋 생성
2. 성별을 더미변수(Female=0, Male=1)로 변환
3. 수컷(sex=1)이면서 고체중인 개체에 대한 데이터 필터링

In [30]:
pg.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 333 entries, 0 to 343
Data columns (total 8 columns):
 #   Column             Non-Null Count  Dtype   
---  ------             --------------  -----   
 0   species            333 non-null    object  
 1   island             333 non-null    object  
 2   bill_length_mm     333 non-null    float64 
 3   bill_depth_mm      333 non-null    float64 
 4   flipper_length_mm  333 non-null    float64 
 5   body_mass_g        333 non-null    float64 
 6   sex                333 non-null    object  
 7   bm_bin             333 non-null    category
dtypes: category(1), float64(4), object(3)
memory usage: 21.3+ KB


In [31]:
pg_new = pg[['species','sex','island','bm_bin']]
pg_new.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 333 entries, 0 to 343
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype   
---  ------   --------------  -----   
 0   species  333 non-null    object  
 1   sex      333 non-null    object  
 2   island   333 non-null    object  
 3   bm_bin   333 non-null    category
dtypes: category(1), object(3)
memory usage: 10.9+ KB


In [32]:
pg_dummies = pd.get_dummies(pg_new['sex'])
pg_dummies

Unnamed: 0,Female,Male
0,0,1
1,1,0
2,1,0
4,1,0
5,0,1
...,...,...
338,1,0
340,1,0
341,0,1
342,1,0


In [33]:
pg_comb = pd.concat([pg_new, pg_dummies], axis=1)
pg_comb

Unnamed: 0,species,sex,island,bm_bin,Female,Male
0,Adelie,Male,Torgersen,저체중,0,1
1,Adelie,Female,Torgersen,저체중,1,0
2,Adelie,Female,Torgersen,저체중,1,0
4,Adelie,Female,Torgersen,저체중,1,0
5,Adelie,Male,Torgersen,저체중,0,1
...,...,...,...,...,...,...
338,Gentoo,Female,Biscoe,정상,1,0
340,Gentoo,Female,Biscoe,정상,1,0
341,Gentoo,Male,Biscoe,고체중,0,1
342,Gentoo,Female,Biscoe,고체중,1,0


In [34]:
mask = (pg_comb.Male == 1) & (pg_comb.bm_bin == '고체중')

In [35]:
pg_bool = pg_comb.loc[mask, :]
pg_bool

Unnamed: 0,species,sex,island,bm_bin,Female,Male
221,Gentoo,Male,Biscoe,고체중,0,1
223,Gentoo,Male,Biscoe,고체중,0,1
224,Gentoo,Male,Biscoe,고체중,0,1
227,Gentoo,Male,Biscoe,고체중,0,1
229,Gentoo,Male,Biscoe,고체중,0,1
231,Gentoo,Male,Biscoe,고체중,0,1
233,Gentoo,Male,Biscoe,고체중,0,1
235,Gentoo,Male,Biscoe,고체중,0,1
237,Gentoo,Male,Biscoe,고체중,0,1
239,Gentoo,Male,Biscoe,고체중,0,1
