# 피처 요약표 생성 함수

피처 요약표는 4장 [범주형 데이터 이진분류 경진대회](https://www.kaggle.com/c/cat-in-the-dat/) 데이터를 활용해 만들었습니다.

In [1]:
# appendix/feature_summary.ipynb

import pandas as pd

train = pd.read_csv('/kaggle/input/cat-in-the-dat/train.csv', index_col='id')

### 피처 요약표 만들기

#### 스텝 1 : 피처별 데이터 타입 DataFrame 생성 

In [2]:
summary = pd.DataFrame(train.dtypes, columns=['데이터 타입'])
summary.head()

Unnamed: 0,데이터 타입
bin_0,int64
bin_1,int64
bin_2,int64
bin_3,object
bin_4,object


#### 스텝 2 : 인덱스 재설정 후 열 이름 변경

In [3]:
summary = summary.reset_index()
summary.head()

Unnamed: 0,index,데이터 타입
0,bin_0,int64
1,bin_1,int64
2,bin_2,int64
3,bin_3,object
4,bin_4,object


In [4]:
summary = summary.rename(columns={'index': '피처'})
summary.head()

Unnamed: 0,피처,데이터 타입
0,bin_0,int64
1,bin_1,int64
2,bin_2,int64
3,bin_3,object
4,bin_4,object


#### 스텝 3 : 결측값 개수, 고유값 개수, 1~3행 입력값 추가

In [5]:
# 피처별 결측값 개수 ---①
summary['결측값 개수'] = train.isnull().sum().values  
# 피처별 고윳값 개수 ---②
summary['고윳값 개수'] = train.nunique().values
# 1~3행에 입력되어 있는 값 ---③
summary['첫 번째 값'] = train.loc[0].values
summary['두 번째 값'] = train.loc[1].values
summary['세 번째 값'] = train.loc[2].values

summary.head()

Unnamed: 0,피처,데이터 타입,결측값 개수,고윳값 개수,첫 번째 값,두 번째 값,세 번째 값
0,bin_0,int64,0,2,0,0,0
1,bin_1,int64,0,2,0,1,0
2,bin_2,int64,0,2,0,0,0
3,bin_3,object,0,2,T,T,F
4,bin_4,object,0,2,Y,Y,Y


#### 전체 코드

In [6]:
# 스텝 1 : 피처별 데이터 타입 DataFrame 생성
summary = pd.DataFrame(train.dtypes, columns=['데이터 타입'])

# 스텝 2 : 인덱스 재설정 후 열 이름 변경
# 2.1 인덱스 재설정
summary = summary.reset_index()
# 2.2 열 이름 변경
summary = summary.rename(columns={'index': '피처'})

# 스텝 3 : 결측값 개수, 고유값 개수, 1~3행 입력값 추가
# 피처별 결측값 개수
summary['결측값 개수'] = train.isnull().sum().values    
# 피처별 고유값 개수
summary['고윳값 개수'] = train.nunique().values
# 1~3행에 입력되어 있는 값
summary['첫 번째 값'] = train.loc[0].values
summary['두 번째 값'] = train.loc[1].values
summary['세 번째 값'] = train.loc[2].values

summary

Unnamed: 0,피처,데이터 타입,결측값 개수,고윳값 개수,첫 번째 값,두 번째 값,세 번째 값
0,bin_0,int64,0,2,0,0,0
1,bin_1,int64,0,2,0,1,0
2,bin_2,int64,0,2,0,0,0
3,bin_3,object,0,2,T,T,F
4,bin_4,object,0,2,Y,Y,Y
5,nom_0,object,0,3,Green,Green,Blue
6,nom_1,object,0,6,Triangle,Trapezoid,Trapezoid
7,nom_2,object,0,6,Snake,Hamster,Lion
8,nom_3,object,0,6,Finland,Russia,Russia
9,nom_4,object,0,4,Bassoon,Piano,Theremin


### 피처 요약표 생성 함수

In [7]:
def resumetable(df):
    print(f'데이터 세트 형상: {df.shape}')
    summary = pd.DataFrame(df.dtypes, columns=['데이터 타입'])
    summary = summary.reset_index()
    summary = summary.rename(columns={'index': '피처'})
    summary['결측값 개수'] = df.isnull().sum().values
    summary['고윳값 개수'] = df.nunique().values
    summary['첫 번째 값'] = df.loc[0].values
    summary['두 번째 값'] = df.loc[1].values
    summary['세 번째 값'] = df.loc[2].values
    
    return summary

In [8]:
resumetable(train)

데이터 세트 형상: (300000, 24)


Unnamed: 0,피처,데이터 타입,결측값 개수,고윳값 개수,첫 번째 값,두 번째 값,세 번째 값
0,bin_0,int64,0,2,0,0,0
1,bin_1,int64,0,2,0,1,0
2,bin_2,int64,0,2,0,0,0
3,bin_3,object,0,2,T,T,F
4,bin_4,object,0,2,Y,Y,Y
5,nom_0,object,0,3,Green,Green,Blue
6,nom_1,object,0,6,Triangle,Trapezoid,Trapezoid
7,nom_2,object,0,6,Snake,Hamster,Lion
8,nom_3,object,0,6,Finland,Russia,Russia
9,nom_4,object,0,4,Bassoon,Piano,Theremin
