# 5-2，特征列feature_column

特征列 通常用于对结构化数据实施特征工程时候使用，图像或者文本数据一般不会用到特征列。

## 一，特征列用法概述

使用特征列可以将类别特征转换为one-hot编码特征，将连续特征构建分桶特征，以及对多个特征生成交叉特征等等。

要创建特征列，请调用 tf.feature_column 模块的函数。该模块中常用的九个函数如下图所示，所有九个函数都会返回一个 Categorical-Column 或一个 Dense-Column 对象，但却不会返回 bucketized_column，后者继承自这两个类。

注意：所有的Catogorical Column类型最终都要通过indicator_column转换成Dense Column类型才能传入模型！

![](./data/特征列9种.jpg)

* numeric_column 数值列，最常用。


* bucketized_column 分桶列，由数值列生成，可以由一个数值列出多个特征，one-hot编码。


* categorical_column_with_identity 分类标识列，one-hot编码，相当于分桶列每个桶为1个整数的情况。


* categorical_column_with_vocabulary_list 分类词汇列，one-hot编码，由list指定词典。


* categorical_column_with_vocabulary_file 分类词汇列，由文件file指定词典。


* categorical_column_with_hash_bucket 哈希列，整数或词典较大时采用。


* indicator_column 指标列，由Categorical Column生成，one-hot编码


* embedding_column 嵌入列，由Categorical Column生成，嵌入矢量分布参数需要学习。嵌入矢量维数建议取类别数量的 4 次方根。


* crossed_column 交叉列，可以由除categorical_column_with_hash_bucket的任意分类列构成。

## 二，特征列使用范例

以下是一个使用特征列解决Titanic生存问题的完整范例。

In [3]:
import datetime
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
import tensorflow as tf
from tensorflow.keras import layers,models


#打印日志
def printlog(info):
    nowtime = datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')
    print("\n"+"=========="*8 + "%s"%nowtime)
    print(info+'...\n\n')


In [6]:
#================================================================================
# 一，构建数据管道
#================================================================================
printlog("step1: prepare dataset...")


dftrain_raw = pd.read_csv("./data/titanic/train.csv")
dftest_raw = pd.read_csv("./data/titanic/test.csv")

dfraw = pd.concat([dftrain_raw,dftest_raw])

def prepare_dfdata(dfraw):
    dfdata = dfraw.copy()
    dfdata.columns = [x.lower() for x in dfdata.columns]
    dfdata = dfdata.rename(columns={'survived':'label'})
    dfdata = dfdata.drop(['passengerid','name'],axis = 1)
    for col,dtype in dict(dfdata.dtypes).items():
        # 判断是否包含缺失值
        if dfdata[col].hasnans:
            # 添加标识是否缺失列
            dfdata[col + '_nan'] = pd.isna(dfdata[col]).astype('int32')
            # 填充
            if dtype not in [np.object,np.str,np.unicode]:
                dfdata[col].fillna(dfdata[col].mean(),inplace = True)
            else:
                dfdata[col].fillna('',inplace = True)
    return(dfdata)

dfdata = prepare_dfdata(dfraw)
dftrain = dfdata.iloc[0:len(dftrain_raw),:]
dftest = dfdata.iloc[len(dftrain_raw):,:]
print(dftrain.shape,dftest.shape)
dfdata


step1: prepare dataset......


(712, 13) (179, 13)


Unnamed: 0,label,pclass,sex,age,sibsp,parch,ticket,fare,cabin,embarked,age_nan,cabin_nan,embarked_nan
0,0,1,male,55.000000,0,0,113787,30.5000,C30,S,0,0,0
1,1,1,female,49.000000,1,0,PC 17572,76.7292,D33,C,0,0,0
2,1,2,female,36.000000,0,0,27849,13.0000,,S,0,1,0
3,0,2,male,19.000000,0,0,28424,13.0000,,S,0,1,0
4,0,3,male,14.000000,4,1,3101295,39.6875,,S,0,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
174,1,3,female,23.000000,0,0,CA. 2314,7.5500,,S,0,1,0
175,0,3,male,29.699118,0,0,S.O./P.P. 751,7.5500,,S,1,1,0
176,1,2,female,34.000000,0,0,243880,13.0000,,S,0,1,0
177,0,3,male,29.699118,0,0,374746,8.0500,,S,1,1,0


In [14]:
# 从 dataframe 导入数据 
def df_to_dataset(df, shuffle=True, batch_size=32):
    dfdata = df.copy()
    if 'label' not in dfdata.columns:
        ds = tf.data.Dataset.from_tensor_slices(dfdata.to_dict(orient = 'list'))
    else: 
        labels = dfdata.pop('label')
        ds = tf.data.Dataset.from_tensor_slices((dfdata.to_dict(orient = 'list'), labels))  
    if shuffle:
        print(shuffle)
        ds = ds.shuffle(buffer_size=len(dfdata))
    ds = ds.batch(batch_size)
    return ds

ds_train = df_to_dataset(dftrain)
ds_test = df_to_dataset(dftest)

True
True


In [11]:
tf.print(ds_test.take(2))

<TakeDataset shapes: ({pclass: (None,), sex: (None,), age: (None,), sibsp: (None,), parch: (None,), ticket: (None,), fare: (None,), cabin: (None,), embarked: (None,), age_nan: (None,), cabin_nan: (None,), embarked_nan: (None,)}, (None,)), types: ({pclass: tf.int32, sex: tf.string, age: tf.float32, sibsp: tf.int32, parch: tf.int32, ticket: tf.string, fare: tf.float32, cabin: tf.string, embarked: tf.string, age_nan: tf.int32, cabin_nan: tf.int32, embarked_nan: tf.int32}, tf.int64)>


In [13]:
for item in ds_test.unbatch().take(2):
    tf.print(item)

({'age': 11,
  'age_nan': 0,
  'cabin': "",
  'cabin_nan': 1,
  'embarked': "S",
  'embarked_nan': 0,
  'fare': 46.9,
  'parch': 2,
  'pclass': 3,
  'sex': "male",
  'sibsp': 5,
  'ticket': "CA 2144"},
 0)
({'age': 9,
  'age_nan': 0,
  'cabin': "",
  'cabin_nan': 1,
  'embarked': "S",
  'embarked_nan': 0,
  'fare': 27.9,
  'parch': 2,
  'pclass': 3,
  'sex': "female",
  'sibsp': 3,
  'ticket': "347088"},
 0)
