<a href="https://colab.research.google.com/github/YinGuoX/Deep_Learning_T81_558/blob/master/Part2_2_Pandas_cat.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Part2.2: Categorical and Continuous Values
神经网络一般要求输入固定数量的列，这种输入格式与电子表格数据很类似。但是这种输入必须是数字。

因此必须以神经网络可以训练的方式来输入数据，在之后的课程中会介绍更多预处理数据的方式，但是现在，我们将主要介绍几种最基本的方法来预处理数据使之可以输入到神经网络。

在我们研究预处理数据的特定方法之前，重要的是要考虑四种基本数据类型，如[[Cite：stevens1946theory]](https://psychology.okstate.edu/faculty/jgrice/psyc3214/Stevens_FourScales_1946.pdf)所定义。 统计人员通常将其称为[度量级别](https://en.wikipedia.org/wiki/Level_of_measurement)：

* 字符数据(字符串):
  * 标称-单个离散项目，无序。 例如，颜色，邮政编码，形状。
  * 序数-个别的不同的项目有一个隐含的顺序。例如等级、职位头衔、星巴克(tm)咖啡大小(高杯、超大杯、大杯)
* 数值数据：
  * 区间-数值，没有定义开始。例如：温度。你永远不会说:“昨天是今天的两倍热。”
  * 比率-数值，明确定义开始。例如,速度。你会说“第一辆车的速度是第二辆的两倍。”

## 1. 编码连续值
一种常见的转换是对输入进行标准化。 有时对于将数字输入标准化为标准形式很有价值，这样程序可以轻松比较这两个值。 考虑是否有一位朋友告诉您他得到了10美元的折扣。 这很划算吗？ 也许。 但是成本并未标准化。 如果您的朋友购买了汽车，那么折扣并不是那么好。 如果您的朋友买了晚餐，这是一个很大的折扣！

百分比是一种普遍的标准化形式。如果你的朋友告诉你他们得到了10%的折扣，我们知道这个折扣比5%要好。购买价格多少并不重要。一种广泛使用的机器学习标准化是Z-Score:

$z = \frac{x-\mu}{\sigma}$

要计算Z-Score，还需要计算平均值($\mu$)和标准差($\sigma$)。均值($$\mu)计算如下:

$\mu = \bar{x} = \frac{x_1+x_2+...+x_n}{n}$

标准差($\sigma$)计算如下：

$\sigma = \sqrt{\frac{1}{N}\sum_{i=1}^{N}{(x_i-\mu)}^2}$

下面的Python代码将mpg替换为Z-score。平均MPG将接近于零，高于零就是高于平均值，低于零就是低于平均值。Z-Score在-3以下和3以上非常罕见，这些是异常值。

In [None]:
import os
import pandas as pd
from scipy.stats import zscore

df = pd.read_csv(
    "https://data.heatonresearch.com/data/t81-558/auto-mpg.csv",
    na_values=['NA','?'])

pd.set_option('display.max_columns',7)
pd.set_option('display.max_rows',5)

display(df)
df['mpg'] = zscore(df['mpg'])
display(df)

Unnamed: 0,mpg,cylinders,displacement,...,year,origin,name
0,18.0,8,307.0,...,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,...,70,1,buick skylark 320
...,...,...,...,...,...,...,...
396,28.0,4,120.0,...,82,1,ford ranger
397,31.0,4,119.0,...,82,1,chevy s-10


Unnamed: 0,mpg,cylinders,displacement,...,year,origin,name
0,-0.706439,8,307.0,...,70,1,chevrolet chevelle malibu
1,-1.090751,8,350.0,...,70,1,buick skylark 320
...,...,...,...,...,...,...,...
396,0.574601,4,120.0,...,82,1,ford ranger
397,0.958913,4,119.0,...,82,1,chevy s-10


## 2. 编码分类值--->伪变量
传统的分类值编码方法是将分类值设为虚拟变量。这种技术也称为单热编码(one-hot-encoding)。考虑以下数据集。



In [None]:
import pandas as pd

df = pd.read_csv(
    "https://data.heatonresearch.com/data/t81-558/jh-simple-dataset.csv",
    na_values=['NA','?'])

pd.set_option('display.max_columns', 7)
pd.set_option('display.max_rows', 5)

display(df)

Unnamed: 0,id,job,area,...,retail_dense,crime,product
0,1,vv,c,...,0.492126,0.071100,b
1,2,kd,c,...,0.342520,0.400809,c
...,...,...,...,...,...,...,...
1998,1999,qp,c,...,0.598425,0.117803,c
1999,2000,pe,c,...,0.539370,0.451973,c


In [None]:
areas = list(df['area'].unique())
print(f'Number of areas : {len(areas)}')
print(f"Areas : {areas}")

Number of areas : 4
Areas : ['c', 'd', 'a', 'b']


在areas列中有四个惟一的值。为了将这些编码为虚拟变量，我们将使用四列，每列将代表一个区域。对于每一行，一列的值为1，其余为0。由于这个原因，这种类型的编码有时被称为单热编码。下面的代码展示了如何对值“a”到“d”进行编码。值A变成[1,0,0,0]，值B变成[0,1,0,0]。

In [None]:
dummies = pd.get_dummies(['a','b','c','d'],prefix='area')
print(dummies)

   area_a  area_b  area_c  area_d
0       1       0       0       0
1       0       1       0       0
2       0       0       1       0
3       0       0       0       1


In [None]:
dummies = pd.get_dummies(df['area'],prefix='area')
print(dummies[:12])

    area_a  area_b  area_c  area_d
0        0       0       1       0
1        0       0       1       0
..     ...     ...     ...     ...
10       1       0       0       0
11       0       0       1       0

[12 rows x 4 columns]


为了对“区域”列进行编码，我们使用以下代码。 

**注**：有必要将这些虚拟变量合并回数据帧。

In [None]:
df = pd.concat([df,dummies],axis=1)
pd.set_option('display.max_columns', 0)
pd.set_option('display.max_rows', 10)

display(df[['id','job','area','income','area_a','area_b','area_c','area_d']])

Unnamed: 0,id,job,area,income,area_a,area_b,area_c,area_d
0,1,vv,c,50876.0,0,0,1,0
1,2,kd,c,60369.0,0,0,1,0
2,3,pe,c,55126.0,0,0,1,0
3,4,11,c,51690.0,0,0,1,0
4,5,kl,d,28347.0,0,0,0,1
...,...,...,...,...,...,...,...,...
1995,1996,vv,c,51017.0,0,0,1,0
1996,1997,kl,d,26576.0,0,0,0,1
1997,1998,kl,d,28595.0,0,0,0,1
1998,1999,qp,c,67949.0,0,0,1,0


通常，将删除原始列('area')，因为它的目标是让神经网络的数据帧完全是数字的。

In [None]:
pd.set_option('display.max_columns', 0)
pd.set_option('display.max_rows', 5)

# inplace=True，使其作用到原Data Frame
df.drop('area',axis=1,inplace=True)
print(df)

        id job   income     aspect  ...  area_a  area_b  area_c  area_d
0        1  vv  50876.0  13.100000  ...       0       0       1       0
1        2  kd  60369.0  18.625000  ...       0       0       1       0
...    ...  ..      ...        ...  ...     ...     ...     ...     ...
1998  1999  qp  67949.0   5.733333  ...       0       0       1       0
1999  2000  pe  61467.0  16.891667  ...       0       0       1       0

[2000 rows x 17 columns]


## 3. 编码分类值-->目标编码
目标编码有时可以增加机器学习模型的预测能力。然而，它也极大地增加了过拟合的风险。
因为目标编码是根据目标值来重新赋予训练值，所以很容易出现过拟合。

由于这种风险，您在使用这种方法时必须小心。目标编码是Kaggle比赛中流行的一种技术。

通常，仅当机器学习模型的输出为数字（回归）时，目标编码只能用于分类特征。

目标编码的概念很简单。 对于每个类别，我们计算该类别的平均目标价值。 然后进行编码，我们替换与分类值具有的类别相对应的百分比。 与伪变量不同，在伪变量中，每个类别都有一列，使用目标编码，程序仅需要一列。 这样，目标编码比伪变量更有效

In [None]:
# Create a small sample dataset
import pandas as pd
import numpy as np

np.random.seed(43)
df = pd.DataFrame({
    'cont_9':np.random.rand(10)*100,
    'cat_0':['dog']*5 + ['cat']*5,
    'cat_1':['wolf']*9 + ['tiger']*1,
    'y':[1,0,1,1,1,1,0,0,0,0]
})
pd.set_option('display.max_columns',0)
pd.set_option('display.max_rows',0)
display(df)

Unnamed: 0,cont_9,cat_0,cat_1,y
0,11.505457,dog,wolf,1
1,60.906654,dog,wolf,0
2,13.339096,dog,wolf,1
3,24.058962,dog,wolf,1
4,32.713906,dog,wolf,1
5,85.913749,cat,wolf,1
6,66.609021,cat,wolf,0
7,54.116221,cat,wolf,0
8,2.901382,cat,wolf,0
9,73.37483,cat,tiger,0


与为“狗”和“猫”创建虚拟变量不同，我们希望将其更改为一个数字。我们可以用0表示猫，1表示狗。然而，我们可以编码更多的信息。简单的0或1也只适用于一种动物。考虑一下猫和狗的平均目标值是多少。

In [None]:
print(type(df.groupby('cat_0')['y'].mean()))
print(df.groupby('cat_0')['y'].mean())

# 按照'cat_0'列进行分组，然后计算每个组中以'y'为值的平均值，最后将其转换为字典
means0 = df.groupby('cat_0')['y'].mean().to_dict()
print(means0)

<class 'pandas.core.series.Series'>
cat_0
cat    0.2
dog    0.8
Name: y, dtype: float64
{'cat': 0.2, 'dog': 0.8}


如果我们现在正在使用目标值进行训练。则此技术可能会导致过度拟合。 如果特定类别的数量很少，则过度拟合的可能性甚至更大。 为了防止这种情况的发生，我们使用加权因子。 权重越强，具有较少数量值的类别将多于y的总体平均值。 您可以按以下方式执行此计算。

In [None]:
df['y'].mean()

0.5

您可以按照以下方式实现目标编码。有关目标编码的更多信息，请参考文章[ "Target Encoding Done the Right Way"]()，这段代码就是基于这篇文章编写的。

In [None]:
def calc_smooth_mean(df1,df2,cat_name,target,weight):
  # 计算全部的平均值
  mean = df1[target].mean()

  # 计算cat_name组的target的数目和平均值
  # print("XXX")
  agg = df1.groupby(cat_name)[target].agg(['count','mean'])
  counts = agg['count']
  means = agg['mean']

  # 计算平滑均值
  smooth = (counts*means + weight*mean)/(counts+weight)

  # 将cat_name的值替换为smooth
  if df2 is None:
    return df1[cat_name].map(smooth)
  else:
    return df1[cat_name].map(smooth),df2[cat_name].map(smooth.to_dict())


以下代码对两个类别进行编码：

In [None]:
WEIGHT= 5
print(df)
df['cat_0_enc'] = calc_smooth_mean(df1=df,df2=None,cat_name='cat_0',target='y',weight=WEIGHT)

df['cat_1_enc'] = calc_smooth_mean(df1=df,df2=None,cat_name='cat_1',target='y',weight=WEIGHT)

pd.set_option('display.max_columns',0)
pd.set_option('display.max_rows',0)

display(df)

      cont_9 cat_0  cat_1  y
0  11.505457   dog   wolf  1
1  60.906654   dog   wolf  0
2  13.339096   dog   wolf  1
3  24.058962   dog   wolf  1
4  32.713906   dog   wolf  1
5  85.913749   cat   wolf  1
6  66.609021   cat   wolf  0
7  54.116221   cat   wolf  0
8   2.901382   cat   wolf  0
9  73.374830   cat  tiger  0


Unnamed: 0,cont_9,cat_0,cat_1,y,cat_0_enc,cat_1_enc
0,11.505457,dog,wolf,1,0.65,0.535714
1,60.906654,dog,wolf,0,0.65,0.535714
2,13.339096,dog,wolf,1,0.65,0.535714
3,24.058962,dog,wolf,1,0.65,0.535714
4,32.713906,dog,wolf,1,0.65,0.535714
5,85.913749,cat,wolf,1,0.35,0.535714
6,66.609021,cat,wolf,0,0.35,0.535714
7,54.116221,cat,wolf,0,0.35,0.535714
8,2.901382,cat,wolf,0,0.35,0.535714
9,73.37483,cat,tiger,0,0.35,0.416667


## 4. 编码分类值作为顺序值
通常，分类将被编码为伪变量。 但是，可能存在其他将类别转换为数字的技术。 只要有分类的顺序，就应该使用数字。 考虑一下您是否有描述个人当前教育水平的分类：
* 幼稚园（0）
* 一年级（1）
* 二年级（2）
* 三年级（3）
* 四年级（4）
* 五年级（5）
* 六年级（6）
* 七年级（7）
* 八年级（8）
* 高中新生（9）
* 高二（10）
* 高中生（11）
* 高中生（12）
* 大学新生（13）
* 大学二年级（14）
* 大三（15）
* 大四（16）
* 研究生（17）
* 博士候选人（18）
* 博士学位（19）
* 博士学位后（20）

上面的列表有21个级别。 这将需要21个虚拟变量。 但是，仅将其编码为虚拟变量将丢失顺序信息。 也许最简单的方法是给它们简单地编号，并为类别分配一个与上面括号中的值相等的数字。 但是，我们也许可以做得更好。 研究生可能需要一年以上的时间，因此您可能不仅增加一个值。