In [54]:
import numpy as np
import pandas as pd
import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
import os
from importlib import reload
from torch.utils.data import DataLoader,Dataset,RandomSampler
import sklearn
from sklearn.preprocessing import LabelEncoder, MinMaxScaler, StandardScaler
from sklearn.model_selection import StratifiedKFold
import argparse
import random
import logging
logger = logging.getLogger(__name__)
from transformers import (AdamW, get_linear_schedule_with_warmup)

数据处理
--

1 得到原始数据和离散，连续列

In [2]:
data_path='/media/xuweijia/DATA/代码/python_test/data/Criteo/demo_data/'
file_name='train.csv'

In [3]:
# get raw data
raw_df=pd.read_csv(os.path.join(data_path+file_name))
raw_df=raw_df.drop(["Id"],axis=1)
raw_df

Unnamed: 0,Label,I1,I2,I3,I4,I5,I6,I7,I8,I9,...,C17,C18,C19,C20,C21,C22,C23,C24,C25,C26
0,1,1.0,0,1.0,,227.0,1.0,173.0,18.0,50.0,...,3486227d,e88ffc9d,c393dc22,b1252a9d,57c90cd9,,bcdee96c,4d19a3eb,cb079c2d,456c12a0
1,1,4.0,1,1.0,2.0,27.0,2.0,4.0,2.0,2.0,...,07c540c4,92555263,,,242bb710,,3a171ecb,72c78f11,,
2,1,0.0,806,,,1752.0,142.0,2.0,0.0,50.0,...,07c540c4,25c88e42,21ddcdc9,b1252a9d,a0136dd2,,32c7478e,8fc66e78,001f3601,f37f3967
3,0,2.0,-1,42.0,14.0,302.0,38.0,25.0,38.0,90.0,...,e5ba7672,5aed7436,21ddcdc9,b1252a9d,c3abeb21,,423fab69,1793a828,e8b83407,5cef228f
4,1,0.0,57,2.0,1.0,2891.0,2.0,35.0,1.0,137.0,...,e5ba7672,642f2610,1d1eb838,b1252a9d,1640d50b,ad3062eb,423fab69,45ab94c8,2bf691b1,c84c4aec
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1594,0,,8,1.0,1.0,43.0,,0.0,1.0,1.0,...,1e88c74f,fc35e8fe,,,a02708ad,c9d4222a,c3dc6cef,502f2493,,
1595,0,8.0,2,20.0,8.0,36.0,9.0,8.0,10.0,8.0,...,e5ba7672,5aed7436,21ddcdc9,b1252a9d,eea796be,,3a171ecb,1793a828,e8b83407,5cef228f
1596,0,0.0,1,2.0,12.0,4877.0,140.0,13.0,34.0,136.0,...,e5ba7672,2b0a9d11,,,7453e535,,dbb486d7,906e72ec,,
1597,0,,2,,1.0,1972.0,,0.0,1.0,14.0,...,e5ba7672,817481a8,,,e4244d7f,c9d4222a,c7dc6720,60efe6e6,,


In [4]:
# 分别找出连续列/离散列
def col_type(df):
    dis_col=[]
    con_col=[]
    columns=df.columns.tolist()
    for c in columns:
        if df[c].dtype=='int64' or df[c].dtype=='float':
            con_col.append(c)
        else:
            dis_col.append(c)
    return dis_col,con_col
dis_col,con_col=col_type(raw_df)
con_col.remove("Label")
label="Label"

In [5]:
raw_df[con_col].values.dtype

dtype('float64')

In [6]:
# 默认是float64(double). 降低到float32. 与torch默认的兼容
raw_df[con_col]=raw_df[con_col].astype(np.float32)

In [7]:
raw_df[con_col].values.dtype

dtype('float32')

2 填充缺失值：数值型填0； 类别填空字符串，到时候也编码进去 （测试数据的缺失值用同样字符填充。相同编码）

In [8]:
null_token = '<NULL>'
raw_df[dis_col]=raw_df[dis_col].fillna(null_token)
raw_df[con_col]=raw_df[con_col].fillna(0)
raw_df

Unnamed: 0,Label,I1,I2,I3,I4,I5,I6,I7,I8,I9,...,C17,C18,C19,C20,C21,C22,C23,C24,C25,C26
0,1,1.0,0.0,1.0,0.0,227.0,1.0,173.0,18.0,50.0,...,3486227d,e88ffc9d,c393dc22,b1252a9d,57c90cd9,<NULL>,bcdee96c,4d19a3eb,cb079c2d,456c12a0
1,1,4.0,1.0,1.0,2.0,27.0,2.0,4.0,2.0,2.0,...,07c540c4,92555263,<NULL>,<NULL>,242bb710,<NULL>,3a171ecb,72c78f11,<NULL>,<NULL>
2,1,0.0,806.0,0.0,0.0,1752.0,142.0,2.0,0.0,50.0,...,07c540c4,25c88e42,21ddcdc9,b1252a9d,a0136dd2,<NULL>,32c7478e,8fc66e78,001f3601,f37f3967
3,0,2.0,-1.0,42.0,14.0,302.0,38.0,25.0,38.0,90.0,...,e5ba7672,5aed7436,21ddcdc9,b1252a9d,c3abeb21,<NULL>,423fab69,1793a828,e8b83407,5cef228f
4,1,0.0,57.0,2.0,1.0,2891.0,2.0,35.0,1.0,137.0,...,e5ba7672,642f2610,1d1eb838,b1252a9d,1640d50b,ad3062eb,423fab69,45ab94c8,2bf691b1,c84c4aec
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1594,0,0.0,8.0,1.0,1.0,43.0,0.0,0.0,1.0,1.0,...,1e88c74f,fc35e8fe,<NULL>,<NULL>,a02708ad,c9d4222a,c3dc6cef,502f2493,<NULL>,<NULL>
1595,0,8.0,2.0,20.0,8.0,36.0,9.0,8.0,10.0,8.0,...,e5ba7672,5aed7436,21ddcdc9,b1252a9d,eea796be,<NULL>,3a171ecb,1793a828,e8b83407,5cef228f
1596,0,0.0,1.0,2.0,12.0,4877.0,140.0,13.0,34.0,136.0,...,e5ba7672,2b0a9d11,<NULL>,<NULL>,7453e535,<NULL>,dbb486d7,906e72ec,<NULL>,<NULL>
1597,0,0.0,2.0,0.0,1.0,1972.0,0.0,0.0,1.0,14.0,...,e5ba7672,817481a8,<NULL>,<NULL>,e4244d7f,c9d4222a,c7dc6720,60efe6e6,<NULL>,<NULL>


3 可以做一些特征处理上的优化。比如数值型归一化。离散特征出现次数小于某阈值的，值都编码成\<UNK\>。这里忽略，假设已经做过了.也做过了特征选择

4 离散特征label-encode. 保存原始值到label的映射。之后根据映射后的id找对应embedding （取值10个以内的one-hot,作为新特征）
  如果想同一列加工出不同特征。可以用FeatureUnion和自定义transformer来选择列。 （如对文本列同时加工长度和tfidf两个特征）
  ColumnTransformer对同一列只能做一个操作。如果不对同一列做不同操作，就用这个就可以。

In [9]:
# %load FM_helper/LabelEncoder.py

In [10]:
# 直接当做包，引用py中函数
# labelencoding。
from FM_helper import LabelEncoder
reload(LabelEncoder)
trans,new_con_col,new_dis_col,df,raw_df2,cate_counts,cate_feature_map=LabelEncoder.labelencode_trans(raw_df,dis_col,con_col,label)
# 测试.只需要保存大transformer和最终的dis_col,con_col。 用来做转化，以及识别转换后的两类特征。 
LabelEncoder.test(raw_df,trans,new_con_col,new_dis_col,label)

Unnamed: 0,C1,C2,C3,C4,C5,C6,C7,C8,C9,C10,...,I5,I6,I7,I8,I9,I10,I11,I12,I13,Label
0,33.0,27.0,486.0,572.0,1.0,1.0,459.0,1.0,1.0,465.0,...,227.0,1.0,173.0,18.0,50.0,1.0,7.0,1.0,0.0,1.0
1,0.0,98.0,170.0,287.0,1.0,3.0,550.0,21.0,1.0,683.0,...,27.0,2.0,4.0,2.0,2.0,1.0,1.0,0.0,2.0,1.0
2,0.0,28.0,114.0,696.0,11.0,3.0,704.0,1.0,1.0,133.0,...,1752.0,142.0,2.0,0.0,50.0,0.0,1.0,0.0,0.0,1.0
3,0.0,12.0,650.0,243.0,1.0,3.0,329.0,1.0,1.0,27.0,...,302.0,38.0,25.0,38.0,90.0,1.0,3.0,0.0,38.0,0.0
4,0.0,36.0,517.0,70.0,1.0,3.0,20.0,2.0,1.0,166.0,...,2891.0,2.0,35.0,1.0,137.0,0.0,17.0,0.0,1.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1594,0.0,93.0,617.0,801.0,1.0,1.0,25.0,12.0,1.0,28.0,...,43.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,1.0,0.0
1595,30.0,12.0,1034.0,243.0,1.0,6.0,935.0,1.0,1.0,454.0,...,36.0,9.0,8.0,10.0,8.0,1.0,1.0,0.0,8.0,0.0
1596,30.0,113.0,676.0,7.0,1.0,6.0,185.0,14.0,1.0,485.0,...,4877.0,140.0,13.0,34.0,136.0,0.0,2.0,0.0,12.0,0.0
1597,0.0,48.0,565.0,727.0,1.0,6.0,377.0,0.0,1.0,202.0,...,1972.0,0.0,0.0,1.0,14.0,0.0,0.0,0.0,1.0,0.0


标准FM
--

公式：

$$y= b+ \sum_{i}w_ix_i  + \sum_{i}^{n}\sum_{j!=i}^{n}x_ix_j<\vec{v_i},\vec{v_j}>$$

一阶同LR. 每个连续特征对应一个$w_i$,每个离散特征one-hot之后的特征作为新特征，对应一个$w_i$

二阶交互，每个连续特征对应一个embedding。每个离散特征的每个每个特征的每个取值对应一个embedding

因此每个连续特征$x_i$,对应一个$w_i$,一个embedding，用来和其他特征交互。
   每个离散特征域，对应one-hot之后的C个特征$x_i$，对应C个$w_i$,C个embedding

但对每个样本来说，该离散特征one-hot之后，只会根据取值取到一个embedding，一个$w_i$<br/>(该离散特征对一阶的贡献，只有根据样本该离散特征取值映射到的$w_i$，对应取值$x_i$是1,其他C-1位置由于one-hot,该样本下取值$x_i$都是0,贡献是0)

因此总共需要维护（所有连续特征+所有离散特征的所有取值)个特征

假设所有连续特征和one-hot后的所有离散特征共F个,总共需要维护F个特征。可以根据特征名称，把每个特征映射到一个固定id上（位置）:<br/>
每个连续特征对应一个id                            <br/>
每个离散特征的每个取值对应一个id                    <br/>
每个id都维护一个$w_i$,一个embedding，对应该特征在W（F,1）,embedding(F,d)中的位置。<br/>
之后每个样本，都可以根据特征位置去找对应的$w_i$,embedding：       <br/>

因此在对每个样本进行映射时，需要分别得到样本每个特征的位置（id）和取值$x_i$：

位置映射：样本的所有特征都被映射到对应位置,用来找对应的$w_i$,embedding。每个连续特征对应的就是位置id。每个离散域，根据样本在该域的取值映射到对应id。n个离散域，对应n个embedding,n个$w_i$

样本取值：连续特征的取值不变（或者归一化），离散特征取值1，作为样本的$x_i$输入。n个离散域，对应的n个取值，$x_i$都是1。在one-hot后的对应位置上

### 对原始特征进行映射。得到one-hot之后的所有特征（含连续特征）到位置id的映射

In [11]:
from sklearn.base import BaseEstimator, TransformerMixin
import pandas as pd
import numpy as np
import os
class FeaturePosTrans(BaseEstimator, TransformerMixin):
    def __init__(self, dis_col=None, con_col= None, limit_freq = 0):
        self.dis_col=dis_col
        self.con_col=con_col
        self.limit_freq=limit_freq
        
        self.NULL = '<NULL>'
        self.UNK = '<UNK>'                                                # nlp里。低频是1，NAN是0. NAN作为padding,不参与训练且是0
                                                                          # NAN对应embedding： padding_index=0.只占位，不训练）
                                                                          # nn.Embedding(V,d,padding_idx=0
    
        self.dis_col_map=dict()                                            # 按特征，记录取值到位置id的映射  只用来存着
        self.feature_id_map=dict()                                         # 特征名到位置id的映射大表 {特征名_取值：位置id}
        self.pos=0                                                         # 位置id
        self.dis_col_count=dict()                                          # 每个离散特征的取值数目
        
        
        # 所有离散的缺失值，统一用NAN编码，之后在w，E中padding成0
        self.feature_id_map[self.NULL]=0
        self.pos+=1
        
        if (con_col!=None):
            self.feature_id_map.update(dict(zip(con_col,range(self.pos,self.pos+len(con_col))))) # 连续特征到对应位置的映射
            self.pos+=len(self.con_col)

    def fit(self, X , y = None):
        
        if (self.dis_col!=None):
            # 每个离散特征取值,映射到对应id
            for col in self.dis_col:
                valueCount=dict(X[col].value_counts())                       # 该离散特征。每个取值的出现数目
                # 是否特殊处理低频取值
                if self.limit_freq>0:
                    values=[k for k,v in valueCount.items() if k!=self.NULL and v>self.limit_freq]  # 该特征留下的取值
                    self.dis_col_map[col]=dict(zip(values,range(self.pos+1,self.pos+1+len(values))))
                    self.dis_col_map[col][self.UNK]=self.pos
                    # 组织大表。类似
                    new_values=[col+"_"+v for v in values]                    # { C1_v1：id}  
                    self.feature_id_map.update(dict(zip(new_values,range(self.pos+1,self.pos+1+len(new_values)))))
                    self.feature_id_map[col+"_"+self.UNK]=self.pos
                    self.pos+=len(new_values)+1                              # 每个特征留下：所有高频取值+UNK                                   
                else:
                    # 每个特征。分别记录映射
                    values=[k for k in valueCount.keys() if k!=self.NULL]    # 该离散特征所有取值（除缺失值） 
                    self.dis_col_map[col]=dict(zip(values,range(self.pos,self.pos+len(values))))
                    # 类似，但根据取值记在大map里
                    new_values=[col+"_"+v for v in values]                   # { C1_v1：id}  
                    self.feature_id_map.update(dict(zip(new_values,range(self.pos,self.pos+len(new_values)))))
                    self.pos+=len(new_values)
                    
                 # 每个离散特征的有效取值数目(不含NAN，含每个特征的unk)
                self.dis_col_count[col]=len(self.dis_col_map[col])                            
                                                                               
    def transform(self, X, y=None):
        # 映射：
        feature_pos=X.copy()                        # 样本每个特征对应的位置
        feature_values=X.copy()                     # 样本每个特征的取值。离散特征取值是1.
        cols=self.dis_col+self.con_col
        for col in cols:
            if col in self.dis_col:
                #values=X[col].apply(self.gen,args=(col,)).values
                values=X[col].apply(self.gen2,args=(col,)).values    # 组织形式不同。映射效果相同。用这个好些
                feature_pos[col]=values
                feature_values[col]=1.0
            else:
                feature_pos[col]=self.feature_id_map[col]            # 连续特征取值不变  。 位置是映射后的id 
        
        # 映射完的取值（包括离散特征取值1.0），也都变成float32
        feature_values=feature_values.astype(np.float32)
        
        return feature_pos,feature_values
        
    # 如果是多列。传入的x是该列对应的series. 输出的是这些列拼起来的df
    # 如果是单列，传入的x是该列的每个元素    输出的是该列对应的Series
    # 根据离散特征取值，返回对应的位置id
    def gen(self,x,col):
        if x==self.NULL:                                        # NAN统一映射到0
            return 0
        else:
            if x in self.dis_col_map[col]:
                return self.dis_col_map[col][x]                 # 按取值，映射到对应位置id
            else:
                if self.limit_freq>0:
                    return self.dis_col_map[col][self.UNK]       # 低频取值/没见过的值。映射到unqkey对应的编码 
                else:
                    return 0                                     # 没见过的值。映射到NAN==0。没有贡献

    # 用大表做映射。类似
    def gen2(self,x,col):    
        if x==self.NULL:                                         # NAN统一映射到0
            return 0
        else:
            x=col+"_"+x
            if x in self.feature_id_map:                         # 其他按取值，映射到对应位置id
                return self.feature_id_map[x]                 
            else:
                if self.limit_freq>0:                
                    return self.feature_id_map[col+"_"+self.UNK] # 低频取值/没见过的值。映射到该特征unqkey对应的编码 
                else:
                    return 0                                     # 没见过的值。映射到NAN。没有贡献
                
    def id2name(self):
        return dict(zip(self.feature_id_map.values(),self.feature_id_map.keys()))

In [12]:
#from FM_helper import Fmdata
#reload(Fmdata)
#f_trans=Fmdata.FeaturePosTrans(dis_col,con_col,10)
f_trans=FeaturePosTrans(dis_col,con_col,10)             # 出现10次以下的作为UNK
f_trans.fit(raw_df)
feature_pos,feature_values=f_trans.transform(raw_df)

In [13]:
len(f_trans.feature_id_map)  # 离散特征one-hot后，总的特征数目. NAN+con_col+all_dis

319

In [14]:
f_trans.feature_id_map

{'<NULL>': 0,
 'I1': 1,
 'I2': 2,
 'I3': 3,
 'I4': 4,
 'I5': 5,
 'I6': 6,
 'I7': 7,
 'I8': 8,
 'I9': 9,
 'I10': 10,
 'I11': 11,
 'I12': 12,
 'I13': 13,
 'C1_05db9164': 15,
 'C1_68fd1e64': 16,
 'C1_5a9ed9b0': 17,
 'C1_8cf07265': 18,
 'C1_be589b51': 19,
 'C1_5bfa8ab5': 20,
 'C1_f473b8dc': 21,
 'C1_87552397': 22,
 'C1_ae82ea21': 23,
 'C1_39af2607': 24,
 'C1_9a89b36c': 25,
 'C1_<UNK>': 14,
 'C2_38a947a1': 27,
 'C2_09e68b86': 28,
 'C2_80e26c9b': 29,
 'C2_d833535f': 30,
 'C2_4f25e98b': 31,
 'C2_287130e0': 32,
 'C2_0a519c5c': 33,
 'C2_08d6d899': 34,
 'C2_4c2bc594': 35,
 'C2_38d50e09': 36,
 'C2_207b2d81': 37,
 'C2_58e67aaf': 38,
 'C2_2c16a946': 39,
 'C2_942f9a8d': 40,
 'C2_8947f767': 41,
 'C2_421b43cd': 42,
 'C2_0468d672': 43,
 'C2_8084ee93': 44,
 'C2_78ccd99e': 45,
 'C2_1cfdf714': 46,
 'C2_68b3edbf': 47,
 'C2_e112a9de': 48,
 'C2_95e2d337': 49,
 'C2_e5fb1af3': 50,
 'C2_39dfaa0d': 51,
 'C2_e77e5e6e': 52,
 'C2_9819deea': 53,
 'C2_8cc9c66e': 54,
 'C2_f0cf0024': 55,
 'C2_3df44d94': 56,
 'C2_ae46a2

In [15]:
feature_pos

Unnamed: 0,Label,I1,I2,I3,I4,I5,I6,I7,I8,I9,...,C17,C18,C19,C20,C21,C22,C23,C24,C25,C26
0,1,1,2,3,4,5,6,7,8,9,...,213,240,249,257,258,0,279,284,305,309
1,1,1,2,3,4,5,6,7,8,9,...,212,219,0,0,258,0,276,284,0,0
2,1,1,2,3,4,5,6,7,8,9,...,212,219,250,257,258,0,275,284,299,309
3,0,1,2,3,4,5,6,7,8,9,...,210,220,250,257,258,0,277,287,298,309
4,1,1,2,3,4,5,6,7,8,9,...,210,219,249,257,258,270,277,290,301,311
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1594,0,1,2,3,4,5,6,7,8,9,...,215,219,0,0,258,271,274,284,0,0
1595,0,1,2,3,4,5,6,7,8,9,...,210,220,250,257,258,0,276,287,298,309
1596,0,1,2,3,4,5,6,7,8,9,...,210,219,0,0,258,0,282,284,0,0
1597,0,1,2,3,4,5,6,7,8,9,...,210,219,0,0,258,271,280,284,0,0


In [16]:
feature_values

Unnamed: 0,Label,I1,I2,I3,I4,I5,I6,I7,I8,I9,...,C17,C18,C19,C20,C21,C22,C23,C24,C25,C26
0,1.0,1.0,0.0,1.0,0.0,227.0,1.0,173.0,18.0,50.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
1,1.0,4.0,1.0,1.0,2.0,27.0,2.0,4.0,2.0,2.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
2,1.0,0.0,806.0,0.0,0.0,1752.0,142.0,2.0,0.0,50.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
3,0.0,2.0,-1.0,42.0,14.0,302.0,38.0,25.0,38.0,90.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
4,1.0,0.0,57.0,2.0,1.0,2891.0,2.0,35.0,1.0,137.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1594,0.0,0.0,8.0,1.0,1.0,43.0,0.0,0.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
1595,0.0,8.0,2.0,20.0,8.0,36.0,9.0,8.0,10.0,8.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
1596,0.0,0.0,1.0,2.0,12.0,4877.0,140.0,13.0,34.0,136.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
1597,0.0,0.0,2.0,0.0,1.0,1972.0,0.0,0.0,1.0,14.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0


In [17]:
feature_values.values.dtype

dtype('float32')

In [18]:
feature_pos=feature_pos.drop([label], axis=1)
feature_values=feature_values.drop([label], axis=1)    # 特征列去掉label

In [19]:
allcols=dis_col+con_col
feature_values[allcols].values.dtype

dtype('float32')

### 建立自己的dataset和对应的dataloader

In [20]:
torch.set_default_dtype(torch.float32)           # torch模型参数的默认数据类型是flaot32.  np/pd是默认是flaot64(double).转成一样的

In [21]:
# 建dataset: 都放np,防止loader开多进程内存泄露:https://github.com/pytorch/pytorch/issues/13246#issuecomment-893198671）
class Mydata(Dataset):
    def __init__(self,fv,fp,target,mode='train'):
        super(Mydata, self).__init__()
        self.fv=fv           # np: m,n.  每个样本的特征取值 
        self.fp=fp           #           每个样本的特征位置.如果太大以后可以放np文件名.或切成多个文件,每次只打开一个(类似drml)
        self.target=target   #           如果mode==train/valid.对应y. mode==test,没有y，对应id 
    def __len__(self):
        return len(self.fv)
    def __getitem__(self, index):
        return self.fp[index,:],self.fv[index],self.target[index]  # 提前做好了映射。当然映射也可以在这里做。

allcols=dis_col+con_col
trainDataset=Mydata(feature_values[allcols].values,feature_pos[allcols].values, raw_df[label].values)

In [56]:
train_sampler = RandomSampler(trainDataset)
train_dataloader = DataLoader(trainDataset, sampler=train_sampler, batch_size=32,num_workers=4)
epoch_num=3
for epoch in range(epoch_num):
    for batch_id,x in enumerate(train_dataloader):   # 把数据完整轮询一遍。对应一个epoch. 每一轮都是随机的
        # 输入模型
        print(x[0])
        break

tensor([[16, 49, 59,  ..., 11, 12, 13],
        [20, 26, 59,  ..., 11, 12, 13],
        [14, 30, 62,  ..., 11, 12, 13],
        ...,
        [15, 29, 59,  ..., 11, 12, 13],
        [17, 28, 59,  ..., 11, 12, 13],
        [15, 28, 63,  ..., 11, 12, 13]])
tensor([[18, 26, 59,  ..., 11, 12, 13],
        [15, 27, 59,  ..., 11, 12, 13],
        [17, 27, 59,  ..., 11, 12, 13],
        ...,
        [15, 28, 59,  ..., 11, 12, 13],
        [14, 28, 59,  ..., 11, 12, 13],
        [14, 27, 59,  ..., 11, 12, 13]])
tensor([[16, 26, 59,  ..., 11, 12, 13],
        [14, 26, 59,  ..., 11, 12, 13],
        [23, 35, 60,  ..., 11, 12, 13],
        ...,
        [15, 26, 59,  ..., 11, 12, 13],
        [15, 37, 59,  ..., 11, 12, 13],
        [15, 26, 59,  ..., 11, 12, 13]])


In [22]:
# DataLoader:   valid同
trainloader = DataLoader(trainDataset,        
                    shuffle=True,             # 每个epoch全部shuffle
                    batch_size=32,
                    collate_fn=None,          # 自定义如何拼batch。默认有，一般不需要。可以用来对batch padding（根据每个batch最长的text）
                                              # 传入的是一个batch，B个tuple. 每个tuple对应Dataset传出来的n个元素。
                                              # 自己重新拼成n个元素，每个元素B行，作为loader每次迭代的返回
                    pin_memory=False,         # 页锁定内存：不可分页，占用物理内存。 可分页内存：占用虚拟内存，用时候从磁盘读入物理内存
                                                # gpu需要通过页锁定内存中，把数据复制到gpu上
                                                #  数据从cpu的可分页内存内存传到gpu时，需要先把数据复制到临时的页锁定内存，再赋值到gpu.速度更慢
                                                #  如果指定pin_memory=True, batch的数据会直接被放在cpu的页锁定内存中，传到gpu时更快。少了一步复制
                                                #  但页锁定内存会占用真实物理内存，分配过多会挤占别的程序的内存，把内存耗尽。因此内存小时不建议用
                    sampler=None,             # 定义/自定义怎么从dataset里抽取每个batch的样本.还有一个batch_sampler参数
                                              # 需要实现__iter__方法。返回针对所有样本id的迭代器，顺序按自定义的样本顺序排好
                                              # 需要实现 __len__ ， 表示loader的一次抽取完成。一般同dataset样本数。
                                              # 就不能定义shuffle了，因为策略自己实现了。shuffle只能在iter里自己做。加入随机性
                                              # 每次loader会根据__iter__(和batch_size），迭代产生该epoch的每个batch。 
                                              # 比如nlp会根据样本文本长度，将长度相近样本排一起：iter([25,3,60,0,...1])。使得每个batch长度接近
                                              # 通过在__iter_里先切好batch,再shuffle,再整合。打乱每个epoch,batch间的执行顺序
                                              # 可以设置RandomSampler每次随机采样。（可参考该实现等）                       
                    num_workers=10            # 开多进程，每个进程计算一个batch。初始化时用之前提前处理好对应的n个batch。后续batch加入新的线程
                   )                          # 初始化时会一次性建好n个进程。每个进程提前处理好要用的batch数据。（底层是 multiprocessing）

In [23]:
epoch_num=3
for epoch in range(epoch_num):
    for batch_id,x in enumerate(trainloader):   # 把数据完整轮询一遍。对应一个epoch
        # 输入模型
        break

In [74]:
len(trainloader)                                # 每个epoch对应的batch的个数（step的数目）

50

In [75]:
len(raw_df)//32

49

In [24]:
x

[tensor([[15, 46, 59,  ..., 11, 12, 13],
         [16, 26,  0,  ..., 11, 12, 13],
         [18, 27, 59,  ..., 11, 12, 13],
         ...,
         [15, 27, 59,  ..., 11, 12, 13],
         [15, 29, 59,  ..., 11, 12, 13],
         [14, 39, 59,  ..., 11, 12, 13]]),
 tensor([[ 1.,  1.,  1.,  ..., 24.,  0.,  1.],
         [ 1.,  1.,  1.,  ...,  0.,  0.,  1.],
         [ 1.,  1.,  1.,  ...,  2.,  0.,  3.],
         ...,
         [ 1.,  1.,  1.,  ...,  2.,  6.,  5.],
         [ 1.,  1.,  1.,  ...,  2.,  0.,  2.],
         [ 1.,  1.,  1.,  ...,  1.,  0.,  3.]]),
 tensor([1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0,
         0, 1, 1, 0, 1, 1, 0, 0])]

In [25]:
f_p,f_v,y=x[0],x[1],x[2]

### 原始FM模型

模型维持n个w,n个embedding，对应one-hot后的所有特征（这里还算上了缺失值对应的0参数）

二阶分数是$$\sum_{i}^{n}\sum_{j!=i}^{n}x_ix_j<\vec{v_i},\vec{v_j}>$$

直接计算是$O(n^2*k)$。每对向量内积是$k$,共$O(n^2)$个pair。最后求和

等价于embedding们对应位置22相乘后，再求和。可以先求所有embedding每个维度元素22相乘的和，最后再对所有维度求和

$$\sum_{i}^{n}\sum_{j!=i}^{n}<\vec{e_i},\vec{e_j}>= \sum_{f} \sum_{i}^{n}\sum_{j!=i}^{n}e_{if}*e_{jf} $$

embedding的每个维度元素22相乘的和： $ab+ac+bc= \frac{1}{2}((a+b+c)^2-(a^2+b^2+c^2))$

因此对固定维度，embedding的每个维度元素22相乘的和$\sum_{i}^{n}\sum_{j!=i}^{n}e_{if}*e_{jf}$ ，是$\frac{1}{2}((e_{if}+e_{jf}...)^2-(e_{if}^2+e_{if}^2+...))$

可以通过每个embedding相加（对应位置相加）的平方，减去每个embedding平方的相加，得到（1，k）的向量，作为embedding的每个维度元素22交互的结果。最终的二阶分数是这k个维度的结果相加。

也可以把这k维向量作为新的隐特征，输入后续网络。作为FM/deepFM的一个小变体

转化后，$\frac{1}{2}((e_{if}+e_{jf}...)^2-(e_{if}^2+e_{if}^2+...))$的复杂度只有$O(n)$(n个元素相加或平方后相加)。加上维度F，总的复杂度可以降低到$O(nk)$

In [26]:
class FM(nn.Module):
    def __init__(self,n_field,n_features,embed_size,dropout=0):
        """
        标准FM
        n_field: 原始离散特征数目
        n_features: 离散特征one-hot之后,和dense的总特征个数. 这里包含了一个缺失值特征向量，paddding成0
        """
        super(FM, self).__init__()
        self.n_field=n_field             # 原始特征数目
        self.n_features=n_features       # 连续+离散特征的总数目 (离散特征one-hot+unique化后的。且算上最终的一个padding)
        self.k=embed_size
        
        self.W=nn.Embedding(n_features,1,padding_idx=0)                       # 每个特征对应的wi。位置0是0对梯度无贡献。embedding默认是N(0,1)
        self.w0=nn.Parameter(torch.zeros([1,]))                               # b初始化为0
        self.feature_embed=nn.Embedding(n_features,embed_size,padding_idx=0)  # 每个特征对应的embedding
        self.droplayer=nn.Dropout(dropout)
        
        self.scoreweight=nn.Parameter(0.5*torch.ones([2,]))                   # 一阶，二阶score的权重 
                                                                              
        self.__init_weight__()                                                # 初始化权重(可以不调用，用默认的)
            
    def __init_weight__(self):              # 初始化权重.默认是N(0,1)
        inn=n_features-1
        # kaiming_normal_
        nn.init.kaiming_uniform_(self.feature_embed.weight[1:], mode='fan_in', nonlinearity='relu')  # sqrt(6/inn)
        nn.init.normal_(self.W.weight[1:],0, np.sqrt(2.0 /inn))
        
    def forward(self,f_p,f_x): # B,n.  n是每个样本的原始特征数目
        """
        f_p: (B,N)  每个样本的原始特征，根据特征名（连续特征）/特征取值（离散特征）被映射到embedding上的位置。 N:原始特征数目
        f_x: (B,N)  每个样本的原始特征，对应的取值。 离散特征对应的是one-hot后的，所以在对应的f_p上取值为1
        """
        batch_size=f_p.shape[0]
        
        # 一阶score
        w=self.W(f_p).reshape(batch_size,-1)              # B,n   每个样本根据原始特征，找到对应位置处的w
        y_score1=self.w0 + torch.sum(torch.mul(w,f_x),1)  # B,1   wixi+b  B,n -->   B,1.  要是不sum，也可以作为n个特征。之后作为deepFM的改造
        
        # 二阶score
        embed=self.feature_embed(f_p)                     # B,n,d 每个样本根据原始特征，找到对应位置处的embedding
        
        embed=torch.mul(embed,f_x.unsqueeze(2))           # B,n,d 样本的每个向量乘上对应的xi： xi* embedding
                                                          #       tf.mul:按位置乘.广播 (B,n,d) * (B,n,1) ->(B,n,d) 
                                                          #       离散特征对应的xi是1.假设数值型已经归一化
        
        #embed=self.droplayer(embed)
        
        # 每个filed 向量22交互
        e_sum= torch.sum(embed,1)                         # B,d   每个样本。所有embedding对应维度元素相加，得到e_sum
        e_sum_square=torch.square(e_sum)                  # B,d   (e_sum)^2
        
        e_square=torch.square(embed)                      # B,n,d  平方后的
        e_square_sum=torch.sum(e_square,1)                # B,d    每个维度相加
        
        f =0.5*(e_sum_square-e_square_sum)                # B,d    n个embedding，每个维度元素22交互的结果（可作为新特征，拼接到后边）
    
        y_score2= torch.sum(f,1)                          # (B,)
        
        logits=y_score1+y_score2                          # (B,)   最终分数  y_score1*self.scoreweight[0] +..
        
        # TODO:loss加正则项（最后加）/ grad-clip等. 看下train-loop
        
        return logits

### 原始deepFM模型

FM部分相同，但共享底层的embedding部分。把样本原始离散特征和连续特征映射得到的所有embedding，concat,作为后续mlp的输入。输出结果作为deep部分的score,和linear(FM)部分相加

In [27]:
# deepFM： 标准的。 或者上述k个元素作为特征统一拼到deep的
class deepFM(nn.Module):
    def __init__(self,n_field,n_features,embed_size,hiddens,dropout=0,batchnorm=True):
        """
        标准DeepFM
        n_field: 原始特征数目
        n_features: 离散特征one-hot之后,和dense的总特征个数. 这里包含了一个缺失值特征向量，paddding成0
        deep每层：linear + (bn) + relu + (dropout).  输出hidden层。  最后按需单独linear到1
        """
        super(deepFM, self).__init__() 
        self.n_field=n_field             # 原始特征数目
        self.n_features=n_features       # 连续+离散特征的总数目 (离散特征one-hot+unique化后的。且算上最终的一个padding)
        self.k=embed_size
        self.dropout=dropout
        self.batchnorm=batchnorm
        self.hiddens=hiddens             # hiddens:[256,64,32]
    
        # FM-part
        self.W=nn.Embedding(n_features,1,padding_idx=0)                       # 每个特征对应的wi。位置0是0对梯度无贡献。embedding默认是N(0,1)
        self.w0=nn.Parameter(torch.zeros([1,]))                               # b初始化为0
        self.feature_embed=nn.Embedding(n_features,embed_size,padding_idx=0)  # 每个特征对应的embedding
        self.droplayer=nn.Dropout(dropout)            
        
        #self.__init_wide_weight__()                                           # 初始化权重(可以不调用，用默认的)
        
        # deep-part.
        input_size=n_field*embed_size                                         #输入是所有原始特征的embedding拼接   
        self.mlp=self.build_mlp(input_size,hiddens)                           #多层mlp.输出hidden  是一个ModuleList
        self.finallinear=nn.Linear(hiddens[-1],1,bias=True)                   #最后一层linear
        
        #self.__init_deep_weight__()                                           # 初始化权重。(可以按情况调用。现在用kaiming)
            
    def __init_wide_weight__(self):              # 初始化权重.默认是N(0,1)
        inn=n_features-1
        # kaiming_normal_
        nn.init.kaiming_uniform_(self.feature_embed.weight[1:], mode='fan_in', nonlinearity='relu')  # sqrt(6/inn)
        nn.init.normal_(self.W.weight[1:],0, np.sqrt(2.0 /inn))

    def __init_deep_weight__(self):              # 初始化权重
        for layer in self.mlp:
            if (layer.__class__.__name__=='Linear'):  # 每层初始化
                self.init_linear(layer)
        self.init_linear(self.finallinear)
        
    def init_linear(self,layer):
        nn.init.kaiming_normal_(layer.weight, mode='fan_in', nonlinearity='relu')  #sqrt(2/inn) 或者 sqrt(2/out)
        nn.init.constant_(layer.bias, 0)

    def build_mlp(self,input_size,hiddens):
        """
        hiddens:[256,56,32]
        输出最后一层的hidden节点 （dropout+激活后的），可直接linear+sigmoid到deepscore. 也可以拼其他特征后再linear
        """        
        layers=nn.ModuleList()
        
        hiddens.insert(0,input_size)     #  [inputsize,256,56,32]
        num_layer=len(hiddens)-1         #  3层
        
        for i in range(0,len(hiddens)-1):
            
            # 线性层
            in_dim=hiddens[i]
            out_dim=hiddens[i+1]
            layer=nn.Linear(in_dim,out_dim,bias=True)
            layers.append(layer)
            
            # BN
            if self.batchnorm:
                layers.append(nn.BatchNorm1d(out_dim)) 
            
            # active + dropout
            layers.append(nn.ReLU())
            layers.append(nn.Dropout(self.dropout))
                
        return layers  # 拼成一个前后连接的网络。可以在forward里作为一个模块被整体调用
    
    
    def forward(self,f_p,f_x): # B,n.  n是每个样本的原始特征数目
        """
        f_p: (B,N)  每个样本的原始特征，根据特征名（连续特征）/特征取值（离散特征）被映射到embedding上的位置。 N:原始特征数目
        f_x: (B,N)  每个样本的原始特征，对应的取值。 离散特征对应的是one-hot后的，所以在对应的f_p上取值为1
        output:  FM和deep部分 score相加
        """
        batch_size=f_p.shape[0]
        
        # FM-part    每个filed 向量22交互
        w=self.W(f_p).reshape(batch_size,-1)              # B,n   每个样本根据原始特征，找到对应位置处的w
        y_score1=self.w0 + torch.sum(torch.mul(w,f_x),1)  # B,1   wixi+b  B,n -->   B,1.  要是不sum，也可以作为n个特征。
        
        embed=self.feature_embed(f_p)                     # B,n,d 每个样本根据原始特征，找到对应位置处的embedding 
        embed=torch.mul(embed,f_x.unsqueeze(2))           # B,n,d 样本的每个向量乘上对应的xi： xi* embedding
        e_sum= torch.sum(embed,1)                         # B,d   每个样本。所有embedding对应维度元素相加，得到e_sum
        e_sum_square=torch.square(e_sum)                  # B,d   (e_sum)^2
        e_square=torch.square(embed)                      # B,n,d  平方后的
        e_square_sum=torch.sum(e_square,1)                # B,d    每个维度相加
        f =0.5*(e_sum_square-e_square_sum)                # B,d    n个embedding，每个维度元素22交互的结果（可作为新特征，拼接到后边）
        y_score2= torch.sum(f,1)                          # (B,)
        
        # deep-part
        x=torch.reshape(embed,[-1,self.n_field*self.k])           # 输入是所有原始特征对应embedding的拼接
        for layer in self.mlp:
            if(layer.__class__.__name__=='Linear'):
                print(x.shape,x.mean(),x.std())        # 可以画一下数据分布
            x=layer(x)
        
        y_deep=self.finallinear(x).squeeze(-1)         # (B，)
        
        logits=y_score1+y_score2 +y_deep
        
        return logits

In [28]:
n_field=len(dis_col+con_col)           # 原始特征数目
n_features=len(f_trans.feature_id_map) # 连续+离散特征的总数目 (离散特征one-hot+unique化后的。且算上最终的一个padding)
embed_size=8

In [29]:
# 初始化模型
hiddens=[256,56,32]
model=deepFM(n_field,n_features,embed_size,hiddens,dropout=0.5)
#model=FM(n_field,n_features,embed_size)

In [30]:
model

deepFM(
  (W): Embedding(319, 1, padding_idx=0)
  (feature_embed): Embedding(319, 8, padding_idx=0)
  (droplayer): Dropout(p=0.5, inplace=False)
  (mlp): ModuleList(
    (0): Linear(in_features=312, out_features=256, bias=True)
    (1): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    (2): ReLU()
    (3): Dropout(p=0.5, inplace=False)
    (4): Linear(in_features=256, out_features=56, bias=True)
    (5): BatchNorm1d(56, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    (6): ReLU()
    (7): Dropout(p=0.5, inplace=False)
    (8): Linear(in_features=56, out_features=32, bias=True)
    (9): BatchNorm1d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    (10): ReLU()
    (11): Dropout(p=0.5, inplace=False)
  )
  (finallinear): Linear(in_features=32, out_features=1, bias=True)
)

In [31]:
# 模拟一次forward
logits=model(f_p,f_v)
target=y
loss_func= nn.BCEWithLogitsLoss()    #  mean [yn⋅logσ(xn)+(1−yn)⋅log(1−σ(xn))]
loss=loss_func(logits,target.float())

torch.Size([32, 312]) tensor(-7.1762, grad_fn=<MeanBackward0>) tensor(1606.0670, grad_fn=<StdBackward>)
torch.Size([32, 256]) tensor(0.3162, grad_fn=<MeanBackward0>) tensor(0.9222, grad_fn=<StdBackward>)
torch.Size([32, 56]) tensor(0.2604, grad_fn=<MeanBackward0>) tensor(0.8705, grad_fn=<StdBackward>)


In [32]:
target

tensor([1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0,
        0, 1, 1, 0, 1, 1, 0, 0])

In [33]:
logits

tensor([-1.6289e+05, -4.5365e+05,  2.6673e+05,  7.7786e+05, -1.7567e+01,
         6.8710e+05,  1.7678e+03,  6.9569e+04, -6.7786e+05,  1.4761e+05,
        -4.8216e+05, -6.9115e+04,  2.3447e+05,  4.4258e+03, -3.7401e+04,
         1.3089e+06,  2.1333e+05, -1.6606e+08, -5.2457e+05, -3.9542e+07,
        -1.3102e+06,  6.2915e+03, -3.0934e+05,  4.2097e+05,  1.7634e+05,
         3.4409e+02,  5.6265e+01,  2.7754e+06,  3.6664e+01,  5.6272e+01,
        -9.2310e+05,  2.5544e+05], grad_fn=<AddBackward0>)

In [34]:
loss

tensor(242168.8594, grad_fn=<BinaryCrossEntropyWithLogitsBackward>)

In [35]:
model.feature_embed.weight

Parameter containing:
tensor([[ 0.0000,  0.0000,  0.0000,  ...,  0.0000,  0.0000,  0.0000],
        [ 0.1326, -0.6854,  0.2309,  ...,  1.0206,  0.0193, -0.4606],
        [-0.8641,  0.1504, -0.2389,  ..., -0.4872,  0.9674, -0.3318],
        ...,
        [ 0.7141,  0.6442,  0.9975,  ...,  0.9969, -0.1370, -1.6230],
        [ 0.0219, -0.5778,  1.3535,  ..., -0.5980,  0.1426,  1.5398],
        [ 1.5140, -2.4471,  0.3706,  ...,  1.2057, -0.1025, -0.0333]],
       requires_grad=True)

### train_loop

正常trainloop + reg + grad_clip  + CV

In [36]:
ss=StandardScaler()
ss.fit(raw_df[con_col])                           #归一化
raw_df[con_col]=ss.transform(raw_df[con_col])     # 测试做相同处理

f_trans=FeaturePosTrans(dis_col,con_col,10)           # 映射到对应id. 出现10次以下的作为UNK
f_trans.fit(raw_df)
feature_pos,feature_values=f_trans.transform(raw_df)  # 测试集做相同处理。用相同的原始con_col,dis_col。 总的

cols=dis_col+con_col

处理过的数据，划分cv。 训练5个模型，用5个模型的平均作为最终结果（同时也保存这5个模型。作为衡量该模型最终表现的量度）
也可以有放回的每次随机采样一份：df.sample(frac=0.7,random_state =i)

In [37]:
skf=StratifiedKFold(n_splits=5,random_state=2020,shuffle=True)    # 分割器。按y值对给定的样本划分。返回分好的样本id 每轮4:1

In [38]:
for i,(train_index,dev_index) in enumerate(skf.split(raw_df,raw_df[label])): # 可用于df. 根据y，输出分割后的train/dev样本位置
    logger.info("训练第%s折对应的模型",i)                                    # 每个fold训一个模型
    
    train_fv=feature_values[cols].iloc[train_index].values                # 按样本位置，从转换好的df里取训练样本
    train_fp=feature_pos[cols].iloc[train_index].values
    train_label=raw_df[label].iloc[train_index].values
    trainDataset=Mydata(train_fv,train_fp, train_label)                   # 对应的dataset
    
    dev_fv=feature_values[cols].iloc[dev_index].values                    # dev场景下，主要是计算指标。model不输出loss
    dev_fp=feature_pos[cols].iloc[dev_index].values
    dev_label=raw_df[label].iloc[dev_index].values
    dev_dataset=Mydata(dev_fv,dev_fp, dev_label)
    
    #train(train_dataset,dev_dataset)
    break

建立一个class,用来封装基本模型。预测，保存，重新加载等

In [93]:
#设置随机种子。每次训练固定  
def set_seed(args):
    random.seed(args.random_seed)
    np.random.seed(args.random_seed)
    torch.manual_seed(args.random_seed)
    
class WrapModel(object):
    def __init__(self,args=None,state_dict=None):
        # 初始化模型
        n_field=len(args.dis_col+args.con_col)                # 原始特征数目
        n_features=len(args.f_trans.feature_id_map)           # 连续+离散特征one-hot后的特征总数目 (算上一个NAN padding)
        model=FM(n_field,n_features,args.embed_size,args.dropout)
        #self.model=deepFM(n_field,n_features,args.embed_size,args.hiddens,args.dropout,args.batchnorm)
        
        if state_dict:                                        # 加载保存过的模型参数（如果有）
            model.load_state_dict(state_dict)
        
        self.model=model
        self.args=args
        set_seed(args)
#         device = torch.device("cuda:0" if args.cuda else "cpu") # 放gpu上
#         model.to(device) 
        if args.cuda:
            self.model = self.model.cuda()  
        
    def train(self,train_dataset,dev_dataset=None):        # 参考jupyter的loss画图
        args=self.args
        
        # 设置train-loader. 每次都是随机取（无放回）
        sampler = RandomSampler(trainDataset)
        train_dataloader = DataLoader(trainDataset, sampler=sampler, batch_size=32,num_workers=4) 
        
        # 设置优化器
        parameters = [p for p in self.model.parameters() if p.requires_grad]  # 可只优化模型的部分层/部分parameter
        if args.optimizer == 'sgd':
            optimizer = optim.SGD(parameters, lr=args.lr,momentum=0.9,weight_decay=0.08)
        elif args.optimizer == 'adamax':
            optimizer = optim.Adamax(parameters,weight_decay=0.08)
        elif args.optimizer == 'adamaW':
            optimizer = AdamW(parameters, lr=args.lr, eps=1e-8,weight_decay=0.08)
        
        # 定义lr本身的scheduler. 
        # 在多个epoch过程中，调节优化器中lr本身的大小。每个step通过schcduler.step()改变lr本身的值。optimizer里的lr被同步修改。
        # 但只改变lr的值。其他算法仍同optimizer
        # 在限定step内，让lr从0线性增加到设定值。防止初始lr较大，模型不稳定。之后认为模型稳定.再线性减小，到最终训练完lr减小到0. 过程中优化器算法本身不变
        num_training_steps=int(len(train_dataloader)*args.epochs)  # 完整训练过程中总的steps:每个step对应一个batch.
        num_warmup_steps=int(num_training_steps*0.2)               # 预热期steps的数目：占总step的20%。在这些step内，让lr从0线性增加到设定值。此时认为模型稳定了
        scheduler = get_linear_schedule_with_warmup(optimizer,num_warmup_steps,num_training_steps) # 先预热一些step.再逐渐减小。
        print("最初的lr:{}".format(scheduler.get_lr()))  # 此时是0  增到lr后，最终训练完仍减小到0
                                                                                                                              
       # train-loop
        
        
        
        
    def infer(self,test_dataset):
        pass
        
    
    def eval_metric(self,labels,preds):
        pass
    
    
    def save(self,filename):
        '保存超参数和内部模型的模型参数'
        params = {
            'state_dict': self.model.state_dict(),   # 只按参数名称保存模型所有参数。是一个dict.不保存模型结构
            'args': self.args,
        }
        torch.save(params, filename)           # 保存static等到指定文件中。 这里可以保存字典，之后通过load加载进来（底层pickle）
    
    
    @staticmethod
    def load(filename):   
        '直接根据文件名，返回加载好内部模型参数的WraPModel（init时通过state_dict）.可以在外边直接调用：WrapModel.load(f)'
        saved_params = torch.load(
            filename, map_location=lambda storage, loc: storage  # load默认直接加载到GPU.  这样指定，先加载到cpu上。再load_state
        )
        state_dict = saved_params['state_dict']
        args = saved_params['args']
        
        return WrapModel(args,state_dict)     
    
    def export_onnx(self,onnx_filename):
        '需要用到nn.Module等'
        pass

In [94]:
parser = argparse.ArgumentParser()                             # 超参数
parser.add_argument('--embed_size', type=int, default=8)
parser.add_argument('--hiddens', type=str, default='256,56,32',help='deepfm的mlp层数')
parser.add_argument('--dropout', type=float, default=0,help='默认没有dropout')
parser.add_argument('--batchnorm', type=bool, default=False,help='默认没有batchnorm')
parser.add_argument('--epochs', type=int, default=5)
parser.add_argument('--lr', type=float, default=8e-5,help='优化器步长')
parser.add_argument('--optimizer', type=str, default='adamaW')
parser.add_argument('--max_grad_norm', type=float, default=1.0)
parser.add_argument('--no-cuda', type=bool, default=False,help='是否用GPU')
parser.add_argument('--gpu', type=int, default=0,help='GPU设备id')
parser.add_argument('--random_seed', type=int, default=2020)
parser.add_argument('--eval_steps', type=int, default=500)
parser.add_argument('--display_steps', type=int, default=100)
parser.add_argument('--eval_batch_size', type=int, default=4096)
args = parser.parse_args(args=[])                              # jupyter里需要加args=[]
args.dis_col=dis_col
args.con_col=con_col
args.f_trans=f_trans
args.hiddens=args.hiddens.split(',')
# 设置设备为某固定gpu
args.cuda = (not args.no_cuda)  and  (torch.cuda.is_available())
if args.cuda:
    torch.cuda.set_device(args.gpu)

In [95]:
args

Namespace(embed_size=8, hiddens=['256', '56', '32'], dropout=0, batchnorm=False, epochs=5, lr=8e-05, optimizer='adamaW', max_grad_norm=1.0, no_cuda=False, gpu=0, random_seed=2020, eval_steps=500, display_steps=100, eval_batch_size=4096, dis_col=['C1', 'C2', 'C3', 'C4', 'C5', 'C6', 'C7', 'C8', 'C9', 'C10', 'C11', 'C12', 'C13', 'C14', 'C15', 'C16', 'C17', 'C18', 'C19', 'C20', 'C21', 'C22', 'C23', 'C24', 'C25', 'C26'], con_col=['I1', 'I2', 'I3', 'I4', 'I5', 'I6', 'I7', 'I8', 'I9', 'I10', 'I11', 'I12', 'I13'], f_trans=FeaturePosTrans(con_col=['I1', 'I2', 'I3', 'I4', 'I5', 'I6', 'I7', 'I8', 'I9',
                         'I10', 'I11', 'I12', 'I13'],
                dis_col=['C1', 'C2', 'C3', 'C4', 'C5', 'C6', 'C7', 'C8', 'C9',
                         'C10', 'C11', 'C12', 'C13', 'C14', 'C15', 'C16', 'C17',
                         'C18', 'C19', 'C20', 'C21', 'C22', 'C23', 'C24', 'C25',
                         'C26'],
                limit_freq=10), cuda=False)

In [96]:
CTRmodel=WrapModel(args)

In [97]:
CTRmodel.model.feature_embed.weight

Parameter containing:
tensor([[ 0.0000,  0.0000,  0.0000,  ...,  0.0000,  0.0000,  0.0000],
        [ 0.2475,  0.7709, -0.0993,  ..., -0.7046,  0.3027,  0.8425],
        [ 0.1261,  0.8446, -0.7827,  ..., -0.1439, -0.7288, -0.2587],
        ...,
        [-0.7412, -0.2571, -0.0532,  ...,  0.1951, -0.8412,  0.3435],
        [-0.6513,  0.6217, -0.8281,  ...,  0.7596, -0.1378,  0.4125],
        [ 0.4254, -0.5411,  0.4047,  ...,  0.8427,  0.1002,  0.0348]],
       requires_grad=True)

In [98]:
CTRmodel.model.state_dict()

OrderedDict([('w0', tensor([0.])),
             ('scoreweight', tensor([0.5000, 0.5000])),
             ('W.weight',
              tensor([[ 0.0000e+00],
                      [-6.8863e-02],
                      [ 6.2819e-02],
                      [-1.3781e-01],
                      [ 2.5370e-02],
                      [ 1.4855e-01],
                      [-3.1849e-02],
                      [ 1.1348e-01],
                      [-5.5074e-02],
                      [ 8.3976e-02],
                      [-2.6551e-02],
                      [-2.4513e-02],
                      [ 2.9101e-03],
                      [-2.7833e-02],
                      [ 7.0057e-02],
                      [-2.8928e-02],
                      [-1.0895e-01],
                      [-1.0837e-01],
                      [-9.6751e-02],
                      [ 1.7016e-01],
                      [-6.3262e-03],
                      [-6.2874e-02],
                      [-2.6034e-02],
                      [ 9.3552e-

In [99]:
CTRmodel.save("pytorch_state.bt")

In [100]:
CTRmodelload=WrapModel.load("pytorch_state.bt")  # 静态方法。不需要事先new

In [101]:
CTRmodelload.model.state_dict()

OrderedDict([('w0', tensor([0.])),
             ('scoreweight', tensor([0.5000, 0.5000])),
             ('W.weight',
              tensor([[ 0.0000e+00],
                      [-6.8863e-02],
                      [ 6.2819e-02],
                      [-1.3781e-01],
                      [ 2.5370e-02],
                      [ 1.4855e-01],
                      [-3.1849e-02],
                      [ 1.1348e-01],
                      [-5.5074e-02],
                      [ 8.3976e-02],
                      [-2.6551e-02],
                      [-2.4513e-02],
                      [ 2.9101e-03],
                      [-2.7833e-02],
                      [ 7.0057e-02],
                      [-2.8928e-02],
                      [-1.0895e-01],
                      [-1.0837e-01],
                      [-9.6751e-02],
                      [ 1.7016e-01],
                      [-6.3262e-03],
                      [-6.2874e-02],
                      [-2.6034e-02],
                      [ 9.3552e-

In [102]:
CTRmodelload.model.parameters

<bound method Module.parameters of FM(
  (W): Embedding(319, 1, padding_idx=0)
  (feature_embed): Embedding(319, 8, padding_idx=0)
  (droplayer): Dropout(p=0, inplace=False)
)>

In [103]:
[p for p in CTRmodelload.model.parameters() if p.requires_grad]

[Parameter containing:
 tensor([0.], requires_grad=True),
 Parameter containing:
 tensor([0.5000, 0.5000], requires_grad=True),
 Parameter containing:
 tensor([[ 0.0000e+00],
         [-6.8863e-02],
         [ 6.2819e-02],
         [-1.3781e-01],
         [ 2.5370e-02],
         [ 1.4855e-01],
         [-3.1849e-02],
         [ 1.1348e-01],
         [-5.5074e-02],
         [ 8.3976e-02],
         [-2.6551e-02],
         [-2.4513e-02],
         [ 2.9101e-03],
         [-2.7833e-02],
         [ 7.0057e-02],
         [-2.8928e-02],
         [-1.0895e-01],
         [-1.0837e-01],
         [-9.6751e-02],
         [ 1.7016e-01],
         [-6.3262e-03],
         [-6.2874e-02],
         [-2.6034e-02],
         [ 9.3552e-02],
         [-5.6113e-02],
         [-7.2382e-02],
         [-1.4979e-02],
         [-1.3312e-01],
         [ 8.0661e-02],
         [ 1.0193e-01],
         [ 2.2291e-01],
         [-3.6624e-02],
         [-1.4740e-01],
         [-2.4149e-02],
         [-2.5224e-02],
         

In [104]:
for p in CTRmodelload.model.parameters():
    print(p)

Parameter containing:
tensor([0.], requires_grad=True)
Parameter containing:
tensor([0.5000, 0.5000], requires_grad=True)
Parameter containing:
tensor([[ 0.0000e+00],
        [-6.8863e-02],
        [ 6.2819e-02],
        [-1.3781e-01],
        [ 2.5370e-02],
        [ 1.4855e-01],
        [-3.1849e-02],
        [ 1.1348e-01],
        [-5.5074e-02],
        [ 8.3976e-02],
        [-2.6551e-02],
        [-2.4513e-02],
        [ 2.9101e-03],
        [-2.7833e-02],
        [ 7.0057e-02],
        [-2.8928e-02],
        [-1.0895e-01],
        [-1.0837e-01],
        [-9.6751e-02],
        [ 1.7016e-01],
        [-6.3262e-03],
        [-6.2874e-02],
        [-2.6034e-02],
        [ 9.3552e-02],
        [-5.6113e-02],
        [-7.2382e-02],
        [-1.4979e-02],
        [-1.3312e-01],
        [ 8.0661e-02],
        [ 1.0193e-01],
        [ 2.2291e-01],
        [-3.6624e-02],
        [-1.4740e-01],
        [-2.4149e-02],
        [-2.5224e-02],
        [ 7.4535e-02],
        [ 7.4124e-02],
     

In [105]:
optimizer = AdamW(CTRmodelload.model.parameters(), lr=0.5, eps=1e-8,weight_decay=0.08)
optimizer

AdamW (
Parameter Group 0
    betas: (0.9, 0.999)
    correct_bias: True
    eps: 1e-08
    lr: 0.5
    weight_decay: 0.08
)

In [106]:
scheduler = get_linear_schedule_with_warmup(optimizer, num_warmup_steps=5,num_training_steps=10)
scheduler.get_lr()



[0.0]

In [107]:
print("最初的训练lr{}".format(scheduler.get_lr()))

最初的训练lr[0.0]


In [108]:
for i in range(10):
    scheduler.step()                  # 修改lr本身。每次调用，lr先增加，后减小。在训练最后一次的时候到0。都是线性的。初始lr是0，比较不稳定
    print(scheduler.get_lr())         # 在num_warmup_steps时达到最大。这时候可以认为模型可能稳定了
    print(optimizer.param_groups[0]['lr'])     # optimizer里的lr被同步修改

[0.1]
0.1
[0.2]
0.2
[0.3]
0.3
[0.4]
0.4
[0.5]
0.5
[0.4]
0.4
[0.3]
0.3
[0.2]
0.2
[0.1]
0.1
[0.0]
0.0




In [110]:
CTRmodel.train(trainDataset)

最初的lr:[0.0]


