In [1]:
import numpy as np
import pandas as pd
import sklearn.metrics

In [2]:
data_train = pd.read_csv('train.csv')
data_test = pd.read_csv('test.csv')
label = data_train.iloc[:, -1]
del data_train['label']
del data_train['id']
del data_test['id']
data_train = np.array(data_train).T
data_train = np.mat(data_train)
data_test = np.array(data_test).T
data_test = np.mat(data_test)
label = np.array(label)
label_one_hot = np.eye(10)[label].T  # 构建one-hot编码的矩阵

In [3]:
w = np.mat(np.random.rand(len(label_one_hot), len(data_train)) * 0.01)  # 权重矩阵
b = np.mat(np.random.rand(10, 1) * 0.01)  # 偏置

In [4]:
def standardization(data):
    """
    :param data: X矩阵
    :return: 归一化后的X矩阵
    """
    mean_vector = data.mean(axis=0)  # 每个样本的平均值（按列求），结果为一个行向量
    sigma = data.std(axis=0)  # 每个样本的标准差（按列求），结果为一个行向量
    return (data - mean_vector) / sigma


def softmax_matrix(weight, data, bias):
    """
    :param weight: 权重W的矩阵
    :param data:X的矩阵
    :param bias:偏置b
    :return:将Z激活后的预测值概率矩阵
    """
    z_matrix = weight * data + bias
    exp_matrix = np.exp(z_matrix - np.max(z_matrix))  # 已对溢出进行优化
    sum_vector = exp_matrix.sum(axis=0)  # 按列求和，形成一个行向量
    predict_matrix = exp_matrix / sum_vector
    return predict_matrix


def cross_entropy(y_matrix, predict_matrix):
    """
    :param y_matrix: 经过one_hot编码后的标签矩阵
    :param predict_matrix: 预测值概率矩阵
    :return: 整个数据集的平均交叉熵
    """
    y_matrix = np.array(y_matrix)
    log_pre = np.array(np.log(predict_matrix))  # 不转为数组则为矩阵形式，则*不是点积而是普通的矩阵相乘
    entropy_matrix = y_matrix * log_pre
    average = (1 / y_matrix.shape[1]) * (entropy_matrix.sum(axis=0)).sum()
    return -average


def get_label(weight, data, bias):
    """
    :param weight: 训练好的W
    :param data: 不含标签的数据集
    :param bias: 偏置
    :return: 预测的标签列表
    """
    predict_matrix = softmax_matrix(weight, data, bias)  # 预测的概率矩阵
    y_pre = np.argmax(predict_matrix, axis=0)  # 按列获取最大值索引，正好就是所属的类
    return y_pre


In [6]:
data_standardized = standardization(data_train)  # 特征归一化
test_standardized = standardization(data_test)  # 特征归一化
learning_rate = 0.0015
for i in range(5000):
    pre = softmax_matrix(w, data_standardized, b)  # 预测值矩阵
    w = w - (learning_rate / label_one_hot.shape[1]) * ((pre - label_one_hot) * data_train.T)
    b = b - (learning_rate / label_one_hot.shape[1]) * ((pre - label_one_hot) * np.mat(np.ones((label_one_hot.shape[1], 1))))
    entropy = cross_entropy(label_one_hot, pre)
    print(entropy)
    if entropy < 0.16:
        break

1.3054192966118325
0.9843858028089885
0.8998160527121908
0.8696060194249569
0.9434686932703461
0.9811098387090099
0.7394401989002831
0.743785185727082
0.6952771254691231
0.6816380832195326
0.6179211966045354
0.5873992135691759
0.5520810323863923
0.5247090852826519
0.5031692409137161
0.483786396363203
0.469983857344567
0.4575738950302581
0.4483075676993026
0.44028005273443255
0.4335484469850235
0.4279790601528462
0.42269553503560237
0.41848813917399424
0.4141424301039165
0.41070528196502465
0.4070346846266754
0.4040545137680468
0.4008884715056947
0.398207151723351
0.3954229688874578
0.39296469383869403
0.39047487440181206
0.3882026736083709
0.3859460679615028
0.3838386199334912
0.38177240405898877
0.37981373439564736
0.377907239652789
0.3760831602731588
0.3743136757010412
0.37261101407480496
0.37096108786706095
0.3693677412072966
0.36782348188130704
0.36632855058459574
0.36487856322005247
0.36347237945828054
0.3621070953125391
0.36078115524790505
0.3594923998505916
0.3582392455129363
0.

0.2659050562075405
0.265831627022549
0.26575840218876295
0.26568538058832797
0.26561256111234594
0.2655399426607818
0.26546752414237146
0.265395304474531
0.26532328258326665
0.26525145740308664
0.2651798278769135
0.26510839295599775
0.2650371515998323
0.26496610277606875
0.26489524546043386
0.2648245786366473
0.2647541012963412
0.2646838124389789
0.2646137110717773
0.26454379620962704
0.26447406687501684
0.26440452209795634
0.26433516091590104
0.2642659823736782
0.2641969855234128
0.2641281694244556
0.26405953314331093
0.263991075753566
0.26392279633582144
0.2638546939776214
0.2637867677733855
0.26371901682434173
0.2636514402384596
0.2635840371303839
0.26351680662137034
0.2634497478392204
0.26338285991821875
0.2633161419990696
0.2632495932288351
0.26318321276087414
0.26311699975478153
0.26305095337632817
0.2629850727974019
0.26291935719594917
0.26285380575591716
0.26278841766719635
0.26272319212556483
0.26265812833263175
0.2625932254957824
0.262528482828124
0.26246389954843163
0.262399

0.24546839779450053
0.2454347384935798
0.24540112252045362
0.24536754976397893
0.24533402011344044
0.2453005334585487
0.2452670896894373
0.24523368869666148
0.24520033037119526
0.24516701460442983
0.2451337412881712
0.24510051031463795
0.24506732157645958
0.2450341749666739
0.24500107037872546
0.24496800770646307
0.2449349868441379
0.2449020076864018
0.2448690701283046
0.24483617406529284
0.2448033193932071
0.24477050600828054
0.2447377338071367
0.24470500268678763
0.24467231254463173
0.2446396632784522
0.2446070547864149
0.24457448696706624
0.24454195971933182
0.24450947294251407
0.24447702653629044
0.24444462040071185
0.24441225443620063
0.24437992854354845
0.244347642623915
0.2443153965788258
0.24428319031017068
0.24425102372020147
0.24421889671153085
0.24418680918713037
0.24415476105032832
0.24412275220480847
0.2440907825546082
0.24405885200411667
0.24402696045807304
0.24399510782156508
0.24396329400002717
0.24393151889923867
0.24389978242532231
0.24386808448474273
0.24383642498430

0.23425357306038588
0.2342316758819431
0.23420979712623405
0.2341879367625498
0.23416609476025887
0.23414427108880656
0.2341224657177145
0.23410067861658077
0.23407890975507953
0.23405715910296077
0.2340354266300499
0.2340137123062475
0.2339920161015295
0.23397033798594655
0.23394867792962357
0.23392703590275993
0.23390541187562922
0.23388380581857865
0.23386221770202897
0.23384064749647432
0.23381909517248184
0.2337975607006915
0.233776044051816
0.23375454519664018
0.23373306410602118
0.2337116007508878
0.23369015510224067
0.23366872713115178
0.23364731680876416
0.23362592410629196
0.23360454899501984
0.23358319144630305
0.2335618514315671
0.2335405289223074
0.2335192238900892
0.23349793630654728
0.2334766661433857
0.2334554133723778
0.23343417796536556
0.23341295989425978
0.23339175913103952
0.23337057564775218
0.23334940941651314
0.2333282604095054
0.23330712859897973
0.23328601395725393
0.23326491645671313
0.23324383606980928
0.23322277276906095
0.23320172652705323
0.23318069731643

0.22644322121256524
0.22642701913352659
0.2264108272169745
0.22639464545037158
0.2263784738212034
0.22636231231697895
0.22634616092523024
0.2263300196335124
0.22631388842940361
0.2262977673005049
0.22628165623444035
0.2262655552188568
0.226249464241424
0.22623338328983428
0.22621731235180279
0.2262012514150672
0.22618520046738788
0.22616915949654753
0.22615312849035155
0.22613710743662752
0.22612109632322555
0.2261050951380179
0.22608910386889916
0.2260731225037861
0.22605715103061758
0.22604118943735454
0.22602523771198
0.22600929584249885
0.22599336381693802
0.2259774416233462
0.22596152924979399
0.22594562668437357
0.225929733915199
0.22591385093040586
0.22589797771815154
0.22588211426661461
0.22586626056399547
0.22585041659851582
0.2258345823584187
0.22581875783196853
0.22580294300745102
0.22578713787317317
0.225771342417463
0.22575555662866983
0.22573978049516397
0.22572401400533673
0.2257082571476004
0.22569250991038836
0.22567677228215458
0.225661044251374
0.22564532580654242
0.

0.220429135171364
0.22041631174184015
0.22040349473424004
0.2203906841422666
0.2203778799596321
0.22036508218005785
0.22035229079727447
0.22033950580502173
0.22032672719704866
0.2203139549671132
0.22030118910898278
0.22028842961643363
0.22027567648325108
0.22026292970322986
0.2202501892701733
0.22023745517789423
0.22022472742021415
0.22021200599096374
0.22019929088398257
0.2201865820931194
0.22017387961223153
0.2201611834351857
0.22014849355585717
0.2201358099681303
0.22012313266589822
0.220110461643063
0.22009779689353565
0.2200851384112358
0.22007248619009206
0.22005984022404168
0.22004720050703092
0.22003456703301463
0.22002193979595636
0.2200093187898286
0.21999670400861246
0.21998409544629763
0.21997149309688252
0.21995889695437443
0.21994630701278894
0.2199337232661506
0.21992114570849228
0.2199085743338557
0.21989600913629098
0.21988345010985683
0.2198708972486207
0.21985835054665823
0.21984580999805386
0.21983327559690038
0.21982074733729912
0.21980822521335985
0.21979570921920

0.2155519072322842
0.21554131653632969
0.21553073025740493
0.21552014839190953
0.21550957093624754
0.2154989978868273
0.21548842924006154
0.21547786499236732
0.2154673051401661
0.21545674967988368
0.2154461986079502
0.2154356519208
0.21542510961487188
0.2154145716866089
0.21540403813245845
0.21539350894887216
0.21538298413230605
0.21537246367922036
0.21536194758607963
0.2153514358493526
0.2153409284655123
0.21533042543103617
0.21531992674240574
0.2153094323961068
0.2152989423886294
0.21528845671646787
0.21527797537612064
0.2152674983640905
0.21525702567688437
0.21524655731101336
0.2152360932629928
0.21522563352934218
0.21521517810658525
0.2152047269912499
0.21519428017986822
0.21518383766897625
0.2151733994551146
0.21516296553482753
0.21515253590466382
0.21514211056117635
0.21513168950092187
0.21512127272046164
0.2151108602163606
0.2151004519851882
0.21509004802351775
0.2150796483279267
0.2150692528949966
0.21505886172131322
0.21504847480346617
0.21503809213804925
0.2150277137216604
0.

0.2114712829880302
0.21146227009991286
0.21145326043454934
0.21144425398968866
0.21143525076308234
0.21142625075248422
0.21141725395565042
0.21140826037033936
0.21139926999431183
0.21139028282533104
0.21138129886116236
0.21137231809957358
0.21136334053833472
0.21135436617521824
0.2113453950079988
0.2113364270344534
0.2113274622523613
0.21131850065950414
0.21130954225366574
0.2113005870326324
0.21129163499419257
0.21128268613613688
0.2112737404562585
0.2112647979523527
0.21125585862221707
0.21124692246365148
0.21123798947445813
0.21122905965244138
0.21122013299540787
0.21121120950116656
0.21120228916752867
0.2111933719923076
0.21118445797331906
0.21117554710838105
0.21116663939531363
0.2111577348319393
0.2111488334160828
0.21113993514557092
0.21113104001823285
0.2111221480318999
0.2111132591844058
0.2111043734735863
0.21109549089727936
0.21108661145332536
0.21107773513956668
0.21106886195384805
0.21105999189401636
0.21105112495792075
0.21104226114341243
0.2110334004483449
0.211024542870

0.20796803916195772
0.20796019948663008
0.20795236226546468
0.20794452749696052
0.20793669517961813
0.2079288653119392
0.20792103789242694
0.2079132129195858
0.20790539039192174
0.20789757030794187
0.2078897526661548
0.2078819374650706
0.20787412470320032
0.20786631437905673
0.20785850649115378
0.20785070103800682
0.20784289801813238
0.20783509743004866
0.20782729927227483
0.20781950354333173
0.20781171024174125
0.20780391936602682
0.2077961309147131
0.2077883448863261
0.20778056127939332
0.2077727800924432
0.20776500132400594
0.20775722497261287
0.20774945103679654
0.20774167951509104
0.20773391040603165
0.20772614370815495
0.207718379419999
0.20771061754010295
0.20770285806700745
0.20769510099925428
0.2076873463353868
0.20767959407394943
0.20767184421348803
0.20766409675254965
0.20765635168968286
0.20764860902343726
0.20764086875236396
0.2076331308750153
0.20762539538994493
0.20761766229570777
0.20760993159086008
0.20760220327395934
0.20759447734356437
0.2075867537982354
0.2075790326

0.20488142762539666
0.20487449954512763
0.20486757339217465
0.204860649165489
0.20485372686402276
0.20484680648672893
0.2048398880325612
0.2048329715004744
0.20482605688942382
0.20481914419836594
0.20481223342625782
0.20480532457205755
0.20479841763472387
0.20479151261321657
0.20478460950649616
0.2047777083135239
0.204770809033262
0.20476391166467353
0.20475701620672232
0.20475012265837308
0.20474323101859127
0.20473634128634322
0.20472945346059623
0.2047225675403182
0.2047156835244779
0.20470880141204517
0.20470192120199027
0.20469504289328466
0.20468816648490046
0.20468129197581053
0.20467441936498876
0.20466754865140968
0.20466067983404868
0.204653812911882
0.2046469478838868
0.20464008474904083
0.2046332235063228
0.20462636415471228
0.20461950669318946
0.20461265112073562
0.20460579743633261
0.20459894563896325
0.20459209572761106
0.2045852477012604
0.2045784015588965
0.2045715572995054
0.20456471492207384
0.20455787442558945
0.20455103580904066
0.2045441990714167
0.204537364211707

0.2021417607440039
0.20213555607172368
0.2021293529524282
0.20212315138535553
0.20211695136974422
0.20211075290483355
0.20210455598986315
0.20209836062407333
0.20209216680670486
0.2020859745369991
0.20207978381419806
0.20207359463754407
0.20206740700628015
0.20206122091964998
0.2020550363768976
0.2020488533772676
0.20204267192000522
0.20203649200435622
0.2020303136295669
0.20202413679488404
0.20201796149955503
0.2020117877428278
0.20200561552395085
0.20199944484217314
0.20199327569674422
0.20198710808691417
0.20198094201193362
0.20197477747105372
0.20196861446352626
0.2019624529886034
0.20195629304553797
0.2019501346335833
0.2019439777519932
0.20193782240002212
0.20193166857692493
0.20192551628195715
0.20191936551437484
0.20191321627343448
0.2019070685583931
0.20190092236850843
0.2018947777030385
0.20188863456124206
0.2018824929423783
0.20187635284570696
0.20187021427048835
0.20186407721598315
0.20185794168145282
0.20185180766615915
0.2018456751693647
0.20183954419033212
0.201833414728

0.199686223873227
0.1996806054562564
0.19967498831735017
0.19966937245593694
0.19966375787144564
0.1996581445633055
0.19965253253094636
0.19964692177379825
0.1996413122912916
0.19963570408285727
0.1996300971479265
0.1996244914859308
0.1996188870963022
0.19961328397847297
0.19960768213187588
0.19960208155594392
0.19959648225011062
0.19959088421380985
0.19958528744647566
0.1995796919475427
0.19957409771644594
0.19956850475262067
0.19956291305550258
0.19955732262452766
0.19955173345913246
0.1995461455587537
0.19954055892282854
0.19953497355079458
0.1995293894420897
0.1995238065961521
0.19951822501242056
0.19951264469033397
0.19950706562933174
0.19950148782885369
0.19949591128833988
0.19949033600723082
0.19948476198496728
0.19947918922099062
0.19947361771474226
0.19946804746566424
0.19946247847319892
0.19945691073678892
0.19945134425587727
0.1994457790299074
0.19944021505832313
0.19943465234056848
0.19942909087608807
0.1994235306643267
0.1994179717047296
0.19941241399674237
0.1994068575398

In [14]:
test_pre = get_label(w, test_standardized, b).T  # 对测试集的预测
train_pre = get_label(w, data_standardized, b).T  # 用于评估模型
f1_score = sklearn.metrics.f1_score(label, train_pre, average='macro')
print(f1_score)
print(test_pre)
pd.DataFrame(test_pre).to_csv('prediction.csv')

0.9446360808340047
[[7]
 [2]
 [1]
 ...
 [4]
 [5]
 [6]]
