# Hadamard Transformation of Embedding Vectors
----
(C) Maxim Gansert, Mindscan, 2020

A common problem is to construct embedding values for special tokens. You can either extend the dimensions of an embedding vector by  the number of tokens you want to add and use a diagonal matrix for these.

But this is not the only thing to do. When we think about this technique, we are adding vectors not correlated to the embeddings. We measure the correlation by the scalar product of two vectors.

When you create embeddings, and optionally add an embedding for the unknown vector, this vector should already have a low correlation to all the other embedding vectors.

We can use this property to create more uncorrelated vectors. Which wen can then use for new embeddings, which represent different tokens / embeddings. 

The main idea is to derive a START, EOS, PAD, ... from the UNK embedding.

The Hadamard matrix of size $n=2^k$ produces n column vectors orthogonal to all others.

A walsh Matrix can also be used...


In [None]:
import sys
sys.path.insert(0, '../src')

## We want to check, the correlation of the UNK vector to all other embedding vectors

In [None]:
from de.mindscan.fluentgenesis.embedding.dl4jembeddings import DL4jModifiedEmbeddings

In [None]:
EMBEDDING_OF_UNKNOWN = "B64:VU5L 4.545428091660142E-4 8.652190444990993E-4 8.532126666978002E-4 3.3594376873224974E-4 -9.73804562818259E-4 -6.477466085925698E-4 5.158358253538609E-4 6.824634037911892E-4 1.8690130673348904E-5 -5.079555558040738E-4 -8.538688998669386E-4 7.437868043780327E-4 5.502182757481933E-4 -8.688836242072284E-4 2.4363875854760408E-4 5.142921581864357E-4 -5.091807106509805E-4 -4.7216482926160097E-4 8.004549890756607E-4 5.302404752001166E-4 8.91881063580513E-6 9.299024241045117E-4 -4.0159845957532525E-4 -4.5384193072095513E-4 -7.19926378224045E-4 -4.920923383906484E-4 3.4598750062286854E-5 1.0110205039381981E-4 8.083728607743979E-4 8.183922618627548E-4 4.5350403524935246E-4 4.5522197615355253E-4 8.960948325693607E-4 8.999505080282688E-4 -2.9953912599012256E-4 6.724146660417318E-4 2.589460927993059E-4 1.935986801981926E-6 1.9727821927517653E-4 5.899487296119332E-4 -5.15747582539916E-4 -8.916610386222601E-4 6.69403001666069E-4 -4.163929261267185E-4 -8.906605071388185E-4 -1.3476208550855517E-4 -7.906225509941578E-4 8.926726877689362E-5 -8.631280506961048E-4 -4.968619323335588E-4 -6.373035721480846E-4 3.930669045075774E-4 5.427703727036715E-4 -1.9808753859251738E-4 -2.417046343907714E-4 -9.193791775032878E-4 -3.9255182491615415E-4 4.732001107186079E-4 -7.68903992138803E-5 8.28192220069468E-4 -2.895525540225208E-4 1.6180425882339478E-4 -8.173294481821358E-4 -4.004944348707795E-4 3.762352280318737E-4 -3.822476719506085E-4 7.11437314748764E-5 3.1513627618551254E-4 -8.193001849576831E-5 -1.0058918269351125E-4 4.807685036212206E-4 -5.364815006032586E-4 -8.614560356363654E-4 8.564090821892023E-4 -5.647357320412993E-4 -8.548668120056391E-4 -3.594480222091079E-4 1.4684582129120827E-4 -1.8106919014826417E-4 3.8023514207452536E-4 5.344727542251348E-4 5.679316818714142E-4 -6.717197829857469E-4 -5.875284550711513E-4 -7.098556961864233E-4 9.065878111869097E-4 6.709236185997725E-5 -5.378187051974237E-4 9.255058830603957E-4 1.3713468797504902E-4 7.458491018041968E-4 1.6679475083947182E-4 1.753140240907669E-4 5.978207336738706E-4 8.603411260992289E-4 -2.8329226188361645E-4 -9.012140217237175E-4 -1.1485978029668331E-4 6.111976690590382E-4 2.251738915219903E-4 -4.7678331611678004E-4 -8.036128128878772E-4 8.887025760486722E-4 -1.6699917614459991E-4 3.1403033062815666E-5 -6.105552893131971E-5 1.9345548935234547E-4 8.147311164066195E-4 3.6845053546130657E-4 -2.0742876222357154E-4 -1.1477537918835878E-4 -5.225177155807614E-4 8.676955476403236E-4 1.7392926383763552E-4 -9.518616134300828E-4 1.2459326535463333E-4 -2.8488849056884646E-4 5.795317701995373E-5 -7.947691483423114E-4 -3.2931199530139565E-4 -3.6010053008794785E-4 2.610310912132263E-4 -7.26867001503706E-5 3.0774937476962805E-4 -3.3272424479946494E-4 -4.848320968449116E-4 6.657767808064818E-4 -1.4164712047204375E-4 3.389583434909582E-5 -2.0223658066242933E-4 -6.129706162028015E-4 -5.301249329932034E-4 -9.182043140754104E-4 8.47909483127296E-4 1.9041611813008785E-4 -2.7841527480632067E-4 8.983253501355648E-4 -2.2981833899393678E-4 4.6200864017009735E-4 -6.271239835768938E-4 -3.4446781501173973E-4 -3.7397624691948295E-4 -6.530239479616284E-4 1.3410940300673246E-4 6.192628061398864E-4 4.904184024780989E-4 1.2196949683129787E-5 -9.37924487516284E-4 -4.768191138282418E-4 -2.2794515825808048E-4 -1.2354872887954116E-4 7.296775002032518E-4 4.6739692334085703E-4 -3.1635869527235627E-4 -5.622829776257277E-4 -6.073690019547939E-5 5.301040364429355E-4 -5.540350684896111E-4 8.933874778449535E-4 3.986700903624296E-5 -4.932215088047087E-4 7.654662476852536E-4 3.439498832449317E-4 9.422685252502561E-4 -4.395158030092716E-4 7.482285145670176E-4 -9.579671313986182E-4 8.371856529265642E-4 2.4179404135793447E-4 9.090460371226072E-4 4.564065020531416E-4 -6.472019595094025E-4 -4.55665634945035E-4 6.147557869553566E-4 -2.0677282009273767E-4 -2.6200793217867613E-4 -2.408440923318267E-4 1.5558733139187098E-4 3.6714482121169567E-4 -2.23370676394552E-4 3.271144814789295E-4 5.688648670911789E-4 -6.470306543633342E-4 -6.543475901708007E-4 -5.7877565268427134E-5 -6.147578824311495E-5 -2.3536919616162777E-4 3.8661551661789417E-4 -3.4490274265408516E-4 8.808212587609887E-4 5.480189574882388E-4 -3.0595919815823436E-4 -7.960698567330837E-4 -6.334705976769328E-4 8.85961577296257E-4 -9.484287584200501E-4 2.1778314840048552E-4 -5.605909391306341E-4 2.79030529782176E-4 -4.499790957197547E-4 2.499542897567153E-4 -2.3816432803869247E-4 8.396266493946314E-4 -7.610329193994403E-4 6.980791222304106E-4 2.6028836145997047E-5 2.0286929793655872E-4 -3.963200724683702E-4 -5.422356771305203E-4 4.187440499663353E-4 9.289757581427693E-4 3.34611046127975E-4 -7.615151116624475E-4 5.470935720950365E-4 -1.921383081935346E-4 9.153116261586547E-4 6.737752119079232E-4 6.235699402168393E-4 9.673075983300805E-4 -4.769993247464299E-4 2.818749053403735E-4 3.330368781462312E-4 -8.770404383540154E-4 3.27936839312315E-4 -6.397241959348321E-4 7.016240851953626E-4 9.500355226919055E-4 2.922629937529564E-4 4.800911992788315E-4 3.009849460795522E-4 -5.920383264310658E-4 7.92398932389915E-4 -9.178757900372148E-4 3.2251456286758184E-4 -9.320673416368663E-4 -2.193058026023209E-4 9.698083158582449E-5 -7.042235229164362E-4 5.188100039958954E-4 -4.3921847827732563E-4 -2.606899943202734E-5 1.891386928036809E-4 -2.9640347929671407E-4 -5.679436726495624E-4 1.0102672968059778E-4 -8.191951783373952E-4 -6.904772017151117E-4 -4.5391119783744216E-4 -9.195099119096994E-4 -3.462414024397731E-4 7.70125538110733E-4 -3.636759356595576E-4 8.227159269154072E-4 9.663038654252887E-4 -2.1382345585152507E-4 9.593644645065069E-4 -6.08171452768147E-4 4.689532797783613E-4 1.3439124450087547E-4 -8.819675422273576E-4 -5.5025948677212E-4 -4.838291206397116E-4 -1.9947061082348228E-4 6.56300107948482E-4 5.692215636372566E-4 -3.0515424441546202E-5 7.717382395640016E-4 4.0766969323158264E-4 6.481901509687304E-4 8.27344018034637E-4 6.556208245456219E-5 -3.316279617138207E-4 -1.1505396105349064E-4 -5.597092094831169E-4 -8.82613065186888E-4 -5.122815491631627E-4 -4.68349433504045E-4 2.4350604508072138E-4 5.247719818726182E-4 9.405319578945637E-4 -3.8832041900604963E-4 1.0850012768059969E-4 -3.654312458820641E-4 1.1697574518620968E-4 -4.877907922491431E-4 -2.696804003790021E-4 3.356047673150897E-4 2.9329059179872274E-4 1.5875778626650572E-4 -6.055688136257231E-4 -2.2013048874214292E-4 3.648130223155022E-5 -5.500880652107298E-4 7.753422250971198E-4 5.8436417020857334E-5 8.612396195530891E-4 -5.166134797036648E-4 3.1243159901350737E-4 2.5177409406751394E-4 -1.8824887229129672E-4 1.024976372718811E-4 5.344398086890578E-4 8.415566990152001E-4 5.749833071604371E-4 -1.5340151730924845E-4 -8.347205584868789E-4 -8.921338012441993E-4 -8.356639882549644E-4 7.23575591109693E-4 2.112968359142542E-4 -6.326939910650253E-6 -4.3556425953283906E-4 5.414580227807164E-4 5.384895484894514E-5 -4.897878388874233E-4 6.16598641499877E-4 5.57964900508523E-4 -1.7353659495711327E-4 8.126641623675823E-4 -8.17521708086133E-4 -6.454525282606483E-4 -5.136767867952585E-4 6.933253025636077E-4 -2.897168160416186E-4 4.5203918125480413E-4 -3.983605420216918E-4 -3.260303055867553E-4 -6.219457136467099E-4 6.103236228227615E-4 6.909675430506468E-4 2.0231609232723713E-4 -5.233187694102526E-4 -8.84875247720629E-4 9.47602791711688E-4 7.488143164664507E-4 -4.7390657709911466E-4 -1.1364335659891367E-4 -4.356963327154517E-4 -9.296571952290833E-4 5.582291632890701E-4 -7.897004834376276E-4 -1.7386965919286013E-4 -3.5993888741359115E-4 -7.769330986775458E-4 7.394686108455062E-4 -7.084551034495234E-4 6.94559421390295E-5 1.9296107348054647E-4 -8.89208575244993E-4 -1.1885451385751367E-4 5.114597734063864E-4 -2.4443946313112974E-4 3.9197353180497885E-4 1.3637845404446125E-4 -5.99136867094785E-4 8.631458040326834E-4 5.951774073764682E-4 -4.672035574913025E-4 -9.057250572368503E-4 2.0478223450481892E-4 -4.258194239810109E-4 9.535439312458038E-4 -5.33462327439338E-4 -7.752798264846206E-4 6.529171951115131E-4 9.360759286209941E-4 7.758581778034568E-4 -1.60484341904521E-5 1.666891621425748E-4 -4.017085302621126E-4 9.416887769475579E-4 -1.2733903713524342E-4 1.5940482262521982E-4 4.1427358519285917E-4 3.118379972875118E-4 6.612269207835197E-4 -9.614923619665205E-4 -7.536879274994135E-4 -1.1595076648518443E-4 -5.036450456827879E-4 -1.6304198652505875E-5 -6.676157936453819E-4 -6.415116367861629E-4 8.750241249799728E-6 -5.848454311490059E-4 6.302203983068466E-4 -7.490786956623197E-4 9.656698675826192E-4 2.547549083828926E-4 -7.205182337202132E-4 -3.9874785579741E-4 2.512147184461355E-4 -5.797964986413717E-4 9.700763039290905E-4 9.581411723047495E-4 -6.918536964803934E-4 7.571944734081626E-4 -9.466278133913875E-4 4.3789728078991175E-4 3.0455237720161676E-4 2.9218161944299936E-4 -1.3578630750998855E-4 -9.280802332796156E-4 2.610255032777786E-4 5.317102186381817E-4 5.623421166092157E-4 -7.232051575556397E-4 2.9411795549094677E-4 -7.276894175447524E-4 -8.498477400280535E-4 7.784859044477344E-4 1.2267054989933968E-4 -8.086206507869065E-4 -1.8198334146291018E-4 2.1317903883755207E-4 -2.8759875567629933E-4 5.040195537731051E-4 -1.869270345196128E-4 -1.470689894631505E-4 5.687985103577375E-4 -8.672294206917286E-4 7.998690707609057E-4 9.633060544729233E-4 2.1145911887288094E-5 7.663839496672153E-4 9.45389736443758E-4 9.762811241671443E-4 4.97293658554554E-4 -4.7368434024974704E-4 4.108250141143799E-5 -3.8162036798894405E-4 -7.256324170157313E-4 -6.181086646392941E-4 6.661476800218225E-4 -9.708532015793025E-4 -1.747330534271896E-4 4.15811431594193E-4 5.943226860836148E-4 3.906982019543648E-4 5.969986086711287E-4 -5.704265786334872E-4 -7.474935264326632E-4 -5.547684268094599E-4 -5.527050234377384E-5 -7.551532471552491E-4 2.2531731519848108E-4 -7.818038575351238E-4 3.342113923281431E-4 6.465344922617078E-4 2.0092970225960016E-4 2.2093101870268583E-4 -7.488696719519794E-4 3.188755363225937E-4 2.2836891002953053E-4 -9.605195373296738E-6 5.209224764257669E-4 4.957163473591208E-4 3.2090814784169197E-4 -8.255014545284212E-4 3.360901027917862E-4 -7.797498255968094E-6 4.08482039347291E-4 -4.913330194540322E-4 9.676431072875857E-4 8.614733815193176E-8 2.233737614005804E-4 -6.454625399783254E-4 -2.310264972038567E-4 -7.466258830390871E-4 6.111303810030222E-4 8.376630721613765E-4 7.93611747212708E-4 6.243755342438817E-4 6.34547439403832E-4 1.7817551270127296E-4 -3.1091272830963135E-4 -9.205924579873681E-4 -5.426545394584537E-4 7.573820184916258E-4 -6.401990540325642E-4 4.2134441900998354E-4 7.831573020666838E-5 -2.5375315453857183E-4 -4.3957773596048355E-4 3.075611311942339E-4 3.726924769580364E-4 -9.192760335281491E-4 -1.8713047029450536E-4 4.053674638271332E-4 -1.2135953875258565E-4 -1.1862057726830244E-4 4.877339815720916E-4 -6.813893560320139E-4 1.7907063011080027E-4 -3.5911420127376914E-4 -4.021005588583648E-4 -2.9451638692989945E-4 9.026166517287493E-4 1.775918062776327E-4 8.042228873819113E-4 -6.828684126958251E-5 9.591294219717383E-4 -1.1169567005708814E-4 -8.804263197816908E-4 -4.541559028439224E-4 -7.399528985843062E-4 -5.712172714993358E-4 -8.878256776370108E-4 1.9561825320124626E-4 -6.212387233972549E-4 -9.135754662565887E-4 -2.2218219237402081E-4"

embedding = DL4jModifiedEmbeddings()
        
index,unk = embedding.decode_embedding_line(EMBEDDING_OF_UNKNOWN)

## We want to create a hadamard/walsh matrix of the embedding size

In [None]:
import numpy as np
from scipy.linalg import hadamard

hadamard_matrix = hadamard(512)

In [None]:
def derive_vector(from_embedding, index):
    derived_embedding = [ hadamard_matrix[index][k]*from_embedding[k] for k in range(0,len(from_embedding)) ]
    return derived_embedding

In [None]:
for i in range(0,512):
    derived = derive_vector(unk,i)
    dot_product = np.dot( np.array(unk), np.array(derived) )
    if np.abs(dot_product) < 0.0000004:
        print(str(i)+" :: " + str(dot_product))



Wir können damit Vektoren finden, die eine niedrige Korrelation zum UNK vector aufweisen. Bei vorgabe der maximalen korrelation lassen sich die indexe ermitteln, die eine geringe korrelation aufweisen. Diese wählen wir aus und bestimmen nun die Korrelation zwischen den erstellten vektoren. Während die normalen vektoren gewichte etwa einen faktor von 10^{-4} ausweisen ist der derived vektor mindestens mit faktor $10^{-6}$ bis $10^{-8}$ korreliert. Das sollte ausreichen...

In [None]:
pad = derive_vector(unk, 135)
start = derive_vector(unk, 254)
eos = derive_vector(unk,359)

def print_korrelation(x,y):
    print(np.dot(np.array(x), np.array(y)))

    
print_korrelation(unk,pad)
print_korrelation(unk,start)
print_korrelation(unk,eos)
print_korrelation(pad,start)
print_korrelation(pad,eos)
print_korrelation(start,eos)