# flash Attention 에서 쪼개지는 softMax 알고리즘 구현 예시
### $\cfrac{1}{1}$
### $P(A\cap B)$

In [1]:
import numpy as np
#flash Attention에서 쪼개지는 softmax 알고리즘 구현 예시
def softMax(vec):
    exvec = np.exp(vec)
    exvec_sum = np.sum(exvec, axis=0)
    return exvec / exvec_sum

In [2]:
A = np.array([2, 4, 1, 1, 2, 3]) #다음과 같이 A라는 어레이가 있다

In [3]:
print(softMax(A))

[0.07786284 0.5753329  0.02864414 0.02864414 0.07786284 0.21165314]


In [4]:
A1 = A[:3]
A2 = A[3:]
print(A1, A2)

[2 4 1] [1 2 3]


$A1, A2 \subset A$, 

A1과 A2는 mutually exclusive && collectively exhaustive 하다. 

만약 

$O1 = softMax(A1)$ 

$O2 = softMax(A2)$ 

일 경우

$P(A1_{1})=P(A1_{1}|A_1)P(A_1)$


$$

In [5]:
#flash Attention에서 쪼개지는 softmax 알고리즘 구현 예시


def softMax_FA(arr):
    def rowMax(vec):
        exvec = np.exp(vec)
        exvec_sum = np.sum(exvec, axis=0)
        return {"rm_Array":exvec / exvec_sum, "rm_Sum":exvec_sum}
        
    m = list(map(rowMax, arr))
    sum = 0
    for i in m:
        sum += i['rm_Sum']
    res = list()
    for i in m:
        sum += i['rm_Sum']

    return m


P = np.array([[2,4,1],[1,2,3],[4,3,4]])

det = np.sum(P,1)
P=softMax_FA(P)
P

[{'rm_Array': array([0.1141952 , 0.84379473, 0.04201007]),
  'rm_Sum': 64.70548796053393},
 {'rm_Array': array([0.09003057, 0.24472847, 0.66524096]),
  'rm_Sum': 30.19287485057736},
 {'rm_Array': array([0.4223188, 0.1553624, 0.4223188]),
  'rm_Sum': 129.28183698947615}]

### softMax는 확률 함수이다. 그래서 조건부확률로 표현이 가능하다. 
다음과 같이 벡터 A의 원소를 확률로 나타내면

$P(A_i)$

In [6]:
P = np.array([[2, 4, 1], [1, 2, 3]])
P = P.flatten()
print(np.exp(P))
[np.exp(i)/np.sum(np.exp(P)) for i in P]

[ 7.3890561  54.59815003  2.71828183  2.71828183  7.3890561  20.08553692]


[0.07786284062284679,
 0.5753328973843113,
 0.028644138296353955,
 0.028644138296353955,
 0.07786284062284679,
 0.21165314477728722]