# Сөз векторларымен операциялар (Word Embedding Operations)

Осы аптаның тәжірибелік жұмысына қош келдіңіздер!

Сөз енгізулері (эмбеддингтері) үйрету өте көп есептеу қуатын талап ететіндіктен, көпшілік ML тәжірибешілері алдын ала үйретілген эмбеддингтер жиынын жүктейді.

**Осы тәжірибелік жұмыстан кейін сіз:**

- Алдын ала үйретілген сөз векторларын жүктей аласыз және косинус ұқсастығын пайдаланып ұқсастықты өлшей аласыз
- Ер – Әйел аналогиясы сияқты сөз аналогиясы мәселелерін шешу үшін сөз енгізулерін қолдана аласыз: Мысалы, Man - Woman, King - ____.
- Жыныстық бейсімділікті азайту үшін сөз енгізулерін өзгерте аласыз

Бастайық! Қажетті пакеттерді жүктеу үшін төмендегі ұяшықты іске қосыңыз.

In [3]:
import numpy as np
from w2v_utils import *

ImportError: Traceback (most recent call last):
  File "C:\Users\User\anaconda3\Lib\site-packages\tensorflow\python\pywrap_tensorflow.py", line 70, in <module>
    from tensorflow.python._pywrap_tensorflow_internal import *
ImportError: DLL load failed while importing _pywrap_tensorflow_internal: Произошел сбой в программе инициализации библиотеки динамической компоновки (DLL).


Failed to load the native TensorFlow runtime.
See https://www.tensorflow.org/install/errors for some common causes and solutions.
If you need help, create an issue at https://github.com/tensorflow/tensorflow/issues and include the entire stack trace above this error message.

In [4]:
!pip install tensorflow==2.10 numpy scipy h5py keras


ERROR: Could not find a version that satisfies the requirement tensorflow==2.10 (from versions: 2.12.0rc0, 2.12.0rc1, 2.12.0, 2.12.1, 2.13.0rc0, 2.13.0rc1, 2.13.0rc2, 2.13.0, 2.13.1, 2.14.0rc0, 2.14.0rc1, 2.14.0, 2.14.1, 2.15.0rc0, 2.15.0rc1, 2.15.0, 2.15.1, 2.16.0rc0, 2.16.1, 2.16.2, 2.17.0rc0, 2.17.0rc1, 2.17.0, 2.17.1, 2.18.0rc0, 2.18.0rc1, 2.18.0rc2, 2.18.0, 2.18.1, 2.19.0rc0, 2.19.0)
ERROR: No matching distribution found for tensorflow==2.10


Келесі қадамда, сөз векторларын жүктейік. Бұл тапсырма үшін біз сөздерді көрсету мақсатында 50 өлшемді GloVe векторларын қолданамыз. `word_to_vec_map` жүктеу үшін келесі ұяшықты іске қосыңыз.

In [None]:
words, word_to_vec_map = read_glove_vecs('glove.6B.50d.txt')

Сіз жүктегеніңіз:
- `words`: сөздік құрамындағы сөздер жиынтығы.
- `word_to_vec_map`: сөздерді олардың GloVe векторлық бейнесіне сәйкестендіретін сөздік.

Бірлік векторлар сөздердің ұқсастығын жақсы көрсетпейтінін көрдіңіз. GloVe векторлары жеке сөздердің мағынасы туралы әлдеқайда пайдалы ақпарат береді. Енді GloVe векторларын қолдана отырып, екі сөздің қаншалықты ұқсас екенін анықтай алатыныңызды көрейік.

# 1 - Косинустық ұқсастық

Екі сөздің қаншалықты ұқсас екенін өлшеу үшін, олардың эмбеддинг векторлары арасындағы ұқсастық дәрежесін анықтайтын әдіс қажет. Екі вектор \(u\) және \(v\) берілген жағдайда, косинустық ұқсастық келесі түрде анықталады:

$$\text{CosineSimilarity(u, v)} = \frac {u \cdot v} {||u||_2 \, ||v||_2} = \cos(\theta) \tag{1}$$

мұнда $(u \cdot v)$ — екі вектордың скалярлық көбейтіндісі (немесе ішкі көбейтіндісі), $(||u||_2)$ — $(u)$ векторының нормасы (немесе ұзындығы), және $(\theta)$ — $(u)$ мен $(v$) арасындағы бұрыш. Бұл ұқсастық $(u$) мен $(v)$ арасындағы бұрышқа байланысты. Егер $(u)$ және $(v$) өте ұқсас болса, олардың косинустық ұқсастығы 1-ге жақын болады; егер олар ұқсастық көрсетпесе, онда косинустық ұқсастықтың мәні кіші болады.

<img src="images/cosine_sim.png" style="width:800px;height:250px;">
<caption><center> **Сурет 1**: Екі вектор арасындағы бұрыштың косинусы олардың ұқсастығын өлшейді</center></caption>

**Тапсырма**: `cosine_similarity()` функциясын жүзеге асырып, сөз векторлары арасындағы ұқсастықты бағалаңыз.

**Ескерту**: \(u\) векторының нормасы былай анықталады:
$$ ||u||_2 = \sqrt{\sum_{i=1}^{n} u_i^2} $$

# Тапсырма 1

In [None]:
def cosine_similarity(u, v):
    """
    Косинустық ұқсастық u және v арасындағы ұқсастық дәрежесін көрсетеді

    Түсіктемелер:
        u -- (n,) өлшемді сөз векторы
        v -- (n,) өлшемді сөз векторы

    Қайтарады:
        cosine_similarity -- жоғарыда берілген формула бойынша анықталған u және v арасындағы косинустық ұқсастық.
    """

    distance = 0.0

    ### МҰНДА КОДЫҢЫЗДЫ ЖАЗЫҢЫЗ ###




    ### КОД МҰНДА АЯҚТАЛАДЫ ###

    return cosine_similarity

In [None]:
father = word_to_vec_map["father"]
mother = word_to_vec_map["mother"]
ball = word_to_vec_map["ball"]
france = word_to_vec_map["france"]
italy = word_to_vec_map["italy"]
paris = word_to_vec_map["paris"]
rome = word_to_vec_map["rome"]

print("cosine_similarity(father, mother) = ", cosine_similarity(father, mother))
print("cosine_similarity(france - paris, rome - italy) = ",cosine_similarity(france - paris, rome - italy))

cosine_similarity(father, mother) =  0.8909038442893615
cosine_similarity(france - paris, rome - italy) =  -0.6751479308174202


**Күтілетін нәтиже**:

<table>
    <tr>
        <td>
            **cosine_similarity(father, mother)** =
        </td>
        <td>
         0.890903844289
        </td>
    </tr>
        <tr>
        <td>
            **cosine_similarity(france - paris, rome - italy)** =
        </td>
        <td>
         -0.675147930817
        </td>
    </tr>
</table>

Дұрыс күтілетін нәтижені алғаннан кейін, кірістерді өзгертіп, басқа сөздер жұптары арасындағы косинус ұқсастығын өлшеңіз! Басқа кірістердің косинус ұқсастығына қатысты ойнау сізге сөз векторларының қалай әрекет ететінін жақсырақ түсінуге мүмкіндік береді.

## 2 - Сөз аналогиясы тапсырмасы

Сөз аналогиясы тапсырмасында біз "<font color='brown'>*a* сөзі *b* сөзіне ұқсас, *c* сөзіне **____**</font>" сөйлемін толықтырамыз. Мысалы, <font color='brown'>'*man* сөзі *woman* сөзіне ұқсас, *king* сөзі *queen* сөзіне'</font> деген аналогия. Нақтырақ айтқанда, біз *d* сөзін табуға тырысамыз, мұнда сәйкес сөз векторлары $(e_a, e_b, e_c, e_d)$ келесі түрде байланысты:


$e_b - e_a \approx e_d - e_c$

$e_b - e_a$ және $e_d - e_c$ арасындағы ұқсастықты косинустық ұқсастық арқылы өлшейміз.

**Тапсырма**: Төмендегі кодты толықтырып, сөз аналогияларын орындауға мүмкіндік беріңіз!

# Тапсырма 2

In [None]:
def cosine_similarity(u, v):
    """
    Екі вектор арасындағы косинустық ұқсастықты есептейді.
    """
    return np.dot(u, v) / (np.linalg.norm(u) * np.linalg.norm(v))

def complete_analogy(word_a, word_b, word_c, word_to_vec_map):
    """
    Сөз аналогиясы тапсырмасын орындайды: word_a сөзі word_b сөзіне ұқсас, word_c сөзіне ____.

    Түсіктемелер:
    word_a -- бір сөз, жол (string).
    word_b -- бір сөз, жол (string).
    word_c -- бір сөз, жол (string).
    word_to_vec_map -- сөздерді олардың сәйкес векторларына сәйкестендіретін сөздік.

    Қайтарады:
    best_word -- (v_b - v_a) мен (v_best - v_c) арасындағы косинустық ұқсастық арқылы өлшенген ұқсастығы бар сөз.
    """
    # Сөздерді кіші әріпке ауыстыру
    word_a, word_b, word_c =

    # word embedding алу
    e_a =
    e_b =
    e_c =

    # Барлық сөздердің табылғанын тексеру
    if e_a is None or e_b is None or e_c is None:
        missing = [w for w, e in zip([word_a, word_b, word_c], [e_a, e_b, e_c]) if e is None]
        raise ValueError("Келесі сөз(дер) эмбеддинг сөздігінде жоқ: " + ", ".join(missing))

    # Барлық енгізулердің өлшемдері бірдей екендігін тексеру
    if e_a.shape != e_b.shape or e_a.shape != e_c.shape:
        raise ValueError("Эмбеддингтердің өлшемдері сәйкес келмейді!")

    words = word_to_vec_map.keys()
    max_cosine_sim = -100  # өте кіші мәнмен инициализациялау
    best_word = None

    # Нысаналы векторды есептеу: word_b және word_a арасындағы айырмашылық
    target_vec =

    # Сөздік бойынша барлық сөздерді шоламыз
    for w in words:
        # Кіріс сөздерді өткізіп жіберу
        if w in [word_a, word_b, word_c]:
            continue

        # Ағымдағы сөздің енгізуін алып, өлшемін тексеру
        e_w = word_to_vec_map.get(w)
        if e_w is None or e_w.shape != e_c.shape:
            continue  # Өлшемдері сәйкес келмейтін сөздерді өткізіп жіберу

        # (Нысаналы вектор) мен (e_w - e_c) арасындағы косинустық ұқсастықты есептеу
        cosine_sim =

        # Жаңа максималды ұқсастық табылса, best_word жаңарту
        if cosine_sim > max_cosine_sim:
            max_cosine_sim = cosine_sim
            best_word = w

    return best_word

Run the cell below to test your code, this may take 1-2 minutes.

In [None]:
triads_to_try = [('italy', 'italian', 'kazakhstan'), ('india', 'delhi', 'japan'), ('man', 'woman', 'boy'), ('small', 'smaller', 'large')]
for triad in triads_to_try:
    print('{} -> {} :: {} -> {}'.format( *triad, complete_analogy(*triad,word_to_vec_map)))

italy -> italian :: kazakhstan -> kazakh
india -> delhi :: japan -> tokyo
man -> woman :: boy -> girl
small -> smaller :: large -> larger


**Expected Output**:

<table>
    <tr>
        <td>
            **italy -> italian** ::
        </td>
        <td>
         kazakhstan -> kazakh
        </td>
    </tr>
        <tr>
        <td>
            **india -> delhi** ::
        </td>
        <td>
         japan -> tokyo
        </td>
    </tr>
        <tr>
        <td>
            **man -> woman ** ::
        </td>
        <td>
         boy -> girl
        </td>
    </tr>
        <tr>
        <td>
            **small -> smaller ** ::
        </td>
        <td>
         large -> larger
        </td>
    </tr>
</table>

Дұрыс күтілетін нәтижені алғаннан кейін, өзіңіздің ұқсастықтарыңызды тексеру үшін жоғарыдағы енгізу ұяшықтарын өзгертіңіз. Жұмыс істейтін басқа аналогиялық жұптарды табуға тырысыңыз, сонымен қатар алгоритм дұрыс жауап бермейтін кейбір жұптарды табыңыз: Мысалы, сіз small->small as big->? әрекетін жасай аласыз.

## 3 - Сөз векторларын бейссіздендіру

Келесі тапсырмада сіз сөз енгізулерінде бейнеленуі мүмкін жыныстық бейсімділікті қарастырып, оны азайту алгоритмдерін зерттейсіз. Бейссіздендіру тақырыбын үйренуден басқа, бұл тапсырма сөз векторларының не істеп жатқанын түсіну интуицияңызды да жетілдіруге көмектеседі. Бұл бөлімде сәл сызықтық алгебра қатысады, дегенмен сызықтық алгебрада сарапшы болмаған жағдайда да тапсырманы орындап көруге болады, сондықтан оны сынап көріңіз.

Алдымен GloVe сөз енгізулерінің жыныспен қалай байланысатынын қарастырайық. Сіз алдымен $g = e_{woman} - e_{man}$ векторын есептейсіз, мұнда $e_{woman}$ *woman* сөзіне сәйкес сөз векторын, ал $e_{man}\$ *man* сөзіне сәйкес сөз векторын білдіреді. Алынған g векторы шамамен "жыныс" ұғымын кодтайды.

Егер сіз $g_1 = e_{mother} - e_{father}$, $g_2 = e_{girl} - e_{boy}$ т.б. есептеп, олардың орташа мәнін алсаңыз, дәлдік жоғарырақ болуы мүмкін. Бірақ қазір үшін тек $e_{woman} - e_{man}$ қолдану жеткілікті нәтижелер береді.)

In [None]:
g = word_to_vec_map['woman'] - word_to_vec_map['man']
print(g)

[-0.087144    0.2182     -0.40986    -0.03922    -0.1032      0.94165
 -0.06042     0.32988     0.46144    -0.35962     0.31102    -0.86824
  0.96006     0.01073     0.24337     0.08193    -1.02722    -0.21122
  0.695044   -0.00222     0.29106     0.5053     -0.099454    0.40445
  0.30181     0.1355     -0.0606     -0.07131    -0.19245    -0.06115
 -0.3204      0.07165    -0.13337    -0.25068714 -0.14293    -0.224957
 -0.149       0.048882    0.12191    -0.27362    -0.165476   -0.20426
  0.54376    -0.271425   -0.10245    -0.32108     0.2516     -0.33455
 -0.04371     0.01258   ]


Енді сіз $g$-мен әртүрлі сөздердің косинус ұқсастығын қарастырасыз. Ұқсастықтың оң мәні теріс косинус ұқсастығымен нені білдіретінін қарастырыңыз.

In [None]:
print ('Атаулар тізімі және олардың құрастырылған вектормен ұқсастықтары:')

# қыздар мен ұлдардың аты
name_list = ['john','paul','alex','peter','susan']

for w in name_list:
    print (w, cosine_similarity(word_to_vec_map[w], g))

Атаулар тізімі және олардың құрастырылған вектормен ұқсастықтары:
john -0.23163356145973724
paul -0.24886984523936856
alex -0.1289169612113885
peter -0.23759410929536404
susan 0.23975381925741865


Көріп отырғаныңыздай, әйел есімдері біздің құрастырылған $g$ векторымен оң косинус ұқсастығына ие, ал ер есімдері теріс косинус ұқсастығына ие. Бұл таңқаларлық емес және нәтиже қолайлы болып көрінеді.

Бірақ басқа сөздерді қолданып көрейік.

In [None]:
print('Басқа сөздер және олардың ұқсастықтары:')
word_list = ['man','woman',
             'guns', 'science', 'arts', 'literature','doctor', 'tree',
             'technology',  'fashion', 'teacher', 'engineer', 'pilot', 'computer', 'singer']
for w in word_list:
    print (w, cosine_similarity(word_to_vec_map[w], g))

Басқа сөздер және олардың ұқсастықтары:
man -0.11711095765336832
woman 0.35666618846270376
guns -0.1888485567898898
science -0.06082906540929701
arts 0.008189312385880337
literature 0.06472504433459932
doctor 0.11895289410935041
tree -0.07089399175478091
technology -0.13193732447554302
fashion 0.03563894625772699
teacher 0.17920923431825664
engineer -0.0803928049452407
pilot 0.0010764498991916937
computer -0.10330358873850498
singer 0.1850051813649629


Сіз таңқаларлық нәрсені байқадыңыз ба? Бұл нәтижелердің белгілі бір зиянды гендерлік стереотиптерді қалай көрсететіні таң қалдырады. Мысалы, «компьютер» «ер адамға» жақын болса, «әдебиет» «әйелге» жақын.

Төменде [Boliukbasi et al., 2016](https://arxiv.org/abs/1607.06520) негізіндегі алгоритмді пайдаланып, осы векторлардың қиғаштығын қалай азайтуға болатынын көреміз. "Актер"/"актриса" немесе "әже"/"ата" сияқты кейбір сөз жұптары гендерлік ерекшелігі болып қалуы керек, ал "ресепшн" немесе "технология" сияқты басқа сөздер бейтараптандырылуы керек, яғни жынысқа қатысты болмауы керек. Сіз бұл екі түрдегі сөздерді айыру кезінде басқаша қарауыңыз керек.

### 3.1 - Гендерлік емес сөздерге қарсылықты бейтараптандыру

Төмендегі сурет бейтараптандырудың не істейтінін көруге көмектеседі. 50 өлшемді сөзді ендіруді пайдалансаңыз, 50 өлшемді кеңістікті екі бөлікке бөлуге болады: $g$ қиғаштық бағыты және біз $g_{\perp}$ деп атайтын қалған 49 өлшем. Сызықтық алгебрада 49 өлшемді $g_{\perp}$ $g$-ға перпендикуляр (немесе «отогональ») деп айтамыз, яғни ол $g$-ға 90 градуста. Бейтараптандыру қадамы $e_{receptionist}$ сияқты векторды қабылдайды және компонентті $g$ бағытында нөлге түсіріп, бізге $e_{receptionist}^{debiased}$ береді.

$g_{\perp}$ 49 өлшемді болса да, экранда сурет салуға болатын шектеулерді ескере отырып, біз оны төмендегі 1 өлшемді ось арқылы суреттейміз.

<img src="images/neutral.png" style="width:800px;height:300px;">
<caption><center> **2-сурет**: Бейтараптандыру операциясын қолданғанға дейін және одан кейін берілген "ресепшн" сөзі векторы. </center></caption>

**Жаттығу**: «Қабылдау қызметкері» немесе «ғалым» сияқты сөздердің қисындылығын жою үшін «бейтараптандыру()» әрекетін орындаңыз. $e$ ендірілген енгізуді ескере отырып, $e^{debiased}$ есептеу үшін келесі формулаларды пайдалануға болады:

$$e^{bias\_component} = \frac{e \cdot g}{||g||_2^2} * g\tag{2}$$
$$e^{debiased} = e - e^{bias\_component}\tag{3}$$

Егер сіз сызықтық алгебраның маманы болсаңыз, $e^{bias\_component}$ $e$-дың $g$ бағытына проекциясы ретінде тануға болады. Егер сіз сызықтық алгебраның маманы болмасаңыз, бұл туралы алаңдамаңыз.

<!--
**Еске салғыш**: $u$ векторын екі бөлікке бөлуге болады: оның $v_B$ вектор осіне проекциясы және $v$-ға ортогональ осіне проекциясы:
$$u = u_B + u_{\perp}$$
мұндағы: $u_B = $ және $ u_{\perp} = u - u_B $
!-->

# Тапсырма 3

In [None]:
def neutralize(word, g, word_to_vec_map):
    """
    "word" сөзінің бейсін жою үшін, оны бейс осіне (мысалы, жыныс) тік бұрышты кеңістікке проекциялайды.
    Бұл функция жыныстық бейссіз сөздердің жыныс субкеңістігінде нөлге тең болуын қамтамасыз етеді.

    Түсіктемелер:
        word -- бейссіздендіру қажет сөзді көрсететін жол (string)
        g -- бейс осіне сәйкес (мысалы, жыныс) (50,) өлшемді numpy-массиві
        word_to_vec_map -- сөздерді олардың сәйкес векторларымен сәйкестендіретін сөздік

    Қайтарады:
        e_debiased -- енгізілген "word" сөзінің бейссіздендірілген векторлық бейнеленуі
    """

    ### МҰНДА КОДЫҢЫЗДЫ ЖАЗЫҢЫЗ ###
    # "word" сөзінің векторлық бейнесін таңдаңыз. word_to_vec_map қолданыңыз. (шамамен 1 жол)
    e =

    # Жоғарыда берілген формула бойынша e_biascomponent-ті есептеңіз. (шамамен 1 жол)
    e_biascomponent =

    # e-ден e_biascomponent-ті алып тастау арқылы бейссіздендіріңіз
    # e_debiased оның тік проекциясына тең болуы тиіс. (шамамен 1 жол)
    e_debiased =
    ### МҰНДА КОД АЯҚТАЛАДЫ ###

    return e_debiased

In [None]:
e = "guns"
print("Бейссіздендірмес бұрын " + e + " және g арасындағы косинустық ұқсастық: ", cosine_similarity(word_to_vec_map["guns"], g))

e_debiased = neutralize("guns", g, word_to_vec_map)
print("Бейссіздендіргеннен кейін " + e + " және g арасындағы косинустық ұқсастық: ", cosine_similarity(e_debiased, g))

Бейссіздендірмес бұрын guns және g арасындағы косинустық ұқсастық:  -0.1888485567898898
Бейссіздендіргеннен кейін guns және g арасындағы косинустық ұқсастық:  1.1767167173222674e-17


### 3.2 - Гендерлік сөздерді теңестіру алгоритмі

Әрі қарай, «актриса» және «актер» сияқты сөз жұптарына дефазаны қалай қолдануға болатынын көрейік. Теңестіру тек жыныс сипаты арқылы ерекшеленгіңіз келетін сөздер жұптарына қолданылады. Нақты мысал ретінде, «актриса» «актер» дегеннен гөрі «бала күтіміне» жақын делік. «Бала күтіміне» бейтараптандыруды қолдану арқылы біз бала күтумен байланысты гендерлік стереотипті азайта аламыз. Бірақ бұл әлі де «актер» мен «актрисаның» «бала күтуінен» бірдей қашықтықта екеніне кепілдік бермейді. Бұл туралы теңестіру алгоритмі айналысады.

Теңестірудің негізгі идеясы - белгілі бір сөздер жұбының 49 өлшемді $g_\perp$-дан бірдей қашықтықта екеніне көз жеткізу. Теңестіру қадамы сонымен қатар екі теңестірілген қадамның $e_{receptionist}^{debiased}$ немесе бейтараптандырылған кез келген басқа жұмыстардан бірдей қашықтықта болуын қамтамасыз етеді. Суреттерде теңестіру осылай жұмыс істейді:

<img src="images/equalize10.png" style="width:800px;height:400px;">


Мұны істеу үшін сызықтық алгебраны шығару біршама күрделірек. (Толық ақпарат алу үшін Bolukbasi et al., 2016 қараңыз.) Бірақ негізгі теңдеулер:

$$ \mu = \frac{e_{w1} + e_{w2}}{2}\tag{4}$$

$$ \mu_{B} = \frac {\mu \cdot \text{bias_axis}}{||\text{bias_axis}||_2^2} *\text{bias_axis}
\tag{5}$$

$$\mu_{\perp} = \mu - \mu_{B} \tag{6}$$

$$ e_{w1B} = \frac {e_{w1} \cdot \text{bias_axis}}{||\text{bias_axis}||_2^2} *\text{bias_axis}
\tag{7}$$
$$ e_{w2B} = \frac {e_{w2} \cdot \text{bias_axis}}{||\text{bias_axis}||_2^2} *\text{bias_axis}
\tag{8}$$


$$e_{w1B}^{түзетілді} = \sqrt{ |{1 - ||\mu_{\perp} ||^2_2} |} * \frac{e_{\text{w1B}} - \mu_B} {|(e_{w1} - \mu_{\perp}) - \mu_B)|} \$$g{} \ta


$$e_{w2B}^{түзетілген} = \sqrt{ |{1 - ||\mu_{\perp} ||^2_2} |} * \frac{e_{\text{w2B}} - \mu_B} {|(e_{w2} - \mu_{\perp}) - \mu_B)|} \$g

$$e_1 = e_{w1B}^{түзетілді} + \mu_{\perp} \tag{11}$$
$$e_2 = e_{w2B}^{түзетілген} + \mu_{\perp} \tag{12}$$


**Жаттығу**: Төмендегі функцияны орындаңыз. Сөздердің соңғы теңестірілген нұсқасын алу үшін жоғарыдағы теңдеулерді пайдаланыңыз. Іске сәт!

In [None]:
def equalize(pair, bias_axis, word_to_vec_map):
    """
    Жоғарыдағы суретте сипатталған теңестіргіш әдіс арқылы жынысқа тән сөздердің бейсін жояды.

    Түсіктемелер:
    pair -- жынысқа тән сөздердің жұбы (мысалы, ("actress", "actor"))
    bias_axis -- бейс осіне сәйкес (мысалы, жыныс) (50,) өлшемді numpy-массиві
    word_to_vec_map -- сөздерді олардың сәйкес векторларымен сәйкестендіретін сөздік

    Қайтарады:
    e_1 -- бірінші сөзге сәйкес вектор
    e_2 -- екінші сөзге сәйкес вектор
    """


    # 1-қадам: "word" сөзінің векторлық бейнесін таңдаңыз. word_to_vec_map қолданыңыз. (шамамен 2 жол)
    w1, w2 = pair[0], pair[1]
    e_w1, e_w2 = word_to_vec_map[w1], word_to_vec_map[w2]

    # 2-қадам: e_w1 және e_w2-ның орташа мәнін есептеңіз (шамамен 1 жол)
    mu = (e_w1 + e_w2) / 2

    # 3-қадам: mu-ның бейс осіне және оған тік ось бойынша проекциясын есептеңіз (шамамен 2 жол)
    mu_B = (np.dot(mu, bias_axis) / np.linalg.norm(bias_axis)**2) * bias_axis
    mu_orth = mu - mu_B

    # 4-қадам: Формулалар (7) және (8) арқылы e_w1B және e_w2B мәндерін есептеңіз (шамамен 2 жол)
    e_w1B = (np.dot(e_w1, bias_axis) / np.linalg.norm(bias_axis)**2) * bias_axis
    e_w2B = (np.dot(e_w2, bias_axis) / np.linalg.norm(bias_axis)**2) * bias_axis

    # 5-қадам: Жоғарыда берілген (9) және (10) формулаларын қолданып, e_w1B және e_w2B мәндерін түзетіңіз (шамамен 2 жол)
    corrected_e_w1B = np.sqrt(np.abs(1 - np.linalg.norm(mu_orth)**2)) * ((e_w1B - mu_B) / np.abs((e_w1 - mu_orth) - mu_B))
    corrected_e_w2B = np.sqrt(np.abs(1 - np.linalg.norm(mu_orth)**2)) * ((e_w2B - mu_B) / np.abs((e_w2 - mu_orth) - mu_B))

    # 6-қадам: Түзетілген проекциялардың қосындысына теңестіріп, e1 және e2 сөз векторларын бейссіздендіріңіз (шамамен 2 жол)
    e1 = corrected_e_w1B + mu_orth
    e2 = corrected_e_w2B + mu_orth

    return e1, e2


In [None]:
print("Теңестірмес бұрынғы косинустық ұқсастықтар:")
print("cosine_similarity(word_to_vec_map[\"man\"], gender) = ", cosine_similarity(word_to_vec_map["man"], g))
print("cosine_similarity(word_to_vec_map[\"woman\"], gender) = ", cosine_similarity(word_to_vec_map["woman"], g))
print()
e1, e2 = equalize(("man", "woman"), g, word_to_vec_map)
print("Теңестіргеннен кейінгі косинустық ұқсастықтар:")
print("cosine_similarity(e1, gender) = ", cosine_similarity(e1, g))
print("cosine_similarity(e2, gender) = ", cosine_similarity(e2, g))


Теңестірмес бұрынғы косинустық ұқсастықтар:
cosine_similarity(word_to_vec_map["man"], gender) =  -0.11711095765336832
cosine_similarity(word_to_vec_map["woman"], gender) =  0.35666618846270376

Теңестіргеннен кейінгі косинустық ұқсастықтар:
cosine_similarity(e1, gender) =  -0.7165727525843935
cosine_similarity(e2, gender) =  0.7396596474928909


Жоғарыдағы ұяшықтағы кіріс сөздермен ойнап, басқа сөздер жұптарына теңестіруді қолданыңыз.

Бұл бұрмалау алгоритмдері ауытқуды азайту үшін өте пайдалы, бірақ мінсіз емес және барлық ауытқу іздерін жоймайды. Мысалы, бұл іске асырудың бір осал тұсы $g$ қиғаштық бағыты тек _әйел_ және _ер_ сөздерінің жұбын қолдану арқылы анықталған. Бұрын талқыланғандай, егер $g$ есептеу арқылы анықталған болса $g_1 = e_{әйел} - e_{er}$; $g_2 = e_{ана} - e_{әке}$; $g_3 = e_{қыз} - e_{boy}$; және т.б. және олардың үстінен орташа алғанда, 50 өлшемді сөзді ендіру кеңістігіндегі "гендерлік" өлшемді жақсырақ бағалауды аласыз. Мұндай нұсқалармен де ойнауға болады.

**Анықтамалар**:
- The debiasing algorithm is from Bolukbasi et al., 2016, [Man is to Computer Programmer as Woman is to
Homemaker? Debiasing Word Embeddings](https://papers.nips.cc/paper/6228-man-is-to-computer-programmer-as-woman-is-to-homemaker-debiasing-word-embeddings.pdf)
- The GloVe word embeddings were due to Jeffrey Pennington, Richard Socher, and Christopher D. Manning. (https://nlp.stanford.edu/projects/glove/)


### Құттықтаймыз!

Сіз осы тапсырманың соңына жеттіңіз. Есіңізде сақтау керек негізгі нүктелер:

- Косинустық ұқсастық — сөз векторлары жұбының ұқсастығын салыстырудың жақсы әдісі. (Алайда, L2 қашықтық та жұмыс істейді.)
- Тілдік қосымшаларда интернеттен алдын ала үйретілген сөз векторларын пайдалану жиі жақсы бастама болып табылады.

Бағаланған бөлімдерді аяқтағаныңызға қарамастан, осы дәптердегі қалған бөлімдерді де қарауды ұсынамыз.

Осы дәптердің бағаланған бөлімдерін аяқтағаныңызбен құттықтаймыз!