# Основи лінійної алгебри

Розглянемо наступну задачі: нехай для деякої мережі магазинів потрібно спрогнозувати прибуток у наступний період.
Для розв'язання цієї задачі нам необхідно підібрати признаки (**feature**), на основі яких, можна здійснити певний прогноз. Наприклад, це може бути продажі кожного з магазинів за останні пів року, локація та розмір магазину, кількість святкових днів за період ... Всі значення признаків для одного магазину можемо помістити в певний контейнер, що в математиці називається **вектором**.
Кожен вектор буде описувати один із магазинів. Об'єднавши всі вектори, отримаємо **матрицю**

# Вектор та векторний простір

**Вектор** - це впорядковай набір чисел. В більш загальному випадку вектор розглядають як елемент векторного простору.
**Векторний (лінійний) простір** - набір елементів (векторів), для яких визначена операція додавання та множення на скаляр, при чому ці операції замкнуті та виконуються умови:

1.	Комутативність
2.	Асоціативність
3.	Існування нейтрального елемента
4.	Існування протилежного елемента
5.	Унітарність
6.	Асоціативність при множенні на скаляр
7.	Дистрибутивність при множенні на скаляр
8.	Дистрибутивність при множенні на вектор

In [4]:
# Запишіть вектор з двох елементів, де перший сума грошей у гаманці, другий - на картонці
cash = [1,2,5,6,6,9,5]
card_money = [5,8,8,4,556,96,9,]
# Запишіть матрицю векторів для всієї аудиторії
import numpy as np
m = np.vstack([cash, card_money])
# Запишіть вектор, який описує, кількість грошей у гаманці та на картонці для всієї аудиторії
m[0]+m[1]


array([  6,  10,  13,  10, 562, 105,  14])

# Лінійна незалежність
<p style='color:red;'>
Припустимо, що у попередній задачі був студенту якого була лише 1 копійка в гаманці та жодних коштів на картці, і, навпаки, студент без готівки, але з 1 копійкою на карті.
Очевидно, що збереження інших учнів можна виразити через суму векторів цих двох студентів (спробуйте записати).
Проте, збереження цих двох студентів, виразити ніяк не можна </p>

Отже, вектори які не можна виразити через інші -називаються **лінійно незалежними**. Вектор, який можна виразити через інші - **лінійно залежний**. Лінійно незалежні векторів утворюють базис векторного простору.
**Вимірність (dim)** векторного простору- це кількість лінійно незалежних векторів.

# Скалярний добуток векторів

Скалярний — бінарна операція над векторами, результатом якої е скаляр. Обчислюється за формулою:

$\displaystyle {\vec {x}}\cdot {\vec {y}}=|{\vec {x}}||{\vec {y}}|\cos \measuredangle \left({\vec {x}},{\vec {y}}\right)$.

В лінійній алгебрі скалярний добуток двох векторів в евклідовому просторі дорівнює сумі добутків координат векторів:

$$ X = \begin{bmatrix}x_1 \\ x_2 \\ . \\ . \\ x_n\end{bmatrix} Y = \begin{bmatrix}y_1 \\ y_2 \\ . \\ . \\ y_n \end{bmatrix}$$

$$ X\cdot Y =\sum_{i=0}^{n}x_{j}y_{j} =  x_{1}\cdot y_1 + x_2 \cdot y_2 + . . . + x_n \cdot y_n$$

# Довжина вектора

Для узагальнення поняття довжини вектора використовують поняття норми. Норма - це функція
$||\cdot||: V -> R$, для якої виконуються умови:  
*	Нульову норму має нульовий вектор
*	Нерівність трикутника
*	Однорідність  

Довжину вектора можна знайти з допомогою:  
1.	Евклідової норми: $\left\| x \right\| = \sqrt{\sum_{i=0}^{n}x_{i}^2}$
2.	Манхетенська норма $\left\| x \right\| = \sqrt{\sum_{i=0}^{n}\left| u_i \right|}$  
Простір у якому введена норма називається нормованим простором

# Загальне поняття відстані
У математиці відстань між двома об’єктами називають метрикою. Якщо простір є нормований, то у ньому можна задати метрику (таким чином простір стане ще й метричним)
Евклідова та Манхетенська метрики мають вигляд:


$d(x,y) = \sqrt{\sum_{i=0}^{n} (y_i - x_i)^2 }  \hspace{20mm} d(x,y) = \sqrt{\sum_{i=0}^{n}\left| y_i - x_i  \right|}$

# Матриці

$$ A = \begin{bmatrix}a_{11}&a_{12}&...& a_{1n}\\ a_{21}&a_{22}&...& a_{2n} \\ .&.&.&. \\ .&.&.&. \\ a_{m1}&a_{m2}&...& a_{mn}\end{bmatrix} $$

де $a_{і,j}$ - елемент матриці; і - номер рядка; j - номер стовпця.  
Матриці можна використовувати для роботи із системами алгебраїчних рівнянь, що є основним завданням у задачах лінійної класифікації.

# Операції над матрицями
1.	Матрицю розміром k х n можна помножити на вектор довжиною n
2.	Множення можна застосувати і для двох матриць, але їх розміри повинні бути відповідно m х k та k х n

$$\begin{bmatrix} 1&0&2\\ -1&3&1 \end{bmatrix} \times \begin{bmatrix} 3&1\\ 2&1 \\ 1&0 \end{bmatrix} = \begin{bmatrix} (1 \times 3 + 0 \times 2 + 2 \times 1) & (1\times1 + 0\times1 + 2\times0) \\
(-1 \times 3 + 3 \times 2 + 1 \times 1)	& (-1 \times 1 + 3 \times 1 + 1 \times 0) \end{bmatrix}=\begin{bmatrix} 5&1\\4&2\end{bmatrix}$$

3.	Дві матриці можна додати, якщо у них однакова розмірність
4.	Матрицю можна помножити на число

# Транспонування матриці
Матриця $А^T$, що виникає в з матриці $А$, в результаті унарної операції транспонування - заміна її рядків на стовбчики - називається транспонованою

$$ \begin{bmatrix} 1&2\end{bmatrix}^T = \begin{bmatrix} 1\\2\end{bmatrix}$$
$$ \begin{bmatrix}1&2\\3&4 \end{bmatrix}^T = \begin{bmatrix}1&3\\2&4 \end{bmatrix}$$
$$ \begin{bmatrix}1&2&3\\4&5&6 \end{bmatrix}^T = \begin{bmatrix}1&4\\2&5\\3&6 \end{bmatrix}$$

# Види матриць
Діагональна матриця - матриця, у якій значення не у головній діагоналі дорівнює нулю (частковим випадком є одинична матриця) 

Обернена матриця - матриця, яка при множені на початкову матрицю дає одиничну матрицю

$$AA^1 = А^1А = І$$

Операція обернення визначена тільки для квадратних матриць! 

Симетрична матриця - матриця, що при транспонуванні не змінюється
$$А^T = А$$

Ортогональна матриця - матриця, для якої транспонована матриця є оберненою

$$АА^Т = А^TА = I$$

# Визначник матриці
Давайте розглянемо квадратну матрицю вимірності 2. Для неї знайдемо наступний вираз
$$ A = \begin{bmatrix}a&b\\c&d \end{bmatrix} = ad-bc$$

Дана величина називається **визначником** матриці.
Якщо визначник дорівнює нулю, то вектори даної матриці лінійно залежні, і навпаки, якщо не дорівнює нулю, то вектори лінійно незалежні.   
Геометричній зміст: визначник дорівнює площі паралелограма (сторни якого є векторами визначника)

![image.png](attachment:image.png)

# Ранг матриці

Ранг по стовбцях: максимальна кількість лінійно незалежних стовбців 

Ранг по рядках: максимальна кількість лінійно незалежних рядків 

Теорема про ранг матриці говорить, що ранг по рядках рівний рангу по стовбцях.

Зазвичай ранг матриці $А$ позначають _rang_ $А$, _rg_ $А$ чи _rank_ $А$

# Лінійне відображення та власні вектори
Матриці також задають деяке лінійне відображення, тобто відображення одного векторного простору в інший над одним полем.
Важливим для лінійного відображення є поняття власного вектора.
Власний вектор лінійного відображення А називається ненульовий вектор, для якого виконується
нерівність $А_х = \lambda_х$, де $\lambda$ - дійсне число.

Лінійне відображення може не мати власних векторів.
[Власні вектори](https://github.com/pruhlo/data-science-notes/blob/master/Eigenvalues%20and%20eigenvectors.ipynb) використовуються для задачі зменшення розмірності даних ([метод головних компонент](https://github.com/pruhlo/data-science-notes/blob/master/PCA.ipynb)).


# Статистика

Статистика — наука збору, представлення, аналізу і розумної інтерпретації даних.
Статистика являє собою строгий науковий метод, що дозволяє зрозуміти дані, дійти до їх суті. Наприклад, у дослідженні вимірюється вага 100 пацієнтів. Це уже достатньо велика кількість спостережень, і просто глянувши на дані неможливо отримати швидке інформативне уявлення. Однак статистика може дати миттєву загальну картину даних — на основі доступної для сприйняття візуалізації або числового узагальнення — незалежно від кількості спостережень чи одиниць даних. Окрім узагальнення даних, важливим завданням статистики є формулювання логічних висновків та передбачення залежностей між змінними.

# Види шкал та змінних
Змінна — будь-яка характеристика об'єкта, що вимірюється чи досліджується. Змінна може набувати різних значень для різних об'єктів. Виділяють такі [типи шкал](http://nbviewer.org/github/pruhlo/data-science-notes/blob/master/Base_Statistics.ipynb#Variables): 


**Номінальна**
Категорійна змінна, значення якої не можуть бути впорядковані -наприклад ім'я людини («Якби вибори Президента України відбулися найближчу неділю, за кого б Ви проголосували?») або стать.  
Єдина операція, яку можна застосовувати до змінних з номінальною шкалою — це перелік, підрахунок частоти появи того чи іншого
значення в масиві.

**Порядкова**
Змінна, значення якої за означенням впорядковані (наприклад «слабо», «помірно», «сильно»). Прикладом порядкової змінної в соціологічному опитування буде питання типу: «Наскільки ви довіряєте самому собі?» — з варіантами відповіді «Зовсім не довіряю», «Скоріше недовіряю, ніж довіряю», «Важко сказати довіряю чи ні», «Скоріше довіряю ніж не довіряю», «Цілком довіряю». Або ж значення в полі «Освіта» (неповна середня, середня, середня спеціальна, незакінчена вища, вища, вчений ступінь).
Значення такої змінної можна порівнювати на тотожність, на «більше-менше», але при цьому не можна сказати наскільки більше чи менше.

Також змінні розділяють на **дискретні** та **неперервні**. Так, кількість дітей у якійсь родині, кількість автомобільних аварій на певній території, або кількість людей, що прочитали цей текст за останній місяць — це результат простого підрахунку випадків настання певного явища, і тому є значеннями дискретних змінних. Дискретною є змінна, значеннями якої можуть бути лише цілі числа.

# Описова статистика

Найпростішими способами статистичного аналізу є описові статистики, які, як видно з назви, на найпростішому рівні кількісно описують або підсумовують масив даних.
Одновимірний розподіл
![image.png](attachment:image.png)
# Міри центральної тенденції

У статистиці, такі показники розподілу як середнє, мода та медіана — називають [мірами центральної тенденції](http://nbviewer.org/github/pruhlo/data-science-notes/blob/master/Base_Statistics.ipynb#Measures_of_central_tendency). 

Вони показують загальні характеристики розподілу даних за певною змінною, дозволяють виявити одне значення (або кілька значень — якщо мода в розподілі не одна, але про це детальнішезгодом), що описує весь розподіл. Можна також сказати, що середнє, мода та медіана — це окремі значення що представляють весь набір даних, типові для всіх значеньу групі.
Міри центральноїтенденціїпотрібні з наступних міркувань:
•	Щоб отримати загальну картину розподілу. Ми не можемо запам'ятати кожен факт, що стосується сфери дослідження.
•	Щоб отримати чітку картину щодо досліджуваноїсфери для розуміння та отримання потрібних висновків.
•	Щоб отримати чіткий опис групи в цілому та мати змогу порівнювати дві або більше груп у термінах типової«поведінки».

# Середнє (Mean)

Найвідомішою мірою центральної тенденції — і найбільш вживаною в повсякденному
побуті — є середнє, або ж середнє значення ряду даних.
Є певні загальні правила для використаннясереднього, зокрема:
•	Середнє, або ж арифметичне середнє (arithmetic mean) — це «центр тяжіння» розподілу, кожне значення дає внесок у визначення середнього значення, коли поширення значень є симетричними довкола центральної точки.
•	Середнє значення більш стабільне, ніж медіана чи мода. Тому, коли потрібно знайти найбільш стабільну міру центральної тенденції, використовують середнє.

# Медіана (Median)

Медіану можна визначити як точку на ряді розподілу (впорядкований набір значень змінної для різних спостережень — наприклад від найменшого до найбільшого значення) — до цієї точки розташовано половина всіх значень, і після цієї точки теж половина значень. Тобто, медіана, це значення, що ділить впорядкований ряд навпіл. Якщо кількість значень непарна, то береться одне зі значень — те, що стоїть у розподілі рівно по центру.
Коли значень парна кількість, то беруть два центральні значення, і знаходятьїхнє середнє.
Для чого використовують медіану?
•	Коли потрібно знайти точну середню точку, точку на «півдорозі» від найменшого значення до найбільшого.
•	Коли екстремальні значення впливають на середнє — медіана є найкращою мірою централ ьноїтенденції.
•	Медіану використовують коли потрібно, щоб певні значення впливали на центральну тенденцію, але все, що про них відомо — що вони «нижче» або «вище» медіани

# Мода (Mode)

Третя міра центральної тенденції — це мода — значення, що найчастіше зустрічається в розподілі. Як правило, вона представляє найбільш типове значення. На моду ніколи не впливають екстремальні значення в розподілі, а впливають - екстремальні частоти значень, наскільки часто те чи інше значення змінної зустрічається в розподілі.
Мода використовується:
•	Коли нам треба швидка і приблизна міра центральної тенденції.
•	Коли потрібна міра центральної тенденції, що має бути типовим значенням.

# Нормальний розподіл (Normal distribution)

Розподіл у якому всі три міри центральної тенденції збігаються - тобто середнє дорівнює медіані і дорівнює моді, називається нормальним (є ще інші характеристики нормального розподілу, але про них згодом - а ці є основними).
Його також називають розподілом Ґауса або «дзвоноподібним» (bell-shaped curve) -адже графік нормального розподілу подібний на форму дзвона у профіль. Інколи кажуть, що нормальний розподіл відіграє у статистиці таку ж роль, як Ньютонова механіка-у фізиці.

![image.png](attachment:image.png)

[цікава стаття](https://news.liga.net/politics/articles/gauss_protiv_falsifikatsiy_anomalii_na_vyborakh_2012)

У **нормальному розподілі**, більша частина значень даних мас тенденцію до групування, «кластеризації» довкола середнього значення. Чим далі значення від середнього - тим менша ймовірність його появи. Звичайно, розподіли в реальному житті абсолютно точно не відповідають нормальному. Але ви здивуєтеся, як багато явищ, у розподілі за своїми параметрами надзвичайно наближаються до нормального розподілу.
Значення у розподілі також ділять по осі X за стандартними відхиленнями (standard deviations). Стандартне відхилення використовується як індикатор того, наскільки «розкиданими» відносно середнього є значення певноїзмінноїв наборі даних, і вимірюється в тих же одиницях виміру, що й змінна, розподіл. Важливо знати, що в нормальному розподілі 68% значень знаходяться в межах одного стандартного відхилення від середнього (тобто +/-1 стандартне відхилення)
![image-2.png](attachment:image-2.png)

# Квартилі

Квартилі ділять розподіл даних на чотири рівні частини. Значення, які ділять ряд розподілу, називаються першим (01), другим (02) і третім квартилям (03). Значення другого квартиля відповідаезначеннюмедіани-оскільки рівно 50% значень знаходяться до другого квартиля і 50% значень - після другого квартиля. Перший квартиль - це значення, що знаходиться посередині між найменшим значенням і другим квартилем.
Квартилі - це корисний інструмент виміру розкиду, оскільки вони набагато менше залежні від екстремальних значень чи перекосу в наборі даних, аніж середнє та стандартне відхилення.

![image-3.png](attachment:image-3.png)

![image-4.png](attachment:image-4.png)


# Кореляція
Найбільш наглядний приклад показати зв'язок між двома кількісними змінними - це діаграма розсіювання. На відміну від гістограм, які ми розглядали раніше - під час аналізу одномірних розподілів, на осі у показують не частоту того чи іншого значення змінної по осі х, а значення іншої змінної. Крапка на діаграмі означає одночасно значення двох змінних для одного спостереження («рядок» в таблиці даних).

У [кореляції](https://github.com/pruhlo/data-science-notes/blob/master/Correlation.ipynb) є дві властивості - сила і напрям. Сила кореляції визначається числовим значенням, а напрям - тим, чи кореляція позитивна чи негативна.
•	Позитивна кореляція: обидві змінні міняються утому ж напрямі. Тобто, якщо одна змінна зростає, друга зростає теж. Якщо одна спадає, то друга спадає так само.
•	Негативна кореляція: змінні рухаються у протилежних напрямках. По мірі того, як одна змінна спадає, інша росте, і навпаки.

![image-5.png](attachment:image-5.png)

![image-6.png](attachment:image-6.png)

# Довірчий інтервал

[Довірчий інтервал](http://nbviewer.org/github/pruhlo/data-science-notes/blob/master/Base_Statistics.ipynb#Confidence_intervals_for_the_mean) - показник точності вимірювань. Його застосовують як для оцінки середнього, так і для оцінки дисперсії. Він також відображає, наскільки величина, обчислена про вибірку, близька до значення за генеральною сукупністю. У загальному вигляді довірчий інтервал задається як через ймовірність того, що оцінюваний параметр theta не виходить за межі:
$$P(LB\leqslant 0\leqslant UB)=p$$
р - рівень довіри, іншими словами ймовірність того, що довірчий інтервал містить вірне значення. Зазвичай беруть значення 0.95, 0.9 або 0.99. Межі LB i UB нам необхідно знайти.

Формула для нормального розподілу наступна:

![image-7.png](attachment:image-7.png)

Але скоріше всього, наші дані будуть мати інший розподіл, відмінний від нормального. Тут на допомогу приходить [центральна гранична теорема](http://nbviewer.org/github/pruhlo/data-science-notes/blob/master/Base_Statistics.ipynb#Central_limit_theorem)

# Центральна гранична теорема
Центральна гранична теорема теорема теорії ймовірностей про збіжність розподілу суми незалежних однаково розподілених випадкових величин до нормального розподілу. Ця теорема підкреслює особливість нормального розподілу в теорії ймовірностей.
Наприклад отримано вибірку, яка містить велику кількість спостережень, кожне з яких було отримано випадковим чином і вони не залежать від інших спостережень, і на основі значень цих спостережень розраховують арифметичне середнє. Якщо цю процедуру повторити багато разів, центральна гранична теорема стверджує, що розраховані середні значення будуть мати нормальний розподіл. Простим прикладом цього є багаторазове підкидання монети при яких імовірність випадіння заданої кількості гербів у всій послідовності подій буде наближатися до нормальної кривої, із середнім, що знаходитиметься по середині від загальної кількості випадань монети на кожну сторону. (Граничне значення для нескінченної кількості підкидань, буде дорівнювати нормальному розподілу.)

# Статистична значущість
Статистична значущість результату в статистиці являє собою оцінку міри впевненості в його «істинності». У статистиці величину називають статично значущою, якщо мала ймовірність чисто випадкового виникнення її або ще більш крайніх величин. Тут під крайністю розуміється ступінь відхилення від нульової гіпотези. Різниця називається «статистично значущою», якщо є дані, поява яких була б малоймовірна, якщо припустити, що ця різниця відсутня; цей вираз не означає, що дана різниця повинна бути велика, важлива, або значуща в загальному сенсі цього слова.
Алгоритм перевірки гіпотез:
-	визначаємо нульову гіпотезу
-	знаходимо t-статистику та p-value
-	якщо p-value дуже маленьке, то заперечуємо нульову гіпотезу

# Задачі лінійного програмування

Методи оптимізації широко застосовуються для розв'язання задач теорії оптимальних процесів, оптимального регулювання, вироблення керувальних збурень на об'єкти. Без розробки та застосування методів оптимізації неможливе керування ректифікаційними колонами в спиртовій промисловості, установками крекінгу нафти, конверторами при виробництві сталі та ін.
До транспортних задач та задачі комівояжера зводяться багато задач економічної кібернетики (мережне планування, управління запасами, перевезеннями та ін.), керування організацією виробництва (розподіл завдань, обробка деталей, конвеєрне виробництво) та задачі оптимального програмування. Окрема група задач теорії оптимізації - це задачі оптимального проектування. Наприклад, задачі проектування радіоелектронних засобів з заданими обмеженнями на рівень шуму та смугу пропускання чи показниками надійності в умовах старіння.

![image-8.png](attachment:image-8.png)



# Основи математичного аналізу

Один із способі описати певне явище (в природі, бізнесі тощо) -створити математичну модель, яка часто записується функцією, тобто на вхід отримаємо деякі дані, на виході - конкретне значення Поняття функції є дуже важливим як в математиці, так і в науці про дані.

# Поняття функції
Змінну у називають функцією від змінної $х$ із області $X$ якщо по деякому правилу чи закону кожному значенню $х$ з $Х$ ставиться відповідність одне значення $у$ з $У$ Записують: $у = f(x)$

# Неперервність функції

Неперервність функції є досить важливим поняттям математичного аналізу. Неперервність можна встановити побудувавши графік функції. Якщо відсутні точки розриву на певному відрізку, то функція буде неперервна на цьому ж відрізку.
Інколи говорить, функція неперервна, якщо при малі змінах аргументу приводять до малих змін
значень

# Границя функції

Границя функції вточці — число, до якого прямує значення функції, якщо її аргумент прямує до заданої точки (не строге означення).
Розглянемо деяку функцію:
$$f(x) = \frac{sin(x)}{x}$$

Хоча дана функція в точці х = 0, не визначена (має розрив), проте ми можемо знайти наближені значення функціх, при аргументах, які прямують до точки нуль.

Границя даної функції в нулі дорівнює 1

$$\lim_{x \to 0} \frac{sin(x)}{x}=0$$

f(1) = 0.841471  
f(0.1) = 0.998334  
f(0.01) = 0.999983  

# Похідна функції

**Похідною** функції $f(x)$ у точці $x_0$ називається границя (якщо вона існує) відношення приросту функції у точці $x_0$ до приросту аргументу $\Delta x$, якщо приріст аргументу прямує до нуля і позначається $f^/(x_0)$.

Дія знаходження похідної функції називається **диференціюванням**.
Похідна функції має такий фізичний зміст: похідна функції в заданій точці - швидкість зміни функції в заданій точці.
Похідна функції має такий **геометричний** зміст: похідна функції в заданій точці є кутовим коефіцієнтом дотичної до графіка функції в цій точці, тобто дорівнює тангенсу кута нахилу дотичної до графіка функції в заданій точці.
![image.png](attachment:image.png)

# Пошук екстремумів функції

>Теорема 1. Якщо у всіх точках відкритого проміжку $X$ виконується нерівність $f^/(x) \geqslant  0$ (причому рівність $f^/(x) =  0$ виконується лише в окремих точках і не виконується ні на якому суцільному проміжку), тоді функція $у = f(x)$ зростає на проміжку $X$.

>Теорема 2. Якщо у всіх точках відкритого проміжку $X$ виконується нерівність $f^/(x) \leqslant   0$ (причому рівність $f^/(x) =  0$ виконується лише в окремих точках і не виконується ні на якому суцільному проміжку), тоді функція $у = f(x)$ спадає на проміжку $X$.

>Теорема 3. Якщо функція $y = f(x)$ має екстремум в точці $x = x_0$ тоді в цій точці похідна функції або дорівнює нулю, або не існує.

>Теорема 4 (достатні умови екстремуму). Нехай функція $y = f(x)$ неперервна на проміжку $X$ і має всередині проміжку стаціонарну або критичну точку $x = x_0$ Тоді:  
>>а)	якщо у цієї точки існує такий окіл, в якому при $x \lt x_0$ виконується нерівність $f^/(x) \lt 0$,   
а при $x \gt  x_0$ —	нерівність $f^/(x) \gt 0$,   
тоді $х = x_0$ — точка мінімуму функції $у = f(х)$;
>
>>б)	якщо у цієї точки існує такий окіл, в якому при $х < х_0$ виконується нерівність $f^/(x) \gt 0$,   
а при $х > х_0$ —	нерівність $f^/(x) \lt 0$,   
тоді $х = х_0$ — точка максимуму функції $у = f(х)$ ;
>
>>в)	якщо у цієї точки існує такий окіл, що в ньому і ліворуч і праворуч від точки $x_0$ знаки похідної однакові, тоді в точці $x_0$ экстремума немає.

Для зручності домовимося внутрішні точки області визначення функції, в яких похідна функції дорівнює нулю, називати **стаціонарними**, а внутрішні точки області визначення функції, в яких функція неперервна, але похідна не існує, — **критичними**.

Алгоритм дослідження неперервної функції} $y=f(x)$ на монотонність і екстремуми:
1.	знайти похідну $f^/(x)$.
2.	знайти стаціонарні та критичні.
3.	відзначити стаціонарні та критичні точки на числовій прямій І визначити знаки похідної на одержаних проміжках.
4.	спираючись на теореми 1, 2 і 4, зробити висновки про монотонності функції і про й точки екстремуму.

Для функцій багатьох змінних алгоритм трішки складніший.
Для початку нам потрібно ввести такі поняття:
**Градієнт** - векторна величина, яка визначає в кожній точці простору не лише швидкість зміни, а й напрямок найшвидшої зміни функції, що залежить від координат.
Операція градієнта перетворює пагорб (ліворуч), якщо дивитися на нього зверху, в поле векторів (праворуч). Видно, що вектори спрямовані «вгору», і чим крутіший нахил, тим вони довші.
![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)

**Матриця Гесе** - квадратна матриця елементами якої є часткові похідні деякої функції.
$$H(f) = \begin{bmatrix} \frac{\partial^2 f}{\partial x_1^2} & \frac{\partial^2 f}{\partial x_1\,\partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_1\,\partial x_n} \\ \\ \frac{\partial^2 f}{\partial x_2\,\partial x_1} & \frac{\partial^2 f}{\partial x_2^2} & \cdots & \frac{\partial^2 f}{\partial x_2\,\partial x_n} \\ \\ \vdots & \vdots & \ddots & \vdots \\ \\ \frac{\partial^2 f}{\partial x_n\,\partial x_1} & \frac{\partial^2 f}{\partial x_n\,\partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_n^2} \end{bmatrix}$$

Алгоритм пошуку точок екстремума функцій багатьох змінних:
1.	Знаходимо часткові похідні і градієнт
2.	Прирімнюємо вектор градієнта до 0 та знаходимо критичні точки
3.	Знаходимо матицю Гесе
-	Якшо визначник матриці Гесе в критичній точці додатньовизначений -точка локального мінімуму
-	Якщо відемновизначений - точка локального максимуму
-	В іншому випадку точка є сідлова

# Метод найшвидшого спуску
Відомо, що градієнт функції $f(z_{lf} z_2, z_n)$ в кожній точці спрямований у бік найшвидшого локального зростання цієї функції. Отже, для пошуку мінімуму необхідно спускатися в протилежному напрямку. Якщо мінімізується функція диференційовна і обмежена знизу, а її градієнт задовольняє умові Ліпшиця, то ітераційний процес
![image.png](attachment:image.png)
буде сходитися до мінімуму функції f з довільної початкової точки з координатами $z_1^0, z_2^0, z_n^0$.
Параметр а у формулі визначає довжину кроку в напрямку спуску. Довжину кроку можна вибирати з умови мінімізації функції вздовж напрямку, протилежної градієнту. Такий варіант градиентного методу називають методом найшвидшого спуску. В іншому варіанті градієнтного спуску довжина кроку а вибирається методом дроблення. За допомогою градієнтного спуску мінімум гладких функцій знаходиться значно швидше, ніж при використанні координатного спуску. Поблизу точки мінімуму складові градієнта функції мають малі значення, що призводить до зростання чутливості ітераційного процесу до погрішностей обчислень і ускладнює пошук на заключному етапі.

[Градієнтний спуск: все, що потрібно знати](https://neurohive.io/ru/osnovy-data-science/gradient-descent/)
