# **Практическое занятие 6: знакомимся с `numpy`**

## **План занятия**

- Обсуждение плана занятия
- Повторение лекции
- Самостоятельная работа + вопросы

# Модуль `numpy`

Перед работой с `numpy` его всегда необходимо импортировать:

In [9]:
import numpy as np

Основу `numpy` составляют `ndarray` &ndash; класс (тип) данных, в котором можно удобно хранить многомерные массивы данных. Их можно создать несколькими разными способами. Самый простой &ndash; из списка:

In [2]:
example = np.array([1, 2, 3, 4, 5, 6])
print(example, type(example))

[1 2 3 4 5 6] <class 'numpy.ndarray'>


Другие способы создать массив (шаблоны):

In [3]:
print('Нолики: ')
print(np.zeros([3, 3])) # в качестве аргумента указываем СПИСОК с размером
                        # np.zeros(3, 3) не сработает!

print('ones:')
print(np.ones([3, 3]))

print('Arange с началом (1), концом (10) и шагом (0.1):')
print(np.arange(1, 10, 0.1))

Нолики: 
[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]
ones:
[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]
Arange с началом (1), концом (10) и шагом (0.1):
[1.  1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.  2.1 2.2 2.3 2.4 2.5 2.6 2.7
 2.8 2.9 3.  3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 4.  4.1 4.2 4.3 4.4 4.5
 4.6 4.7 4.8 4.9 5.  5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 6.  6.1 6.2 6.3
 6.4 6.5 6.6 6.7 6.8 6.9 7.  7.1 7.2 7.3 7.4 7.5 7.6 7.7 7.8 7.9 8.  8.1
 8.2 8.3 8.4 8.5 8.6 8.7 8.8 8.9 9.  9.1 9.2 9.3 9.4 9.5 9.6 9.7 9.8 9.9]


`np.linspace` позволяет создавать массивы фиксированной длины (с равным промежутком между числами). Очень полезная функция:

In [4]:
print(np.linspace(0, np.pi, 100))

[0.         0.03173326 0.06346652 0.09519978 0.12693304 0.1586663
 0.19039955 0.22213281 0.25386607 0.28559933 0.31733259 0.34906585
 0.38079911 0.41253237 0.44426563 0.47599889 0.50773215 0.53946541
 0.57119866 0.60293192 0.63466518 0.66639844 0.6981317  0.72986496
 0.76159822 0.79333148 0.82506474 0.856798   0.88853126 0.92026451
 0.95199777 0.98373103 1.01546429 1.04719755 1.07893081 1.11066407
 1.14239733 1.17413059 1.20586385 1.23759711 1.26933037 1.30106362
 1.33279688 1.36453014 1.3962634  1.42799666 1.45972992 1.49146318
 1.52319644 1.5549297  1.58666296 1.61839622 1.65012947 1.68186273
 1.71359599 1.74532925 1.77706251 1.80879577 1.84052903 1.87226229
 1.90399555 1.93572881 1.96746207 1.99919533 2.03092858 2.06266184
 2.0943951  2.12612836 2.15786162 2.18959488 2.22132814 2.2530614
 2.28479466 2.31652792 2.34826118 2.37999443 2.41172769 2.44346095
 2.47519421 2.50692747 2.53866073 2.57039399 2.60212725 2.63386051
 2.66559377 2.69732703 2.72906028 2.76079354 2.7925268  2.824260

### Поэлементное умножение

- Если мы умножаем число на `ndarray`, то умножается весь массив. То же самое работает для всех других математических операций
- Если мы умножаем друг на друга `ndarray` **одинаковой длины**, то умножается каждый элемент одного массива на каждый элемент другого массива. Это же касается других математических операций.

Примеры:

In [5]:
a = np.arange(1, 10)
print('Умножаем массив на число:')
print(f'Массив a = {a}')
print(f'Массив a * 2 = {a*2}\n')

b = np.arange(1, 10)
print(f'Массив b = {b}')
print(f'Результат умножения a * b = {a*b}\n')

print(f'Результат сложения a + b = {a+b}\n')

print(f'Результат деления a/b = {a/b}')

Умножаем массив на число:
Массив a = [1 2 3 4 5 6 7 8 9]
Массив a * 2 = [ 2  4  6  8 10 12 14 16 18]

Массив b = [1 2 3 4 5 6 7 8 9]
Результат умножения a * b = [ 1  4  9 16 25 36 49 64 81]

Результат сложения a + b = [ 2  4  6  8 10 12 14 16 18]

Результат деления a/b = [1. 1. 1. 1. 1. 1. 1. 1. 1.]


Не получится перемножить массивы разной длины друг на друга:

In [6]:
array_len_10 = np.arange(10)
array_len_5 = np.arange(5)
array_len_10*array_len_5

ValueError: operands could not be broadcast together with shapes (10,) (5,) 

Мы можем узнать информацию о массивах с помощью следующих комманд:

In [7]:
print(f'Размер массива аrray_len_10 = {array_len_10.shape}') # размер массива
print(f'Длина массива аrray_len_10 = {len(array_len_10)}\n') # работает и функция len!

zeros = np.zeros([3, 3])
print(f'Матрица zeros: \n{zeros}')
print(f'Размер матрицы zeros = {zeros.shape}')

print(f'Количество измерений матрицы zeros = {zeros.ndim}') # то же самое что len(zeros.shape)

Размер массива аrray_len_10 = (10,)
Длина массива аrray_len_10 = 10

Матрица zeros: 
[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]
Размер матрицы zeros = (3, 3)
Количество измерений матрицы zeros = 2


## Базовое индексирование массивов `numpy`

Посмотрим на базовые примеры работы с матрицами и векторами. Индексирование вектора (одномерного массива) очень похоже на индексирование списков. А вот индексирование матриц немного отличается.

Синтаксис:
- `A[i, j]` - элемент в `i`-ой строчке и в `j`-ом столбце.
- `A[0, 0]` - элемент на строчке `0` и столбце `0`
- `A[:, 0]` - нулевой столбец
- `A[0, :]` - нулевая строчка

In [8]:
A = np.array([[1, 1, 1],
              [2, 2, 2],
              [3, 3 ,3]])

print(f'A[0, 0] = {A[0, 0]}')
print(f'Нулевой столбец: A[:, 0] = {A[:, 0]}')
print(f'Нулевая строчка: A[0, :] = {A[0, :]}')

A[0, 0] = 1
Нулевой столбец: A[:, 0] = [1 2 3]
Нулевая строчка: A[0, :] = [1 1 1]


# Базовая статистика в `numpy`

Для работы со случайными величина есть целый подмодуль `random`. Посмотрим на случайную величину с постоянной плотностью вероятности:

In [9]:
print(f'Случайная величина, распредленная равномерно на отрезке от нуля до единицы:')
print(np.random.rand())

print(f'\nВектор таких случайных величин длины 10:')
print(np.random.rand(10))

print(f'\nМатрица таких случайных величин размера (5, 5):')
print(np.random.rand(5, 5))

print(f'\nСлучайная величина, распредленная равномерно на отрезке от -0.5 до 0.5:')
print(np.random.rand() - 0.5)

print(f'\nСлучайная величина, распредленная равномерно на отрезке от 0 до 10:')
print(np.random.rand()*10)

Случайная величина, распредленная равномерно на отрезке от нуля до единицы:
0.8024946501472534

Вектор таких случайных величин длины 10:
[0.49798905 0.81671605 0.33451346 0.20070266 0.15475378 0.41043828
 0.48990556 0.85443668 0.68680268 0.30719935]

Матрица таких случайных величин размера (5, 5):
[[0.89213342 0.23170027 0.06099735 0.7023175  0.58306177]
 [0.7017113  0.60903751 0.47050798 0.41624317 0.33825438]
 [0.83293234 0.53270834 0.38070268 0.20068628 0.83060848]
 [0.30500831 0.6224641  0.14818575 0.77367042 0.64621807]
 [0.47700893 0.53734291 0.04428594 0.19216156 0.05833328]]

Случайная величина, распредленная равномерно на отрезке от -0.5 до 0.5:
0.34759153519369257

Случайная величина, распредленная равномерно на отрезке от 0 до 10:
7.541705706753044


Посмотрим на нормально распредленные случайные величины:

In [11]:
print(f'Случайная величина, распредленная нормально с матожиданием 0 и стандартным отклонением 1:')
print(np.random.randn()) # обратите внимание, randn, добавилась n в конце

print(f'\nВектор таких случайных величин длины 10:')
print(np.random.randn(10))

print(f'\nМатрица таких случайных величин размера (5, 5):')
print(np.random.randn(5, 5))

print(f'\nСлучайная величина, с матожиданием 5 и стандартным отклонением 1:')
print(np.random.randn() + 5)

print(f'\nСлучайная величина, с матожиданием 0 и стандартным отклонением 10:')
print(np.random.randn()*10 + 0)

Случайная величина, распредленная нормально с матожиданием 0 и стандартным отклонением 1:
-0.3118208603863645

Вектор таких случайных величин длины 10:
[ 0.77551783  1.95435764  0.13176025 -0.47646426 -0.12360973 -0.63490003
 -0.09824641 -0.31770425 -0.70111408  2.25449703]

Матрица таких случайных величин размера (5, 5):
[[ 0.98217739 -0.37812497  1.2592599   1.17403765  0.85382991]
 [-0.63475729 -1.08784007  0.94832482 -0.42569571 -1.12719644]
 [ 1.25826538 -2.00096793 -0.34914963 -0.78733353  0.33934008]
 [-2.16526895  0.29873609 -1.29538204  0.53587143 -0.79473735]
 [-0.75771544 -0.40709829 -0.37582232 -0.36899508  1.05400143]]

Случайная величина, с матожиданием 5 и стандартным отклонением 1:
4.542960535173766

Случайная величина, с матожиданием 0 и стандартным отклонением 10:
-2.914828706047772


# Семинарские задания и домашние задания (6 баллов)

## Здравствуйте почему у меня ошибка в коде

**(0.5 балла)** Почему может быть ошибка в следующей ячейке?

In [14]:
import numpy as np
print(numpy.zeros(10))

NameError: name 'numpy' is not defined

**(0.75 балла)** А в этой?

In [12]:
example = np.array([1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9])

TypeError: array() takes from 1 to 2 positional arguments but 3 were given

**(0.75 балла)** А с этой что не так?

In [15]:
print(np.zeros(3, 3))

TypeError: Cannot interpret '3' as a data type

**(0.5 балла)** А тут-то чего не так....

In [16]:
A = np.array([[1, 1, 1],
              [2, 2, 2],
              [3, 3 ,3]])
print(A.shape())

TypeError: 'tuple' object is not callable

**(0.75 балла)** Да хватит уже блин когда это уже закончится помогите (найдите ошибку)


In [18]:
lat = np.arange(20, 40, 0.1)
lon = np.arange(-30, 30, 0.2)

print(np.sqrt(lat**2 + lon**2)) 

ValueError: operands could not be broadcast together with shapes (200,) (300,) 

### Ура данные

Выполните строчку ниже:

In [25]:
temps = np.loadtxt('data/temps.txt')

Это датасет, который я давал как один из примеров работы с проектами. Я немного обрезал его так, чтобы он удобно читался.

Он состоит из нескольких столбцов, разделенных пробелами. После считывания ее функцией `np.loadtxt` получаем матрицу размера `2089 x 12`:

In [21]:
temps.shape

(2089, 12)

(**0.75 балла**) Сделайте новые переменные `year` и `month`, которые будут равные нулевому и первому столбцу данных соотвественно.

In [22]:
# Ваш код

(**0.75 балла**) Мы могли бы запись дату вот так:


`time = year + month/12`

Таким образом, март 1871 будет `1871 + 3/12 = 1871.25`. Сделайте новую переменную `t` из двух столбцов `year` и `month`. `t.shape` должен быть равен `(2089,)` или `(2089, 1)`.

In [31]:
# Ваш код

### Перенормировка 

(**0.5 балла**) Сгенерируйте вектор нормально распредленных данных длиной `100` со средним `μ = 1` и стандартным отклонением `σ = 2`:

In [32]:
# Ваш код

(**1.25 балла**) [Отнормируйте](https://en.wikipedia.org/wiki/Feature_scaling) данные так, чтобы они лежали от нуля до единицы:

<p>
<details>
<summary> <u> Подсказка </u> </summary>

Вычтите из данных минимальное значение и поделите на разницу максимального и минимального значения.
    
</details>
</p>

In [33]:
# Ваш код

✨ (**1.25 балла**) Сгенерируйте вектор равномерно распредленных данных от нуля до пяти длиной `100`. Отнормируйте данные согласно [z-оценке](https://ru.wikipedia.org/wiki/Z-%D0%BE%D1%86%D0%B5%D0%BD%D0%BA%D0%B0) со средним в `0` и стандартным отклонением `1`:

In [34]:
# Ваш код

### Редкая гадость

✨✨✨ (**Без балла**) Реализуйте [метод Гаусса](https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%93%D0%B0%D1%83%D1%81%D1%81%D0%B0) с помощью `numpy`. 

In [None]:
# Ваш код