# 1.6 NumPy: основы

### NumPy — пакет для Python, предоставляющий удобный интерфейс для работы с данными. Самая важная часть пакета — класс ndarray, представляющий собой nn-мерный массив.

Во всех примерах далее будет предполагаться, что пакет NumPy импортирован следующим образом:

**import numpy as np**

Краткая инструкция по установке Python и пакета NumPy:

В первое время все задания будут достаточно компактными, чтобы их можно было выполнять с помощью онлайн-интерпретатора. Например, python anywhere или repl.it. Однако вы будете сильно зависеть от состояния удалённых серверов, а интуитивность интерфейсов онлайн-интерпретаторов обычно оставляет желать лучшего.

Чтобы установить Python 3 и все нужные пакеты, проще всего использовать Miniconda — компактную версию научно-исследовательского пакета Anaconda. Miniconda содержит сам Python и пакетный менеджер, позволяющий устанавливать все пакеты, не содержащиеся в Python изначально. Нам понадобится только ввести в командной строке

$ conda install numpy
После этого вы готовы к работе.

Для использующих Windows есть отличный вариант﻿ сборки, в которую включено всё что нам понадобится в курсе (и даже бонусы в виде удобных сред разработки). Если будете скачивать версию 3.5 — обратите внимание на (*) в описаниях версий. Без установки этого может не заработать.

Если же вы не хотите использовать Anaconda, NumPy может быть установлен и отдельно. Подробнее об этом написано на их сайте.

![image.png](attachment:image.png)

In [None]:


>>> a = np.array([[1,2,3], [4,5,6]])  # создаём массив
>>> print(a)  # смотрим на массив
[[1 2 3]
 [4 5 6]]
>>> a.shape  # смотрим на форму массива
(2, 3)
Для n-мерных массивов соответствующим образом определены основные арифметические и логические операции (+ - * / // % ** < <= == >= > != выполняются поэлементно; если вторым аргументом бинарной операции указано число (скаляр), то он преобразуется в массив той же формы, что и первый аргумент). Также для n-мерных массивов реализованы все основные методы, которые могут понадобиться при работе (дальше мы покажем те из них, которые будут особенно нужны при решении заданий курса).

![image.png](attachment:image.png)

![image.png](attachment:image.png)

In [None]:
>>> print(np.eye(5, 3, k=-1))
[[ 0.  0.  0.]
 [ 1.  0.  0.]
 [ 0.  1.  0.]
 [ 0.  0.  1.]
 [ 0.  0.  0.]]
>>> print(np.array([[1,2,3], [4,5,6]])) # матрица формы (2, 3) из последовательности последовательностей
[[1 2 3]
 [4 5 6]]

![image.png](attachment:image.png)

![image.png](attachment:image.png)

In [2]:
import numpy as np

In [3]:
m1 = np.eye(3,4,1)
m1

array([[0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [4]:
m2 = np.eye(3,4) * 2
m2

array([[2., 0., 0., 0.],
       [0., 2., 0., 0.],
       [0., 0., 2., 0.]])

In [5]:
np.eye(3,4) * 2 + np.eye(3,4,1)

array([[2., 1., 0., 0.],
       [0., 2., 1., 0.],
       [0., 0., 2., 1.]])

In [6]:
print(np.eye(3,4) * 2 + np.eye(3,4,1))

[[2. 1. 0. 0.]
 [0. 2. 1. 0.]
 [0. 0. 2. 1.]]


![image.png](attachment:image.png)

In [7]:
import numpy as np
ar = np.eye(3,4,1)
np.fill_diagonal(ar, 2)
print(ar)

[[2. 1. 0. 0.]
 [0. 2. 1. 0.]
 [0. 0. 2. 1.]]


In [8]:
import numpy as np
print(np.array([[2,1,0,0],[0,2,1,0],[0,0,2,1]]))


[[2 1 0 0]
 [0 2 1 0]
 [0 0 2 1]]


![image.png](attachment:image.png)

In [None]:
>>> import random
>>> w = np.array(random.sample(range(1000), 12)) # одномерный массив из 12 случайных чисел от 1 до 1000
>>> w = w.reshape((2,2,3)) # превратим w в трёхмерную матрицу
>>> print(w)
[[[536 986 744]
  [543 248 544]]

 [[837 235 415]
  [377 141 751]]]
>>> print(w.transpose(0,2,1))
[[[536 543]
  [986 248]
  [744 544]]

 [[837 377]
  [235 141]
  [415 751]]]

### понял, спасибо! Попробую объяснить словами. Исходя из записи w.reshape(2,2,3) мы меняем размерность наших 12 элементов. За что отвечают цифры внутри reshape:

Количество "матриц".
Количество строк в каждой матрице.
Количество столбцов в каждой матрице.
Возможно, очевидный момент, но произведение всех элементов обязательно должно равняться 12:) Таким образом мы можем разбить их хоть на 12 матриц размером 1х1, достаточно указать w.reshape(12,1,1) .

Дальше транспонирование. Исходя из операции reshape можно сказать, что у нас есть список из трёх элементов с индексацией от 0 до 2, где каждому индексу принадлежит значение. Исходя из примера в задании:

    Индекс 0 -- 2 (количество "матриц").
    Индекс 1 -- 2 (количество строк в матрице).
    Индекс 2 -- 3 (количество столбцов в матрице).
И как я понял, с помощью transpose мы меняем эти индексы местами, поэтому при transpose (0, 1, 2) всё остаётся на месте, а в случае transpose (2, 1, 0) количество матриц становится равно трём.

Но мне непонятна ситуация со случаем (1, 0, 2), в этом случае у нас строки из матриц меняются местами. Вот здесь вроде бы доходчиво объяснили, но мне не хватает осознания, чтобы понятно изложить:) https://stackoverflow.com/a/32034565/10604314

In [9]:
# Для тех, кто не понял, как работает функция транспонирования матрицы размерности >2.

# Наглядный пример:

w = np.array([1,2,3,4,5,6,7,8,9,10,11,12])
w = w.reshape((2,2,3))
print('-------- исходная (0,1,2) --------')
print(w)
print('-------- 2,1,0 --------')
print(w.transpose(2,1,0))
print('-------- 2,0,1 --------')
print(w.transpose(2,0,1))
print('-------- 0,2,1 --------')
print(w.transpose(0,2,1))

-------- исходная (0,1,2) --------
[[[ 1  2  3]
  [ 4  5  6]]

 [[ 7  8  9]
  [10 11 12]]]
-------- 2,1,0 --------
[[[ 1  7]
  [ 4 10]]

 [[ 2  8]
  [ 5 11]]

 [[ 3  9]
  [ 6 12]]]
-------- 2,0,1 --------
[[[ 1  4]
  [ 7 10]]

 [[ 2  5]
  [ 8 11]]

 [[ 3  6]
  [ 9 12]]]
-------- 0,2,1 --------
[[[ 1  4]
  [ 2  5]
  [ 3  6]]

 [[ 7 10]
  [ 8 11]
  [ 9 12]]]


In [12]:
# Моя попытка объяснить.Массив же может состоять не только из чисел, а так же и из строк, верно? Верно.

import numpy as np
a = np.array([['Кот','Матроскин','Ученый'],['Пес','Шарик','Балбес']])
print(a)



[['Кот' 'Матроскин' 'Ученый']
 ['Пес' 'Шарик' 'Балбес']]


In [13]:
a = np.array([['Кот','Матроскин','Ученый'],['Пес','Шарик','Балбес']])
print(a.T)


[['Кот' 'Пес']
 ['Матроскин' 'Шарик']
 ['Ученый' 'Балбес']]


In [14]:
# По моему на двумерном массиве выглядит очень наглядно.

# Теперь больше?
a = np.array([
                [
                    ['Кот','Матроскин','Ученый'], ['Пес','Шарик','Балбес']
                ],
                [
                    ['Мальчик','Федор','Фантазер'], ['Мама','Не_Помню_Имя','Артистка']
                ]
            ,])
print(a)

[[['Кот' 'Матроскин' 'Ученый']
  ['Пес' 'Шарик' 'Балбес']]

 [['Мальчик' 'Федор' 'Фантазер']
  ['Мама' 'Не_Помню_Имя' 'Артистка']]]


In [15]:
print(a.T)

[[['Кот' 'Мальчик']
  ['Пес' 'Мама']]

 [['Матроскин' 'Федор']
  ['Шарик' 'Не_Помню_Имя']]

 [['Ученый' 'Фантазер']
  ['Балбес' 'Артистка']]]


# Задача

![image.png](attachment:image.png)

In [16]:
mat = np.eye(3,4) * 2 + np.eye(3,4,1)
mat

array([[2., 1., 0., 0.],
       [0., 2., 1., 0.],
       [0., 0., 2., 1.]])

In [18]:
print(mat.flatten())

[2. 1. 0. 0. 0. 2. 1. 0. 0. 0. 2. 1.]


In [25]:
print(mat.reshape(12,1))


[[2.]
 [1.]
 [0.]
 [0.]
 [0.]
 [2.]
 [1.]
 [0.]
 [0.]
 [0.]
 [2.]
 [1.]]


![image.png](attachment:image.png)

## Основные методы ndarray
Базовые статистики

    a.min(axis=None), a.max(axis=None), a.mean(axis=None), a.std(axis=None) — минимум, максимум, среднее арифметическое и стандартное отклонение вдоль указанной оси. 

По умолчанию ось не указана и статистика считается по всему массиву. 

    a.argmin(axis=None), a.argmax(axis=None) — индексы минимального и максимального элемента. Пример:

In [None]:
>>> print(v)
[[1 2 3 4]
 [1 2 3 4]
 [1 2 3 4]]
>>> print(v.mean(axis=0))  # вдоль столбцов
[ 1.  2.  3.  4.]
>>> print(v.mean(axis=1))  # вдоль строк
[ 2.5  2.5  2.5]
>>> print(v.mean(axis=None))  # вдоль всего массива
2.5

![image.png](attachment:image.png)

In [None]:
>>> a = w.dot([1,2,3])
>>> print(a)
[[4740 2671]
 [2552 2912]]
>>> ainv = np.linalg.inv(a)
>>> print(a.dot(ainv))
[[  1.00000000e+00   0.00000000e+00]
 [ -2.22044605e-16   1.00000000e+00]]

###### Подробные описания с указанием полного списка аргументов, а также описания всех остальных функций находятся на сайте проекта NumPy.
http://docs.scipy.org/doc/numpy/reference/index.html

# ЗАДАЧА

![image.png](attachment:image.png)

In [None]:
Sample Input 1:

2 3
8 7 7 14 4 6
4 3
5 5 1 5 2 6 3 3 9 1 4 6

In [None]:
Sample Output 1:

[[ 82  96 108  78]
 [ 96 114 108  66]]

In [None]:
Sample Input 2:

2 3
5 9 9 10 8 9
3 4
6 11 3 5 4 5 3 2 5 8 2 2

In [None]:
Sample Output 2:

matrix shapes do not match

In [26]:
import numpy as np

x_shape = tuple(map(int, input().split()))
X = np.fromiter(map(int, input().split()), np.int).reshape(x_shape)
y_shape = tuple(map(int, input().split()))
Y = np.fromiter(map(int, input().split()), np.int).reshape(y_shape)

# here goes your solution; X and Y are already defined!

2 3
8 7 7 14 4 6


Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  after removing the cwd from sys.path.


4 3
5 5 1 5 2 6 3 3 9 1 4 6


Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  


In [27]:
x_shape

(2, 3)

In [28]:
X

array([[ 8,  7,  7],
       [14,  4,  6]])

In [29]:
y_shape

(4, 3)

In [30]:
Y

array([[5, 5, 1],
       [5, 2, 6],
       [3, 3, 9],
       [1, 4, 6]])

In [31]:
X.dot(Y.T)

array([[ 82,  96, 108,  78],
       [ 96, 114, 108,  66]])

In [33]:
if x_shape[1] == y_shape[1]:
    print(X.dot(Y.T))
else:
    print('matrix shapes do not match')

[[ 82  96 108  78]
 [ 96 114 108  66]]


![image.png](attachment:image.png)

In [None]:
import numpy as np

x_shape = tuple(map(int, input().split()))
X = np.fromiter(map(int, input().split()), np.int).reshape(x_shape)
y_shape = tuple(map(int, input().split()))
Y = np.fromiter(map(int, input().split()), np.int).reshape(y_shape)
try:
    print(X.dot(Y.T))
except ValueError:
    print("matrix shapes do not match")

In [None]:
import numpy as np
x_shape, X = tuple(map(int, input().split())), np.fromstring(input(),dtype=np.int16,sep=' ')
y_shape, Y = tuple(map(int, input().split())), np.fromstring(input(),dtype=np.int16,sep=' ')
X.shape, Y.shape=x_shape, y_shape
print(X.dot(Y.T) if X.shape[1]==Y.shape[1] else "matrix shapes do not match")

# Как считать данные из файла:

In [None]:
>>> sbux = np.loadtxt("sbux.csv", usecols=(0,1,4), skiprows=1, delimiter=",", 
                      dtype={'names': ('date', 'open', 'close'),
                             'formats': ('datetime64[D]', 'f4', 'f4')})
>>> print(sbux[0:4])
[(datetime.date(2015, 9, 1), 53.0, 57.2599983215332)
 (datetime.date(2015, 8, 3), 58.619998931884766, 54.709999084472656)
 (datetime.date(2015, 7, 1), 53.86000061035156, 57.93000030517578)
 (datetime.date(2015, 6, 1), 51.959999084472656, 53.619998931884766)]

##### Здесь использованы не все параметры функции loadtxt (полный их список можно посмотреть в справке). Разберём имеющиеся, так как они являются наиболее часто встречающимися.
"sbux.csv" — имя файла (или сюда же можно передать объект файла, такой пример вы увидите в следующей задаче урока), из которого считываются данные.

usecols — список колонок, которые нужно использовать. Если параметр не указан, считываются все колонки.

skiprows — количество рядов в начале файла, которые нужно пропустить. В нашем случае пропущен ряд заголовков. По умолчанию (если значение параметра не указано явно) skiprows = 0.

delimiter — разделитель столбцов в одной строке, в csv-файлах это запятая, по умолчанию разделителем является любой пробел (в том числе — знак табуляции).

dtype — словарь из названий колонок (переменных) и типов хранящихся в них значений. 

NumPy использует свою собственную систему типов, и названия именно этих типов нужно указать. 

По умолчанию функция попытается самостоятельно угадать, какому типу принадлежат подаваемые на вход значения.

# ЗАДАЧА

## Задача: считайте данные из файла и посчитайте их средние значения.

На вход вашему решению будет подан адрес, по которому расположен csv-файл, из которого нужно считать данные. Первая строчка в файле — названия столбцов, остальные строки — числовые данные (то есть каждая строка, кроме первой, состоит из последовательности вещественных чисел, разделённых запятыми).

Посчитайте и напечатайте вектор из средних значений вдоль столбцов входных данных. То есть если файл с входными данными выглядит как

In [None]:
a,b,c,d
1.5,3,4,6
2.5,2,7.5,4
3.5,1,3.5,2

In [None]:
то ответом будет

[ 2.5  2.   5.   4. ]

###### Как упоминалось на предыдущем шаге, в качестве файла для loadtxt можно передать объект файла. Это удобно в таких случаях, как сейчас: когда данные лежат не на вашем компьютере, а где-то в сети. Как их скачать из сети? С помощью стандартных библиотек:

In [None]:
>>> from urllib.request import urlopen
>>> f = urlopen('https://stepik.org/media/attachments/lesson/16462/boston_houses.csv')

Теперь в f содержится объект файла, который можно передать в loadtxt.

In [None]:
Sample Input:

https://stepik.org/media/attachments/lesson/16462/boston_houses.csv
Sample Output:

[22.53280632  3.61352356 11.36363636  0.06916996  0.55469506  6.28463439
  3.79504269]

In [None]:
from urllib.request import urlopen
import numpy as np

filename = input()
f = urlopen(filename)
sbux = np.loadtxt(f, skiprows=1, delimiter=",") 
print(sbux.mean(axis=0))           

![image.png](attachment:image.png)

In [None]:
from urllib.request import urlopen
import numpy as np
print(np.loadtxt(input(), skiprows=1, delimiter=',').mean(0))
 



In [None]:
#import numpy as np
import pandas as pd
#df = pd.read_csv(input())
print(pd.read_csv(input()).mean(axis=0).values)