<table>
<tr style="background:transparent">
 <td><font size="7" face="serif"><b>Курс анализа данных на Python</b></font></td>   
 <td><img src="Image_fifth_lecture/Unknown.png" alt="Змейка" width="200" height="100"></td>
</tr>
</table>

<img src="Image_fifth_lecture/harry.jpg" alt="Гарри" width="700">

<center><font size="6" face="serif"><b>Библиотека Numpy для работы с данными</b></font></center>

## Навигация

[Что такое и зачем нужен Numpy](#what_is_it)

[Создание NumPy массивов](#create)

[Полезные атрибуты  NumPy массивов](#attributes)

### Что такое и зачем нужен Numpy <a class="anchor" id="what_is_it"></a>

Библиотека **NumPy** (Numerical Python) - это библиотека для эффективного хранения и работы с массивами данных. Массивы NumPy формируют ядро самых основных пакетов для исследования данных в Python.

По традиции, принятой в сообществе, библиотеку NumPy импортируют с псевдонимом **np**

In [2]:
import numpy as np

*Далее места помеченные * будут означать материалы, взятые из книги Дж. Вандера Пласа - Python Data Science Handbook.*

Для того, чтобы эффективно работать с данными необходимо понять, как они хранятся. Как вы уже в курсе, все в Python - это объекты. 

К примеру рассмотрим хранение целого числа в языке C и языке Python:

- В языке C отдельное целое число является указателем на место в памяти, в котором в двоичной форме хранится число.
- В языке Python целое число является объектом класса, записанного на языке C (\*):

Фактически целое число состоит из четырех частей (\*):
- **ob_refcnt** - счетчика ссылок, с помощью которого Python незаметно выполняет выделение и освобождение памяти;
- **ob_type** - кодирующей тип переменной;
- **ob_size** - задающей размер следующих элементов данных;
- **ob_digit** - содержащей фактическое целочисленное значение, которое представляет переменная языка Python.

<img src="Image_fifth_lecture/cint_vs_pyint.png" alt="Число" width="400">

**PyObject_HEAD** обозночается часть структуры, содержащая счетчик ссылок, кодирующий тип и размер.

Именно такая структура хранения данных позволяет быть Python таким гибким (читай динамически типизированным) языком. Однако, такое хранение данных не является эффективным для выполнения быстрых операций с ними. Это одна из причин почему Python работает гораздо медленнее, чем тот же C.

Рассмотрим хранение большого кол-ва объектов в Python. Самым очевидным представителем структуры-котнейнера в языке Python, который хранит много данных - является список. Если даже целое число хранится в памяти целым объектом, то хранение списка представляет из себя довольно громоздкую структуру (\*):

<img src="Image_fifth_lecture/list_date.png" alt="Список" width="500">

В Python есть встроенная библиотека **array** для эффективного хранения массивов данных. Хранение похоже на хранение в языке С, тип данных элементов массива остается **одинаковым**! Фактически это отхождение от питоновских особенностей в сторону статически типизированных языков. Однако, операции с массивами одного типа происходят гораздо быстрее, а места в памяти занимают они меньше.

Проведем сравнение занимаемого места одного и того же массива данных с помощью встроенного списка, массива **array** библиотеки **array** и массива **ndarray** библиотеки **NumPy**

In [37]:
import sys

L = list(range(10))

print(f'Список {L} занимает {sys.getsizeof(L)} байт')

Список [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] занимает 200 байт


In [38]:
import array as ar

A = ar.array('i', L)

print(f'Массив {A} занимает {sys.getsizeof(A)} байт')

Массив array('i', [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) занимает 104 байт


In [53]:
def array(n):
    return np.arange(10, dtype=f'int{n}')

L8 = array(8)
L16 = array(16)
L32 = array(32)
L64 = array(64)

print(f'NumPy массив {L8} занимает {sys.getsizeof(L8)} байт с типом int8')
print(f'NumPy массив {L16} занимает {sys.getsizeof(L16)} байт с типом int16')
print(f'NumPy массив {L32} занимает {sys.getsizeof(L32)} байт с типом int32')
print(f'NumPy массив {L64} занимает {sys.getsizeof(L64)} байт с типом int64')

NumPy массив [0 1 2 3 4 5 6 7 8 9] занимает 106 байт с типом int8
NumPy массив [0 1 2 3 4 5 6 7 8 9] занимает 116 байт с типом int16
NumPy массив [0 1 2 3 4 5 6 7 8 9] занимает 136 байт с типом int32
NumPy массив [0 1 2 3 4 5 6 7 8 9] занимает 176 байт с типом int64


Как видно массив встроенной библиотеки **array** занимает даже меньше места в памяти, чем самый маленький тип int **NumPy** массива. Возникает вопрос - зачем тогда нужна библиотека **NumPy**, если имеется встроенная библиотека, обеспечивающая эффективное хранение данных в питоне. 

Ответ прост: библиотека **array** обеспечивает **ТОЛЬКО** эффективное хранение, а библиотека **NumPy** в добавок позволяет проводить эффективные операции с массивами.

In [49]:
%%timeit

L = list(range(10000))

for i in range(len(L)):
    L[i] **= 2

2.74 ms ± 198 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [50]:
%%timeit

L = [i ** 2 for i in range(10000)]

2.27 ms ± 6.06 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [51]:
%%timeit

L = ar.array('i', list(range(10000)))

for i in range(len(L)):
    L[i] **= 2

4.01 ms ± 402 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [52]:
%%timeit

L = np.arange(10000) ** 2

14.4 µs ± 113 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


<img src="Image_fifth_lecture/prevoshodno.jpg" alt="Превосходно" width="600">

### Создание  NumPy массивов <a class="anchor" id="create"></a>

#### Создание одномерного массива из списка Python

In [105]:
a = np.array([1, 2, 3, 4])

print(a)
print(type(a))
print(a.dtype)

[1 2 3 4]
<class 'numpy.ndarray'>
int64


#### Создание двухмерного массива из списков Python

In [107]:
a = np.array([[1, 2, 3, 4],
              [5, 6, 7, 8]])

print(a)
print(type(a))
print(a.dtype)

[[1 2 3 4]
 [5 6 7 8]]
<class 'numpy.ndarray'>
int64


#### Задание типа данных

In [60]:
a = np.array([1, 2, 3, 4], dtype='int8')

print(a)
print(type(a))
print(a.dtype)

[1 2 3 4]
<class 'numpy.ndarray'>
int8


In [61]:
a = np.array([1, 2, 3, 4], dtype=np.int8)

print(a)
print(type(a))
print(a.dtype)

[1 2 3 4]
<class 'numpy.ndarray'>
int8


#### Иерархическая структура типов данных в NumPy 

<img src="Image_fifth_lecture/dtype-hierarchy.png" alt="Иерархия" width="600">

#### Основные стандартные типы данных NumPy 

Тип данных	|  Описание (\*)
:-----------|:--------------
bool_	    | Булев тип (True или False), хранящийся в виде 1 байта
int8	    | Целое число (от -128 до 127)
int16	    | Целое число (от -32768 до 32767)
int32	    | Целое число (от -2147483648 до 2147483647)
int64	    | Целое число (от -9223372036854775808 до 9223372036854775807)
uint8	    | Беззнаковое целое число (от 0 до 255)
uint16	    | Беззнаковое целое число (от 0 до 65535)
uint32	    | Беззнаковое целое число (от 0 до 4294967295)
uint64	    | Беззнаковое целое число (от 0 до 18446744073709551615)
float16	    | Число с плавающей точкой с половинной точностью: 1 бит знак, 5 бит порядок, 10 бит мантисса
float32	    | Число с плавающей точкой с одинарной точностью: 1 бит знак, 8 бит порядок, 23 бит мантисса
float64	    | Число с плавающей точкой с двойной точностью: 1 бит знак, 11 бит порядок, 52 бит мантисса
unicode_    | Является гибким типом данных (не имеют заранее определенного размера)
object_     | Данные являются ссылками на объекты Python (объектные массивы ведут себя почти также как и обычные списки)

Ссылка на типы данных в документации - https://docs.scipy.org/doc/numpy/reference/arrays.scalars.html#arrays-scalars-built-in

In [81]:
a = np.array(['1', 'asd'])

print(a)
print(type(a))
print(a.dtype)

['1' 'asd' '3']
<class 'numpy.ndarray'>
<U3


In [79]:
a = np.array(['1', 'asd', 3], dtype='object')

print(a)
print(type(a))
print(a.dtype)

['1' 'asd' 3]
<class 'numpy.ndarray'>
object


При задании массива с элементами разного типа - numpy массив создается с более высоким типом данных

In [85]:
a = np.array([1, 3.0, 4])

print(a)
print(type(a))
print(a.dtype)

[1. 3. 4.]
<class 'numpy.ndarray'>
float64


In [86]:
a[1]

3.0

In [82]:
a = np.array(['1', 'asd', 19])

print(a)
print(type(a))
print(a.dtype)

['1' 'asd' '19']
<class 'numpy.ndarray'>
<U3


In [83]:
a[2]

'19'

#### Создание нулевого массива

In [93]:
np.zeros(5, dtype='int16')

array([0, 0, 0, 0, 0], dtype=int16)

#### Создание одномерного массива, заполненного единицами

In [94]:
np.ones(5, dtype='int16')

array([1, 1, 1, 1, 1], dtype=int16)

#### Создание двухмерного массива, заполненного единицами

In [110]:
np.ones((2,3), dtype='int16')

array([[1, 1, 1],
       [1, 1, 1]], dtype=int16)

#### Создание массива размером 5, заполненного значением 7

In [101]:
np.full(5, 7)

array([7, 7, 7, 7, 7])

#### Создание массива размером (3,3), заполненного значением 3

In [112]:
np.full((3,3), 3)

array([[3, 3, 3],
       [3, 3, 3],
       [3, 3, 3]])

#### Создание массива, заполненного линейной последовательностью, начинающего с 0, заканчивающегося 8 (не включительно) с шагом 2

In [95]:
np.arange(0, 8, 2, dtype='int16')

array([0, 2, 4, 6], dtype=int16)

Первое значение не обязательно, начнет с нуля, шаг по-умолчанию равен 1

In [96]:
np.arange(8, dtype='int8')

array([0, 1, 2, 3, 4, 5, 6, 7], dtype=int8)

#### Создание массива из 5 значений, располагающихся между 0 и 1

In [97]:
np.linspace(0, 1, 5)

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

#### Создание пустого массива

В отличии от нулевого массива, пустой массив будет заполнен произвольными значениями, которые уже находятся в памяти

In [98]:
np.empty(5)

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

#### Создание массивов такого же размерка, как другой массив

Для этого используются те же функции с приставкой _like

In [113]:
a

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [115]:
np.zeros_like(a)

array([[0, 0, 0, 0],
       [0, 0, 0, 0]])

In [116]:
np.ones_like(a)

array([[1, 1, 1, 1],
       [1, 1, 1, 1]])

In [114]:
np.full_like(a, 10)

array([[10, 10, 10, 10],
       [10, 10, 10, 10]])

In [117]:
np.empty_like(a)

array([[139688644158744, 139688644158464, 139688644158128,
        139688644157736],
       [139688918787072, 139688249177816, 139688249177592,
        139688249177368]])

### Полезные атрибуты  NumPy массивов <a class="anchor" id="attributes"></a>

In [118]:
a

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

#### Размерность массива

In [119]:
a.ndim

2

#### Размер каждого измерения

In [120]:
a.shape

(2, 4)

#### Общий размер массива

In [121]:
a.size

8

#### Тип данных массива

In [122]:
a.dtype

dtype('int64')

#### Размер массива в байтах

In [123]:
a.nbytes

64

#### Размер каждого элемента массива в байтах

In [124]:
a.itemsize

8