# ML T-Generation Занятие 2: Data Wrangling Основы работы с векторными данными и визуализацией. NumPy

## Пример задач

Давайте рассмотрим пример решения одной из задач на сайте kaggle и постараемся ее проанализировать.


https://www.kaggle.com/madhulekha/a-comprehensive-solution-to-your-first-ml-problem

Как видите, изучение данных и генерация признаков занимает большую часть решения. Это нормально.

## Numpy

Библиотека предназаченная для работы с массивами. Очевидный вопрос-почему не встроенные массивы python. Давайте сразу на примере посмотрим, почему

In [1]:
import numpy as np

In [2]:
%timeit [i**2 for i in range(1000)]

656 µs ± 147 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [8]:
%timeit np.arange(1000)**2

3.53 ms ± 329 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


Разница существенная

### Справка

В 1995 году программист Jim Hugunin написал библиотеку Numeric для языка Python. Библиотека развивалась при участии многих людей, среди которых были Jim Fulton, David Ascher, Paul DuBois и Konrad Hinsen. Библиотека доступна по сей день, считается вполне стабильной и полной, но устаревшей.

Предлагалось добавить Numeric в стандартную библиотеку языка Python, но Гвидо Ван Россум (автор Python) чётко дал понять, что код в его тогдашнем состоянии было невозможно поддерживать.

Кроме того, библиотека Numeric медленно обрабатывала большие массивы данных.

На основе библиотеки Numeric была создана библиотека NumArray. Код Numeric был полностью переписан.

Библиотека NumArray обрабатывала большие массивы данных быстрее библиотеки Numeric, но малые массивы обрабатывала медленнее.

Некоторое время использовалась и библиотека Numeric, и библиотека NumArray. Последняя версия Numeric (v24.2) была выпущена 11 ноября 2005 года. Последняя версия NumArray (v1.5.2) вышла 24 августа 2006 года. Библиотека NumArray более не рекомендуется к использованию.

В начале 2005 года программист Трэвис Олифант захотел объединить сообщество вокруг одного проекта и для замены библиотек Numeric и NumArray создал библиотеку NumPy. NumPy был создан на основе кода Numeric. Код Numeric был переписан так, чтобы его было легче поддерживать, и в библиотеку можно было добавить новые возможности. Возможности NumArray были добавлены в NumPy.

Изначально NumPy был частью библиотеки SciPy. Чтобы позволить другим проектам использовать библиотеку NumPy, её код был помещён в отдельный пакет.

Исходный код NumPy находится в открытом доступе. Существует большое количество документации. Имеется даже подробный «Путеводитель по NumPy».

NumPy v1.3.0 выпущен 5 апреля 2009 года и поддерживает Python v2.6. Поддержка Python v3 была добавлена начиная с версии 1.5.0.

http://www.numpy.org

### Шпаргалка

В Numpy большой набор стандартных функций, которые помогают реализовывать даже самые сложные операции. Для того что бы не тратить время на написание собственных функций, будет полезно иметь шпаргалку с основными полезными

In [5]:
from IPython.display import Image
Image(url='https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Numpy_Python_Cheat_Sheet.pdf') 

In [7]:
# немного хитростей jupyter - двойным табом, можно вызвать документацию
# np.

In [8]:
a = np.array([1,3,4,5])

смотрим размерность массива

In [9]:
a.ndim

1

In [10]:
# TASK: создать двумерный/трехмерный массив
# Ваш код здесь

In [11]:
# при этом длинна массива будет все равно 2
len(b)

NameError: name 'b' is not defined

### Создание массивов

**На практике мы редко добавляем элементы по одному и нужно создавать матрицу/массив нужной размерности**

- Равномерно распределенные элементы:

In [12]:
a = np.arange(10) # 0 .. n-1  (!)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [13]:
b = np.arange(1, 11, 2) # начало, конец(не включая), шаг
b

array([1, 3, 5, 7, 9])

- по числу элементов:

In [14]:
c = np.linspace(0, 1, 6)   # начало, конец, количество точек
c

array([0. , 0.2, 0.4, 0.6, 0.8, 1. ])

In [15]:
d = np.linspace(0, 1, 5, endpoint=False)
d

array([0. , 0.2, 0.4, 0.6, 0.8])

- Часто встречающиеся массивы:

In [16]:
a = np.ones((3, 3))  
a

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [17]:
b = np.zeros((2, 2))
b

array([[0., 0.],
       [0., 0.]])

In [18]:
c = np.eye(3)
c

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [19]:
d = np.diag(np.array([1, 2, 3, 4]))
d

array([[1, 0, 0, 0],
       [0, 2, 0, 0],
       [0, 0, 3, 0],
       [0, 0, 0, 4]])

* `np.random` генерация случайных чисел:

In [20]:
a = np.random.rand(4)
a  

array([0.06677883, 0.24593587, 0.96730217, 0.92465279])

In [21]:
np.random.seed(42)
b = np.random.randn(10)
b  

array([ 0.49671415, -0.1382643 ,  0.64768854,  1.52302986, -0.23415337,
       -0.23413696,  1.57921282,  0.76743473, -0.46947439,  0.54256004])

### Основные типы данных NumPy

In [22]:
import numpy as np

In [23]:
a = np.array([1, 2, 3])
a.dtype

dtype('int32')

Точка после числа означает, что это тип данных `float64`

In [24]:
b = np.array([1., 2., 3.])
b.dtype

dtype('float64')

In [25]:
c = np.array(["1", 2, 3])
c.dtype

dtype('<U1')

In [31]:
c[1]

'2'

In [32]:
a = np.ones((3, 3))
a.dtype

dtype('float64')

Прочие типы данных:

- Комплексные числа

In [33]:
d = np.array([1+2j, 3+4j, 5+6*1j])
d.dtype

dtype('complex128')

 - Bool

In [34]:
e = np.array(['True', False, False, True])
e.dtype

dtype('<U5')

- Строки

На строки память выделяется "жадно" - по максимальному числу литер в строке. 
В этом примере на каждую строку выделяется по 7 литер, и тип данных - 'U7'

In [35]:
f = np.array([(1,23,4), 'Hello', 'Hallo',])
f.dtype

dtype('O')

### Индексирование массивов и срезы

В целом так же, как со встроенными последовательностями Python (например, как со списками).

**Индексирование**

In [36]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [37]:
a[0], a[2], a[-1]

(0, 2, 9)

Работает и популярный в Python способ отражения массива:

In [38]:
a[::-1]

array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])

Для многомерных массивов индексы - это кортежи целых чисел. Кортеж, по сути - неизменяемый список.

In [39]:
a = np.diag(np.arange(3))
a

array([[0, 0, 0],
       [0, 1, 0],
       [0, 0, 2]])

In [40]:
%timeit a[1, 1]

179 ns ± 9.22 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [41]:
%timeit a[1][1]

329 ns ± 4.07 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [42]:
a[2, 1] = 10 
a

array([[ 0,  0,  0],
       [ 0,  1,  0],
       [ 0, 10,  2]])

In [43]:
a[1]

array([0, 1, 0])

**Срезы**

In [44]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [45]:
a[2:9:3] # [начало:конец:шаг]

array([2, 5, 8])

Последний индекс не включается

In [46]:
a[:4]

array([0, 1, 2, 3])

Можно совмещать присваивание и срез:

In [47]:
a = np.arange(10)
a[5:] = 10
a

array([ 0,  1,  2,  3,  4, 10, 10, 10, 10, 10])

In [48]:
b = np.arange(5)
a[5:] = b[::-1]
a

array([0, 1, 2, 3, 4, 4, 3, 2, 1, 0])

In [49]:
np.random.seed(3)
a = np.random.randint(0, 20, 15)
a

array([10,  3,  8,  0, 19, 10, 11,  9, 10,  6,  0, 12,  7, 14, 17])

In [50]:
(a % 3 == 0)

array([False,  True, False,  True, False, False, False,  True, False,
        True,  True,  True, False, False, False])

In [51]:
mask = (a % 3 == 0)
extract_from_a = a[mask] 
extract_from_a           

array([ 3,  0,  9,  6,  0, 12])

Индексирование маской может быть очень полезным для присваивания значений части элементов массива:

In [52]:
a[a % 3 == 0] = -1
a

array([10, -1,  8, -1, 19, 10, 11, -1, 10, -1, -1, -1,  7, 14, 17])

Индексирование массивом целых чисел

In [53]:
a = np.arange(0, 100, 10)
a

array([ 0, 10, 20, 30, 40, 50, 60, 70, 80, 90])

In [54]:
a[[2, 3, 2, 4, 2]]  # тут должен быть питоновский лист

array([20, 30, 20, 40, 20])

In [55]:
a[[9, 7]] = -100
a

array([   0,   10,   20,   30,   40,   50,   60, -100,   80, -100])

In [56]:
a = np.arange(10)
idx = np.array([[3, 4], [9, 7]])
idx.shape

(2, 2)

In [60]:
a[idx]

array([[3, 4],
       [9, 7]])

### Умножение матриц и столбцов

In [61]:
a = np.array([[1, 0], [0, 1]])
b = np.array([[4, 1], [2, 2]])
r1 = np.dot(a, b)
r2 = a.dot(b)

print("Матрица A:\n", a)
print("Матрица B:\n", b)
print("Результат умножения функцией:\n", r1)
print("Результат умножения методом:\n", r2)

Матрица A:
 [[1 0]
 [0 1]]
Матрица B:
 [[4 1]
 [2 2]]
Результат умножения функцией:
 [[4 1]
 [2 2]]
Результат умножения методом:
 [[4 1]
 [2 2]]


Матрицы в `NumPy` можно умножать и на векторы:

In [62]:
c = np.array([1, 2])
r3 = b.dot(c)

print("Матрица:\n", b)
print("Вектор:\n", c)
print("Результат умножения:\n", r3)

Матрица:
 [[4 1]
 [2 2]]
Вектор:
 [1 2]
Результат умножения:
 [6 6]


__Обратите внимание:__ операция __`*`__ производит над матрицами покоординатное умножение, а не матричное!

In [63]:
r = a * b

print("Матрица A:\n", a)
print("Матрица B:\n", b)
print("Результат покоординатного умножения через операцию *:\n", r)

Матрица A:
 [[1 0]
 [0 1]]
Матрица B:
 [[4 1]
 [2 2]]
Результат покоординатного умножения через операцию *:
 [[4 0]
 [0 2]]


Более подробно о матричном умножении в `NumPy`
см. [документацию](http://docs.scipy.org/doc/numpy-1.10.0/reference/routines.linalg.html#matrix-and-vector-products).

In [64]:
# Задание: написать функции выводящие минимум для массива, коммулятивную сумму и сумму

In [65]:
# Ваш код тут

In [7]:
a = np.array([1,2,4])
a.min(), a.sum(), np.cumsum(a)


array([1, 3, 7], dtype=int32)

# Внимание. Самостоятельная работа

# Задание по numpy

In [67]:
# 0. Создать нулевой вектор с 5 значений на 5 позиции 5 (???????)
# Ваш код здесь

In [47]:
a = np.zeros((5, 5))
a[4, 4] = 5
a

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 5.]])

In [68]:
# 1. Создать матрицу 3*3 со значениями от 0 до 8
# Ваш код здесь

In [10]:
np.arange(9).reshape(3, 3)

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [None]:
# 2. Найти индексы не нулевых элементов в массиве [1,2,0,0,4,0]
# Ваш код здесь

In [45]:
a = np.array([1,2,0,0,4,0])
np.where(a==0)

(array([2, 3, 5], dtype=int64),)

In [41]:
# 3. Матрица 3*3*3 с рандомными значениями
# Ваш код здесь

In [11]:
np.random.randint(0,10, (3, 3, 3))

array([[[5, 1, 5],
        [1, 2, 8],
        [4, 0, 9]],

       [[9, 2, 4],
        [2, 5, 8],
        [5, 2, 1]],

       [[1, 8, 4],
        [0, 8, 0],
        [5, 7, 6]]])

In [None]:
# 4. Матриа 10 на 10, найти минимумы и максимумы
# Ваш код здесь

In [27]:
a = np.random.randint(0,100, (3, 3, 3))
a.min(), a.max()

(5, 94)