# ML T-Generation Занятие 2: Data Wrangling Основы работы с векторными данными и визуализацией. NumPy

## Пример задач

Давайте рассмотрим пример решения одной из задач на сайте kaggle и постараемся ее проанализировать.


https://www.kaggle.com/madhulekha/a-comprehensive-solution-to-your-first-ml-problem

Как видите, изучение данных и генерация признаков занимает большую часть решения. Это нормально.

## Numpy

Библиотека предназаченная для работы с массивами. Очевидный вопрос-почему не встроенные массивы python. Давайте сразу на примере посмотрим, почему

In [None]:
import numpy as np

In [None]:
%timeit [i**2 for i in range(1000)]

In [None]:
%timeit np.arange(1000)**2

Разница существенная

### Справка

В 1995 году программист Jim Hugunin написал библиотеку Numeric для языка Python. Библиотека развивалась при участии многих людей, среди которых были Jim Fulton, David Ascher, Paul DuBois и Konrad Hinsen. Библиотека доступна по сей день, считается вполне стабильной и полной, но устаревшей.

Предлагалось добавить Numeric в стандартную библиотеку языка Python, но Гвидо Ван Россум (автор Python) чётко дал понять, что код в его тогдашнем состоянии было невозможно поддерживать.

Кроме того, библиотека Numeric медленно обрабатывала большие массивы данных.

На основе библиотеки Numeric была создана библиотека NumArray. Код Numeric был полностью переписан.

Библиотека NumArray обрабатывала большие массивы данных быстрее библиотеки Numeric, но малые массивы обрабатывала медленнее.

Некоторое время использовалась и библиотека Numeric, и библиотека NumArray. Последняя версия Numeric (v24.2) была выпущена 11 ноября 2005 года. Последняя версия NumArray (v1.5.2) вышла 24 августа 2006 года. Библиотека NumArray более не рекомендуется к использованию.

В начале 2005 года программист Трэвис Олифант захотел объединить сообщество вокруг одного проекта и для замены библиотек Numeric и NumArray создал библиотеку NumPy. NumPy был создан на основе кода Numeric. Код Numeric был переписан так, чтобы его было легче поддерживать, и в библиотеку можно было добавить новые возможности. Возможности NumArray были добавлены в NumPy.

Изначально NumPy был частью библиотеки SciPy. Чтобы позволить другим проектам использовать библиотеку NumPy, её код был помещён в отдельный пакет.

Исходный код NumPy находится в открытом доступе. Существует большое количество документации. Имеется даже подробный «Путеводитель по NumPy».

NumPy v1.3.0 выпущен 5 апреля 2009 года и поддерживает Python v2.6. Поддержка Python v3 была добавлена начиная с версии 1.5.0.

http://www.numpy.org

### Шпаргалка

В Numpy большой набор стандартных функций, которые помогают реализовывать даже самые сложные операции. Для того что бы не тратить время на написание собственных функций, будет полезно иметь шпаргалку с основными полезными

In [None]:
from IPython.display import Image
Image('numpy.png') 

In [None]:
# немного хитростей jupyter - двойным табом, можно вызвать документацию
# np.

In [None]:
a = np.array([1,3,4,5])
a

смотрим размерность массива

In [None]:
a.ndim

In [None]:
# TASK: создать двумерный/трехмерный массив
# Ваш код здесь

In [None]:
b = np.array([[1,3,4,5],[1,3,4,5]])
b

### Создание массивов

**На практике мы редко добавляем элементы по одному и нужно создавать матрицу/массив нужной размерности**

- Равномерно распределенные элементы:

In [None]:
a = np.arange(10) # 0 .. n-1  (!)
a

In [None]:
b = np.arange(1, 11, 2) # начало, конец(не включая), шаг
b

- по числу элементов:

In [None]:
c = np.linspace(0, 1, 6)   # начало, конец, количество точек
c

In [None]:
d = np.linspace(0, 1, 5, endpoint=False)
d

- Часто встречающиеся массивы:

In [None]:
a = np.ones((3, 3))  
a

In [None]:
b = np.zeros((2, 2))
b

In [None]:
c = np.eye(3)
c

In [None]:
d = np.diag(np.array([1, 2, 3, 4]))
d

* `np.random` генерация случайных чисел:

In [None]:
a = np.random.rand(4)
a  

In [None]:
np.random.seed(42)
b = np.random.randn(10)
b  

### Основные типы данных NumPy

In [None]:
import numpy as np

In [None]:
a = np.array([1, 2, 3])
a.dtype

Точка после числа означает, что это тип данных `float64`

In [None]:
b = np.array([1., 2., 3.])
b.dtype

In [None]:
c = np.array(["1", 2, 3])
c.dtype

In [None]:
c[1]

In [None]:
a = np.ones((3, 3))
a

In [None]:
a

Прочие типы данных:

- Комплексные числа

In [None]:
d = np.array([1+2j, 3+4j, 5+6*1j])
d.dtype

 - Bool

In [None]:
e = np.array([True, False, False, True])
e.dtype

- Строки

На строки память выделяется "жадно" - по максимальному числу литер в строке. 
В этом примере на каждую строку выделяется по 7 литер, и тип данных - 'U7'

In [None]:
f = np.array([(1,23,4), 'Hello', 'Hallo',])
f.dtype

### Индексирование массивов и срезы

В целом так же, как со встроенными последовательностями Python (например, как со списками).

**Индексирование**

In [None]:
a = np.arange(10)
a

In [None]:
a[0], a[2], a[-1]

Работает и популярный в Python способ отражения массива:

In [None]:
a[::-1]

Для многомерных массивов индексы - это кортежи целых чисел. Кортеж, по сути - неизменяемый список.

In [None]:
a = np.diag(np.arange(3))
a

In [None]:
%timeit a[1, 1]

In [None]:
%timeit a[1][1]

In [None]:
a[2, 1] = 10 
a

In [None]:
a[1]

**Срезы**

In [None]:
a = np.arange(10)
a

In [None]:
a[2:9:3] # [начало:конец:шаг]

Последний индекс не включается

In [None]:
a[:4]

Можно совмещать присваивание и срез:

In [None]:
a = np.arange(10)


In [None]:
b = np.arange(5)
b

In [None]:
a

In [None]:
b[::-1]

In [None]:
a[5:]

In [None]:
np.random.seed(3)
a = np.random.randint(0, 20, 15)
a

In [None]:
(a % 3 == 0)

In [None]:
mask = (a % 3 == 0)
extract_from_a = a[mask] 
extract_from_a           

Индексирование маской может быть очень полезным для присваивания значений части элементов массива:

In [None]:
a[a % 3 == 0] = -1
a

Индексирование массивом целых чисел

In [None]:
a = np.arange(0, 100, 10)
a

In [None]:
a[[2, 3, 2, 4, 2]]  # тут должен быть питоновский лист

In [None]:
a[[9, 7]] = -100
a

In [None]:
a = np.arange(10)
idx = np.array([[3, 4], [9, 7]])
idx.shape
idx

In [None]:
a[idx]

### Умножение матриц и столбцов

In [None]:
a = np.array([[1, 0], [0, 1]])
b = np.array([[4, 1], [2, 2]])
r1 = np.dot(a, b)
r2 = a.dot(b)

print("Матрица A:\n", a)
print("Матрица B:\n", b)
print("Результат умножения функцией:\n", r1)
print("Результат умножения методом:\n", r2)

In [None]:
a@b

Матрицы в `NumPy` можно умножать и на векторы:

In [None]:
c = np.array([1, 2])
r3 = b.dot(c)

print("Матрица:\n", b)
print("Вектор:\n", c)
print("Результат умножения:\n", r3)

__Обратите внимание:__ операция __`*`__ производит над матрицами покоординатное умножение, а не матричное!

In [None]:
r = a * b

print("Матрица A:\n", a)
print("Матрица B:\n", b)
print("Результат покоординатного умножения через операцию *:\n", r)
a

Более подробно о матричном умножении в `NumPy`
см. [документацию](http://docs.scipy.org/doc/numpy-1.10.0/reference/routines.linalg.html#matrix-and-vector-products).

In [None]:
# Задание: написать функции выводящие минимум для массива, сумму


In [None]:
a = np.array([1,2,3])
a.min(), a.max()

(1, 3)

# Внимание. Самостоятельная работа

# Задание по numpy

In [None]:
# 0. Создать нулевой вектор с 5 значений на 5 позиции 5
# Ваш код здесь
a = np.zeros(5)
a[4] = 5
a

array([0., 0., 0., 0., 5.])

In [None]:
# 1. Создать матрицу 3*3 со значениями от 0 до 8
# Ваш код здесь
a = np.random.randint(0, 8, (3, 3))
a

array([[3, 3, 3],
       [7, 1, 7],
       [0, 2, 7]])

In [None]:
# 2. Найти индексы не нулевых элементов в массиве [1,2,0,0,4,0]
# Ваш код здесь
a = [1,2,0,0,4,0]
np.argwhere(a)

array([[0],
       [1],
       [4]])

In [None]:
# 3. Матрица 3*3*3 с рандомными значениями
# Ваш код здесь
a = np.random.rand(3, 3, 3)
a

array([[[0.26142451, 0.66126731, 0.90026221],
        [0.40098391, 0.95234326, 0.18939361],
        [0.94852064, 0.09359459, 0.89317939]],

       [[0.00949945, 0.37266201, 0.75729162],
        [0.69542723, 0.80831001, 0.77340662],
        [0.50433048, 0.67308738, 0.31758757]],

       [[0.62728223, 0.26098099, 0.56696727],
        [0.38185452, 0.42541179, 0.93103501],
        [0.09985871, 0.79992142, 0.34381491]]])

In [None]:
# 4. Матриа 10 на 10, найти минимумы и максимумы
# Ваш код здесь
a = np.random.randint(0, 100, (10, 10))
print(a)
a.min(), a.max()

[[97 10 89 19 50 79 83 96 44 68]
 [44 77 33 13 61 17 71 81 10 27]
 [16 22  9 26 61 53 94 87  8 17]
 [89 68 15  2 46 14 28 29 86 72]
 [42 95 67 24 69 86 57 81 87 17]
 [29 62 45  9 30  8 70 82 96 36]
 [85 35 73 18 81 31 88 69 52 67]
 [49 59 27 90 24 23 43 27 33 23]
 [82 82 83 92 41 72 46 83 92 18]
 [ 4 14 67 38 44 67 46 77 29 63]]


(2, 97)