# Data Analysis for Software Engineers

## NumPy Tutorual (Russian Version)

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

%matplotlib inline

plt.style.use('ggplot')
plt.rcParams['figure.figsize'] = (16,8)

## Массивы

### Создание массива

Массив можно создать из списка.

In [None]:
arr = np.array([1,3,4,7,12])
arr

In [None]:
arr = np.array([1,3,4,7,12.0])
arr

In [None]:
arr = np.array([1,3,4,'7',12.0])
arr

Но наиболее распространены создания "с нуля"

In [None]:
arr = np.arange(0, 12, 0.7) # расширение функции range()
arr

In [None]:
arr = np.linspace(0, 12, 20) # равномерно распределенные 20 чисел от 0 до 12
arr

In [None]:
# Массив из "1"
arr = np.ones(7)
print arr
arr = np.ones(7, dtype=int)
print arr

In [None]:
# Массив из "0"
arr = np.zeros(7)

In [None]:
# Массив из чего хотите
arr = np.full(7, np.exp(1), )
arr

### Свойства массива

In [None]:
A = np.array([[3, 1, 4], [1, 5, 9], [2, 6, 5], [4, 1, 1]])

In [None]:
print A.shape
print A.size
print A.ndim

Форму массива (`shape`) можно менять, но так, чтобы это согласовывалось с его размером (`size`) 

In [None]:
A = A.reshape((6,2))
A

In [None]:
A = A.flatten()
A

#!!!
# Это не тоже самое, что A = A.reshape((1, 12))

In [None]:
A = A.reshape((3,-1)) 
A

# -1 как бы означает, "сделай первую размерность равную 3, 
# а все остальное запихни во вторую, если получится

In [None]:
A.T # Транспонирование матрицы

###  Индексация

Довольно стандартная и интуитивно понятная

In [None]:
arr = np.arange(0, 19, 3)
arr

In [None]:
arr[3]

In [None]:
arr[:3]

In [None]:
arr[3:5]

In [None]:
arr[::3] #?!

In [None]:
arr[-2:] #?!

**Задание**<br/>
Догадайтесь, как вывести массив в обратном порядке?

In [None]:
print arr>10
print arr[arr>10]

In [None]:
arr[[1,3,2]]

На многомерные массивы (матрицы) все распространяется точно также.

In [None]:
A = np.random.randint(0, 20, (5,6))
A

In [None]:
# Небольшое дополнение
print A[:, 2]
print A[2, :]

In [None]:
A[A>5]

### Операции и функции на массивах

Тут все тоже довольно просто

In [None]:
arr = np.arange(1,6, dtype=float)
arr

In [None]:
1/arr

In [None]:
arr * 2

In [None]:
arr // 2

In [None]:
bar = np.arange(6,1,-1)
bar

In [None]:
arr + bar

In [None]:
arr * bar

In [None]:
arr ** bar

In [None]:
# Матричное умножение (скалярное произведение)
arr.dot(bar)

В `numpy` реализовано много математических функций

In [None]:
np.log(arr)

In [None]:
np.sqrt(arr)

##  Склейка массивов

In [None]:
a = np.random.randint(0, 10, (2, 5))
b = np.random.randint(0, 10, (2, 5))

print a
print b

In [None]:
A = np.r_[a,b]
A

In [None]:
A = np.concatenate((a,b), axis=0)
A

In [None]:
A = np.c_[a,b]
A

In [None]:
A = np.concatenate((a,b), axis=1)
A

## Аггрегация (3 балла)

Массивы можно аггрегировать - считать среднее значение, медиану, моду, максимум, минимум, сумму и тп

In [None]:
arr = np.random.rand(11)
arr

In [None]:
print np.mean(arr)
print arr.mean()

In [None]:
arr.sum()

In [None]:
print 'максимальное значение %.4f находится на %d позиции' % (arr.max(), arr.argmax())
# аналогично argmax, есть argmin и argsort

In [None]:
np.median(arr)

In [None]:
np.percentile(arr, [15, 85])

Что касается матриц - то в них все примерно тоже самое.

In [None]:
A = np.random.rand(3,5)
A

In [None]:
A.mean()

In [None]:
A.mean(axis=0)

In [None]:
A.mean(axis=1)

**Задание**<br/>
Задайте два случайных массива (вектора) $a$ и $b$ одинаковой длины. 

Вычислите следующие расстояния между массивами:

* Euclidean Distance
$$ d(a, b) = \sqrt{\sum_i (a_i - b_i)^2} $$
* Manhattan Distance
$$ d(a, b) = \sum_i |a_i - b_i| $$
* Cosine Distance
$$ d(a, b) = 1 - \frac{a^\top b}{||a||_2\cdot||b||_2}$$


In [None]:
## Your code here

**Задание**<br/>
Сгенерируйте такой случайный вектор (`np.random.rand()`) длины 10, что сумма его элементов равна 2.

In [None]:
## Your code here

**Задание**<br/>
Сгенерируйте случайный вектор (`np.random.rand()`) длины 100. Выполните такое преобразование массива, что 
* Максимальному элементу(-ам) соответствовало число 1
* Минимальному элементу(-ам) соответствовало число 0
* Остальные элементы находились на интервале 0-1 с сохранением порядка

In [None]:
## Your code here

**Задание**<br/>
Сгенерируйте случайный вектор длины 20 из целых чисел на интервале [0,50]. Оставьте в нем только те элементы что меньше 5 персентиля и больше 95 персентиля

In [None]:
## Your code here

**Задание**<br/>
Сгенерируйте случайную матрицу размера $5 \times 6$ из целых чисел на интервале [0,50]. Выведите столбец с содержащий максимальное значение во всей матрице.

In [None]:
## Your code here

## Пропущенные значения (0.5 баллов)

В `numpy` есть специальные обозначения для бесконечности и пропущенных значений.

В реальном мире приходится работать с очень "грязными" данными и частенько бывает, что какие-то измерения, значения признаков и тп просто отсутствуют. К этому надо быть готовым

In [None]:
np.log(0)

In [None]:
np.log(-1)

In [None]:
np.nan

In [None]:
arr = np.random.rand(10)
idx = np.random.randint(0, 10, 4)
arr[idx] = np.nan
arr

In [None]:
# проверяем, является ли значение пропущенным
is_nan = np.isnan(arr)

In [None]:
# проверяем, есть ли хотя бы одно пропущенное
np.any(is_nan)

In [None]:
# проверяем, есть ли хотя бы одно пропущенное
np.all(is_nan)

Аггрегация массивов с пропущенными значениями может выполняться без учета np.nan

In [None]:
print np.nanmean(arr)
print np.mean(arr)

**Задание**<br/>
Замените все пропущенные значение средним

In [None]:
## Your code here

## Линейная регрессия (Пока бездумно) (2.5 балла)

Загрузите [файл 1](https://www.dropbox.com/s/kg9px9v3xfysak9/tutorial_dataset.csv?dl=0) и [файл 2](https://www.dropbox.com/s/f87gm612o144emx/tutorial_dataset_2.csv?dl=0) в папку с тетрадкой. С помощью функции `loadtxt` в модуле `numpy` загрузите табличные данные одного из файлов. Присвойте y = D[:,0] а X = D[:, 1:].

Сейчас мы воспользуемся одной магической формулой и построим модель линейной регрессии. Откуда эта формула берется мы узнаем на следующих занятиях.

Модель линейной регрессии в матричном виде выглядит так: $\hat{y} = X\hat{\beta}$, где

$$ \hat{\beta} = (X^\top X)^{-1} X^\top y $$
Остатки модели рассчитываются как
$$ \text{res} = y - \hat{y} $$

Итак, еще раз:

**Задание**<br/>
1. Загрузите данные
2. Оцените веса $\beta$ с помощью формулы
3. Постройте график, на котором по оси Y: остатки, а по оси X: $\hat{y}$

In [None]:
# load data
D = np.loadtxt('tutorial_dataset_1.csv', 
               skiprows=1, 
               delimiter=',')