### Знакомство с Numpy и Pandas

Во всех заданиях данного раздела запрещено использовать циклы (ключевые слова *for* и *while*), [list comprehension](https://habrahabr.ru/post/30232/), [map и т.п.](http://pythonicway.com/python-functinal-programming)

Под матрицей в заданиях понимается двумерный [numpy.array](https://docs.scipy.org/doc/numpy/reference/generated/numpy.array.html)

In [1]:
import numpy as np

from numpy.testing import assert_array_equal

import typing as tp
import dataclasses

1. Реализуйте функцию, принимающую на вход матрицу ```X``` и два массива индексов ```row_indices``` и ```col_indices``` одинаковой длины и возвращающую `np.array`, состоящий из последовательности элементов 

```[X[row_indices[0], col_indices[0]], ... , X[row_indices[N-1], col_indices[N-1]]]```

In [None]:
#!source<mlpractice.numpy_pandas.construct_array>

In [None]:
from mlpractice.tests.numpy_pandas.test_construct_array import test_all

test_all(construct_array)

2. Реализуйте функцию, принимающую на вход два одномерных массива ```x``` и ```y``` и возвращающую матрицу, в которой первый массив соответствует первому столбцу матрицы, второй — второму.

В этом задании **запрещается** пользоваться операцией транспонирования и рекомедуется воспользоваться методом [reshape](https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.reshape.html).

In [None]:
#!source<mlpractice.numpy_pandas.construct_matrix>

In [2]:
from mlpractice.tests.numpy_pandas.test_construct_matrix import test_all

test_all(construct_matrix)

3. Реализуйте функцию для подсчёта произведения ненулевых элементов на диагонали прямоугольной матрицы

Например, для ```X = np.array([[1, 0, 1], [2, 0, 2], [3, 0, 3], [4, 4, 4]])``` ответом является 3.
Если ненулевых элементов нет, функция должна возвращать ```None```.

In [None]:
#!source<mlpractice.numpy_pandas.nonzero_product>

In [None]:
from mlpractice.tests.numpy_pandas.test_nonzero_product import test_all

test_all(nonzero_product)

4. Реализуйте функцию, возвращающую максимальный элемент в массиве ```X``` среди элементов, перед которыми стоит нулевой.

Например, для ```X = np.array([6, 2, 0, 3, 0, 0, 5, 7, 0])``` ответом является 5.
Если подходящих элементов нет, функция должна возвращать ```None```.

In [None]:
#!source<mlpractice.numpy_pandas.max_element_spec>

In [None]:
from mlpractice.tests.numpy_pandas.test_max_element_spec import test_all

test_all(max_element_spec)

5. Реализуйте функцию, принимающую на вход матрицу ```matrix``` и некоторое число ```value``` и возвращающую ближайший к числу элемент матрицы.

Например, для ```matrix = np.arange(0,10).reshape((2, 5))``` и ```value = 3.6``` ответом будет 4.

In [None]:
#!source<mlpractice.numpy_pandas.nearest_value>

In [None]:
from mlpractice.tests.numpy_pandas.test_nearest_value import test_all

test_all(nearest_value)

6. Реализуйте функцию, принимающую на вход матрицу `matrix` и возвращающую все её уникальные строки в виде матрицы.

In [None]:
#!source<mlpractice.numpy_pandas.get_unique_rows>

In [None]:
from mlpractice.tests.numpy_pandas.test_get_unique_rows import test_all

test_all(get_unique_rows)

7. Реализуйте функцию, каторая во входной вещественной матрице ```matrix``` находит все значения ```nan``` и заменяет их на среднее арифметическое всех остальных элементов. Если все элементы матрицы ```nan```, то верните нулевую матрицу той же размерности.

Например, матрица ```np.array([[nan,  1,  2,  3], [4, nan,  5, nan]])``` перейдет в ```np.array([[3, 1, 2, 3], [4, 3, 5, 3]])```

In [None]:
#!source<mlpractice.numpy_pandas.replace_nans>

In [None]:
from mlpractice.tests.numpy_pandas.test_replace_nans import test_all

test_all(replace_nans)

8. Написать функцию, которая получает на вход матрицу и масштабирует каждый её столбец, а именно вычитает из столбца его среднее значение и делит столбец на стандартное отклонение. 

Для тестирования можно сгенерировать с помощью метода `numpy.random.randint` случайную матрицу и проверить на ней работу метода. Убедитесь, что в функции не будет происходить деления на ноль. 

In [None]:
#!source<mlpractice.numpy_pandas.scale>

In [None]:
from mlpractice.tests.numpy_pandas.test_scale import test_all

test_all(scale)

9. Реализуйте функцию, которая для заданной матрицы находит:
 - определитель
 - след
 - наименьший и наибольший элементы
 - норму Фробениуса
 - собственные числа
 - обратную матрицу

Для тестирования сгенерируйте матрицу с элементами из нормального распределения *N*(10,1)

In [None]:
#!source<mlpractice.numpy_pandas.lin_alg_function>

In [None]:
from mlpractice.tests.numpy_pandas.test_lin_alg_function import test_all

test_all(lin_alg_function)

10. Повторите 100 раз следующий эксперимент: сгенерируйте две матрицы размера 10×10 из стандартного нормального распределения, перемножьте их (как матрицы) и найдите максимальный элемент. Какое среднее значение по экспериментам у максимальных элементов? 95-процентная квантиль? (в данной задаче можно использовать цикл только для повторения эксперимента) 

In [None]:
# If you want to submit you solutions authorize
USERNAME = ""
PASSWORD = ""

from mlpractice.stats.stats_utils import submit

submit(USERNAME, PASSWORD)

### Pandas (без тестов)

In [None]:
import pandas as pd

Загрузите данные о пассажирах Титаника из файла *titanic.csv* и ответьте на вопросы ниже. Каждый ответ поясните.

1. Опишите данный датасет: какое расределение женщин/мужчин в нем? Сколько пассажиров ехало в каждом классе? Какой средний/минимальный/максимальный возраст пассажиров? Сколько было выживших пассажиров?

2. Верно ли, что женщины выживали чаще мужчин? Какие пассажиры выживали чаще: с более дешевыми или дорогими билетами? Верно ли, что чаще выживали более молодые пассажиры?

3. Сгруппируйте записи по классам пассажиров, в каждой группе посчитайте средний возраст. Верно ли, что во всех классах эта величина примерно одинакова?


4. Найдите все признаки, для которых есть пропуски в данных. Обычно алгоритмы по умолчанию не умеют обрабатывать такие данные. Предложите способы обработки данных с пропусками (не менее двух) и укажите достоинства/недостаки каждого. Проиллюстрируйте один из них на примере данного датасета.