In [115]:
import numpy as np
import pandas as pd
from pandas.testing import assert_frame_equal
data = pd.read_csv('data/titanic_train.csv', index_col='PassengerId')

# SLIDE (1) ПодФрейм Вандермонда.

Для вектора $x=(x_0, \ldots, x_n)$ матрица Вандермона выглядит следующим образом:
$$A = \begin{pmatrix}
1 & x_0 & \cdots & x_0^n \\
1 & x_1 & \cdots & x_1^n \\
\vdots & \ddots & \ddots & \vdots \\
1 & x_n & \cdots &  x_n^n
\end{pmatrix}$$ 

А датафрейм Вандермонда выглядит аналогично:

|       | 0 | 1  |  |n |
|-------|---|----|--|----|
|0      | 1 | $x_0$ | $\ldots$ | $x_0^n$ |
|1      | 1 | $x_1$ | $\ldots$ | $x_1^n$ |
|$\vdots$ | $\vdots$|$\ddots$  | $\ddots$   | $\vdots$ |
|$n$  | 1 |$x_n$|  | $x_n^n$ |


На вход подается вектор вещественных чисел длины $n+1 > 1$ и две пары индексов. Вам нужно вернуть подФрейм Вандермонда , где первая пара индексов - задает срез по строкам, а вторая пара индексов - срез по колонкам. Индексы и колонки - нужно оставить неизменнымы при взятии подФрейма. Все индексы находятся в пределах допустимого - проверять их на корректность не нужно. Результатом не может быть пустой Фрейм, индексы в паре не равны между собой.

Подсказка: не нужно создавать самим матрицу вандермонда, она давно реализована за вас.

### Sample 1
#### Input:
```python
x = np.array([3,1,5,4,2])
indexes = (0,3)
columns = (2,4)
```
#### Output:

|  | 2 | 3  |
|--|---|----|
|0 | 9 | 27 | 
|1 | 1 | 1  | 
|2 | 25 |125|

In [379]:
import numpy as np
import pandas as pd

def subVander(x: np.ndarray, indexes: tuple, columns: tuple) -> pd.DataFrame:
    ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
    pass

In [381]:
def subVander(x: np.ndarray, indexes: tuple, columns: tuple) -> pd.DataFrame:
    df = pd.DataFrame(data = np.vander(x, increasing=True), 
                      index = np.arange(len(x)), 
                      columns = np.arange(len(x)))
    return df.iloc[indexes[0]:indexes[1], columns[0]:columns[1]]

In [382]:
import inspect
lines = inspect.getsource(subVander)
assert ' print(' not in lines
assert ' while ' not in lines 
assert ' map(' not in lines 
assert ' for ' not in lines
assert ' open(' not in lines
######################################################
x = np.array([3,1,5,4,2])
(i,j) = (0,3)
(u,v) = (2,4)
answer = pd.DataFrame(
                      data = np.array([[9, 27],[1, 1], [25, 125]]), 
                      index = np.arange(0, 3), 
                      columns = np.arange(2,4)
)
assert_frame_equal(
    subVander(x, (i,j), (u,v)),
    answer
)
######################################################
x = np.array([3,1,5,4,2])
(i,j) = (0,1)
(u,v) = (0,1)
answer = pd.DataFrame(
                      data = np.array([1]), 
                      index = np.arange(0, 1), 
                      columns = np.arange(0,1)
)
assert_frame_equal(
    subVander(x, (i,j), (u,v)),
    answer
)
######################################################
x = np.array([3.5,1.1,-7.7, 6, 2])
(i,j) = (0,3)
(u,v) = (2,4)
answer = pd.DataFrame(
                      data = np.array([[12.25, 42.875],[1.21, 1.331], [59.29, -456.533]]), 
                      index = np.arange(0, 3), 
                      columns = np.arange(2, 4)
)
assert_frame_equal(
    subVander(x, (i,j), (u,v)),
    answer
)
######################################################

# SLIDE (2) Бухгалтерия зоопарка.

Вам на вход подается словарь, где ключ - это тип животного, а значение - словарь с признаками этого животного, где ключ - тип признака, а значение - значение признака (Типичный json проще говоря). Наименования признаков животного - всегда строки. Значения признаков - любой из 5 типов pandas.

Вам следует создать табличку, где по строчкам будут идти животные, а по колонкам - их признаки, которая удовлетворяет следующим условиям
* Тип животного нужно выделить в отдельную колонку `Type`
* Строки отсортированы по типу животного в алфавитном порядке
* Колонки отсортированы в алфавитном порядке, кроме колонки `Type` - она первая
* Индексы строк - ряд натуральных чисел начиная с 0 без пропусков.

Имейте в виду, что признаки у двух животных могут не совпадать, значит незаполненные данные нужно заполнить Nan значением.

Верните на выходе табличку(`DataFrame`), в которой отсутствуют Nan значения. При этом могут отсутствовать некоторые признаки, но животные должны присутствовать все. Изначальные типы значений из словаря: `int64`, `float64`, `bool` и.т.д. должны сохраниться и в конечной табличке, а не превратиться в `object`-ы. (От удаляемых признаков, этого, очевидно, не требуется).

Подсказка: изучите функцию `pandas.from_dict`

### Sample 1
#### Input:
```python
ZOO = {
        'cat':{'color':'black', 'tail_len': 50, 'injured': False}, 
        'dog':{'age': 6, 'tail_len': 30.5, 'injured': True}
      }
```
#### Output:

|  | Type | injured |tail_len |
|--|----|--------|-------|
|0 | cat |  False | 50.0 |
|1 | dog |  True  | 30.5  |


In [None]:
import numpy as np
import pandas as pd

def ZOOtable(zoo: dict) -> pd.DataFrame:
    ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
    pass

In [75]:
def ZOOtable(zoo: dict) -> pd.DataFrame:
    df = pd.DataFrame.from_dict(zoo, orient='index').dropna(axis=1)
    sort_df = df.reindex(sorted(df.index), axis=0).reindex(sorted(df.columns), axis=1)
    return sort_df.reset_index().rename(columns={'index':'Type'})

In [76]:
import inspect
lines = inspect.getsource(ZOOtable)
assert ' print(' not in lines
assert ' while ' not in lines 
assert ' map(' not in lines 
assert ' for ' not in lines
assert ' open(' not in lines
######################################################
ZOO = {
        'cat': {'color':'black', 'tail_len': 50.0, 'injured': False}, 
        'dog': {'age': 6, 'tail_len': 30.5, 'injured': True}
      }
answer = pd.DataFrame(
    {
     'Type':['cat', 'dog'], 
     'injured':[False, True], 
     'tail_len':[50.0, 30.5]
    }
)
assert_frame_equal(
    ZOOtable(ZOO),
    answer
)
######################################################
ZOO = {
        'cat': {'color':'black'}, 
        'dog': {'age': 6}
      }
answer = pd.DataFrame(
    {
     'Type':['cat', 'dog']
    }
)
assert_frame_equal(
    ZOOtable(ZOO),
    answer
)
######################################################
ZOO = {
        'fish': {'injured': False, 'color':'gold', 'tail_len': 0.5, 'age': 0.5}, 
        'cat':  {'age': 8, 'color':'black', 'tail_len': 50.0, 'injured': False}, 
        'dog':  {'color':'grey', 'age': 6, 'tail_len': 30.5, 'injured': True}
      }
answer = pd.DataFrame(
    {
     'Type':['cat', 'dog','fish'],
     'age':[8.0, 6.0, 0.5],
     'color':['black', 'grey', 'gold'],   
     'injured':[False, True, False], 
     'tail_len':[50.0, 30.5, 0.5]
    }
)
assert_frame_equal(
    ZOOtable(ZOO),
    answer
)
######################################################
ZOO = {
        'cat':  {'age': 8, 'color':'black', 'tail_len': 50.0, 'injured': False}, 
      }
answer = pd.DataFrame(
    {
     'Type':['cat'],
     'age':[8],
     'color':['black'],   
     'injured':[False], 
     'tail_len':[50.0]
    }
)
assert_frame_equal(
    ZOOtable(ZOO),
    answer
)
######################################################

# SLIDE(2) Простые преобразования.

На вход подается `DataFrame` из 3-х колонок дата рождения и смерти человека на **русском** языке в формате представленом ниже:

|  | Имя             | Дата рождения  | Дата смерти     |
|--|-----------------|----------------|-----------------|
|0 |Никола Тесла     |10 июля 1856 г. |7 января 1943 г. |
|1 |Альберт Эйнштейн |14 марта 1879 г.|18 апреля 1955 г.| 

Необходимо вернуть исходную таблицу с добавленным в конце столбцом полных лет жизни.


|  | Имя             | Дата рождения  | Дата смерти     | Полных лет|
|--|-----------------|----------------|-----------------|-----------|
|0 |Никола Тесла     |10 июля 1856 г. |7 января 1943 г. | 86        |
|1 |Альберт Эйнштейн |14 марта 1879 г.|18 апреля 1955 г.| 76        |

Формат неизменен, пробелы мужду элементами дат присутствуют, исключений(Nan) нету.

Подсказка: месяца имеют лишь одну форму склонения в датах.

Подсказка: воспользоваться функцией `apply` или `map`

Подсказка: воспользоваться методом `pd.to_datetime` или модулем `datetime`

Подсказка: чтобы не париться с високосными годами можно воспользоваться модулем `dateutil.relativedelta`

In [346]:
import numpy as np
import pandas as pd

def rus_feature(df: pd.DataFrame) -> pd.DataFrame:
    ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
    pass

In [375]:
from dateutil.relativedelta import relativedelta

def rus_feature(df: pd.DataFrame) -> pd.DataFrame:
    d = {'января':'Jan', 'февраля':'Feb', 'марта':'Mar', 'апреля':'Apr', 'мая':'May', 'июня':'Jun', 
     'июля':'Jul', 'августа':'Aug', 'сентября':'Sep', 'октября': 'Oct', 'ноября':'Nov', 'декабря':'Dec'}

    def f(date):
        s = date.split()
        return pd.to_datetime(s[0] + d[s[1]] + s[2])
    
    df['birth'] = df['Дата рождения'].apply(f)
    df['death'] = df['Дата смерти'].apply(f)
    
    df['Полных лет'] = df.apply(lambda row: relativedelta(row['death'], row['birth']).years, axis=1)
    
    return df.drop(columns=['death', 'birth'])


In [376]:
import inspect
lines = inspect.getsource(rus_feature)
assert ' print(' not in lines
assert ' while ' not in lines 
assert ' map(' not in lines 
assert ' for ' not in lines
assert ' open(' not in lines
######################################################
names = pd.DataFrame({'Имя':['Никола Тесла', 'Альберт Эйнштейн'], 
                   'Дата рождения':['10 июля 1856 г.','14 марта 1879 г.'],
                   'Дата смерти':  ['7 января 1943 г.', '18 апреля 1955 г.']})
answer = pd.DataFrame({'Имя':['Никола Тесла', 'Альберт Эйнштейн'], 
                       'Дата рождения':['10 июля 1856 г.','14 марта 1879 г.'],
                       'Дата смерти':  ['7 января 1943 г.', '18 апреля 1955 г.'],
                       'Полных лет':[86, 76]})
assert_frame_equal(
    rus_feature(names),
    answer
)
######################################################
names = pd.DataFrame({'Имя':['Никола Тесла'], 
                   'Дата рождения':['10 июля 1856 г.'],
                   'Дата смерти':  ['7 января 1857 г.']})
answer = pd.DataFrame({'Имя':['Никола Тесла'], 
                       'Дата рождения':['10 июля 1856 г.'],
                       'Дата смерти':  ['7 января 1857 г.'],
                       'Полных лет':[0]})
assert_frame_equal(
    rus_feature(names),
    answer
)
######################################################
names = pd.DataFrame({'Имя':['Никола Тесла'], 
                   'Дата рождения':['1 января 2000 г.'],
                   'Дата смерти':  ['31 декабря 2000 г.']})
answer = pd.DataFrame({'Имя':['Никола Тесла'], 
                       'Дата рождения':['1 января 2000 г.'],
                       'Дата смерти':  ['31 декабря 2000 г.'],
                       'Полных лет':[0]})
assert_frame_equal(
    rus_feature(names),
    answer
)
######################################################
names = pd.DataFrame({'Имя':['Никола Тесла'], 
                   'Дата рождения':['1 января 2000 г.'],
                   'Дата смерти':  ['1 января 2001 г.']})
answer = pd.DataFrame({'Имя':['Никола Тесла'], 
                       'Дата рождения':['1 января 2000 г.'],
                       'Дата смерти':  ['1 января 2001 г.'],
                       'Полных лет':[1]})
assert_frame_equal(
    rus_feature(names),
    answer
)
######################################################

# SLIDE(1) Характеристики.

Верните среднее, медиану, максимальное и минимальное значение возраста **погибших** мужчин. Именно в данном порядке.

Подсказка: если используете маску - не забудьте поставить выражения в круглые скобки.

### Sample 1
#### Input:
```python
data = pd.read_csv('data/titanic_train.csv', index_col='PassengerId')
```

In [298]:
def men_stat(df: pd.DataFrame) -> (float, float, float, float):
    ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
    pass

In [361]:
def men_stat(df: pd.DataFrame) -> (float, float, float, float):
    mens = data[(data['Sex']=='male') & (data['Survived']==0)]
    return mens['Age'].mean(), mens['Age'].median(), mens['Age'].max(), mens['Age'].min()

In [362]:
import inspect
lines = inspect.getsource(men_stat)
assert ' print(' not in lines
assert ' while ' not in lines 
assert ' map(' not in lines 
assert ' for ' not in lines
assert ' open(' not in lines
######################################################
mean, med, mx, mn = men_stat(data)
assert mean - 31.618 < 1e-3
assert med == 29
assert mx == 74
assert mn == 1

######################################################

# SLIDE (1) Сводная таблица.

Сделать сводную таблицу по **медианному возрасту** для пола и класса. Для примера посмотрите сводную таблицу по сумме выживших, для пола и класса. Индексы вашей сводной таблицы должны идти в том же порядке.
```Python
               Survived
Sex    Pclass          
female 1             91
       2             70
       3             72
male   1             45
       2             17
       3             47
```

Подсказка: медиана не всегда дает целое число.

### Sample 1
#### Input:
```python
data = pd.read_csv('data/titanic_train.csv', index_col='PassengerId')
```

In [366]:
def age_stat(df: pd.DataFrame) -> pd.DataFrame:
    ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
    pass

In [372]:
def age_stat(df: pd.DataFrame) -> pd.DataFrame:
    return df.pivot_table(values = ['Age'], 
                   index = ['Sex', 'Pclass'], 
                   aggfunc= lambda x: x.median())

In [374]:
import inspect
lines = inspect.getsource(age_stat)
assert ' print(' not in lines
assert ' while ' not in lines 
assert ' map(' not in lines 
assert ' for ' not in lines
assert ' open(' not in lines
######################################################
idx = pd.MultiIndex.from_product([['female', 'male'],
                                  np.arange(1,4)],
                                 names=['Sex', 'Pclass'])
col = ['Age']

ans = pd.DataFrame(np.array([35.0, 28.0, 21.5, 40.0, 30.0, 25.0]), idx, col)
ans

assert_frame_equal(
    age_stat(data),
    ans
)
######################################################

# SLIDE (3) Популярные девушки.

Выведите список имен незамужних женщин(`Miss`) отсортированный по популярности. 
* В полном имени девушек **имя** - это **первое слово без скобок** после `Miss`.
* Остальные строки не рассматриваем.
* Девушки с одинаковой популярностью сортируются по имени в алфавитном порядке.

**Слово/имя** - подстрока без пробелов.
**Популярность** - количество таких имен в таблице.

Подсказка: воспользуйтесь методом `pd.Series.str.extract`

Подсказка: не забудьте убрать единственную неподходящую девушку под паттерн: "Meanwell, Miss. (Marion Ogden)"

Подсказка: для удобного `groupby` сделайте столбец с единичками, на который в последствии и будете навешивать `count`.

Подсказка: не нужно изменять имена "Mari" и "Mary" - разные имена

Подсказка: при сложной сортировке можно вывести индекс в колонку и отсортировать данные вместе с новой колонкой.

### Sample 1
#### Input:
```python
data = pd.read_csv('data/titanic_train.csv', index_col='PassengerId')
```
#### Output:
Вот начало данного списка. Заметьте, **названия колонок должны совпадать** 

|  | Name | Popularity |
|--|----|--------|
|0 |Anna |9|
|1 |Mary |9
|2 |Margaret|6
|3 |Elizabeth|5
|4 |Alice |4
|5 |Bertha |4
|6 |Ellen |4
|7 |Helen |4


In [247]:
def fename_stat(df: pd.DataFrame) -> pd.DataFrame:
    ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
    pass

In [244]:
import numpy as np
import pandas as pd

def Afename_stat(df: pd.DataFrame) -> pd.DataFrame:
    miss_names = data[data['Name'].str.contains('Miss.')][['Name']].reset_index(drop=True)
    miss = miss_names['Name'].str.extract(r'Miss. (?P<Name>\w+)(?P<Popularity>\s|$)').dropna().reset_index(drop=True)
    pop_group = miss.groupby(by='Name')['Popularity'].count()
    sort_name = pop_group.reset_index()\
                         .rename({'index':'Name'})\
                         .sort_values(by=['Popularity','Name'], ascending=[False,True])\
                         .reset_index(drop=True)
    return sort_name

In [246]:
import inspect
lines = inspect.getsource(fename_stat)
assert ' print(' not in lines
assert ' while ' not in lines 
assert ' map(' not in lines 
assert ' for ' not in lines
assert ' open(' not in lines
######################################################
assert_frame_equal(
    fename_stat(data),
    Afename_stat(data)
)
######################################################