In [23]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# Numpy

## Задача

Сгенерировать вектор из 100 элементов и превратить его в:

- матрицу 10x10
- вектор 1x100
- вектор 100x1

In [24]:
vector = np.arange(100)

matrix10 = vector.reshape(10, 10)
vec1 = vector.reshape(1, 100)
vec2 = vector.reshape(100, 1)

print(matrix10.shape, vec1.shape, vec2.shape)

(10, 10) (1, 100) (100, 1)


## Задача - Решение СЛАУ

$Ax = b$

Функция обратной матрицы - `np.linalg.inv(A)`

Решение СЛАУ выглядит так:

$Ax = b$

$A^{-1}Ax=A^{-1}b$

$x=A^{-1}b$

In [25]:
A = np.array([
    [3, -2],
    [5, 1]]
)
b = np.array([-6, 3])
# Решение - [0, 3]
x = np.linalg.inv(A) @ b
x

array([1.11022302e-16, 3.00000000e+00])

In [26]:
np.linalg.solve(A, b)

array([0., 3.])

## Задача

Сгенерировать случайную матрицу и посчитать сумму положительных элементов в каждой строке, в каждом столбце.

In [27]:
a = np.random.uniform(-1, 1, size=(5, 3))
a[a < 0] = 0

In [28]:
a.sum(axis=0)

array([1.49855244, 1.29184644, 1.32985703])

In [29]:
a.sum(axis=1)

array([0.33571978, 0.39841114, 0.36286511, 0.86060016, 2.1626597 ])

## Задача

Вывести матрицу из нулей и единиц в шахматном порядке

In [30]:
n = 5
m = np.zeros((n, n))

m[::2, ::2] = 1
m[1::2, 1::2] = 1

m

array([[1., 0., 1., 0., 1.],
       [0., 1., 0., 1., 0.],
       [1., 0., 1., 0., 1.],
       [0., 1., 0., 1., 0.],
       [1., 0., 1., 0., 1.]])

# Pandas

## Задача

Посчитать средний рост для высоких людей

In [31]:
# Сгенерируем датафрейм
ages = [25, 35, 45]
heights = [170, 180, 190]
names = ["Alex", "Polina", "Misha"]
data = {'age': ages, 'height': heights, 'name': names}
df = pd.DataFrame(data)
df["height_category"] = df["height"].apply(lambda x: "высокий" if x > 175 else "низкий")
df

Unnamed: 0,age,height,name,height_category
0,25,170,Alex,низкий
1,35,180,Polina,высокий
2,45,190,Misha,высокий


In [32]:
df.loc[df['height_category'] == 'высокий', 'height'].mean()

185.0

## Задача

Вывести среднюю температуру за январь 2010 года

In [33]:
# Прочитаем данные
df = pd.read_csv('../data/weather.csv')
df["Day"] = pd.to_datetime(df["Day"])
df["year"] = df.Day.dt.year
df["month"] = df.Day.dt.month
df["day"] = df.Day.dt.day
df.head()

Unnamed: 0,Day,t,year,month,day
0,2008-01-01,0,2008,1,1
1,2008-01-02,-5,2008,1,2
2,2008-01-03,-11,2008,1,3
3,2008-01-04,-11,2008,1,4
4,2008-01-05,-12,2008,1,5


In [34]:
df.loc[(df['year'] == 2010) & (df['month'] == 1), 't'].mean()

-11.419354838709678

## Задания

Стараемся избегать циклов

### Easy
- Найти насколько отличалась температура в самый жаркий и самый холодный день

In [35]:
abs(df['t'].min() - df['t'].max())

57

### Normal
- Вывести среднюю температуру за каждый год

In [46]:
df.groupby('year').agg({'t' : ['mean', 'max', 'min', 'std', 'median']})

Unnamed: 0_level_0,t,t,t,t,t
Unnamed: 0_level_1,mean,max,min,std,median
year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
2008,8.545205,27,-14,8.221605,9.0
2009,7.610959,26,-13,9.767455,6.0
2010,7.117808,34,-23,12.953206,8.0
2011,8.337912,31,-20,10.839861,8.0
2012,6.980822,31,-19,11.060134,7.0
2013,8.728767,31,-16,10.619822,8.0
2014,8.931507,31,-18,10.485637,8.0
2015,9.079452,27,-11,8.30707,8.0
2016,7.907104,30,-21,10.453923,7.0


- Необходимо узнать насколько медиана отличалась от среднего в каждом месяце. Использовать agg для решения

In [42]:
df.groupby('month').agg({
                          't' : [('value', lambda value: abs(value.mean() - value.median()))]
                        })

Unnamed: 0_level_0,t
Unnamed: 0_level_1,value
month,Unnamed: 1_level_2
1,0.74552
2,1.505882
3,0.240143
4,0.744444
5,0.291367
6,0.325926
7,0.05036
8,0.666667
9,0.425926
10,0.673835


### Hard
- Вывести день, в который максимально изменилась температура

Подсказка: `diff()`

## Решение

С помощью `diff` посчитаем разницу между соседними днями

In [None]:
df['t'].diff()

Видим, что есть отрицательные значения, но нам не важно в какую сторону менялась температура, поэтому берем абсолютное значение.

Также есть `NaN`, но для решения этой задачи это не должно быть проблемой

In [None]:
abs(df['t'].diff())

Сохраним это в новую колонку, чтобы дальше ее использовать

In [None]:
df['diff_t'] = abs(df['t'].diff())

Теперь надо найти максимальное значение и посмотреть в каком дне это было. Максимум можно найти при помощи функции `max`

In [None]:
df['diff_t'].max()

In [None]:
df[df['diff_t'] == 15]

Можно не писать фильтрацию, а просто воспользоваться функцией argmax, которая вернет индекс максимального значения

In [None]:
df['diff_t'].argmax()

Ну и решим задачу окончательно

In [None]:
df.loc[df['diff_t'].argmax()]

Вся задача решается в две строки:

In [None]:
df['diff_t'] = abs(df['t'].diff())
df.loc[df['diff_t'].argmax()]

## Подсказка к hard домашней работе

1. Чтобы решить задачу, вам нужно каким-то образом "распаковать" списки.
2. Загвоздка в том, что списки сейчас это не списки, а строки. Нам нужно как то из строк сделать обратно списки
3. Сделать это можно с помощью методы .split. Как применить какую-то функцию к каждому элементу мы уже проходили (Воспользуйтесь функцией apply(lambda x: x.split(",")) )
4. Не сработало )) Нам мешают знаки "[", "]", "'" . Загуглите как их удалить и повторите третий шаг
5. Если вы все правильно сделали, то в колонке roles у вас будут списки с названием ролей
6. Погуглите функцию explode
7. Далее нужно сгруппировать либо по (Роли, Атрибуту) либо наоборот, в зависимости от задания. Чтобы не ломать мозг с мульти индексом добавьте as_index = False.
8. Гуглим как строить barplot. Я вам посоветую библиотеку seaborn
9. С помощью функции for по уникальным ролям\атрибутам строим необходимое количество графиков
10. Если график слишком маленький гуглим как сделать его больше
11. Если очень хочется решить это задание но не получается, то напишите мне, я вам помогу.
12. Выводы сделайте сами)

