In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# Numpy

## Задача

Сгенерировать вектор из 100 элементов и превратить его в:

- матрицу 10x10
- вектор 1x100
- вектор 100x1

In [2]:
vector = np.arange(100)

matrix10 = vector.reshape(10, 10)
vec1 = vector.reshape(1, 100)
vec2 = vector.reshape(100, 1)

print(matrix10.shape, vec1.shape, vec2.shape)

(10, 10) (1, 100) (100, 1)


## Задача - Решение СЛАУ

$Ax = b$

Функция обратной матрицы - `np.linalg.inv(A)`

Решение СЛАУ выглядит так:

$Ax = b$

$A^{-1}Ax=A^{-1}b$

$x=A^{-1}b$

In [3]:
A = np.array([
    [3, -2],
    [5, 1]]
)
b = np.array([-6, 3])
# Решение - [0, 3]
x = np.linalg.inv(A) @ b
x

array([0., 3.])

In [4]:
np.linalg.solve(A, b)

array([0., 3.])

## Задача

Сгенерировать случайную матрицу и посчитать сумму положительных элементов в каждой строке, в каждом столбце.

In [5]:
a = np.random.uniform(-1, 1, size=(5, 3))
a[a < 0] = 0

In [6]:
a.sum(axis=0)

array([1.50477197, 0.32761242, 1.70407134])

In [7]:
a.sum(axis=1)

array([0.74895719, 0.        , 1.93114425, 0.        , 0.85635428])

## Задача

Вывести матрицу из нулей и единиц в шахматном порядке

In [8]:
n = 5
m = np.zeros((n, n))

m[::2, ::2] = 1
m[1::2, 1::2] = 1

m

array([[1., 0., 1., 0., 1.],
       [0., 1., 0., 1., 0.],
       [1., 0., 1., 0., 1.],
       [0., 1., 0., 1., 0.],
       [1., 0., 1., 0., 1.]])

# Pandas

## Задача

Посчитать средний рост для высоких людей

In [9]:
# Сгенерируем датафрейм
ages = [25, 35, 45]
heights = [170, 180, 190]
names = ["Alex", "Polina", "Misha"]
data = {'age': ages, 'height': heights, 'name': names}
df = pd.DataFrame(data)
df["height_category"] = df["height"].apply(lambda x: "высокий" if x > 175 else "низкий")
df

Unnamed: 0,age,height,name,height_category
0,25,170,Alex,низкий
1,35,180,Polina,высокий
2,45,190,Misha,высокий


In [10]:
df.loc[df['height_category'] == 'высокий', 'height'].mean()

185.0

## Задача

Вывести среднюю температуру за январь 2010 года

In [11]:
# Прочитаем данные
df = pd.read_csv('../data/weather.csv')
df["Day"] = pd.to_datetime(df["Day"])
df["year"] = df.Day.dt.year
df["month"] = df.Day.dt.month
df["day"] = df.Day.dt.day
df.head()

Unnamed: 0,Day,t,year,month,day
0,2008-01-01,0,2008,1,1
1,2008-01-02,-5,2008,1,2
2,2008-01-03,-11,2008,1,3
3,2008-01-04,-11,2008,1,4
4,2008-01-05,-12,2008,1,5


In [12]:
df.loc[(df['year'] == 2010) & (df['month'] == 1), 't'].mean()

-11.419354838709678

## Задания

- Найти насколько отличалась температура в самый жаркий и самый холодный день

In [13]:
abs(df['t'].min() - df['t'].max())

57


- Вывести среднюю температуру за каждый год

In [14]:
df.groupby('year').agg({'t' : ['mean', 'max', 'min', 'std', 'median']})

Unnamed: 0_level_0,t,t,t,t,t
Unnamed: 0_level_1,mean,max,min,std,median
year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
2008,8.545205,27,-14,8.221605,9.0
2009,7.610959,26,-13,9.767455,6.0
2010,7.117808,34,-23,12.953206,8.0
2011,8.337912,31,-20,10.839861,8.0
2012,6.980822,31,-19,11.060134,7.0
2013,8.728767,31,-16,10.619822,8.0
2014,8.931507,31,-18,10.485637,8.0
2015,9.079452,27,-11,8.30707,8.0
2016,7.907104,30,-21,10.453923,7.0


- Необходимо узнать насколько медиана отличалась от среднего в каждом месяце. Использовать agg для решения

In [15]:
df.groupby('month').agg({
                          't' : [('value', lambda value: abs(value.mean() - value.median()))]
                        })

Unnamed: 0_level_0,t
Unnamed: 0_level_1,value
month,Unnamed: 1_level_2
1,0.74552
2,1.505882
3,0.240143
4,0.744444
5,0.291367
6,0.325926
7,0.05036
8,0.666667
9,0.425926
10,0.673835


- Вывести день, в который максимально изменилась температура

Подсказка: `diff()`

## Решение

С помощью `diff` посчитаем разницу между соседними днями

In [16]:
df['t'].diff()

0       NaN
1      -5.0
2      -6.0
3       0.0
4      -1.0
       ... 
3280   -4.0
3281   -4.0
3282    3.0
3283    3.0
3284    1.0
Name: t, Length: 3285, dtype: float64

Видим, что есть отрицательные значения, но нам не важно в какую сторону менялась температура, поэтому берем абсолютное значение.

Также есть `NaN`, но для решения этой задачи это не должно быть проблемой

In [17]:
abs(df['t'].diff())

0       NaN
1       5.0
2       6.0
3       0.0
4       1.0
       ... 
3280    4.0
3281    4.0
3282    3.0
3283    3.0
3284    1.0
Name: t, Length: 3285, dtype: float64

Сохраним это в новую колонку, чтобы дальше ее использовать

In [18]:
df['diff_t'] = abs(df['t'].diff())

Теперь надо найти максимальное значение и посмотреть в каком дне это было. Максимум можно найти при помощи функции `max`

In [19]:
df['diff_t'].max()

15.0

In [20]:
df[df['diff_t'] == 15]

Unnamed: 0,Day,t,year,month,day,diff_t
2335,2014-05-27,7,2014,5,27,15.0


Можно не писать фильтрацию, а просто воспользоваться функцией argmax, которая вернет индекс максимального значения

In [21]:
df['diff_t'].argmax()

2335

Ну и решим задачу окончательно

In [22]:
df.loc[df['diff_t'].argmax()]

Day       2014-05-27 00:00:00
t                           7
year                     2014
month                       5
day                        27
diff_t                   15.0
Name: 2335, dtype: object

Вся задача решается в две строки:

In [23]:
df['diff_t'] = abs(df['t'].diff())
df.loc[df['diff_t'].argmax()]

Day       2014-05-27 00:00:00
t                           7
year                     2014
month                       5
day                        27
diff_t                   15.0
Name: 2335, dtype: object