# Numpy

numpy позволяет оперировать матрицами и векторами

## Установка

В нужном окружении запустить

```
conda install numpy
```

Импортируем библиотеку

In [1]:
import numpy as np

Создаем массив из обычного списка python

In [2]:
test_list = [1, 2, 3]
array = np.array(test_list)
print(array, array.shape, len(array))

[1 2 3] (3,) 3


Генерируем разные массивы

In [3]:
np.arange(5)

array([0, 1, 2, 3, 4])

In [4]:
np.linspace(0, 10, 21)

array([ 0. ,  0.5,  1. ,  1.5,  2. ,  2.5,  3. ,  3.5,  4. ,  4.5,  5. ,
        5.5,  6. ,  6.5,  7. ,  7.5,  8. ,  8.5,  9. ,  9.5, 10. ])

Создаем матрицу из списка массива

In [5]:
matrix = [[1, 2, 3], [4, 5, 6]]
np_matrix = np.array(matrix)
print(np_matrix)
print(np_matrix.shape)

[[1 2 3]
 [4 5 6]]
(2, 3)


Пример работы reshape

In [6]:
np_matrix.reshape(3, 2)

array([[1, 2],
       [3, 4],
       [5, 6]])

In [7]:
np_matrix.reshape(-1, 1)

array([[1],
       [2],
       [3],
       [4],
       [5],
       [6]])

In [8]:
np_matrix.reshape(-1)

array([1, 2, 3, 4, 5, 6])

## Задача

Сгенерировать вектор из 100 элементов и превратить его в:

- матрицу 10x10
- вектор 1x100
- вектор 100x1

In [9]:
vec = np.random.randint(10, size=(100, ))
vec, vec.shape

(array([2, 3, 5, 6, 8, 1, 8, 9, 1, 4, 6, 6, 4, 8, 1, 0, 8, 2, 4, 7, 4, 3,
        3, 7, 6, 3, 3, 0, 5, 7, 4, 5, 2, 8, 7, 3, 8, 0, 9, 7, 5, 0, 2, 2,
        6, 6, 7, 7, 5, 7, 8, 0, 8, 0, 8, 2, 8, 9, 3, 8, 9, 0, 5, 1, 5, 5,
        2, 4, 9, 8, 3, 9, 7, 8, 7, 4, 1, 0, 1, 8, 3, 0, 8, 0, 4, 6, 7, 2,
        8, 4, 3, 5, 7, 3, 8, 5, 1, 8, 3, 3]),
 (100,))

In [10]:
matrix = vec.reshape((10, -1))
matrix

array([[2, 3, 5, 6, 8, 1, 8, 9, 1, 4],
       [6, 6, 4, 8, 1, 0, 8, 2, 4, 7],
       [4, 3, 3, 7, 6, 3, 3, 0, 5, 7],
       [4, 5, 2, 8, 7, 3, 8, 0, 9, 7],
       [5, 0, 2, 2, 6, 6, 7, 7, 5, 7],
       [8, 0, 8, 0, 8, 2, 8, 9, 3, 8],
       [9, 0, 5, 1, 5, 5, 2, 4, 9, 8],
       [3, 9, 7, 8, 7, 4, 1, 0, 1, 8],
       [3, 0, 8, 0, 4, 6, 7, 2, 8, 4],
       [3, 5, 7, 3, 8, 5, 1, 8, 3, 3]])

In [11]:
vec2 = vec.reshape(1, -1)
vec3 = vec.reshape(-1, 1)
vec2.shape, vec3.shape

((1, 100), (100, 1))

## Базовые операции

При помощи numpy можно легко делать любые простейшие операции над векторами и матрицами

In [12]:
a = np.array([20, 30, 40, 50])
b = np.arange(4)
b

array([0, 1, 2, 3])

In [13]:
a + b

array([20, 31, 42, 53])

In [14]:
b ** 2

array([0, 1, 4, 9])

In [15]:
b < 2

array([ True,  True, False, False])

Выбираем все элементы меньше двух

In [16]:
b[b < 2]

array([0, 1])

In [17]:
A = np.array([[1, 1], [0, 1]])
B = np.array([[2, 0], [3, 4]])

Поэлементное произведение

In [18]:
A * B

array([[2, 0],
       [0, 4]])

Произведение матриц

In [19]:
A @ B

array([[5, 4],
       [3, 4]])

In [20]:
A.dot(B) # то же самое

array([[5, 4],
       [3, 4]])

Транспонирование

In [21]:
B

array([[2, 0],
       [3, 4]])

In [22]:
B.T

array([[2, 3],
       [0, 4]])

## Задача - Решение СЛАУ

$Ax = b$

Функция обратной матрицы - `np.linalg.inv(A)`

In [23]:
A = np.array([
    [3, -2],
    [5, 1]]
)
b = np.array([-6, 3])
# Решение - [0, 3]

In [24]:
A_inv = np.linalg.inv(A)
print(A_inv.shape, b.shape)

(2, 2) (2,)


In [25]:
x = A_inv @ b

Проверить себя можно при помощи `np.linalg.solve(A, b)` - функция решения СЛАУ

In [26]:
assert (x == np.linalg.solve(A, b)).all()

Создание случайного массива

In [27]:
rand_arr = np.random.uniform(-1, 1, size=(2, 5))
rand_arr

array([[ 0.96440288, -0.10937651, -0.25091583, -0.57441725,  0.43995751],
       [ 0.08270647, -0.71917196,  0.52855556, -0.80093775, -0.46962864]])

In [28]:
rand_arr[rand_arr > 0]

array([0.96440288, 0.43995751, 0.08270647, 0.52855556])

Считаем сумму по строкам/столбцам

In [29]:
rand_arr.sum(axis=0)

array([ 1.04710935, -0.82854847,  0.27763973, -1.375355  , -0.02967113])

In [30]:
rand_arr.sum(axis=1)

array([ 0.46965079, -1.37847631])

Находим минимум максимум во всем массиве и по строкам/столбцам

In [31]:
rand_arr.max(), rand_arr.min()

(0.9644028766603399, -0.8009377464059975)

In [32]:
rand_arr.max(axis=0)

array([ 0.96440288, -0.10937651,  0.52855556, -0.57441725,  0.43995751])

Также можно применять любые математические операции к массиву

In [33]:
np.sqrt(abs(rand_arr))

array([[0.98204016, 0.33072119, 0.50091499, 0.7579032 , 0.66329293],
       [0.28758733, 0.84804007, 0.72701827, 0.89495125, 0.68529456]])

In [34]:
np.exp(rand_arr)

array([[2.6232208 , 0.89639286, 0.77808786, 0.56303288, 1.55264124],
       [1.08622293, 0.48715547, 1.69648007, 0.4489078 , 0.62523441]])

In [35]:
np.log(abs(rand_arr))

array([[-0.03624615, -2.21295916, -1.38263773, -0.55439922, -0.82107713],
       [-2.49245739, -0.32965478, -0.63760736, -0.22197205, -0.75581303]])

## Задача

Сгенерировать случайную матрицу и посчитать сумму положительных элементов в каждой строке, в каждом столбце.

In [36]:
matrix = np.random.uniform(0, 1, size=(5, 5))
matrix

array([[0.55741817, 0.06617665, 0.0389457 , 0.95277914, 0.05809017],
       [0.69654295, 0.71910001, 0.07162753, 0.32161318, 0.18833721],
       [0.24554817, 0.08338096, 0.33605739, 0.24204319, 0.11733954],
       [0.51518065, 0.16705551, 0.27819161, 0.14966856, 0.35399732],
       [0.62622803, 0.35288172, 0.78584046, 0.40388848, 0.62784511]])

In [37]:
non_neg = np.maximum(matrix, 0)
print(f"сумма по строкам: {np.sum(non_neg, axis=0)},\n по столбцам: {np.sum(non_neg, axis=1)}")

сумма по строкам: [2.64091796 1.38859486 1.51066269 2.06999255 1.34560935],
 по столбцам: [1.67340983 1.99722088 1.02436925 1.46409365 2.7966838 ]


## Индексация

Индексация по массивам numpy похожа на индексацию по спискам python, но шире и гибче

Общий синтаксис:

`a[start:stop:step]`

Аргументы можно пропускать, тогда будут взятые аргументы по-умолчанию. Например:

`a[:] == a[0:len(a):1]`

In [38]:
a = np.arange(10)

Выбираем один элемент

In [39]:
a[2]

2

Берем подмассив

In [40]:
a[2:5]

array([2, 3, 4])

Подмассив с заданным шагом

In [41]:
a[:6:2]

array([0, 2, 4])

In [42]:
a[:6:2] = 1000
a

array([1000,    1, 1000,    3, 1000,    5,    6,    7,    8,    9])

In [43]:
a[::-1]

array([   9,    8,    7,    6,    5, 1000,    3, 1000,    1, 1000])

Возьмем матрицу из случайных целых чисел

In [44]:
arr = np.random.randint(1, 5, size=(3, 5))
arr

array([[2, 4, 1, 3, 4],
       [1, 3, 1, 3, 3],
       [4, 1, 4, 2, 2]])

In [45]:
arr[2]

array([4, 1, 4, 2, 2])

По матрицам можно индексироваться отдельно по каждой оси через запятую

Сначала указываем индекс для строк, потом для колонок

In [46]:
a = [1, 2, 3]

a = map(lambda x: x + 2, a)
list(a)

[3, 4, 5]

In [47]:
arr[1:, :2]

array([[1, 3],
       [4, 1]])

In [48]:
arr[::-1, ::2] = 0
arr

array([[0, 4, 0, 3, 0],
       [0, 3, 0, 3, 0],
       [0, 1, 0, 2, 0]])

In [49]:
arr[-1]

array([0, 1, 0, 2, 0])

In [50]:
arr[:, :]

array([[0, 4, 0, 3, 0],
       [0, 3, 0, 3, 0],
       [0, 1, 0, 2, 0]])

Генерируем матрицы

In [51]:
np.ones((3, 3))

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [52]:
np.zeros((3, 3))

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [53]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

## Задача

Вывести матрицу из нулей и единиц в шахматном порядке

In [54]:
def chess_order(n: int):
    res = np.zeros(shape=(n, n))
    res[1::2, ::2] = 1
    res[::2, 1::2] = 1
    return res

In [55]:
chess_order(5)

array([[0., 1., 0., 1., 0.],
       [1., 0., 1., 0., 1.],
       [0., 1., 0., 1., 0.],
       [1., 0., 1., 0., 1.],
       [0., 1., 0., 1., 0.]])

## Расширяем массивы

In [56]:
a = np.arange(10)
b = a + 1

In [57]:
a.shape, b.shape

((10,), (10,))

Соединям по горизонтали

In [58]:
np.hstack((a, b)).shape

(20,)

Соединяем по вертикали

In [59]:
np.vstack((a, b)).shape

(2, 10)

In [60]:
np.hstack((a, [1]))

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 1])

Расширение массива в numpy происходит путем создания нового массива.

Поэтому если требуется сгенерировать массив, то лучше сделать это через список, а дальше сделать из него массив numpy

In [61]:
%%timeit

a = np.arange(10)
for i in range(1000):
    a = np.hstack((a, 1))
a.shape

4.75 ms ± 574 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [62]:
%%timeit

a = list(range(10))
for i in range(1000):
    a.append(i)
np.array(a).shape

116 µs ± 38.6 µs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


## Сравниваем скорость list и np.array

In [63]:
%%timeit

[i * i for i in range(100000)]

5.74 ms ± 353 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [64]:
%%timeit

a = np.arange(100000)
a * a

175 µs ± 13.5 µs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


# Pandas

 Позволяет работать с данными - читать, преобразовывать и сохранять

 ## Установка

 ```
 conda install pandas
 ```

In [65]:
import pandas as pd

## Series

Series - столбец в таблице.

Он состоит из индекса ("имена" строк) и значений. По-умолчанию индекс - уникальные числа от 0 до длины списка.

Создавать series можно из списка или массива numpy. 

In [66]:
series = pd.Series([1, 2, 3])
series

0    1
1    2
2    3
dtype: int64

In [67]:
series.index

RangeIndex(start=0, stop=3, step=1)

In [68]:
series.values

array([1, 2, 3], dtype=int64)

Индекс может быть строкой

In [69]:
legs_counter = pd.Series([4, 4, 8], index=["cat", "dog", "spider"])
legs_counter

cat       4
dog       4
spider    8
dtype: int64

По series можно индексирования при помощи `loc` и `iloc`

- `loc` - если хотим взять по индексу
- `iloc` - если хотим взять по порядковому номеру

In [70]:
legs_counter.iloc[2]

8

In [71]:
legs_counter.loc["dog"]

4

In [72]:
legs_counter.unique()

array([4, 8], dtype=int64)

## DataFrame

DataFrame - набор Series, то есть таблица.

Индекс для датафрейма - названия строк

Колонки - названия столбцов (series)

In [73]:
ages = [25, 35, 45]
heights = [170, 180, 190]
names = ["Alex", "Polina", "Misha"]
data = {'age': ages, 'height': heights, 'name': names}
df = pd.DataFrame(data)
df

Unnamed: 0,age,height,name
0,25,170,Alex
1,35,180,Polina
2,45,190,Misha


In [74]:
df['age']  # Получился Series

0    25
1    35
2    45
Name: age, dtype: int64

In [75]:
df[['age', 'height']] # Получился DataFrame

Unnamed: 0,age,height
0,25,170
1,35,180
2,45,190


In [76]:
df[['age']] # Получился DataFrame

Unnamed: 0,age
0,25
1,35
2,45


Можно добавить новую колонку

In [77]:
df['height/age'] = df['height'] / df['age']
df

Unnamed: 0,age,height,name,height/age
0,25,170,Alex,6.8
1,35,180,Polina,5.142857
2,45,190,Misha,4.222222


In [78]:
df["age"].sum()
df["age"].min()
df["age"].max()
df["age"].mean()

35.0

Можно взять содержимое датафрейма как набор numpy-массивов

In [79]:
df.values

array([[25, 170, 'Alex', 6.8],
       [35, 180, 'Polina', 5.142857142857143],
       [45, 190, 'Misha', 4.222222222222222]], dtype=object)

Можно фильтровать датафреймы

In [80]:
df[df['age'] == 25]

Unnamed: 0,age,height,name,height/age
0,25,170,Alex,6.8


In [81]:
df[(df['age'] > 35) & (df['height'] > 170)]

Unnamed: 0,age,height,name,height/age
2,45,190,Misha,4.222222


Если нужно поменять какое-то значение, можно использовать [.loc](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy)

In [82]:
df.loc[df['age'] == 25, 'age'] = 20

In [83]:
df[df['height/age'] > 5]

Unnamed: 0,age,height,name,height/age
0,20,170,Alex,6.8
1,35,180,Polina,5.142857


Создадим категорию "высокий", если человек выше 175, а иначе "низкий"

In [84]:
df["height_category"] = df["height"].apply(lambda x: "высокий" if x > 175 else "низкий")
df

Unnamed: 0,age,height,name,height/age,height_category
0,20,170,Alex,6.8,низкий
1,35,180,Polina,5.142857,высокий
2,45,190,Misha,4.222222,высокий


In [85]:
df[(df['height_category'] == "высокий") & (df['age'] > 40)]

Unnamed: 0,age,height,name,height/age,height_category
2,45,190,Misha,4.222222,высокий


## Задача

Посчитать средний рост для высоких людей

In [86]:
mean_height = df.height.mean()
mean_height, df[df['height'] > mean_height].height.mean()

(180.0, 190.0)

## Пропуски в данных

Часто в реальных данных есть пропуски. Их надо либо убирать, либо заполнять

In [87]:
values = [[None, 1, 2], [None, 2, 3], [None, None, 4]]
df = pd.DataFrame(values, columns=["a", "b", "c"])
df

Unnamed: 0,a,b,c
0,,1.0,2
1,,2.0,3
2,,,4


За удаление отвечает функция `dropna()`

У dropna есть два важных аргумента:

- axis (по-умолчанию 0) - по строкам или по колонкам будем искать наны
- how (по-умолчанию 'any') - бывает any и all, ниже пример использования

Удаляем столбец `a`, потому что в нем все (all) значения None

Сохраним датафрейм, он понадобится ниже

In [88]:
dropped_a = df.dropna(axis=1, how='all')
dropped_a

Unnamed: 0,b,c
0,1.0,2
1,2.0,3
2,,4


Удаляем столбцы `a` и `b`, потому что в них есть None (any)

In [89]:
df.dropna(axis=1, how='any')

Unnamed: 0,c
0,2
1,3
2,4


Возьмем датафрейм выше. Удалим из него последнюю строку, так как в ней есть None

In [90]:
dropped_a.dropna(axis=0, how='any')

Unnamed: 0,b,c
0,1.0,2
1,2.0,3


Заполним пустые значения 0

In [91]:
df.fillna(0)

  df.fillna(0)


Unnamed: 0,a,b,c
0,0,1.0,2
1,0,2.0,3
2,0,0.0,4


Заполним последним известным значением

In [92]:
df.fillna(method="ffill")

  df.fillna(method="ffill")


Unnamed: 0,a,b,c
0,,1.0,2
1,,2.0,3
2,,2.0,4


Заполним средним между соседними известными значениями

In [93]:
df.interpolate()

  df.interpolate()


Unnamed: 0,a,b,c
0,,1.0,2
1,,2.0,3
2,,2.0,4


## Работаем с данными

Мы можем прочитать таблицу из разных форматов: Excel, CSV, TSV, HDF и т.д.

Начнем с самого простого формата - CSV. Можно открыть в блокноте файл `data/weather.csv` и посмотреть как он выглядит.

Чтобы загрузить файл в DataFrame, воспользуемся методом `pd.read_csv()`

In [94]:
df = pd.read_csv('../data/weather.csv')
df.head()

Unnamed: 0,Day,t
0,2008-01-01,0
1,2008-01-02,-5
2,2008-01-03,-11
3,2008-01-04,-11
4,2008-01-05,-12


In [95]:
df.describe()

Unnamed: 0,t
count,3285.0
mean,8.137595
std,10.403138
min,-23.0
25%,1.0
50%,8.0
75%,17.0
max,34.0


In [96]:
df["Day"] = pd.to_datetime(df["Day"])
df["year"] = df.Day.dt.year
df["month"] = df.Day.dt.month
df["day"] = df.Day.dt.day
df.head()

Unnamed: 0,Day,t,year,month,day
0,2008-01-01,0,2008,1,1
1,2008-01-02,-5,2008,1,2
2,2008-01-03,-11,2008,1,3
3,2008-01-04,-11,2008,1,4
4,2008-01-05,-12,2008,1,5


## Задача

Вывести среднюю температуру за январь 2010 года

In [97]:
df.loc[(df['year'] == 2010) & (df['month'] == 1), 't'].mean()

-11.419354838709678

## Группировка и агрегация данных

Иногда нужно объединять строки, в которых есть какие-то одинаковые значения.

Например, мы хотим посчитать среднюю температуру для каждого месяца. Это значит, что нам нужны строки, в которых совпадают year и month

In [98]:
for name, group in df.groupby(["year", "month"]):
    print(name)
    print(group.head(2))
    break

(2008, 1)
         Day  t  year  month  day
0 2008-01-01  0  2008      1    1
1 2008-01-02 -5  2008      1    2


In [99]:
df.groupby(["year", "month"]).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Day,t,day
year,month,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2008,1,2008-01-16 00:00:00,-1.612903,16.000000
2008,2,2008-02-15 00:00:00,0.034483,15.000000
2008,3,2008-03-16 00:00:00,1.516129,16.000000
2008,4,2008-04-15 12:00:00,9.566667,15.500000
2008,5,2008-05-16 08:00:00,14.133333,16.333333
...,...,...,...,...
2016,8,2016-08-16 00:00:00,19.161290,16.000000
2016,9,2016-09-15 12:00:00,14.366667,15.500000
2016,10,2016-10-16 00:00:00,5.870968,16.000000
2016,11,2016-11-15 12:00:00,-1.433333,15.500000


Вопрос - почему среднее по дням разное?

Иногда мы хотим применить какую-то функцию, которой нет в стандартном pandas или хотим применить много разных функций к определенным строкам. Для этого существует метод agg (сокращение от Aggregate)

In [100]:
df.groupby(["month"])['t'].agg(['mean', 'max', 'std']) # Применяем много функций ко всем столбцам

Unnamed: 0_level_0,mean,max,std
month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,-5.74552,5,6.316853
2,-3.505882,6,5.953805
3,0.759857,13,4.252342
4,7.744444,21,4.167214
5,15.291367,30,5.149533
6,18.325926,31,4.513227
7,21.94964,33,4.418249
8,19.666667,34,4.102114
9,14.574074,24,3.318316
10,7.326165,16,3.501962


In [101]:
# применяем много функций к определенным столбцам
df.groupby(["month"]).agg({'t': ['count', 'mean', 'max', 'min'], 'day': ['mean']}) 

Unnamed: 0_level_0,t,t,t,t,day
Unnamed: 0_level_1,count,mean,max,min,mean
month,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
1,279,-5.74552,5,-21,16.0
2,255,-3.505882,6,-23,14.670588
3,279,0.759857,13,-11,16.0
4,270,7.744444,21,-1,15.5
5,278,15.291367,30,3,16.035971
6,270,18.325926,31,9,15.5
7,278,21.94964,33,12,15.946043
8,279,19.666667,34,10,16.0
9,270,14.574074,24,5,15.5
10,279,7.326165,16,-2,16.0


In [102]:
df.groupby(["month"]).agg(
    {'t': [
        ('one',  np.mean), 
        ('two', lambda value: 100 * ((value > 32).sum() / value.std())), 
        ('three', lambda value: 100* ((value > 45).sum() / value.mean()))
    ]}
)

  df.groupby(["month"]).agg(


Unnamed: 0_level_0,t,t,t
Unnamed: 0_level_1,one,two,three
month,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
1,-5.74552,0.0,-0.0
2,-3.505882,0.0,-0.0
3,0.759857,0.0,0.0
4,7.744444,0.0,0.0
5,15.291367,0.0,0.0
6,18.325926,0.0,0.0
7,21.94964,22.633403,0.0
8,19.666667,24.377675,0.0
9,14.574074,0.0,0.0
10,7.326165,0.0,0.0


## Функция map

In [103]:
month_number_to_name = {
    1: "Январь",
    2: "Февраль",
    3: "Март",
    4: "Апрель",
    5: "Май",
    6: "Июнь",
    7: "Июль",
    8: "Август",
    9: "Сентябрь",
    10: "Октябрь",
    11: "Ноябрь",
    12: "Декабрь"
}

In [104]:
df["month_name"] = df["month"].map(month_number_to_name)
df.head()

Unnamed: 0,Day,t,year,month,day,month_name
0,2008-01-01,0,2008,1,1,Январь
1,2008-01-02,-5,2008,1,2,Январь
2,2008-01-03,-11,2008,1,3,Январь
3,2008-01-04,-11,2008,1,4,Январь
4,2008-01-05,-12,2008,1,5,Январь


Сохраним результаты

## Функций apply

In [105]:
df['T_f'] = df.t.apply(lambda x: 9/5 * x + 32)
df.head()

Unnamed: 0,Day,t,year,month,day,month_name,T_f
0,2008-01-01,0,2008,1,1,Январь,32.0
1,2008-01-02,-5,2008,1,2,Январь,23.0
2,2008-01-03,-11,2008,1,3,Январь,12.2
3,2008-01-04,-11,2008,1,4,Январь,12.2
4,2008-01-05,-12,2008,1,5,Январь,10.4


In [106]:
df.to_csv('result.csv')

## Задача

**Во всех задачах ниже стараемся избегать циклов**


Найти насколько отличалась температура в самый жаркий и самый холодный день

In [107]:
df.t.max() - df.t.min()

57

## Задача

Вывести среднее, максимальное, минимальное, стандартное отклонение и медиану температуры за каждый год

In [108]:
df.groupby('year').t.agg(['max', 'min', 'std', 'median'])

Unnamed: 0_level_0,max,min,std,median
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2008,27,-14,8.221605,9.0
2009,26,-13,9.767455,6.0
2010,34,-23,12.953206,8.0
2011,31,-20,10.839861,8.0
2012,31,-19,11.060134,7.0
2013,31,-16,10.619822,8.0
2014,31,-18,10.485637,8.0
2015,27,-11,8.30707,8.0
2016,30,-21,10.453923,7.0


## Задача

Необходимо узнать насколько медиана отличалась от среднего в каждом месяце. Использовать agg для решения

In [109]:
df.groupby('month').t.agg(lambda x: x.median() - x.mean())

month
1     0.745520
2     1.505882
3     0.240143
4    -0.744444
5    -0.291367
6    -0.325926
7     0.050360
8    -0.666667
9     0.425926
10    0.673835
11    0.533333
12    1.323741
Name: t, dtype: float64

## Задача

Вывести день, в который максимально изменилась температура

Подсказка: `diff()`

In [110]:
id_max = abs(df.t.diff()).idxmax(axis=0)
id_max

2335

In [111]:
df.loc[id_max-1:id_max, ['year', 'month', 'day', 't']]

Unnamed: 0,year,month,day,t
2334,2014,5,26,22
2335,2014,5,27,7


## Поработаем с экселем

Сохраним датафрейм в эксель

In [112]:
df.to_excel('../data/excel.xlsx')

Прочитаем из экселя

In [113]:
pd.read_excel('../data/excel.xlsx', index_col=0)

Unnamed: 0,Day,t,year,month,day,month_name,T_f
0,2008-01-01,0,2008,1,1,Январь,32.0
1,2008-01-02,-5,2008,1,2,Январь,23.0
2,2008-01-03,-11,2008,1,3,Январь,12.2
3,2008-01-04,-11,2008,1,4,Январь,12.2
4,2008-01-05,-12,2008,1,5,Январь,10.4
...,...,...,...,...,...,...,...
3280,2016-12-27,1,2016,12,27,Декабрь,33.8
3281,2016-12-28,-3,2016,12,28,Декабрь,26.6
3282,2016-12-29,0,2016,12,29,Декабрь,32.0
3283,2016-12-30,3,2016,12,30,Декабрь,37.4


In [114]:
import os
os.remove('../data/excel.xlsx')
os.remove('result.csv')

# Полезные ссылки

- [Git](https://git-scm.com/downloads)

- [Anaconda](https://www.anaconda.com/products/individual#Downloads)

- [VS Code](https://code.visualstudio.com/download)

- [Шпаргалка по анаконде](https://docs.conda.io/projects/conda/en/4.6.0/_downloads/52a95608c49671267e40c689e0bc00ca/conda-cheatsheet.pdf)

- [Шпаргалка по гиту](https://education.github.com/git-cheat-sheet-education.pdf)

- [Установка jupyterlab (вариант с conda install, не забываем активировать окружение)](https://jupyterlab.readthedocs.io/en/stable/getting_started/installation.html)

- [Небольшой курс по numpy-pandas-matplotlib, если хочется интерактивных задач](https://www.sololearn.com/learning/1161)