# Anaconda

`conda create -n my-environment python=3.8` - создать окружение my-environment с питоном 3.8

`conda activate my-environment` - активировать окружение

`conda deactivate` - деактивировать окружение

`conda install numpy` - установка библиотеки

`conda env export --name my-environment > env.yml` - экспорт всех библиотек в yml файл

`conda env create --file env.yml` - создать окружение из файла env.yml

# Numpy

numpy позволяет оперировать матрицами и векторами

## Установка

В нужном окружении запустить

```
conda install numpy
```

Импортируем библиотеку

In [157]:
import numpy as np

Создаем массив из обычного списка python

In [158]:
test_list = [1, 2, 3]
array = np.array(test_list)
print(array, array.shape, len(array))

[1 2 3] (3,) 3


Генерируем разные массивы

In [159]:
np.arange(5)

array([0, 1, 2, 3, 4])

In [160]:
np.linspace(0, 10, 21)

array([ 0. ,  0.5,  1. ,  1.5,  2. ,  2.5,  3. ,  3.5,  4. ,  4.5,  5. ,
        5.5,  6. ,  6.5,  7. ,  7.5,  8. ,  8.5,  9. ,  9.5, 10. ])

Создаем матрицу из списка массива

In [161]:
matrix = [[1, 2, 3], [4, 5, 6]]
np_matrix = np.array(matrix)
print(np_matrix)
print(np_matrix.shape)

[[1 2 3]
 [4 5 6]]
(2, 3)


Пример работы reshape

In [162]:
np_matrix.reshape(3, 2)

array([[1, 2],
       [3, 4],
       [5, 6]])

In [163]:
np_matrix.reshape(-1, 1)

array([[1],
       [2],
       [3],
       [4],
       [5],
       [6]])

In [164]:
np_matrix.reshape(-1)

array([1, 2, 3, 4, 5, 6])

## Задача

Сгенерировать вектор из 100 элементов и превратить его в:

- матрицу 10x10
- вектор 1x100
- вектор 100x1

In [165]:
v = np.arange(100)
v1 = v.reshape(10, 10)
v2 = v.reshape(1, 100)
v3 = v.reshape(100, 1)
print(v1.shape, v2.shape, v3.shape)

(10, 10) (1, 100) (100, 1)


## Базовые операции

При помощи numpy можно легко делать любые простейшие операции над векторами и матрицами

In [166]:
a = np.array([20, 30, 40, 50])
b = np.arange(4)
b

array([0, 1, 2, 3])

In [167]:
a + b

array([20, 31, 42, 53])

In [168]:
b ** 2

array([0, 1, 4, 9])

In [169]:
b < 2

array([ True,  True, False, False])

Выбираем все элементы меньше двух

In [170]:
b[b < 2]

array([0, 1])

In [171]:
A = np.array([[1, 1], [0, 1]])
B = np.array([[2, 0], [3, 4]])

Поэлементное произведение

In [172]:
A * B

array([[2, 0],
       [0, 4]])

Произведение матриц

In [173]:
A @ B

array([[5, 4],
       [3, 4]])

In [174]:
A.dot(B)  # то же самое

array([[5, 4],
       [3, 4]])

Транспонирование

In [175]:
B

array([[2, 0],
       [3, 4]])

In [176]:
B.T

array([[2, 3],
       [0, 4]])

## Задача - Решение СЛАУ

$Ax = b$

Функция обратной матрицы - `np.linalg.inv(A)`

In [177]:
A = np.array([
    [3, -2],
    [5, 1]]
)
b = np.array([-6, 3])
# Решение - [0, 3]

In [178]:
a = np.linalg.inv(A)
x = a @ b
x

array([1.11022302e-16, 3.00000000e+00])

Проверить себя можно при помощи `np.linalg.solve(A, b)` - функция решения СЛАУ

In [179]:
np.linalg.solve(A, b)

array([0., 3.])

Создание случайного массива

In [180]:
rand_arr = np.random.uniform(-1, 1, size=(2, 5))
rand_arr

array([[ 0.12168678,  0.44586899, -0.85057286,  0.79083571, -0.26546753],
       [ 0.3261034 ,  0.5709333 ,  0.51578748,  0.03461761,  0.47706143]])

In [181]:
rand_arr[rand_arr > 0]

array([0.12168678, 0.44586899, 0.79083571, 0.3261034 , 0.5709333 ,
       0.51578748, 0.03461761, 0.47706143])

Считаем сумму по строкам/столбцам

In [182]:
rand_arr.sum(axis=0)  # суммируем по столбцам 

array([ 0.44779018,  1.0168023 , -0.33478538,  0.82545332,  0.21159389])

In [183]:
rand_arr.sum(axis=1)  # суммируем по строкам

array([0.24235108, 1.92450322])

Находим минимум максимум во всем массиве и по строкам/столбцам

In [184]:
rand_arr.max(), rand_arr.min()

(0.7908357088089901, -0.8505728608989278)

In [185]:
rand_arr.max(axis=0)

array([0.3261034 , 0.5709333 , 0.51578748, 0.79083571, 0.47706143])

Также можно применять любые математические операции к массиву

In [186]:
np.sqrt(rand_arr)

  np.sqrt(rand_arr)


array([[0.34883632, 0.66773422,        nan, 0.88928944,        nan],
       [0.57105464, 0.75560129, 0.71818346, 0.18605808, 0.69069633]])

In [187]:
np.exp(rand_arr)

array([[1.12940029, 1.56184684, 0.42717015, 2.20523859, 0.76684734],
       [1.38555863, 1.76991815, 1.67495698, 1.03522377, 1.61133242]])

In [188]:
np.log(rand_arr)

  np.log(rand_arr)


array([[-2.10630495, -0.80773011,         nan, -0.23466503,         nan],
       [-1.12054077, -0.56048288, -0.66206045, -3.36339276, -0.74011002]])

## Задача

Сгенерировать случайную матрицу и посчитать сумму положительных элементов в каждой строке, в каждом столбце.

In [189]:
rand_arr = np.random.uniform(-1, 1, size=(3, 4))
rand_arr[rand_arr < 0] = 0
rand_arr.sum(axis=0)

array([0.32191027, 0.13212164, 0.        , 0.42197613])

In [190]:
rand_arr.sum(axis=1)

array([0.4942464 , 0.05985138, 0.32191027])

## Индексация

Индексация по массивам numpy похожа на индексацию по спискам python, но шире и гибче

Общий синтаксис:

`a[start:stop:step]`

Аргументы можно пропускать, тогда будут взятые аргументы по-умолчанию. Например:

`a[:] == a[0:len(a):1]`

In [191]:
a = np.arange(10)

Выбираем один элемент

In [192]:
a[2]

2

Берем подмассив

In [193]:
a[2:5]

array([2, 3, 4])

Подмассив с заданным шагом

In [194]:
a[:6:2]

array([0, 2, 4])

In [195]:
a[:6:2] = 1000
a

array([1000,    1, 1000,    3, 1000,    5,    6,    7,    8,    9])

In [196]:
a[::-1]  # инвертировали значения массива 

array([   9,    8,    7,    6,    5, 1000,    3, 1000,    1, 1000])

Возьмем матрицу из случайных целых чисел

In [197]:
arr = np.random.randint(1, 5, size=(4, 6))
arr

array([[1, 1, 3, 1, 3, 4],
       [3, 2, 1, 4, 3, 1],
       [4, 4, 1, 2, 3, 3],
       [2, 1, 3, 4, 2, 3]])

In [198]:
arr[2]

array([4, 4, 1, 2, 3, 3])

По матрицам можно индексироваться отдельно по каждой оси через запятую

Сначала указываем индекс для строк, потом для колонок

In [199]:
arr[1:, :2]

array([[3, 2],
       [4, 4],
       [2, 1]])

In [200]:
arr

array([[1, 1, 3, 1, 3, 4],
       [3, 2, 1, 4, 3, 1],
       [4, 4, 1, 2, 3, 3],
       [2, 1, 3, 4, 2, 3]])

In [201]:
arr[::-1, ::2] = 0  # ? строки не переворачиваются, только четные становятся нулями 
arr

array([[0, 1, 0, 1, 0, 4],
       [0, 2, 0, 4, 0, 1],
       [0, 4, 0, 2, 0, 3],
       [0, 1, 0, 4, 0, 3]])

In [202]:
arr[-1]  # взяли последнюю строку 

array([0, 1, 0, 4, 0, 3])

In [203]:
arr[:, :]  # взяли всю матрицу 

array([[0, 1, 0, 1, 0, 4],
       [0, 2, 0, 4, 0, 1],
       [0, 4, 0, 2, 0, 3],
       [0, 1, 0, 4, 0, 3]])

Генерируем матрицы

In [204]:
np.ones((3, 3))  # матрица из единиц 

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [205]:
np.zeros((3, 3))  # из нулей 

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [206]:
np.eye(3)  # единичная матрица размера 3*3

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

## Задача

Вывести матрицу из нулей и единиц в шахматном порядке

In [207]:
matr = np.ones((8, 8))
matr[::2, ::2] = 0
matr[1::2, 1::2] = 0
matr

array([[0., 1., 0., 1., 0., 1., 0., 1.],
       [1., 0., 1., 0., 1., 0., 1., 0.],
       [0., 1., 0., 1., 0., 1., 0., 1.],
       [1., 0., 1., 0., 1., 0., 1., 0.],
       [0., 1., 0., 1., 0., 1., 0., 1.],
       [1., 0., 1., 0., 1., 0., 1., 0.],
       [0., 1., 0., 1., 0., 1., 0., 1.],
       [1., 0., 1., 0., 1., 0., 1., 0.]])

## Расширяем массивы

In [208]:
a = np.arange(10)
b = a + 1
a, b

(array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]),
 array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10]))

In [209]:
a.shape, b.shape

((10,), (10,))

Соединям по горизонтали

In [210]:
d = np.hstack((a, b))
d  # добавили второй под первый массив - получили 20 строк 

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9,  1,  2,  3,  4,  5,  6,  7,
        8,  9, 10])

Соединяем по вертикали

In [211]:
c = np.vstack((a, b))
c  # получили две строки с каждым из массивов 

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9],
       [ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10]])

In [212]:
np.hstack((a, [1]))  # добавили 1 после первого массива 

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 1])

Расширение массива в numpy происходит путем создания нового массива.

Поэтому если требуется сгенерировать массив, то лучше сделать это через список, а дальше сделать из него массив numpy

In [213]:
%%timeit # медленно 

a = np.arange(10)
for i in range(1000):
    a = np.hstack((a, 1))
a.shape

5.62 ms ± 498 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [214]:
%%timeit # быстро 

a = list(range(10))
for i in range(1000):
    a.append(i)
np.array(a).shape

90.1 µs ± 1.16 µs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


## Сравниваем скорость list и np.array

In [215]:
%%timeit # медленно 

[i * i for i in range(100000)]

5.29 ms ± 23.7 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [216]:
%%timeit # быстро 

a = np.arange(100000)
a * a

115 µs ± 2.15 µs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


# Pandas

 Позволяет работать с данными - читать, преобразовывать и сохранять

 ## Установка

 ```
 conda install pandas
 ```

In [217]:
import pandas as pd

## Series

Series - столбец в таблице.

Он состоит из индекса ("имена" строк) и значений. По-умолчанию индекс - уникальные числа от 0 до длины списка.

Создавать series можно из списка или массива numpy. 

In [218]:
series = pd.Series([1, 2, 3])
series

0    1
1    2
2    3
dtype: int64

In [219]:
series.index

RangeIndex(start=0, stop=3, step=1)

In [220]:
series.values

array([1, 2, 3], dtype=int64)

Индекс может быть строкой

In [221]:
legs_counter = pd.Series([4, 4, 8], index=["cat", "dog", "spider"])
legs_counter

cat       4
dog       4
spider    8
dtype: int64

По series можно индексирования при помощи `loc` и `iloc`

- `loc` - если хотим взять по индексу
- `iloc` - если хотим взять по порядковому номеру

In [222]:
legs_counter.iloc[2]

8

In [223]:
legs_counter.loc["dog"]

4

In [224]:
legs_counter.unique()

array([4, 8], dtype=int64)

## DataFrame

DataFrame - набор Series, то есть таблица.

Индекс для датафрейма - названия строк

Колонки - названия столбцов (series)

In [225]:
ages = [25, 35, 45]
heights = [170, 180, 190]
names = ["Alex", "Polina", "Misha"]
data = {'age': ages, 'height': heights, 'name': names}
df = pd.DataFrame(data)
df

Unnamed: 0,age,height,name
0,25,170,Alex
1,35,180,Polina
2,45,190,Misha


In [226]:
df['age']  #Получился Series

0    25
1    35
2    45
Name: age, dtype: int64

In [227]:
df[['age', 'height']]  #Получился DataFrame

Unnamed: 0,age,height
0,25,170
1,35,180
2,45,190


In [228]:
df[['age']]  # Получился DataFrame

Unnamed: 0,age
0,25
1,35
2,45


Можно добавить новую колонку

In [229]:
df['height/age'] = df['height'] / df['age']
df

Unnamed: 0,age,height,name,height/age
0,25,170,Alex,6.8
1,35,180,Polina,5.142857
2,45,190,Misha,4.222222


In [230]:
df["age"].sum()
df["age"].min()
# df["age"].max()
# df["age"].mean()

25

Можно взять содержимое датафрейма как набор numpy-массивов

In [231]:
df.values

array([[25, 170, 'Alex', 6.8],
       [35, 180, 'Polina', 5.142857142857143],
       [45, 190, 'Misha', 4.222222222222222]], dtype=object)

Можно фильтровать датафреймы

In [232]:
df[df['age'] == 25]

Unnamed: 0,age,height,name,height/age
0,25,170,Alex,6.8


In [233]:
df[(df['age'] > 35) & (df['height'] > 170)]

Unnamed: 0,age,height,name,height/age
2,45,190,Misha,4.222222


Если нужно поменять какое-то значение, можно использовать [.loc](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy)

In [234]:
df.loc[df['age'] == 25, 'age'] = 20

In [235]:
df[df['height/age'] > 5]

Unnamed: 0,age,height,name,height/age
0,20,170,Alex,6.8
1,35,180,Polina,5.142857


Создадим категорию "высокий", если человек выше 175, а иначе "низкий"

In [236]:
df["height_category"] = df["height"].apply(lambda x: "высокий" if x > 175 else "низкий")
df

Unnamed: 0,age,height,name,height/age,height_category
0,20,170,Alex,6.8,низкий
1,35,180,Polina,5.142857,высокий
2,45,190,Misha,4.222222,высокий


In [237]:
df[(df['height_category'] == "высокий") & (df['age'] > 40)]

Unnamed: 0,age,height,name,height/age,height_category
2,45,190,Misha,4.222222,высокий


## Задача

Посчитать средний рост для высоких людей

In [238]:
df[df['height_category'] == "высокий"]['height'].mean()
# var['height'].mean()

185.0

## Пропуски в данных

Часто в реальных данных есть пропуски. Их надо либо убирать, либо заполнять

In [239]:
values = [[None, 1, 2], [None, 2, 3], [None, None, 4]]
df = pd.DataFrame(values, columns=["a", "b", "c"])
df
# колонка b типа float, поэтому там Nan

Unnamed: 0,a,b,c
0,,1.0,2
1,,2.0,3
2,,,4


In [240]:
np.isnan(df['b'][2])

True

In [241]:
a = 5
b = 5
a is b

True

In [242]:
a = 1000
b = 1000
a is b  # выводит false потому что в памяти выделяется место только под первые 255 чисел, поэтому у больших чисел разные адреса (питон сравнивает по ним)

False

За удаление пропусков отвечает функция `dropna()`

У dropna есть два важных аргумента:

- axis (по-умолчанию 0) - по строкам или по колонкам будем искать наны
- how (по-умолчанию 'any') - бывает any и all, ниже пример использования

Удаляем столбец `a`, потому что в нем все (all) значения None
Удаляем только этот столбец, потому что он полностью состоит из None

Сохраним датафрейм, он понадобится ниже

In [243]:
dropped_a = df.dropna(axis=1, how='all')
dropped_a

Unnamed: 0,b,c
0,1.0,2
1,2.0,3
2,,4


Удаляем столбцы `a` и `b`, потому что в них есть None (any)
Достаточно одного None в столбце для удаления 

In [244]:
df.dropna(axis=1, how='any')

Unnamed: 0,c
0,2
1,3
2,4


Возьмем датафрейм выше. Удалим из него последнюю строку (axis = 0), так как в ней есть None

In [245]:
dropped_a.dropna(axis=0, how='any')

Unnamed: 0,b,c
0,1.0,2
1,2.0,3


Заполним пустые значения 0

In [246]:
df.fillna(0)

Unnamed: 0,a,b,c
0,0,1.0,2
1,0,2.0,3
2,0,0.0,4


In [247]:
values_1 = [[5, 1, 2], [None, 2, 3], [None, None, 4], [2, 4, 5]]
df = pd.DataFrame(values_1, columns=["a", "b", "c"])
df

Unnamed: 0,a,b,c
0,5.0,1.0,2
1,,2.0,3
2,,,4
3,2.0,4.0,5


Заполним последним известным значением

In [248]:
df.fillna(method="ffill")  # заполняет последним известным числом 
# Тоже самое, что и df.ffill()

Unnamed: 0,a,b,c
0,5.0,1.0,2
1,5.0,2.0,3
2,5.0,2.0,4
3,2.0,4.0,5


In [249]:
df.fillna(method="bfill")  # заполняет первым следующим известным числом (смотрим в будущее)

Unnamed: 0,a,b,c
0,5.0,1.0,2
1,2.0,2.0,3
2,2.0,4.0,4
3,2.0,4.0,5


Заполним средним между соседними известными значениями

In [250]:
df.interpolate()  # рисуем прямую между соседними значениями, также смотрим в будущее 

Unnamed: 0,a,b,c
0,5.0,1.0,2
1,4.0,2.0,3
2,3.0,3.0,4
3,2.0,4.0,5


## Работаем с данными

Мы можем прочитать таблицу из разных форматов: Excel, CSV, TSV, HDF и т.д.

Начнем с самого простого формата - CSV. Можно открыть в блокноте файл `data/weather.csv` и посмотреть как он выглядит.

Чтобы загрузить файл в DataFrame, воспользуемся методом `pd.read_csv()`

In [251]:
df = pd.read_csv('../data/weather.csv')
df.head()  # по умолчанию первые 5 строк выводим/указываем число строк, которые хотим вывести

Unnamed: 0,Day,t
0,2008-01-01,0
1,2008-01-02,-5
2,2008-01-03,-11
3,2008-01-04,-11
4,2008-01-05,-12


In [252]:
df.describe()

Unnamed: 0,t
count,3285.0
mean,8.137595
std,10.403138
min,-23.0
25%,1.0
50%,8.0
75%,17.0
max,34.0


In [253]:
df["Day"] = pd.to_datetime(df["Day"])
df["year"] = df.Day.dt.year  # dt - datetime, через него достаем год, месяц, день 
df["month"] = df.Day.dt.month
df["day"] = df.Day.dt.day
df.head()

Unnamed: 0,Day,t,year,month,day
0,2008-01-01,0,2008,1,1
1,2008-01-02,-5,2008,1,2
2,2008-01-03,-11,2008,1,3
3,2008-01-04,-11,2008,1,4
4,2008-01-05,-12,2008,1,5


## Задача

Вывести среднюю температуру за январь 2010 года

In [254]:
df[(df["year"] == 2010) & (df["month"] == 1)]["t"].mean()
df.loc[(df['year'] == 2010) & (df['month'] == 1), 't'].mean()  # лучше через loc 

-11.419354838709678

## Группировка и агрегация данных

Иногда нужно объединять строки, в которых есть какие-то одинаковые значения.

Например, мы хотим посчитать среднюю температуру для каждого месяца. Это значит, что нам нужны строки, в которых совпадают year и month

In [255]:
# медленно 
for name, group in df.groupby(["year", "month"]):
    print(name)
    print(group.head(2))
    # break

(2008, 1)
         Day  t  year  month  day
0 2008-01-01  0  2008      1    1
1 2008-01-02 -5  2008      1    2
(2008, 2)
          Day  t  year  month  day
31 2008-02-01  0  2008      2    1
32 2008-02-02  2  2008      2    2
(2008, 3)
          Day  t  year  month  day
60 2008-03-01  1  2008      3    1
61 2008-03-02 -1  2008      3    2
(2008, 4)
          Day   t  year  month  day
91 2008-04-01  13  2008      4    1
92 2008-04-02  11  2008      4    2
(2008, 5)
           Day   t  year  month  day
121 2008-05-01  21  2008      5    1
122 2008-05-02  22  2008      5    2
(2008, 6)
           Day   t  year  month  day
151 2008-06-01  15  2008      6    1
152 2008-06-02  17  2008      6    2
(2008, 7)
           Day   t  year  month  day
181 2008-07-01  24  2008      7    1
182 2008-07-02  23  2008      7    2
(2008, 8)
           Day   t  year  month  day
212 2008-08-01  22  2008      8    1
213 2008-08-02  16  2008      8    2
(2008, 9)
           Day   t  year  month  day
243 2008-

In [256]:
df.groupby(["year", "month"]).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Day,t,day
year,month,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2008,1,2008-01-16 00:00:00,-1.612903,16.000000
2008,2,2008-02-15 00:00:00,0.034483,15.000000
2008,3,2008-03-16 00:00:00,1.516129,16.000000
2008,4,2008-04-15 12:00:00,9.566667,15.500000
2008,5,2008-05-16 08:00:00,14.133333,16.333333
...,...,...,...,...
2016,8,2016-08-16 00:00:00,19.161290,16.000000
2016,9,2016-09-15 12:00:00,14.366667,15.500000
2016,10,2016-10-16 00:00:00,5.870968,16.000000
2016,11,2016-11-15 12:00:00,-1.433333,15.500000


Вопрос - почему среднее по дням разное? Это арифметическая прогрессия, деленная на число дней в месяце 

Иногда мы хотим применить какую-то функцию, которой нет в стандартном pandas или хотим применить много разных функций к определенным строкам. Для этого существует метод agg (сокращение от Aggregate)

In [257]:
df.groupby(["month"]).agg(['mean', 'max', 'std'])  # Применяем много функций ко всем столбцам

Unnamed: 0_level_0,Day,Day,Day,t,t,t,year,year,year,day,day,day
Unnamed: 0_level_1,mean,max,std,mean,max,std,mean,max,std,mean,max,std
month,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
1,2012-01-16 08:00:00.000000000,2016-01-31,944 days 18:22:20.795908672,-5.74552,5,6.316853,2012.0,2016,2.586629,16.0,31,8.960344
2,2012-02-15 00:00:00.000000000,2016-02-29,948 days 05:57:22.902336480,-3.505882,6,5.953805,2012.0,2016,2.596181,14.670588,29,8.196967
3,2012-03-15 16:00:00.000000000,2016-03-31,944 days 18:22:20.795908448,0.759857,13,4.252342,2012.0,2016,2.586629,16.0,31,8.960344
4,2012-04-15 04:00:00.000000000,2016-04-30,944 days 19:40:01.696429200,7.744444,21,4.167214,2012.0,2016,2.586784,15.5,30,8.671515
5,2012-05-20 22:57:50.503597056,2016-05-31,942 days 07:41:32.579384336,15.291367,30,5.149533,2012.014388,2016,2.580084,16.035971,31,8.9563
6,2012-06-15 04:00:00.000000000,2016-06-30,944 days 19:40:01.696429200,18.325926,31,4.513227,2012.0,2016,2.586784,15.5,30,8.671515
7,2012-07-16 22:16:24.172661760,2016-07-31,946 days 05:36:52.941861856,21.94964,33,4.418249,2012.003597,2016,2.590594,15.946043,31,8.930981
8,2012-08-15 16:00:00.000000000,2016-08-31,944 days 18:22:20.795908448,19.666667,34,4.102114,2012.0,2016,2.586629,16.0,31,8.960344
9,2012-09-15 04:00:00.000000000,2016-09-30,944 days 19:40:01.696429200,14.574074,24,3.318316,2012.0,2016,2.586784,15.5,30,8.671515
10,2012-10-15 16:00:00.000000000,2016-10-31,944 days 18:22:20.795908448,7.326165,16,3.501962,2012.0,2016,2.586629,16.0,31,8.960344


In [258]:
# применяем много функций к определенным столбцам
df.groupby(["month"]).agg({'t': ['count', 'mean', 'max', 'min'], 'day': ['mean']})

Unnamed: 0_level_0,t,t,t,t,day
Unnamed: 0_level_1,count,mean,max,min,mean
month,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
1,279,-5.74552,5,-21,16.0
2,255,-3.505882,6,-23,14.670588
3,279,0.759857,13,-11,16.0
4,270,7.744444,21,-1,15.5
5,278,15.291367,30,3,16.035971
6,270,18.325926,31,9,15.5
7,278,21.94964,33,12,15.946043
8,279,19.666667,34,10,16.0
9,270,14.574074,24,5,15.5
10,279,7.326165,16,-2,16.0


In [259]:
df.groupby(["month"]).agg(
    {'t': [
        ('one', np.mean),
        ('two', lambda value: 100 * ((value > 32).sum() / value.std())),
        ('three', lambda value: 100 * ((value > 45).sum() / value.mean()))
    ]}
)

Unnamed: 0_level_0,t,t,t
Unnamed: 0_level_1,one,two,three
month,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
1,-5.74552,0.0,-0.0
2,-3.505882,0.0,-0.0
3,0.759857,0.0,0.0
4,7.744444,0.0,0.0
5,15.291367,0.0,0.0
6,18.325926,0.0,0.0
7,21.94964,22.633403,0.0
8,19.666667,24.377675,0.0
9,14.574074,0.0,0.0
10,7.326165,0.0,0.0


## Функция map

In [260]:
month_number_to_name = {
    1: "Январь",
    2: "Февраль",
    3: "Март",
    4: "Апрель",
    5: "Май",
    6: "Июнь",
    7: "Июль",
    8: "Август",
    9: "Сентябрь",
    10: "Октябрь",
    11: "Ноябрь",
    12: "Декабрь"
}

In [261]:
df["month_name"] = df["month"].map(month_number_to_name)
df.head()

Unnamed: 0,Day,t,year,month,day,month_name
0,2008-01-01,0,2008,1,1,Январь
1,2008-01-02,-5,2008,1,2,Январь
2,2008-01-03,-11,2008,1,3,Январь
3,2008-01-04,-11,2008,1,4,Январь
4,2008-01-05,-12,2008,1,5,Январь


Сохраним результаты

## Функций apply

In [276]:
df['T_f'] = df.t.apply(lambda x: 9 / 5 * x + 32)
df.head()

Unnamed: 0,Day,t,year,month,day,month_name,T_f
0,2008-01-01,0,2008,1,1,Январь,32.0
1,2008-01-02,-5,2008,1,2,Январь,23.0
2,2008-01-03,-11,2008,1,3,Январь,12.2
3,2008-01-04,-11,2008,1,4,Январь,12.2
4,2008-01-05,-12,2008,1,5,Январь,10.4


In [277]:
df.to_csv('result.csv')

## Задача

**Во всех задачах ниже стараемся избегать циклов**


Найти насколько отличалась температура в самый жаркий и самый холодный день

In [269]:
abs(df["t"].max() - df["t"].min())

57

## Задача

Вывести среднее, максимальное, минимальное, стандартное отклонение и медиану температуры за каждый год

In [272]:
df.groupby(["year"]).agg({'t': ['mean', 'max', 'min', 'std', 'median']})

Unnamed: 0_level_0,t,t,t,t,t
Unnamed: 0_level_1,mean,max,min,std,median
year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
2008,8.545205,27,-14,8.221605,9.0
2009,7.610959,26,-13,9.767455,6.0
2010,7.117808,34,-23,12.953206,8.0
2011,8.337912,31,-20,10.839861,8.0
2012,6.980822,31,-19,11.060134,7.0
2013,8.728767,31,-16,10.619822,8.0
2014,8.931507,31,-18,10.485637,8.0
2015,9.079452,27,-11,8.30707,8.0
2016,7.907104,30,-21,10.453923,7.0


## Задача

Необходимо узнать насколько медиана отличалась от среднего в каждом месяце. Использовать agg для решения

In [283]:
df.groupby('month').agg({'t': [('x', lambda x: abs(x.mean() - x.median()))]})

Unnamed: 0_level_0,t
Unnamed: 0_level_1,x
month,Unnamed: 1_level_2
1,0.74552
2,1.505882
3,0.240143
4,0.744444
5,0.291367
6,0.325926
7,0.05036
8,0.666667
9,0.425926
10,0.673835


## Задача

Вывести день, в который максимально изменилась температура

Подсказка: `diff()`

In [297]:
df.loc[abs(df["t"].diff()).argmax(), "Day"]

Timestamp('2014-05-27 00:00:00')

## Поработаем с экселем

Сохраним датафрейм в эксель

In [298]:
df.to_excel('../data/excel.xlsx')

Прочитаем из экселя

In [299]:
pd.read_excel('../data/excel.xlsx', index_col=0)

Unnamed: 0,Day,t,year,month,day,month_name,T_f
0,2008-01-01,0,2008,1,1,Январь,32.0
1,2008-01-02,-5,2008,1,2,Январь,23.0
2,2008-01-03,-11,2008,1,3,Январь,12.2
3,2008-01-04,-11,2008,1,4,Январь,12.2
4,2008-01-05,-12,2008,1,5,Январь,10.4
...,...,...,...,...,...,...,...
3280,2016-12-27,1,2016,12,27,Декабрь,33.8
3281,2016-12-28,-3,2016,12,28,Декабрь,26.6
3282,2016-12-29,0,2016,12,29,Декабрь,32.0
3283,2016-12-30,3,2016,12,30,Декабрь,37.4


In [300]:
import os

os.remove('../data/excel.xlsx')
os.remove('result.csv')

# Полезные ссылки

- [Git](https://git-scm.com/downloads)

- [Anaconda](https://www.anaconda.com/products/individual#Downloads)

- [VS Code](https://code.visualstudio.com/download)

- [Шпаргалка по анаконде](https://docs.conda.io/projects/conda/en/4.6.0/_downloads/52a95608c49671267e40c689e0bc00ca/conda-cheatsheet.pdf)

- [Шпаргалка по гиту](https://education.github.com/git-cheat-sheet-education.pdf)

- [Установка jupyterlab (вариант с conda install, не забываем активировать окружение)](https://jupyterlab.readthedocs.io/en/stable/getting_started/installation.html)

- [Небольшой курс по numpy-pandas-matplotlib, если хочется интерактивных задач](https://www.sololearn.com/learning/1161)