<a target="_blank" href="https://colab.research.google.com/github/victorlymarev/pandas/blob/main/notebooks/11-functions.ipynb">
  <img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/>
</a>

# Функции в Pandas
#### [Ссылка на видео](https://youtu.be/cq2aQ0bwFB8)

In [None]:
import pandas as pd
import numpy as np

Создаем таблицу

In [None]:
df = pd.DataFrame({'Колонка 1': [111, 222, 333, 444, 555, 666],
              'Колонка 2': [6, 5, 4, 3, 2, 1],
              'Колонка 3': [np.nan, -3, 5, 0, 9, -11],
              'Имя': ['Миша', 'Саша', 'Юля',
                            'Настя', 'Андрей', 'Катя'],
              'Увлечение': ['Баскетбол', 'Хоккей', 'Волейбол',
                            'Футбол', 'Counter-Strike', 'Баскетбол']
             })

In [None]:
df

## Функции из numpy

#### Извлечение натурального лагарифма

In [None]:
df['Колонка 1']

In [None]:
np.log(df['Колонка 1'])

In [None]:
np.log(df['Колонка 1'] - 333)

#### Извлечение логарифма по произвольному основанию

In [None]:
# Логарифм по основанию 3
np.emath.logn(3, df['Колонка 1'])

#### Синус

In [None]:
np.sin(df['Колонка 1'])

#### Косинус

In [None]:
np.cos(df['Колонка 1'])

In [None]:
df = df.assign(col_1_natural_log = lambda x: np.log(x['Колонка 1']))
df

## Методы из пандаса

#### Извлечение модуля числа

In [None]:
df['Колонка 3']

In [None]:
df['Колонка 3'].abs()

### Округление

In [None]:
df['col_1_natural_log']

In [None]:
df['col_1_natural_log'].round()

In [None]:
np.log10(df['Колонка 1']).round(1)

In [None]:
np.log10(df['Колонка 1']).round(5)

#### Округление до десятков и до сотен

In [None]:
df['Колонка 1']

In [None]:
df['Колонка 1'].round(-1)

In [None]:
df['Колонка 1'].round(-2)

#### Огругление вверх

In [None]:
df['col_1_natural_log']

In [None]:
np.ceil(df['col_1_natural_log'])

#### Огругление вниз

In [None]:
np.floor(df['col_1_natural_log'])

#### Накопленная сумма

In [None]:
df['Колонка 2']

In [None]:
df['Колонка 2'].cumsum()

#### Накопленное произведение

In [None]:
df['Колонка 2'].cumprod()

#### Накопленный минимум и максимум

In [None]:
df['Колонка 2'].cummin()
# df['Колонка 1'].cummax()

#### Пропущенные значения просто игнорируются

In [None]:
df['Колонка 3']

In [None]:
df['Колонка 3'].cumprod()

#### Те же операции можно выполнять и для датафреймов если они опеределены

In [None]:
df.iloc[:, :3]

In [None]:
df.iloc[:, :3].cumprod()

#### Можно настраивать ось, вдоль которой будет действовать метод

In [None]:
df.iloc[:, :3].cumprod(axis=1)

#### is_monotonic_increasing

Проверяет возрастает ли ряд

In [None]:
df['Колонка 1'].is_monotonic_increasing

#### is_monotonic_decreasing
Проверяет убывает ли ряд

In [None]:
df['Колонка 1'].is_monotonic_decreasing

#### Стандартные функции

In [None]:
len(df['Колонка 1'])

In [None]:
sum(df['Колонка 1'])

In [None]:
abs(df['Колонка 3'])

In [None]:
min(df['Колонка 1'])

In [None]:
max(df['Колонка 1'])

In [None]:
max(df['Колонка 3'])

In [None]:
sum(df['Колонка 3'])

## replace

Ипользуется для замены одних значений другими

In [None]:
df['Увлечение']

#### Чаще всего в него передается словарь, в котором сначала указывается старое значение, а затем новое

In [None]:
df['Увлечение'].replace({'Баскетбол': 'Dota'})

#### В метод можно передать сначала список из старых значений, а затем список из новых

In [None]:
# Поменяем хоккей на футбол, а футбол на хоккей
df['Увлечение'].replace(['Хоккей', 'Футбол'], ['Бильярд', 'Боулинг'])

#### Можно сначала указать список из старых, а затем новое название

In [None]:
df['Увлечение'].replace(['Хоккей', 'Футбол'], 'Дартс')

### Метод repalace для датафреймов

In [None]:
df

#### Метод можно применить сразу ко всему датафрейму

In [None]:
df.replace({'Баскетбол': 'Dota', 5: 1000})

#### А можно к каждой отдельной колонке

In [None]:
df.replace({'Имя': {'Андрей': 'Сергей'}})

## map

#### Заменяет значения указанные в словаре, но для остальных значений проставляет пропуск

In [None]:
df['Увлечение'].map({'Баскетбол': 'Dota'})

In [None]:
df['Увлечение'].map(lambda x: {'Баскетбол': 'Dota'}.get(x, x))

## Методы для работы с функциями

Векторизованные и невекторизованные функции

Векторизованные функции - это функции, которые на вход принимают колонку таблицы, таблицу или ndarray

Большинство функций и методов в numpy и pandas - векторизованные 

In [None]:
df['Колонка 1']

In [None]:
np.log(df['Колонка 1'])

In [None]:
from math import log

In [None]:
log(df['Колонка 1'])

In [None]:
pd.Series([log(i) for i in df['Колонка 1']])

## apply

В случае если функция не векторизованная, то метод применяет ее к каждой строке

In [None]:
df['Колонка 1'].apply(np.log)

In [None]:
np.log(df['Колонка 1'])

In [None]:
df['Колонка 1'].apply(log)

#### По умолчанию метод apply применяет функцию к каждому столбцу по очереди. Но чаще нужно применить фунцию к каждой строке. Чтобы это сделать необходимо в параметр axis передать значение 1

In [None]:
df.apply(lambda x: x['Имя'] + ' любит играть в ' + x['Увлечение'], axis=1)

### applymap

Применяет какую-то функцию к каждой ячеке таблицы

In [None]:
df.iloc[:, :3]

In [None]:
df.iloc[:, :3].applymap(lambda x: x ** 2)

In [None]:
df.iloc[:, :3].applymap(lambda x: x / 100)

### transform

Модифицирует колонку или датафрейм при помощи векторной функции. Возвращает тоже колонку или датафрейм

In [None]:
df['Колонка 1']

In [None]:
df['Колонка 1'].transform(lambda x: (x - 10) / 10)

Применяем к датафрейму и дополнительно указываем ось если это необходимо

In [None]:
df.iloc[:, :3].transform(lambda x: x / len(x), axis=1)

### pipe

Применяет функцию, которая на вход принимает датафрейм целиком

In [None]:
df.pipe(lambda x: x.shape)

In [None]:
def create_columns(df, n_cols):
    df = df.copy()
    for i in range(n_cols):
        df[f'Колонка {i + 1}'] = i + 1
    return df

In [None]:
df.pipe(create_columns, 9)

| Название метода   | Что принимает на вход      | Особенности                                          |
|:-----------------:|:--------------------------:|:----------------------------------------------------:|
| apply             | Колонку или строку таблицы | Может работать с невекторизованными функциями        |
| applymap          | Ячеку таблицы              | Применяет функцию к каждой чеке                      |
| transform         | Колонку или строку         | Работает только с векторизованными функциями         |
| pipe              | Таблицу целиком            | -                                                    |

# Задания

#### Описание таблиц лежит [здесь](https://github.com/victorlymarev/pandas/tree/main/tables#%D0%BE%D0%BF%D0%B8%D1%81%D0%B0%D0%BD%D0%B8%D0%B5-%D1%82%D0%B0%D0%B1%D0%BB%D0%B8%D1%86)

Некоторые таблицы занимают много памяти, поэтому каждые 5-10 заданий лучше перезапускайте ноутбук.

В формулировке некоторых заданий может содержаться вариативность. Если у вас есть сомнения, что требуется в задании, попробуйте решить несколько вариантов. Если вы не понимаете задание, можете написать об этом в комментариях под видео.

В большинстве случаев внешний вид итоговой таблицы не определен. Выведите на экран наиболее адекватный вариант. То есть таблицу, из которой можно будет сделать выводы.

Курс пока находится в разработке. Вы можете помочь другим людям добавив свое решение [сюда](https://docs.google.com/forms/d/1HYTBz_KfssY3Jps2dC3n0YnEqa6WBb5OIhLo1d32Xzw/edit).

Посмотреть решения других людей можно [здесь](https://docs.google.com/spreadsheets/d/1pMDYO-9UneLbPPnEuQ2shig0TOJdQTU-zipifyAnZMk/edit?resourcekey#gid=1998648012)

### Задание 1

В таблице df представлены платежи по кредиту. Необходимо для каждой даты посчитать, сколько денег было заплачено.

In [None]:
import pandas as pd

df = pd.DataFrame({'Дата': pd.date_range('2022-01-31', '2022-12-31', freq='M'),
              'Сумма': [(50000 * (1.12 ** (i / 12))) // 1 for i in range(12)]})
df

In [None]:
# Напишите свой код здесь

### Задание 2

У каждого сотрудника есть оценка. Сейчас она считается от 1 до 10 включительно. Сделайте так, чтобы границы оценки лежали на отрезке от 0 до 1 (любым способом)

In [None]:
import os
import pandas as pd

path_empl = '../tables/employees.parquet' if os.path.exists('../tables/employees.parquet') else 'https://drive.google.com/uc?id=1AARD5-eVlCxoApt5CYZebrC3Cqw42lvj'

empl = pd.read_parquet(path_empl)
empl.head()

In [None]:
# Напишите свой код здесь

### Задание 3

Создайте колонку таблицы в которой будут лежать все нечетные числа от 1 до 99 включительно. Найдите накопленную сумму

In [None]:
import pandas as pd
import numpy as np

# Напишите свой код здесь

### Задание 4

В колонке gender таблицы goods_descr поменяйте значение Men на мужской, а значение Women на женский. Учите, что в колонке есть еще одно значение Unisex. Не делайте из него NaN

In [None]:
import os
import pandas as pd

path_goods_descr = '../tables/goods_description.parquet' if os.path.exists('../tables/goods_description.parquet') else 'https://drive.google.com/uc?id=1YbiD02Rev-X_WWV9nPSG1zZFmEh2JjPh'

goods_descr = pd.read_parquet(path_goods_descr)
goods_descr.head()

In [None]:
# Напишите свой код здесь

### Задание 5

Создайте колонку, состоящую из нечетных чисел от 1 до 1000000. Затем разделите 1 на эту колонку. Полученный результат сохраните в переменную s. После этого каждый второй элемент в колонке умножьте на -1 (это можно сделать при помощи метода iloc s.iloc[1::2] = - s.iloc[1::2]). Умножьте каждое значение в этой колонке на 4. В конце посчитайте накопленную сумму.

На какое число похожи нижние значения в колонке?

In [None]:
import pandas as pd
import numpy as np

# Напишите свой код здесь

### Задание 6

Сгенерируйте числа от 1 до 100000 с шагом 1. Затем на их основе создайте колонку. Разделите 1 на эту колонку. Затем полученный массив возведите в квадрат. Домножьте на 6. Посчитайте накопленную сумму. В конце извлечите из каждого значения в колонке квадратный корень

In [None]:
import pandas as pd
import numpy as np

# Напишите свой код здесь

### Задание 7

Посчитайте натуральный логарифм зарплат. Значение округлите до 2 знаков после запятой

In [None]:
import os
import pandas as pd

path_empl = '../tables/employees.parquet' if os.path.exists('../tables/employees.parquet') else 'https://drive.google.com/uc?id=1AARD5-eVlCxoApt5CYZebrC3Cqw42lvj'

empl = pd.read_parquet(path_empl)
empl.head()

In [None]:
# Напишите свой код здесь

### Задание 8

Найдите угол между двумя векторам.

Для того чтобы это сделать необходимо сначала посчитать скалярное произведение между векторами (через знак @), затем это произведение надо разделить на норму каждого вектора (функция np.linalg.norm или это можно сделать через @ и квадратный корень). Такми образом мы получим косинус угла между двумя векторами. Теперь зная косинус угла необходимо вычеслить сам угол. Для этого необходимо посчитать арккосинус (np.arccos). В результате мы получим угол в раданах. Чтобы привести угол к градусам необходимо угол в радианах умножить на 180 и разделить на число $\pi$ (np.pi)

In [None]:
import numpy as np
x = np.array([6, 0, 1, 5, 5])
y = np.array([1, 4, 5, 2, 0])