<a target="_blank" href="https://colab.research.google.com/github/victorlymarev/pandas/blob/main/notebooks/10-operations.ipynb">
  <img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/>
</a>

# Операции с числами и строками
#### [Ссылка на видео](https://youtu.be/km18qCeo99I)

In [None]:
import pandas as pd
import numpy as np

Создаем датафрейм

In [None]:
df = pd.DataFrame({'Колонка 1': [1, 2, 3, 4, 5, 6],
              'Колонка 2': [6, 5, 4, 3, 2, 1],
              'Колонка 3': [np.nan, 3, 5, 0, 9, 11],
              'Имя': ['Миша', 'Саша', 'Юля',
                            'Настя', 'Андрей', 'Катя'],
              'Увлечение': ['Баскетбол', 'Хоккей', 'Волейбол',
                            'Футбол', 'Counter-Strike', 'Бильярд']
             })

In [None]:
df

# Операции с числами

| Знак   | Операция              | Метод                 |
|:-------|:----------------------|:----------------------|
| +      | Сумма                 | add                   |
| -      | Разность              | sub                   |
| *      | Умножение             | mul                   |
| /      | Деление               | div, truediv          |
| //     | Целочисленное деление | floordiv              |
| %      | Остаток от деления    | mod                   |
| **     | Возведение в степень  | pow                   |

#### Сложение колонки и числа

Выбирать колонку и присваивать ей значение вы можете как хотите

In [None]:
# Каждое значение в колонке увеличилось на 1
df['Колонка 1'] + 1

In [None]:
df['Колонка 1'].add(1)

#### Сложение двух колонок

In [None]:
df['Колонка 1'] + df['Колонка 2']

#### Сложение колонок с пропущенными значениями

In [None]:
df['Колонка 3']

#### Пропущенное значение всегда остается пропущенным значением

In [None]:
df['Колонка 1'] + df['Колонка 3']

#### Часто за пропусками скрываются нули. Заполнить пропуски нулем или каким-то другим значением можно методом fillna(), передав в него значение, которое вы хотите положить на метсто пропусков

In [None]:
df['Колонка 1'] + df['Колонка 3'].fillna(0)

Изначально в колонке есть пропуск

In [None]:
df['Колонка 3']

Мы заполнили его нулем

In [None]:
df['Колонка 3'].fillna(0)

#### Сопоставление колонок при сложении идет по индексам

Проэтому если вы складываете 2 разные таблицы, то проверьте, что в них совпадают индексы

In [None]:
# поменяли индексы
df['Колонка 1'].set_axis([3, 4, 5, 6, 7, 8])

In [None]:
df['Колонка 1'].set_axis([3, 4, 5, 6, 7, 8]) + df['Колонка 2']

По этой же причине не допускайте повторяющихся индексов при арифметических операциях

#### Вычитание

In [None]:
df['Колонка 1'] - 2
# df['Колонка 1'].sub(2)

In [None]:
2 - df['Колонка 1']
# df['Колонка 1'].rsub(2)

Разность двух колонок

In [None]:
df['Колонка 1'] - df['Колонка 2']

#### Умножение

In [None]:
df['Колонка 1'] * 2

In [None]:
df['Колонка 1'] * df['Колонка 2']

#### Деление

In [None]:
df['Колонка 1'] / 2

При делении на ноль получается знчение inf или NaN

In [None]:
df['Колонка 3']

In [None]:
df['Колонка 1'] / df['Колонка 3']

In [None]:
(-df['Колонка 1']) / df['Колонка 3']

In [None]:
(df['Колонка 1'] / df['Колонка 3']) > 1000000000000

0/0

In [None]:
df['Колонка 3'] / df['Колонка 3']

#### Целочисленное деление

5 / 2 = 2, остаток 1    
   
   
делеимое / делитель = частное и остаток от деления

In [None]:
df['Колонка 1'] // 2

#### Остаток от деления

In [None]:
df['Колонка 1'] % 2

#### Возведние в степень

In [None]:
df['Колонка 1'] ** 2

In [None]:
df['Колонка 1'] ** df['Колонка 1']

#### Целые числа нельзя возводить в отрицательную степень

In [None]:
df['Колонка 1'] ** - 2

In [None]:
df['Колонка 1'].astype(float) ** -2

In [None]:
1 / df['Колонка 1'] ** 2

### Арифметические операции определены стандартно, но если что-то непонятно, то лучше ставить скобки

In [None]:
((df['Колонка 1'] + df['Колонка 3']) * df['Колонка 2']) ** 0.5

In [None]:
df['Колонка 1'] / 2 * 100

In [None]:
(df['Колонка 1'] / 2) * 100

#### Когда мы записываем выражение в скобках мы его можем переносить между строк как угодно

In [None]:
(
df['Колонка 1']
+
df['Колонка 1']
)

#### Если мы после выполнения арифметических операций хотим использовать какие-то другие методы, то все выражение мы должны обернуть в круглые скобки

In [None]:
(df['Колонка 1'] + df['Колонка 2'])

In [None]:
(df['Колонка 1'] + df['Колонка 2']).sample(10, replace=True, random_state=9)

Иначе метод sample будет применен только к первому датафрейму

In [None]:
df['Колонка 1'] + df['Колонка 2'].sample(10, replace=True, random_state=9)

# Операции со строками

In [None]:
df['Имя']

#### Умножение на целое число

In [None]:
df['Имя'] * 3

#### Сложение двух строк

In [None]:
df['Имя'] + ' хороший человек'

In [None]:
df['Имя'] + df['Увлечение']

In [None]:
df['Имя'] + ' любит ' + df['Увлечение']

# Операции с датафреймами

Если операция определена для всех колонок датафрейма, то она может быть применена

In [None]:
df * 2

In [None]:
df + df + df

In [None]:
df.iloc[:, :3]

In [None]:
df.iloc[:, :3] + 1

In [None]:
df.iloc[:, :3] * 2

In [None]:
df.iloc[:, :3] ** 2

#### Сложение со списком идет построчно

In [None]:
df.iloc[:, :3] + [100, 10000, 1000000]

Поэтому просто так колонку к датафрему прибавить не получится

In [None]:
df.iloc[:, :3] + df['Колонка 1']

In [None]:
df['Колонка 1'].to_numpy().reshape(-1, 1)

In [None]:
df.iloc[:, :3] + df['Колонка 1'].to_numpy().reshape(-1, 1)

# Операции с векторами и матрицами

Создаем 2 матрицы и вектор

In [None]:
np.random.seed(32)
matrix_1 = np.arange(24).reshape(6, -1)
matrix_1

In [None]:
np.random.seed(32)
matrix_2 = np.random.randint(10, size=(4, 6))
matrix_2

In [None]:
vector = np.arange(4)
vector

Все операции определены так же, как и у DataFrame и Series

In [None]:
matrix_1 * 2

In [None]:
vector + 10

In [None]:
matrix_1 + matrix_2.T

In [None]:
matrix_1 + vector

In [None]:
matrix_2 + vector.reshape(-1, 1)

In [None]:
(matrix_2.T + vector).T

### Скалярное произведение

In [None]:
vector @ np.arange(5, 9)

In [None]:
print(vector)
print(np.arange(5, 9))
print('---------')
print(vector * np.arange(5, 9))
print((vector * np.arange(5, 9)).sum())

#### Матричное умнжение

![image.png](attachment:image.png)

In [None]:
matrix_1 @ matrix_2

In [None]:
matrix_1

In [None]:
matrix_2

In [None]:
matrix_2 @ matrix_1

In [None]:
matrix_1.dot(matrix_2)

### Операциями с векторами разных размеров

In [None]:
vector_1 = np.arange(1, 10).reshape(-1, 1)
vector_1

In [None]:
vector_2 = np.arange(1, 7)
vector_2

In [None]:
vector_1 * vector_2

In [None]:
vector_1 @ vector_2.reshape(1, -1)

In [None]:
vector_1 @ vector_2[None, ...]

### Многомерные операции

In [None]:
np.random.seed(42)
tenzor = np.random.randint(10, size=(2, 4, 4))
np.random.seed(4223)
matrix = np.random.randint(10, size=(4, 4))
tenzor

In [None]:
matrix

In [None]:
tenzor.shape

In [None]:
tenzor[0]

In [None]:
tenzor[1]

In [None]:
matrix @ tenzor

In [None]:
matrix @ tenzor[0]

In [None]:
matrix @ tenzor[1]

In [None]:
tenzor @ tenzor

In [None]:
tenzor[0] @ tenzor[0]

Это работает не только с матричным умножением, но и с другими операциями

In [None]:
tenzor * tenzor[0]

# Задания

#### Описание таблиц лежит [здесь](https://github.com/victorlymarev/pandas/tree/main/tables#%D0%BE%D0%BF%D0%B8%D1%81%D0%B0%D0%BD%D0%B8%D0%B5-%D1%82%D0%B0%D0%B1%D0%BB%D0%B8%D1%86)

Некоторые таблицы занимают много памяти, поэтому каждые 5-10 заданий лучше перезапускайте ноутбук.

В формулировке некоторых заданий может содержаться вариативность. Если у вас есть сомнения, что требуется в задании, попробуйте решить несколько вариантов. Если вы не понимаете задание, можете написать об этом в комментариях под видео.

В большинстве случаев внешний вид итоговой таблицы не определен. Выведите на экран наиболее адекватный вариант. То есть таблицу, из которой можно будет сделать выводы.

Курс пока находится в разработке. Вы можете помочь другим людям добавив свое решение [сюда](https://docs.google.com/forms/d/1HYTBz_KfssY3Jps2dC3n0YnEqa6WBb5OIhLo1d32Xzw/edit).

Посмотреть решения других людей можно [здесь](https://docs.google.com/spreadsheets/d/1pMDYO-9UneLbPPnEuQ2shig0TOJdQTU-zipifyAnZMk/edit?resourcekey#gid=1998648012)

### Задание 1

Перемножьте колонки price (цена) и goods_number (количество товара в чеке). Назавите колонку sum_price

In [None]:
# таблица sales - большая, и в некоторых случаях ваш компьютер может не справиться с ее обработкой
# поэтому лучше работайте с частью этой таблицы
# но если вы хотите попробовать поработать с полной версией таблицы,
# можете заменить переменную path_sales_2022 на path_sales внутри функции read_parquet

import os
import pandas as pd

path_sales_2022 = '../tables/sales_2022.parquet' if os.path.exists('../tables/sales_2022.parquet') else 'https://drive.google.com/uc?id=17e7FwXVdsWc2aziK9s5KidIvPcfKt9F5'
# path_sales = '../tables/sales.parquet' if os.path.exists('../tables/sales.parquet') else "https://drive.usercontent.google.com/download?id=15KwSxyM6hpNABGe6_vsrFZvD09VfHFyK&export=download&authuser=1&confirm=t&uuid=115bd48c-cc2c-4f2a-8b42-be5ca6ef6db8&at=APZUnTUVb8nfNANw5wr9Cad7PJ3U:1693327774694"

sales = pd.read_parquet(path_sales_2022)
sales.head()

In [None]:
# Напишите свой код здесь

### Задание 2

Посчитайте заработную плату после вычета налога в 13%

In [None]:
import os
import pandas as pd

path_empl = '../tables/employees.parquet' if os.path.exists('../tables/employees.parquet') else 'https://drive.google.com/uc?id=1AARD5-eVlCxoApt5CYZebrC3Cqw42lvj'

empl = pd.read_parquet(path_empl)
empl.head()

In [None]:
# Напишите свой код здесь

### Задание 3

Посчитайте размер премии. Для этого создайте новую колонку bonus.

Премия выплачивается 31 декабря каждого года. В остальные месяцы премия равна нулю.
Для управляющего персонала (mgmt == 1), она равна двум заработным платам, а для всех остальных сотрудников она равна зарплате,
умноженной на оценку сотрудника и деленную на 5. Если оценка сотрудника пропущена. Заполните это значение числом 5.

In [None]:
import os
import pandas as pd

path_empl = '../tables/employees.parquet' if os.path.exists('../tables/employees.parquet') else 'https://drive.google.com/uc?id=1AARD5-eVlCxoApt5CYZebrC3Cqw42lvj'

empl = pd.read_parquet(path_empl)
empl.head()

In [None]:
# Напишите свой код здесь

### Задание 4

Соедините колонки city и adress в одну.

Пример того, как должна выглядить колонка: г. Воронеж, Пушкинская пл., д. 76

In [None]:
import os
import pandas as pd

path_shops = '../tables/shops.xlsx' if os.path.exists('../tables/shops.xlsx') else 'https://drive.google.com/uc?id=1gfnmceJa3Mc1X06NftTx9G9QfKfprjEB'

shops = pd.read_excel(path_shops)
shops.head()

In [None]:
# Напишите свой код здесь

### Задание 5

Для каждого школьника создайте 3 поля: первое поле должно содержать информацию о том, что у школьника по какому-то из предметов есть тройка, второе поле, что есть четверка и третье, что есть пятерка. Закодируйет эту информацию в один столбец

Способ кодировки можете выбрать сами. Например, 1 может значить, что у человека выполнено 1 условие, а два других нет, 2 - у человека выполено 2 условие а все остальные нет, 3 - у человека выполено 3 условие а все остальные нет, 4 - у человека выполнено перовое и второе условие, а третье нет и так далее

In [None]:
import os
import pandas as pd

path_marks = '../tables/школьные оценки.xlsx' if os.path.exists('../tables/школьные оценки.xlsx') else 'https://drive.google.com/uc?id=1v9kRv1I03CXtQ6vFE4mE3hFAty436qAo'
marks = pd.read_excel(path_marks)
marks.head()

In [None]:
# Напишите свой код здесь

### Задание 6

Мы знаем оценки по разным предметам, но не по геграфии. Оценку по ней уще не поставили. Однако у нас есть модель, которая предсказывает вероятность того, что школьник получит оценки 3, 4 и 5.

Посчитайте ожидаемую оценку для каждого школьника (взвесте оценки по вероятности). Для этого колонку 3 умножьте на 3, затем прибавьте к ней колонку 4, уноженную на 4, и колонку 5, умноженную на 5. 

In [None]:
import os
import numpy as np
import pandas as pd

path_marks = '../tables/школьные оценки.xlsx' if os.path.exists('../tables/школьные оценки.xlsx') else 'https://drive.google.com/uc?id=1v9kRv1I03CXtQ6vFE4mE3hFAty436qAo'
marks = pd.read_excel(path_marks)
p = np.random.rand(len(marks) * 3).reshape(-1, 3)
p = p / p.sum(1).reshape(-1, 1)

np.random.seed(243)
probs = marks[['ФИО', 'Пол']].join(pd.DataFrame(p, columns=[3, 4, 5]))
probs.head()

In [None]:
# Напишите свой код здесь

### Задание 6

В ячейке ниже создается 2 матрицы. Посмотрите их на их размерность при помощи атрибута shape. После этого попробуйте их перемножить: сначала поэлементно, а затем матрично. Однако во втором случае одну из матриц придется транспонировать. Посчитайете 4 варианта: x<sup>T</sup>y, y<sup>T</sup>x, xy<sup>T</sup>, y<sup>T</sup>x

In [None]:
import numpy as np
np.random.seed(455432)
x, y = np.random.normal(0, 1, size=(2, 3, 50))

In [None]:
# Напишите свой код здесь

### Задание 7

Создайте 2 вектора одинакового размера и найдите между ними скалярное произведение

In [None]:
import numpy as np

In [None]:
# Напишите свой код здесь