# **Арифметические операции между объектами в Pandas**

Арифметические операции можно совершать как между Series, так и между DataFrame. Основные математические операции однотипны и производятся поэлементно. Если метки индекса двух Series не совпадают, то будет создана новая метка. Если один из элементов отсутствует в одной из Series, то результатом операции будет NaN. В случае DataFrame всё примерно аналогично - если метки индекса и названия столбцов двух DataFrame не совпадают, то будет создан новый индекс или новый столбец. Если один из элементов отсутствует в одном из DataFrame, то результатом операции будет NaN (операция с NaN возвратит NaN).

In [None]:
# пример сложения двух Series
import pandas as pd

s1 = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
s2 = pd.Series([4, 5, 6], index=['a', 'c', 'd'])
s3 = s1 + s2
print(s3)

# a    5.0
# b    NaN
# c    8.0
# d    NaN
# dtype: float64

Серию можно сложить с списком, в таком случае сложение будет поэлементным (нулевой элемент списка складывается с нулевым элементом серии, первый - с первым и т.д.).

In [None]:
# пример сложения Series и списка
import pandas as pd

s = pd.Series([1, 2, 3])
s += [3, 4, 5]

print(s)

# 0    4
# 1    6
# 2    8
# dtype: int64

In [None]:
# пример сложения двух DataFrame

import pandas as pd
import numpy as np

df1 = pd.DataFrame(np.random.randn(3, 2), columns=['a', 'b'])
df2 = pd.DataFrame(np.random.randn(2, 3), columns=['b', 'c', 'd'])
df3 = df1 + df2
print(df3)

#     a         b   c   d
# 0 NaN  0.110268 NaN NaN
# 1 NaN -1.730586 NaN NaN
# 2 NaN       NaN NaN NaN

# вывод такой, так как в df2 отсутствует колонка a, а в df1 отсутстсвуют колонки b, c и d.
# также в df2 всего две строки

Следует отметить относительно операции деления, если делитель равен нулю, то результатом будет inf - бесконечность.

В pandas можно выполнять арифметические операции с константами. В этом случае операция выполняется поэлементно.

In [None]:
# пример арифметических операций с константами
import pandas as pd
import numpy as np

s = pd.Series([1, 2, 3])
df = pd.DataFrame(np.random.randn(3, 2), columns=['a', 'b'])
s1 = s + 1
df1 = df * 2

print(s1)
print(df1)

# 0    2
# 1    3
# 2    4
# dtype: int64
#           a         b
# 0  2.029291 -4.087751
# 1 -0.559872  1.506203
# 2 -0.651024  2.550921

## **Восполнение отсутствующих значений в арифметических операциях**

При выполнении арифметических операций с объектами типа Series и DataFrame, может возникнуть несовпадение индексов элементов. Если какие-то индексы не совпадают, то при выполнении операции для них будет возвращено значение NaN (Not a Number). 

В pandas есть несколько методов, которые можно использовать для восстановления значений NaN в процессе выполнения арифметических операций. Так у любого оператора в Pandas есть свой дубликат в виде функции. Например, аналог операции сложения - метод `add`.

Конкретно для метода `add()`, если при выполнении операции сложения двух объектов типа Series или DataFrame находятся элементы с несовпадающими индексами, то при использовании параметра `fill_value` эти элементы могут быть заменены на значение `fill_value`.

In [None]:
# пример операции сложения с помощью метода add(), чтобы заменить элементы с отсутствующими индексами
import pandas as pd

s1 = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
s2 = pd.Series([4, 5, 6], index=['b', 'c', 'd'])

print(s1)

# a    1
# b    2
# c    3
# dtype: int64

print(s2)

# b    4
# c    5
# d    6
# dtype: int64

s3 = s1.add(s2, fill_value=0)

print(s3)

# a    1.0
# b    6.0
# c    8.0
# d    6.0
# dtype: float64

Как видно из результата в примере выше, элементы с индексами 'a' и 'd', которых нет в обоих объектах, появляются в результирующем объекте с значениями NaN. Однако, благодаря параметру `fill_value=0`, значения NaN заменяются на 0, и мы получаем объект с корректными значениями.

Следует обратить внимание, что в данном примере использовался параметр `fill_value=0`, но его можно заменить на любое другое значение в зависимости от требований задачи.

У большинства арифметических операций есть параметр `fill_value`, который может быть использован для замены отсутствующих значений в процессе выполнения операций.

Например, для метода `sub()` (вычитание) этот параметр используется аналогично методу `add()`, но в данном случае он будет применен к отсутствующим значениям из объекта, с которого производится вычитание.

Также параметр `fill_value` может быть использован в методах `mul()` (умножение), `div()` (деление),  `floordiv()` (целочисленное деление), `pow()` (возведение в квадрат), `mod()` - вычисление остатка от деления, которые соответственно выполняют операции умножения, деления, целочисленного деления и возведения в степень.

# **Арифметические операции между Series и DataFrame**

Когда мы выполняем арифметические операции между объектами Series и DataFrame, pandas использует (broadcasting) правило укладывания, чтобы применить операцию к каждому элементу в DataFrame. Это означает, что операция выполняется для каждого столбца (или строки) в DataFrame с каждым элементом в Series. Следует обратить внимание, что при этом происходит автоматическое выравнивание по меткам (индексам) объектов Series и DataFrame.

Если индексы в объекте Series и DataFrame не совпадают, pandas автоматически выравнивает объекты по меткам индекса перед выполнением операции. В случае отсутствия соответствующего значения в одном из объектов, pandas заполняет соответствующую ячейку NaN.


In [None]:
# пример операции между DataFrame и Series
import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [10, 20, 30, 40], 'C': [100, 200, 300, 400]})

print(df)

#    A   B    C
# 0  1  10  100
# 1  2  20  200
# 2  3  30  300
# 3  4  40  400

s = pd.Series([0.1, 0.2, 0.3], index=['A', 'B', 'C'])

print(s)

# A    0.1
# B    0.2
# C    0.3
# dtype: float64

print(df + s)

#      A     B      C
# 0  1.1  10.2  100.3
# 1  2.1  20.2  200.3
# 2  3.1  30.2  300.3
# 3  4.1  40.2  400.3

In [None]:
# пример операции между DataFrame и Series с несовпадающими индексами
import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [10, 20, 30, 40], 'C': [100, 200, 300, 400]})
s = pd.Series([0.1, 0.2, 0.3, 0.4], index=['B', 'C', 'D', 'E'])

print(df + s)

#     A     B      C   D   E
# 0 NaN  10.1  100.2 NaN NaN
# 1 NaN  20.1  200.2 NaN NaN
# 2 NaN  30.1  300.2 NaN NaN
# 3 NaN  40.1  400.2 NaN NaN

## **Использование методов - операторов**

Для выполнения операций между Series и DataFrame в pandas также можно использовать методы типа add, sub, mul, div и т.д., которые обладают дополнительными параметрами для настройки укладывания.

Параметр axis=0, указывает pandas, что нужно выполнить операцию по строкам. Параметр axis=1 - что по столбцам.

In [None]:
# пример сложения Series и DataFrame при помощи метода add
import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3], 'B': [10, 20, 30], 'C': [100, 200, 300]})
s = pd.Series([1, 2, 3])
df_new = df.add(s, axis=0) # дефолтное значение axis=1

print(df_new)

#    A   B    C
# 0  2  11  101
# 1  4  22  202
# 2  6  33  303

df_new2 = df.add(s, axis=1) # можно не указывать axis=1, т.к. значение встаёт по умолчанию

print(df_new2)

#     A   B   C   0   1   2
# 0 NaN NaN NaN NaN NaN NaN
# 1 NaN NaN NaN NaN NaN NaN
# 2 NaN NaN NaN NaN NaN NaN

# если нужно корректно сложить столбцы df с соответствующими номерами строк s, надо переименовать столбцы df или индексы s
s.index = ['A', 'B', 'C']
df_new3 = df.add(s)

print(df_new3)

#    A   B    C
# 0  2  12  103
# 1  3  22  203
# 2  4  32  303

Когда мы складываем DataFrame с другим столбцом этого DataFrame, мы можем использовать оператор сложения (+), так как pandas автоматически выполняет укладывание по столбцам.

In [None]:
# пример, где есть df со столбцами A, B, C, и к нему добавляется столбец D - сумма столбцов A и B
import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3], 'B': [10, 20, 30], 'C': [100, 200, 300]})
df['D'] = df['A'] + df['B']
print(df)

#    A   B    C   D
# 0  1  10  100  11
# 1  2  20  200  22
# 2  3  30  300  33

# **Применение функций к объектам Pandas, метод apply**

В Pandas функции можно применять к DataFrame для манипуляции и обработки данных. Одним из способов применения функций к DataFrame в Pandas является метод `apply()`.

Метод `apply()` используется для применения функции к каждому элементу столбца или строки DataFrame. Метод `apply()` может быть использован с функцией, определенной пользователем или со встроенной функцией.

In [None]:
# пример применения заданной пользователем (или лямбда) функции к столбцу df
import pandas as pd

df = pd.DataFrame({'магазин': ['Магазин 1', 'Магазин 2', 'Магазин 3'],
                   'продукт': ['Молоко', 'Хлеб', 'Масло'],
                   'цена': [100, 50, 80],
                   'количество': [10, 20, 15]})

def add_tax(price):
    return price * 1.1

df['цена с налогом'] = df['цена'].apply(add_tax)

# df['цена с налогом'] = df['цена'].apply(lambda x: x * 1.1)
# df['цена с налогом'] = add_tax(df['цена'])
# вывод у всех опций аналогичный

print(df)

#      магазин продукт  цена  количество  цена с налогом
# 0  Магазин 1  Молоко   100          10           110.0
# 1  Магазин 2    Хлеб    50          20            55.0
# 2  Магазин 3   Масло    80          15            88.0


Метод `apply()` также может быть использован для применения функции к строкам DataFrame. Для этого необходимо указать параметр `axis`. Параметр `axis` может быть установлен равным 0 для применения функции к каждому столбцу или равным 1 для применения функции к каждой строке.

In [None]:
# пример применения функции к каждой строке
import pandas as pd

df = pd.DataFrame({'магазин': ['Магазин 1', 'Магазин 2', 'Магазин 3'],
                   'продукт': ['Молоко', 'Хлеб', 'Масло'],
                   'цена': [100, 50, 80],
                   'количество': [10, 20, 15]})

def total_sales(row):
    return row['цена'] * row['количество']

df['общая выручка'] = df.apply(total_sales, axis=1)

#можно обойтись без apply(), если передать функции total_sales df целиком
# df['общая выручка'] = total_sales(df)

print(df)

#      магазин продукт  цена  количество  общая выручка
# 0  Магазин 1  Молоко   100          10           1000
# 1  Магазин 2    Хлеб    50          20           1000
# 2  Магазин 3   Масло    80          15           1200

## **Применение функций NumPy к элементам DataFrame**

К DataFrame и Series объектам в Pandas при помощи метода `apply()` можно применять и функции NumPy.

In [None]:
# пример применения функций NumPy к колонкам
import pandas as pd
import numpy as np

data = {'a': [1, 2, 3, 4, 5], 'b': [10, 20, 30, 40, 50]}
df = pd.DataFrame(data)

df['a^2'] = df['a'].apply(np.square)

print(df)

#    a   b  a^2
# 0  1  10    1
# 1  2  20    4
# 2  3  30    9
# 3  4  40   16
# 4  5  50   25

In [None]:
# пример применения функций NumPy к строкам
import pandas as pd

df = pd.DataFrame({'магазин': ['Магазин 1', 'Магазин 2', 'Магазин 3'],
                   'продукт': ['Молоко', 'Хлеб', 'Масло'],
                   'цена': [100, 50, 80],
                   'количество': [10, 20, 15]})

df['sum'] = df.iloc[:,2:].apply(np.sum, axis=1)

print(df)

#      магазин продукт  цена  количество  sum
# 0  Магазин 1  Молоко   100          10  110
# 1  Магазин 2    Хлеб    50          20   70
# 2  Магазин 3   Масло    80          15   95

При определённых условиях (к примеру, столбцы все состоят только из чисел) можно использовать функции NumPy без метода `apply()`. Cинтаксис NumPy позволяет применять функции к отдельным измерениям многомерного массива с помощью подходящей установки параметра `axis`.

In [None]:
# пример использования функции NumPy без метода apply()
import pandas as pd

data = {'a': [1, 2, 3, 4, 5], 'b': [10, 20, 30, 40, 50]}
df = pd.DataFrame(data)
df['sum'] = np.sum(df, axis=1)

print(df)


#    a   b  sum
# 0  1  10   11
# 1  2  20   22
# 2  3  30   33
# 3  4  40   44
# 4  5  50   55

# **Сортировка объектов Series и DataFrame**

## **Сортировка по индексу**

Сортировка Series по индексу производится с помощью метода `sort_index()`. Этот метод принимает несколько параметров:
1. `axis` - указывает, какую ось сортировать (в данном случае, всегда равен 0);
2. `ascending` - определяет порядок сортировки (по возрастанию или убыванию);
3. `inplace` - если значение равно True, то изменения вступают в силу непосредственно в объекте, иначе создается новый отсортированный объект.

Для сортировки Series по индексу необходимо вызвать метод `sort_index()` на нужной Series. Например, есть Series s, его можно отсортировать по возрастанию следующим образом:

`s_sorted = s.sort_index(ascending=True)`

В данном случае был создан новый отсортированный объект s_sorted, а исходный объект s остался неизменным. Если нужно изменить сам объект s, то следует передать параметр `inplace=True`:

`s.sort_index(ascending=True, inplace=True)`

In [None]:
# пример сортировки по индексу
import pandas as pd

s = pd.Series([4, 3, 2, 1], index=['d', 'c', 'b', 'a'])

print(s)

# d    4
# c    3
# b    2
# a    1
# dtype: int64

s_sorted = s.sort_index()

print(s_sorted)

# a    1
# b    2
# c    3
# d    4
# dtype: int64

Сортировка DataFrame по индексу также производится с помощью метода sort_index(). Этот метод принимает такие же параметры, как и метод `sort_index()` для Series, а также дополнительные параметры:
1. `level` - уровень индекса, по которому нужно сортировать (по умолчанию равен 0);
2. `sort_remaining` - определяет, следует ли сортировать оставшуюся часть DataFrame (по умолчанию равен True).

Для сортировки DataFrame по индексу необходимо вызвать метод `sort_index()` на нужном DataFrame. Например, если есть DataFrame df, то его можно отсортировать по возрастанию следующим образом:

`df_sorted = df.sort_index(ascending=True)`

В данном случае был создан новый отсортированный объект df_sorted, а исходный объект df остался неизменным. Если нужно изменить сам объект df, то следует передать параметр `inplace=True`:

`df.sort_index(ascending=True, inplace=True)`

In [None]:
# пример сортировки DataFrame по индексу
import pandas as pd

df = pd.DataFrame({'A': [1, 4, 3, 2], 'B': [3, 2, 1, 4], 'C': [2, 1, 4, 3]}, index=['d', 'c', 'b', 'a'])

print(df)

#    A  B  C
# d  1  3  2
# c  4  2  1
# b  3  1  4
# a  2  4  3

df_sorted = df.sort_index()

print(df_sorted)

#    A  B  C
# a  2  4  3
# b  3  1  4
# c  4  2  1
# d  1  3  2

Параметр `axis` в методе `sort_index` используется для определения оси, по которой необходимо выполнить сортировку индексов. Он может принимать значение `0` или `'index'` для сортировки по строкам (индексам) и значение `1` или `'columns'` для сортировки по столбцам.

In [None]:
# пример сортировки DataFrame по индексам столбцов
import pandas as pd

df = pd.DataFrame({'C': [1, 4, 3, 2], 'B': [3, 2, 1, 4], 'A': [2, 1, 4, 3]}, index=['d', 'c', 'b', 'a'])

print(df)

#    C  B  A
# d  1  3  2
# c  4  2  1
# b  3  1  4
# a  2  4  3

df_sorted = df.sort_index(axis=1, ascending=True)

print(df_sorted)

#    A  B  C
# d  2  3  1
# c  1  2  4
# b  4  1  3
# a  3  4  2

## **Сортировка по значениям в столбцах, метод sort_values**

Для сортировки DataFrame или Series по одному столбцу можно использовать следующий синтаксис:

`df.sort_values(by='column_name', ascending=True)`

Здесь `df` - DataFrame, который нужно отсортировать, `'column_name'` - имя столбца, по которому нужно отсортировать, а `ascending` определяет порядок сортировки - по возрастанию или убыванию. По умолчанию `ascending=True`.

In [None]:
# пример сортировки DataFrame по одному столбцу
import pandas as pd

sales = pd.DataFrame({'date': ['2022-01-01', '2022-01-01', '2022-01-02', '2022-01-02', '2022-01-03'],
                      'item': ['apple', 'banana', 'apple', 'banana', 'orange'],
                      'quantity': [3, 2, 1, 4, 2],
                      'price': [1.99, 0.99, 2.49, 1.49, 0.79]})

print(sales)

#          date    item  quantity  price
# 0  2022-01-01   apple         3   1.99
# 1  2022-01-01  banana         2   0.99
# 2  2022-01-02   apple         1   2.49
# 3  2022-01-02  banana         4   1.49
# 4  2022-01-03  orange         2   0.79

sales_sorted = sales.sort_values('price')

print(sales_sorted)

#          date    item  quantity  price
# 4  2022-01-03  orange         2   0.79
# 1  2022-01-01  banana         2   0.99
# 3  2022-01-02  banana         4   1.49
# 0  2022-01-01   apple         3   1.99
# 2  2022-01-02   apple         1   2.49

Также можно отсортировать данные по нескольким столбцам. Для этого нужно указать список столбцов, по которым нужно выполнить сортировку.

In [None]:
# пример сортировки DataFrame по нескольким столбцам
import pandas as pd

sales = pd.DataFrame({'date': ['2022-01-01', '2022-01-01', '2022-01-02', '2022-01-02', '2022-01-03'],
                      'item': ['apple', 'banana', 'apple', 'banana', 'orange'],
                      'quantity': [3, 2, 1, 4, 2],
                      'price': [1.99, 0.99, 2.49, 1.49, 0.79]})

print(sales)

#          date    item  quantity  price
# 0  2022-01-01   apple         3   1.99
# 1  2022-01-01  banana         2   0.99
# 2  2022-01-02   apple         1   2.49
# 3  2022-01-02  banana         4   1.49
# 4  2022-01-03  orange         2   0.79

sales_sorted = sales.sort_values(['item', 'price'])

print(sales_sorted)

#          date    item  quantity  price
# 0  2022-01-01   apple         3   1.99
# 2  2022-01-02   apple         1   2.49
# 1  2022-01-01  banana         2   0.99
# 3  2022-01-02  banana         4   1.49
# 4  2022-01-03  orange         2   0.79

Как видно из результата, DataFrame отсортирован сначала по столбцу item, а затем по столбцу price. По умолчанию сортировка выполняется по возрастанию. Чтобы изменить направление сортировки для каждого столбца, можно передать список булевых значений в параметр ascending. Например, чтобы отсортировать данные сначала по столбцу item в порядке убывания, а затем по столбцу price в порядке возрастания.

In [None]:
# пример сортировки DataFrame по нескольким столбцам с разными направлениями
import pandas as pd

sales = pd.DataFrame({'date': ['2022-01-01', '2022-01-01', '2022-01-02', '2022-01-02', '2022-01-03'],
                      'item': ['apple', 'banana', 'apple', 'banana', 'orange'],
                      'quantity': [3, 2, 1, 4, 2],
                      'price': [1.99, 0.99, 2.49, 1.49, 0.79]})

print(sales)

#          date    item  quantity  price
# 0  2022-01-01   apple         3   1.99
# 1  2022-01-01  banana         2   0.99
# 2  2022-01-02   apple         1   2.49
# 3  2022-01-02  banana         4   1.49
# 4  2022-01-03  orange         2   0.79

sales_sorted = sales.sort_values(['item', 'price'], ascending=[False, True])

print(sales_sorted)

#          date    item  quantity  price
# 4  2022-01-03  orange         2   0.79
# 1  2022-01-01  banana         2   0.99
# 3  2022-01-02  banana         4   1.49
# 0  2022-01-01   apple         3   1.99
# 2  2022-01-02   apple         1   2.49

Кроме того, `sort_values()` может принимать дополнительные параметры для работы с пропущенными значениями, а также для изменения поведения при сортировке по строкам с одинаковыми значениями.

Например, параметр `na_position` указывает, как обрабатывать строки с пропущенными значениями. Значение `first` указывает на то, что строки с пропущенными значениями должны быть расположены в начале отсортированного DataFrame, а `last` – в конце. По умолчанию, `na_position='last'`.

In [None]:
# пример сортировки с DataFrame с регулированием позиции пропусков
import pandas as pd

sales = pd.DataFrame({'date': ['2022-01-01', '2022-01-01', '2022-01-02', '2022-01-02', '2022-01-03', '2022-01-04'],
                      'item': ['apple', 'banana', 'apple', 'banana', 'orange', 'apple'],
                      'quantity': [3, 2, 1, 4, 2, 2],
                      'price': [1.99, 0.99, None, 1.49, 0.79, 1.99]})

print(sales)

#          date    item  quantity  price
# 0  2022-01-01   apple         3   1.99
# 1  2022-01-01  banana         2   0.99
# 2  2022-01-02   apple         1    NaN
# 3  2022-01-02  banana         4   1.49
# 4  2022-01-03  orange         2   0.79
# 5  2022-01-04   apple         2   1.99

sales_sorted = sales.sort_values(['item', 'price'], ascending=[False, True], na_position='first')

print(sales_sorted)

#          date    item  quantity  price
# 4  2022-01-03  orange         2   0.79
# 1  2022-01-01  banana         2   0.99
# 3  2022-01-02  banana         4   1.49
# 2  2022-01-02   apple         1    NaN
# 0  2022-01-01   apple         3   1.99
# 5  2022-01-04   apple         2   1.99

# **Ранжирование Series и DataFrame объектов в Pandas**

**Что такое ранжирование?**

Ранжирование (или рейтинг) в Pandas - это процесс присвоения рангов или порядковых номеров элементам в Series или DataFrame. Ранг - это порядковый номер, который присваивается каждому элементу, в зависимости от его положения в отсортированном списке. Таким образом, ранг элемента указывает на его относительную позицию в отсортированном списке.

**Зачем нужно ранжирование?**

Ранжирование может быть полезным для анализа данных в Pandas. Например, ранжирование может использоваться для:
* Поиска наибольших или наименьших значений в наборе данных.
* Определения места элемента в списке в зависимости от его значения.
* Идентификации выбросов или аномалий в наборе данных.
* Создания групп на основе ранга элементов в наборе данных.

**Как работает ранжирование в Pandas?**

В Pandas ранжирование может быть выполнено с помощью метода .rank(). Этот метод возвращает новый объект Series или DataFrame, в котором каждому элементу присвоен ранг. По умолчанию, метод `rank()` назначает каждому элементу ранг, основываясь на его позиции в отсортированном списке. Если несколько элементов имеют одинаковые значения, то им будет присвоен средний ранг (параметр `method=average`).


In [None]:
# пример ранжирования элементов Series
import pandas as pd

data = pd.Series([10, 20, 30, 40, 50])

rank = data.rank()

print(rank)

# 0    1.0
# 1    2.0
# 2    3.0
# 3    4.0
# 4    5.0
# dtype: float64

Если в списке будут присутствовать несколько одинаковых элементов, то ранг для них будет рассчитываться как среднее арифметическое (по умолчанию).

In [None]:
# пример ранжирования Series с одинаковыми элементами
import pandas as pd

data = pd.Series([10, 20, 30, 40, 50, 50])

rank = data.rank()

print(rank)

# 0    1.0
# 1    2.0
# 2    3.0
# 3    4.0
# 4    5.5
# 5    5.5
# dtype: float64

С DataFrame всё работает по аналогии. Есть возможность рассчитывать ранги как и для всего DataFrame, так и для отдельных колонок.

In [None]:
# пример ранжирования элементов всех колонок DataFrame
import pandas as pd

data = pd.DataFrame({
    'Имя': ['Андрей', 'Борис', 'Владимир', 'Дмитрий'],
    'Оценка': [95, 85, 90, 85]
})

rank = data.rank()

print(rank)

#    Имя  Оценка
# 0  1.0     4.0
# 1  2.0     1.5
# 2  3.0     3.0
# 3  4.0     1.5

In [None]:
# пример ранжирования элементов отдельной колонки DataFrame и добавления ранговых значений как новой колонки
import pandas as pd

data = pd.DataFrame({
    'Имя': ['Андрей', 'Борис', 'Владимир', 'Дмитрий'],
    'Оценка': [95, 85, 90, 85]
})

rank = data['Оценка'].rank()
data['Ранг'] = rank

print(data)

#         Имя  Оценка  Ранг
# 0    Андрей      95   4.0
# 1     Борис      85   1.5
# 2  Владимир      90   3.0
# 3   Дмитрий      85   1.5

 С помощью параметра `method` можно управлять назначением рангов:
 * Eсли передать в `method` параметр `min`, то одинаковым элементам будет присваиваться минимальный рейтинг.
 * Eсли передать в `method` параметр `max`, то одинаковым элементам будет присваиваться максимальный рейтинг.
 * Если параметр `method` равен `first`, то одинаковым элементам будет присвоен рейтинг в порядке их появления в DataFrame, т.е. более раннему элементу, при совпадении значений нескольких элементов, будет присвоен меньший ранг и т.д. 

In [None]:
# пример явного задания параметра method
import pandas as pd

data = pd.DataFrame({
    'Имя': ['Андрей', 'Борис', 'Владимир', 'Дмитрий', 'Николай'],
    'Оценка': [95, 85, 90, 80, 80]
})

rank = data['Оценка'].rank(method='min')

data['Ранг'] = rank

print(data)

#         Имя  Оценка  Ранг
# 0    Андрей      95   5.0
# 1     Борис      85   3.0
# 2  Владимир      90   4.0
# 3   Дмитрий      80   1.0
# 4   Николай      80   1.0

Также метод `rank()` в Pandas позволяет вычислять ранги не только по столбцам, но и по строкам. Для этого нужно указать параметр `axis=1`, который указывает, что ранги должны быть вычислены по строкам.

In [None]:
# пример использования метода rank для вычисления рангов по строкам
import pandas as pd

df = pd.DataFrame({'A': [1, 4, 3, 4], 'B': [3, 2, 4, 1]})

print(df)

#    A  B
# 0  1  3
# 1  4  2
# 2  3  4
# 3  4  1

print(df.rank(axis=1))

#      A    B
# 0  1.0  2.0
# 1  2.0  1.0
# 2  1.0  2.0
# 3  2.0  1.0

Как видно из вывода, метод `rank()` вычисляет ранги по строкам для каждой строки отдельно. Например, первая строка имеет наименьшее значение в столбце A и второе наименьшее значение в столбце B, поэтому ей назначается ранг 1 в столбце A и ранг 2 в столбце B. Вторая строка имеет второе наименьшее значение в столбце A и наименьшее значение в столбце B, поэтому ей назначается ранг 2 в столбце A и ранг 1 в столбце B, и так далее для оставшихся строк.

# **Сравнение объектов Pandas**

Операторы сравнения стандартные: '`>`', '`<`', '`==`', '`!=`'. Для них есть аналоги-методы (основное отличие в том, что они позволяют сравнивать Series и DataFrame с неодинаковыми индексами):
* `eq()`: `==`.
* `ne()`: `!=`.
* `le()`: `<=`.
* `lt()`: `<`.
* `ge()`: `>=`.
* `gt()`: `>`.

Сравнение Series с числом возвратит булевую маску из результатов поэлементного сравнения серии с этим числом. 

Сравнение Series со списком возвратит булевую маску из результатов поочерёдного сравнения каждого элемента серии с соответствующим элементом списка (нулевого - с нулевым, первого - с первым и т.д.). 

Сравнение Series с другой Series аналогично сравнению серии со списком. При сравнении серии с серией (при помощи стандартных операторов сравнения) индексы строк должны быть одинаковыми и идти в одинаковой последовательности, иначе будет ошибка!

Метод `equals()` используется для сравнения двух Series или двух DataFrame. Возвращает True, если они одинаковы, и False - если они неодинаковы. Значения Nan с одинаковыми индексами рассматриваются как равные; индексы строк и индексы столбцов должны быть одинаковыми и идти в одинаковом порядке.

**Примечание:** результатом сравнения np.nan с np.nan или другим числом всегда будет False (кроме сравнения при помощи `equals()`).

**Примечание 1:** при сравнении объекта Pandas с другим объектом Pandas при помощи указанных выше методов происходит сначала выравнивание индексов, а только затем - сравнение (пример).

In [None]:
# пример сравнения Series с числом, списком, другой Series
import pandas as pd

s = pd.Series([1, 2, 3, 4, 5])

print(s == 3)

# 0    False
# 1    False
# 2     True
# 3    False
# 4    False
# dtype: bool

print(s == [1, 4, 3, 2, 5])

# 0     True
# 1    False
# 2     True
# 3    False
# 4     True
# dtype: bool

print(s == pd.Series([1, 2, 'abc', 4, 5]))

# 0     True
# 1     True
# 2    False
# 3     True
# 4     True
# dtype: bool

# пример сравнения Series с Series с отличающимися индексами
s1 = pd.Series([1, 2, 3, 4, 5])
s2 = pd.Series([1, 2, 3, 4, 5], index=[0, 'b', 2, 'd', 4])

print(s1.eq(s2))

# 0     True
# 1    False
# 2     True
# 3    False
# 4     True
# b    False
# d    False
# dtype: bool

# пример использования метода equals()
print(s1.equals(pd.Series([1, 2, 3, 4, 5]))) # True

При сравнении DataFrame с числом сравнение происходит поэлементно, возвращается DataFrame из булевых значений - результатов сравнения.

При сравнении DataFrame со списком количество элементов списка должно равняться количеству столбцов DataFrame. Далее нулевой элемент списка сравнивается со всеми значениями в нулевом столбце, первый - со всеми значениями первого столбца и т.д. На выходе DataFrame из булевых значений - результатов сравнения.

Все методы сравнения имеют аргумент `axis` (по умолчанию `axis=1`). В случае `axis=0` при сравнении DataFrame со списком сравнение элементов списка будет происходить не со значениями колонок, а со значениями строк.

При сравнении двух DataFrame (при помощи стандартных операторов сравнения) должны совпадать индексы и строк, и столбцов.

In [None]:
# пример сравнения DataFrame с числом, списком, серией, другим DataFrame
import pandas as pd

df = pd.DataFrame([[1, 4, 7], [2, 5, 8], [3, 6, 9]])

print(df)

#    0  1  2
# 0  1  4  7
# 1  2  5  8
# 2  3  6  9

print(df == 8)

#        0      1      2
# 0  False  False  False
# 1  False  False   True
# 2  False  False  False

print(df == [1, 4, 7])

#        0      1      2
# 0   True   True   True
# 1  False  False  False
# 2  False  False  False

print(df == pd.Series([1, 4, 7]))

#        0      1      2
# 0   True   True   True
# 1  False  False  False
# 2  False  False  False

print(df == pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]]))

#        0      1      2
# 0   True  False  False
# 1  False   True  False
# 2  False  False   True

# **Методы all() и any()**

Применяются к объектам DataFrame, Series и Index с булевыми значениями. 

Метод `all()` возвращает `True`, если все значения равны `True`, и `False`, если хотя бы одно значение равно `False`.

Метод `any()` возвращает `True`, если хотя бы одно значение равно `True`, и `False`, если хотя все значения равны `False`.

В случае применения методов к DataFrame проверяют соответствие условию каждой из колонок (или строк в случае аргумента `axis=1`), возвращают серию (примеры).

In [None]:
# примеры применения методов all() и any() к DataFrame
import pandas as pd

df = pd.DataFrame({'col_1': [True, True, True], 'col_2': [False, True, False], 'col_3': [False, False, False]})

print(df.all())

# col_1     True
# col_2    False
# col_3    False
# dtype: bool

print(df.any())

# col_1     True
# col_2     True
# col_3    False
# dtype: bool

print(df.any(axis=1))

# 0    True
# 1    True
# 2    True
# dtype: bool

# **Редукционные функции в Pandas**

В Pandas редукционные функции – это функции, которые сводят множество значений в объекте DataFrame или Series к единственному значению. Эти функции называются редукционными, потому что они «сжимают» данные до одного значения.

Некоторые из наиболее часто используемых редукционных функций в Pandas:

* `sum()`: вычисляет сумму значений в объекте DataFrame или Series
* `min()`: вычисляет минимальное значение в объекте DataFrame или Series
* `max()`: вычисляет максимальное значение в объекте DataFrame или Series
* `count()`: вычисляет количество значений в объекте DataFrame или Series
* `idxmin()`: возвращает индекс минимального значения в объекте DataFrame или Series
* `idxmax()`: возвращает индекс максимального значения в объекте DataFrame или Series
* `argmin()`: возвращает позицию наименьшего значения в объекте Series
* `argmax()`: возвращает позицию наибольшего значения в объекте Series
* `cumsum()`: возвращает кумулятивную сумму - сумму всех значений, которые были накоплены до данного момента в объекте DataFrame или Series
* `cumprod()`: возвращает кумулятивное произведение - произведение всех значений, которые были накоплены до данного момента в объекте DataFrame или Series
* `cummin()`: возвращает кумулятивный минимум - наименьшее значение, которое было накоплено до данного момента в объекте DataFrame или Series
* `cummax()`: возвращает кумулятивный максимум - наибольшее значение, которое было накоплено до данного момента в объекте DataFrame или Series

## **Функция sum()**

Эта функция в Pandas позволяет суммировать значения в DataFrame по строкам или столбцам. По умолчанию считает по столбцам, если нужна сумма по строкам, то надо указать параметр `axis=1`. По умолчанию учитываются текстовые значения, чтобы они не учитывались, надо использовать параметр `numeric_only=True`.

В функции `sum()` в Pandas есть необязательный параметр `skipna`, который по умолчанию имеет значение `True`. Этот параметр указывает, нужно ли пропускать пропущенные значения (NaN) при вычислении суммы.

Если параметр skipna равен True, то функция sum() пропускает любые значения NaN при вычислении суммы. Если параметр `skipna` равен `False`, то функция `sum()` вернет NaN в случае наличия хотя бы одного значения NaN в объекте DataFrame или Series.

Возвращает Series.

In [None]:
# пример использования функции sum() для строк и столбцов
import pandas as pd

data = {'Товар': ['Книга', 'Канцелярия', 'Одежда'],
        'Количество': [10, 50, 20],
        'Цена': [100, 50, 200]}

df = pd.DataFrame(data)

total_sales = df.sum()

print(total_sales)

# Товар         КнигаКанцелярияОдежда
# Количество                       80
# Цена                            350

total_sales = df.sum(axis=1, numeric_only=True)

print(total_sales)

# 0    110
# 1    100
# 2    220
# dtype: int64

## **Функция count()**

Данная функция в Pandas – это редукционная функция, которая возвращает количество значений в объекте DataFrame или Series. Эта функция может использоваться для подсчета количества значений в столбцах или строках. Для подсчёта количества значений в строках нужно задавать параметр axis=1. Пропуски функция не учитывает. Возвращает Series.



In [None]:
# пример использования функции count()
import pandas as pd
import numpy as np

data = {'A': [1, 2, np.nan],
        'B': [4, np.nan, np.nan],
        'C': [7, 8, 9]}

df = pd.DataFrame(data)

print(df)

#      A    B  C
# 0  1.0  4.0  7
# 1  2.0  NaN  8
# 2  NaN  NaN  9

count_columns = df.count()

print(count_columns)

# A    2
# B    1
# C    3
# dtype: int64

count_rows = df.count(axis=1)

print(count_rows)

# 0    3
# 1    2
# 2    1
# dtype: int64

## **Функции min() и max()**

В Pandas – это редукционные функции, которые возвращают минимальное и максимальное значение соответственно в объекте DataFrame или Series. Эти функции могут использоваться для нахождения минимального и максимального значения в столбцах или строках. Для подсчёта минимального или максимального значения в строках необходимо задавать параметр axis=1. Возвращают Series.



In [None]:
# пример использования функций min() и max()
import pandas as pd
import numpy as np

data = {'A': [1, 2, np.nan],
        'B': [4, np.nan, np.nan],
        'C': [7, 8, 9]}

df = pd.DataFrame(data)

print(df)

#      A    B  C
# 0  1.0  4.0  7
# 1  2.0  NaN  8
# 2  NaN  NaN  9

min_columns = df.min()

print(min_columns)

# A    1.0
# B    4.0
# C    7.0
# dtype: float64

max_rows = df.max(axis=1)

print(max_rows)

# 0    7.0
# 1    8.0
# 2    9.0
# dtype: float64

## **Функции idxmin() и idxmax()**

В Pandas – это редукционные функции, которые возвращают индекс минимального или максимального значения соответственно в объекте DataFrame или Series. Эти функции могут использоваться для нахождения индекса минимального или максимального значения в столбцах или строках. Для вывода индекса минимального или максимального значения в строках необходимо задавать параметр `axis=1`. Возвращают Series.

In [None]:
# пример использования функций idxmin(), idxmax()
import pandas as pd

data = {'A': [1, 2, 3],
 'B': [3, 2, 1],
 'C': [1, 3, 2]}

df = pd.DataFrame(data, index=['a', 'b', 'c'])

print(df)

#    A  B  C
# a  1  3  1
# b  2  2  3
# c  3  1  2

min_columns = df.idxmin()

print(min_columns)

# A    a
# B    c
# C    a
# dtype: object

max_rows = df.idxmax(axis=1)

print(max_rows)

# a    B
# b    C
# c    A
# dtype: object

## **Функции argmin() и argmax()**

В Pandas - это функции, которые используются для поиска позиции минимального или максимального значения в объекте Series (это может быть отдельная колонка DataFrame) с объектом DataFrame они не работают. Возвращаемым значением является целое число.


In [None]:
# пример использования функций ardmin() и argmax()
import pandas as pd

s = pd.Series([3, 2, 1, 8, 4])

min_idx = s.argmin()

max_idx = s.argmax()

print(min_idx) # 2
print(max_idx) # 3

## **Функции cumsum() и cumprod()**

Эти функции в Pandas используются для вычисления кумулятивной суммы и произведения соответственно. 

Кумулятивная сумма - это сумма всех значений, которые были накоплены до данного момента в объекте DataFrame или Series. 

Кумулятивное произведение - это произведение всех значений, которые были накоплены до данного момента в объекте DataFrame или Series.

In [None]:
# пример использования функций cumsum() и cumprod()
import pandas as pd

data = pd.Series([1, 2, 3, 4, 5])

cumulative_sum = data.cumsum()

print(cumulative_sum)

# 0     1
# 1     3
# 2     6
# 3    10
# 4    15
# dtype: int64

cumulative_product = data.cumprod()

print(cumulative_product)

# 0      1
# 1      2
# 2      6
# 3     24
# 4    120
# dtype: int64


Функция `cumsum()` добавляет к каждому элементу в серии предыдущий элемент и сохраняет результат в новом элементе. Например, в серии [1, 2, 3, 4, 5] первый элемент равен 1, а второй элемент равен сумме первого и второго элементов, т.е. 1 + 2 = 3. Третий элемент равен сумме первого, второго и третьего элементов, т.е. 1 + 2 + 3 = 6, и т.д.

Функция `cumprod()` вычисляет произведение каждого элемента в серии с предыдущими элементами и сохраняет результат в новом элементе. Например, в нашей серии [1, 2, 3, 4, 5] первый элемент равен 1, а второй элемент равен произведению первого и второго элементов, т.е. 1 * 2 = 2. Третий элемент равен произведению первого, второго и третьего элементов, т.е. 1 * 2 * 3 = 6, и т.д.

## **Функции cummin() и cummax()**

Данные функции в Pandas используются для вычисления кумулятивного минимума и максимума соответственно.

Кумулятивный минимум - это наименьшее значение, которое было накоплено до данного момента в объекте DataFrame или Series. 

Кумулятивный максимум - это наибольшее значение, которое было накоплено до данного момента в объекте DataFrame или Series.

In [None]:
# пример использования функций cummin() и cummax()
import pandas as pd

data = pd.Series([-1, 8, -2, 10, -3])

cumulative_min = data.cummin()
print(cumulative_min)

# 0   -1
# 1   -1
# 2   -2
# 3   -2
# 4   -3
# dtype: int64

cumulative_max = data.cummax()
print(cumulative_max)

# 0    -1
# 1     8
# 2     8
# 3    10
# 4    10
# dtype: int64

Функция `cummin()` вычисляет наименьшее значение в серии, начиная с первого элемента и сохраняет его в новом элементе. Затем функция сравнивает следующее значение в серии с предыдущим минимальным значением и, если следующее значение меньше, то оно сохраняется в новом элементе. Если следующее значение больше или равно предыдущему минимальному значению, то предыдущее минимальное значение сохраняется в новом элементе.

Функция `cummax()` работает аналогично, но вычисляет наибольшее значение в серии, начиная с первого элемента.

In [None]:
# пример применения функций cummin() и cummax() к DataFrame
import pandas as pd

data = {'A': [1, 5, 3, 4, 2], 'B': [10, 8, 6, 4, 2]}
df = pd.DataFrame(data)

cumulative_min = df.cummin()

print(cumulative_min)

#    A   B
# 0  1  10
# 1  1   8
# 2  1   6
# 3  1   4
# 4  1   2

cumulative_max = df.cummax(axis=1) # параметр axis=1 для вычисления кумулятивного максимума по строкам

print(cumulative_max)

#    A   B
# 0  1  10
# 1  5   8
# 2  3   6
# 3  4   4
# 4  2   2

# **Основные статистические функции в Pandas**

* `mean()`: позволяет вычислить среднее значение для столбца или ряда данных
* `median()`: позволяет вычислить медиану
* `std()`: позволяет вычислить стандартное отклонение (разброс данных относительно их среднего значения)
* `var()`: позволяет вычислить дисперсию (среднеквадратическое отклонение значений от их среднего значения)
* `quantile()`: позволяет вычислить квантиль (любой)
* `describe()`: возвращает сводную статистическую информацию о DataFrame (включает количество непустых значений в каждом столбце, среднее значение каждого столбца, стандартное отклонение каждого столбца, минимальное и максимальное значения каждого столбца, а также 25%, 50%, 75% квартили каждого столбца)
 

In [None]:
# пример использования всех перечисленных выше статистических функций
import pandas as pd

data = {'A': [1, 2, 3, 4, 5],
        'B': [6, 7, 8, 9, 10]}
df = pd.DataFrame(data)

# считаем среднее значение
print(df['A'].mean()) # 3.0

# находим медиану
print(df['A'].median()) # 3.0

# находим стандартное отклонение
print(df['A'].std()) # 1.5811388300841898

# находим дисперсию
print(df['A'].var()) # 2.5

# находим 25% и 75% квантиль (можно передавать список)
print(df['A'].quantile([0.25, 0.75]))

# 0.25    2.0
# 0.75    4.0

# выводим сводную статистическую информацию по всему DataFrame
print(df.describe())

#               A          B
# count  5.000000   5.000000
# mean   3.000000   8.000000
# std    1.581139   1.581139
# min    1.000000   6.000000
# 25%    2.000000   7.000000
# 50%    3.000000   8.000000
# 75%    4.000000   9.000000
# max    5.000000  10.000000

# **Корреляция и ковариация в Pandas**

При помощи метода `cov()` можно вычислить как ковариацию между значениями двух столбцов, так и построить ковариационную матрицу.

Аналогично для корреляции используется метод `corr()`.

In [None]:
# пример вычисления ковариации между двумя столбцами
import pandas as pd

data = {'X': [1, 2, 3, 4, 5],
        'Y': [5, 4, 3, 2, 1]}

df = pd.DataFrame(data)

covariance = df['X'].cov(df['Y'])

print(covariance) # -2.5

In [None]:
# пример построения ковариационной матрицы
import pandas as pd

data = {'X': [1, 2, 3, 4, 5],
        'Y': [5, 4, 3, 2, 1],
        'Z': [8, 1, 2, 4, 6]}

df = pd.DataFrame(data)

covariance = df.cov()

print(covariance)

#       X     Y     Z
# X  2.50 -2.50 -0.25
# Y -2.50  2.50  0.25
# Z -0.25  0.25  8.20

In [None]:
# пример вычисления корреляции между двумя столбцами
import pandas as pd

data = {'X': [1, 2, 3, 4, 5],
        'Y': [5, 4, 3, 2, 1]}

df = pd.DataFrame(data)

correlation = df['X'].corr(df['Y'])

print(correlation) # -0.9999999999999999

In [None]:
# пример построения корреляционной матрицы
import pandas as pd

data = {'X': [1, 2, 3, 4, 5],
        'Y': [5, 4, 3, 2, 1],
        'Z': [8, 1, 2, 4, 6]}

df = pd.DataFrame(data)

correlation = df.corr().round(2) # при необходимости можно применять метод round

print(correlation)

#       X     Y     Z
# X  1.00 -1.00 -0.06
# Y -1.00  1.00  0.06
# Z -0.06  0.06  1.00

# **Методы isin(), unique(), value_counts()**

## **Метод isin()**

Один из наиболее полезных методов в Pandas. Он позволяет нам проверять наличие значений в столбце или серии данных и фильтровать их с помощью булевой индексации.

Синтаксис метода `isin()` выглядит следующим образом:

`dataframe.isin(values)`

Dataframe - это объект DataFrame, а values - это список значений или одномерный массив, с которыми мы хотим сравнить значения в столбце или серии данных.

Возможности использования `isin()`:
1. Проверка наличия значений в столбце
2. Фильтрация данных на основе значений
3. Использование метода `isin` совместно с`~ для инверсии условия (т.е. отбора иных значений по сравнению с указанными)

Также может использоваться с другими методами и функциями Pandas, такими как `loc` и `iloc`, а также в цепочках операций для более сложных фильтраций и манипуляций данных.


In [None]:
# пример использования isin() для проверки наличия значений в столбце
import pandas as pd

data = {'Страна': ['Россия', 'США', 'Германия', 'Франция', 'Италия'],
        'Столица': ['Москва', 'Вашингтон', 'Берлин', 'Париж', 'Рим'],
        'Население': [144.5, 328.2, 83.0, 66.9, 60.4]}

df = pd.DataFrame(data)

countries = ['Россия', 'Германия']

print(df['Страна'].isin(countries))

# 0     True
# 1    False
# 2     True
# 3    False
# 4    False
# Name: Страна, dtype: bool

In [None]:
# пример фильтрации данных на основе значений при помощи метода isin()
import pandas as pd

data = {'Страна': ['Россия', 'США', 'Германия', 'Франция', 'Италия'],
        'Столица': ['Москва', 'Вашингтон', 'Берлин', 'Париж', 'Рим'],
        'Население': [144.5, 328.2, 83.0, 66.9, 60.4]}

df = pd.DataFrame(data)

countries = ['Россия', 'Германия']

filtered_df = df[df['Страна'].isin(countries)]

print(filtered_df)

#      Страна Столица  Население
# 0    Россия  Москва      144.5
# 2  Германия  Берлин       83.0


In [None]:
# пример фильтрации данных на основе значений при помощи инверсии метода isin()
import pandas as pd

data = {'Страна': ['Россия', 'США', 'Германия', 'Франция', 'Италия'],
        'Столица': ['Москва', 'Вашингтон', 'Берлин', 'Париж', 'Рим'],
        'Население': [144.5, 328.2, 83.0, 66.9, 60.4]}

df = pd.DataFrame(data)

countries = ['Россия', 'Германия']

filtered_df = df[~df['Страна'].isin(countries)]

print(filtered_df)

#     Страна    Столица  Население
# 1      США  Вашингтон      328.2
# 3  Франция      Париж       66.9
# 4   Италия        Рим       60.4

## **Метод unique()**

Метод unique() позволяет нам извлекать уникальные значения из столбцов или серий данных.

Синтаксис метода unique выглядит следующим образом:

`dataframe['column'].unique()`

Dataframe - это объект DataFrame, а 'column' - это имя столбца, из которого мы хотим извлечь уникальные значения.

Возможности использования `unique()`:
1. Извлечение уникальных значений из столбца
2. Фильтрация данных на основе уникальных значений

Количество уникальных значений необязательно подсчитывать через `len()`, есть метод `nuniqie()`, который возвращает количество уникальных значений.

In [None]:
# пример извлечения уникальных значений из столбца
import pandas as pd

data = {'Имя': ['Кирилл', 'Вадим', 'Даниил', 'Кирилл', 'Даниил'],
        'Рост': ['183', '179', '183', '173', '178'],
        'IQ': [120, 123, 95, 99, 104]}

df = pd.DataFrame(data)

unique_names = df['Имя'].unique()

print(unique_names) # ['Кирилл' 'Вадим' 'Даниил']

In [None]:
# пример фильтрации данных на основе уникальных значений (зачем?? на выходе всегда будет оригинальный df)
import pandas as pd

data = {'Имя': ['Кирилл', 'Вадим', 'Даниил', 'Кирилл', 'Даниил'],
        'Рост': ['183', '179', '183', '173', '178'],
        'IQ': [120, 123, 95, 99, 104]}

df = pd.DataFrame(data)

unique_names = df['Имя'].unique()

filtered_df = df[df['Имя'].isin(unique_names)]

print(filtered_df)

#       Имя Рост   IQ
# 0  Кирилл  183  120
# 1   Вадим  179  123
# 2  Даниил  183   95
# 3  Кирилл  173   99
# 4  Даниил  178  104

## **Метод value_counts()**

Метод `value_counts()` позволяет подсчитывать уникальные значения в столбцах или сериях данных и возвращать их в порядке убывания количества.

Синтаксис метода `value_counts()` выглядит следующим образом:

`dataframe['column'].value_counts()`

Dataframe - это объект DataFrame, а 'column' - это имя столбца, для которого нужно подсчитать уникальные значения.

In [None]:
# пример использовани метода value_counts() для подсчёта уникальных значений
import pandas as pd

data = {'Имя': ['Кирилл', 'Вадим', 'Даниил', 'Кирилл', 'Даниил'],
        'Рост': ['183', '179', '183', '173', '178'],
        'IQ': [120, 123, 95, 99, 104]}

df = pd.DataFrame(data)

names_counts = df['Имя'].value_counts().sort_index() # можно сортировать по алфавиту

print(names_counts)

# Имя
# Вадим     1
# Даниил    2
# Кирилл    2
# Name: count, dtype: int64

In [None]:
# пример применения метода value_counts() для всего DataFrame (в поздних версиях Pandas)
import pandas as pd

data = {'Имя': ['Кирилл', 'Вадим', 'Даниил', 'Кирилл', 'Даниил'],
        'Рост': ['183', '179', '183', '173', '178'],
        'IQ': [120, 123, 95, 99, 104]}

df = pd.DataFrame(data)

names_counts = df.value_counts()

print(names_counts)

# Имя     Рост  IQ 
# Вадим   179   123    1
# Даниил  178   104    1
#         183   95     1
# Кирилл  173   99     1
#         183   120    1
# Name: count, dtype: int64

# **Метод query()**

Метод `query()` позволяет фильтровать данные по логическому условию. Внутри него используются стандартные логические операторы `and`, `or`, `not`, (не битовые) а также только названия столбцов (пример).

В случае использования переменной, перед ней нужно ставить @.

В случае использования недопустимых в стандартном Python имён столбцов, их нужно заключать в ``.

In [None]:
# пример использования метода quiery()
import pandas as pd

df = pd.DataFrame({'Country': ['Congo', 'Malawi', 'Burkina-Faso'], 
                   'Population': [150000000, 20000000, 15000000], 
                   'Climate': ['Bad', 'Bad', 'Good']})

print(df.query('Population > 18000000 or Climate == "Good"'))

# Country	Population	Climate
# 0	Congo	150000000	Bad
# 1	Malawi	20000000	Bad
# 2	Burkina-Faso	15000000	Good

n = 20000000

print(df.query('Population == @n'))

#   Country  Population Climate
# 1  Malawi    20000000     Bad

df['Мой комментарий'] = ['Ебч', 'Бебч', 'Ебч']

print(df.query('`Мой комментарий` != "Ебч"'))

#   Country  Population Climate Мой комментарий
# 1  Malawi    20000000     Bad            Бебч