# **Объект DataFrame и его создание**

`DataFrame` - это одна из основных структур данных в Python, используемых для работы с табличными данными. Он представляет собой таблицу, состоящую из строк и столбцов, где каждый столбец может иметь разные типы данных. DataFrame очень похож на SQL-таблицу или электронную таблицу Excel.

Основные характеристики DataFrame:

1. Он содержит две оси, ось строк и ось столбцов, которые могут быть маркированы именами или целочисленными индексами.
2. Каждый столбец может содержать данные различных типов, таких как числа, строки, булевы значения и т. д.
3. DataFrame поддерживает множество операций с данными, включая выборку, фильтрацию, группировку, агрегацию, слияние и т. д.
4. Он может быть создан из различных источников данных, таких как CSV, Excel, SQL-запросы, массивы NumPy и т. д.
5. DataFrame предоставляет множество методов для работы с данными, включая сортировку, замену значений, преобразование данных и т. д.
6. Он имеет много параметров, которые могут быть использованы для настройки поведения и функциональности.
7. DataFrame может содержать отсутствующие значения (NaN или None), которые могут быть обработаны с помощью специальных методов.
8. Он может быть сохранен в различных форматах, таких как CSV, Excel, JSON, SQL-таблицы и т. д.

In [None]:
# cоздание DataFrame из списка списков
import pandas as pd

data = [['John', 28, 'New York'],
        ['Kate', 23, 'Chicago'],
        ['Mike', 32, 'San Francisco']]

df = pd.DataFrame(data, columns=['Name', 'Age', 'City'])

print(df)

#    Name  Age           City
# 0  John   28       New York
# 1  Kate   23        Chicago
# 2  Mike   32  San Francisco

In [None]:
# создание DataFrame из словаря
import pandas as pd

data = {'Name': ['John', 'Kate', 'Mike'],
        'Age': [28, 23, 32],
        'City': ['New York', 'Chicago', 'San Francisco']}

df = pd.DataFrame(data)

print(df)

# вывод тот же, что и в примере выше

Следует обратить внимание на то, что есть разница между созданием DataFrame из списка списков и из словаря. В случае создания DataFrame из списка списков, один список - это одна строка. В случае создания DataFrame из словаря, один список - столбик (с наименованием в виде ключа словаря).

Если DataFrame создаётся из единичного списка, этот список трансформируется в колонку.

In [None]:
# создание DataFrame из списка словарей

import pandas as pd

data = [{'Name': 'John', 'Age': 28, 'City': 'New York'},
        {'Name': 'Kate', 'Age': 23, 'City': 'Chicago'},
        {'Name': 'Mike', 'Age': 32, 'City': 'San Francisco'}]

df = pd.DataFrame(data)

print(df)

# вывод тот же, что и в примере выше

In [None]:
# создание DataFrame из массива numpy
import pandas as pd
import numpy as np

data = np.array([['John', 28, 'New York'],
                 ['Kate', 23, 'Chicago'],
                 ['Mike', 32, 'San Francisco']])

df = pd.DataFrame(data, columns=['Name', 'Age', 'City'])

print(df)

# вывод тот же, что и в примере выше

In [None]:
# создание пустого DataFrame
import pandas as pd

df = pd.DataFrame(columns=['Name', 'Age', 'City'])

print(df)

# Empty DataFrame
# Columns: [Name, Age, City]
# Index: []

Параметр columns используется для указания имен столбцов DataFrame при его создании. В примерах выше мы передавали имена столбцов в параметре columns, чтобы DataFrame знал, как называются столбцы. Если не указывать этот параметр, то DataFrame автоматически назначит имена столбцам в порядке их появления в данных (0, 1, 2…).

Имена столбцов можно изменить после создания DataFrame с помощью атрибута `columns`. Это может быть полезно, если мы заметили ошибку в именах столбцов или просто хотим изменить их в процессе работы с DataFrame.

In [None]:
# для изменения имен столбцов нужно просто присвоить новые имена списку, который передается в атрибут columns
import pandas as pd

data = [['John', 28, 'New York'],
        ['Kate', 23, 'Chicago'],
        ['Mike', 32, 'San Francisco']]

df = pd.DataFrame(data, columns=['Name', 'Age', 'City'])

print(df)

#    Name  Age           City
# 0  John   28       New York
# 1  Kate   23        Chicago
# 2  Mike   32  San Francisco

df.columns = ['Full Name', 'Age', 'Location'] #переименовываем

print(df)

#   Full Name  Age       Location
# 0      John   28       New York
# 1      Kate   23        Chicago
# 2      Mike   32  San Francisco

# **Основы работы со столбцами DataFrame**

## **Методы head(), tail(), info()**

Например, если есть DataFrame с именем df, можно использовать метод head для просмотра первых 5 строк следующим образом:

`df.head()`

Также можно указать количество строк, которые нужно отобразить, используя параметр n:

`df.head(n=10)`

Метод `tail` работает аналогично, только выводит последние строки DataFrame.

С помощью метода `info()` можно получить сведения о DF или Series:
* Класс объекта.
* Сведения об индексе: класс, количество строк, с какого индекса начинается и каким кончается.
* Количество столбцов.
* Сведения о столбцах: имена столбцов, количество строк без пропусков, тип данных в столбцах.
* Типы данных и их количество.
* Объем памяти, который занимает DF или Series.

In [None]:
# пример работы df.head() и df.tail()
import pandas as pd

data = [[27, 82],
        [16, 24],
        [50, 71],
        [45, 12],
        [60, 13],
        [81, 94],
        [23, 15],
        [32, 71],
        [11, 21],
        [53, 76],
        [23, 52],
        [32, 23]]

df = pd.DataFrame(data, columns=['Age1', 'Age2'])

print(df.head())

#    Age1  Age2
# 0    27    82
# 1    16    24
# 2    50    71
# 3    45    12
# 4    60    13

print(df.head(3))

#    Age1  Age2
# 0    27    82
# 1    16    24
# 2    50    71

print(df.tail())

#     Age1  Age2
# 7     32    71
# 8     11    21
# 9     53    76
# 10    23    52
# 11    32    23

print(df.info())

# <class 'pandas.core.frame.DataFrame'>
# RangeIndex: 12 entries, 0 to 11
# Data columns (total 2 columns):
#  #   Column  Non-Null Count  Dtype
# ---  ------  --------------  -----
#  0   Age1    12 non-null     int64
#  1   Age2    12 non-null     int64
# dtypes: int64(2)
# memory usage: 320.0 bytes
# None

Методы `tail` и `head` могут выдавать информацию по отдельным колонкам (а не только по всему датасету).

In [None]:
import pandas as pd

data = [[27, 82],
        [16, 24],
        [50, 71],
        [45, 12]]

df = pd.DataFrame(data, columns=['Age1', 'Age2'])

print(df.tail(2)['Age1'])

# 2    50
# 3    45
# Name: Age1, dtype: int64

## **Извлечение столбцов DataFrame**

Например, если есть DataFrame с именем df нужно извлечь столбец с именем 'column1', можно использовать следующий код:

`column1 = df['column1']`

В Pandas DataFrame каждый столбец представлен объектом Series, который имеет имя, соответствующее названию столбца. Имя столбца является ключом для доступа к объекту Series внутри DataFrame.

Существует также альтернативный способ обращения к колонкам в pandas: `df.column1`,  где column1 - имя колонки в DataFrame df.

Если нужно выбрать столбец не в формате Series, а в формате DataFrame, можно использовать следующий код:

`column1 = df[['column1']]`

Если нужно выбрать несколько колонок в формате DataFrame, то можно использовать следующий код:

`column1 = df[['column1', 'column']]`

In [None]:
# пример извлечения колонки из датасета
import pandas as pd

data = [[27, 82],
        [16, 24],
        [50, 71],
        [45, 12]]

df = pd.DataFrame(data, columns=['Age1', 'Age2'])

print(df['Age1']) # выведет первую колонку в формате Series
print(df[['Age1']]) # выведет первую колонку в формате DataFrame
print(df.Age2) # выведет вторую колонку в формате Series
print(df[['Age1', 'Age2']]) # выведет две колонки в едином DataFrame

## **Создание нового столбца в DataFrame. Изменение значений столбца DataFrame**

Иногда может потребоваться создать новый столбец в DataFrame на основе данных из других столбцов. Для этого можно использовать синтаксис: 

`DataFrame['new_column'] = value`

В этой строчке `'value'` – это значения для нового столбца, которые могут быть скалярами или массивами (или столбцами из уже существующего DataFrame).

In [None]:
# пример создания нового столбца - суммы двух предыдущих
import pandas as pd

data = [[27, 82],
        [16, 24],
        [50, 71],
        [45, 12]]

df = pd.DataFrame(data, columns=['Age1', 'Age2'])
df['Total_age'] = df['Age1'] + df['Age2']

print(df)

#    Age1  Age2  Total_age
# 0    27    82        109
# 1    16    24         40
# 2    50    71        121
# 3    45    12         57

Если есть DataFrame с именем df и нужно изменить значения столбца с именем 'column1', можно использовать следующий код:

`df['column1'] = [1, 2, 3, 4, 5]`

In [None]:
# пример изменения значений в колонке
import pandas as pd

data = [[27, 82],
        [16, 24],
        [50, 71],
        [45, 12]]

df = pd.DataFrame(data, columns=['Age1', 'Age2'])

print(df)

#    Age1  Age2
# 0    27    82
# 1    16    24
# 2    50    71
# 3    45    12

df['Age1'] = [7, 12, 31, 21]

print(df)

#    Age1  Age2
# 0     7    82
# 1    12    24
# 2    31    71
# 3    21    12

# если нужно присвоить одно значение всему столбцу, можно использовать следующий код
df['Age1'] = 1

print(df)

#    Age1  Age2
# 0     1    82
# 1     1    24
# 2     1    71
# 3     1    12

## **Изменение имени столбца DataFrame**

Иногда может потребоваться изменить имя столбца DataFrame. Для этого можно использовать метод `rename()`, который позволяет изменить имя одного или нескольких столбцов DataFrame.

Например, если  есть DataFrame с именем df и нужно изменить имя столбца 'column1' на 'new_column1', можно использовать следующий код:

`df.rename(columns={'column1': 'new_column1'}, inplace=True)`

Если установить `inplace=False` при использовании метода `rename()`, то изменения не будут сохранены в исходном DataFrame, а возвращаемый новый DataFrame будет содержать переименованные столбцы. По умолчанию параметр inplace установлен именно в это значение.

Вот пример кода, который переименовывает столбец 'column1' в 'new_column1' и возвращает новый DataFrame, не изменяя исходный DataFrame:

`new_df = df.rename(columns={'column1': 'new_column1'}, inplace=False)`

Этот код создаст новый DataFrame new_df с тем же набором данных, что и в df, но с измененным именем столбца 'column1' на 'new_column1'.

Если нужно изменить индексы строк, а не столбцов, то синтаксис такой же, только `columns` меняется на `index`.

Вместо `columns` и `index` указывать параметры `axis=1` и `axis=0` соответственно. Синтаксис:

`df.rename({'column1': 'new_column1'}, axis=1, inplace=True)`

В методе можно использовать функции (пример).

In [None]:
# пример изменения значений в колонке
import pandas as pd

data = [[27, 82],
        [16, 24],
        [50, 71],
        [45, 12]]

df = pd.DataFrame(data, columns=['Age1', 'Age2'])

print(df)

#    Age1  Age2
# 0    27    82
# 1    16    24
# 2    50    71
# 3    45    12

df = df.rename(columns={'Age1' : 'Age2', 'Age2' : 'Age1'})
# или df = df.rename({'Age1' : 'Age2', 'Age2' : 'Age1'}, axis=1)
# или df.rename(columns={'Age1' : 'Age2', 'Age2' : 'Age1'}, inplace=True)
# лучше перезаписывать df - разработчики Pandas советуют отказываться от inplace

print(df)

#    Age2  Age1
# 0    27    82
# 1    16    24
# 2    50    71
# 3    45    12

# пример использования функции для переименования строк
import pandas as pd

data = [[27, 82],
        [16, 24],
        [50, 71],
        [45, 12]]

df = pd.DataFrame(data, columns=['Age1', 'Age2'], index=['a', 'b', 'c', 'd'])

print(df)

#    Age1  Age2
# a    27    82
# b    16    24
# c    50    71
# d    45    12

df = df.rename(index=str.upper)
# или df = df.rename(str.upper, axis=0)

print(df)

#    Age1  Age2
# A    27    82
# B    16    24
# C    50    71
# D    45    12

## **Удаление строк и столбцов DataFrame. Метод drop()**

Метод `drop()` позволяет удалять строки и столбцы. Имеет следующие аргументы:
* `labels`: индексы/метки строк или колонок, которые подлежат удалению (не обязательно прописывается явно, если первым аргументом передаются название строки или колонки или список с названиями).
* `axis`: значение `0` приводит к удалению строк (по умолчанию), значение `1` - к удалению столбцов.
* `index`: позволяет указать конкретные индексы строк для удаления.
* `columns`: позволяет указать конкретные индексы колонок для удаления
* `inplace`: True - вносит изменения в исходный DataFrame, False (по умолчанию) - возвращает новый DataFrame без изменения исходного.

Чтобы удалить столбец DataFrame, можно использовать метод `drop()`, указав имя столбца и параметр `axis=1`.

In [None]:
# пример удаления строк
import pandas as pd

data = [[27, 82],
        [16, 24],
        [50, 71],
        [45, 12]]

df = pd.DataFrame(data, columns=['Age1', 'Age2'])

print(df)

#    Age1  Age2
# 0    27    82
# 1    16    24
# 2    50    71
# 3    45    12

df = df.drop([0, 1])

print(df)

#    Age1  Age2
# 2    50    71
# 3    45    12

# пример удаления колонок
import pandas as pd

data = [[27, 82],
        [16, 24],
        [50, 71],
        [45, 12]]

df = pd.DataFrame(data, columns=['Age1', 'Age2'])

print(df)

#    Age1  Age2
# 0    27    82
# 1    16    24
# 2    50    71
# 3    45    12

df = df.drop('Age1', axis=1)
# или df.drop('Age1', axis=1, inplace=True)

print(df)

#    Age2
# 0    82
# 1    24
# 2    71
# 3    12

# удаление строк и колонок при помощи параметров index и columns
import pandas as pd

data = [[27, 82],
        [16, 24],
        [50, 71],
        [45, 12]]

df = pd.DataFrame(data, columns=['Age1', 'Age2'])

print(df)

#    Age1  Age2
# 0    27    82
# 1    16    24
# 2    50    71
# 3    45    12

df = df.drop(columns='Age2', index=[0, 3])

print(df)

#    Age1
# 1    16
# 2    50

## **Изменение имен столбцов DataFrame с помощью атрибута columns**

Для изменения имен столбцов в Pandas DataFrame можно использовать атрибут columns. Для этого следует переопределить этот атрибут, передав в качестве нового значения список имен столбцов с желаемыми именами.

Пусть имеется DataFrame df с колонками 'column1', 'column2', нам нужно переименовать колонки на 'new_column1', 'new_column2'. Вот пример кода, который делает это:

`df.columns = ['new_column2', 'new_column1']`

Этот код переопределит имена столбцов DataFrame df на новые.


In [None]:
# пример переименования колонок с помощью атрибута columns
import pandas as pd

data = [[27, 82],
        [16, 24],
        [50, 71],
        [45, 12]]

df = pd.DataFrame(data, columns=['Age1', 'Age2'])

print(df)

#    Age1  Age2
# 0    27    82
# 1    16    24
# 2    50    71
# 3    45    12

df.columns = ['Wins', 'Losses']

print(df)

#    Wins  Losses
# 0    27      82
# 1    16      24
# 2    50      71
# 3    45      12

## **Перестановка порядка следования колонок в DataFrame**

Иногда может потребоваться переставить колонки в существующем DataFrame. Предположим, есть DataFrame с колонками 'column1', 'column2' и нужно поменять их местами, так чтобы сначала шла колонка 'column2', а потом 'column1'. Это можно сделать так:

`df = df[['column2', 'column1']]`


In [None]:
# пример перестановки колонок местами
import pandas as pd

data = [[27, 82],
        [16, 24],
        [50, 71],
        [45, 12]]

df = pd.DataFrame(data, columns=['Age1', 'Age2'])

print(df)

#    Age1  Age2
# 0    27    82
# 1    16    24
# 2    50    71
# 3    45    12

df = df[['Age2', 'Age1']]

print(df)

#    Age2  Age1
# 0    82    27
# 1    24    16
# 2    71    50
# 3    12    45

## **Изменение типа данных в колонке в DataFrame. Метод astype()**

Метод `astype` позволяет задавать отдельным колонкам конкретный тип данных. Пусть есть DataFrame с колонками `'column1'` и `'column2'`, которым нужно задать тип данных `int`. Это можно сделать следующим образом:

`df = df.astype({'column1':'int64', 'column2': 'int64'})`

Некоторые дополнительные свойства/методы, которые могут использоваться в связке с `astype()`:
* `dtypes` - при применении к датафрейму возвратит серию с типами значений конкретных колонок.
* `memory_usage()` - при применении к датафрейму возвратит количество байт, которое занимает в памяти колонка.

In [None]:
# пример смены типа данных c int на float
import pandas as pd

data = [[27, 82],
        [16, 24],
        [50, 71],
        [45, 12]]

df = pd.DataFrame(data, columns=['Age1', 'Age2'])
df = df.astype({'Age1' : 'float64', 'Age2' : 'float64'})

print(df)

#    Age1  Age2
# 0  27.0  82.0
# 1  16.0  24.0
# 2  50.0  71.0
# 3  45.0  12.0

# пример работы свойства dtypes
print(df.dtypes)

# Age1    float64
# Age2    float64
# dtype: object

# пример работы метода memory_usage()
print(df.memory_usage())

# Index    128
# Age1      32
# Age2      32
# dtype: int64

# **Атрибуты index, values, name DataFrame, извлечение строк**

## **Извлечение строк**

В DataFrame есть несколько способов извлечения строк. Один из самых распространенных – это использование метода `loc` или `iloc`.
`loc` позволяет извлекать строки по их меткам, а `iloc` - по их индексам.

Методы `loc` и `iloc` возвращают объект DataFrame или объект Series, в зависимости от того, сколько строк было выбрано. Если используется `loc` для выбора одной строки, то он вернет объект Series.

In [None]:
# пример извлечения строк с помощью методов loc и iloc
import pandas as pd

data = {'name': ['John', 'Jane', 'Bill'], 
        'age': [25, 30, 35],
        'country': ['USA', 'Canada', 'UK']}

df = pd.DataFrame(data, index=['a', 'b', 'c']) #присваиваем метки для дальнейшего использования loc

print(df)

#    name  age country
# a  John   25     USA
# b  Jane   30  Canada
# c  Bill   35      UK

print(df.loc['a']) #извлечение одной строки по её метке

# name       John
# age          25
# country     USA
# Name: a, dtype: object

print(df.loc[['a', 'c']]) #извлечение нескольких строк по их меткам

#    name  age country
# a  John   25     USA
# c  Bill   35      UK

print(df.iloc[1]) #извлечение одной строки по её индексу

# name         Jane
# age            30
# country    Canada
# Name: b, dtype: object

print(df.iloc[[0, 2]]) #извлечение нескольких строк по их меткам

#    name  age country
# a  John   25     USA
# c  Bill   35      UK

## **Присваивание колонкам df объекта Series**

Чтобы присвоить объект Series в качестве колонки DataFrame, можно использовать квадратные скобки и имя колонки (пример ниже).

Это добавит новую колонку gender в DataFrame и заполнит ее значениями из объекта new_column.

Если мы попытаемся присвоить объект Series, длина которого меньше длины колонки, то в оставшейся части колонки будут значения NaN, а не возникнет ошибка. Это происходит потому, что Pandas автоматически расширяет объект Series до размера колонки DataFrame и заполняет оставшуюся часть значениями NaN. Таким образом, мы можем без ошибок присваивать колонке DataFrame объекты Series, длина которых меньше длины колонки, и Pandas будет автоматически заполнять оставшуюся часть значений NaN.

При попытке присвоить объект Series, длина которого больше, чем длина колонки DataFrame, объект Series будет обрезан до размера колонки DataFrame.

Если же мы попытаемся присвоить колонке DataFrame список или словарь отличной длины, то возникнет ошибка.

In [None]:
# пример добавления объекта Series в качестве колонки
import pandas as pd

data = {'name': ['John', 'Jane', 'Bill'],
        'age': [25, 30, 35],
        'country': ['USA', 'Canada', 'UK']}

df = pd.DataFrame(data)

new_column = pd.Series(['male', 'female', 'male'], name='gender')
df['gender'] = new_column

print(df)

#    name  age country  gender
# 0  John   25     USA    male
# 1  Jane   30  Canada  female
# 2  Bill   35      UK    male

## **Метод del**

Метод `del` позволяет удалять колонки из DataFrame и, таким образом, является альтернативой более общему методу `drop`. Для этого нужно указать имя колонки после del.

In [None]:
# пример использования del для удаления колонки
import pandas as pd

data = {'name': ['John', 'Jane', 'Bill'],
        'age': [25, 30, 35],
        'country': ['USA', 'Canada', 'UK']}

df = pd.DataFrame(data)

print(df)

#    name  age country
# 0  John   25     USA
# 1  Jane   30  Canada
# 2  Bill   35      UK

del df['country']

print(df)

#    name  age
# 0  John   25
# 1  Jane   30
# 2  Bill   35

## **Задание и изменение index**

Атрибут `index` позволяет задавать индексы строк DataFrame. Например, можно использовать атрибут `index` при создании объекта DataFrame в Pandas.

Индексы задаются в виде списка, передаваемого атрибутом `index` при создании DataFrame. Если длина списка индексов не совпадает с количеством строк в DataFrame, будет сгенерировано исключение `ValueError`. Если атрибут `index` не задан при создании DataFrame, Pandas автоматически создаст числовой индекс по умолчанию от 0 до n-1, где n - количество строк в DataFrame.

In [None]:
# пример задания меток

import pandas as pd

data = {'name': ['John', 'Jane', 'Bill'],
        'age': [25, 30, 35],
        'country': ['USA', 'Canada', 'UK']}
index = ['a', 'b', 'c']

df = pd.DataFrame(data, index=index)

print(df)

#    name  age country
# a  John   25     USA
# b  Jane   30  Canada
# c  Bill   35      UK

Также можно после создания DataFrame переопределить его атрибут `index`, установив в качестве значений индексов строк один из столбцов. Для этого используется метод `set_index()`. Аргумент `append=True` сохранит старые значения индексов (будет мультииндекс).

In [None]:
# пример назначения меток из колонки датафрейма
import pandas as pd

data = {'name': ['John', 'Jane', 'Bill'],
        'age': [25, 30, 35],
        'country': ['USA', 'Canada', 'UK']}

df = pd.DataFrame(data)
df = df.set_index('name')

print(df)

#       age country
# name             
# John   25     USA
# Jane   30  Canada
# Bill   35      UK

# пример сохранения старых значений индекса при задании столбца в качестве индекса
import pandas as pd

data = {'name': ['John', 'Jane', 'Bill'],
        'age': [25, 30, 35],
        'country': ['USA', 'Canada', 'UK']}

df = pd.DataFrame(data)
df = df.set_index('name', append=True)

print(df)

#         age country
#   name             
# 0 John   25     USA
# 1 Jane   30  Canada
# 2 Bill   35      UK

Если требуется переназначить индексы напрямую, то это можно сделать через `df.index = [значения]`.

In [None]:
# пример прямого переназначения индексов
import pandas as pd

data = [[1, 2], [1, 2]]

df = pd.DataFrame(data)
df.index = ['a', 'b']

print(df)

#   0  1
#a  1  2
#b  1  2

Метод `reset_index()` сбросит значения индексов строк на стандартные (rangeindex).

In [None]:
# пример работы reset_index()
import pandas as pd

data = {'name': ['John', 'Jane', 'Bill'],
        'age': [25, 30, 35],
        'country': ['USA', 'Canada', 'UK']}

df = pd.DataFrame(data)
df = df.set_index('name')

print(df)

#       age country
# name             
# John   25     USA
# Jane   30  Canada
# Bill   35      UK

df = df.reset_index()

print(df)

#    name  age country
# 0  John   25     USA
# 1  Jane   30  Canada
# 2  Bill   35      UK

## **Атрибут values**

Атрибут `values` позволяет получить массив значений DataFrame в виде объекта – массива NumPy.

In [None]:
# пример использования атрибута values
import pandas as pd

data = {'name': ['John', 'Jane', 'Bill'],
        'age': [25, 30, 35],
        'country': ['USA', 'Canada', 'UK']}

df = pd.DataFrame(data)

print(df.values)

# [['John' 25 'USA']
#  ['Jane' 30 'Canada']
#  ['Bill' 35 'UK']]

# **Индексные объекты Pandas**

`Индексные объекты` – это объекты, которые используются для доступа к данным в Pandas. Они представляют собой особый тип структуры данных, который помогает определять порядок, доступ и обработку данных в Pandas. Index в Pandas – это одномерный массив меток (labels), который используется для индексации осей DataFrame или Series. Он может быть рассмотрен как неизменяемый массив меток.

В Pandas существует два типа индексных объектов: `индексы строк` и `индексы столбцов`. Индексы строк используются для доступа к данным в строках, а индексы столбцов – для доступа к данным в столбцах.

## **Индексы строк**

Индексы строк используются для доступа к данным в строках. Они могут быть созданы из различных типов данных, таких как списки, массивы, кортежи, словари и т.д. Однако, наиболее распространенным типом индекса является RangeIndex, который создается по умолчанию при создании объекта DataFrame.


In [None]:
# выводим индекс строки
import pandas as pd

df = pd.DataFrame({'name': ['Alice', 'Bob', 'Charlie'],
                   'age': [25, 30, 35]})

print(df.index)

# RangeIndex(start=0, stop=3, step=1)

По умолчанию, создается RangeIndex с шагом 1 от 0 до N - 1. RangeIndex – это тип индекса строк, который является последовательностью целых чисел, начинающихся с 0 и увеличивающихся на 1 для каждой строки в DataFrame.

RangeIndex предоставляет компактное представление индекса строк и обычно используется для DataFrame, где индексы строк не являются уникальными или не имеют специального значения. Он также может быть полезен, когда создается новый DataFrame с помощью функции, которая возвращает список или массив значений, например, при чтении данных из файла CSV или Excel.

RangeIndex можно создать явно с помощью функции range (пример ниже).


In [None]:
# явно задаём индексы через RangeIndex
import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}, index=range(3))

print(df.index)

# RangeIndex(start=0, stop=3, step=1)

В Pandas есть несколько типов индексов, которые могут быть использованы для доступа к данным в строках DataFrame:

1. `Int64Index` – это тип индекса строк, который содержит целочисленные значения. Он может быть использован, когда индексы строк должны быть уникальными и могут быть отрицательными.
2. `Float64Index` – это тип индекса строк, который содержит значения с плавающей точкой. Он может быть использован, когда индексы строк должны быть уникальными и могут содержать значения с плавающей точкой.
3. `DatetimeIndex` – это тип индекса строк, который содержит значения даты и времени. Он может быть использован, когда индексы строк должны быть уникальными и могут содержать значения даты и времени.

и ряд других.


## **Атрибуты объекта Index в Pandas**

**Атрибут `name`** у индексного объекта в Pandas позволяет задать имя индекса при его создании или изменить его позднее. Имя индекса полезно для идентификации индекса при работе с DataFrame или Series. Если DataFrame был создан без задания имени индекса, то имя индекса может быть задано путем присваивания имени атрибуту name у индекса DataFrame.

In [None]:
# пример присванивания индексам имени

df = pd.DataFrame({'values': [0.25, 0.5, 0.75, 1.0]}, index=[1, 2, 3, 4])

df.index.name = 'index_name'

print(df)

#             values
# index_name        
# 1             0.25
# 2             0.50
# 3             0.75
# 4             1.00

**Атрибут `dtype`** объекта Index в Pandas показывает тип данных элементов, хранящихся в данном индексе. Он может быть использован для проверки типа индекса и определения того, какие операции могут быть выполнены с использованием этого индекса.

В зависимости от типа элементов в индексе, атрибут `dtype` может принимать различные значения. Например, если индекс содержит только числовые значения, то `dtype` будет соответствовать типу данных этих чисел, таким как `int64` или `float64`. Если индекс содержит строковые значения, то `dtype` будет иметь тип `object`. 

Атрибут `dtype` может быть полезен для выполнения операций, которые требуют определенного типа данных. Например, если мы хотим выполнить математическую операцию, например, суммирование значений в индексе, нам нужно убедиться, что все элементы имеют числовой тип данных. Если же индекс содержит элементы различных типов, то для выполнения операций нам необходимо сначала преобразовать индекс к нужному типу данных.

Атрибуты `shape`, `size` и `values` являются частями объекта Index в Pandas и предоставляют информацию о его структуре и содержании.

**Атрибут `shape`** возвращает кортеж, который содержит количество элементов в каждом измерении индекса. Если индекс одномерный, то shape будет иметь вид (n,), где n – это количество элементов в индексе.

**Атрибут `size`** возвращает количество элементов в индексе. Это просто целое число, равное количеству элементов в индексе.

**Атрибут `values`** возвращает массив, содержащий фактические элементы индекса. Этот массив может быть использован для выполнения различных операций на элементах индекса.

**Атрибут `hasnans`** возвращает `True`, если в индексе есть пропуски и `False`, если пропусков нет.

In [None]:
# использование атрибутов dtype, shape, size и values
import pandas as pd

idx = pd.Index(['a', 'b', 'c', 'd'])

print("dtype:", idx.dtype)
print("shape:", idx.shape)
print("size:", idx.size)
print("values:", idx.values)
print("hasnans:", idx.hasnans)

# dtype: object
# shape: (4,)
# size: 4
# values: ['a' 'b' 'c' 'd']
# hasnans: False

## **Флаги в объекте Index**

Флаги в Pandas – это логические значения, которые показывают различные свойства индекса, такие как уникальность значений, их упорядоченность, отсутствие дубликатов и т.д. Некоторые из флагов, доступных для объекта Index, являются следующими:

1. `is_unique`: флаг, указывающий, являются ли все значения индекса уникальными. Возвращает True, если все значения в индексе уникальны, в противном случае возвращает False.
2. `is_monotonic_increasing`: флаг, указывающий, упорядочены ли значения индекса монотонно по возрастанию. Возвращает True, если индекс монотонный по возрастанию, в противном случае возвращает False.
3. `is_monotonic_decreasing`: флаг, указывающий, упорядочены ли значения индекса монотонно по убыванию. Возвращает True, если индекс монотонный по убыванию, в противном случае возвращает False.

In [None]:
# проверка флагов
import pandas as pd

idx1 = pd.Index(['a', 'b', 'c', 'd', 'a'])
idx2 = pd.Index(['a', 'b', 'c', 'd'])

print("is_unique:", idx1.is_unique)
print("is_monotonic_increasing:", idx2.is_monotonic_increasing)
print("is_monotonic_decreasing:", idx2.is_monotonic_decreasing)

# is_unique: False
# is_monotonic_increasing: True
# is_monotonic_decreasing: False

## **Метод isin() объекта Index в Pandas**

Метод `isin()` является одним из методов, доступных для объектов индекса в Pandas. Он позволяет проверить, содержит ли данный индекс определенные значения. Синтаксис метода `isin()` для Index:

`Index.isin(values)`

`Values` –  итерируемый объект, содержащий значения для проверки.

Метод возвращает булев массив, указывающий, содержатся ли соответствующие значения индексного массива в последовательности values. В качестве аргумента values могут выступать различные типы объектов, например, список, кортеж, множество и др.

Метод `isin()` может быть полезен, когда требуется выбрать только определенные значения из индекса или выполнить фильтрацию данных по индексу.

In [None]:
# пример использования метода isin()
import pandas as pd

idx = pd.Index([1, 2, 3, 4, 5])

print(idx.isin([2, 4, 6]))

# [False True False True False]


## **Прочие методы объекта Index в Pandas**

Методы:
* `unique()`: возвратит уникальные индексы. Примеры в файле Pandas_arithmetic.
* `nunique()`: возвратит количество уникальных индексов.
* `tolist()`: возвратит список со значениями индексов.
* `to_numpy()`: возвратит массив NumPy со значениями индексов.
* `duplicated()`: возвратит массив из булевых значений, где `False` - значение встречается в первый раз, `True` - значение встречается повторно.
* `isna()`: возвратит массив из булевых значений, где `True` - значение является пропуском, и `False` - значение не является пропуском.
* `dropna()`: не меняя исходную индексацию, возвратит новый объект Index с удалёнными пропусками.

In [None]:
# пример работы duplicated()
import pandas as pd

idx = pd.Index([1, 2, 3, 3, 4, 5])

print(idx.duplicated()) # [False False False  True False False]

# пример работы isna() и dropna()
import pandas as pd
import numpy as np
idx = pd.Index([1, 2, np.nan, 3, np.nan, 5])

print(idx.isna()) # [False False  True False  True False]
print(idx.dropna()) # Index([1.0, 2.0, 3.0, 5.0], dtype='float64')

## **Мультииндекс**

Создание мультииндекса осуществляется при помощи класса `MultiIndex`.

Метод `MultiIndex.from_arrays()` позволяет создавать мультииндексы из массивов NumPy или вложенных списков.

Метод `MultiIndex.from_product()` позволяет создавать многоуровневые мультииндексы. В примере ниже первый элемент переменной level_0 сначала сопоставляется со всеми элементами переменной level_1, потом эта операция повторяется для второго элемента.

Метод `MultiIndex.from_tuples()` позволяет создавать мультииндексы из списка кортежей. Каждый кортеж - новая строка мультииндекса, каждый элемент кортежа - один уровень мультииндекса, поэтому они должны быть одинаковой длины.

In [None]:
# создание мультииндекса как отдельного объкта при помощи метода MultiIndex.from_arrays
import pandas as pd

array = [[1, 1, 2, 2], ['row_1', 'row_2', 'row_3', 'row_4']]
multii_array = pd.MultiIndex.from_arrays(array, names=['level_0', 'level_1'])

print(multii_array)

# MultiIndex([(1, 'row_1'),
#             (1, 'row_2'),
#             (2, 'row_3'),
#             (2, 'row_4')],
#            names=['level_0', 'level_1'])

# создадим DataFrame с указанным мультииндексом
df = pd.DataFrame([[1, 2, 3, 4], [1, 2, 3, 4], [1, 2, 3, 4], [1, 2, 3, 4]], index=multii_array)

print(df)

#                  0  1  2  3
# level_0 level_1            
# 1       row_1    1  2  3  4
#         row_2    1  2  3  4
# 2       row_3    1  2  3  4
#         row_4    1  2  3  4

# создание мультииндекса как отдельного объкта при помощи метода MultiIndex.from_arrays
import pandas as pd

level_0 = ['row_1', 'row_2']
level_1 = [1, 2, 3]

multii_product = pd.MultiIndex.from_product([level_0, level_1], names=['level_0', 'level_1'])

print(multii_product)

# MultiIndex([('row_1', 1),
#             ('row_1', 2),
#             ('row_1', 3),
#             ('row_2', 1),
#             ('row_2', 2),
#             ('row_2', 3)],
#            names=['level_0', 'level_1'])

# создание мультииндекса как отдельного объкта при помощи метода MultiIndex.from_tuples
import pandas as pd

tuples = [('Benin', 1), ('Congo', 2), ('Malawi', 3)]

multii_tuples = pd.MultiIndex.from_tuples(tuples, names=['Country', 'index_var'])

print(multii_tuples)

# MultiIndex([( 'Benin', 1),
#             ( 'Congo', 2),
#             ('Malawi', 3)],
#            names=['Country', 'index_var'])

## **Атрибуты и методы мультииндекса**

**Атрибуты:**
* `nlevels`: возвращает количество уровней индекса.
* `levshape`: возвращает кортеж с длиной каждого уровня (количество уникальных элементов на каждом уровне).
* `names`: возвращает список с именами уровней. С помощью этого атрибута можно изменять имена индексов по аналогии с обычным индексным объектом.
* `levels`: возвращает элементы мультииндекса в формате вложенных списков.

**Методы:**
* `set_names()` также позволяет переименовать индексы (как все уровни сразу, так и отдельные уровни; на отдельном уровне - параметр `level`).
* `set_levels()` позволяет заменить значения мультииндексов (как на всех уровнях сразу, так и на одном уровне; на отдельном уровне - параметр `level`).
* `reset_index()` сбрасывает значения индексов, добавляет их в DataFrame как колонки (как на всех уровнях сразу, так и на одном уровне; на отдельном уровне - параметр `level`).
* `droplevel()` позволяет удалять уровень мультииндекса. Если вызвать без аргумента, вернёт DataFrame с удалённым нулевым уровнем. В качестве аргумента можно передать список с уровнями (т.е. удалять не по одному, а сразу несколько).

Все методы не меняют исходный индекс, а возвращают новый. Для изменения старого нужно либо его перезаписать, либо добавить в метод параметр `inplace=True`.

In [None]:
# примеры использования атрибутов мультииндекса
import pandas as pd

tuples = [('Benin', 1), ('Congo', 2), ('Malawi', 3)]

multii_tuples = pd.MultiIndex.from_tuples(tuples, names=['Country', 'index_var'])

print(multii_tuples.nlevels) # 2
print(multii_tuples.levshape) # (3, 3)
print(multii_tuples.names) # ['Country', 'index_var']
print(multii_tuples.levels) # [['Benin', 'Congo', 'Malawi'], [1, 2, 3]]

df = pd.DataFrame([[1000, 2000, 3000], [10000, 20000, 30000], [10, 20, 30]], index=multii_tuples)

print(df)

#                        0      1      2
# Country index_var                     
# Benin   1           1000   2000   3000
# Congo   2          10000  20000  30000
# Malawi  3             10     20     30

print(df.index.nlevels) # 2
print(df.index.levshape) # (3, 3)
print(df.index.names) # ['Country', 'index_var']
print(df.index.levels) # [['Benin', 'Congo', 'Malawi'], [1, 2, 3]]

# переименование индексов
df.index = df.index.set_names(['Country_name', 'index'])
# или df.index.set_names(['Country_name', 'index'], inplace=True)
print(df)

#                         0      1      2
# Country_name index                     
# Benin        1       1000   2000   3000
# Congo        2      10000  20000  30000
# Malawi       3         10     20     30

# переименование одного уровня индекса
df.index = df.index.set_names('index_num', level=1)

print(df)

# Country_name index_num                     
# Benin        1           1000   2000   3000
# Congo        2          10000  20000  30000
# Malawi       3             10     20     30

# замена значений мультииндекса на всех уровнях
df.index = df.index.set_levels([['Rwanda', 'Chad', 'Cameroon'], [4, 5, 6]]) # каждый вложенный список - один элемент индекса

print(df)

# Country_name index_num                     
# Rwanda       4           1000   2000   3000
# Chad         5          10000  20000  30000
# Cameroon     6             10     20     30

# замена значений мультииндекса на одном уровне
df.index = df.index.set_levels(['Mali', 'Zimbabwe', 'Namibia'], level=0)

print(df)

# Country_name index_num                     
# Mali         4           1000   2000   3000
# Zimbabwe     5          10000  20000  30000
# Namibia      6             10     20     30

# пример сброса индексов на всех уровнях
df = df.reset_index()

print(df)

#   Country_name  index_num      0      1      2
# 0         Mali          4   1000   2000   3000
# 1     Zimbabwe          5  10000  20000  30000
# 2      Namibia          6     10     20     30

# пример сброса индекса на отдельном уровне
df = df.set_index(['Country_name', 'index_num']) # установим в качестве индексов колонки обратно

df = df.reset_index(['index_num'])

print(df)

#               index_num      0      1      2
# Country_name                                
# Mali                  4   1000   2000   3000
# Zimbabwe              5  10000  20000  30000
# Namibia               6     10     20     30

# пример удаления уровня индекса
df = df.reset_index()
df = df.set_index(['Country_name', 'index_num']) # установим в качестве индексов колонки обратно

df.index = df.index.droplevel(['index_num'])
# или df.index = df.index.droplevel(level=1)

print(df)

#                   0      1      2
# Country_name                     
# Mali           1000   2000   3000
# Zimbabwe      10000  20000  30000
# Namibia          10     20     30

# **Метод reindex в Pandas**

Метод `reindex` в pandas используется для изменения порядка, добавления или удаления строк и столбцов в DataFrame. Он возвращает новый объект DataFrame с новым индексом. Метод `reindex` может быть использован с различными параметрами, которые позволяют осуществлять различные манипуляции с данными.

Синтаксис метода `reindex`:

`DataFrame.reindex(labels=None, index=None, columns=None, axis=None, method=None, copy=True, level=None, fill_value=nan, limit=None, tolerance=None)`

Параметры метода `reindex`:
1.	`labels`: Список новых меток для переиндексации. Используется, если не указаны параметры index или columns.
2.	`index`: Список новых индексов для строк.
3.	`columns`: Список новых индексов для столбцов.
4.	`axis`: Ось для переиндексации (0 для строк, 1 для столбцов).
5.	`method`: Метод для заполнения значений, если новые метки не соответствуют старым. Возможные значения:
6.	`copy`: Если True, создается копия данных, даже если индексы совпадают.
7.	`level`: Уровень для мультииндексации.
8.	`fill_value`: Значение для заполнения отсутствующих данных.
9.	`limit`: Максимальное количество замен при заполнении.
10.	`tolerance`: Допустимое отклонение для заполнения методом 'nearest'.

Возможные значения `method`:
1. '`None` (по умолчанию)
2. '`pad`' / '`ffill`' (заполнение вперед)
3. '`backfill`' / '`bfill`' (заполнение назад)
4. '`nearest`' (ближайшее значение)


## **Основные варианты использования**

Переиндексация строк или столбцов:
1.	Переиндексация строк.
2.	Переиндексация столбцов.
3.	Переиндексация строк и столбцов одновременно.

Заполнение отсутствующих значений:
1.	Использование метода заполнения вперед (pad/ffill).
2.	Использование метода заполнения назад (backfill/bfill).
3.	Заполнение конкретным значением.
Работа с мультииндексом: нет в этом курсе.


In [None]:
# переиндексанция строк
import pandas as pd

df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6]
}, index=['a', 'b', 'c'])

new_index = ['b', 'a', 'd']
df_reindexed = df.reindex(new_index)

print(df_reindexed)

#     A    B
#b  2.0  5.0
#a  1.0  4.0
#d  NaN  NaN

In [None]:
# переиндексация столбцов
import pandas as pd

df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6]
}, index=['a', 'b', 'c'])

new_columns = ['B', 'A', 'C']
df_reindexed_columns = df.reindex(columns=new_columns)

print(df_reindexed_columns)

#    B  A   C
# a  4  1 NaN
# b  5  2 NaN
# c  6  3 NaN

Метод `reindex` позволяет гибко изменять структуру данных в DataFrame или Series. При этом если новые метки не совпадают с текущими, добавляются строки или столбцы с значениями NaN (по умолчанию). Пример выше.

## **Параметр labels**

Параметр `labels` в методе reindex используется для переиндексации объекта Series или DataFrame по заданным меткам. Этот параметр позволяет задать новые метки для строк или столбцов, в зависимости от значения параметра axis.

In [None]:
# переиндексация строк b и столбцов через labels
import pandas as pd

df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6]
}, index=['a', 'b', 'c'])

new_labels = ['a', 'b', 'd'] #переиндексация строк
df_reindexed = df.reindex(labels=new_labels)

print(df_reindexed)

#      A    B
# a  1.0  4.0
# b  2.0  5.0
# d  NaN  NaN


new_labels = ['A', 'B', 'C'] # переиндексация столбцов
df_reindexed_columns = df.reindex(labels=new_labels, axis=1) # для переиндексации столбцов с параметром labels необходимо указать параметр axis=1

print(df_reindexed_columns)

#    A  B   C
# a  1  4 NaN
# b  2  5 NaN
# c  3  6 NaN

## **Заполнение отсутствующих значений с помощью параметра method**

Параметр `method` в функции `reindex` в библиотеке Pandas позволяет определить метод заполнения отсутствующих значений при переиндексации DataFrame или Series. Вот как работает этот параметр:
1.	`method=None`: это значение по умолчанию, и означает, что отсутствующие значения будут заполнены NaN (Not a Number).
2.	`method='pad'` или `method='ffill'`: Эти значения используют метод заполнения вперед (forward fill), в котором пропущенные значения будут заполнены предшествующими им непропущенными значениями.
3.	`method='backfill'` или `method='bfill'`: эти значения используют метод заполнения назад (backward fill), в котором пропущенные значения будут заполнены следующими за ними непропущенными значениями.
4.	`method='nearest'` (ближайшее значение): пропущенные значения будут заполнены ближайшими по метке значениями.

In [None]:
# переиндексация с заполнением отсутствующих значений методом 'pad'
import pandas as pd

data = {'A': [1, 2, None, 4], 'B': ['a', None, 'c', 'd']}

df = pd.DataFrame(data)

print(df)

#      A     B
# 0  1.0     a
# 1  2.0  None
# 2  NaN     c
# 3  4.0     d

new_index = [0, 1, 2, 4, 5]
new_df = df.reindex(new_index, method='pad')

print(new_df)

#      A     B
# 0  1.0     a
# 1  2.0  None
# 2  NaN     c
# 4  4.0     d
# 5  4.0     d

В предыдущем примере использовался `method='pad'` или `method='ffill'`. Все значения новых строк были взяты из предыдущей строки, которая в итоге не вошла в итоговый DataFrame.

In [None]:
# переиндексация с заполнением отсутствующих значений методом 'bfill'
import pandas as pd

data = {'A': [1, 2, None, 4], 'B': ['a', None, 'c', 'd']}
df = pd.DataFrame(data, index=[2, 5, 7, 9])

print(df)

#      A     B
# 2  1.0     a
# 5  2.0  None
# 7  NaN     c
# 9  4.0     d

new_index = [0, 1, 2, 8]
new_df = df.reindex(new_index, method='bfill')

print(new_df)

#      A  B
# 0  1.0  a
# 1  1.0  a
# 2  1.0  a
# 8  4.0  d

В предыдущем примере использовался `method='backfill'` или `method='bfill'`. Все значения новых строк были взяты из следующих за ними строк с непропущенными значениями.

In [None]:
# переиндексация с заполнением отсутствующих значений методом 'nearest'
import pandas as pd

data = {'A': [1, 2, None, 4], 'B': ['a', None, 'c', 'd']}
df = pd.DataFrame(data, index=[2, 5, 7, 9])

print(df)

#      A     B
# 2  1.0     a
# 5  2.0  None
# 7  NaN     c
# 9  4.0     d

new_index = [0, 1, 3, 4]
new_df = df.reindex(new_index, method='nearest')

print(new_df)

#      A     B
# 0  1.0     a
# 1  1.0     a
# 3  1.0     a
# 4  2.0  None

В предыдущем примере использовался `method='nearest'` (ближайшее значение). Все значения новых строк были заимствованы из ближайших строк (включая строки с отсутствующими значениями).

In [None]:
# переиндексация строк с заполнением отсутствующих значений конкретным значением при помощи параметра fill_value
import pandas as pd

data = {'A': [1, 2, None, 4], 'B': ['a', None, 'c', 'd']}
df = pd.DataFrame(data, index=[2, 5, 7, 9])

print(df)

#      A     B
# 2  1.0     a
# 5  2.0  None
# 7  NaN     c
# 9  4.0     d

new_index = [0, 1, 9, 4]
df_reindexed_fill_value = df.reindex(new_index, fill_value=0)

print(df_reindexed_fill_value)

#      A  B
# 0  0.0  0
# 1  0.0  0
# 9  4.0  d
# 4  0.0  0

В предыдущем примере использовался параметр `fill_value`, позволяющий указать конкретное значение, которым нужно заполнить пропущенные значения в новом DataFrame.


## **Использование параметра limit**

Параметр `limit` позволяет указать максимальное количество последовательных пропущенных значений, которые нужно заполнить. Например, если мы хотим заполнить только два последовательных пропущенных значения, мы можем использовать параметр `limit=2`.

In [None]:
# замена двух последовательно пропущенных значений с помощью параметра limit
import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3, np.nan, 5], 
'B': [4, np.nan, 6, np.nan, 10]})

print(df)

# 0  1.0   4.0
# 1  2.0   NaN
# 2  3.0   6.0
# 3  NaN   NaN
# 4  5.0  10.0

df_reindexed = df.reindex(range(8), method='ffill', limit=2)

print(df_reindexed)

# 0  1.0   4.0
# 1  2.0   NaN
# 2  3.0   6.0
# 3  NaN   NaN
# 4  5.0  10.0
# 5  5.0  10.0
# 6  5.0  10.0
# 7  NaN   NaN


В примере выше использовался метод `reindex` с параметром `method='ffill'`, чтобы заполнить пропущенные значения значениями из предыдущей строки, и параметром `limit=2`, чтобы заполнить только два последовательных пропущенных значения. Как можно заметить, в датафрейме df_reindexed заполнилось только значения с индексами 5 и 6 (были взяты из строки с индексом 4), а значение с индексом 7 не было заполнено.

## **Использование параметра tolerance**

Параметр `tolerance` используется только в случае, если мы пытаемся переиндексировать DataFrame с помощью индекса типа float. В этом случае параметр `tolerance` определяет максимальную разницу между существующим значением индекса и запрашиваемым значением, при которой индекс считается совпадающим. Параметр является числом, которое задает пороговое значение для сравнения индексов при переиндексации данных. При переиндексации данных с помощью функции reindex, индексы исходного и нового объекта данных сравниваются между собой. Если разница между значениями индексов не превышает значение параметра `tolerance`, то значения из исходного объекта данных остаются привязанными к соответствующему индексу в новом объекте данных. Если разница между значениями индексов превышает значение параметра `tolerance`, то эти значения не будут присоединены к новому объекту данных. Таким образом, параметр `tolerance` в функции `reindex` позволяет контролировать точность сравнения индексов и избежать ошибок в случае небольших отклонений между значениями индексов. Нужно заметить, что данный параметр можно использовать только совместно с параметром method.

In [None]:
# переиндексация с использованием параметра tolerance
import pandas as pd

data = {'A': [1, 2, 3], 'B': [4, 5, 6]}
df = pd.DataFrame(data, index=[1.0, 2.4, 3.1])

print(df)

#      A  B
# 1.0  1  4
# 2.4  2  5
# 3.1  3  6

new_index = [1.0, 2.0, 3.0]
df_reindexed = df.reindex(new_index, tolerance=0.3, method='nearest')

print(df_reindexed)

#        A    B
# 1.0  1.0  4.0
# 2.0  NaN  NaN
# 3.0  3.0  6.0


В примере выше параметр `tolerance` определяет границу, при которой значение нового индекса заполнится значением от ближайшего при помощи `method='nearest'`. Так как 3.0 находится в диапазоне 0.3 от индекса 3.1, значение 3.0 было взято от индекса 3.1. А так как 2.0 находится вне пределов диапазона 0.3 от 2.4, значение индекса 2.0 заполнено не было.

# **Обращение к отдельным элементам Series и DataFrame. Методы at[] и iat[]**

Метод `iat[]` позволяет обратиться (возвратить, изменить...) к элементу DataFrame по его индексам строки и столбца. Общий синтаксис:

`df.iat[индекс строки, индекс столбца]`

Метод `iat[]` можно применять к Series, в таком случае указывается только индекс строки.

Метод `at[]` работает по аналогии с `iat[]`, но позволяет обратиться уже по меткам индексов и столбцов. При применении к серии также указывается только метка строки.

In [None]:
# пример использования метода iat[] с DataFrame
import pandas as pd

df = pd.DataFrame({'A': [1, 3, 5], 'B': [2, 4, 6]}, index=['a', 'b', 'c'])

print(df)

#    A  B
# a  1  2
# b  3  4
# c  5  6

print(df.iat[2, 1]) # 6

# пример использования DataFrame с Series
s = pd.Series([1, 2, 3, 4, 5])
print(s.iat[3]) # 4

# пример изменения элемента DataFrame при помощи iat[]
df = pd.DataFrame({'A': [1, 3, 5], 'B': [2, 4, 6]}, index=['a', 'b', 'c'])

print(df)

#    A  B
# a  1  2
# b  3  4
# c  5  6

df.iat[1, 1] = 123

print(df)

#    A    B
# a  1    2
# b  3  123
# c  5    6

# пример использования at[]
df = pd.DataFrame({'A': [1, 3, 5], 'B': [2, 4, 6]}, index=['a', 'b', 'c'])

print(df)

#    A  B
# a  1  2
# b  3  4
# c  5  6

print(df.at['c', 'A']) # 5

# **Использование срезов с объектами Series и DataFrame в Pandas**

## **Использование срезов с DataFrame**

Использовать срезы с объектом DataFrame позволяют методы `loc[]` и `iloc[]`. Метод `loc[]` позволяет выбирать строки и столбцы по меткам индексов, а метод `iloc[]` позволяет выбирать строки и столбцы по числовым индексам.

Общий синтаксис (`loc[]` по аналогии):
* `df.iloc[индекс строки, индекс столбца]`
* `df.iloc[[список индексов строки], [список индексов столбцов]]`. На выходе DataFrame. Если передать единичный индекс столбца без квадратных скобок, возвратится серия. 
* `df.iloc[срезы:индексов строк, срезы:индексов колонок]`
* `df.iloc[[список, булевых, значений], [список, булевых, значений]]`. В этом случае размер списка булевых значений для строк должен совпадать с количеством строк, а список булевых значений для колонок - с количеством колонок.

**Примечание:** при использовании метода `loc[]` последняя метка включается в срез, а при использовании метода `iloc[]` последний индекс не включается, как в обычном Python.

In [None]:
# пример использования loc[] и iloc[] для отбора чисел
import pandas as pd

my_dict = {'name': ['Alice', 'Bob', 'Charlie', 'David', 'Emily'],
           'age': [25, 30, 35, 40, 45],
           'city': ['New York', 'Paris', 'London', 'Tokyo', 'Sydney']}

my_dataframe = pd.DataFrame(my_dict)

my_slice1 = my_dataframe.loc[1:3, 'name':'age']
my_slice2 = my_dataframe.iloc[1:3, [2]] # первый параметр отбирает строки, второй - колонки; если указать колонку без квадратных скобок - вернётся серия
my_slice3 = my_dataframe.iloc[[True, False, True, False, False], [True, False, True]]

print(my_slice1)

#       name  age
# 1      Bob   30
# 2  Charlie   35
# 3    David   40

print(my_slice2)

#      city
# 1   Paris
# 2  London

print(my_slice3)

#       name      city
# 0    Alice  New York
# 2  Charlie    London

## **Использование срезов с Series**

Срезы с Series также используются при помощи методов `loc[]` и `iloc[]`. В этом случае передаются только индексы/метки строк.

In [None]:
# создание среза в Series
import pandas as pd

my_list = [10, 20, 30, 40, 50]
my_series = pd.Series(my_list, index=['a', 'b', 'c', 'd', 'e'])

my_slice = my_series.loc['b':'d']

print(my_slice)

# b    20
# c    30
# d    40
# dtype: int64

my_slice = my_series.iloc[0:3]

print(my_slice)

# a    10
# b    20
# c    30
# dtype: int64

## **Использование срезов для фильтрации данных в DataFrame**

Можно использовать для этого как условные операции сравнения '`>`', '`<`', '`==`', '`!=`', так и логические операторы `&` (and), `|` (or), `~` (not).

In [None]:
# фильтруем те случаи, в которых возраст больше 30
import pandas as pd

my_dict = {'name': ['Alice', 'Bob', 'Charlie', 'David', 'Emily'],
           'age': [25, 30, 35, 40, 45],
           'city': ['New York', 'Paris', 'London', 'Tokyo', 'Sydney']}

my_dataframe = pd.DataFrame(my_dict)

filtered_df = my_dataframe[my_dataframe['age'] > 30]

print(filtered_df)
#       name  age    city
# 2  Charlie   35  London
# 3    David   40   Tokyo
# 4    Emily   45  Sydney

In [None]:
# примеры использования логических операторов
import pandas as pd

employees = pd.DataFrame({
    'name': ['John', 'Emily', 'Michael', 'Jessica', 'Andrew'],
    'age': [35, 28, 42, 30, 25],
    'salary': [60000, 50000, 70000, 55000, 45000]
})

# отбираем всех, чьё имя начинается на 'J', и чей возраст меньше 40
selected_employees = employees[(employees['name'].str.startswith('J')) & (employees['age'] < 40)]

print(selected_employees)

#       name  age  salary
# 0     John   35   60000
# 3  Jessica   30   55000

# отбираем тех, чьё имя начинается на 'J' или 'M'
selected_employees1 = employees[(employees['name'].str.startswith('J')) | (employees['name'].str.startswith('M'))]

print(selected_employees1)

#       name  age  salary
# 0     John   35   60000
# 2  Michael   42   70000
# 3  Jessica   30   55000

# отбираем тех, кто старше 30, путём инвертирования условия
selected_employees2 = employees[~(employees['age'] < 30)]

print(selected_employees2)

#       name  age  salary
# 0     John   35   60000
# 2  Michael   42   70000
# 3  Jessica   30   55000

## **Использование срезов для изменения данных в DataFrame**

При помощи методов `iloc[]` и `loc[]` можно изменять данные в ячейках или добавлять новые строки и столбцы.

In [None]:
# пример замены данных в ячейке датафрейма при помощи loc[]
import pandas as pd

employees = pd.DataFrame({
    'name': ['John', 'Emily', 'Michael', 'Jessica', 'Andrew'],
    'age': [35, 28, 42, 30, 25],
    'salary': [60000, 50000, 70000, 55000, 45000]
})

print(employees)

#       name  age  salary
# 0     John   35   60000
# 1    Emily   28   50000
# 2  Michael   42   70000
# 3  Jessica   30   55000
# 4   Andrew   25   45000

employees.loc[0, 'name'] = 'Alice'

print(employees)

#       name  age  salary
# 0    Alice   35   60000
# 1    Emily   28   50000
# 2  Michael   42   70000
# 3  Jessica   30   55000
# 4   Andrew   25   45000


In [None]:
# пример добавления новой колонки при помощи срезов

employees = pd.DataFrame({
    'name': ['John', 'Emily', 'Michael', 'Jessica', 'Andrew'],
    'age': [35, 28, 42, 30, 25],
    'salary': [60000, 50000, 70000, 55000, 45000]
})

print(employees)

#       name  age  salary
# 0     John   35   60000
# 1    Emily   28   50000
# 2  Michael   42   70000
# 3  Jessica   30   55000
# 4   Andrew   25   45000

countries = pd.Series(['USA', 'Canada', 'Russia', 'France', 'Ukraine', 'Finland', 'Pakistan'])

employees['Country'] = countries.loc[0:4]

print(employees)

#       name  age  salary  Country
# 0     John   35   60000      USA
# 1    Emily   28   50000   Canada
# 2  Michael   42   70000   Russia
# 3  Jessica   30   55000   France
# 4   Andrew   25   45000  Ukraine

## **Особенности/возможности оператора []**

1. Оператор `[]` позволяет отбирать строки по условию (к примеру, при помощи булевых масок).
2. Оператор `[]` позволяет отбирать столбцы по имени.
3. Оператор `[]` позволяет отбирать столбцы и строки одновременно.
4. Оператор `[]` позволяет изменять данные в DataFrame.

In [None]:
# пример отбора строки по условию с помощью булевой маски
import pandas as pd

sales = pd.DataFrame({
    'region': ['North', 'South', 'East', 'West', 'Central'],
    'product': ['A', 'B', 'A', 'C', 'B'],
    'sales_amount': [10000, 20000, 15000, 12000, 18000]
})

# отбираем строку с регионом 'North'
north_sales = sales[sales['region'] == 'North']

print(north_sales)

#   region product  sales_amount
# 0  North       A         10000

#как выглядит булевая маска
print(sales['region'] == 'North')

# 0     True
# 1    False
# 2    False
# 3    False
# 4    False
# Name: region, dtype: bool

In [None]:
#пример отбора столбцов по имени
import pandas as pd

sales = pd.DataFrame({
    'region': ['North', 'South', 'East', 'West', 'Central'],
    'product': ['A', 'B', 'A', 'C', 'B'],
    'sales_amount': [10000, 20000, 15000, 12000, 18000]
})

selected_columns = sales[['region', 'sales_amount']]

print(selected_columns)

#     region  sales_amount
# 0    North         10000
# 1    South         20000
# 2     East         15000
# 3     West         12000
# 4  Central         18000

In [None]:
# пример выборки строк и столбцов одновременно
import pandas as pd

sales = pd.DataFrame({
    'region': ['North', 'South', 'East', 'West', 'Central'],
    'product': ['A', 'B', 'A', 'C', 'B'],
    'sales_amount': [10000, 20000, 15000, 12000, 18000]
})

# выводим только колонки с регионом и объёмом продаж для строк с регионом 'North'
selected_data = sales.loc[sales['region'] == 'North', ['region', 'sales_amount']]

print(selected_data)

#   region  sales_amount
# 0  North         10000

In [None]:
# пример изменения данных при помощи оператора []

# пример выборки строк и столбцов одновременно
import pandas as pd

sales = pd.DataFrame({
    'region': ['North', 'South', 'East', 'West', 'Central'],
    'product': ['A', 'B', 'A', 'C', 'B'],
    'sales_amount': [10000, 20000, 15000, 12000, 18000]
})

# меняем объём продаж у ячейки с регионом 'North' и продуктом 'A'
sales.loc[(sales['region'] == 'North') & (sales['product'] == 'A'), 'sales_amount'] = 32200

print(sales)

#     region product  sales_amount
# 0    North       A         32200
# 1    South       B         20000
# 2     East       A         32200
# 3     West       C         12000
# 4  Central       B         18000

# можно заменять данные сразу в нескольких колонках по некоторому параметру. Значение замены может быть одно (в данном случае, к примеру, 0)
sales.loc[sales['product'] == 'A', ['sales_amount', 'region']] = [0, 'central']

print(sales)

#     region product  sales_amount
# 0  central       A             0
# 1    South       B         20000
# 2  central       A             0
# 3     West       C         12000
# 4  Central       B         18000

# **Объединение данных. Функции concat(), merge()**

## **Функция concat()**
Функция `concat()` принимает список DataFrame, которые необходимо объединить. По умолчанию функция соединяет DataFrame'ы по колонкам, по индексам объединения не происходит (индексы сохраняются). Если передать аргумент `ignore_index=True`, исходные индексы будут заменены на стандартный Rangeindex. Если необходимо объединить DataFrame'ы по строкам, следует передать аргумент `axis=1`.

In [None]:
# примеры использования concat()
import pandas as pd

df1 = pd.DataFrame({'A': ['A1', 'A2', 'A3', 'A4'], 
                    'B': ['B1', 'B2', 'B3', 'B4'], 
                    'C': ['C1', 'C2', 'C3', 'C4'], 
                    'D': ['D1', 'D2', 'D3', 'D4']}, index=[0, 1, 2, 3])

df2 = pd.DataFrame({'A': ['A5', 'A6', 'A7', 'A8'], 
                    'B': ['B5', 'B6', 'B7', 'B8'], 
                    'C': ['C5', 'C6', 'C7', 'C8'], 
                    'D': ['D5', 'D6', 'D7', 'D8']}, index=[1, 2, 3, 4])

df3 = pd.DataFrame({'A': ['A9', 'A10', 'A11', 'A12'], 
                    'B': ['B9', 'B10', 'B11', 'B12'], 
                    'C': ['C9', 'C10', 'C11', 'C12'], 
                    'D': ['D9', 'D10', 'D11', 'D12']}, index=[2, 3, 4, 5])

df = pd.concat([df1, df2, df3])

print(df)

#      A    B    C    D
# 0   A1   B1   C1   D1
# 1   A2   B2   C2   D2
# 2   A3   B3   C3   D3
# 3   A4   B4   C4   D4
# 1   A5   B5   C5   D5
# 2   A6   B6   C6   D6
# 3   A7   B7   C7   D7
# 4   A8   B8   C8   D8
# 2   A9   B9   C9   D9
# 3  A10  B10  C10  D10
# 4  A11  B11  C11  D11
# 5  A12  B12  C12  D12

df = pd.concat([df1, df2, df3], ignore_index=True)

print(df)

#       A    B    C    D
# 0    A1   B1   C1   D1
# 1    A2   B2   C2   D2
# 2    A3   B3   C3   D3
# 3    A4   B4   C4   D4
# 4    A5   B5   C5   D5
# 5    A6   B6   C6   D6
# 6    A7   B7   C7   D7
# 7    A8   B8   C8   D8
# 8    A9   B9   C9   D9
# 9   A10  B10  C10  D10
# 10  A11  B11  C11  D11
# 11  A12  B12  C12  D12

df = pd.concat([df1, df2, df3], axis=1)

print(df)

#      A    B    C    D    A    B    C    D    A    B    C    D
# 0   A1   B1   C1   D1  NaN  NaN  NaN  NaN  NaN  NaN  NaN  NaN
# 1   A2   B2   C2   D2   A5   B5   C5   D5  NaN  NaN  NaN  NaN
# 2   A3   B3   C3   D3   A6   B6   C6   D6   A9   B9   C9   D9
# 3   A4   B4   C4   D4   A7   B7   C7   D7  A10  B10  C10  D10
# 4  NaN  NaN  NaN  NaN   A8   B8   C8   D8  A11  B11  C11  D11
# 5  NaN  NaN  NaN  NaN  NaN  NaN  NaN  NaN  A12  B12  C12  D12

## **Функция/метод merge()**

Конструкцию `merge()` можно использовать и как метод, и как функцию. Она позволяет объединять DataFrame'ы по заданным методам или столбцам. `merge()` объединяет DataFrame'ы по столбцам с одинаковыми наименованиями и возвращает ошибку, если их нет.

**Синтаксис функции:** `pd.merge(left_df, right_df, ...)`

**Синтаксис метода:** `left_df.merge(right_df, ...)`

**Методы объединения (устанавливаются при помощи аргумента `how`):**
* `left`: к элементам левого DataFrame будут прибавляться элементы правого DataFrame (по результирующему столбцу).
* `right`: к элементам правого DataFrame будут прибавляться элементы левого DataFrame (по результирующему столбцу).
* `inner` (по умолчанию): объединяются только те элементы, которые есть в обоих DataFrame (по результирующему столбцу).
* `outer`: при объединении используются все элементы, которые есть в результирующем столбце.

В аргумент `on` можно передать имя результирующего столбца или список из нескольких столбцов, по которому/которым должно происходить объединение.

Если колонки, по которым нужно объединять DataFrame'ы, имеют разные названия, то можно использовать аргументы `left_on` и `right_on`, в которые необходимо передать названия результирующего столбца или список из результирующих столбцов для левого и правого DataFrame соответственно.

Аргумент `suffixes` позволяет задавать имена для одинаковых столбцов в объединённом DataFrame (пример).

In [None]:
# примеры использования merge()
import pandas as pd

df1 = pd.DataFrame({'client_id': [100103, 21990, 455323, 100103, 21990, 455323, 455323, 21990, 455323],
                    'product': ['product_2', 'product_2', 'product_1', 'product_1', 'product_1', 'product_3', 'product_3', 'product_3', 'product_6']})

df2 = pd.DataFrame({'product': ['product_1', 'product_2', 'product_3', 'product_4', 'product_5'],
                    'price': [1000, 2000, 3000, 4000, 5000]})

print(df1.merge(df2, how='left')) # к левому df были добавлены данные из правого df по результирующему столбцу product

#    client_id    product   price
# 0     100103  product_2  2000.0
# 1      21990  product_2  2000.0
# 2     455323  product_1  1000.0
# 3     100103  product_1  1000.0
# 4      21990  product_1  1000.0
# 5     455323  product_3  3000.0
# 6     455323  product_3  3000.0
# 7      21990  product_3  3000.0
# 8     455323  product_6     NaN

print(df1.merge(df2, how='right')) # к правому df были добавлены данные из левого df по результирующему столбцу product

#    client_id    product  price
# 0   455323.0  product_1   1000
# 1   100103.0  product_1   1000
# 2    21990.0  product_1   1000
# 3   100103.0  product_2   2000
# 4    21990.0  product_2   2000
# 5   455323.0  product_3   3000
# 6   455323.0  product_3   3000
# 7    21990.0  product_3   3000
# 8        NaN  product_4   4000
# 9        NaN  product_5   5000

print(df1.merge(df2, how='inner'))

#    client_id    product  price
# 0     100103  product_2   2000
# 1      21990  product_2   2000
# 2     455323  product_1   1000
# 3     100103  product_1   1000
# 4      21990  product_1   1000
# 5     455323  product_3   3000
# 6     455323  product_3   3000
# 7      21990  product_3   3000

print(df1.merge(df2, how='outer'))

#     client_id    product   price
# 0    455323.0  product_1  1000.0
# 1    100103.0  product_1  1000.0
# 2     21990.0  product_1  1000.0
# 3    100103.0  product_2  2000.0
# 4     21990.0  product_2  2000.0
# 5    455323.0  product_3  3000.0
# 6    455323.0  product_3  3000.0
# 7     21990.0  product_3  3000.0
# 8         NaN  product_4  4000.0
# 9         NaN  product_5  5000.0
# 10   455323.0  product_6     NaN

In [None]:
# пример использования merge() с аргументом on
import pandas as pd

df1 = pd.DataFrame({'client_id': [100103, 21990, 455323, 100103, 21990, 455323, 455323, 21990, 455323],
                    'product': ['product_2', 'product_2', 'product_1', 'product_1', 'product_1', 'product_3', 'product_3', 'product_3', 'product_6'],
                    'color_prod': ['black', 'white', 'white', 'white', 'black', 'black', 'white', 'black', 'white']})

df2 = pd.DataFrame({'product': ['product_1', 'product_2', 'product_3', 'product_4', 'product_5', 'product_1', 'product_2', 'product_3', 'product_4', 'product_5'],
                    'price': [1000, 2000, 3000, 4000, 5000, 1500, 2500, 3500, 4500, 5500],
                    'color_prod': ['black', 'black', 'black', 'black', 'black', 'white', 'white', 'white', 'white', 'white']})

# получим DataFrame, в котором к каждому проданному продукту поставлена его цена

print(df1.merge(df2, how='left', on=['product', 'color_prod']))

#    client_id    product color_prod   price
# 0     100103  product_2      black  2000.0
# 1      21990  product_2      white  2500.0
# 2     455323  product_1      white  1500.0
# 3     100103  product_1      white  1500.0
# 4      21990  product_1      black  1000.0
# 5     455323  product_3      black  3000.0
# 6     455323  product_3      white  3500.0
# 7      21990  product_3      black  3000.0
# 8     455323  product_6      white     NaN

# переименование двух столбцов для дальнейшей иллюстрации объединения по столбцам с разными наименованиями
new_df1 = df1.rename(columns={'product': 'prod'})
new_df2 = df2.rename(columns={'color_prod': 'color'})

print(new_df1.merge(new_df2, how='left', 
                    left_on=['prod', 'color_prod'],
                    right_on=['product', 'color']))

#    client_id       prod color_prod    product   price  color
# 0     100103  product_2      black  product_2  2000.0  black
# 1      21990  product_2      white  product_2  2500.0  white
# 2     455323  product_1      white  product_1  1500.0  white
# 3     100103  product_1      white  product_1  1500.0  white
# 4      21990  product_1      black  product_1  1000.0  black
# 5     455323  product_3      black  product_3  3000.0  black
# 6     455323  product_3      white  product_3  3500.0  white
# 7      21990  product_3      black  product_3  3000.0  black
# 8     455323  product_6      white        NaN     NaN    NaN

In [None]:
# пример использования merge() с аргументом suffixes
import pandas as pd

df1 = pd.DataFrame({'product': ['product_1', 'product_2', 'product_3', 'product_4', 'product_5'],
                    'count': [10, 20, 30, 40, 50]})

df2 = pd.DataFrame({'product': ['product_3', 'product_4', 'product_5', 'product_6', 'product_7'],
                    'count': [100, 200, 300, 400, 500]})

# стандартное объединение (DataFrame со всеми товарами и количеством продаж в каждом из двух магазинов)
print(df1.merge(df2, how='outer', on='product'))

#      product  count_x  count_y
# 0  product_1     10.0      NaN
# 1  product_2     20.0      NaN
# 2  product_3     30.0    100.0
# 3  product_4     40.0    200.0
# 4  product_5     50.0    300.0
# 5  product_6      NaN    400.0
# 6  product_7      NaN    500.0

# объединение с аргументом suffixes
print(df1.merge(df2, how='outer', on='product', suffixes=['_shop_1', '_shop_2']))

#      product  count_shop_1  count_shop_2
# 0  product_1          10.0           NaN
# 1  product_2          20.0           NaN
# 2  product_3          30.0         100.0
# 3  product_4          40.0         200.0
# 4  product_5          50.0         300.0
# 5  product_6           NaN         400.0
# 6  product_7           NaN         500.0

# **Обработка дубликатов**

Повторяющиеся строки или значения столбцов можно обрабатывать при помощи методов `duplicated()` и `drop_duplicates()`.

**Метод `dublicated()`** возвращает булевую маску, которая означает повторяющиеся строки (True - строка является дубликатом, False - не является). Если нужно получить инвертированные значения (True - строка не является дубликатом, False - является), то можно пользоваться оператором `~` (пример). 

**Принимаемые аргументы:**
* `subset`:  поиск дубликатов только в определенных столбцах. По умолчанию используются все столбцы (значение `None`). Принимает метку столбца или список меток столбцов.
* `keep`: `first` - пометить пометить дубликаты как `True`, за исключением первого вхождения; `last` - пометить дубликаты как `True`, за исключением последнего вхождения; `False` - пометить все дубликаты как `True`.

**Метод `drop_duplicates()`** возвращает DataFrame или Series с удалёнными дубликатами строк. Индексы, в том числе индексы времени, игнорируются.

**Принимаемые аргументы:**
* `subset`:  поиск дубликатов только в определенных столбцах. По умолчанию используются все столбцы (значение `None`). Принимает метку столбца или список меток столбцов.
* `inplace`: `True` - изменить исходный DataFrame, `False` - возвратить новый DataFrame.

In [None]:
# пример использования duplicated() и drop_duplicates()
import pandas as pd

df = pd.DataFrame([[1, 2, 3], [1, 2, 3], [1, 2, 3]])

print(df)

#    0  1  2
# 0  1  2  3
# 1  1  2  3
# 2  1  2  3

print(df.duplicated()) # вывод маски

# 0    False
# 1     True
# 2     True
# dtype: bool

print(~df.duplicated()) # вывод инвертированной маски

# 0     True
# 1    False
# 2    False
# dtype: bool

df = df.drop_duplicates() # удаление дубликатов

print(df)

#    0  1  2
# 0  1  2  3