# Дополнительные методы

Импорт библиотек

In [1]:
import polars as pl
from datetime import date

Создаём *DataFrame*

In [2]:
df = pl.DataFrame(
    {
        "цена": [12.99, 24.50, 8.99, 45.00, 18.75],  
        "сорт_винограда": ["Шардоне", "Каберне Совиньон", "Пино Нуар", "Совиньон Блан", "Мерло"], 
        "страна": ["Франция", "Италия", "США", "Новая Зеландия", "Чили"], 
        "рейтинг": [4.2, 4.8, 4.5, 4.6, 4.0], 
        "градус": [12.5, 13.8, 13.0, 12.0, 14.2], 
        "регион": ["Бордо", "Тоскана", "Напа", "Марлборо", "Колчагуа"],
        "дата_выпуска": [
            date(2020, 3, 15),
            date(2019, 7, 22),
            date(2021, 1, 10),
            date(2022, 5, 5),
            date(2018, 11, 30),
        ],  # date — тип Date
        "в_наличии": [True, False, True, True, False],  
        "артикул": ["VIN001", "VIN002", "VIN003", "VIN004", "VIN005"], 
        "объём_мл": [750, 750, 750, 750, 1000], 
    }
)

print(df)

shape: (5, 10)
┌───────┬────────────────┬──────────┬─────────┬───┬───────────────┬───────────┬─────────┬──────────┐
│ цена  ┆ сорт_винограда ┆ страна   ┆ рейтинг ┆ … ┆ дата_выпуска  ┆ в_наличии ┆ артикул ┆ объём_мл │
│ ---   ┆ ---            ┆ ---      ┆ ---     ┆   ┆ ---           ┆ ---       ┆ ---     ┆ ---      │
│ f64   ┆ str            ┆ str      ┆ f64     ┆   ┆ date          ┆ bool      ┆ str     ┆ i64      │
╞═══════╪════════════════╪══════════╪═════════╪═══╪═══════════════╪═══════════╪═════════╪══════════╡
│ 12.99 ┆ Шардоне        ┆ Франция  ┆ 4.2     ┆ … ┆ 2020-03-15    ┆ true      ┆ VIN001  ┆ 750      │
│ 24.5  ┆ Каберне        ┆ Италия   ┆ 4.8     ┆ … ┆ 2019-07-22    ┆ false     ┆ VIN002  ┆ 750      │
│       ┆ Совиньон       ┆          ┆         ┆   ┆               ┆           ┆         ┆          │
│ 8.99  ┆ Пино Нуар      ┆ США      ┆ 4.5     ┆ … ┆ 2021-01-10    ┆ true      ┆ VIN003  ┆ 750      │
│ 45.0  ┆ Совиньон Блан  ┆ Новая    ┆ 4.6     ┆ … ┆ 2022-05-05    ┆ true    

В данном ноутбуке рассмотрим следующие методы и атрибуты:
1. атрибут polars.DataFrame.height
2. атрибут polars.DataFrame.width
3. атрибут polars.DataFrame.schema
4. метод polars.DataFrame.to_dict()
5. метод polars.DataFrame.to_dicts()
6. метод polars.DataFrame.cast()
7. метод polars.DataFrame.clone()
8. метод polars.DataFrame.explode()
9. метод polars.DataFrame.extend()
10. метод polars.DataFrame.get_column()
11. метод polars.DataFrame.get_columns()
12. метод polars.DataFrame.insert_column()
13. метод polars.DataFrame.item()
14. метод polars.DataFrame.limit()
15. метод polars.DataFrame.partition_by()
16. метод polars.DataFrame.pivot()
17. метод polars.DataFrame.replace_column()
18. метод polars.DataFrame.rows()
19. метод polars.DataFrame.to_series()
20. метод polars.DataFrame.unpivot()
21. метод polars.DataFrame.collect_schema()
22. метод polars.DataFrame.equals()
23. метод polars.DataFrame.map_rows()
24. метод polars.DataFrame.sql()

## Атрибуты DataFrame

Атрибут `height` возвращает количество строк в датафрейме.

In [3]:
print(df.height)

5


Атрибут `width` возвращает количество столбцов в датафрейме.

In [4]:
print(df.width)

10


Атрибут `schema` возвращает словареподобное отображение, которое показывает имя каждого столбца → его тип данных в *polars*.

In [5]:
df.schema

Schema([('цена', Float64),
        ('сорт_винограда', String),
        ('страна', String),
        ('рейтинг', Float64),
        ('градус', Float64),
        ('регион', String),
        ('дата_выпуска', Date),
        ('в_наличии', Boolean),
        ('артикул', String),
        ('объём_мл', Int64)])

## Методы DataFrame

### Метод `to_dict()`

Метод `to_dict()` преобразует *DataFrame* в словарь, где ключи — это названия столбцов, а значения — данные из этих столбцов.

Он позволяет гибко выбирать, в каком виде возвращать значения:
- как объекты Series (по умолчанию),
- или как обычные списки Python.

In [6]:
df.to_dict()

{'цена': shape: (5,)
 Series: 'цена' [f64]
 [
 	12.99
 	24.5
 	8.99
 	45.0
 	18.75
 ],
 'сорт_винограда': shape: (5,)
 Series: 'сорт_винограда' [str]
 [
 	"Шардоне"
 	"Каберне Совиньон"
 	"Пино Нуар"
 	"Совиньон Блан"
 	"Мерло"
 ],
 'страна': shape: (5,)
 Series: 'страна' [str]
 [
 	"Франция"
 	"Италия"
 	"США"
 	"Новая Зеландия"
 	"Чили"
 ],
 'рейтинг': shape: (5,)
 Series: 'рейтинг' [f64]
 [
 	4.2
 	4.8
 	4.5
 	4.6
 	4.0
 ],
 'градус': shape: (5,)
 Series: 'градус' [f64]
 [
 	12.5
 	13.8
 	13.0
 	12.0
 	14.2
 ],
 'регион': shape: (5,)
 Series: 'регион' [str]
 [
 	"Бордо"
 	"Тоскана"
 	"Напа"
 	"Марлборо"
 	"Колчагуа"
 ],
 'дата_выпуска': shape: (5,)
 Series: 'дата_выпуска' [date]
 [
 	2020-03-15
 	2019-07-22
 	2021-01-10
 	2022-05-05
 	2018-11-30
 ],
 'в_наличии': shape: (5,)
 Series: 'в_наличии' [bool]
 [
 	true
 	false
 	true
 	true
 	false
 ],
 'артикул': shape: (5,)
 Series: 'артикул' [str]
 [
 	"VIN001"
 	"VIN002"
 	"VIN003"
 	"VIN004"
 	"VIN005"
 ],
 'объём_мл': shape: (5,)
 Se

Как обычный словарь:

In [7]:
df.to_dict(as_series=False)

{'цена': [12.99, 24.5, 8.99, 45.0, 18.75],
 'сорт_винограда': ['Шардоне',
  'Каберне Совиньон',
  'Пино Нуар',
  'Совиньон Блан',
  'Мерло'],
 'страна': ['Франция', 'Италия', 'США', 'Новая Зеландия', 'Чили'],
 'рейтинг': [4.2, 4.8, 4.5, 4.6, 4.0],
 'градус': [12.5, 13.8, 13.0, 12.0, 14.2],
 'регион': ['Бордо', 'Тоскана', 'Напа', 'Марлборо', 'Колчагуа'],
 'дата_выпуска': [datetime.date(2020, 3, 15),
  datetime.date(2019, 7, 22),
  datetime.date(2021, 1, 10),
  datetime.date(2022, 5, 5),
  datetime.date(2018, 11, 30)],
 'в_наличии': [True, False, True, True, False],
 'артикул': ['VIN001', 'VIN002', 'VIN003', 'VIN004', 'VIN005'],
 'объём_мл': [750, 750, 750, 750, 1000]}

### Метод `to_dicts()`

Метод `to_dicts()` преобразует *DataFrame* в список словарей, где каждая строка фрейма данных становится отдельным словарём, а ключи в этом словаре — это названия столбцов, значения — соответствующие значения из строки. 

In [8]:
df_ex = pl.DataFrame({
    "year": [2014, 2015, 2016, 2017, 2018],
    "russian_language": [62.5, 65.8, 68.0, 69.1, 70.93],
    "mathematics": [46.4, 45.5, 46.2, 47.1, 49.8]
})

df_ex.to_dicts()

[{'year': 2014, 'russian_language': 62.5, 'mathematics': 46.4},
 {'year': 2015, 'russian_language': 65.8, 'mathematics': 45.5},
 {'year': 2016, 'russian_language': 68.0, 'mathematics': 46.2},
 {'year': 2017, 'russian_language': 69.1, 'mathematics': 47.1},
 {'year': 2018, 'russian_language': 70.93, 'mathematics': 49.8}]

### Метод `cast()`

Метод `cast()` используется для преобразования типов данных столбцов датафрейма. Он позволяет изменить тип одного или нескольких столбцов на указанный — например, превратить целые числа в строки, даты в датавремя, числа с плавающей точкой в целые и т.д.

Пример:

In [9]:
df_ex = pl.DataFrame({
    "a": [1, 2, 3],      # i64
    "b": [4.5, 5.5, 6.5] # f64
})

print(df_ex)

shape: (3, 2)
┌─────┬─────┐
│ a   ┆ b   │
│ --- ┆ --- │
│ i64 ┆ f64 │
╞═════╪═════╡
│ 1   ┆ 4.5 │
│ 2   ┆ 5.5 │
│ 3   ┆ 6.5 │
└─────┴─────┘


In [10]:
df_ex.cast({"a": pl.Float64, "b": pl.Int32})

a,b
f64,i32
1.0,4
2.0,5
3.0,6


В результате:
- столбец a стал float → [1.0, 2.0, 3.0]
- столбец b стал int → [4, 5, 6] (дробная часть отбрасывается)

### Метод `clone()`

Метод `clone()` создаёт копию *DataFrame*. После клонирования можно безопасно модифицировать копию, не влияя на оригинал. Это может быть полезно:
- при построении конвейров обработки данных;
- чтобы сохрнаить исходный *DataFrame* неизменным;
- при параллельно обработке разных версий одних и тех же данных.

In [11]:
# Делаем копию исходного DataFrame
df_clone = df.clone()

# Проверяем, являются ли df_clone и df одним и тем же объектом в памяти
print(df_clone is df)

# Удаляем столбец 'артикул' из скопированного DataFrame
df_clone = df_clone.drop("артикул")

# Сравниваем содержимое df_clone и исходного df с помощью метода equals()
print(df_clone.equals(df))


False
False


Данный код демонстрирует безопасное копирование и изолированное изменение данных без риска повредить оригинал.

### Метод `explode()`

Метод `explode()` «разворачивает» (превращает в отдельные строки) столбцы, содержащие списки (или массивы).
Каждый элемент списка из одной строки становится отдельной строкой в результирующем *DataFrame*. 
Это похоже на преобразование данных из "широкого" формата в "длинный".
Пример:

In [12]:
df_exp = pl.DataFrame(
    {
        "letters": ["a", "a", "b", "c"],
        "numbers": [[1], [2, 3], [4, 5], [6, 7, 8]],
    }
)

print(df_exp)

shape: (4, 2)
┌─────────┬───────────┐
│ letters ┆ numbers   │
│ ---     ┆ ---       │
│ str     ┆ list[i64] │
╞═════════╪═══════════╡
│ a       ┆ [1]       │
│ a       ┆ [2, 3]    │
│ b       ┆ [4, 5]    │
│ c       ┆ [6, 7, 8] │
└─────────┴───────────┘


In [13]:
# Применяем метод
df_exp_long = df_exp.explode("numbers")

print(df_exp_long)

shape: (8, 2)
┌─────────┬─────────┐
│ letters ┆ numbers │
│ ---     ┆ ---     │
│ str     ┆ i64     │
╞═════════╪═════════╡
│ a       ┆ 1       │
│ a       ┆ 2       │
│ a       ┆ 3       │
│ b       ┆ 4       │
│ b       ┆ 5       │
│ c       ┆ 6       │
│ c       ┆ 7       │
│ c       ┆ 8       │
└─────────┴─────────┘


Основные изменение в структуре таблицы:
1. Соответсвующее значения из столбца letters повторяется для каждого элемента списка в numbers.
2. Тип данных numbers изменился с `list[i64]` на `i64`.

**Замечание**. Данный метод работает только со столбцами типа List или Array.
Если попробовать применить к обычному столбцу — будет ошибка.
Можно взрывать/развернуть несколько столбцов сразу.
Данный метод очень полезен, если данные хранятся в виде списков (например, теги, координаты, история покупок).


### Метод `extend()`

Метод `extend()` добавляет строки из другого *DataFrame* прямо в конец текущего *DataFrame*, изменяя его на месте (in-place).
Пример:

In [14]:
df1ex = pl.DataFrame({"res": [1, 2, 3], "kat": [4, 5, 6]})
df2ex = pl.DataFrame({"res": [10, 20, 30], "kat": [40, 50, 60]})

df1ex.extend(df2ex)
print(df1ex)

shape: (6, 2)
┌─────┬─────┐
│ res ┆ kat │
│ --- ┆ --- │
│ i64 ┆ i64 │
╞═════╪═════╡
│ 1   ┆ 4   │
│ 2   ┆ 5   │
│ 3   ┆ 6   │
│ 10  ┆ 40  │
│ 20  ┆ 50  │
│ 30  ┆ 60  │
└─────┴─────┘


### Метод `get_column()`

Метод `get_column()` позволяет безопасно получить один столбец из *DataFrame* по его имени в виде объекта *Series*.
Это аналог df["имя_столбца"], но с дополнительной возможностью указать значение по умолчанию, если столбец не существует.

Пример 1: Получение существующего столбца.

In [15]:
df = pl.DataFrame({"a": [1, 2, 3], "b": [4, 5, 6]})

srs = df.get_column("a")
print(srs)

shape: (3,)
Series: 'a' [i64]
[
	1
	2
	3
]


Пример 2: Обработка отсутствующего столбца.

In [16]:
res = df.get_column("bbb", default= None)

print(res)

None


### Метод `get_columns()`

Метод `get_columns()` возвращает все столбцы *DataFrame* в виде списка объектов *Series*.

Пример:

In [17]:
df_getColumns = pl.DataFrame({
    "a": [1, 2, 3, 4],
    "b": [0.5, 4.0, 10.0, 13.0],
    "c": [True, True, False, True]
})

columns = df_getColumns.get_columns()
print(columns)

[shape: (4,)
Series: 'a' [i64]
[
	1
	2
	3
	4
], shape: (4,)
Series: 'b' [f64]
[
	0.5
	4.0
	10.0
	13.0
], shape: (4,)
Series: 'c' [bool]
[
	true
	true
	false
	true
]]


Получен список (list) объектов типа *Series*.
Порядок *Series* в списке соответствует порядку столбцов в *DataFrame*.
Каждый *Series* содержит:
- имя столбца,
- данные,
- тип данных.

### Метод `insert_column()`

Метод `insert_column()` вставляет новый столбец (или результат выражения) в *DataFrame* на указанную позицию (по индексу).

In [18]:
df = pl.DataFrame({"a": [1, 2, 3], "b": [4, 5, 6]})
s = pl.Series("c", [97, 98, 99])

# Вставляем Series 'c' на позицию 1 (между 'a' и 'b')
df.insert_column(1, s)

a,c,b
i64,i64,i64
1,97,4
2,98,5
3,99,6


Данный метод модифицирует исходный *DataFrame*, т.е. изменяет его на месте.

### Метод `item()`

Метод `item()` — это удобный способ извлечь одно конкретное значение из *DataFrame*.

Он работает в двух режимах:
1. Без аргументов → ожидает, что DataFrame имеет форму (1, 1) (одна ячейка), и возвращает это значение как скаляр.
2. С аргументами row и/или column → возвращает значение в указанной ячейке (похоже на `iloc[row, col]` в *pandas*).

Пример 1: Получение скаляра из агрегации.

In [19]:
df = pl.DataFrame({"a": [1, 2, 3], "b": [4, 5, 6]})

# Умножаем столбцы, суммируем — получаем одно число
result_df = df.select((pl.col("a") * pl.col("b")).sum())

print(result_df)

shape: (1, 1)
┌─────┐
│ a   │
│ --- │
│ i64 │
╞═════╡
│ 32  │
└─────┘


Теперь извлекаем само число:

In [20]:
value = result_df.item()
print(value)

32


Пример 2: Получение значения по индексам.

In [21]:
df = pl.DataFrame({"a": [1, 2, 3], "b": [4, 5, 6]})

df.item(1, 1)  # строка 1, столбец 1 → значение 5

5

Или же использовать имя столбца (для строк только индекс). 

In [22]:
df.item(1, "b")

5

### Метод `limit()`

Метод `limit()`  возвращает первые n строк из *DataFrame*.

Принимает параметр n - кол-во строк.
- Если n > 0, то возвращает первые n строк.
- ЕСЛИ n < 0, то возвращает все строки, кроме последних n (по модулю).
- Если n = 0, то возвращает пустой *DataFrame*.

In [23]:
df = pl.DataFrame({
    "col1": [1, 2, 3, 4, 5],
    "col2": [6, 7, 8, 9, 10],
    "col3": ["a", "b", "c", "d", "e"],
})

print(df)

shape: (5, 3)
┌──────┬──────┬──────┐
│ col1 ┆ col2 ┆ col3 │
│ ---  ┆ ---  ┆ ---  │
│ i64  ┆ i64  ┆ str  │
╞══════╪══════╪══════╡
│ 1    ┆ 6    ┆ a    │
│ 2    ┆ 7    ┆ b    │
│ 3    ┆ 8    ┆ c    │
│ 4    ┆ 9    ┆ d    │
│ 5    ┆ 10   ┆ e    │
└──────┴──────┴──────┘


In [24]:
df.limit(3)

col1,col2,col3
i64,i64,str
1,6,"""a"""
2,7,"""b"""
3,8,"""c"""


In [25]:
df.limit(-2)

col1,col2,col3
i64,i64,str
1,6,"""a"""
2,7,"""b"""
3,8,"""c"""


In [26]:
df.limit(0)

col1,col2,col3
i64,i64,str


### Метод `partition_by()`

Метод `partition_by()` разделяет *DataFrame* на несколько меньших *DataFrame*'ов — по группам, определённым значениями в указанных столбцах.
Это похоже на groupby(), но вместо агрегации — получаем список (или словарь) отдельных *DataFrame*'ов, каждый из которых содержит строки одной группы. 

Пример:

In [27]:
df = pl.DataFrame({
    "a": ["a", "b", "a", "b", "c"],
    "b": [1, 2, 1, 3, 3],
    "c": [5, 4, 3, 2, 1]
})

df.partition_by("a")

[shape: (2, 3)
 ┌─────┬─────┬─────┐
 │ a   ┆ b   ┆ c   │
 │ --- ┆ --- ┆ --- │
 │ str ┆ i64 ┆ i64 │
 ╞═════╪═════╪═════╡
 │ a   ┆ 1   ┆ 5   │
 │ a   ┆ 1   ┆ 3   │
 └─────┴─────┴─────┘,
 shape: (2, 3)
 ┌─────┬─────┬─────┐
 │ a   ┆ b   ┆ c   │
 │ --- ┆ --- ┆ --- │
 │ str ┆ i64 ┆ i64 │
 ╞═════╪═════╪═════╡
 │ b   ┆ 2   ┆ 4   │
 │ b   ┆ 3   ┆ 2   │
 └─────┴─────┴─────┘,
 shape: (1, 3)
 ┌─────┬─────┬─────┐
 │ a   ┆ b   ┆ c   │
 │ --- ┆ --- ┆ --- │
 │ str ┆ i64 ┆ i64 │
 ╞═════╪═════╪═════╡
 │ c   ┆ 3   ┆ 1   │
 └─────┴─────┴─────┘]

Каждый под-*DataFrame* — это все строки, где столбец a имеет одинаковое значение. 

### Метод `pivot()`

Метод `pivot()` превращает *DataFrame* из "длинного" формата в "широкий" формат, как в таблице Excel или сводной таблице (pivot table).

Включает в себя следующие параметры:
- **on** - Указывает столбцы, уникальные значения которых станут новыми столбцами в выходном *DataFrame*;
- **index** - Определяет столбцы, которые останутся в выходных данных. Каждая уникальная комбинация этих значений создаст новую строку в выходном *DataFrame*. Если установлено значение None, будут включены все столбцы, не указанные в **on** и **values**. Должен быть указан хотя бы один из параметров **index** или **values**;
- **values** - Указывает существующие столбцы, значения которых будут агрегированы и помещены под новыми столбцами, созданными из **on**. Если установлено значение None, будут включены все столбцы, не указанные в **on** и **index**. Должен быть указан хотя бы один из параметров **index** или **values**;
- **aggregate_function** - Определяет, как агрегировать значения. Возможные варианты:
    - None: Без агрегации; вызовет ошибку, если в группе есть несколько значений,
    - Предопределенные строки агрегатных функций: ‘min’, ‘max’, ‘first’, ‘last’, ‘sum’, ‘mean’, ‘median’, ‘len’.
    - Выражение, которое может обращаться к данным из указанных столбцов **values**;
- **maintain_order** - Если установлено значение True, значения index будут отсортированы в порядке их обнаружения (по умолчанию True);
- **sort_columns** - Если установлено значение True, транспонированные столбцы будут отсортированы по имени (по умолчанию False);
- **separator** - Определяет разделитель, используемый в сгенерированных именах столбцов, когда указано несколько столбцов **values**.

Пример 1:

In [28]:
df = pl.DataFrame({
    "name": ["Cady", "Cady", "Karen", "Karen"],
    "subject": ["maths", "physics", "maths", "physics"],
    "test_1": [98, 99, 61, 58],
    "test_2": [100, 100, 60, 60]
})

print(df)

shape: (4, 4)
┌───────┬─────────┬────────┬────────┐
│ name  ┆ subject ┆ test_1 ┆ test_2 │
│ ---   ┆ ---     ┆ ---    ┆ ---    │
│ str   ┆ str     ┆ i64    ┆ i64    │
╞═══════╪═════════╪════════╪════════╡
│ Cady  ┆ maths   ┆ 98     ┆ 100    │
│ Cady  ┆ physics ┆ 99     ┆ 100    │
│ Karen ┆ maths   ┆ 61     ┆ 60     │
│ Karen ┆ physics ┆ 58     ┆ 60     │
└───────┴─────────┴────────┴────────┘


In [29]:
df.pivot(on="subject", index="name", values="test_1")

name,maths,physics
str,i64,i64
"""Cady""",98,99
"""Karen""",61,58


Теперь у нас одна строка на студента, а предметы стали столбцами. 

### Метод `replace_column()`

Метод `replace_column()` заменяет столбец в *DataFrame* на другой объект *Series* по указанному индексу (позиции). Это операция "на месте" (in-place) — исходный *DataFrame* изменяется напрямую, без создания нового.

Параметры:
- index - позиция столбца, который нужно заменить (отсчёт с 0),
- column - новый *Series*, который вставится на это место.

Пример:

In [30]:
df = pl.DataFrame({
    "a": [1, 2, 3],
    "b": [6, 7, 8],
    "c": ["a", "b", "c"],
})

s = pl.Series("apple", [10, 20, 30])

# Заменяем столбец с индексом 0 (был "a") на Series "apple"
df.replace_column(0, s)

df

apple,b,c
i64,i64,str
10,6,"""a"""
20,7,"""b"""
30,8,"""c"""


### Метод `rows()`

Метод `rows()` возвращает все данные из *DataFrame* в виде списка строк, где каждая строка кортеж значений или словарь с именами столбцов и соответсвующими значениями. Имеет параметр `named`, который вовзращает список словарей, если True, иначе кортежи (по умолчанию False). Пример:

In [31]:
df = pl.DataFrame({
    "x": ["a", "b", "b", "a"],
    "y": [1, 2, 3, 4],
    "z": [0, 3, 6, 9],
})

rows = df.rows()
print(rows)

[('a', 1, 0), ('b', 2, 3), ('b', 3, 6), ('a', 4, 9)]


Если `named=True`:

In [32]:
df = pl.DataFrame({
    "x": ["a", "b", "b", "a"],
    "y": [1, 2, 3, 4],
    "z": [0, 3, 6, 9],
})

rows = df.rows(named=True)
print(rows)

[{'x': 'a', 'y': 1, 'z': 0}, {'x': 'b', 'y': 2, 'z': 3}, {'x': 'b', 'y': 3, 'z': 6}, {'x': 'a', 'y': 4, 'z': 9}]


### Метод `to_series()`

Метод `to_series()` возвращает один столбец из *DataFrame* как объект *Series*, используя его позицию (индекс) в таблице.

In [33]:
df = pl.DataFrame({
    "x": ["a", "b", "b", "a"],
    "y": [1, 2, 3, 4],
    "z": [0, 3, 6, 9],
})

df.to_series(2)

z
i64
0
3
6
9


### Метод `unpivot()`

Метод `unpivot()` превращает *DataFrame* из «широкого» формата в «длинный», т. е. «разворачивает» столбцы в строки.

Например, есть таблица с несколькими столбцами данных (например, измерения за разные годы):

In [34]:
df = pl.DataFrame({
    "country": ["USA", "Germany", "Japan"],
    "2020": [100, 80, 90],
    "2021": [110, 85, 95],
    "2022": [120, 90, 100],
})

print(df)

shape: (3, 4)
┌─────────┬──────┬──────┬──────┐
│ country ┆ 2020 ┆ 2021 ┆ 2022 │
│ ---     ┆ ---  ┆ ---  ┆ ---  │
│ str     ┆ i64  ┆ i64  ┆ i64  │
╞═════════╪══════╪══════╪══════╡
│ USA     ┆ 100  ┆ 110  ┆ 120  │
│ Germany ┆ 80   ┆ 85   ┆ 90   │
│ Japan   ┆ 90   ┆ 95   ┆ 100  │
└─────────┴──────┴──────┴──────┘


Хотим развернуть эту таблицу таким образом, чтобы в ней было только три колонки: страна - год - значение. Для этого применим метод `unpivot()`, который включет в себя следующие параметры:
- `on` - столбцы, которые нужно «развернуть»,
- `index` - столбцы, которые остаются как идентификаторы,
- `variable_name` - имя нового столбца, который будет содрежать имена исходных столбцов,
- `value_name` - имя нового столбца, который будет содержать значения этих столбцов.

In [35]:
df_long = df.unpivot(
    on=["2020", "2021", "2022"],  # какие столбцы разворачивать
    index="country",              # что оставить как идентификатор
    variable_name="year",         # имя столбца с годами
    value_name="value"            # имя столбца с значениями
)

print(df_long)

shape: (9, 3)
┌─────────┬──────┬───────┐
│ country ┆ year ┆ value │
│ ---     ┆ ---  ┆ ---   │
│ str     ┆ str  ┆ i64   │
╞═════════╪══════╪═══════╡
│ USA     ┆ 2020 ┆ 100   │
│ Germany ┆ 2020 ┆ 80    │
│ Japan   ┆ 2020 ┆ 90    │
│ USA     ┆ 2021 ┆ 110   │
│ Germany ┆ 2021 ┆ 85    │
│ Japan   ┆ 2021 ┆ 95    │
│ USA     ┆ 2022 ┆ 120   │
│ Germany ┆ 2022 ┆ 90    │
│ Japan   ┆ 2022 ┆ 100   │
└─────────┴──────┴───────┘


### Метод `collect_schema()`

Метод `collect_schema()` возвращает схему *DataFrame* — то есть словареподобный объект с именами столбцов и их типами данных, в порядке их следования.

In [36]:
df = pl.DataFrame({
    "a": [1, 2, 3],
    "b": [6.0, 7.0, 8.0],
    "c": ["a", "b", "c"],
})

schema = df.collect_schema()
print(schema)

Schema({'a': Int64, 'b': Float64, 'c': String})


### Метод `equals()`

Метод `equals()` проверяет, полностью ли идентичны два *DataFrame* — по данным, типам, именам и порядку столбцов.
Возвращает True, если всё совпадает, иначе — False.

Параметры метода:
- `other` — второй *DataFrame* для сравнения,
- `null_equal` — считать ли null значения равными между собой (по умолчанию True).

Пример:

In [37]:
df1 = pl.DataFrame({
    "x": [1, 2, 3],
    "y": [6.0, 7.0, 8.0],
    "z": ["a", "b", "c"],
})

df2 = pl.DataFrame({
    "x": [1, 2, 3],
    "y": [6.0, 7.0, 8.0],
    "z": ["a", "b", "c"],
})

df3 = pl.DataFrame({
    "x": [3, 2, 1],
    "y": [8.0, 7.0, 6.0],
    "z": ["c", "b", "a"],
})

print(df1.equals(df1))  # True — один и тот же DataFrame
print(df1.equals(df2))  # True — одинаковые данные, порядок, типы
print(df1.equals(df3))  # False — порядок строк разный

True
True
False


### Метод `map_rows()`

Метод `map_rows()` применяет нашу собственную функцию к каждой строке *DataFrame*, где строка передаётся как кортеж значений.

Пример:

In [38]:
df = pl.DataFrame({
    "x": [1, 2, 3],
    "y": [-1, 5, 8]
})
print(df)

print("После map_rows():")

df_new = df.map_rows(lambda t: (t[0] * 2, t[1] * 3))
print(df_new)

shape: (3, 2)
┌─────┬─────┐
│ x   ┆ y   │
│ --- ┆ --- │
│ i64 ┆ i64 │
╞═════╪═════╡
│ 1   ┆ -1  │
│ 2   ┆ 5   │
│ 3   ┆ 8   │
└─────┴─────┘
После map_rows():
shape: (3, 2)
┌──────────┬──────────┐
│ column_0 ┆ column_1 │
│ ---      ┆ ---      │
│ i64      ┆ i64      │
╞══════════╪══════════╡
│ 2        ┆ -3       │
│ 4        ┆ 15       │
│ 6        ┆ 24       │
└──────────┴──────────┘


**Замечание**. `map_rows()` — медленный: 
1. запускаем Python-функцию для каждой строки,
2. не оптимизируется,
3. не параллелизуется эффективно.

По возможности использовать нативные вырожения *polars*.

### Метод `sql()`

Метод `sql()` позволяет выполнять SQL-запросы прямо к *DataFrame*, т.е. он, словно таблица в базе данных.
Если вы любите SQL и хотите писать запросы вместо Python-кода, то *polars* даёт такую возможность.

Сформируем *DataFrame*

In [39]:
df = pl.DataFrame(
    {
        "цена": [12.99, 24.50, 8.99, 45.00, 18.75],  
        "сорт_винограда": ["Шардоне", "Каберне Совиньон", "Пино Нуар", "Совиньон Блан", "Мерло"], 
        "страна": ["Франция", "Италия", "США", "Новая Зеландия", "Чили"], 
        "рейтинг": [4.2, 4.8, 4.5, 4.6, 4.0], 
        "градус": [12.5, 13.8, 13.0, 12.0, 14.2], 
        "регион": ["Бордо", "Тоскана", "Напа", "Марлборо", "Колчагуа"],
        "дата_выпуска": [
            date(2020, 3, 15),
            date(2019, 7, 22),
            date(2021, 1, 10),
            date(2022, 5, 5),
            date(2018, 11, 30),
        ],  # date — тип Date
        "в_наличии": [True, False, True, True, False],  
        "артикул": ["VIN001", "VIN002", "VIN003", "VIN004", "VIN005"], 
        "объём_мл": [750, 750, 750, 750, 1000], 
    }
)

print(df)

shape: (5, 10)
┌───────┬────────────────┬──────────┬─────────┬───┬───────────────┬───────────┬─────────┬──────────┐
│ цена  ┆ сорт_винограда ┆ страна   ┆ рейтинг ┆ … ┆ дата_выпуска  ┆ в_наличии ┆ артикул ┆ объём_мл │
│ ---   ┆ ---            ┆ ---      ┆ ---     ┆   ┆ ---           ┆ ---       ┆ ---     ┆ ---      │
│ f64   ┆ str            ┆ str      ┆ f64     ┆   ┆ date          ┆ bool      ┆ str     ┆ i64      │
╞═══════╪════════════════╪══════════╪═════════╪═══╪═══════════════╪═══════════╪═════════╪══════════╡
│ 12.99 ┆ Шардоне        ┆ Франция  ┆ 4.2     ┆ … ┆ 2020-03-15    ┆ true      ┆ VIN001  ┆ 750      │
│ 24.5  ┆ Каберне        ┆ Италия   ┆ 4.8     ┆ … ┆ 2019-07-22    ┆ false     ┆ VIN002  ┆ 750      │
│       ┆ Совиньон       ┆          ┆         ┆   ┆               ┆           ┆         ┆          │
│ 8.99  ┆ Пино Нуар      ┆ США      ┆ 4.5     ┆ … ┆ 2021-01-10    ┆ true      ┆ VIN003  ┆ 750      │
│ 45.0  ┆ Совиньон Блан  ┆ Новая    ┆ 4.6     ┆ … ┆ 2022-05-05    ┆ true    

Пример SQL запроса:

In [40]:
df.sql("""
    SELECT 
        сорт_винограда, цена, в_наличии, рейтинг
    FROM self
    WHERE 1=1
        AND объём_мл = 750
        AND рейтинг > 4.2
""")

сорт_винограда,цена,в_наличии,рейтинг
str,f64,bool,f64
"""Каберне Совиньон""",24.5,False,4.8
"""Пино Нуар""",8.99,True,4.5
"""Совиньон Блан""",45.0,True,4.6


Как чиать запрос:
1. В блоке **SELECT** пишем имена колонок, которые хотим иметь в результирующем *DataFrame*.
2. В блоке **FROM** пишем имя таблице, к которой обращаемся. *Polars* автоматически регистрирует *DataFrame* как таблицу с именем "self".
3. В блоке **WHERE** пишем фильтр, которые применить к нашему *DataFrame*.

В результате имеем новый *DataFrame* на основании SQL запроса.

**Примечание**. В данном методе есть параметр `table_name`, в котором можно задать имя таблицы.

Polars SQL Запросы похожи на стиль PostgreSQL / DuckDB.

Polars поддерживает много SQL-конструкций: 
1. База: **SELECT**, **FROM**, **WHERE**, **GROUP BY**, **HAVING**, **LIMIT**, **OFFSET**.
2. Агрегаты:  **SUM**, **AVG**, **COUNT** и др.
3. Условия: **CASE WHEN**, **IN**, **BETWEEN**.
4. Функции: **UPPER**, **CONCAT**, **EXTRACT**, **COALESCE** и др.
5. Приведение типов: **::int**, **::float4**, **::date**.

Polars SQL не поддерживает все возможности полноценной СУБД:
1. **CREATE TABLE**
2. **INSERT**
3. **UPDATE**
4. Процедуры, триггеры, индексы.

То есть выполняет только запросы к существующим данным (*DataFrame*).

Если нужна максимальная производительность, то лучше использовать нативные выражения.
`sql()` — отличный инструмент для тех, кто переходит с SQL на Polars, или хочет писать читаемые трансформации в знакомом стиле.