# Почему Polars?
# Библиотека Polars построена на Arrow
# Polars работает с табличными данными
# Объекты DataFrame и Series

In [1]:
# импортируем polars и pandas
import polars as pl
import pandas as pd

from IPython.display import display

In [2]:
# создаем датафрейм
df = pl.DataFrame({'Empl': [10, 20], 
                   'Age': [30, 40]})
df

Empl,Age
i64,i64
10,30
20,40


In [3]:
# вычисляем среднее по строкам
df.mean(axis=0)

Empl,Age
f64,f64
15.0,35.0


In [4]:
# вычисляем среднее по столбцам
df.mean(axis=1)

shape: (2,)
Series: 'Empl' [f64]
[
	20.0
	30.0
]

In [5]:
%%time

# считываем файл в датафрейм pandas
pandas_df = pd.read_csv('Data/train_data.csv')

CPU times: user 2min 2s, sys: 39.3 s, total: 2min 41s
Wall time: 3min 7s


In [6]:
%%time

# считываем файл в датафрейм polars
polars_df = pl.read_csv('Data/train_data.csv')

CPU times: user 1min 27s, sys: 1min 29s, total: 2min 57s
Wall time: 30 s


In [7]:
%%time

# считываем файл в датафрейм polars,
# потом в датафрейм pandas
pandas_df = pl.read_csv('Data/train_data.csv', rechunk=False).to_pandas()

CPU times: user 1min 44s, sys: 2min 44s, total: 4min 28s
Wall time: 53.4 s


In [8]:
# смотрим первые 5 наблюдений
polars_df.head()

customer_ID,S_2,P_2,D_39,B_1,B_2,R_1,S_3,D_41,B_3,D_42,D_43,D_44,B_4,D_45,B_5,R_2,D_46,D_47,D_48,D_49,B_6,B_7,B_8,D_50,D_51,B_9,R_3,D_52,P_3,B_10,D_53,S_5,B_11,S_6,D_54,R_4,...,S_27,D_113,D_114,D_115,D_116,D_117,D_118,D_119,D_120,D_121,D_122,D_123,D_124,D_125,D_126,D_127,D_128,D_129,B_41,B_42,D_130,D_131,D_132,D_133,R_28,D_134,D_135,D_136,D_137,D_138,D_139,D_140,D_141,D_142,D_143,D_144,D_145
str,str,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,str,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,...,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,str,f64,f64,str,f64,f64,str,str,str,str,str,f64,f64,f64,str,f64,f64,f64
"""0000099d6bd597...","""2017-03-09""",0.938469,0.001733,0.008724,1.006838,0.009228,0.124035,0.008771,0.004709,,,0.00063,0.080986,0.708906,0.1706,0.006204,0.358587,0.525351,0.255736,,0.063902,0.059416,0.006466,0.148698,1.335856,0.008207,0.001423,0.207334,0.736463,0.096219,,0.023381,0.002768,0.008322,1.001519,0.008298,...,0.676922,0.007871,1.0,0.23825,0.0,4.0,0.23212,0.236266,0.0,0.70228,0.434345,0.003057,0.686516,0.00874,1.0,1.003319,1.007819,1.00008,0.006805,,0.002052,0.005972,,0.004345,0.001535,,,,,,0.002427,0.003706,0.003818,,0.000569,0.00061,0.002674
"""0000099d6bd597...","""2017-04-07""",0.936665,0.005775,0.004923,1.000653,0.006151,0.12675,0.000798,0.002714,,,0.002526,0.069419,0.712795,0.113239,0.006206,0.35363,0.521311,0.223329,,0.065261,0.057744,0.001614,0.149723,1.339794,0.008373,0.001984,0.202778,0.720886,0.099804,,0.030599,0.002749,0.002482,1.009033,0.005136,...,0.822281,0.003444,1.0,0.247217,0.0,4.0,0.243532,0.241885,0.0,0.707017,0.430501,0.001306,0.686414,0.000755,1.0,1.008394,1.004333,1.008344,0.004407,,0.001034,0.004838,,0.007495,0.004931,,,,,,0.003954,0.003167,0.005032,,0.009576,0.005492,0.009217
"""0000099d6bd597...","""2017-05-28""",0.95418,0.091505,0.021655,1.009672,0.006815,0.123977,0.007598,0.009423,,,0.007605,0.068839,0.720884,0.060492,0.003259,0.33465,0.524568,0.189424,,0.066982,0.056647,0.005126,0.151955,1.337179,0.009355,0.007426,0.206629,0.738044,0.134073,,0.048367,0.010077,0.00053,1.009184,0.006961,...,0.853498,0.003269,1.0,0.239867,0.0,4.0,0.240768,0.23971,0.0,0.704843,0.434409,0.003954,0.690101,0.009617,1.0,1.009307,1.007831,1.006878,0.003221,,0.005681,0.005497,,0.009227,0.009123,,,,,,0.003269,0.007329,0.000427,,0.003429,0.006986,0.002603
"""0000099d6bd597...","""2017-06-13""",0.960384,0.002455,0.013683,1.0027,0.001373,0.117169,0.000685,0.005531,,,0.006406,0.05563,0.723997,0.166782,0.009918,0.323271,0.530929,0.135586,,0.08372,0.049253,0.001418,0.151219,1.339909,0.006782,0.003515,0.208214,0.741813,0.134437,,0.030063,0.009667,0.000783,1.007456,0.008706,...,0.844667,5.3e-05,1.0,0.24091,0.0,4.0,0.2394,0.240727,0.0,0.711546,0.436903,0.005135,0.687779,0.004649,1.0,1.001671,1.00346,1.007573,0.007703,,0.007108,0.008261,,0.007206,0.002409,,,,,,0.006117,0.004516,0.0032,,0.008419,0.006527,0.0096
"""0000099d6bd597...","""2017-07-16""",0.947248,0.002483,0.015193,1.000727,0.007605,0.117325,0.004653,0.009312,,,0.007731,0.038862,0.720619,0.14363,0.006667,0.231009,0.529305,,,0.0759,0.048918,0.001199,0.154026,1.341735,0.000519,0.001362,0.205468,0.691986,0.121518,,0.054221,0.009484,0.006698,1.003738,0.003846,...,0.811199,0.008724,1.0,0.247939,0.0,4.0,0.244199,0.242325,0.0,0.705343,0.437433,0.002849,0.688774,9.7e-05,1.0,1.009886,1.005053,1.008132,0.009823,,0.00968,0.004848,,0.006312,0.004462,,,,,,0.003671,0.004946,0.008889,,0.00167,0.008126,0.009827


# Режим Eager и Lazy

In [9]:
%%time

# считываем файл
df = pl.read_csv('https://j.mp/iriscsv')
# вычисляем групповые статистики в режиме Eager
print(df.filter(pl.col('sepal_length') > 5)
      .groupby('species')
      .agg(pl.all().sum())
)

shape: (3, 5)
┌────────────┬──────────────┬─────────────┬──────────────┬─────────────┐
│ species    ┆ sepal_length ┆ sepal_width ┆ petal_length ┆ petal_width │
│ ---        ┆ ---          ┆ ---         ┆ ---          ┆ ---         │
│ str        ┆ f64          ┆ f64         ┆ f64          ┆ f64         │
╞════════════╪══════════════╪═════════════╪══════════════╪═════════════╡
│ setosa     ┆ 116.9        ┆ 81.7        ┆ 33.2         ┆ 6.1         │
├╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌┤
│ virginica  ┆ 324.5        ┆ 146.2       ┆ 273.1        ┆ 99.6        │
├╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌┤
│ versicolor ┆ 281.9        ┆ 131.8       ┆ 202.9        ┆ 63.3        │
└────────────┴──────────────┴─────────────┴──────────────┴─────────────┘
CPU times: user 41.1 ms, sys: 44.7 ms, total: 85.9 ms
Wall time: 1.73 s


In [10]:
%%time

# вычисляем групповые статистики в режиме Lazy
print(
    pl.read_csv('https://j.mp/iriscsv')
    .lazy()
    .filter(pl.col('sepal_length') > 5)
    .groupby('species')
    .agg(pl.all().sum())
    .collect()
)

shape: (3, 5)
┌────────────┬──────────────┬─────────────┬──────────────┬─────────────┐
│ species    ┆ sepal_length ┆ sepal_width ┆ petal_length ┆ petal_width │
│ ---        ┆ ---          ┆ ---         ┆ ---          ┆ ---         │
│ str        ┆ f64          ┆ f64         ┆ f64          ┆ f64         │
╞════════════╪══════════════╪═════════════╪══════════════╪═════════════╡
│ virginica  ┆ 324.5        ┆ 146.2       ┆ 273.1        ┆ 99.6        │
├╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌┤
│ setosa     ┆ 116.9        ┆ 81.7        ┆ 33.2         ┆ 6.1         │
├╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌┤
│ versicolor ┆ 281.9        ┆ 131.8       ┆ 202.9        ┆ 63.3        │
└────────────┴──────────────┴─────────────┴──────────────┴─────────────┘
CPU times: user 28.7 ms, sys: 16.3 ms, total: 45.1 ms
Wall time: 477 ms


In [11]:
# переходим от режима Eager к режиму Lazy
(
    df.lazy()
    .filter(pl.col('sepal_length') > 5)
    .groupby('species')
    .agg(pl.all().sum())
    .collect()
)

species,sepal_length,sepal_width,petal_length,petal_width
str,f64,f64,f64,f64
"""versicolor""",281.9,131.8,202.9,63.3
"""setosa""",116.9,81.7,33.2,6.1
"""virginica""",324.5,146.2,273.1,99.6


# Задачи, выполняемые Polars
# Кратко о типах данных
# Представление пропусков
# Какую версию Polars использовать?

In [12]:
# смотрим версию
pl.__version__

'0.14.18'

# Главные отличия Polars от pandas

# Подробно знакомимся с типами данных
## Типы данных для работы с числами и логическими значениями
### Тип данных Int (тип для целых чисел, целочисленный тип)

In [13]:
# создаем серию целочисленных значений
s_int = pl.Series([10, 35, 130]) 
s_int

shape: (3,)
Series: '' [i64]
[
	10
	35
	130
]

In [14]:
# сменим тип на Int8
s_int.cast(pl.Int8)

ComputeError: Strict conversion from Int64 to Int8 failed for values [130]. If you were trying to cast Utf8 to Date, Time, or Datetime, consider using `strptime`.

In [None]:
# создаем серию с пропусками типа Int64
pl.Series([10, 35, 130, None], dtype=pl.Int64)

In [None]:
# серии целочисленных значений с пропусками 
# будет присвоен тип Int64
pl.Series([10, 35, 130, None])

### Тип данных UInt (тип для целых чисел без знака)

In [None]:
# сменим тип на UInt8
s_int.cast(pl.UInt8)

### Тип данных Float (тип для чисел с плавающей точкой)

In [None]:
# создаем серию с типом Float64
s_float = pl.Series([5.26, 1234.56789, None])
s_float

In [None]:
# присвоим тип Float32
s_float.cast(pl.Float32)

In [None]:
# переведем из Float64 в Int64
s_int = s_float.cast(pl.Int64)
s_int

In [None]:
# переведем из Int64 в Float64
s_float = s_int.cast(pl.Float64)
s_float

### Тип данных Boolean (логический тип, булев тип)

In [None]:
# создадим серию логических значений
s_bool = pl.Series([True, False]) 
s_bool

In [None]:
# создаем серию с типом Int64
s = pl.Series([0, 1, 59, -35])

In [None]:
# преобразовываем в тип Boolean
s.cast(pl.Boolean)

In [None]:
# создаем серию с типом Float
s = pl.Series([0, 0.0001, -3.99])

In [None]:
# преобразовываем в тип Boolean
s.cast(pl.Boolean)

In [None]:
# преобразуем из типа Boolean в тип Int
s_bool.cast(pl.Int64)

In [None]:
# создаем серию с типом Boolean
s = pl.Series([True, False, None], dtype=pl.Boolean)
s

## Типы данных для работы со строками
### Тип данных Object (объектный тип)

In [None]:
# создаем серию со строковыми значениями
s_object = pl.Series(['some', 'strings'], dtype=pl.Object) 
s_object

In [None]:
# проверим тип
s_object.dtype

In [None]:
# присвоим серии с логическими значениями тип Object
s = pl.Series([True, False])
s.cast(pl.Object)

In [None]:
# присвоим серии с вещественными 
# значениями тип Object
s = pl.Series([5.2, 10.3])
s.cast(pl.Object)

In [None]:
# присвоим серии с целыми числами тип Object
s = pl.Series([5, 10])
s.cast(pl.Object)

In [None]:
# серия с типом Object может содержать все что угодно
garbage_series = pl.Series([[1,2], True, 'some string', 
                            4.5, {'key': 'value'}])
garbage_series

In [None]:
# элементом серии с типом Object
# может быть все что угодно
print(type(garbage_series[0]))
print(type(garbage_series[1]))
print(type(garbage_series[2]))
print(type(garbage_series[3]))
print(type(garbage_series[4]))

### Тип данных Categorical (категориальный тип)

In [None]:
# записываем CSV-файл в объект DataFrame
bikes = pl.read_csv('Data/bikes.csv')
# выводим первые 5 наблюдений датафрейма
bikes.head()

In [None]:
# смотрим частоты категорий events
events = bikes['events']
events.value_counts()

In [None]:
# присваиваем тип Categorical
events_cat = events.cast(pl.Categorical)
events_cat.head()

In [None]:
# смотрим тип серии
events_cat.dtype

### Тип данных Utf8 (строковый тип)

In [None]:
# создаем серию с типом Utf8
s_string = pl.Series(['Python', 'Java', 'Scala', None], 
                     dtype=pl.Utf8)
s_string

In [None]:
garbage_series = pl.Series([[1,2], True, 'some string', 4.5, 
                            {'key': 'value'}])
garbage_series = garbage_series.cast(pl.Utf8)
garbage_series



In [None]:
# сделаем буквы заглавными
s_string.str.to_uppercase()

In [None]:
# серии с целыми числами присваиваем тип Utf8
s = pl.Series([10, 20, 99])
s.cast(pl.Utf8)

In [None]:
# серии чисел с плавающей точкой
# присваиваем тип Utf8
s = pl.Series([10.5, 20.3, 99.1])
s.cast(pl.Utf8)

In [None]:
# создаем серию со строками, выглядящими 
# как целые числа
s = pl.Series(['0', '1'])
s

In [None]:
# переводим в тип Int64
s.cast(pl.Int64)

In [None]:
# создаем серию со строками, выглядящими 
# как числа с плавающей точкой
s = pl.Series(['4.5', '3.19'])
s

In [None]:
# переводим в тип Float64
s.cast(pl.Float64)

In [None]:
# создаем серию со строковыми значениями
s = pl.Series(['4.5', '3.19', 'NO ANSWER'])
s

In [None]:
# переводим в тип Float64
s.cast(pl.Float64)

## Типы данных для работы с моментами времени

### Типы данных Date и Datetime

In [None]:
# загружаем данные
df = pl.read_csv('Data/applestock.csv', parse_dates=True)
df.head()

In [None]:
# загружаем данные, даты обрабатываются как строки
df = pl.read_csv('Data/applestock.csv', parse_dates=False)
df.head()

In [None]:
# переводим переменную с датами в тип Date
df = df.with_column(pl.col('Date').str.strptime(
    pl.Date, fmt='%Y-%m-%d'))
df.head()

In [None]:
# записываем датафрейм на основе CSV-файла, 
# содержащего даты и время
df = pl.read_csv('Data/pickup_dates.csv', parse_dates=False)
df

In [None]:
# переводим переменную с датами 
# и временем в тип Datetime
df = df.with_column(
    pl.col('pickup_datetime').str.strptime(
        pl.Datetime, fmt='%d.%m.%Y %H:%M'))
df

### Тип данных Duration

In [None]:
# из даты второго наблюдения вычтем 
# дату первого наблюдения
df[1] - df[0]

# Чтение данных

In [None]:
# загружаем данные
bikes = pl.read_csv('Data/bikes.csv', parse_dates=True)

In [None]:
# выведем первые 3 наблюдения
bikes.head(3)

In [None]:
# выведем последние 3 наблюдения
bikes.tail(3)

# Изменение настроек вывода 

In [None]:
# задаем максимальное количество строк и столбцов
# pl.Config.set_tbl_rows(100)  
# pl.Config.set_tbl_cols(30) 

# Получение общей информации о датафрейме

In [None]:
# смотрим количество наблюдений
# и количество переменных
print(bikes.shape)

In [None]:
# смотрим количество наблюдений
print(len(bikes))

In [None]:
# выведем имена столбцов
print(bikes.columns)

In [None]:
# смотрим типы переменных
var_types = dict(zip(bikes.columns, bikes.dtypes))
var_types

In [None]:
# еще можно так
for col in bikes.get_columns():
    print(f"{col.name} - {col.dtype}")

In [None]:
# выведем частоты категорий по некоторым 
# категориальным переменным
lst = ['gender', 'events']
for col in lst:
    print(bikes[col].value_counts())

In [None]:
# выведем уникальные значения по некоторым 
# категориальным переменным
for col in lst:
    print(bikes.select([col]).unique())

# Отбор данных
## Отбор с помощью индексирования

In [None]:
# отберем один столбец
bikes['gender']

In [None]:
# извлекаем несколько столбцов, передав
# индексатору [] список
bikes[['gender', 'tripduration']]

In [None]:
# отбираем первые две строки столбцов
# start_capacity и tripduration, передав
# в [] список строк, список столбцов
bikes[[0, 1], ['start_capacity', 'tripduration']]

In [None]:
# отбираем первые четыре строки столбцов
# с gender по tripduration, передав
# в [] диапазон строк, диапазон столбцов
bikes[0:4, 'gender':'tripduration']

In [None]:
# отберем каждую 2-ю строку каждого 2-го столбца, 
# передав в [] диапазон строк, диапазон столбцов
bikes[0::2, 'gender':'events':2]

In [None]:
# а можно было так
bikes[0:50089:2, 'gender':'events':2]

In [None]:
# отбираем, начиная с пятой строки и столбца 
# from_station_name, передав в [] диапазон 
# строк, диапазон столбцов
bikes[4:, 'from_station_name':]

In [None]:
# отбираем столбцы start_capacity 
# и tripduration, передав в [] список 
# столбцов после двоеточия с запятой
bikes[:, ['start_capacity', 'tripduration']]

In [None]:
# отбираем диапазон столбцов с помощью []
bikes[:, 'gender':'tripduration']

In [None]:
# отберем строки с метками индекса 1, 5 и 6
bikes[[1, 5, 6], :]

In [None]:
# отберем каждую 10-ю строку
bikes[0::10, :]

In [None]:
# отбираем строки с индексами 2 и 3
# и столбцы с индексами 2 и 3
bikes[2:4, 2:4]

In [None]:
# отбираем столбцы с индексами 3 и 5, передав в
# [] список столбцов после двоеточия с запятой
bikes[:, [3, 5]]

In [None]:
# отбираем строки с индексами 3 и 5, передав в
# [] список строк перед запятой с двоеточием
bikes[[3, 5], :]

In [None]:
# отбираем строку с индексом 3 и
# столбец tripduration
bikes[3, 'tripduration']

In [None]:
# отбираем строку с индексом 3 и
# столбец с индексом 3
bikes[3, 3]

## Отбор с помощью выражений

In [None]:
# отбор строк по одному условию
filt = pl.col('tripduration') > 5000
bikes.filter(filt).head(3)

In [None]:
# еще можно так
bikes.filter(pl.col('tripduration') > 5000).head(3)

In [None]:
# отбор строк по двум условиям
filt1 = pl.col('tripduration') > 5000
filt2 = pl.col('gender') == 'Female'
filt = filt1 & filt2
bikes.filter(filt).head(3)

In [None]:
# еще можно так
bikes.filter((pl.col('tripduration') > 5000) & 
             (pl.col('gender') == 'Female')).head(3)

In [None]:
# только одно из условий является истинным
filt = filt1 | filt2
bikes.filter(filt).head(3)

In [None]:
# несколько условий в одном столбце events
filt = ((pl.col('events') == 'rain') |
        (pl.col('events') == 'snow') |
        (pl.col('events') == 'tstorms') |
        (pl.col('events') == 'sleet'))
bikes.filter(filt).head(3)

In [None]:
# сочетание двух фильтров
filt1 = ((pl.col('events') == 'rain') |
         (pl.col('events') == 'snow') |
         (pl.col('events') == 'tstorms') |
         (pl.col('events') == 'sleet'))
filt2 = pl.col('tripduration') > 2000
filt = filt1 & filt2
bikes.filter(filt).head(3)

In [None]:
# отберем три столбца для поездок, совершенные,
# когда шел снег или дождь
cols = ['starttime', 'temperature', 'events']
bikes.filter((pl.col('events') == 'snow') | 
             (pl.col('events') == 'rain'))[cols].head(3)

In [None]:
# отбираем один столбец
single_select_df = bikes.select('events')
single_select_df.head(10)

In [None]:
# отбираем столбцы по списку
list_select_df = bikes.select(['tripduration', 'events'])
list_select_df.head(10)

In [None]:
# отберем столбцы по типу
dtype_select_df = bikes.select(pl.col(pl.Int64))
dtype_select_df.head(10)

# Агрегирование данных

## Группировка и агрегирование с помощью одного столбца

In [None]:
# вычислим среднюю длительность поездки 
# в зависимости от погоды во время поездки
bikes.groupby('events').agg(
    pl.col('tripduration').mean().alias(
        'avg_tripduration')).sort(by='events')

## Группировка и агрегирование с помощью нескольких столбцов

In [None]:
# вычислим среднюю длительность поездки 
# в зависимости от комбинации пола 
# и погоды во время поездки
bikes.groupby(['gender', 'events']).agg(
    pl.col('tripduration').mean().alias(
        'avg_tripduration')).sort(by='events')

In [None]:
# мы вычислим среднюю продолжительность поездки 
# и среднюю температуру для каждого типа
# погодного явления
bikes.groupby('events').agg(
    [
        pl.col('tripduration').mean().alias('avg_tripduration'),
        pl.col('temperature').mean().alias('avg_temp')
    ]   
).sort(by='events')

In [None]:
# вычислим среднюю длительность поездки,
# максимальную длительность поездки, среднюю температуру
# в зависимости типа погоды во время поездки
agg1 = bikes.groupby('events').agg(
    [ 
        pl.col('tripduration').mean().alias('avg_tripduration'),
        pl.col('temperature').mean().alias('avg_temp')
    ]   
).sort(by='events')

agg2 = bikes.groupby('events').agg(
    [
        (pl.col('tripduration').max().alias('max_tripduration')),
    ]   
).sort(by='events')
agg2 = agg2.select(pl.exclude('events'))
pl.concat([agg1, agg2], how='horizontal')

## Группировка с помощью сводных таблиц

In [None]:
# загружаем данные
ins = pl.read_csv('Data/StateFarm_missing.csv', sep=';')
ins.head()

In [None]:
# смотрим, как варьирует средний доход клиента 
# по комбинациям пола и образования
ins.pivot(index='Education', 
          columns='Gender', 
          values='Income',
          aggregate_fn='mean')

In [None]:
# смотрим, как варьирует средний доход клиента 
# по комбинациям пола и образования,
# превратим значения в целые числа
res = ins.pivot(
    index='Education', 
    columns='Gender', 
    values='Income',
    aggregate_fn='mean')

res.select(
    [
        pl.col('Education'),
        pl.col('F').cast(pl.Int32),
        pl.col('null').cast(pl.Int32),
        pl.col('M').cast(pl.Int32),
    
    ]
)

In [None]:
# все то же самое можно получить, используя
# агрегацию с groupby
res = ins.groupby(['Gender', 'Education']).agg(
    pl.col('Income').mean().alias(
        'mean_salary'))
res.select(
    [
        pl.col('Gender'),
        pl.col('Education'),
        pl.col('mean_salary').cast(pl.Int32)    
    ]
)

In [None]:
# смотрим максимальный доход клиента 
# по комбинациям пола и образования
ins.pivot(index='Education', 
          columns='Gender', 
          values='Income', 
          aggregate_fn='max').sort(by='Education')

In [None]:
# смотрим максимальный доход клиента 
# по комбинациям пола и образования,
# поменяли Education и Gender местами
ins.pivot(index='Gender', 
          columns='Education', 
          values='Income', 
          aggregate_fn='max')

In [None]:
# посмотрим среднюю пожизненную ценность клиента 
# по комбинациям типа занятости и образования,
# результаты переводим в целые числа
emp_edu_mean_clv = ins.pivot(
    index='EmploymentStatus', 
    columns='Education', 
    values='Customer Lifetime Value', 
    aggregate_fn='mean')
emp_edu_mean_clv.select(
    [
        pl.col('EmploymentStatus'),
        pl.col('Bachelor').cast(pl.Int32),
        pl.col('null').cast(pl.Int32),
        pl.col('College').cast(pl.Int32),
        pl.col('Master').cast(pl.Int32),
        pl.col('High School or Below').cast(pl.Int32),
        pl.col('Doctor').cast(pl.Int32)
    ]
).sort(by='EmploymentStatus')

In [None]:
# вычислим размер каждой уникальной комбинации 
# типа занятости и образования
ins.pivot(index='EmploymentStatus', 
          columns='Education',
          values='Education',
          aggregate_fn='count').sort(by='EmploymentStatus')

In [None]:
# задаем два столбца вертикальной группировки 
# (тип занятости, пол) и один столбец 
# горизонтальной группировки (образование)
ins.pivot(index=['EmploymentStatus', 'Gender'], 
          columns='Education',
          values='Income', 
          aggregate_fn='max').sort(by=['EmploymentStatus', 'Gender'])

In [None]:
# зададим один столбец вертикальной группировки
# (тип занятости) и два столбца горизонтальной 
# группировки (пол и образование)
ins.pivot(index='EmploymentStatus', 
          columns=['Gender', 'Education'],
          values='Income', 
          aggregate_fn='max').sort(by='EmploymentStatus')

In [None]:
# зададим два агрегируемых столбца
# (пожизненная ценность клиента и доход)
ins.pivot(
    index='Education', 
    columns='Gender',
    values=['Income', 'Customer Lifetime Value'],
    aggregate_fn='mean').sort(by='Education')

# Импутация пропусков и замена значений

In [None]:
# загружаем данные
df = pl.read_csv('Data/titanic_train.csv')
df.head(10)

In [None]:
# выведем количество пропусков по каждому столбцу
df.select(
    pl.col(df.columns).is_null().sum()  
)

In [None]:
# еще можно так
for col in df.get_columns():
    print(f"{col.name} - {col.is_null().sum()}")

In [None]:
# пропуски можно заменить средним
df.select(
    pl.col('Age').fill_null(strategy='mean')
).head(10)

In [None]:
# пропуски можно заменить нулем
df.select(
    pl.col('Age').fill_null(strategy='zero')
).head(10)

In [None]:
# пропуски можно заменить значением
# вне диапазона -999
df.select(
    pl.col('Age').fill_null(value=-999)
).head(10)

In [None]:
# выполняем импутацию и записываем результаты
df = df.with_columns(
    [
        pl.col('Cabin').fill_null(value='C85'),
        pl.col('Age').fill_null(value=-999),
        pl.col('Embarked').fill_null(value=pl.col('Embarked').mode())
    ]
)

In [None]:
# выведем количество пропусков по каждому столбцу
df.select(
    pl.col(df.columns).is_null().sum()  
)

In [None]:
# взглянем на переменную Age
df.select(pl.col('Age')).head(10)

In [None]:
# список значений, которые нужно заменить
from_ = [35, -999]
# список значений, на которые нужно заменить
to_ = [25, 0]

In [None]:
# пишем функцию замены значений
def replace(column, from_, to_):
    branch = pl.when(pl.col(column) == from_[0]).then(to_[0])

    for (from_value, to_value) in zip(from_, to_):
        branch = branch.when(pl.col(column) == from_value).then(to_value)

    return branch.otherwise(pl.col(column)).alias(column)

In [None]:
# проиллюстрируем замены
df.select(replace('Age', from_, to_)).head(10)

In [None]:
# запишем изменения
df = df.with_column(replace('Age', from_, to_))

# Манипуляции с датафреймами

In [None]:
# выполним конкатенацию датафреймов по вертикали
df_v1 = pl.DataFrame(
    {
        'a': [1],
        'b': [3],
    }
)

df_v2 = pl.DataFrame(
    {
        'a': [2],
        'b': [4],
    }
)

df_vertical_concat = pl.concat(
    [
        df_v1,
        df_v2,
    ],
    how='vertical'
)

display(df_v1, df_v2, df_vertical_concat)

In [None]:
# выполним конкатенацию датафреймов по горизонтали
df_h1 = pl.DataFrame(
    {
        'l1': [1, 2],
        'l2': [3, 4],
    }
)

df_h2 = pl.DataFrame(
    {
        'r1': [5, 6],
        'r2': [7, 8],
        'r3': [9, 10],
    }
)

df_horizontal_concat = pl.concat(
    [
        df_h1,
        df_h2,
    ],
    how='horizontal'
)

display(df_h1, df_h2, df_horizontal_concat)

In [None]:
# выполним конкатенацию датафреймов по диагонали
df_d1 = pl.DataFrame(
    {
        'a': [1],
        'b': [3],
    }
)

df_d2 = pl.DataFrame(
    {
        'a': [2],
        'd': [4],
    }
)

df_diagonal_concat = pl.concat(
    [
        df_d1,
        df_d2,
    ],
    how='diagonal',
)

display(df_d1, df_d2, df_diagonal_concat)

In [None]:
# датафрейм - идентификатор и марка машины
df_cars = pl.DataFrame(
    {
        'id': ['a', 'b', 'c'],
        'make': ['ford', 'toyota', 'bmw'],
    }
)
df_cars

In [None]:
# датафрейм - идентификатор и стоимость ремонта
df_repairs = pl.DataFrame(
    {
        'id': ['c', 'c'],
        'cost': [100, 200],
    }
)
df_repairs

In [None]:
# применим inner join
df_inner_join = df_cars.join(df_repairs, on='id', how='inner')
df_inner_join

In [None]:
# применим outer join
df_outer_join = df_cars.join(df_repairs, on='id', how='outer')
df_outer_join

In [None]:
# применим semi join
df_semi_join = df_cars.join(df_repairs, on='id', how='semi')
df_semi_join

In [None]:
# применим anti join
df_anti_join = df_cars.join(df_repairs, on='id', how='anti')
df_anti_join

In [None]:
# загружаем набор с 4 рядами
data = pl.read_csv('Data/example_dataset.csv', 
                   parse_dates=True)
data.head()

In [None]:
# разворачиваем строки переменной segment обучающего набора
# в столбцы, значениями столбцов будут значения
# зависимой переменной target
pivot_data = data.pivot(index='timestamp', 
                        columns='segment', 
                        values='target')
pivot_data.head()

In [None]:
# "расплавляем" датафрейм
melt_data = pivot_data.melt(
    id_vars='timestamp', 
    variable_name='segment',
    value_name='target')
melt_data.head()