In [1]:
import pandas as pd
import numpy as np

print('Версия pandas:', pd.__version__)

Версия pandas: 2.1.4


# Представление данных при помощи ограниченных интервалов pandas

# Объекты Interval, IntervalArray, IntervalIndex

# Часть 2 - Методы и атрибуты + функция pd.interval_range

# 1. pandas.Interval

    Параметры:
    left
    Левая граница интервала

    right
    Правая граница интервала

    closed (по умолчанию 'right')
    {'right', 'left', 'both', 'neither'}, по умолчанию 'right'
    Замкнут ли интервал с левой стороны, с правой стороны, с обеих сторон или ни с одной. 
    
    
    Параметры left и right должны быть одного типа, вы должны иметь возможность сравнивать их
    и они должны удовлетворять условию left <= right.

    1. Замкнутый интервал (в математике обозначается квадратными скобками) 
    содержит свои конечные точки, т. е. замкнутый интервал [0, 5] 
    характеризуется условиями 0 <= x <= 5. Это и означает значение closed='both'. 
    
    2. Открытый интервал (в математике обозначается скобками) не содержит конечных точек, то есть открытый интервал (0, 5)
    характеризуется условиями 0 < x < 5. Это и означает closed='neither'.
    
    3. Интервалы также могут быть полуоткрытыми или полузакрытыми, 
    то есть [0, 5) описывается условиями 0 <= x < 5 (closed='left'), 
    а (0, 5] - условиями 0 < x <= 5 (closed='right').


#### Пример 1.1

In [2]:
# по умолчанию создается интервал с закрытой правой границей
i = pd.Interval(left=0, right=5)
i

Interval(0, 5, closed='right')

#### Пример 1.2

In [3]:
print(2.5 in i)
print(pd.Interval(left=2, right=5, closed='both') in i)

True
True


#### Пример 1.3

In [4]:
# также мы можем проверить границы (closed='right', поэтому 0 < x <= 5):
print(0 in i)
print(5 in i)
print(0.0001 in i)

False
True
True


#### Пример 1.4

In [5]:
# можем найти длину интервала
i.length

5

#### Пример 1.5

In [6]:
i2 = i + 3
i3 = i * 10
display(i2,i3)

Interval(3, 8, closed='right')

Interval(0, 50, closed='right')

#### Пример 1.6

In [7]:
year_2024 = pd.Interval(pd.Timestamp('2024-01-01 00:00:00'),
                        pd.Timestamp('2025-01-01 00:00:00'),
                        closed='left')
# левая граница интервала включена
pd.Timestamp('2024-01-01 00:00') in year_2024

True

In [8]:
year_2024.length

Timedelta('366 days 00:00:00')

## Атрибуты объекта Interval

In [9]:
display(i.closed, # строка, показывающая закрытую стронону интервала
        i.closed_left, # проверка, закрыт ли интервал с левой стороны.
        i.closed_right, # проверка, закрыт ли интервал с правой стороны.
        i.open_left, # проверка, открыт ли интервал с левой стороны
        i.open_right, # проверка, открыт ли интервал с правой стороны
        i.mid, # возвращает среднюю точку интервала
        i.length, # возвращает длину интервала
        i.is_empty, # является ли интервал пустым, то есть не содержит ли он точек
        i.left, # Левая граница интервала
        i.right) # Правая граница интервала

'right'

False

True

True

False

2.5

5

False

0

5

## Метод overlaps - Проверяет, пересекаются ли два объекта Interval.

#### Пример 1.7

In [10]:
i.overlaps(pd.Interval(0,3))

True

# 2. pandas.arrays.IntervalArray

    Новый IntervalArray может быть создан непосредственно из массива объектов типа Interval

    Он также может быть создан с помощью одного из методов-конструкторов: 
    IntervalArray.from_arrays(), IntervalArray.from_breaks() и IntervalArray.from_tuples().

#### Пример 2.1

In [11]:
pd.arrays.IntervalArray([pd.Interval(0, 1), pd.Interval(1, 5)])

<IntervalArray>
[(0, 1], (1, 5]]
Length: 2, dtype: interval[int64, right]

#### Пример 2.2

In [12]:
pd.arrays.IntervalArray([pd.Interval(pd.Timestamp('2023-01-01 00:00:00'), pd.Timestamp('2024-01-01 00:00:00'), closed='left'),
                         pd.Interval(pd.Timestamp('2024-01-01 00:00:00'), pd.Timestamp('2025-01-01 00:00:00'), closed='left')])

<IntervalArray>
[[2023-01-01, 2024-01-01), [2024-01-01, 2025-01-01)]
Length: 2, dtype: interval[datetime64[ns], left]

#### Методы для конструирования интервальных массивов IntervalArray

#### Пример 2.3 - pd.arrays.IntervalArray.from_tuples()

In [13]:
# Конструирование IntervalArray из массива кортежей
pd.arrays.IntervalArray.from_tuples([(0, 1),(1, 5)])

<IntervalArray>
[(0, 1], (1, 5]]
Length: 2, dtype: interval[int64, right]

#### Пример 2.4 - pd.arrays.IntervalArray.from_breaks()

In [14]:
# Конструирование IntervalArray из массива точек для разбиения
pd.arrays.IntervalArray.from_breaks([0, 1, 5])

<IntervalArray>
[(0, 1], (1, 5]]
Length: 2, dtype: interval[int64, right]

#### Пример 2.5 - pd.arrays.IntervalArray.from_arrays()

In [15]:
# Конструирование из двух массивов, определяющих левую и правую границы.
pd.arrays.IntervalArray.from_arrays([0, 1],[1, 5])

<IntervalArray>
[(0, 1], (1, 5]]
Length: 2, dtype: interval[int64, right]

## Атрибуты объекта IntervalArray

In [16]:
i_arr=pd.arrays.IntervalArray.from_arrays([0, 1],[1, 5])
i_arr

<IntervalArray>
[(0, 1], (1, 5]]
Length: 2, dtype: interval[int64, right]

In [17]:
display(i_arr.closed, # строка, показывающая закрытую стронону входящих в массив интервалов
        i_arr.closed_left, # проверка, закрыт ли каждый интервал с левой стороны.
        i_arr.closed_right, # проверка, закрыт ли каждый интервал с правой стороны.
        i_arr.open_left, # проверка, открыт ли каждый интервал с левой стороны
        i_arr.open_right, # проверка, открыт ли каждый интервал с правой стороны
        i_arr.mid, # возвращает средние точки интервалов
        i_arr.length, # возвращает длины интервалов
        i_arr.is_empty, # являются ли интервалы пустыми
        i_arr.left, # Левые границы интервалов
        i_arr.right, # Правые границы интервалов
        i_arr.is_non_overlapping_monotonic) # является ли массив IntervalArray непересекающимся и монотонным

'right'

False

True

True

False

Index([0.5, 3.0], dtype='float64')

Index([1, 4], dtype='int64')

array([False, False])

Index([0, 1], dtype='int64')

Index([1, 5], dtype='int64')

True

## Другие методы IntervalArray

#### Пример 2.6 - метод contains

In [18]:
# Поэлементно проверяет, содержат ли интервалы данное значение
# i_arr содержит два интервала [(0, 1], (1, 5]]
i_arr.contains(3)

array([False,  True])

#### Пример 2.7.1  - метод overlaps

In [19]:
# Поэлементно проверяет, перекрывает ли интервал значения в массиве IntervalArray.
# интервальный массив i_arr содержит два интервала [(0, 1], (1, 5]]
# оба интервала имеют точку пересечения с переданным интервалом
i_arr.overlaps(pd.Interval(0.5, 1.5))

array([ True,  True])

#### Пример 2.7.2

In [20]:
# интервальный массив i_arr содержит два интервала [(0, 1], (1, 5]]
# первый не имеет пересечений с переданным интервалом, второй - имеет (число 5)
# два интервала пересекаются, если у них есть общая точка, включая закрытые конечные точки.
i_arr.overlaps(pd.Interval(5, 8, closed='left'))

array([False,  True])

#### Пример 2.7.3

In [21]:
# интервальный массив i_arr содержит два интервала [(0, 1], (1, 5]]
# оба интервала не имеют пересечений с переданным интервалом
# интервалы, у которых общей является только открытая конечная точка, не пересекаются.
i_arr.overlaps(pd.Interval(-1, 0))

array([False, False])

#### Пример 2.8.1 - метод set_closed()

In [22]:
# Возвращает идентичный IntervalArray, закрытый с указанной стороны.
i_arr.set_closed('both')

<IntervalArray>
[[0, 1], [1, 5]]
Length: 2, dtype: interval[int64, both]

#### Пример 2.8.2

In [23]:
# создаем на основе имеющего массива интервалов массив с интервалами, окрытыми с обеих сторон
i_arr.set_closed('neither')

<IntervalArray>
[(0, 1), (1, 5)]
Length: 2, dtype: interval[int64, neither]

#### Пример 2.9 - метод to_tuples()

In [24]:
# pd.arrays.IntervalArray.from_tuples([(0, 1),(1, 5)]) - Конструирование IntervalArray из массива кортежей
# Обратное действие - создать массив кортежей из интервального массива IntervalArray
# Возвращает массив (если self - IntervalArray) или индекс (если self - IntervalIndex) кортежей вида (left, right).
display(i_arr.to_tuples(),
        type(i_arr.to_tuples()[0]))

array([(0, 1), (1, 5)], dtype=object)

tuple

# 3. pandas.IntervalIndex

_Объект pandas.IntervalIndex() представляет собой тип индекса, который полезен для поддержки индексации значений, которые будут соответствовать набору ограниченных интервалов. Это контейнер вокруг объектов pandas.Interval()._

## Создание IntervalIndex

#### Метод from_breaks()

In [25]:
df_ii = pd.DataFrame({'A': [10, 20, 30, 40], 'B': [11, 22, 33, 44],}, 
                     index=pd.IntervalIndex.from_breaks([0, 1, 2, 3, 4]))
df_ii

Unnamed: 0,A,B
"(0, 1]",10,11
"(1, 2]",20,22
"(2, 3]",30,33
"(3, 4]",40,44


#### Метод from_tuples

In [26]:
# создаем такой же объект с помощью метода from_tuples 
pd.DataFrame({'A': [10, 20, 30, 40], 'B': [11, 22, 33, 44],}, 
             index=pd.IntervalIndex.from_tuples([(0, 1), (1, 2), (2, 3), (3, 4)]))

Unnamed: 0,A,B
"(0, 1]",10,11
"(1, 2]",20,22
"(2, 3]",30,33
"(3, 4]",40,44


#### Метод from_arrays

_Каждый элемент left должен быть меньше или равен элементу right в той же позиции. Если элемент отсутствует, он должен отсутствовать как в левой, так и в правой части. При использовании неподдерживаемого типа для left или right возникает ошибка TypeError. На данный момент не поддерживаются подтипы 'category', 'object' и 'string'._

In [27]:
# создаем такой же объект с помощью метода from_arrays
pd.DataFrame({'A': [10, 20, 30, 40], 'B': [11, 22, 33, 44],}, 
             index=pd.IntervalIndex.from_arrays([0, 1, 2, 3], [1, 2, 3, 4]))

Unnamed: 0,A,B
"(0, 1]",10,11
"(1, 2]",20,22
"(2, 3]",30,33
"(3, 4]",40,44


    closed
    {'left', 'right', 'both', 'neither'}, по умолчанию 'right'
    Указываем, каким образом будут закрыты интервалы

    name
    Имя результирующего индекса IntervalIndex

In [28]:
df_ii_2 = pd.DataFrame({'A': [10, 20, 30, 40], 'B': [11, 22, 33, 44],}, 
                     index=pd.IntervalIndex.from_breaks([0, 1, 2, 3, 4], name='I_Index', closed='both'))
df_ii_2

Unnamed: 0_level_0,A,B
I_Index,Unnamed: 1_level_1,Unnamed: 2_level_1
"[0, 1]",10,11
"[1, 2]",20,22
"[2, 3]",30,33
"[3, 4]",40,44


## Индексация с IntervalIndex

In [29]:
df_ii

Unnamed: 0,A,B
"(0, 1]",10,11
"(1, 2]",20,22
"(2, 3]",30,33
"(3, 4]",40,44


#### Пример 3.1

In [30]:
# если берем краевое значение интервала
df_ii.loc[2]

A    20
B    22
Name: (1, 2], dtype: int64

#### Пример 3.2

In [31]:
# если берем несколько краевых значений интервала
df_ii.loc[[2, 3]]

Unnamed: 0,A,B
"(1, 2]",20,22
"(2, 3]",30,33


#### Пример 3.3

In [32]:
# если выбрать метку, содержащуюся в интервале, то будет выбран и интервал
df_ii.loc[2.5]

A    30
B    33
Name: (2, 3], dtype: int64

#### Пример 3.4

In [34]:
# если выбрать метки, содержащиеся в разных интервалах, то будут выбраны и соответвующие интервалы
df_ii.loc[[2.5, 3.5]]

Unnamed: 0,A,B
"(2, 3]",30,33
"(3, 4]",40,44


#### Пример 3.5

In [33]:
df_ii.loc[pd.Interval(1, 2)]

# Попытка выбрать интервал, который не содержится в индексе IntervalIndex, приведет к ошибке KeyError
# df.loc[pd.Interval(0.5, 2.5)]

A    20
B    22
Name: (1, 2], dtype: int64

## Использование булевой индексации

## Метод IntervalIndex.overlaps

#### Пример 3.6

In [35]:
# Выбор всех интервалов, которые перекрывают заданный интервал, может быть выполнен с помощью метода overlaps() 
# Далее  булевого индексатора
idxr = df_ii.index.overlaps(pd.Interval(0.5, 2.5))
idxr

array([ True,  True,  True, False])

In [36]:
df_ii[idxr]

Unnamed: 0,A,B
"(0, 1]",10,11
"(1, 2]",20,22
"(2, 3]",30,33


## Метод IntervalIndex.contains

    Поэлементно проверяет, содержат ли интервалы переданное значение.

    Возвращает булеву маску, содержится ли значение в интервалах массива IntervalArray.

#### Пример 3.7

In [37]:
display(df_ii.index, 
        df_ii.index.contains(0.5))

IntervalIndex([(0, 1], (1, 2], (2, 3], (3, 4]], dtype='interval[int64, right]')

array([ True, False, False, False])

In [38]:
df_ii[df_ii.index.contains(0.5)]

Unnamed: 0,A,B
"(0, 1]",10,11


# 4. Функция pandas.interval_range

#### pandas.interval_range(start=None, end=None, periods=None, freq=None, name=None, closed='right')
#### Возвращает интервальный индекс с фиксированной частотой.

    Параметры
    
#### start
    числовое значение или значение временного типа, по умолчанию None
    Левая граница для генерации интервалов

#### end
    числовое значение или значение временного типа, по умолчанию None
    Правая граница для генерации интервалов

#### periods
    int, по умолчанию None
    Количество периодов для генерации.

#### freq
    numeric, str, Timedelta, datetime.timedelta или DateOffset, по умолчанию None
    Длина каждого интервала. Должна соответствовать типу start и end, например, 2 для числовых или '5H' для временных. 
    По умолчанию 1 для числовых и 'D' для временных.

#### name
    Имя результирующего индекса IntervalIndex.

#### closed
    {'left', 'right', 'both', 'neither'}, по умолчанию 'right'
    С какой стороны интервалы будут закрыты

    Примечание

_Из четырех параметров start, end, periods и freq должны быть указаны ровно три. Если параметр freq опущен, результирующий IntervalIndex будет содержать периоды, линейно расположенные между элементами от start до end включительно._

_Параметр freq задает частоту между левой и правой конечными точками отдельных интервалов в пределах индекса IntervalIndex. Для числовых значений начала и конца частота также должна быть числовой._

#### Пример 4.1.1

In [39]:
# Поддерживаются числовые значения начала и конца
pd.interval_range(start=0, end=6)

IntervalIndex([(0, 1], (1, 2], (2, 3], (3, 4], (4, 5], (5, 6]], dtype='interval[int64, right]')

#### Пример 4.1.2

In [40]:
# freq задает частоту между левой и правой конечными точками отдельных интервалов в пределах индекса IntervalIndex
# частота - 2
pd.interval_range(start=0, end=6, freq=2)

IntervalIndex([(0, 2], (2, 4], (4, 6]], dtype='interval[int64, right]')

#### Пример 4.2.1

In [41]:
# кроме того, поддерживается ввод временных данных
pd.interval_range(start=pd.Timestamp('2017-01-01'),
                  end=pd.Timestamp('2017-01-10'))

IntervalIndex([(2017-01-01, 2017-01-02], (2017-01-02, 2017-01-03], (2017-01-03, 2017-01-04], (2017-01-04, 2017-01-05], (2017-01-05, 2017-01-06], (2017-01-06, 2017-01-07], (2017-01-07, 2017-01-08], (2017-01-08, 2017-01-09], (2017-01-09, 2017-01-10]], dtype='interval[datetime64[ns], right]')

#### Пример 4.2.2

In [42]:
# частота - 2 дня ('2D')
pd.interval_range(start=pd.Timestamp('2017-01-01'),
                  end=pd.Timestamp('2017-01-10'),
                 freq='2D')

IntervalIndex([(2017-01-01, 2017-01-03], (2017-01-03, 2017-01-05], (2017-01-05, 2017-01-07], (2017-01-07, 2017-01-09]], dtype='interval[datetime64[ns], right]')

#### Пример 4.3

In [43]:
pd.interval_range(start=0, periods=4, freq=1.5)

IntervalIndex([(0.0, 1.5], (1.5, 3.0], (3.0, 4.5], (4.5, 6.0]], dtype='interval[float64, right]')

#### Пример 4.4

In [44]:
# частота должна быть преобразована в DateOffset
# частота - месяц ('MS')
pd.interval_range(start=pd.Timestamp('2017-01-01'),
                  periods=3, freq='MS')

IntervalIndex([(2017-01-01, 2017-02-01], (2017-02-01, 2017-03-01], (2017-03-01, 2017-04-01]], dtype='interval[datetime64[ns], right]')

#### Пример 4.5

In [45]:
pd.interval_range(start=0, end=6, periods=4)

IntervalIndex([(0.0, 1.5], (1.5, 3.0], (3.0, 4.5], (4.5, 6.0]], dtype='interval[float64, right]')

#### Пример 4.6

In [46]:
# closed указывает, какие конечные точки отдельных интервалов в индексе IntervalIndex являются закрытыми.
pd.interval_range(end=5, periods=4, closed='both')

IntervalIndex([[1, 2], [2, 3], [3, 4], [4, 5]], dtype='interval[int64, both]')