# Пакеты `pandas` и `numpy`: типы данных


---

**Источники:**


[what are all the dtypes that pandas recognizes?](https://stackoverflow.com/questions/29245848/what-are-all-the-dtypes-that-pandas-recognizes)

[numpy.dtype](https://numpy.org/doc/stable/reference/generated/numpy.dtype.html#numpy.dtype)

[Data types](https://numpy.org/doc/stable/user/basics.types.html)

[Data type objects (dtype)](https://numpy.org/doc/stable/reference/arrays.dtypes.html#arrays-dtypes)

[Scalars](https://docs.scipy.org/doc/numpy-1.13.0/reference/arrays.scalars.html)

[Categorical data](https://pandas.pydata.org/pandas-docs/stable/user_guide/categorical.html)

[Essential basic functionality](https://pandas.pydata.org/pandas-docs/stable/user_guide/basics.html)

[Extension types](https://pandas.pydata.org/pandas-docs/stable/development/extending.html#extending-extension-types)

[Трансформация данных в pandas ч.1 / pd 11](https://pythonru.com/biblioteki/transformacija-dannyh-v-pandas-ch-1-pd-11)

---

## Подготовка окружения

In [1]:
# ВНИМАНИЕ: необходимо удостовериться, что виртуальная среда выбрана правильно!

!pip -V

pip 20.3.3 from /home/ira/anaconda3/envs/LevelUp_DataScience/lib/python3.8/site-packages/pip (python 3.8)


In [2]:
# !conda install pandas numpy lxml -y

In [3]:
import numpy as np

np.__version__

'1.19.2'

In [4]:
import pandas as pd

pd.__version__

'1.2.3'

## Обзор типов данных

**`Pandas` в основном использует массивы и типы `NumPy`** для каждой серии (фрейм данных - это набор серий, каждая из которых может иметь свой собственный `dtype`).

Документация `NumPy` дополнительно объясняет [`dtype`](https://numpy.org/doc/stable/reference/generated/numpy.dtype.html#numpy.dtype), [`Data types`](https://numpy.org/doc/stable/user/basics.types.html) и [`Data type objects (dtype)`](https://numpy.org/doc/stable/reference/arrays.dtypes.html#arrays-dtypes).


In [5]:
df = pd.DataFrame({'A': [1, 'C', 2.]})

df

Unnamed: 0,A
0,1
1,C
2,2.0


In [6]:
df['A']

0      1
1      C
2    2.0
Name: A, dtype: object

In [7]:
type(df['A'].dtype)

numpy.dtype

По умолчанию `int` - это `int64`, а `float` - `float64`, НЕЗАВИСИМО от платформы (32-разрядная или 64-разрядная).

In [8]:
pd.DataFrame([1, 2], columns=["a"])

Unnamed: 0,a
0,1
1,2


In [9]:
pd.DataFrame([1, 2], columns=["a"]).dtypes

a    int64
dtype: object

In [10]:
pd.DataFrame({"a": [1, 2]})

Unnamed: 0,a
0,1
1,2


In [11]:
pd.DataFrame({"a": [1, 2]}).dtypes

a    int64
dtype: object

In [12]:
pd.DataFrame({"a": 1}, index=list(range(2)))

Unnamed: 0,a
0,1
1,1


In [13]:
pd.DataFrame({"a": 1}, index=list(range(2))).dtypes

a    int64
dtype: object

`Numpy`, однако, выберет платформо-зависимые типы *при создании массивов*. Следующее будет результатом int32 на 32-битной платформе.

In [14]:
pd.DataFrame(np.array([1, 2])).dtypes

0    int64
dtype: object

Одним из основных изменений в версии 1.0.0 `pandas` является введение `pd.NA` для представления скалярных пропущенных значений (а не предыдущих значений `np.nan`, `pd.NaT` или `None`, в зависимости от использования).

## Пакет `numpy`: типы данных


`Python` определяет только один тип определенного класса данных (существует только один целочисленный тип, один тип с плавающей запятой и т.д.).

Это может быть удобно в приложениях, которым не нужно заботиться обо всех способах представления данных на компьютере.

Однако для научных вычислений часто требуется больше контроля.


В `NumPy` есть `24` фундаментальных типа `Python` для описания различных типов скаляров.

Эти типы в основном основаны на типах, доступных в языке `C`, на котором написан `CPython`, с несколькими дополнительными типами, совместимыми с типами `Python`.

Скаляры массива неизменяемы (immutable), поэтому ни один из скалярных атрибутов массива не может быть установлен.

### Список типов `NumPy`

<img src="images/dtype_hierarchy.png"/>

In [15]:
def subdtypes(dtype):
    subs = dtype.__subclasses__()
    if not subs:
        return dtype
    return [dtype, [subdtypes(dt) for dt in subs]]

subdtypes(np.generic)

[numpy.generic,
 [[numpy.number,
   [[numpy.integer,
     [[numpy.signedinteger,
       [numpy.int8,
        numpy.int16,
        numpy.int32,
        numpy.int64,
        numpy.longlong,
        numpy.timedelta64]],
      [numpy.unsignedinteger,
       [numpy.uint8,
        numpy.uint16,
        numpy.uint32,
        numpy.uint64,
        numpy.ulonglong]]]],
    [numpy.inexact,
     [[numpy.floating,
       [numpy.float16, numpy.float32, numpy.float64, numpy.float128]],
      [numpy.complexfloating,
       [numpy.complex64, numpy.complex128, numpy.complex256]]]]]],
  [numpy.flexible,
   [[numpy.character, [numpy.bytes_, numpy.str_]],
    [numpy.void, [numpy.record]]]],
  numpy.bool_,
  numpy.datetime64,
  numpy.object_]]

In [16]:
np.float32(1.0)

1.0

In [17]:
np.int_([1,2,4])

array([1, 2, 4])

In [18]:
z = np.arange(3, dtype=np.uint8)
z

array([0, 1, 2], dtype=uint8)

Чтобы преобразовать тип **массива**, используйте метод `.astype()` (предпочтительно) или сам тип как функцию.

In [19]:
# предпочтительно
z = z.astype(np.float_)  
z

array([0., 1., 2.])

In [20]:
z.dtype

dtype('float64')

In [21]:
z = np.complex_(z)
z

array([0.+0.j, 1.+0.j, 2.+0.j])

In [22]:
z.dtype

dtype('complex128')

In [23]:
d = np.dtype(int)
d

dtype('int64')

In [24]:
np.issubdtype(d, np.integer)

True

In [25]:
np.issubdtype(d, np.floating)

False

### [Ошибки переполнения (Overflow Errors)](https://numpy.org/doc/stable/user/basics.types.html#overflow-errors)

Поведение целочисленных типов `NumPy` и `Python` значительно отличается для целочисленных переполнений и может сбить с толку пользователей, ожидающих, что целые числа `NumPy` будут вести себя так же, как `int` в `Python`.

В отличие от `NumPy`, размер `int` в `Python` является гибким. Это означает, что **целые числа `Python` могут расширяться для размещения любого целого числа и не будут переполняться**.

**Фиксированный размер числовых типов `NumPy` может вызвать ошибки переполнения**, когда значение требует больше памяти, чем доступно в типе данных.

***Экспоненциальная запись (Scientific notation) / (E Notation)**

**Экспоненциальная запись** удобна для представления очень больших и очень малых чисел, а также для унификации их написания.

**[E Notation](https://python-reference.readthedocs.io/en/latest/docs/float/scientific.html)**:

Буква `E` представляет "умноженное на десять в степени ...".

Примеры:

`1.1e1 = 1.1 * 10**1 = 11.0`

`1.1e+1 = 1.1 * 10**1 = 11.0`

`8e-2 = 8 * 10**-2 = 0.08`

`3.02E12 = 3.02 * 10**12 = 3,020,000,000,000`

`9.236E-19 = 9.236 * 10**-19 = 0.0000000000000000009236`


`NumPy` предоставляет `numpy.iinfo` и `numpy.finfo` для проверки минимального или максимального значений целых чисел и значений с плавающей запятой `NumPy` соответственно.

In [26]:
np.iinfo(int)

iinfo(min=-9223372036854775808, max=9223372036854775807, dtype=int64)

In [27]:
np.iinfo(np.int64)

iinfo(min=-9223372036854775808, max=9223372036854775807, dtype=int64)

In [28]:
np.iinfo(np.int32)

iinfo(min=-2147483648, max=2147483647, dtype=int32)

In [29]:
np.iinfo(np.int16)

iinfo(min=-32768, max=32767, dtype=int16)

In [30]:
np.iinfo(np.int8)

iinfo(min=-128, max=127, dtype=int8)

In [31]:
np.finfo(np.float16)

finfo(resolution=0.001, min=-6.55040e+04, max=6.55040e+04, dtype=float16)

In [32]:
np.int8(127)

127

In [33]:
np.int8(128)

-128

In [34]:
np.int8(-128)

-128

In [35]:
np.int8(-129)

127

In [36]:
np.power(100, 8, dtype=np.int64)

10000000000000000

In [37]:
np.power(100, 8, dtype=np.int32)

1874919424

In [38]:
np.power(100, 100, dtype=np.int64)

0

In [39]:
np.power(100, 100, dtype=np.float64)

1e+200

## Пакет `Pandas`: типы данных

По большей части `pandas` использует массивы и типы `NumPy` для серий или отдельных столбцов `DataFrame`. 

`NumPy` обеспечивает поддержку `float`, `int`, `bool`, `timedelta64[ns]` и `datetime64[ns]` (обратите внимание, что `NumPy` не поддерживает дату и время с учетом часового пояса).

`pandas` и сторонние (third-party) библиотеки расширяют систему типов `NumPy` в нескольких местах.

В этом разделе описываются внутренние расширения `pandas`.

В следующей таблице перечислены все типы расширений `pandas`.

In [40]:
htmp_basic_info = 'https://pandas.pydata.org/pandas-docs/stable/user_guide/basics.html'
basic_info_tables = pd.read_html(htmp_basic_info)

for index, table in enumerate(basic_info_tables):
    print(f"index = {index}")
    display(table)

In [41]:
pandas_types_df = basic_info_tables[3]

pandas_types_df.drop_duplicates()

Unnamed: 0,Kind of Data,Data Type,Scalar,Array,String Aliases,Documentation
0,tz-aware datetime,DatetimeTZDtype,Timestamp,arrays.DatetimeArray,"'datetime64[ns, <tz>]'",Time zone handling
1,Categorical,CategoricalDtype,(none),Categorical,'category',Categorical data
2,period (time spans),PeriodDtype,Period,arrays.PeriodArray,"'period[<freq>]', 'Period[<freq>]'",Time span representation
3,sparse,SparseDtype,(none),arrays.SparseArray,"'Sparse', 'Sparse[int]', 'Sparse[float]'",Sparse data structures
4,intervals,IntervalDtype,Interval,arrays.IntervalArray,"'interval', 'Interval', 'Interval[<numpy_dtype...",IntervalIndex
5,nullable integer,"Int64Dtype, …",(none),arrays.IntegerArray,"'Int8', 'Int16', 'Int32', 'Int64', 'UInt8', 'U...",Nullable integer data type
7,Strings,StringDtype,str,arrays.StringArray,'string',Working with text data
8,Boolean (with NA),BooleanDtype,bool,arrays.BooleanArray,'boolean',Boolean data with missing values


### [Категориальные данные (Categorical data)](https://pandas.pydata.org/pandas-docs/stable/user_guide/categorical.html#categorical)

#### Вид данных

Категории - это тип данных, соответствующий категориальным переменным в статистике. 

Категориальная переменная принимает ограниченное и обычно фиксированное количество возможных значений.

Примеры: пол, социальный класс, группа крови, принадлежность к стране, язык.

В отличие от статистических категориальных переменных, категориальные данные *могут иметь порядок* (например, "полностью согласен" и "согласен" или "первое наблюдение" и "второго наблюдения"), но числовые операции (добавления, деления и т.д.) невозможны.

Все значения категориальных данных либо `categories`, либо `np.nan`.

Порядок определяется порядком `categories`, а не лексическим порядком значений.

Структура данных состоит из массива `categories` и целочисленного массива `codes`, которые указывают на реальное значение в массиве категорий.

#### Применение категориального типа данных

##### Использование памяти (Memory usage)

Строковая переменная, состоящая всего из нескольких разных значений. Преобразование такой строковой переменной в категориальную позволяет сэкономить память.

In [42]:
# использование памяти категориальным элементом 
# пропорционально количеству категорий плюс длина данных,
# объект dtype - это константа, умноженная на длину данных
s = pd.Series(["foo", "bar"] * 1000)
display(s)

print("\nunique count =", 
      s.nunique())

print("\nobject nbytes =", 
      s.nbytes)

print("\ncategory nbytes =", 
      s.astype("category").nbytes)

0       foo
1       bar
2       foo
3       bar
4       foo
       ... 
1995    bar
1996    foo
1997    bar
1998    foo
1999    bar
Length: 2000, dtype: object


unique count = 2

object nbytes = 16000

category nbytes = 2016


In [43]:
# если количество категорий приближается к длине данных, 
# категориальный будет использовать почти столько же 
# или больше памяти, чем эквивалентное представление dtype объекта
s = pd.Series(["foo%04d" % i for i in range(2000)])
display(s)

print("\nunique count =", s.nunique())

print("\nobject nbytes =", s.nbytes)

print("\ncategory nbytes =", s.astype("category").nbytes)

0       foo0000
1       foo0001
2       foo0002
3       foo0003
4       foo0004
         ...   
1995    foo1995
1996    foo1996
1997    foo1997
1998    foo1998
1999    foo1999
Length: 2000, dtype: object


unique count = 2000

object nbytes = 16000

category nbytes = 20000


##### Сортировка и порядок (Sorting and order)

Лексический порядок переменной отличается от логического порядка ("один", "два", "три"). При преобразовании в категориальный тип и указании порядка в категориях, сортировка и мин/макс будут использовать логический порядок вместо лексического.

Если категориальные данные упорядочены (`ordered == True`), то порядок категорий имеет значение и возможны определенные операции. Если категориальные данные неупорядочены, методы `min()`/`max()` вызовут `TypeError`.

In [44]:
s = pd.Series(pd.Categorical(["a", "b", "c", "a"], 
                             ordered=False))
s

0    a
1    b
2    c
3    a
dtype: category
Categories (3, object): ['a', 'b', 'c']

In [45]:
s.sort_values(inplace=True)
s

0    a
3    a
1    b
2    c
dtype: category
Categories (3, object): ['a', 'b', 'c']

In [46]:
try:
    print(f"min = {s.min()}\nmax = {s.max()}")
except TypeError as te:
    print(f"Exeption!\n{te.with_traceback}")

Exeption!
<built-in method with_traceback of TypeError object at 0x7f65de361090>


In [47]:
from pandas.api.types import CategoricalDtype

s = pd.Series(["a", "b", "c", "a"]).astype(CategoricalDtype(ordered=True))
s

0    a
1    b
2    c
3    a
dtype: category
Categories (3, object): ['a' < 'b' < 'c']

In [48]:
s.sort_values(inplace=True)
s

0    a
3    a
1    b
2    c
dtype: category
Categories (3, object): ['a' < 'b' < 'c']

In [49]:
print(f"min = {s.min()}\nmax = {s.max()}")

min = a
max = c


Можно установить признак категориальных данных, которые будут упорядочены с помощью `as_ordered()` или неупорядочены с помощью `as_unordered()`. По умолчанию они вернут новый объект.

In [50]:
s.cat.as_ordered()

0    a
3    a
1    b
2    c
dtype: category
Categories (3, object): ['a' < 'b' < 'c']

In [51]:
s.cat.as_unordered()

0    a
3    a
1    b
2    c
dtype: category
Categories (3, object): ['a', 'b', 'c']

При сортировке будет использоваться порядок, определенный категориями, а не какой-либо лексический порядок, присутствующий в типе данных. Это верно даже для строк и числовых данных.

In [52]:
s = pd.Series([1, 2, 3, 1], 
              dtype="category")
s

0    1
1    2
2    3
3    1
dtype: category
Categories (3, int64): [1, 2, 3]

In [53]:
# установить порядок для категорий
s = s.cat.set_categories([2, 3, 1], 
                         ordered=True)
s

0    1
1    2
2    3
3    1
dtype: category
Categories (3, int64): [2 < 3 < 1]

In [54]:
s.sort_values(inplace=True)
s

1    2
2    3
0    1
3    1
dtype: category
Categories (3, int64): [2 < 3 < 1]

In [55]:
print(f"min = {s.min()}\nmax = {s.max()}")

min = 2
max = 1


##### Другие библиотеки `Python`

Как сигнал другим библиотекам `Python` о том, что этот столбец следует рассматривать как категориальную переменную (например, для использования подходящих статистических методов или типов графиков).

### [Разреженные структуры данных (Sparse data structures)](https://pandas.pydata.org/pandas-docs/stable/user_guide/sparse.html#sparse)

#### Вид данных

Различные **разреженные матрицы**.

**Разрежённая матрица** — это матрица с преимущественно нулевыми элементами. В противном случае, если бо́льшая часть элементов матрицы ненулевые, матрица считается плотной.

Среди специалистов нет единства в определении того, какое именно количество ненулевых элементов делает матрицу разрежённой. Разные авторы предлагают различные варианты.

![](images/sparse_matrix.png)

Это не обязательно разреженность в типичном варианте: "в основном 0".

Скорее, можно рассматривать эти объекты как "сжатые", где любые данные, соответствующие определенному значению (`NaN` / отсутствующее значение, хотя может быть выбрано любое значение, включая `0`), опущены.

Сжатые значения фактически не хранятся в массиве.

#### Обзор `SparseArray`

In [56]:
arr = np.random.randn(10)
arr.tolist()

[0.28295814799007546,
 0.02656458611255578,
 1.2072848839384414,
 -2.055094236660088,
 0.27138525157384874,
 -1.4167840284216937,
 -2.0132746024325705,
 -0.6539682692607199,
 -0.7529331554837387,
 0.6586137659082764]

In [57]:
arr[2:-2] = np.nan
arr.tolist()

[0.28295814799007546,
 0.02656458611255578,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 -0.7529331554837387,
 0.6586137659082764]

In [58]:
ts = pd.Series(pd.arrays.SparseArray(arr))
ts

0    0.282958
1    0.026565
2         NaN
3         NaN
4         NaN
5         NaN
6         NaN
7         NaN
8   -0.752933
9    0.658614
dtype: Sparse[float64, nan]

Обратите внимание на `dtype`, `Sparse[float64, NaN]`.

`NaN` означает, что элементы в массиве, которые являются `NaN`, на самом деле не сохраняются, а хранятся только элементы, отличные от `NaN`.

Эти элементы, отличные от `NaN`, имеют тип float64 dtype.

#### Использование памяти (Memory usage)

Объекты `Sparse` существуют для повышения эффективности памяти.

Предположим, существует большой, в основном `NA` `DataFrame`. 

Плотность (% значений, которые не были "сжаты") чрезвычайно низкая.

Этот разреженный объект занимает гораздо меньше памяти на диске (`pickled`) и в интерпретаторе `Python`.

Функционально поведение `Sparse` должно быть почти идентичным их "плотным" аналогам.

In [59]:
df = pd.DataFrame(np.random.randn(10000, 4))
df.iloc[:9998] = np.nan
df

Unnamed: 0,0,1,2,3
0,,,,
1,,,,
2,,,,
3,,,,
4,,,,
...,...,...,...,...
9995,,,,
9996,,,,
9997,,,,
9998,0.448673,3.336949,1.443571,0.346178


In [60]:
sdf = df.astype(pd.SparseDtype("float", np.nan))
display(sdf)

print("\nsdf.dtypes =", sdf.dtypes)

# плотность (% значений, которые не были "сжаты")
print("\nsdf.sparse.density =", sdf.sparse.density)

Unnamed: 0,0,1,2,3
0,,,,
1,,,,
2,,,,
3,,,,
4,,,,
...,...,...,...,...
9995,,,,
9996,,,,
9997,,,,
9998,0.448673,3.336949,1.443571,0.346178



sdf.dtypes = 0    Sparse[float64, nan]
1    Sparse[float64, nan]
2    Sparse[float64, nan]
3    Sparse[float64, nan]
dtype: object

sdf.sparse.density = 0.0002


In [61]:
print('dense (df) : {:0.2f} bytes'
      .format(df.memory_usage().sum() / 1e3))

print('dense (sfd): {:0.2f} bytes'
      .format(sdf.memory_usage().sum() / 1e3))

dense (df) : 320.13 bytes
dense (sfd): 0.22 bytes


### [Интервальный индекс (IntervalIndex)](https://pandas.pydata.org/pandas-docs/stable/user_guide/advanced.html#advanced-intervalindex)

#### Вид данных

`IntervalIndex` вместе со своим собственным `dtype` - `IntervalDtype`, а также скалярным типом `Interval` обеспечивают первоклассную поддержку `pandas` для обозначения интервалов.


`IntervalIndex` допускает некоторую уникальную индексацию, а также используется в качестве возвращаемого типа для категориального типа в методах `cut()` и `qcut()`.

#### Индексирование с помощью `IntervalIndex`

`IntervalIndex` может использоваться в `Series` и `DataFrame` в качестве индекса.

In [62]:
df = pd.DataFrame({"A": [1, 2, 3, 4]}, 
                  index=pd.IntervalIndex.from_breaks([0, 1, 2, 3, 4]))

df

Unnamed: 0,A
"(0, 1]",1
"(1, 2]",2
"(2, 3]",3
"(3, 4]",4


In [63]:
# индексирование на основе меток через `.loc` по краям интервала
df.loc[2]

A    2
Name: (1, 2], dtype: int64

In [64]:
# индексирование на основе меток через `.loc` по краям интервала
df.loc[[2, 3]]

Unnamed: 0,A
"(1, 2]",2
"(2, 3]",3


In [65]:
# при выборе метки в интервале это выберет интервал
df.loc[2.5]

A    3
Name: (2, 3], dtype: int64

In [66]:
# при выборе метки в интервале это выберет интервал
df.loc[[2.5, 3.5]]

Unnamed: 0,A
"(2, 3]",3
"(3, 4]",4


In [67]:
pd.Interval(1, 2, closed='both')

Interval(1, 2, closed='both')

In [68]:
# при использовании интервала вернет только точные совпадения
# (начиная с pandas 0.25.0)
df.loc[pd.Interval(1, 2)]

A    2
Name: (1, 2], dtype: int64

In [69]:
# при выборе Interval, который не содержится в IntervalIndex - KeyError
try:
    df.loc[pd.Interval(0.5, 2.5)]
except KeyError as ke:
    print(f"Exception!\n{ke.with_traceback}")

Exception!
<built-in method with_traceback of KeyError object at 0x7f65de358a90>


In [70]:
# выбор всех интервалов, которые перекрывают интервал, можно выполнить 
# с помощью метода overlaps() для создания логического индексатора
idxr = df.index.overlaps(pd.Interval(0.5, 2.5))
idxr

array([ True,  True,  True, False])

In [71]:
df[idxr]

Unnamed: 0,A
"(0, 1]",1
"(1, 2]",2
"(2, 3]",3


#### Группировка данных с помощью `cut` и `qcut`

`cut()` и `qcut()` возвращают категориальный объект, а созданные ими ячейки сохраняются как `IntervalIndex` в его атрибуте `.categories`.

In [72]:
from random import sample, randrange

In [73]:
rand_data = sample(range(-7, 15), 12)
rand_data

[-5, 11, -7, 2, 7, 10, 12, 4, 5, 13, 9, 1]

In [74]:
# разбить последовательность range на 4 квантили
c = pd.qcut(rand_data, q=4)
c

[(-7.001, 1.75], (10.25, 13.0], (-7.001, 1.75], (1.75, 6.0], (6.0, 10.25], ..., (1.75, 6.0], (1.75, 6.0], (10.25, 13.0], (6.0, 10.25], (-7.001, 1.75]]
Length: 12
Categories (4, interval[float64]): [(-7.001, 1.75] < (1.75, 6.0] < (6.0, 10.25] < (10.25, 13.0]]

In [75]:
# получить тип результата функции cut
type(c)

pandas.core.arrays.categorical.Categorical

In [76]:
# получить список категорий
c.categories

IntervalIndex([(-7.001, 1.75], (1.75, 6.0], (6.0, 10.25], (10.25, 13.0]],
              closed='right',
              dtype='interval[float64]')

In [77]:
# число вхождений в каждый бин (интевал)
pd.value_counts(c)

(-7.001, 1.75]    3
(1.75, 6.0]       3
(6.0, 10.25]      3
(10.25, 13.0]     3
dtype: int64

In [78]:
# разбить последовательность range на 4 интервала
c = pd.cut(rand_data, bins=4)
c

[(-7.02, -2.0], (8.0, 13.0], (-7.02, -2.0], (-2.0, 3.0], (3.0, 8.0], ..., (3.0, 8.0], (3.0, 8.0], (8.0, 13.0], (8.0, 13.0], (-2.0, 3.0]]
Length: 12
Categories (4, interval[float64]): [(-7.02, -2.0] < (-2.0, 3.0] < (3.0, 8.0] < (8.0, 13.0]]

In [79]:
# число вхождений в каждый бин (интевал)
pd.value_counts(c)

(8.0, 13.0]      5
(3.0, 8.0]       3
(-7.02, -2.0]    2
(-2.0, 3.0]      2
dtype: int64

`cut()` также принимает `IntervalIndex` в качестве аргумента `bins`, что позволяет использовать полезную идиому `pandas`. 

Сначала вызвать `cut()` с некоторыми данными и `bins`, установленным в фиксированное число, чтобы сгенерировать ячейки (`bins`). 

Затем передать значения `.categories` в качестве аргумента `bins` в последующих вызовах функции `cut()`, предоставляя новые данные, которые будут помещены в те же ячейки (`bins`).

Можно использовать `cut()`, когда нужно сегментировать и отсортировать значения данных по ячейкам.

`cut()` полезна для перехода от непрерывной переменной к категориальной.

Например, `cut()` может преобразовывать возраст в группы возрастных диапазонов.

`cut()` поддерживает разделение на равное количество ячеек или заранее заданный массив ячеек.

In [80]:
pd.cut([0, 3, 5, 1], bins=c.categories)

[(-2.0, 3.0], (-2.0, 3.0], (3.0, 8.0], (-2.0, 3.0]]
Categories (4, interval[float64]): [(-7.02, -2.0] < (-2.0, 3.0] < (3.0, 8.0] < (8.0, 13.0]]

#### Генерация диапазонов интервалов

Если нужны интервалы с постоянной частотой, то можно использовать функцию `interval_range()` для создания `IntervalIndex`, используя различные комбинации `start`, `end` и `periods`.

Частота по умолчанию для `interval_range` - `1` для числовых интервалов и календарный день для интервалов, подобных `datetime`.

In [81]:
pd.interval_range(start=0, 
                  end=5)

IntervalIndex([(0, 1], (1, 2], (2, 3], (3, 4], (4, 5]],
              closed='right',
              dtype='interval[int64]')

In [82]:
pd.interval_range(start=pd.Timestamp("2017-01-01"), 
                  periods=4)

IntervalIndex([(2017-01-01, 2017-01-02], (2017-01-02, 2017-01-03], (2017-01-03, 2017-01-04], (2017-01-04, 2017-01-05]],
              closed='right',
              dtype='interval[datetime64[ns]]')

Параметр `freq` может использоваться для указания частот, отличных от значений по умолчанию, и может использовать различные псевдонимы частот с интервалами типа `datetime`.

In [83]:
pd.interval_range(start=0, 
                  periods=5, 
                  freq=1.5)

IntervalIndex([(0.0, 1.5], (1.5, 3.0], (3.0, 4.5], (4.5, 6.0], (6.0, 7.5]],
              closed='right',
              dtype='interval[float64]')

In [84]:
pd.interval_range(start=pd.Timestamp("2017-01-01"), 
                  periods=4, 
                  freq="W")

IntervalIndex([(2017-01-01, 2017-01-08], (2017-01-08, 2017-01-15], (2017-01-15, 2017-01-22], (2017-01-22, 2017-01-29]],
              closed='right',
              dtype='interval[datetime64[ns]]')

In [85]:
pd.interval_range(start=pd.Timedelta("0 days"), 
                  periods=3, 
                  freq="9H")

IntervalIndex([(0 days 00:00:00, 0 days 09:00:00], (0 days 09:00:00, 0 days 18:00:00], (0 days 18:00:00, 1 days 03:00:00]],
              closed='right',
              dtype='interval[timedelta64[ns]]')

С помощью параметра `closed` можно указать, на какой стороне (сторонах) закрываются интервалы. По умолчанию интервалы закрыты с правой стороны.

In [86]:
pd.interval_range(start=0, 
                  end=4, 
                  closed="both")

IntervalIndex([[0, 1], [1, 2], [2, 3], [3, 4]],
              closed='both',
              dtype='interval[int64]')

In [87]:
pd.interval_range(start=0, 
                  end=4, 
                  closed="neither")

IntervalIndex([(0, 1), (1, 2), (2, 3), (3, 4)],
              closed='neither',
              dtype='interval[int64]')

Если указать `start`, `end` и `periods`, то будет сгенерирован диапазон равномерно распределенных интервалов от начала до конца включительно, с количеством элементов `periods` в результирующем `IntervalIndex`.

In [88]:
pd.interval_range(start=0, 
                  end=6, 
                  periods=4)

IntervalIndex([(0.0, 1.5], (1.5, 3.0], (3.0, 4.5], (4.5, 6.0]],
              closed='right',
              dtype='interval[float64]')

In [89]:
pd.interval_range(pd.Timestamp("2018-01-01"), 
                  pd.Timestamp("2018-02-28"),
                  periods=3)

IntervalIndex([(2018-01-01, 2018-01-20 08:00:00], (2018-01-20 08:00:00, 2018-02-08 16:00:00], (2018-02-08 16:00:00, 2018-02-28]],
              closed='right',
              dtype='interval[datetime64[ns]]')

### [Обработка часовых поясов (Time zone handling)](https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#timeseries-timezone)

#### Вид данных

Дата и время с учетом часового пояса (`tz`) (обратите внимание, что `NumPy` не поддерживает дату и время с учетом часовых поясов).

`pandas` предоставляет хорошую поддержку работы с отметками времен (timestamps) и в разных часовых поясах с использованием библиотек `pytz` и `dateutil` или объектов `datetime.timezone` из стандартной библиотеки.

`pandas` содержит обширные возможности и функции для работы с данными временных рядов для всех областей. 

Используя `datetime64` и `timedelta64` `NumPy`, `pandas` объединил большое количество функций из других библиотек `Python`, таких как `scikits.timeseries`, а также создал огромное количество новых функций для управления данными временных рядов.

Благодаря этому возможет анализ информации временных рядов из различных источников и форматов.

`pandas` объединяет 4 общие концепции, связанные со временем:
- Дата и время: определенная дата и время с поддержкой часового пояса. Аналогично `datetime.datetime` из стандартной библиотеки.
- Дельты времени: абсолютная продолжительность времени. Аналогично `datetime.timedelta` из стандартной библиотеки.
- Интервалы времени: интервал времени, определяемый моментом времени и связанной с ним частотой.
- Смещения даты: относительная продолжительность времени, учитывающая календарную арифметику. Аналогично `dateutil.relativedelta.relativedelta` из пакета `dateutil`.

#### Список часовых поясов из пакета `dateutil`

In [90]:
from dateutil.zoneinfo import get_zonefile_instance

print(f"len = {len(get_zonefile_instance().zones)}")

get_zonefile_instance().zones

len = 595


{'Zulu': tzfile('Zulu'),
 'W-SU': tzfile('W-SU'),
 'Turkey': tzfile('Turkey'),
 'Singapore': tzfile('Singapore'),
 'ROK': tzfile('ROK'),
 'ROC': tzfile('ROC'),
 'Portugal': tzfile('Portugal'),
 'Poland': tzfile('Poland'),
 'PRC': tzfile('PRC'),
 'Navajo': tzfile('Navajo'),
 'NZ-CHAT': tzfile('NZ-CHAT'),
 'NZ': tzfile('NZ'),
 'Mexico/BajaNorte': tzfile('Mexico/BajaNorte'),
 'Mexico/BajaSur': tzfile('Mexico/BajaSur'),
 'Mexico/General': tzfile('Mexico/General'),
 'Libya': tzfile('Libya'),
 'Kwajalein': tzfile('Kwajalein'),
 'Japan': tzfile('Japan'),
 'Jamaica': tzfile('Jamaica'),
 'Israel': tzfile('Israel'),
 'Iran': tzfile('Iran'),
 'Iceland': tzfile('Iceland'),
 'Hongkong': tzfile('Hongkong'),
 'Greenwich': tzfile('Greenwich'),
 'GB-Eire': tzfile('GB-Eire'),
 'Eire': tzfile('Eire'),
 'Egypt': tzfile('Egypt'),
 'Cuba': tzfile('Cuba'),
 'Chile/Continental': tzfile('Chile/Continental'),
 'Chile/EasterIsland': tzfile('Chile/EasterIsland'),
 'Canada/Atlantic': tzfile('Canada/Atlantic'),
 'C

#### Список часовых поясов из пакета `pytz`

In [91]:
# список часовых поясов из пакета pytz

import pytz

print(f"len = {len(pytz.all_timezones)}")

pytz.all_timezones

len = 593


['Africa/Abidjan',
 'Africa/Accra',
 'Africa/Addis_Ababa',
 'Africa/Algiers',
 'Africa/Asmara',
 'Africa/Asmera',
 'Africa/Bamako',
 'Africa/Bangui',
 'Africa/Banjul',
 'Africa/Bissau',
 'Africa/Blantyre',
 'Africa/Brazzaville',
 'Africa/Bujumbura',
 'Africa/Cairo',
 'Africa/Casablanca',
 'Africa/Ceuta',
 'Africa/Conakry',
 'Africa/Dakar',
 'Africa/Dar_es_Salaam',
 'Africa/Djibouti',
 'Africa/Douala',
 'Africa/El_Aaiun',
 'Africa/Freetown',
 'Africa/Gaborone',
 'Africa/Harare',
 'Africa/Johannesburg',
 'Africa/Juba',
 'Africa/Kampala',
 'Africa/Khartoum',
 'Africa/Kigali',
 'Africa/Kinshasa',
 'Africa/Lagos',
 'Africa/Libreville',
 'Africa/Lome',
 'Africa/Luanda',
 'Africa/Lubumbashi',
 'Africa/Lusaka',
 'Africa/Malabo',
 'Africa/Maputo',
 'Africa/Maseru',
 'Africa/Mbabane',
 'Africa/Mogadishu',
 'Africa/Monrovia',
 'Africa/Nairobi',
 'Africa/Ndjamena',
 'Africa/Niamey',
 'Africa/Nouakchott',
 'Africa/Ouagadougou',
 'Africa/Porto-Novo',
 'Africa/Sao_Tome',
 'Africa/Timbuktu',
 'Africa/

#### Обзор `tz_localize`

In [92]:
import datetime

In [93]:
df_dt = pd.DataFrame({'datetime': [np.datetime64('2018-03-10 15:50'),
                                np.datetime64('2019-02-10 16:00'),
                                np.datetime64('2020-05-15 18:20')]})
df_dt

Unnamed: 0,datetime
0,2018-03-10 15:50:00
1,2019-02-10 16:00:00
2,2020-05-15 18:20:00


In [94]:
df_dt.datetime

0   2018-03-10 15:50:00
1   2019-02-10 16:00:00
2   2020-05-15 18:20:00
Name: datetime, dtype: datetime64[ns]

In [95]:
# TypeError: index is not a valid DatetimeIndex or PeriodIndex
# df_dt.datetime.tz_localize("UTC")

In [96]:
df_dt.datetime.dt

<pandas.core.indexes.accessors.DatetimeProperties object at 0x7f65de00a4f0>

In [97]:
df_dt.datetime = df_dt.datetime.dt.tz_localize("UTC")
df_dt

Unnamed: 0,datetime
0,2018-03-10 15:50:00+00:00
1,2019-02-10 16:00:00+00:00
2,2020-05-15 18:20:00+00:00


In [98]:
df_dt.datetime = df_dt.datetime.dt.tz_convert("Africa/Cairo")
df_dt

Unnamed: 0,datetime
0,2018-03-10 17:50:00+02:00
1,2019-02-10 18:00:00+02:00
2,2020-05-15 20:20:00+02:00


In [99]:
dti = pd.to_datetime(["1/1/2018",
                      np.datetime64("2018-01-01"), 
                      datetime.datetime(2018, 1, 1)])
dti

DatetimeIndex(['2018-01-01', '2018-01-01', '2018-01-01'], dtype='datetime64[ns]', freq=None)

In [100]:
dti = pd.date_range("2018-01-01", 
                    periods=3, 
                    freq="H")

dti

DatetimeIndex(['2018-01-01 00:00:00', '2018-01-01 01:00:00',
               '2018-01-01 02:00:00'],
              dtype='datetime64[ns]', freq='H')

In [101]:
# управление и преобразование даты и времени 
# с информацией о часовом поясе
dti.tz_localize("UTC")

DatetimeIndex(['2018-01-01 00:00:00+00:00', '2018-01-01 01:00:00+00:00',
               '2018-01-01 02:00:00+00:00'],
              dtype='datetime64[ns, UTC]', freq='H')

In [102]:
# конвертировать часовой пояс
dti.tz_localize('UTC').tz_convert("US/Pacific")

DatetimeIndex(['2017-12-31 16:00:00-08:00', '2017-12-31 17:00:00-08:00',
               '2017-12-31 18:00:00-08:00'],
              dtype='datetime64[ns, US/Pacific]', freq='H')

#### Нулевые даты

`pandas` представляет нулевые даты и временные интервалы как `NaT,` что полезно для представления отсутствующих или нулевых значений даты, таких как значения, и ведет себя так же, как `np.nan` для данных с плавающей запятой.

In [103]:
pd.Timestamp(pd.NaT)

NaT

In [104]:
pd.Timedelta(pd.NaT)

NaT

In [105]:
# равенство действует так же, как np.nan
pd.NaT == pd.NaT

False

#### Арифметические операции с `Timestamp`

In [106]:
friday = pd.Timestamp("2018-01-05")

friday.day_name()

'Friday'

In [107]:
# добавить 1 день
saturday = friday + pd.Timedelta("1 day")

saturday.day_name()

'Saturday'

In [108]:
# добавить 1 день и 25 часов
saturday = friday + pd.Timedelta("1 day 25 hours")

saturday.day_name()

'Sunday'

In [109]:
# добавить 1 "бизнес" (рабочий) день
monday = friday + pd.offsets.BDay()

monday.day_name()

'Monday'

### [Представление промежутка времени (Time span representation)](https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#timeseries-periods)

#### Вид данных

Период представляет собой промежуток времени (например, день, месяц, квартал и т.д.). 

Можно указать диапазон с помощью ключевого слова `freq`.

Поскольку `freq` представляет собой интервал периода, он не может быть отрицательным, например `"-3D"`.

Постоянные интервалы времени представлены объектами `Period` в `pandas`, в то время как последовательности объектов `Period` собираются в `PeriodIndex`, который можно создать с помощью удобной функции `period_range`.

Данные с отметками времени (`Timestamp`) - это самый основной тип данных временных рядов, который связывает значения с моментами времени.

Для объектов `pandas` это означает использование точек во времени.

Однако во многих случаях более естественно связать такие вещи, как изменения переменных, с промежутком времени (time span / `Period`). Диапазон, представленный `Period` может быть указан явно или выведен из формата строки datetime.

#### Обзор `Period`

In [110]:
pd.Timestamp(datetime.datetime(2012, 5, 1))

Timestamp('2012-05-01 00:00:00')

In [111]:
pd.Period("2011-01")

Period('2011-01', 'M')

In [112]:
pd.Period("2012-05", freq="D")

Period('2012-05-01', 'D')

Отметка времени и период могут служить индексом.

Списки `Timestamp` и `Period` автоматически приводятся к `DatetimeIndex` и `PeriodIndex` соответственно.

Под капотом `pandas` представляет временные метки, используя экземпляры `Timestamp`, и последовательности временных меток, используя экземпляры `DatetimeIndex`.

Для регулярных интервалов времени `pandas` использует объекты `Period` для скалярных значений и `PeriodIndex` для последовательностей интервалов.

In [113]:
dates = [pd.Timestamp("2012-05-01"),
         pd.Timestamp("2012-05-02"),
         pd.Timestamp("2012-05-03"),]

ts = pd.Series(np.random.randn(3), dates)
ts

2012-05-01   -0.740278
2012-05-02   -0.142278
2012-05-03    0.103097
dtype: float64

In [114]:
type(ts.index)

pandas.core.indexes.datetimes.DatetimeIndex

In [115]:
dates_df = pd.DataFrame({"dates": dates})
dates_df

Unnamed: 0,dates
0,2012-05-01
1,2012-05-02
2,2012-05-03


In [116]:
dates_df.dates

0   2012-05-01
1   2012-05-02
2   2012-05-03
Name: dates, dtype: datetime64[ns]

In [117]:
# изменить тип столбца dates datetime64 -> period[D]
dates_df.dates.dt.to_period("D")

0    2012-05-01
1    2012-05-02
2    2012-05-03
Name: dates, dtype: period[D]

In [118]:
periods = [pd.Period("2012-01"), 
           pd.Period("2012-02"), 
           pd.Period("2012-03")]

ts = pd.Series(np.random.randn(3), periods)
ts

2012-01    0.333376
2012-02   -0.405300
2012-03   -0.680346
Freq: M, dtype: float64

In [119]:
type(ts.index)

pandas.core.indexes.period.PeriodIndex

In [120]:
ts.index

PeriodIndex(['2012-01', '2012-02', '2012-03'], dtype='period[M]', freq='M')

In [121]:
idx = pd.date_range("2018-01-01", periods=5, freq="H")
ts = pd.Series(range(len(idx)), index=idx)

ts

2018-01-01 00:00:00    0
2018-01-01 01:00:00    1
2018-01-01 02:00:00    2
2018-01-01 03:00:00    3
2018-01-01 04:00:00    4
Freq: H, dtype: int64

In [122]:
ts.resample("2H").mean()

2018-01-01 00:00:00    0.5
2018-01-01 02:00:00    2.5
2018-01-01 04:00:00    4.0
Freq: 2H, dtype: float64

In [123]:
pd.Series(range(3), 
          index=pd.date_range("2000", 
                              freq="D", 
                              periods=3))

2000-01-01    0
2000-01-02    1
2000-01-03    2
Freq: D, dtype: int64

In [124]:
pd.Series(pd.date_range("2000", 
                        freq="D", 
                        periods=3))

0   2000-01-01
1   2000-01-02
2   2000-01-03
dtype: datetime64[ns]

[Псевдонимы смещения](https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#timeseries-offset-aliases)

In [125]:
pd.Series(pd.date_range("00:55", 
                        freq="min", 
                        periods=10))

0   2021-03-05 00:55:00
1   2021-03-05 00:56:00
2   2021-03-05 00:57:00
3   2021-03-05 00:58:00
4   2021-03-05 00:59:00
5   2021-03-05 01:00:00
6   2021-03-05 01:01:00
7   2021-03-05 01:02:00
8   2021-03-05 01:03:00
9   2021-03-05 01:04:00
dtype: datetime64[ns]

In [126]:
pd.Series(pd.period_range("1/1/2011", 
                          freq="M", 
                          periods=3))

0    2011-01
1    2011-02
2    2011-03
dtype: period[M]

In [127]:
pd.Series([pd.DateOffset(1), 
           pd.DateOffset(2)])

0         <DateOffset>
1    <2 * DateOffsets>
dtype: object

In [128]:
pd.Series(pd.date_range("1/1/2011", 
                        freq="M", 
                        periods=3))

0   2011-01-31
1   2011-02-28
2   2011-03-31
dtype: datetime64[ns]

#### Нулевые промежутки времени

In [129]:
pd.Period(pd.NaT)

NaT

#### Арифметические операции с `Period`

Добавление и вычитание целых чисел из периодов сдвигает период на его собственную частоту.

Арифметические операции не разрешены между периодами с разной частотой (диапазоном).

In [130]:
p = pd.Period("2012", freq="A-DEC")
p

Period('2012', 'A-DEC')

In [131]:
p + 1

Period('2013', 'A-DEC')

In [132]:
p = pd.Period("2012-1-1 19:00", freq="H")
p

Period('2012-01-01 19:00', 'H')

In [133]:
# добавить 3 часа к каждому элементу
p + 3

Period('2012-01-01 22:00', 'H')

К `Period` могут быть добавлены смещения и timedelta-подобные, если результат может иметь ту же частоту. В противном случае возникнет ошибка ValueError.

In [134]:
p = pd.Period("2014-07-01 09:00", 
              freq="H")
p

Period('2014-07-01 09:00', 'H')

In [135]:
p + pd.offsets.Hour(2)

Period('2014-07-01 11:00', 'H')

In [136]:
# обавить timedelta равную 120 минут к каждому элементу 
p + datetime.timedelta(minutes=120)

Period('2014-07-01 11:00', 'H')

### [Обнуляемый целочисленный тип данных (Nullable integer data type)](https://pandas.pydata.org/pandas-docs/stable/user_guide/integer_na.html#integer-na)

#### Вид данных

`pandas` в основном использует `NaN` для представления отсутствующих данных.

Поскольку `NaN` является `float`, это заставляет массив целых чисел (`int`) с любыми пропущенными значениями стать `float`.

В некоторых случаях это может не иметь большого значения.

Но если целочисленный столбец является, например, идентификатором, приведение к типу `float` может быть проблематичным. 

Некоторые целые числа даже нельзя представить как числа с плавающей запятой.

#### Создание

`pandas` может представлять целочисленные данные с пропущенными значениями используя `pandas.arrays.IntegerArray`.

In [137]:
pd.array([1, 2, None], 
         dtype=pd.Int64Dtype())

<IntegerArray>
[1, 2, <NA>]
Length: 3, dtype: Int64

Или ипользуя строковый псевдоним `"Int64"` (обратите внимание на заглавную "I", это необходимо для различия с `int64` в `NumPy`).

In [138]:
pd.array([1, 2, np.nan], 
         dtype="Int64")

<IntegerArray>
[1, 2, <NA>]
Length: 3, dtype: Int64

Все значения типа `NA` заменяются на `pandas.NA`.

*NA (not available)

In [139]:
arr = pd.array([1, 2, np.nan, None, pd.NA], 
               dtype="Int64")

arr

<IntegerArray>
[1, 2, <NA>, <NA>, <NA>]
Length: 5, dtype: Int64

Этот массив может храниться в `DataFrame` или `Series`, как любой массив `NumPy`.

In [140]:
pd.Series(arr)

0       1
1       2
2    <NA>
3    <NA>
4    <NA>
dtype: Int64

#### Операции

Операции с целочисленным массивом будут вести себя аналогично массивам `NumPy`.

Отсутствующие значения будут переданы (propagated), а данные будут при необходимости переведены в другой `dtype`.

In [141]:
s = pd.Series([1, 2, None], 
              dtype="Int64")
s

0       1
1       2
2    <NA>
dtype: Int64

In [142]:
# арифметика
s + 1

0       2
1       3
2    <NA>
dtype: Int64

In [143]:
# сравнение
s == 1

0     True
1    False
2     <NA>
dtype: boolean

In [144]:
# индексирование
s.iloc[1:3]

1       2
2    <NA>
dtype: Int64

In [145]:
# операции с другими типами данных
s + s.iloc[1:3].astype("Int8")

0    <NA>
1       4
2    <NA>
dtype: Int64

In [146]:
# приведение при необходимости
s + 0.01

0    1.01
1    2.01
2    <NA>
dtype: Float64

In [147]:
# при создании dataframe возможно явное указание типов
df = pd.DataFrame({"A": pd.Series(s, dtype="Int64"), 
                   "B": pd.Series([1, 1, 3], dtype="float32"),
                   "C": pd.Series(list("aab"), dtype="string")})
df

Unnamed: 0,A,B,C
0,1.0,1.0,a
1,2.0,1.0,a
2,,3.0,b


In [148]:
df.dtypes

A      Int64
B    float32
C     string
dtype: object

Эти `dtypes` могут работать как часть `DataFrame`.

In [149]:
df = pd.DataFrame({"A": s, 
                   "B": [1, 1, 3], 
                   "C": list("aab")})
df

Unnamed: 0,A,B,C
0,1.0,1,a
1,2.0,1,a
2,,3,b


In [150]:
df.dtypes

A     Int64
B     int64
C    object
dtype: object

In [151]:
df.A = df.A.astype("object")
df

Unnamed: 0,A,B,C
0,1.0,1,a
1,2.0,1,a
2,,3,b


In [152]:
df.C = df.C.astype("string")
df

Unnamed: 0,A,B,C
0,1.0,1,a
1,2.0,1,a
2,,3,b


In [153]:
df.dtypes

A    object
B     int64
C    string
dtype: object

In [154]:
df.A = df.A.astype("Int64")

Эти `dtypes` можно объединять, изменять и преобразовывать.

In [155]:
pd.concat([df[["A"]], 
           df[["B", "C"]]], 
          axis=1).dtypes

A     Int64
B     int64
C    string
dtype: object

In [156]:
df["A"].astype(float)

0    1.0
1    2.0
2    NaN
Name: A, dtype: float64

Также работают операции сокращения и группировки, такие как `sum()`.

In [157]:
df.sum()

A    3
B    5
dtype: int64

In [158]:
df.groupby("B").A.sum()

B
1    3
3    0
Name: A, dtype: Int64

#### Скалярное значение `NA`

`array.IntegerArray` использует `pandas.NA` в качестве пропущенного скалярного значения.

Срез одного отсутствующего элемента вернет `pandas.NA`.

In [159]:
a = pd.array([1, None],
             dtype="Int64")
a

<IntegerArray>
[1, <NA>]
Length: 2, dtype: Int64

In [160]:
a[1]

<NA>

### [Обнуляемый логический тип данных (Nullable Boolean / Boolean data with missing values)](https://pandas.pydata.org/pandas-docs/stable/user_guide/boolean.html)

#### Вид данных

`pandas` позволяет индексировать значения `NA` в логическом массиве, которые обрабатываются как `False`.

Логический тип `dtype` (с псевдонимом `boolean`) обеспечивает поддержку для хранения логических данных (значения `True`, `False`) с пропущенными значениями, что невозможно с логическим значением `numpy.ndarray`.

#### Обзор обнуляемого логического типа данных

In [161]:
pd.array([True, False, None], 
        dtype="boolean")

<BooleanArray>
[True, False, <NA>]
Length: 3, dtype: boolean

In [162]:
mask = pd.array([True, False, pd.NA], 
                dtype="boolean")
mask

<BooleanArray>
[True, False, <NA>]
Length: 3, dtype: boolean

In [163]:
s = pd.Series([1, 2, 3])
s[mask]

0    1
dtype: int64

Можно сохранить значения `NA` и вручную заполнить их с помощью `fillna(True)`.

In [164]:
s[mask.fillna(True)]

0    1
2    3
dtype: int64

#### Троичная / Трёхзначная логика (Логика Клини)

`arrays.BooleanArray` реализует **Kleene Logic (Логика Клини) (иногда называемую трехзначной логикой)** для логических операций: `&` (`and`), `|` (`or`) и `^` (`xor`).

**Таблица истинности** — таблица, описывающая логическую функцию.

Под **"логической функцией"** в данном случае понимается функция, у которой значения переменных (параметров функции) и значение самой функции выражают логическую истинность.

Например, в двузначной логике они могут принимать значения "истина" либо "ложь" (`true` либо `false`, `1` либо `0`).

Перечень значений **нечёткой трёхзначной логики** с двумя чёткими и с одним нечётким значением помимо "истинно" и "ложно" включает также третье значение, которое нечётко и трактуется как "не определено" или "неизвестно".

Таблицы истинности для логических операций **"Сильной логики неопределённости" (strong logic of indeterminacy)** Стивена Клини.

Логика имеет три логических значения — "ложь", "неопределённость" и "истина", которые в логике Клини обозначаются буквами F (false), U (unknown), T (true), а в логике Приста числами -1, 0 и 1.

В этой таблице показаны результаты для каждой комбинации. Эти операции симметричны, поэтому переворачивание левой и правой стороны не влияет на результат.

In [165]:
nullable_bool_html = "https://pandas.pydata.org/pandas-docs/stable/user_guide/boolean.html"

kleene_logical_operations = pd.read_html(nullable_bool_html)
kleene_logical_operations[0]

Unnamed: 0,Expression,Result
0,True & True,True
1,True & False,False
2,True & NA,
3,False & False,False
4,False & NA,False
5,NA & NA,
6,True | True,True
7,True | False,True
8,True | NA,True
9,False | False,False


Когда в операции присутствует `NA`, выходным значением является `NA`, только если результат не может быть определен исключительно на основе другого ввода.

Например, `True | NA` - `True`, потому что оба `True | True` и `True | False` верна. В этом случае фактически не нужно учитывать ценность `NA`.

С другой стороны, `True & NA` - это `NA`. Результат зависит от того, действительно ли `NA` имеет значение `True` или `False`, поскольку `True & True `- `True`, но `True & False` - `False`, поэтому нельзя определить результат.

**Это отличается от того, как `np.nan` ведет себя в логических операциях. `pandas` обработано `np.nan` в результате всегда как `False`.**

In [166]:
pd.Series([True, False, np.nan], dtype="object") | True

0     True
1     True
2    False
dtype: bool

In [167]:
pd.Series([True, False, np.nan], dtype="boolean") | True

0    True
1    True
2    True
dtype: boolean

In [168]:
pd.Series([True, False, np.nan], dtype="object") & True

0     True
1    False
2    False
dtype: bool

In [169]:
pd.Series([True, False, np.nan], dtype="boolean") & True

0     True
1    False
2     <NA>
dtype: boolean

### [Текстовые типы данных (Text data types)](https://pandas.pydata.org/pandas-docs/stable/user_guide/text.html)

С версии 1.0.0.

#### Вид данных

Есть два способа хранить текстовые данные в `pandas`: 
- `object` - тип данных`NumPy`.
- `StringDtype` - тип данных `pandas`.


`pandas` рекомендует использовать `StringDtype` для хранения текстовых данных.


Почему `object` хуже `StringDtype`?
- Можно случайно сохранить смесь строк и не строк в массиве типа `object`. Лучше иметь специальный тип данных.
- Тип `object` нарушает специфичные для типа данных операции, такие как `DataFrame.select_dtypes()`. Нет четкого способа выделить только текст, исключая нетекстовые столбцы, но типа `object`.
- При чтении кода содержимое массива типа `object` менее ясно, чем `string`.
- В настоящее время производительность типа массив`object` и `arrays.StringArray` примерно одинакова. Ведутся разработкидля повышения производительности и снижению накладных расходов на память.

#### Обзор строкового типа данных

In [170]:
# для обратной совместимости object остается типом по умолчанию
pd.Series(["a", "b", "c"])

0    a
1    b
2    c
dtype: object

In [171]:
# необходимо явно указать тип string
pd.Series(["a", "b", "c"], 
          dtype="string")

0    a
1    b
2    c
dtype: string

ИЛИ

In [172]:
# необходимо явно указать тип pd.StringDtype
pd.Series(["a", "b", "c"], 
          dtype=pd.StringDtype())

0    a
1    b
2    c
dtype: string

In [173]:
s = pd.Series(["a", "b", "c"])
s

0    a
1    b
2    c
dtype: object

In [174]:
# можно использовать astype после создания Series или DataFrame
s.astype("string")

0    a
1    b
2    c
dtype: string

Можно использовать `StringDtype`/`"string"` в качестве dtype для нестроковых данных при создании, и данные будут преобразованы в строку:

In [175]:
# преобразовать разлимные типы данных в серии в строку
s = pd.Series(["a", 2, np.nan], 
              dtype="string")
s

0       a
1       2
2    <NA>
dtype: string

Можно использовать `StringDtype`/`"string"` в качестве dtype для преобразования существующих нестроковых данных с помощью `astype`:

In [176]:
s1 = pd.Series([1, 2, np.nan], dtype="Int64")
s1

0       1
1       2
2    <NA>
dtype: Int64

In [177]:
s2 = s1.astype("string")
s2

0       1
1       2
2    <NA>
dtype: string

#### Отличия типа `StringDtype` от типа `object`

- Для `StringDtype` методы, которые возвращают *числовой* вывод, всегда будут возвращать *обнуляемый целочисленный (nullable integer)* dtype, а не `int` или `float` dtype, в зависимости от наличия значений `NA`.

- Методы, возвращающие *логический* вывод, будут возвращать логический тип с пропущенными значениями (*nullable boolean*).

In [178]:
# используется тип string
s = pd.Series(["a", None, "b"], 
              dtype="string")
s

0       a
1    <NA>
2       b
dtype: string

In [179]:
# Int64 - это nullable integer (в отличии от int64)
s.str.count("a")

0       1
1    <NA>
2       0
dtype: Int64

In [180]:
s.dropna().str.count("a")

0    1
2    0
dtype: Int64

In [181]:
s.str.isdigit()

0    False
1     <NA>
2    False
dtype: boolean

In [182]:
s.str.match("a")

0     True
1     <NA>
2    False
dtype: boolean

In [183]:
# используется тип object
s2 = pd.Series(["a", None, "b"],
               dtype="object")
s2

0       a
1    None
2       b
dtype: object

Когда присутствуют значения `NA`, выходной `dtype` будет `float64`.

In [184]:
# float64 - это обычный numpy.float64
s2.str.count("a")

0    1.0
1    NaN
2    0.0
dtype: float64

In [185]:
# int64 - это обычный numpy.int64
s2.dropna().str.count("a")

0    1
2    0
dtype: int64

In [186]:
s2.str.isdigit()

0    False
1     None
2    False
dtype: object

In [187]:
s2.str.match("a")

0     True
1     None
2    False
dtype: object

- Некоторые строковые методы, такие как `Series.str.decode()`, недоступны в `StringArray`, потому что `StringArray` содержит только строки, а не байты.

- В операциях сравнения `arrays.StringArray` и `Series` типа `StringArray`, будут возвращать объект с `BooleanDtype`, а не объект типа `bool`. Отсутствующие значения в `StringArray` будут передаваться в операциях сравнения, а не всегда при сравнении неравных значений, таких как `numpy.nan`.