# Пакеты `pandas` и `numpy`: типы данных


---

**Источники:**


[what are all the dtypes that pandas recognizes?](https://stackoverflow.com/questions/29245848/what-are-all-the-dtypes-that-pandas-recognizes)

[numpy.dtype](https://numpy.org/doc/stable/reference/generated/numpy.dtype.html#numpy.dtype)

[Data types](https://numpy.org/doc/stable/user/basics.types.html)

[Data type objects (dtype)](https://numpy.org/doc/stable/reference/arrays.dtypes.html#arrays-dtypes)

[Scalars](https://docs.scipy.org/doc/numpy-1.13.0/reference/arrays.scalars.html)

[Categorical data](https://pandas.pydata.org/pandas-docs/stable/user_guide/categorical.html)

[Essential basic functionality](https://pandas.pydata.org/pandas-docs/stable/user_guide/basics.html)

[Extension types](https://pandas.pydata.org/pandas-docs/stable/development/extending.html#extending-extension-types)

---

## Подготовка окружения

In [None]:
# ВНИМАНИЕ: необходимо удостовериться, что виртуальная среда выбрана правильно!

!pip -V

In [None]:
# !conda install pandas numpy lxml -y

In [None]:
import numpy as np

np.__version__

In [None]:
import pandas as pd

pd.__version__

## Обзор типов данных

**`Pandas` в основном использует массивы и типы `NumPy`** для каждой серии (фрейм данных - это набор серий, каждая из которых может иметь свой собственный `dtype`).

Документация `NumPy` дополнительно объясняет [`dtype`](https://numpy.org/doc/stable/reference/generated/numpy.dtype.html#numpy.dtype), [`Data types`](https://numpy.org/doc/stable/user/basics.types.html) и [`Data type objects (dtype)`](https://numpy.org/doc/stable/reference/arrays.dtypes.html#arrays-dtypes).


In [None]:
df = pd.DataFrame({'A': [1, 'C', 2.]})

df

In [None]:
df['A']

In [None]:
df['A'].dtype

In [None]:
type(df['A'].dtype)

По умолчанию `int` - это `int64`, а `float` - `float64`, НЕЗАВИСИМО от платформы (32-разрядная или 64-разрядная).

In [None]:
pd.DataFrame([1, 2], columns=["a"]).dtypes

In [None]:
pd.DataFrame({"a": [1, 2]}).dtypes

In [None]:
pd.DataFrame({"a": 1}, index=list(range(2))).dtypes

`Numpy`, однако, выберет платформо-зависимые типы *при создании массивов*. Следующее будет результатом int32 на 32-битной платформе.

In [None]:
pd.DataFrame(np.array([1, 2])).dtypes

Одним из основных изменений в версии 1.0.0 `pandas` является введение `pd.NA` для представления скалярных пропущенных значений (а не предыдущих значений `np.nan`, `pd.NaT` или `None`, в зависимости от использования).

## Пакет `numpy`: типы данных


`Python` определяет только один тип определенного класса данных (существует только один целочисленный тип, один тип с плавающей запятой и т.д.).

Это может быть удобно в приложениях, которым не нужно заботиться обо всех способах представления данных на компьютере.

Однако для научных вычислений часто требуется больше контроля.


В `NumPy` есть `24` фундаментальных типа `Python` для описания различных типов скаляров.

Эти типы в основном основаны на типах, доступных в языке `C`, на котором написан `CPython`, с несколькими дополнительными типами, совместимыми с типами `Python`.

Хотя скаляры массива неизменяемы (immutable), поэтому ни один из скалярных атрибутов массива не может быть установлен.

### Список типов `NumPy`

<img src="images/dtype_hierarchy.png"/>

In [None]:
def subdtypes(dtype):
    subs = dtype.__subclasses__()
    if not subs:
        return dtype
    return [dtype, [subdtypes(dt) for dt in subs]]

subdtypes(np.generic)

In [None]:
np.float32(1.0)

In [None]:
np.int_([1,2,4])

In [None]:
z = np.arange(3, dtype=np.uint8)
z

Чтобы преобразовать тип **массива**, используйте метод `.astype()` (предпочтительно) или сам тип как функцию.

In [None]:
# предпочтительно
z = z.astype(np.float_)  
z

In [None]:
z.dtype

In [None]:
z = np.complex_(z)
z

In [None]:
z.dtype

In [None]:
d = np.dtype(int)
d

In [None]:
np.issubdtype(d, np.integer)

In [None]:
np.issubdtype(d, np.floating)

### [Ошибки переполнения (Overflow Errors)](https://numpy.org/doc/stable/user/basics.types.html#overflow-errors)

Поведение целочисленных типов `NumPy` и `Python` значительно отличается для целочисленных переполнений и может сбить с толку пользователей, ожидающих, что целые числа `NumPy` будут вести себя так же, как `int` в `Python`.

В отличие от `NumPy`, размер `int` в `Python` является гибким. Это означает, что **целые числа `Python` могут расширяться для размещения любого целого числа и не будут переполняться**.

**Фиксированный размер числовых типов `NumPy` может вызвать ошибки переполнения**, когда значение требует больше памяти, чем доступно в типе данных.

`NumPy` предоставляет `numpy.iinfo` и `numpy.finfo` для проверки минимального или максимального значений целых чисел и значений с плавающей запятой `NumPy` соответственно.

In [None]:
np.iinfo(int)

In [None]:
np.iinfo(np.int64)

In [None]:
np.iinfo(np.int32)

In [None]:
np.iinfo(np.int16)

In [None]:
np.iinfo(np.int8)

In [None]:
np.int8(127)

In [None]:
np.int8(128)

In [None]:
np.int8(-128)

In [None]:
np.int8(-129)

In [None]:
np.power(100, 8, dtype=np.int64)

In [None]:
np.power(100, 8, dtype=np.int32)

In [None]:
np.power(100, 100, dtype=np.int64)

In [None]:
np.power(100, 100, dtype=np.float64)

In [None]:
# TODO: 1e+num

## Пакет `Pandas`: типы данных

По большей части `pandas` использует массивы и типы `NumPy` для серий или отдельных столбцов `DataFrame`. 

`NumPy` обеспечивает поддержку `float`, `int`, `bool`, `timedelta64[ns]` и `datetime64[ns]` (обратите внимание, что `NumPy` не поддерживает дату и время с учетом часового пояса).

`pandas` и сторонние (third-party) библиотеки расширяют систему типов `NumPy` в нескольких местах.

В этом разделе описываются внутренние расширения `pandas`.

В следующей таблице перечислены все типы расширений `pandas`.

In [None]:
htmp_basic_info = 'https://pandas.pydata.org/pandas-docs/stable/user_guide/basics.html#basics-dtypes'
basic_info_tables = pd.read_html(htmp_basic_info)

for index, table in enumerate(basic_info_tables):
    print(f"index = {index}")
    display(table)

In [None]:
pandas_types_df = basic_info_tables[3]

pandas_types_df

### [Категориальные данные (Categorical data)](https://pandas.pydata.org/pandas-docs/stable/user_guide/categorical.html#categorical)

#### Вид данных

Категории - это тип данных, соответствующий категориальным переменным в статистике. 

Категориальная переменная принимает ограниченное и обычно фиксированное количество возможных значений.

Примеры: пол, социальный класс, группа крови, принадлежность к стране, язык.

В отличие от статистических категориальных переменных, категориальные данные *могут иметь порядок* (например, "полностью согласен" и "согласен" или "первое наблюдение" и "второго наблюдения"), но числовые операции (добавления, деления и т.д.) невозможны.

Все значения категориальных данных либо `categories`, либо `np.nan`.

Порядок определяется порядком `categories`, а не лексическим порядком значений.

Структура данных состоит из массива `categories` и целочисленного массива `codes`, которые указывают на реальное значение в массиве категорий.

#### Применение категориального типа данных

##### Использование памяти (Memory usage)

Строковая переменная, состоящая всего из нескольких разных значений. Преобразование такой строковой переменной в категориальную позволяет сэкономить память.

In [None]:
# использование памяти категориальным элементом 
# пропорционально количеству категорий плюс длина данных,
# объект dtype - это константа, умноженная на длину данных
s = pd.Series(["foo", "bar"] * 1000)
display(s)

print("\nunique count =", 
      s.nunique())

print("\nobject dtype =", 
      s.nbytes)

print("\ncategory dtype =", 
      s.astype("category").nbytes)

In [None]:
# если количество категорий приближается к длине данных, 
# категориальный будет использовать почти столько же 
# или больше памяти, чем эквивалентное представление dtype объекта
s = pd.Series(["foo%04d" % i for i in range(2000)])
display(s)

print("\nunique count =", s.nunique())

print("\nobject dtype =", s.nbytes)

print("\ncategory dtype =", s.astype("category").nbytes)

##### Сортировка и порядок (Sorting and order)

Лексический порядок переменной отличается от логического порядка ("один", "два", "три"). При преобразовании в категориальный тип и указании порядка в категориях, сортировка и мин/макс будут использовать логический порядок вместо лексического.

Если категориальные данные упорядочены (`ordered == True`), то порядок категорий имеет значение и возможны определенные операции. Если категориальные данные неупорядочены, методы `min()`/`max()` вызовут `TypeError`.

In [None]:
s = pd.Series(pd.Categorical(["a", "b", "c", "a"], 
                             ordered=False))
s

In [None]:
s.sort_values(inplace=True)
s

In [None]:
try:
    print(f"min = {s.min()}\nmax = {s.max()}")
except TypeError as te:
    print(f"Exeption!\n{te.with_traceback}")

In [None]:
from pandas.api.types import CategoricalDtype

s = pd.Series(["a", "b", "c", "a"]).astype(CategoricalDtype(ordered=True))
s

In [None]:
s.sort_values(inplace=True)
s

In [None]:
print(f"min = {s.min()}\nmax = {s.max()}")

Можно установить признак категориальных данных, которые будут упорядочены с помощью `as_ordered()` или неупорядочены с помощью `as_unordered()`. По умолчанию они вернут новый объект.

In [None]:
s.cat.as_ordered()

In [None]:
s.cat.as_unordered()

При сортировке будет использоваться порядок, определенный категориями, а не какой-либо лексический порядок, присутствующий в типе данных. Это верно даже для строк и числовых данных.

In [None]:
s = pd.Series([1, 2, 3, 1], 
              dtype="category")
s

In [None]:
# установить порядок для категорий
s = s.cat.set_categories([2, 3, 1], 
                         ordered=True)
s

In [None]:
s.sort_values(inplace=True)
s

In [None]:
print(f"min = {s.min()}\nmax = {s.max()}")

##### Другие библиотеки `Python`

Как сигнал другим библиотекам `Python` о том, что этот столбец следует рассматривать как категориальную переменную (например, для использования подходящих статистических методов или типов графиков).

### [Обработка часовых поясов (Time zone handling)](https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#timeseries-timezone)

#### Вид данных

Дата и время с учетом часового пояса (`tz`) (обратите внимание, что `NumPy` не поддерживает дату и время с учетом часовых поясов).

`pandas` предоставляет хорошую поддержку работы с отметками времен (timestamps) и в разных часовых поясах с использованием библиотек `pytz` и `dateutil` или объектов `datetime.timezone` из стандартной библиотеки.

`pandas` содержит обширные возможности и функции для работы с данными временных рядов для всех областей. 

Используя `datetime64` и `timedelta64` `NumPy`, `pandas` объединил большое количество функций из других библиотек `Python`, таких как `scikits.timeseries`, а также создал огромное количество новых функций для управления данными временных рядов.

Благодаря этому возможет анализ информации временных рядов из различных источников и форматов.

`pandas` объединяет 4 общие концепции, связанные со временем:
- Дата и время: определенная дата и время с поддержкой часового пояса. Аналогично `datetime.datetime` из стандартной библиотеки.
- Дельты времени: абсолютная продолжительность времени. Аналогично `datetime.timedelta` из стандартной библиотеки.
- Интервалы времени: интервал времени, определяемый моментом времени и связанной с ним частотой.
- Смещения даты: относительная продолжительность времени, учитывающая календарную арифметику. Аналогично `dateutil.relativedelta.relativedelta` из пакета `dateutil`.

#### Список часовых поясов из пакета `dateutil`

In [None]:
from dateutil.zoneinfo import get_zonefile_instance

print(f"len = {len(get_zonefile_instance().zones)}")

get_zonefile_instance().zones

#### Список часовых поясов из пакета `pytz`

In [None]:
# список часовых поясов из пакета pytz

import pytz

print(f"len = {len(pytz.all_timezones)}")

pytz.all_timezones

#### Обзор `tz_localize`

In [None]:
import datetime

In [None]:
dti = pd.to_datetime(["1/1/2018",
                      np.datetime64("2018-01-01"), 
                      datetime.datetime(2018, 1, 1)])
dti

In [None]:
dti = pd.date_range("2018-01-01", 
                    periods=3, 
                    freq="H")

dti

In [None]:
# управление и преобразование даты и времени 
# с информацией о часовом поясе
dti.tz_localize("UTC")

In [None]:
dti.tz_localize("US/Pacific")

#### Нулевые даты

`pandas` представляет нулевые даты, временные интервалы и временные интервалы как `NaT,` что полезно для представления отсутствующих или нулевых значений даты, таких как значения, и ведет себя так же, как `np.nan` для данных с плавающей запятой.

In [None]:
pd.Timestamp(pd.NaT)

In [None]:
pd.Timedelta(pd.NaT)

In [None]:
# равенство действует так же, как np.nan
pd.NaT == pd.NaT

#### Арифметические операции с `Timestamp`

In [None]:
friday = pd.Timestamp("2018-01-05")

friday.day_name()

In [None]:
# добавить 1 день
saturday = friday + pd.Timedelta("1 day")

saturday.day_name()

In [None]:
# добавить 1 "бизнес" (рабочий) день
monday = friday + pd.offsets.BDay()

monday.day_name()

### [Представление промежутка времени (Time span representation)](https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#timeseries-periods)

#### Вид данных

Период представляет собой промежуток времени (например, день, месяц, квартал и т.д.). 

Можно указать диапазон с помощью ключевого слова `freq`.

Поскольку `freq` представляет собой интервал периода, он не может быть отрицательным, например `"-3D"`.

Постоянные интервалы времени представлены объектами `Period` в `pandas`, в то время как последовательности объектов `Period` собираются в `PeriodIndex`, который можно создать с помощью удобной функции `period_range`.

Данные с отметками времени (`Timestamp`) - это самый основной тип данных временных рядов, который связывает значения с моментами времени.

Для объектов `pandas` это означает использование точек во времени.

Однако во многих случаях более естественно связать такие вещи, как изменения переменных, с промежутком времени (time span / `Period`). Диапазон, представленный `Period` может быть указан явно или выведен из формата строки datetime.

#### Обзор `Period`

In [None]:
pd.Timestamp(datetime.datetime(2012, 5, 1))

In [None]:
pd.Period("2011-01")

In [None]:
pd.Period("2012-05", freq="D")

Отметка времени и период могут служить индексом.

Списки `Timestamp` и `Period` автоматически приводятся к `DatetimeIndex` и `PeriodIndex` соответственно.

Под капотом `pandas` представляет временные метки, используя экземпляры `Timestamp`, и последовательности временных меток, используя экземпляры `DatetimeIndex`.

Для регулярных интервалов времени `pandas` использует объекты `Period` для скалярных значений и `PeriodIndex` для последовательностей интервалов.

In [None]:
dates = [pd.Timestamp("2012-05-01"),
         pd.Timestamp("2012-05-02"),
         pd.Timestamp("2012-05-03"),]

ts = pd.Series(np.random.randn(3), dates)
ts

In [None]:
type(ts.index)

In [None]:
periods = [pd.Period("2012-01"), 
           pd.Period("2012-02"), 
           pd.Period("2012-03")]

ts = pd.Series(np.random.randn(3), periods)
ts

In [None]:
type(ts.index)

In [None]:
ts.index

In [None]:
idx = pd.date_range("2018-01-01", periods=5, freq="H")
ts = pd.Series(range(len(idx)), index=idx)

ts

In [None]:
ts.resample("2H").mean()

In [None]:
pd.Series(range(3), 
          index=pd.date_range("2000", 
                              freq="D", 
                              periods=3))

In [None]:
pd.Series(pd.date_range("2000", 
                        freq="D", 
                        periods=3))

In [None]:
pd.Series(pd.period_range("1/1/2011", 
                          freq="M", 
                          periods=3))

In [None]:
pd.Series([pd.DateOffset(1), 
           pd.DateOffset(2)])

In [None]:
pd.Series(pd.date_range("1/1/2011", 
                        freq="M", 
                        periods=3))

#### Нулевые промежутки времени

In [None]:
pd.Period(pd.NaT)

#### Арифметические операции с `Period`

Добавление и вычитание целых чисел из периодов сдвигает период на его собственную частоту.

Арифметические операции не разрешены между периодами с разной частотой (диапазоном).

In [None]:
p = pd.Period("2012", freq="A-DEC")
p

In [None]:
p + 1

In [None]:
p = pd.Period("2012-1-1 19:00", freq="H")
p

In [None]:
p + 3

К `Period` могут быть добавлены смещения и timedelta-подобные, если результат может иметь ту же частоту. В противном случае возникнет ошибка ValueError.

In [None]:
p = pd.Period("2014-07-01 09:00", 
              freq="H")
p

In [None]:
p + pd.offsets.Hour(2)

In [None]:
p + datetime.timedelta(minutes=120)

### [Разреженные структуры данных (Sparse data structures)](https://pandas.pydata.org/pandas-docs/stable/user_guide/sparse.html#sparse)

#### Вид данных

Различные разреженные матрицы.

Это не обязательно разреженность в типичном варианте: "в основном 0".

Скорее, можно рассматривать эти объекты как "сжатые", где любые данные, соответствующие определенному значению (`NaN` / отсутствующее значение, хотя может быть выбрано любое значение, включая `0`), опущены.

Сжатые значения фактически не хранятся в массиве.

#### Обзор `SparseArray`

In [None]:
arr = np.random.randn(10)
arr.tolist()

In [None]:
arr[2:-2] = np.nan
arr.tolist()

In [None]:
ts = pd.Series(pd.arrays.SparseArray(arr))
ts

Обратите внимание на `dtype`, `Sparse[float64, NaN]`.

`NaN` означает, что элементы в массиве, которые являются `NaN`, на самом деле не сохраняются, а хранятся только элементы, отличные от `NaN`.

Эти элементы, отличные от `NaN`, имеют тип float64 dtype.

#### Использование памяти (Memory usage)

Объекты `Sparse` существуют для повышения эффективности памяти.

Предположим, существует большой, в основном `NA` `DataFrame`. 

Плотность (% значений, которые не были "сжаты") чрезвычайно низкая.

Этот разреженный объект занимает гораздо меньше памяти на диске (`pickled`) и в интерпретаторе `Python`.

Функционально поведение `Sparse` должно быть почти идентичным их "плотным" аналогам.

In [None]:
df = pd.DataFrame(np.random.randn(10000, 4))
df.iloc[:9998] = np.nan
df

In [None]:
sdf = df.astype(pd.SparseDtype("float", np.nan))
display(sdf)

print("\nsdf.dtypes =", sdf.dtypes)

# плотность (% значений, которые не были "сжаты")
print("\nsdf.sparse.density =", sdf.sparse.density)

In [None]:
print('dense (df) : {:0.2f} bytes'
      .format(df.memory_usage().sum() / 1e3))

print('dense (sfd): {:0.2f} bytes'
      .format(df.memory_usage().sum() / 1e3))

### [Интервальный индекс (IntervalIndex)](https://pandas.pydata.org/pandas-docs/stable/user_guide/advanced.html#advanced-intervalindex)

#### Вид данных

`IntervalIndex` вместе со своим собственным `dtype` - `IntervalDtype`, а также скалярным типом `Interval` обеспечивают первоклассную поддержку `pandas` для обозначения интервалов.


`IntervalIndex` допускает некоторую уникальную индексацию, а также используется в качестве возвращаемого типа для категориального типа в методах `cut()` и `qcut()`.

#### Индексирование с помощью `IntervalIndex`

`IntervalIndex` может использоваться в `Series` и `DataFrame` в качестве индекса.

In [None]:
df = pd.DataFrame({"A": [1, 2, 3, 4]}, 
                  index=pd.IntervalIndex.from_breaks([0, 1, 2, 3, 4]))

df

In [None]:
# индексирование на основе меток через `.loc` по краям интервала
df.loc[2]

In [None]:
# индексирование на основе меток через `.loc` по краям интервала
df.loc[[2, 3]]

In [None]:
# при выборе метки в интервале это выберет интервал
df.loc[2.5]

In [None]:
# при выборе метки в интервале это выберет интервал
df.loc[[2.5, 3.5]]

In [None]:
# при использовании интервала вернет только точные совпадения
# (начиная с pandas 0.25.0)
df.loc[pd.Interval(1, 2)]

In [None]:
# при выборе Interval, который не содержится в IntervalIndex - KeyError
try:
    df.loc[pd.Interval(0.5, 2.5)]
except KeyError as ke:
    print(f"Exception!\n{ke.with_traceback}")

In [None]:
# выбор всех интервалов, которые перекрывают интервал, можно выполнить 
# с помощью метода overlaps() для создания логического индексатора
idxr = df.index.overlaps(pd.Interval(0.5, 2.5))
idxr

In [None]:
np.array([ True,  True,  True, False])
df[idxr]

#### Группировка данных с помощью `cut` и `qcut`

`cut()` и `qcut()` возвращают категориальный объект, а созданные ими ячейки сохраняются как `IntervalIndex` в его атрибуте `.categories`.

In [None]:
c = pd.cut(range(4), bins=2)
c

In [None]:
c.categories

`cut()` также принимает `IntervalIndex` в качестве аргумента `bins`, что позволяет использовать полезную идиому `pandas`. 

Сначала вызвать `cut()` с некоторыми данными и `bins`, установленным в фиксированное число, чтобы сгенерировать ячейки (`bins`). 

Затем передать значения `.categories` в качестве аргумента `bins` в последующих вызовах функции `cut()`, предоставляя новые данные, которые будут помещены в те же ячейки (`bins`).

Можно использовать `cut()`, когда нужно сегментировать и отсортировать значения данных по ячейкам.

`cut()` полезна для перехода от непрерывной переменной к категориальной.

Например, `cut()` может преобразовывать возраст в группы возрастных диапазонов.

`cut()` поддерживает разделение на равное количество ячеек или заранее заданный массив ячеек.

In [None]:
pd.cut([0, 3, 5, 1], bins=c.categories)

#### Генерация диапазонов интервалов

Если нужны интервалы с постоянной частотой, то можно использовать функцию `interval_range()` для создания `IntervalIndex`, используя различные комбинации `start`, `end` и `periods`.

Частота по умолчанию для `interval_range` - `1` для числовых интервалов и календарный день для интервалов, подобных `datetime`.

In [None]:
pd.interval_range(start=0, 
                  end=5)

In [None]:
pd.interval_range(start=pd.Timestamp("2017-01-01"), 
                  periods=4)

Параметр `freq` может использоваться для указания частот, отличных от значений по умолчанию, и может использовать различные псевдонимы частот с интервалами типа `datetime`.

In [None]:
pd.interval_range(start=0, 
                  periods=5, 
                  freq=1.5)

In [None]:
pd.interval_range(start=pd.Timestamp("2017-01-01"), 
                  periods=4, 
                  freq="W")

In [None]:
pd.interval_range(start=pd.Timedelta("0 days"), 
                  periods=3, 
                  freq="9H")

С помощью параметра `closed` можно указать, на какой стороне (сторонах) закрываются интервалы. По умолчанию интервалы закрыты с правой стороны.

In [None]:
pd.interval_range(start=0, 
                  end=4, 
                  closed="both")

In [None]:
pd.interval_range(start=0, 
                  end=4, 
                  closed="neither")

Если указать `start`, `end` и `periods`, то будет сгенерирован диапазон равномерно распределенных интервалов от начала до конца включительно, с количеством элементов `periods` в результирующем `IntervalIndex`.

In [None]:
pd.interval_range(start=0, 
                  end=6, 
                  periods=4)

In [None]:
pd.interval_range(pd.Timestamp("2018-01-01"), 
                  pd.Timestamp("2018-02-28"),
                  periods=3)

### [Обнуляемый целочисленный тип данных (Nullable integer data type)](https://pandas.pydata.org/pandas-docs/stable/user_guide/integer_na.html#integer-na)

#### Вид данных

`pandas` в основном использует `NaN` для представления отсутствующих данных.

Поскольку `NaN` является `float`, это заставляет массив целых чисел (`int`) с любыми пропущенными значениями стать `float`.

В некоторых случаях это может не иметь большого значения.

Но если целочисленный столбец является, например, идентификатором, приведение к типу `float` может быть проблематичным. 

Некоторые целые числа даже нельзя представить как числа с плавающей запятой.

#### Создание

`pandas` может представлять целочисленные данные с пропущенными значениями используя `pandas.arrays.IntegerArray`.

In [None]:
pd.array([1, 2, None], 
         dtype=pd.Int64Dtype())

Или ипользуя строковый псевдоним `"Int64"` (обратите внимание на заглавную "I", это необходимо для различия с `int64` в `NumPy`).

In [None]:
pd.array([1, 2, np.nan], 
         dtype="Int64")

Все значения типа `NA` заменяются на `pandas.NA`.

*NA (not available)

In [None]:
arr = pd.array([1, 2, np.nan, None, pd.NA], 
               dtype="Int64")

arr

Этот массив может храниться в `DataFrame` или `Series`, как любой массив `NumPy`.

In [None]:
pd.Series(arr)

#### Операции

Операции с целочисленным массивом будут вести себя аналогично массивам `NumPy`.

Отсутствующие значения будут переданы (propagated), а данные будут при необходимости переведены в другой `dtype`.

In [None]:
s = pd.Series([1, 2, None], 
              dtype="Int64")
s

In [None]:
# арифметика
s + 1

In [None]:
# сравнение
s == 1

In [None]:
# индексирование
s.iloc[1:3]

In [None]:
# операции с другими типами данных
s + s.iloc[1:3].astype("Int8")

In [None]:
# приведение при необходимости
s + 0.01

Эти `dtypes` могут работать как часть `DataFrame`.

In [None]:
df = pd.DataFrame({"A": s, "B": [1, 1, 3], "C": list("aab")})
df

In [None]:
df.dtypes

Эти `dtypes` можно объединять, изменять и преобразовывать.

In [None]:
pd.concat([df[["A"]], 
           df[["B", "C"]]], 
          axis=1).dtypes

In [None]:
df["A"].astype(float)

Также работают операции сокращения и группировки, такие как `sum()`.

In [None]:
df.sum()

In [None]:
df.groupby("B").A.sum()

#### Скалярное значение `NA`

`array.IntegerArray` использует `pandas.NA` в качестве пропущенного скалярного значения.

Срез одного отсутствующего элемента вернет `pandas.NA`.

In [None]:
a = pd.array([1, None],
             dtype="Int64")
a

In [None]:
a[1]

### [Текстовые типы данных (Text data types)](https://pandas.pydata.org/pandas-docs/stable/user_guide/text.html)

#### Вид данных

Есть два способа хранить текстовые данные в `pandas`: 
- объект `dtype` `NumPy` `array`.
- тип `StringDtype`.


`pandas` рекомендует использовать `StringDtype` для хранения текстовых данных.

### [Логические данные с пропущенными значениями (Boolean data with missing values)](https://pandas.pydata.org/pandas-docs/stable/reference/arrays.html#api-arrays-bool)

#### Вид данных

Логический тип `dtype` (с псевдонимом `boolean`) обеспечивает поддержку для хранения логических данных (значения `True`, `False`) с пропущенными значениями, что невозможно с логическим значением `numpy.ndarray`.