# Пакеты `pandas` и `numpy`: типы данных

---

**Источники:**


[what are all the dtypes that pandas recognizes?](https://stackoverflow.com/questions/29245848/what-are-all-the-dtypes-that-pandas-recognizes)

[numpy.dtype](https://numpy.org/doc/stable/reference/generated/numpy.dtype.html#numpy.dtype)

[Data types](https://numpy.org/doc/stable/user/basics.types.html)

[Data type objects (dtype)](https://numpy.org/doc/stable/reference/arrays.dtypes.html#arrays-dtypes)

[Scalars](https://docs.scipy.org/doc/numpy-1.13.0/reference/arrays.scalars.html)

[Categorical data](https://pandas.pydata.org/pandas-docs/stable/user_guide/categorical.html)

[Essential basic functionality](https://pandas.pydata.org/pandas-docs/stable/user_guide/basics.html)

[Extension types](https://pandas.pydata.org/pandas-docs/stable/development/extending.html#extending-extension-types)

---

## Подготовка окружения

In [1]:
# ВНИМАНИЕ: необходимо удостовериться, что виртуальная среда выбрана правильно!

!pip -V

pip 20.3 from /home/ira/anaconda3/envs/LevelUp_DataScience/lib/python3.8/site-packages/pip (python 3.8)


In [2]:
# !conda install pandas numpy -y

In [3]:
import numpy as np

np.__version__

'1.19.2'

In [4]:
import pandas as pd

pd.__version__

'1.2.1'

## Обзор типов данных

**`Pandas` в основном использует массивы и типы `NumPy`** для каждой серии (фрейм данных - это набор серий, каждая из которых может иметь свой собственный `dtype`).

Документация NumPy дополнительно объясняет `dtype`, `Data types` и `Data type objects (dtype)`.


In [5]:
df = pd.DataFrame({'A': 
                   [1, 'C', 2.]})

df

Unnamed: 0,A
0,1
1,C
2,2.0


In [6]:
df['A'].dtype

dtype('O')

In [7]:
type(df['A'].dtype)

numpy.dtype

По умолчанию `int` - это `int64`, а `float` - float64, НЕЗАВИСИМО от платформы (32-разрядная или 64-разрядная).

In [8]:
pd.DataFrame([1, 2], columns=["a"]).dtypes

a    int64
dtype: object

In [9]:
pd.DataFrame({"a": [1, 2]}).dtypes

a    int64
dtype: object

In [10]:
pd.DataFrame({"a": 1}, index=list(range(2))).dtypes

a    int64
dtype: object

`Numpy`, однако, выберет платформо-зависимые типы *при создании массивов*. Следующее будет результатом int32 на 32-битной платформе.

In [11]:
pd.DataFrame(np.array([1, 2])).dtypes

0    int64
dtype: object

Одним из основных изменений в версии 1.0.0 pandas является введение `pd.NA` для представления скалярных пропущенных значений (а не предыдущих значений `np.nan`, `pd.NaT` или `None`, в зависимости от использования).

## Пакет `numpy`: типы данных

In [12]:
def subdtypes(dtype):
    subs = dtype.__subclasses__()
    if not subs:
        return dtype
    return [dtype, [subdtypes(dt) for dt in subs]]

subdtypes(np.generic)

[numpy.generic,
 [[numpy.number,
   [[numpy.integer,
     [[numpy.signedinteger,
       [numpy.int8,
        numpy.int16,
        numpy.int32,
        numpy.int64,
        numpy.longlong,
        numpy.timedelta64]],
      [numpy.unsignedinteger,
       [numpy.uint8,
        numpy.uint16,
        numpy.uint32,
        numpy.uint64,
        numpy.ulonglong]]]],
    [numpy.inexact,
     [[numpy.floating,
       [numpy.float16, numpy.float32, numpy.float64, numpy.float128]],
      [numpy.complexfloating,
       [numpy.complex64, numpy.complex128, numpy.complex256]]]]]],
  [numpy.flexible,
   [[numpy.character, [numpy.bytes_, numpy.str_]],
    [numpy.void, [numpy.record]]]],
  numpy.bool_,
  numpy.datetime64,
  numpy.object_]]

<img src="images/dtype_hierarchy.png"/>


## Пакет `Pandas`: типы данных

По большей части `pandas` использует массивы и типы `NumPy` для серий или отдельных столбцов DataFrame. NumPy обеспечивает поддержку `float`, `int`, `bool`, `timedelta64[ns]` и `datetime64[ns]` (обратите внимание, что `NumPy` не поддерживает дату и время с учетом часового пояса).

`pandas` и сторонние (third-party) библиотеки расширяют систему типов `NumPy` в нескольких местах.

В этом разделе описываются внутренние расширения `pandas`.

В следующей таблице перечислены все типы расширений `pandas`.

In [13]:
htmp_basic_info = 'https://pandas.pydata.org/pandas-docs/stable/user_guide/basics.html#basics-dtypes'
basic_info_tables = pd.read_html(htmp_basic_info)

for index, table in enumerate(basic_info_tables):
    print(f"index = {index}")
    display(table)

In [14]:
pandas_types_df = basic_info_tables[3]

pandas_types_df

Unnamed: 0,Kind of Data,Data Type,Scalar,Array,String Aliases,Documentation
0,tz-aware datetime,DatetimeTZDtype,Timestamp,arrays.DatetimeArray,"'datetime64[ns, <tz>]'",Time zone handling
1,Categorical,CategoricalDtype,(none),Categorical,'category',Categorical data
2,period (time spans),PeriodDtype,Period,arrays.PeriodArray,"'period[<freq>]', 'Period[<freq>]'",Time span representation
3,sparse,SparseDtype,(none),arrays.SparseArray,"'Sparse', 'Sparse[int]', 'Sparse[float]'",Sparse data structures
4,intervals,IntervalDtype,Interval,arrays.IntervalArray,"'interval', 'Interval', 'Interval[<numpy_dtype...",IntervalIndex
5,nullable integer,"Int64Dtype, …",(none),arrays.IntegerArray,"'Int8', 'Int16', 'Int32', 'Int64', 'UInt8', 'U...",Nullable integer data type
6,nullable integer,"Int64Dtype, …",(none),arrays.IntegerArray,"'Int8', 'Int16', 'Int32', 'Int64', 'UInt8', 'U...",Nullable integer data type
7,Strings,StringDtype,str,arrays.StringArray,'string',Working with text data
8,Boolean (with NA),BooleanDtype,bool,arrays.BooleanArray,'boolean',Boolean data with missing values


### Обработка часовых поясов (Time zone handling)

**Вид данных:** дата и время с учетом часового пояса (`tz`) (обратите внимание, что `NumPy` не поддерживает дату и время с учетом часовых поясов).


### Категориальные данные (Categorical data)

**Вид данных:** Категории (страна, язык, качество товара).

### Представление промежутка времени (Time span representation)

**Вид данных:** Период (промежутки времени).

### Разреженные структуры данных (Sparse data structures)

**Вид данных:** Различные разреженные матрицы. Это не обязательно разреженность в типичном варианте: «в основном 0». Скорее, можно рассматривать эти объекты как «сжатые», где любые данные, соответствующие определенному значению (`NaN` / отсутствующее значение, хотя может быть выбрано любое значение, включая `0`), опущены. Сжатые значения фактически не хранятся в массиве.

### Интервальный индекс (IntervalIndex)

**Вид данных:** `IntervalIndex` вместе со своим собственным `dtype` - `IntervalDtype`, а также скалярным типом `Interval` обеспечивают первоклассную поддержку `pandas` для обозначения интервалов.


### Обнуляемый целочисленный тип данных (Nullable integer data type)

**Вид данных:** 