# Анализ данных на Python

*Алла Тамбовцева*

## Словари и массивы, последовательности и датафреймы Pandas

### Часть 1: немного о словарях  и сортировке

Вспомним, на чём мы остановились в прошлый раз. У нас была выборка значений средних цен на бензин в регионах Сибирского федерального округа, сохранённая в виде массива NumPy:

In [1]:
import numpy as np

sample = np.array([46.76, 45.98, 45.82, 44.72, 46.13, 
                   47.99, 44.60, 45.81, 44.91, 44.95])

Допустим, к этим данным необходимо добавить информацию о регионах. Создадим массив строковых значений с названиями регионов:

In [2]:
regions = np.array(["Республика Алтай", "Республика Тыва",
           "Республика Хакасия", "Алтайский край",
           "Красноярский край", "Иркутская область",
           "Кемеровская область", "Новосибирская область",
           "Омская область", "Томская область"])

Как совместить названия регионов и значения из выборки? Как вариант – воспользоваться знакомой функцией `zip()` и объединить два массива поэлементно в пары:

In [3]:
# оператор * в сочетании с print()
# распаковывает элементы и выводит элементы через пробел
# без лишних скобок и запятых

print(*zip(regions, sample))

('Республика Алтай', 46.76) ('Республика Тыва', 45.98) ('Республика Хакасия', 45.82) ('Алтайский край', 44.72) ('Красноярский край', 46.13) ('Иркутская область', 47.99) ('Кемеровская область', 44.6) ('Новосибирская область', 45.81) ('Омская область', 44.91) ('Томская область', 44.95)


На основе такого перечня пар можно создать словарь (*dictionary*, тип `dict`):

In [4]:
D = dict(zip(regions, sample))
print(D)

{'Республика Алтай': 46.76, 'Республика Тыва': 45.98, 'Республика Хакасия': 45.82, 'Алтайский край': 44.72, 'Красноярский край': 46.13, 'Иркутская область': 47.99, 'Кемеровская область': 44.6, 'Новосибирская область': 45.81, 'Омская область': 44.91, 'Томская область': 44.95}


На словарь в Python можно смотреть как на ассоциативный массив, это структура, хранящая пары *ключ-значение*. Выбор элементов осуществляется исключительно по ключу, так как структура неупорядоченная. Вызовем значение для республики Алтай:

In [5]:
print(D["Республика Алтай"])

46.76


Выбор по индексу 0 уже невозможен, мы получим ошибку ключа, исключение типа `KeyError`, так как Python будет воспринимать 0 как ключ, а целочисленных ключей в словаре `D` нет:

In [6]:
print(D[0])

KeyError: 0

То же будет происходить и при любом поиске по отстутствующему ключу:

In [7]:
print(D["Алтай"])

KeyError: 'Алтай'

Более гибкий поиск по ключу возможен (см. метод `.get()`), но нас сейчас интересует не разнообразие методов, а внутренняя структура словарей. Раз словари состоят из пар *ключ-значение*, мы можем запросить ключи и значения по отдельности:

In [8]:
# ключи
print(D.keys())

dict_keys(['Республика Алтай', 'Республика Тыва', 'Республика Хакасия', 'Алтайский край', 'Красноярский край', 'Иркутская область', 'Кемеровская область', 'Новосибирская область', 'Омская область', 'Томская область'])


In [9]:
# значения
print(D.values())

dict_values([46.76, 45.98, 45.82, 44.72, 46.13, 47.99, 44.6, 45.81, 44.91, 44.95])


Методы `.keys()` и `.values()` возвращают объекты специальных типов `dict_keys` и `dict_values`, но их при желании можно переделать в обычные списки или кортежи:

In [10]:
print(list(D.keys()))
print(tuple(D.keys()))

['Республика Алтай', 'Республика Тыва', 'Республика Хакасия', 'Алтайский край', 'Красноярский край', 'Иркутская область', 'Кемеровская область', 'Новосибирская область', 'Омская область', 'Томская область']
('Республика Алтай', 'Республика Тыва', 'Республика Хакасия', 'Алтайский край', 'Красноярский край', 'Иркутская область', 'Кемеровская область', 'Новосибирская область', 'Омская область', 'Томская область')


Из словаря также можно вызывать перечень пар *ключ-значение*: 

In [11]:
print(D.items())

dict_items([('Республика Алтай', 46.76), ('Республика Тыва', 45.98), ('Республика Хакасия', 45.82), ('Алтайский край', 44.72), ('Красноярский край', 46.13), ('Иркутская область', 47.99), ('Кемеровская область', 44.6), ('Новосибирская область', 45.81), ('Омская область', 44.91), ('Томская область', 44.95)])


По такому перечню можно сделать множественный перебор, запустить цикл `for` и отдельно перебирать ключи (`reg` в коде ниже) и соответствующие им значения (`price` в коде ниже):

In [12]:
# подставляем в f-строку значения переменных

for reg, price in D.items():
    print(f"Средняя цена в регионе {reg} равна {price}")

Средняя цена в регионе Республика Алтай равна 46.76
Средняя цена в регионе Республика Тыва равна 45.98
Средняя цена в регионе Республика Хакасия равна 45.82
Средняя цена в регионе Алтайский край равна 44.72
Средняя цена в регионе Красноярский край равна 46.13
Средняя цена в регионе Иркутская область равна 47.99
Средняя цена в регионе Кемеровская область равна 44.6
Средняя цена в регионе Новосибирская область равна 45.81
Средняя цена в регионе Омская область равна 44.91
Средняя цена в регионе Томская область равна 44.95


Допустим, нас устраивает словарь как структура данных, потому что с задачей хранения связанных пар он справляется. Однако структура эта – неупорядоченная. Как выполнить сортировку элементов? С помощью методов на словарях – никак, упорядочение не предусмотрено, но зато можно поработать с перечнем пар, возвращаемым через `.items()`. Функция `sorted()` умеет сортировать любые итерабельные объекты (списки, кортежи, множества, ключи/значения словарей), но на выходе всегда возвращает список (тип `list`):

In [13]:
# сортировка списка
print(sorted([1, 5, 0, 4]))

# сортировка множества
print(sorted({2, 8, 9, 0, 1}))

# сортировка кортежа 
print(sorted((4, 7, 0, 1)))

# сортировка ключей словаря
print(sorted(D.keys()))

[0, 1, 4, 5]
[0, 1, 2, 8, 9]
[0, 1, 4, 7]
['Алтайский край', 'Иркутская область', 'Кемеровская область', 'Красноярский край', 'Новосибирская область', 'Омская область', 'Республика Алтай', 'Республика Тыва', 'Республика Хакасия', 'Томская область']


Сортировать пары/тройки/наборы значений с помощью этой функции тоже можно. По умолчанию сортировка будет производиться по первому элементу. В нашем случае перечень пар *ключ-значений* отсортируется в алфавитном порядке по названию региона (результат сортировки – новый объект, пока нигде его не сохраняем):

In [14]:
sorted(D.items())

[('Алтайский край', 44.72),
 ('Иркутская область', 47.99),
 ('Кемеровская область', 44.6),
 ('Красноярский край', 46.13),
 ('Новосибирская область', 45.81),
 ('Омская область', 44.91),
 ('Республика Алтай', 46.76),
 ('Республика Тыва', 45.98),
 ('Республика Хакасия', 45.82),
 ('Томская область', 44.95)]

Чтобы выполнить сортировку по самим значениям, то есть по второму элементу в каждой паре, нужно в явном виде задать ключ сортировки – функцию, которая будет описывать выбор второго элемента:

In [15]:
# x – элемент D.items()
# из него выбираем второе значение и сортируем

sorted(D.items(), key = lambda x: x[1])

[('Кемеровская область', 44.6),
 ('Алтайский край', 44.72),
 ('Омская область', 44.91),
 ('Томская область', 44.95),
 ('Новосибирская область', 45.81),
 ('Республика Хакасия', 45.82),
 ('Республика Тыва', 45.98),
 ('Красноярский край', 46.13),
 ('Республика Алтай', 46.76),
 ('Иркутская область', 47.99)]

Для сортировки по убыванию добавим аргумент `reverse=True`:

In [16]:
# задача: отсортировать значения по возрастанию цены
sorted(D.items(), key = lambda x: x[1], reverse = True)

[('Иркутская область', 47.99),
 ('Республика Алтай', 46.76),
 ('Красноярский край', 46.13),
 ('Республика Тыва', 45.98),
 ('Республика Хакасия', 45.82),
 ('Новосибирская область', 45.81),
 ('Томская область', 44.95),
 ('Омская область', 44.91),
 ('Алтайский край', 44.72),
 ('Кемеровская область', 44.6)]

В качестве ключа сортировки можно выбирать и более интересные функции. Посмотрим на примеры за рамками нашего словаря `D`:

In [18]:
# сортировка по сумме элементов, от меньшей к большей

sorted([("A", [0, 1, 6]), 
        ("B", [0, 0, 1]), 
        ("C", [9, 7, 9])], key = lambda x: sum(x[1]))

[('B', [0, 0, 1]), ('A', [0, 1, 6]), ('C', [9, 7, 9])]

In [19]:
# сортировка по модулю

sorted([("Correlation X and Y", 0.1),
       ("Correlation X and W", 0.5), 
       ("Correlation W and V", -0.25)], key = lambda x: abs(x[1]))

[('Correlation X and Y', 0.1),
 ('Correlation W and V', -0.25),
 ('Correlation X and W', 0.5)]

### Часть 2: словарь + массив =  `pandas Series`

Использовать словарь для хранения данных – это удобно и довольно просто, поскольку это базовый тип, однако не всегда эффективно, так как никаких методов по обработке значений на этом типе не предусмотрено. Даже если у нас будет словарь, где все значения числовые, всё равно для той же сортировки придётся писать специальные функции. 

Поэтому перейдём к библиотеке Pandas для работы с данными в табличном виде и посмотрим на более продвинутые структуры данных. Импортируем библиотеку с сокращённым названием:

In [20]:
import pandas as pd

Начнём с более простой структуры – последовательности Pandas, тип `pandas Series`. Эта структура сочетает в себе свойства словарей и свойства массивов NumPy, то есть наследует особенности и методы от обоих структур. Превратим наш массив `sample` в объект типа `pandas Series`:

In [21]:
info = pd.Series(sample)
print(info)

0    46.76
1    45.98
2    45.82
3    44.72
4    46.13
5    47.99
6    44.60
7    45.81
8    44.91
9    44.95
dtype: float64


Объект `info`, как и словарь, можно представить в виде пар *ключ-значение*, где в качестве ключей выступают обычные индексы элементов (в массивах индексы элементов тоже фиксируются, но не являются отдельной структурной частью объекта). Поэтому, как и в случае словарь, можем отдельно запросить ключи (атрибут `index`) и значения (атрибут `values`):

In [22]:
print(info.index)
print(info.values)

RangeIndex(start=0, stop=10, step=1)
[46.76 45.98 45.82 44.72 46.13 47.99 44.6  45.81 44.91 44.95]


Так как по умолчанию были добавлены целочисленные индексы, в `index` хранится особый объект – интервал значений `RangeIndex`. Однако при создании последовательности можно было указать и свой перечень значений:

In [23]:
info = pd.Series(sample, index = regions)
print(info)

Республика Алтай        46.76
Республика Тыва          45.98
Республика Хакасия       45.82
Алтайский край        44.72
Красноярский край      46.13
Иркутская область        47.99
Кемеровская область      44.60
Новосибирская область    45.81
Омская область           44.91
Томская область          44.95
dtype: float64


In [24]:
print(info.index)

Index(['Республика Алтай', 'Республика Тыва', 'Республика Хакасия',
       'Алтайский край', 'Красноярский край', 'Иркутская область',
       'Кемеровская область', 'Новосибирская область', 'Омская область',
       'Томская область'],
      dtype='object')


Альтернативный вариант – создать сначала `Series` с настройками по умолчанию, а потом обновить значение атрибута `index`:

In [25]:
info = pd.Series(sample)
info.index = regions
print(info)

Республика Алтай        46.76
Республика Тыва          45.98
Республика Хакасия       45.82
Алтайский край        44.72
Красноярский край      46.13
Иркутская область        47.99
Кемеровская область      44.60
Новосибирская область    45.81
Омская область           44.91
Томская область          44.95
dtype: float64


Раз речь шла о словарях, на основе словаря тоже можно создать последовательность:

In [26]:
info = pd.Series(D)
print(info)

Республика Алтай        46.76
Республика Тыва          45.98
Республика Хакасия       45.82
Алтайский край        44.72
Красноярский край      46.13
Иркутская область        47.99
Кемеровская область      44.60
Новосибирская область    45.81
Омская область           44.91
Томская область          44.95
dtype: float64


В отличие от словарей, для сортировки здесь есть более удобные методы: 

* метод `.sort_values()` для сортировки по значениям;
* метод `.sort_index()` для сортировки по индексам/ключам.

In [27]:
print(info.sort_values())

Кемеровская область      44.60
Алтайский край        44.72
Омская область           44.91
Томская область          44.95
Новосибирская область    45.81
Республика Хакасия       45.82
Республика Тыва          45.98
Красноярский край      46.13
Республика Алтай        46.76
Иркутская область        47.99
dtype: float64


In [28]:
print(info.sort_values(ascending=False)) # по убыванию

Иркутская область        47.99
Республика Алтай        46.76
Красноярский край      46.13
Республика Тыва          45.98
Республика Хакасия       45.82
Новосибирская область    45.81
Томская область          44.95
Омская область           44.91
Алтайский край        44.72
Кемеровская область      44.60
dtype: float64


In [29]:
print(info.sort_index())

Алтайский край        44.72
Иркутская область        47.99
Кемеровская область      44.60
Красноярский край      46.13
Новосибирская область    45.81
Омская область           44.91
Республика Алтай        46.76
Республика Тыва          45.98
Республика Хакасия       45.82
Томская область          44.95
dtype: float64


Последовательности Pandas – изменяемый тип, однако по умолчанию измененения в сам объект не вносятся. В `info` остался прежний порядок элементов. Изменять его сейчас не будем, хочется оставить исходный порядок значений, но вообще для сохранения изменений есть два варианта:

* перезаписать объект `info`, сохранив изменённую копию с тем же названием:

        info = info.sort_values()
        
* добавить аргумент `inplace = True` для сохранения изменений в оригинальном объекте:

        info.sort_values(inplace = True)

Итак, сходство со словарями увидели. Но на последовательность Pandas можно ещё смотреть и как на таблицу, состоящую из одного столбца, где все значения имеют один тип. В нашем случае это вещественные числа, тип `float`. Другими словами, один столбец в такой таблице – массив, а значит, операции на нём векторизованы, и многие методы будут наследоваться от массивов NumpPy. Проверим и домножим `info` на 100:

In [30]:
print(info * 100)

Республика Алтай        4676.0
Республика Тыва          4598.0
Республика Хакасия       4582.0
Алтайский край        4472.0
Красноярский край      4613.0
Иркутская область        4799.0
Кемеровская область      4460.0
Новосибирская область    4581.0
Омская область           4491.0
Томская область          4495.0
dtype: float64


Операция умножения применилась поэлементно. Вычислим по набору значений в `info` выборочное среднее и выборочное стандартное отклонение, а затем выполним стандартизацию данных:

In [31]:
# x_std = (x - mean) / std

info_std = (info - info.mean()) / info.std()
print(info_std)

Республика Алтай        0.943477
Республика Тыва          0.202377
Республика Хакасия       0.050357
Алтайский край       -0.994784
Красноярский край      0.344897
Иркутская область        2.112135
Кемеровская область     -1.108800
Новосибирская область    0.040856
Омская область          -0.814260
Томская область         -0.776255
dtype: float64


Согласно законам теории вероятностей и статистики, после стандартизации, если распределение данных было хоть как-то похоже на нормальное или хотя бы симметричное, значения должны быть похожи на значения, взятые из стандартного нормального распределения, а значит, в 95% случаев должны лежать в интервале примерно от $-2$ до $2$ (правило трёх сигм). Здесь одно значение, средняя цена в Иркутской области, за эти границы выходит – скорее всего, оно является нехарактерным/нетипичным.

Фильтрация значений в последовательности Pandas выглядит так же, как и на массивах. Условие проверяется для каждого элемента, возвращается булева последовательность из `True/False`, которая при подставновке в квадратные скобки выполняет функции фильтра:

In [32]:
# значения больше 45
 
info[info > 45]

Республика Алтай        46.76
Республика Тыва          45.98
Республика Хакасия       45.82
Красноярский край      46.13
Иркутская область        47.99
Новосибирская область    45.81
dtype: float64

In [33]:
# значения больше 45 и меньше 46

info[(info > 45) & (info < 46)]

Республика Тыва          45.98
Республика Хакасия       45.82
Новосибирская область    45.81
dtype: float64

In [34]:
# значения больше 47 или меньше 44

info[(info > 47) | (info < 44)]

Иркутская область    47.99
dtype: float64

При фильтрации возвращается последовательность, всё тот же объект `Series`. Если мы по каким-то причинам хотим получить более простой массив (для графиков часто требуется), можем извлечь значения из атрибута `values`:

In [35]:
(info[info > 45]).values

array([46.76, 45.98, 45.82, 46.13, 47.99, 45.81])

Сходство с массивами теперь тоже увидели. Однако сходство в контексте методов может выглядеть обманчиво. Многие методы, определённые на массивах NumPy, определены и для последовательностей Pandas, однако работать некоторые из них могут немного иначе (происходит и наследование, и дополнение). Так, например, метод `.std()` на массивах NumPy вычисляет стандартное отклонение выборки на основе смещённой оценки дисперсии (с $n$ в знаменателе), а метод `.std()` на последовательностях (и далее – датафреймах) Pandas – на основе несмещённой оценки дисперсии (с $n-1$ в знаменателе).

In [36]:
print(sample.std()) # n
print(sample.std(ddof = 1)) # n- 1
print(info.std()) # n - 1 сразу без дополнительных опций

0.9984793438023645
1.0524896410152667
1.0524896410152667


И, в заключение обзора отметим, что, в отличие от массивов NumPy, в Pandas есть метод `.describe()`, который вычисляет основной набор описательных статистик:

In [37]:
print(info.describe())

count    10.00000
mean     45.76700
std       1.05249
min      44.60000
25%      44.92000
50%      45.81500
75%      46.09250
max      47.99000
dtype: float64


Здесь:

* `count`: число заполненных ячеек;
* `mean`: среднее;
* `std` : стандартное отклонение;
* `min` и `max`: минимум и максимум;
* `25%`, `50%` и `75%`: нижний квартиль, медиана, верхний квартиль.

### Часть 3: `pandas Series` + `pandas Series` = `pandas DataFrame`

На практике, конечно, мы чаще имеем дело с данными в табличном виде. Двумерные таблицы в Pandas хранятся в датафреймах, тип `pandas DataFrame`, на который можно смотреть как на набор столбцов – последовательностей типа `pandas Series`. Создадим маленький датафрейм на основе последовательности `info`:

In [38]:
dat = pd.DataFrame(info)
dat

Unnamed: 0,0
Республика Алтай,46.76
Республика Тыва,45.98
Республика Хакасия,45.82
Алтайский край,44.72
Красноярский край,46.13
Иркутская область,47.99
Кемеровская область,44.6
Новосибирская область,45.81
Омская область,44.91
Томская область,44.95


Теперь `dat` – это таблица, состоящая из одного столбца, название которого мы не фиксировали. 
Если мы хотим сами присвоить названия столбцам, можно создать датафрейм на основе словаря, где ключами выступают названия столбцов, а значениями – списки/массивы с данными:

In [39]:
dat = pd.DataFrame({"region" : regions, "ai92" : sample})
dat

Unnamed: 0,region,ai92
0,Республика Алтай,46.76
1,Республика Тыва,45.98
2,Республика Хакасия,45.82
3,Алтайский край,44.72
4,Красноярский край,46.13
5,Иркутская область,47.99
6,Кемеровская область,44.6
7,Новосибирская область,45.81
8,Омская область,44.91
9,Томская область,44.95


Другими словами, датафрейм – это более продвинутый словарь, состоящий из пар *название-значения*! А значит, и извлечение отдельных столбцов будет выглядеть как выбор элементов словаря по ключу:

In [40]:
# выбираем столбцец ai92

print(dat["ai92"])

0    46.76
1    45.98
2    45.82
3    44.72
4    46.13
5    47.99
6    44.60
7    45.81
8    44.91
9    44.95
Name: ai92, dtype: float64


И снова выстроим иерархию: из датафрейма выбрали столбец – получили последовательность Pandas, если извлекли из последовательности значения – получили массив:

In [41]:
print(type(dat["ai92"])) # Pandas Series

<class 'pandas.core.series.Series'>


In [42]:
print(dat["ai92"].values) 
print(type(dat["ai92"].values)) # Numpy Array

[46.76 45.98 45.82 44.72 46.13 47.99 44.6  45.81 44.91 44.95]
<class 'numpy.ndarray'>


Теперь, раз мы имеем дело с таблицей, где может быть несколько столбцов, при сортировке нужно будет указывать, по какому столбцу её осуществлять:

In [43]:
# сортируем по названию региона

dat.sort_values("region")

Unnamed: 0,region,ai92
3,Алтайский край,44.72
5,Иркутская область,47.99
6,Кемеровская область,44.6
4,Красноярский край,46.13
7,Новосибирская область,45.81
8,Омская область,44.91
0,Республика Алтай,46.76
1,Республика Тыва,45.98
2,Республика Хакасия,45.82
9,Томская область,44.95


In [None]:
# сортируем по ценам и сохраняем изменения сразу в dat

dat.sort_values("ai92", inplace = True)
dat

Важная особенность: при сортировке датафрейм изменяется, но индексация строк не обнуляется. По логике, если мы хотим выбрать Кемеровскую область, мы должны выбирать строку с номером 0, поскольку эта область указана в первой строке. Но из этого ничего не выйдет – в индексах строк пока исходные индексы, из оригинального датафрейма. Исправим это – сбросим индексацию:

In [44]:
dat.reset_index(inplace = True)
dat

Unnamed: 0,index,region,ai92
0,0,Республика Алтай,46.76
1,1,Республика Тыва,45.98
2,2,Республика Хакасия,45.82
3,3,Алтайский край,44.72
4,4,Красноярский край,46.13
5,5,Иркутская область,47.99
6,6,Кемеровская область,44.6
7,7,Новосибирская область,45.81
8,8,Омская область,44.91
9,9,Томская область,44.95


Порядок строк теперь совпадает с нормальной человеческой интуицией, и при этом исходные индексы не потерялись – переместились в автоматически созданный столбец `index`. Сравним:

In [45]:
print(dat.index)
print(dat["index"])

RangeIndex(start=0, stop=10, step=1)
0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
Name: index, dtype: int64


Фильтрация строк в таблицах будет выглядеть примерно так же, как и в последовательностях. Только здесь в условиях нужно будет указывать названия столбцов:

In [46]:
# из dat отбираем строки, где цены выше 45

dat[dat["ai92"] > 45]

Unnamed: 0,index,region,ai92
0,0,Республика Алтай,46.76
1,1,Республика Тыва,45.98
2,2,Республика Хакасия,45.82
4,4,Красноярский край,46.13
5,5,Иркутская область,47.99
7,7,Новосибирская область,45.81


In [47]:
# два условия одновременно

dat[(dat["ai92"] > 45) & (dat["ai92"] < 46)]

Unnamed: 0,index,region,ai92
1,1,Республика Тыва,45.98
2,2,Республика Хакасия,45.82
7,7,Новосибирская область,45.81


И снова разбираем линейку типов. При фильтрации получили датафрейм, если выберем из него отдельный столбец, получим последовательность, если из неё извлечём значения, придём к массиву:

In [48]:
dat[(dat["ai92"] > 45) & (dat["ai92"] < 46)]["region"]

1          Республика Тыва
2       Республика Хакасия
7    Новосибирская область
Name: region, dtype: object

In [49]:
dat[(dat["ai92"] > 45) & (dat["ai92"] < 46)]["region"].values

array(['Республика Тыва', 'Республика Хакасия', 'Новосибирская область'],
      dtype=object)

В завершение работы экспортируем наш маленький учебный датафрейм в CSV-файл. На датафреймах pandas определено много методов вида `.to_format()` с названием формата файла для выгрузки, мы возьмём `.to_csv()`:

In [50]:
# если не писать полный путь, файл будет в рабочей папке
# здесь – в той же, где текущий ipynb-файл

dat.to_csv("example_data.csv")

Что удобно и, возможно, для кого-то актуально, pandas умеет преобразовывать датафреймы в текст с разметкой для таблиц (HTML или LaTeX):

In [51]:
print(dat.to_html())

<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>index</th>
      <th>region</th>
      <th>ai92</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>0</th>
      <td>0</td>
      <td>Республика Алтай</td>
      <td>46.76</td>
    </tr>
    <tr>
      <th>1</th>
      <td>1</td>
      <td>Республика Тыва</td>
      <td>45.98</td>
    </tr>
    <tr>
      <th>2</th>
      <td>2</td>
      <td>Республика Хакасия</td>
      <td>45.82</td>
    </tr>
    <tr>
      <th>3</th>
      <td>3</td>
      <td>Алтайский край</td>
      <td>44.72</td>
    </tr>
    <tr>
      <th>4</th>
      <td>4</td>
      <td>Красноярский край</td>
      <td>46.13</td>
    </tr>
    <tr>
      <th>5</th>
      <td>5</td>
      <td>Иркутская область</td>
      <td>47.99</td>
    </tr>
    <tr>
      <th>6</th>
      <td>6</td>
      <td>Кемеровская область</td>
      <td>44.60</td>
    </tr>
    <tr>
      <th>7</th>
      <td>7</td>
      <td>Но

In [52]:
print(dat.to_latex())

\begin{tabular}{lrlr}
\toprule
{} &  index &                 region &   ai92 \\
\midrule
0 &      0 &      Республика Алтай &  46.76 \\
1 &      1 &        Республика Тыва &  45.98 \\
2 &      2 &     Республика Хакасия &  45.82 \\
3 &      3 &      Алтайский край &  44.72 \\
4 &      4 &    Красноярский край &  46.13 \\
5 &      5 &      Иркутская область &  47.99 \\
6 &      6 &    Кемеровская область &  44.60 \\
7 &      7 &  Новосибирская область &  45.81 \\
8 &      8 &         Омская область &  44.91 \\
9 &      9 &        Томская область &  44.95 \\
\bottomrule
\end{tabular}

