In [1]:
import pandas as pd
import numpy as np
from io import StringIO
import random
from datetime import datetime


# КОНСПЕКТ по книге проекта Devpractice - "Pandas. Работа с данными"

###### Глава 1. Структуры данных в Pandas: Series и DataFrame
1.1 Структура данных Series

1.1.1 Создание Series из списка Python

1.1.2 Создание Series из ndarray массива из numpy

1.1.3 Создание Series из словаря (dict)

1.1.4 Создание Series с использованием константы

1.1.5 Работа с элементами Series

1.2 Структура данных DataFrame

1.2.1 Создание DataFrame из словаря

1.2.2 Создание DataFrame из списка словарей

1.2.3 Создание DataFrame из двумерного массива

1.2.4 Работа с элементами DataFrame

###### Глава 2. Доступ к данным в структурах pandas
2.1 Два подхода получения доступа к данным в pandas

2.2 Доступ к данным структуры Series

2.2.1 Доступ с использованием меток

2.2.2 Доступ с использованием целочисленных индексов

2.2.3 Доступ с использованием callable-функции

2.2.4 Доступ с использованием логического выражения

2.3 Доступ к данным структуры DataFrame

2.3.1 Доступ с использованием меток

2.3.2 Доступ с использованием callable-функции

2.3.3 Доступ с использованием логического выражения

2.4 Использование атрибутов для доступа к данным

2.5 Получение случайного набора из структур pandas

2.6 Индексация с использованием логических выражений

2.7 Использование isin при работы с данными в pandas

###### Глава 3. Типы данных в pandas
3.1 Типы данных

3.2 Инструменты для работы с типами

3.2.1 astype()

3.2.2 Функции подготовки данных

3.2.3 Вспомогательные функции

3.2.4 Выборка данных по типу

3.3 Категориальные типы

3.3.1 Создание структуры с набором категориальных данных

3.3.2 Порядковые категории

###### Глава 4. Работа с пропусками в данных
4.1 Pandas и отсутствующие данные

4.2 Замена отсутствующих данных

4.3 Удаление объектов/столбцов с отсутствующими данными

###### Глава 5. Работа со структурами данных в pandas: удаление, объединение, расширение, группировка
5.1 Добавление элементов в структуру pandas

5.1.1 Добавление в Series

5.1.2 Добавление в DataFrame

5.2 Удаление элементов из структуры в pandas

5.2.1 Удаление из Series

5.2.2 Удаление из DataFrame

5.3 Объединение данных

5.3.1 Использование метода concat

5.3.2 Использование Database-style подхода

###### Глава 6. Работа с внешними источниками данных
6.1 Работа с данными в формате CSV

6.1.1 Чтение данных

6.1.2 Запись данных

6.2 Работа с данными в формате JSON

6.2.1 Чтение данных

6.2.2 Запись данных

6.3 Работа с Excel файлами

6.3.1 Чтение данных

6.3.2 Запись данных

###### Глава 7. Операции над данными
7.1 Арифметические операции

7.2 Логические операции

7.3 Статистики

7.4 Функциональное расширение

7.4.1 Потоковая обработка данных

7.4.2 Применение функции к элементам строки или столбца

7.4.3 Агрегация (API)

7.4.4 Трансформирование данных

7.5 Использование методов типа str для работы с текстовыми данными

###### Глава 8. Настройка pandas
8.1 API для работы с настройками pandas

8.2 Настройки библиотеки pandas

###### Глава 9. Инструменты для работы с данными
9.1 Скользящее окно. Статистики

9.2 Расширяющееся окно. Статистики

9.3 Время-ориентированное скольжение

9.4 Агрегация данных

###### Глава 10. Временные ряды
10.1 Работа с временными метками

10.1.1 Создание временной метки

10.1.2 Создание ряда временных меток

10.2 Работа с временными интервалами

10.2.1 Создание временного интервала

10.2.2 Создание ряда временных интервалов

10.3 Использование временных рядов в качестве индексов

###### Глава 11. Визуализация данных
11.1 Построение графиков

11.1.1 Линейные графики

11.1.2 Столбчатые диаграммы

11.1.3 Гистограммы

11.1.4 График с заливкой

11.1.5 Точечный график

11.1.6 Круговая диаграмма

11.1.7 Диаграмма из шестиугольников

11.2 Настройка внешнего вида диаграммы

11.2.1 Настройка внешнего вида линейного графика

11.2.2 Вывод графиков на разных плоскостях

###### Глава 12. Настройка внешнего вида таблиц
12.1 Изменение формата представления данных

12.2 Создание собственных стилей

12.2.1 Задание цвета надписи для элементов данных

12.2.2 Задание цвета ячейки таблицы

12.2.3 Задание цвета строки таблицы

12.3 Встроенные инструменты задания стилей

12.3.1 Подсветка минимального и максимального значений

12.3.2 Подсветка null элементов

12.3.3 Задание тепловой карты

12.3.4 Наложение столбчатой диаграммы

12.3.5 Цепочки вычислений (Method Chaining) для настройки внешнего вида таблицы

Заключение

# Глава 1. Структуры данных в Pandas: Series и DataFrame

## 1.1 Структура данных Series

Создать структуру Series можно на базе следующих типов данных:
- словарь (dict) Python;
- список (list) Python;
- массив ndarray (из библиотеки numpy);
- скалярная величина.

Конструктор класса Series выглядит следующим образом:
Series(data=None, index=None, dtype=None, name=None, copy=False,fastpath=False)

Опишем некоторые из параметров конструктора:

• data: массив, скалярное значение, dict; значение по умолчанию:
None
◦ Структура, на базе которой будет построен Series.

• index: одномерный массив; значение по умолчанию: None
◦ Список меток, который будет использоваться для доступа к
элементам Series. Длина списка должна быть равна длине data.

• dtype: numpy.dtype; значение по умолчанию: None
◦ Объект, определяющий тип данных.

• copy: bool; значение по умолчанию: False
◦ Если параметр равен True, то будет создана копия массива
данных.

В большинстве случаев, при создании Series, используют только
первые два параметра.

### 1.1.1 Создание Series из списка Python

In [2]:
s1 = pd.Series([1, 2, 3, 4, 5])
s1

0    1
1    2
2    3
3    4
4    5
dtype: int64

Для доступа к элементам Series, в данном случае, можно использовать только положительные целые числа - левый столбец чисел, начинающийся с нуля - это как раз и есть индексы элементов структуры, которые представлены в правом столбце.

In [3]:
s1[0]

1

Передадим в качестве второго элемента список строк (в нашем случае -
это отдельные символы). Это позволит обращаться к элементам
структуры Series не только по численному индексу, но и по метке, что
сделает работу с таким объектом, похожей на работу со словарем:

In [4]:
s2 = pd.Series([1, 2, 3, 4, 5], ['a', 'b', 'c', 'd', 'e'])
s2

a    1
b    2
c    3
d    4
e    5
dtype: int64

Обратите внимание на левый столбец, в нем содержатся метки, которые
мы передали в качестве index-параметра при создании структуры.
Правый столбец - это по-прежнему элементы структуры.

### 1.1.2 Создание Series из ndarray массива из numpy

Создадим массив ndarray из пяти чисел, аналогичный списку из
предыдущего раздела. Библиотеки pandas и numpy должны быть
предварительно импортированы:

In [5]:
ndarr = np.array([1, 2, 3, 4, 5])

In [6]:
type(ndarr)

numpy.ndarray

Теперь создадим Series с буквенными метками:

In [7]:
s3 = pd.Series(ndarr, ['a', 'b', 'c', 'd', 'e'])
print(s3)

a    1
b    2
c    3
d    4
e    5
dtype: int32


Как вы можете видеть, результат аналогичен тому, чтобы был получен с
использованием списков Python.

### 1.1.3 Создание Series из словаря (dict)

Еще один способ создать структуру Series - это использовать словарь 
для одновременного задания меток и значений:

In [8]:
d = {'a':1, 'b':2, 'c':3}
s4 = pd.Series(d)
print(s4)

a    1
b    2
c    3
dtype: int64


Ключи (keys) из словаря d станут метками структуры s4, а значения
(values) словаря — значениями.

### 1.1.4 Создание Series с использованием константы

Рассмотрим еще один способ создания Series. На этот раз значения в
ячейках структуры будут одинаковыми:

In [9]:
a = 7
s5 = pd.Series(a, ['a', 'b', 'c'])
print(s5)

a    7
b    7
c    7
dtype: int64


В полученной структуре имеется три элемента с одинаковым
содержанием.

### 1.1.5 Работа с элементами Series

Индексации и работе с элементами Series и DataFrame будет посвящена
отдельная глава, сейчас рассмотрим основные подходы, которые
предоставляет pandas.
К элементам Series можно обращаться по численному индексу, при
таком подходе работа со структурой не отличается от работы со
списками в Python:

In [10]:
s6 = pd.Series([1, 2, 3, 4, 5], ['a', 'b', 'c', 'd', 'e'])
print(s6)
s6[2]

a    1
b    2
c    3
d    4
e    5
dtype: int64


3

Можно использовать метку, тогда работа с Series будет похожа на работу
со словарем (dict) в Python:

In [11]:
s6['d']

4

Доступен синтаксис работы со срезами:

In [12]:
s6[:2]

a    1
b    2
dtype: int64

В поле для индекса можно поместить условное выражение:

In [13]:
s6[s6 <= 3]

a    1
b    2
c    3
dtype: int64

Со структурами Series можно работать как с векторами: складывать,
умножать вектор на число и т.п.:

In [14]:
s7 = pd.Series([10, 20, 30, 40, 50], ['a', 'b', 'c', 'd', 'e'])

При сложении структур, их элементы складываются между собой:

In [15]:
s6 + s7

a    11
b    22
c    33
d    44
e    55
dtype: int64

При умножении структуры на число, все элементы структуры
умножаются на данный множитель:

In [16]:
s6 * 3

a     3
b     6
c     9
d    12
e    15
dtype: int64

## 1.2 Структура данных DataFrame

Если Series представляет собой одномерную структуру, которую для
себя можно представить, как таблицу с одной строкой, то DataFrame -
это уже двумерная структура - полноценная таблица с множеством строк
и столбцов.

Конструктор класса DataFrame выглядит так:
DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)

Параметры конструктора:

• data: ndarray, dict или DataFrame; значение по умолчанию: None
◦ Данные, на базе которых будет создан DataFrame.

• index: одномерный массив; значение по умолчанию: None
◦ Список меток для записей (имена строк таблицы).

• columns: одномерный массив; значение по умолчанию: None
◦ Список меток для полей (имена столбцов таблицы).

• dtype: numpy.dtype; значение по умолчанию: None
◦ Объект, определяющий тип данных.

• copy: bool; значение по умолчанию: False
◦ Если параметр равен True, то будет создана копия массива данных.

Структуру DataFrame можно создать на базе следующих типов данных:
• словарь (dict), в качестве элементов которого могут выступать:
одномерные ndarray, списки, другие словари, структуры Series;
• двумерный ndarray;
• структура Series;
• другой DataFrame.

Рассмотрим на практике различные подходы к созданию DataFrame’ов.

### 1.2.1 Создание DataFrame из словаря

Для создания DataFrame будем использовать словарь, элементами
которого могут быть списки, структуры Series и т.д. Начнем со варианта,
когда элементы — это структуры Series:

In [17]:
d = {'price':pd.Series([1, 2, 3], index=['v1', 'v2', 'v3']),'count':
pd.Series([10, 12, 7], index=['v1', 'v2', 'v3'])}
df1 = pd.DataFrame(d)
print(df1)

    price  count
v1      1     10
v2      2     12
v3      3      7


Индексы созданного DataFrame:

In [18]:
print(df1.index)

Index(['v1', 'v2', 'v3'], dtype='object')


Столбцы созданного DataFrame:

In [19]:
print(df1.columns)

Index(['price', 'count'], dtype='object')


Построим аналогичный словарь, но на элементах ndarray:

In [20]:
d2 = {'price':np.array([1, 2, 3]), 'count': np.array([10, 12, 7])}
df2 = pd.DataFrame(d2, index=['v1', 'v2', 'v3'])
print(df2)

    price  count
v1      1     10
v2      2     12
v3      3      7


In [21]:
print(df2.index)

Index(['v1', 'v2', 'v3'], dtype='object')


In [22]:
print(df2.columns)

Index(['price', 'count'], dtype='object')


Как видно - результат аналогичен предыдущему. Вместо ndarray можно
использовать обычный список Python.

### 1.2.2 Создание DataFrame из списка словарей

До этого мы создавали DataFrame из словаря, элементами которого
были структуры Series, списки и массивы, сейчас мы создадим
DataFrame из списка, элементами которого являются словари:

In [23]:
d3 = [{'price': 3, 'count':8}, {'price': 4, 'count': 11}]
df3 = pd.DataFrame(d3)
print(df3)

   price  count
0      3      8
1      4     11


Для получения сводной информации по созданному DataFrame можно
использовать функцию info(). Она выводит данные о типе структуры,
количестве записей, количестве non-null элементов в столбцах, типы и
количество хранимых элементов и объем используемой памяти:

In [24]:
print(df3.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   price   2 non-null      int64
 1   count   2 non-null      int64
dtypes: int64(2)
memory usage: 160.0 bytes
None


### 1.2.3 Создание DataFrame из двумерного массива

Создать DataFrame можно также и из двумерного массива, в нашем
примере это будет ndarray из библиотеки numpy:

In [25]:
nda1 = np.array([[1, 2, 3], [10, 20, 30]])
df4 = pd.DataFrame(nda1)
print(df4)

    0   1   2
0   1   2   3
1  10  20  30


### 1.2.4 Работа с элементами DataFrame

Работа с элементами DataFrame - тема достаточно обширная, и она
будет раскрыта в главе 3. Сейчас рассмотрим наиболее часто
используемые подходы для доступа к элементам структуры. Основные
способы представлены здесь:


### Примеры работы с элементами DataFrame

##### Операция
Выбор столбца 
##### Синтаксис 
df[col] 
##### Возвращаемый результат
Series

##### Операция
Выбор строки по метке 
##### Синтаксис 
df.loc[label] 
##### Возвращаемый результат
Series

##### Операция
Выбор строки по индексу 
##### Синтаксис 
df.iloc[loc] 
##### Возвращаемый результат
Series

##### Операция
Срез по строкам 
##### Синтаксис 
df[0:4]
##### Возвращаемый результат
DataFrame

##### Операция
Выбор строк, отвечающих условию
##### Синтаксис 
df[bool_vec]
##### Возвращаемый результат
DataFrame

Рассмотрим работу с данными операциями на практике. Для начала
создадим DataFrame:

In [26]:
d = {'price':np.array([1, 2, 3]), 'count': np.array([10, 20, 30])}
df = pd.DataFrame(d, index=['a', 'b', 'c'])
print(df)

   price  count
a      1     10
b      2     20
c      3     30


#### Операция: выбор столбца:

In [27]:
df['count']

a    10
b    20
c    30
Name: count, dtype: int32

#### Операция: выбор строки по метке:

In [28]:
df.loc['a']

price     1
count    10
Name: a, dtype: int32

#### Операция: выбор строки по индексу:

In [29]:
df.iloc[1]

price     2
count    20
Name: b, dtype: int32

#### Операция: срез по строкам:

In [30]:
df[0:2]

Unnamed: 0,price,count
a,1,10
b,2,20


#### Операция: выбор строк, отвечающих условию:

In [31]:
df[df['count'] >= 20]

Unnamed: 0,price,count
b,2,20
c,3,30


# Глава 2. Доступ к данным в структурах pandas

## 2.1 Два подхода получения доступа к данным в pandas

При работе со структурами Series и DataFrame, как правило, используют
два основных способа получения значений элементов.

### Первый способ 
Первый способ основан на использовании меток, в этом случае работа
ведется через метод .loc. Если вы обращаетесь к отсутствующей метке,
то будет сгенерировано исключение KeyError. 

##### Такой подход позволяет использовать:

метки в виде отдельных символов ['a'] или чисел [5], числа используются в качестве меток, если при создании структуры не был указан список с метками;

• список меток ['a', 'b', 'c'];

• срез меток ['a':'c'];

• массив логических переменных;

• callable-функция с одним аргументом.

### Второй способ
Второй способ основан на использовании целых чисел для доступа к
данным, он предоставляется через метод .iloc. Если вы обращаетесь к
несуществующему элементу, то будет сгенерировано исключение
IndexError. Логика использования .iloc очень похожа на работу с
.loc. 

##### При таком подходе можно использовать:

• отдельные целые числа для доступа к элементам структуры;

• массивы целых чисел [0, 1, 2];

• срезы целых чисел [1:4];

• массивы логических переменных;

• callable-функцию с одним аргументом.

В зависимости от типа структуры, будет меняться форма .loc:
• для Series, она выглядит так: s.loc[indexer];
• для DataFrame так: df.loc[row_indexer, column_indexer].

Создадим объекты типов Series и DataFrame, которые в дальнейшем
будут использованы нами для экспериментов.

In [32]:
# Структура Series:
s = pd.Series([10, 20, 30, 40, 50], ['a', 'b', 'c', 'd', 'e'])
s

a    10
b    20
c    30
d    40
e    50
dtype: int64

In [33]:
# Структура DataFrame:
d = {'price':[1, 2, 3], 'count': [10, 20, 30], 'percent': [24, 51, 71]}
df = pd.DataFrame(d,  index=['a', 'b', 'c'])
df

Unnamed: 0,price,count,percent
a,1,10,24
b,2,20,51
c,3,30,71


## 2.2 Доступ к данным структуры Series

### 2.2.1 Доступ с использованием меток

При использовании меток для доступа к данным можно применять один
из следующих подходов:

• первый, когда вы записываете имя переменной типа Series и в
квадратных скобках указываете метку, по которой хотите
обратиться (пример: s['a']);
• второй, когда после имени переменной пишите .loc и далее
указываете метку в квадратных скобках (пример: s.loc['a']).

#### Обращение по отдельной метке.
Элемент с меткой 'a':

In [34]:
s['a']

10

#### Обращение по массиву меток.
Элементы с метками 'a', 'c' и 'e':

In [35]:
s[['a', 'c', 'e']]

a    10
c    30
e    50
dtype: int64

#### Обращение по срезу меток.
Элементы структуры с метками от 'a' до 'e':

In [36]:
s['a':'c']

a    10
b    20
c    30
dtype: int64

### 2.2.2 Доступ с использованием целочисленных индексов

При работе с целочисленными индексами, индекс можно ставить сразу
после имени переменной в квадратных скобках (пример: s[1]) или
воспользоваться .iloc (пример: s.iloc[1]).

#### Обращение по отдельному индексу.
Элемент с индексом 1:

In [37]:
s[1]

20

#### Обращение с использованием списка индексов.
Элементы с индексами 1, 2 и 3:

In [38]:
s[[1, 2 ,3]]

b    20
c    30
d    40
dtype: int64

#### Обращение по срезу индексов.
Получение первых трех элементов структуры:

In [39]:
s[:3]

a    10
b    20
c    30
dtype: int64

### 2.2.3 Доступ с использованием callable-функции

При таком подходе в квадратных скобках указывается не индекс или
метка, а функция (как правило, это lambda-функция), которая
используется для выборки элементов структуры.

#### Элементы, значение которых больше либо равно 30:

In [40]:
s[lambda x: x>= 30]

c    30
d    40
e    50
dtype: int64

### 2.2.4 Доступ с использованием логического выражения

Данный подход похож на работу с callable-функцией: в квадратных
скобках записывается логическое выражение, согласно которому будет
произведен отбор.

#### Элементы, значение которых больше 30:

In [41]:
s[s > 30]

d    40
e    50
dtype: int64

## 2.3 Доступ к данным структуры DataFrame

### 2.3.1 Доступ с использованием меток

Рассмотрим различные варианты использования меток, которые могут
быть как именами столбцов таблицы, так и именами строк.

#### Обращение к конкретному столбцу.
Элементы столбца 'count':

In [42]:
df['count']

a    10
b    20
c    30
Name: count, dtype: int64

#### Обращение с использованием массива столбцов.
Элементы столбцов 'count' и 'price':

In [43]:
df[['count','price']]

Unnamed: 0,count,price
a,10,1
b,20,2
c,30,3


#### Обращение по срезу меток.
Элементы с метками от 'a' до 'b':

In [44]:
df['a':'b']

Unnamed: 0,price,count,percent
a,1,10,24
b,2,20,51


### 2.3.2 Доступ с использованием callable-функции

Подход в работе с callable-функцией для DataFrame аналогичен тому,
что используется для Series, только при формировании условий
необходимо дополнительно указывать имя столбца.

#### Получим все элементы, у которых значение в столбце 'count' больше 15:

In [45]:
df[lambda x: x['count'] > 15]

Unnamed: 0,price,count,percent
b,2,20,51
c,3,30,71


### 2.3.3 Доступ с использованием логического выражения

При формировании логического выражения необходимо указывать
имена столбцов, также как и при работе с callable-функциями, по
которым будет производиться выборка.

#### Получим все элементы, у которых 'price' больше либо равен 2:

In [46]:
df[df['price'] >= 2]

Unnamed: 0,price,count,percent
b,2,20,51
c,3,30,71


## 2.4 Использование атрибутов для доступа к данным

Для доступа к данным можно использовать атрибуты структур, в
качестве которых выступают метки. Начнем со структуры Series.

In [47]:
# Воспользуемся уже знакомой нам структурой:
s = pd.Series([10, 20, 30, 40, 50], ['a', 'b', 'c', 'd', 'e'])

Для доступа к элементу через атрибут необходимо указать его через
точку после имени переменной:

In [48]:
s.a

10

In [49]:
s.c

30

Т.к. структура s имеет метки 'a', 'b', 'c', 'd', 'e', то для доступа к
элементу с меткой 'a' используется синтаксис s.a.

Этот же подход можно применить для переменной типа DataFrame:

In [50]:
d = {'price':[1, 2, 3], 'count': [10, 20, 30], 'percent': [24, 51, 71]}
df = pd.DataFrame(d, index=['a', 'b', 'c'])

#### Получим доступ к столбцу 'price':

In [51]:
df.price

a    1
b    2
c    3
Name: price, dtype: int64

## 2.5 Получение случайного набора из структур pandas

Библиотека pandas предоставляет возможность получить случайный
набор данных из уже существующей структуры. Такой функционал
предоставляет как Series, так и DataFrame. Случайная подвыборка,
извлекается с помощью метода sample().

Для начала разберем работу с этим методом на примере структуры
Series.

#### Для выбора случайного элемента из Series используется следующий синтаксис:

In [52]:
s.sample()

b    20
dtype: int64

##### Можно сделать выборку из нескольких элементов, для этого нужно передать количество элементов через параметр n:

In [53]:
s.sample(n=3)

c    30
a    10
e    50
dtype: int64

#### Есть возможность указать долю от общего числа объектов в структуре, за это отвечает параметр frac:

In [54]:
s.sample(frac=0.3)

a    10
b    20
dtype: int64

Дополнительно, в качестве аргумента, мы можем передать вектор весов,
длина которого должна быть равна количеству элементов в структуре, а
сумма элементов вектора - единице. Вес, в данном случае, это
вероятность появления элемента в выборке.

#### В нашей тестовой структуре пять элементов, сформируем вектор весов для нее и сделаем выборку из трех элементов:

In [55]:
w = [0.1, 0.2, 0.5, 0.1, 0.1]
s.sample(n = 3, weights=w)

c    30
d    40
a    10
dtype: int64

#### Возможности метода sample() доступны и для структуры DataFrame:

In [56]:
d = {'price':[1, 2, 3, 5, 6], 'count': [10, 20, 30, 40, 50],'percent': [24, 51, 71, 25, 42]}
df = pd.DataFrame(d)
df.sample()

Unnamed: 0,price,count,percent
0,1,10,24


#### При работе с DataFrame можно указать ось. Для выбора столбца случайным образом задайте параметру axis значение равное 1:

In [57]:
df.sample(axis=1)

Unnamed: 0,price
0,1
1,2
2,3
3,5
4,6


#### Выбор двух столбцов случайным образом:

In [58]:
df.sample(n=2, axis=1)

Unnamed: 0,percent,count
0,24,10
1,51,20
2,71,30
3,25,40
4,42,50


#### Выбор двух строк случайным образом:

In [59]:
df.sample(n=2)

Unnamed: 0,price,count,percent
4,6,50,42
2,3,30,71


## 2.6 Индексация с использованием логических выражений

На практике часто приходится делать подвыборку из существующего
набора данных. Например: получить все товары, скидка на которые
больше пяти процентов, или выбрать из базы информацию о
сотрудниках мужского пола старше 30 лет. Это очень похоже на процесс
фильтрации при работе с таблицами или получение выборки из базы
данных. Похожий функционал реализован в pandas, и мы уже касались
этого вопроса, когда рассматривали различные подходы к индексации:
условное выражение должно быть записано вместо индекса в
квадратных скобках при обращении к элементам структуры.

##### При работе с Series возможны следующие варианты использования:

In [60]:
s = pd.Series([10, 20, 30, 40, 50, 10, 10], ['a', 'b', 'c', 'd', 'e', 'f', 'g'])
s[s>30]

d    40
e    50
dtype: int64

#### Получим все элементы структуры, значение которых равно 10:

In [61]:
s[s==10]

a    10
f    10
g    10
dtype: int64

#### Элементы структуры s, значения которых находятся в интервале [30, 50):

In [62]:
s[(s>=30) & (s<50)]

c    30
d    40
dtype: int64

#### При работе с DataFrame необходимо указывать столбец, по-которому будет производиться фильтрация (выборка):

In [63]:
d = {'price':[1, 2, 3, 5, 6], 'count': [10, 20, 30, 40, 50], 'percent': [24, 51, 71, 25, 42], 'cat': ['A', 'B', 'A', 'A', 'C']}
df = pd.DataFrame(d)
df

Unnamed: 0,price,count,percent,cat
0,1,10,24,A
1,2,20,51,B
2,3,30,71,A
3,5,40,25,A
4,6,50,42,C


#### Выделим список строк таблицы, у которых значение в поле 'price' больше, чем 3:

In [64]:
df[df['price'] > 3]

Unnamed: 0,price,count,percent,cat
3,5,40,25,A
4,6,50,42,C


В качестве логического выражения можно использовать довольно
сложные конструкции с применением функций map, filter, lambda-
выражений и т.п.

#### Получим список индексов структуры df, у которых значение поля 'cat' равно 'A':

In [65]:
fn = df['cat'].map(lambda x: x == 'A')
df[fn]

Unnamed: 0,price,count,percent,cat
0,1,10,24,A
2,3,30,71,A
3,5,40,25,A


In [66]:
fn

0     True
1    False
2     True
3     True
4    False
Name: cat, dtype: bool

## 2.7 Использование isin при работы с данными в pandas

По структурам данных pandas можно строить массивы с элементами
типа bool, по которому можно проверить наличие или отсутствие того
или иного элемента в исходной структуре.

Будем работать со следующей структурой:

In [67]:
s = pd.Series([10, 20, 30, 40, 50, 10, 10], ['a', 'b', 'c', 'd', 'e', 'f', 'g'])

Построим новую структуру с элементами типа bool, такую, что если
значение элемента исходной структуры находится в списке [10, 20], то
значение элемента равно True, в противном случае – False:

In [68]:
s.isin([10, 20])

a     True
b     True
c    False
d    False
e    False
f     True
g     True
dtype: bool

Работа с DataFrame аналогична работе со структурой Series:

In [69]:
df = pd.DataFrame({'price':[1, 2, 3, 5, 6], 'count': [10, 20, 30, 40, 50], 'percent': [24, 51, 71, 25, 42]})

Если значение элемента исходной структуры находится в списке [1, 3,
25, 30, 10], то значение элемента в новой структуре равно True, иначе –
False:

In [70]:
df.isin([1, 3, 25, 30, 10])

Unnamed: 0,price,count,percent
0,True,True,False
1,False,False,False
2,True,True,False
3,False,False,True
4,False,False,False


# Глава 3. Типы данных в pandas

При изучении любого языка программирования одной из важнейших тем,
которую нужно освоить, является система типов. Например, при работе с
языком Python вы сталкивались с такими типами как int и float для
работы с числами, str - для работы со строками; есть типы более
сложные, такие как списки, словари, множества. Библиотека pandas
содержит свой набор типов данных для эффективного хранения и
манипулирования данными. В предыдущих главах вы уже сталкивались
с таким понятием как dtype: например, при выводе содержимого Series с
помощью функции print, когда тип хранящихся значений отображается
в последней строке:

In [71]:
s = pd.Series([1,2,3])
print(s)

0    1
1    2
2    3
dtype: int64


В приведенном примере тип хранимых в s значений: int64.

Или при выводе подробной информации о структуре DataFrame с
помощью метода info(): помимо названий столбцов, информации о
количестве элементов, занимаемой памяти и т.п., выводится тип
хранимых данных по каждому столбцу:

In [72]:
d = [{'name': 'pen', 'price': 3.9, 'count': 8}, {'name': 'book', 'price': 4.5, 'count': 11}]
df = pd.DataFrame(d)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   name    2 non-null      object 
 1   price   2 non-null      float64
 2   count   2 non-null      int64  
dtypes: float64(1), int64(1), object(1)
memory usage: 176.0+ bytes


Из приведенной информации видно, что в поле count хранятся
элементы с типом int64, в поле name - с типом object, в поле price - с
типом float64. В этой главе мы более подробно изучим типы
библиотеки pandas и научимся с ними работать.

## 3.1 Типы данных

Основные типы данных, которые используются в pandas, приведены здесь:

#### Тип данных 
int64 
#### Описание
64 разрядное целочисленное значение, не зависит от платформы

#### Тип данных 
float64 
#### Описание
64 разрядное число с плавающей точкой, не зависит от платформы

#### Тип данных 
object
#### Описание
Текст или любое другое значение

#### Тип данных 
bool
#### Описание
Булевое значение: True / False

#### Тип данных 
category
#### Описание
Конечное множество текстовых элементов

#### Тип данных 
datetime64[ns]
#### Описание
Дата / Время

#### Тип данных 
timedelta64[ns]
#### Описание
Разница между двумя datetime элементами

Как правило, вам не нужно явно задавать тип значений, pandas может
самостоятельно вывести тип, но если необходимо его указать или
сделать преобразование типа, то стоит воспользоваться возможностями,
которые библиотека предоставляет.

Информацию об используемых в структуре типах можно получить через
атрибут dtypes. Для структуры df, из примера выше, мы получим
следующий результат:

In [73]:
df.dtypes

name      object
price    float64
count      int64
dtype: object

Атрибут dtype есть у структур DataFrame и Series.

В рамках pandas также можно создавать и использовать типы
расширений. В комплекте с библиотекой идут типы расширений,
представленные далее:

#### Типы расширений pandas

#### Тип Описание
##### DatetimeTZDtype - datetime c поддержкой часового пояса
##### CategoricalDtype - Тип для категориальных данных (конечное множество текстовых элементов)
##### PeriodDtype - Тип для работы с периодическими данными
##### SparseDtype - Тип для работы с разреженными данными
##### IntervalDtype - Тип для работы с интервальными данными

## 3.2 Инструменты для работы с типами

Pandas предоставляет ряд инструментов для работы с типами, под
“работой с типами” мы будет понимать различные операции приведения
типов.

### 3.2.1 astype()

Первый инструмент, который мы рассмотрим — это метод astype(). Он
доступен как для структур Series, так и для DataFrame:

### astype(self, dtype, copy=True, errors='raise', **kwargs)

dtype: тип данных или словарь с именами столбцов
◦ В качестве типа данных для приведения могут быть
использованы numpy.dtype, тип pandas, либо словарь в
формате {col: dtype, ...}, где col - имя столбца, dtype -
желаемый тип данных.

• copy: bool; значение по умолчанию: True
◦ astype будет возвращать копию структуры, если параметр
равен True, в ином случае будет модифицироваться текущая
структура.

• errors: {'raise', 'ignore'}; значение по умолчанию: 'raise'
◦ Управляет процессом выброса исключений:

▪ raise : разрешает выброс исключений;

▪ ignore : игнорирует исключения.

• **kwargs
◦ Аргументы для передачи конструктору.

### Преобразование типов для структуры Series

In [74]:
# Создадим структуру с целыми числами:
s = pd.Series([1,2,3])
s.dtype

dtype('int64')

In [75]:
# Приведем эти данные к типу float64:
s.astype('float64')

0    1.0
1    2.0
2    3.0
dtype: float64

### Преобразование типов структуры DataFrame

In [76]:
d = [{'name': 'pen', 'price': 3.9, 'count': 8}, {'name': 'book', 'price': 4.5, 'count': 11}]
df = pd.DataFrame(d)
df.dtypes

name      object
price    float64
count      int64
dtype: object

In [77]:
# Приведем тип поля 'count' к int32:
df['count'] = df['count'].astype('int32')
df.dtypes

name      object
price    float64
count      int32
dtype: object

### 3.2.2 Функции подготовки данных

Часто возникает задача предварительной подготовки данных перед
выполнением операции преобразования типа. Набор данных для
экспериментов представлен далее:

Набор данных для экспериментов

Таблица 3.3 — Набор данных для экспериментов


In [78]:
df = pd.read_csv('data_2.csv', encoding = 'utf-8')
df

Unnamed: 0,Температура,Давление,Осадки,Дата
0,-8 °C,96292 Па,Да,2019-11-20
1,-10.3 °C,97292 Па,Да,2019-11-21
2,-9.1 °C,96325 Па,Нет,2019-11-22


In [79]:
# Посмотрим на типы:
df.dtypes

Температура    object
Давление       object
Осадки         object
Дата           object
dtype: object

Как вы можете видеть типы всех полей - object, а нам нужно, чтобы в
данные в первом столбце (Температура) были в формате float64, во
втором - int64, в третьем - bool. Если мы попытаемся напрямую
выполнить приведение с помощью функции astype(), то эта операция
завершиться неудачно, так как, например, для температуры, вместе с
интересующим нас численным значением находится единица
измерения. Для решения этой задачи напишем несколько функций
преобразования, которые помогут привести данные к нужному виду:

In [80]:
temper_convertor = lambda x: x.replace('°C', '').strip()
pressure_convertor = lambda x: x.replace('Па', '').strip()
prec_convertor = lambda x: True if x == 'Да' else False

#### Применим созданные функции к элементам структуры:

In [81]:
df['Температура'] = df['Температура'].apply(temper_convertor).astype('float64')
df['Давление'] = df['Давление'].apply(pressure_convertor).astype('int64')
df['Осадки'] = df['Осадки'].apply(prec_convertor)
df.dtypes

Температура    float64
Давление         int64
Осадки            bool
Дата            object
dtype: object

In [82]:
df

Unnamed: 0,Температура,Давление,Осадки,Дата
0,-8.0,96292,True,2019-11-20
1,-10.3,97292,True,2019-11-21
2,-9.1,96325,False,2019-11-22


### 3.2.3 Вспомогательные функции

Pandas предоставляет вспомогательные функции для преобразования
данных, которые избавляют от необходимости разрабатывать
соответствующие решения самим, таких функций три:
to_numeric() - преобразует данные в числовой тип;
to_datetime() - преобразует данные в тип datetime;
to_timedelta() - преобразует данные в тип timedelta.

#### Загрузим заново подготовленный набор данных:

#### Воспользуемся приведенными выше функциями для преобразования данных:

In [83]:
df['Температура'] = pd.to_numeric(df['Температура'], errors='coerce')
df['Давление'] = pd.to_numeric(df['Давление'], errors='coerce')
df['Дата'] = pd.to_datetime(df['Дата'], errors='coerce')
df.dtypes

Температура           float64
Давление                int64
Осадки                   bool
Дата           datetime64[ns]
dtype: object

In [84]:
df.head()

Unnamed: 0,Температура,Давление,Осадки,Дата
0,-8.0,96292,True,2019-11-20
1,-10.3,97292,True,2019-11-21
2,-9.1,96325,False,2019-11-22


### 3.2.4 Выборка данных по типу

Для выборки данных по типу используется функция select_dtypes(),
она возвращает DataFrame, построенный из исходного DataFrame’а, в
который будут входить столбцы с типами, указанными в аргументе
#### include, и не будут входит столбцы, типы которых, перечислены в
#### exclude аргументе:

In [85]:
df.select_dtypes(include=['float64', 'int64'])

Unnamed: 0,Температура,Давление
0,-8.0,96292
1,-10.3,97292
2,-9.1,96325


In [86]:
df.select_dtypes(exclude='datetime64[ns]')

Unnamed: 0,Температура,Давление,Осадки
0,-8.0,96292,True
1,-10.3,97292,True
2,-9.1,96325,False


## 3.3 Категориальные типы

Категориальные типы данных в pandas похожи по своей сути на
качественные признаки в статистике. Они задаются в виде конечного
набора строковых переменных. В качестве примеров можно привести
следующие:

• цвет: Red, Green, Blue;
• начертание шрифта: Normal, Bold, Italic;
• выравнивание текста: Right, Center, Left.

### 3.3.1 Создание структуры с набором категориальных данных

Рассмотрим варианты создания структуры с элементами категориального типа.

#### Работа со структурой Series

##### Если мы просто создадим структуру Series, без указания типа, то получим набор элементов с типом object:

In [87]:
s = pd.Series(['r', 'r', 'g', 'b'])
s

0    r
1    r
2    g
3    b
dtype: object

##### Если необходимо явно указать, что элементы относятся кbкатегориальному типу, то это нужно сделать через аргумент dtype:

In [88]:
s = pd.Series(['r', 'r', 'g', 'b'], dtype='category')
s

0    r
1    r
2    g
3    b
dtype: category
Categories (3, object): ['b', 'g', 'r']

### Работа с типом Categorical

Если заранее известна структура категории: набор ее элементов и
порядок, то можно создать объект класса Categorical:

pandas.Categorical(values, categories=None, ordered=None, dtype=None,fastpath=False)

• values : список
◦ Элементы данных. Если дополнительно указывается категория
через параметр categories, то значения не из категории
заменяются на NaN.

• categories : набор уникальных элементов, None; значение по
умолчанию: None
◦ Задает набор значений, которые может принимать элемент
категории. Если равен None, то категория строится по набору
уникальных элементов из параметра values.

• ordered : bool; значение по умолчанию: False
◦ Определяет, является категория порядковой или нет. Если
значение равно True, то категория является порядковой.

• dtype : CategoricalDtype
◦ Тип CategoricalDtype, который используется для категории.

#### Создадим категорию:

In [89]:
colors = pd.Categorical(['r', 'g', 'g', 'b', 'r'])
colors

['r', 'g', 'g', 'b', 'r']
Categories (3, object): ['b', 'g', 'r']

#### В этом примере категория была построена по элементам переданных данных, также как и в примере с Series. Укажем явно категорию:

In [90]:
colors = pd.Categorical(['r', 'g', 'g', 'b', 'r'], categories=['r',
'g', 'b'])
colors

['r', 'g', 'g', 'b', 'r']
Categories (3, object): ['r', 'g', 'b']

#### Если в наборе данных будут присутствовать элементы, которые не входят в категорию, им будут присвоены значения NaN:

In [91]:
colors = pd.Categorical(['r', 'g', 'g', 'b', 'r', 'y', 'o'], categories=['r', 'g', 'b'])
colors

['r', 'g', 'g', 'b', 'r', NaN, NaN]
Categories (3, object): ['r', 'g', 'b']

#### Из объекта Categorical можно построить структуру Series:

In [92]:
colors_s = pd.Series(colors)
colors_s

0      r
1      g
2      g
3      b
4      r
5    NaN
6    NaN
dtype: category
Categories (3, object): ['r', 'g', 'b']

#### Для очистки данных используется функция dropna():

In [93]:
colors_s = pd.Series(colors).dropna()
colors_s

0    r
1    g
2    g
3    b
4    r
dtype: category
Categories (3, object): ['r', 'g', 'b']

### Работа со структурой DataFrame

#### По аналогии с Series можно создать DataFrame с категориальными данными:

In [94]:
df = pd.DataFrame({'C1':list('rrg'), 'C2':list('rgb')}, dtype='category')
df

Unnamed: 0,C1,C2
0,r,r
1,r,g
2,g,b


In [95]:
df.dtypes

C1    category
C2    category
dtype: object

In [96]:
df['C1']

0    r
1    r
2    g
Name: C1, dtype: category
Categories (2, object): ['g', 'r']

### 3.3.2 Порядковые категории

Категориальные данные, о которых шла речь выше, не включают в себя
отношение порядка, то есть для переменных, принимающих значения из
таких категорий невозможно выполнить сравнение “больше-меньше”.
Существуют категории, для которых отношение порядка задается, это
может быть роль в фильме, образование и т.п.

#### Построим набор данных, с определением порядка:

In [97]:
level = pd.Categorical(['h', 'h', 'm', 'l'], categories=['l','m', 'h'], ordered=True)
level

['h', 'h', 'm', 'l']
Categories (3, object): ['l' < 'm' < 'h']

Обратите внимание на последнюю строчку, в ней указано как
соотносятся между собой значения элементов категории в отношении
“больше-меньше”. Если мы не укажем параметр ordered=True, то для
такого набора данных нельзя будет выполнить поиск минимального и
максимального элемента:

In [98]:
c_var = pd.Series(pd.Categorical(['r', 'g', 'g', 'b', 'r'], categories=['r', 'g', 'b'], ordered=False))
c_var

0    r
1    g
2    g
3    b
4    r
dtype: category
Categories (3, object): ['r', 'g', 'b']

In [99]:
# c_var.min()
# получим ошибку "TypeError: Categorical is not ordered for operation min you can use .as_ordered() to change the Categorical to an ordered one"

##### TypeError: Categorical is not ordered for operation min
##### you can use .as_ordered() to change the Categorical to an ordered one

#### Для созданного набора level, такую операцию сделать можно:

In [100]:
lev_var = pd.Series(level)
print('min: {}, max: {}'.format(lev_var.min(), lev_var.max()))

min: l, max: h


#### Для непорядковых категорий запрещены сравнения на уровне объектов, например:

In [101]:
c1 = pd.Series(pd.Categorical(['r', 'g', 'b', 'r'], categories=['r','g', 'b'], ordered=False))
c2 = pd.Series(pd.Categorical(['b', 'g', 'g', 'r'], categories=['r','g', 'b'], ordered=False))
# c1 > c2
# выдаст ошибку "TypeError: Unordered Categoricals can only compare equality or not"

#### Если объекты будут содержать данные с элементами типа порядковая категория, то все будет выполнено корректно:

In [102]:
v1 = pd.Series(pd.Categorical(['h', 'm', 'l', 'h'], categories=['l','m', 'h'], ordered=True))
v2 = pd.Series(pd.Categorical(['m', 'm', 'h', 'l'], categories=['l','m', 'h'], ordered=True))
v1 > v2

0     True
1    False
2    False
3     True
dtype: bool

# Глава 4. Работа с пропусками в данных

Часто, в больших объемах данных, которые подготавливаются для
анализа, имеются пропуски. Для того, чтобы можно было использовать
алгоритмы машинного обучения, строящие модели по этим данным,
необходимо эти пропуски заполнить. На вопрос “чем заполнять?” мы не
будем отвечать в рамках данной книги, т.к. он относится больше к теме
машинного обучения и анализа данных. А вот на вопрос “как заполнять?”
мы ответим, и решать эту задачу будем средствами библиотеки pandas,
которая предоставляет инструменты, позволяющие это сделать.

## 4.1 Pandas и отсутствующие данные

Для наших экспериментов создадим структуру DataFrame, которая будет содержать пропуски. 
#### Для этого импортируем необходимые нам библиотеки:

In [103]:
#from io import StringIO - импортируем на самом верху

#### После этого создадим объект в формате csv. 
CSV - это один из наиболее простых и распространенных форматов хранения данных, 
в котором элементы отделяются друг от друга запятыми:

In [104]:
data = 'price,count,percent\n1,10,\n2,20,51\n3,30,'
df = pd.read_csv(StringIO(data))

#### Полученный объект df - это DataFrame с пропусками:

In [105]:
df

Unnamed: 0,price,count,percent
0,1,10,
1,2,20,51.0
2,3,30,


В нашем примере, у объектов с индексами 0 и 2 отсутствуют данные в поле 'percent'. Отсутствующие данные помечаются как NaN.

#### Добавим к существующей структуре еще один объект (запись), у которого будет отсутствовать значение в поле 'count':

In [106]:
df.loc[3] = {'price':4, 'count':None, 'percent':26.3}
df

Unnamed: 0,price,count,percent
0,1,10.0,
1,2,20.0,51.0
2,3,30.0,
3,4,,26.3


#### Для начала обратимся к методам из библиотеки pandas, которые позволяют быстро определить наличие элементов NaN в структурах.

Если таблица небольшая, то можно использовать библиотечный метод isnull():

In [107]:
pd.isnull(df)

Unnamed: 0,price,count,percent
0,False,False,True
1,False,False,False
2,False,False,True
3,False,True,False


В результате мы получаем таблицу того же размера, но на месте
реальных данных, в ней находятся элементы типа bool, которые равны
False, если значение поля не-NaN, либо True в противном случае.

В дополнение к этому, можно посмотреть подробную информацию об объекте, с помощью метода info():

In [108]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   price    4 non-null      int64  
 1   count    3 non-null      object 
 2   percent  2 non-null      float64
dtypes: float64(1), int64(1), object(1)
memory usage: 128.0+ bytes


Из примера видно, что объект df имеет три столбца (count, percent и
price), при этом в столбце price все объекты значимы - не NaN, в
столбце count - один NaN объект, в поле percent - два NaN объекта.

#### Можно воспользоваться следующим подходом для определения количества NaN элементов в записях:

In [109]:
df.isnull().sum()

price      0
count      1
percent    2
dtype: int64

## 4.2 Замена отсутствующих данных

#### Отсутствующие данные объектов можно заменить на конкретные числовые значения с помощью метода fillna().

Для экспериментов будем использовать структуру df, созданную в предыдущем разделе:

In [110]:
df

Unnamed: 0,price,count,percent
0,1,10.0,
1,2,20.0,51.0
2,3,30.0,
3,4,,26.3


In [111]:
df.fillna(0)

Unnamed: 0,price,count,percent
0,1,10,0.0
1,2,20,51.0
2,3,30,0.0
3,4,0,26.3


Этот метод не изменяет текущую структуру, он возвращает структуру
DataFrame, созданную на базе существующей, с заменой NaN значений
на те, что переданы в метод в качестве аргумента. Данные можно
заполнить средним значением по столбцу:

In [112]:
df.fillna(df.mean())

Unnamed: 0,price,count,percent
0,1,10.0,38.65
1,2,20.0,51.0
2,3,30.0,38.65
3,4,20.0,26.3


В зависимости от задачи, используется тот или иной метод заполнения
отсутствующих элементов, это может быть нулевое значение,
математическое ожидание, медиана и т.п.

Для замены NaN элементов на конкретные значения, можно
использовать интерполяцию, которая реализована в методе
interpolate(), алгоритм интерполяции задается через аргумент
метода.

## 4.3 Удаление объектов/столбцов с отсутствующими данными

Довольно часто используемый подход при работе с отсутствующими
данными - это удаление записей (строк) или полей (столбцов), в которых
встречаются пропуски.

#### Для того, чтобы удалить все объекты, которые содержат значения NaN воспользуйтесь методом dropna() без аргументов:

In [113]:
df.dropna()

Unnamed: 0,price,count,percent
1,2,20,51.0


#### Вместо записей, можно удалить поля, для этого нужно вызвать метод dropna() с аргументом axis=1:

In [114]:
df.dropna(axis=1)

Unnamed: 0,price
0,1
1,2
2,3
3,4


#### Pandas позволяет задать порог на количество не-NaN элементов. 
#### В приведенном ниже примере будут удалены все столбцы в которых количество не-NaN элементов меньше трех:

In [115]:
df.dropna(axis = 1, thresh=3)

Unnamed: 0,price,count
0,1,10.0
1,2,20.0
2,3,30.0
3,4,


# Глава 5. Работа со структурами данных в pandas: удаление, объединение, расширение, группировка

## 5.1 Добавление элементов в структуру pandas

Начнем наш обзор с операции добавления элементов в структуру. Все
действия будут рассмотрены для двух структур: Series и DataFrame. Для
начала создадим структуры, с которыми мы будем работать.

Структура Series:

In [116]:
s = pd.Series([1, 2, 3, 4, 5], ['A', 'B', 'C', 'D', 'E'])

Словарь для DataFrame:

In [117]:
d = {'color':['red', 'green', 'blue'], 'speed': [56, 24, 65],'volume': [80, 65, 50]}

Структура DataFrame:

In [118]:
df = pd.DataFrame(d)
df

Unnamed: 0,color,speed,volume
0,red,56,80
1,green,24,65
2,blue,65,50


### 5.1.1 Добавление в Series

Добавить новый элемент в структуру Series очень просто, достаточно
указать новый индекс для объекта и задать значение элементу.

#### Добавим в структуру s новый элемент с индексом 'F' и значением 6:

In [119]:
s['F']=6
s

A    1
B    2
C    3
D    4
E    5
F    6
dtype: int64

### 5.1.2 Добавление в DataFrame

При работе с DataFrame в таблицу можно добавить как дополнительный столбец, так и целую запись. 
#### Начнем со столбца, данная операция очень похожа на добавление элемента в Series: мы указываем в квадратных скобках имя столбца и присваиваем ему список значений для каждой записи:

In [120]:
df

Unnamed: 0,color,speed,volume
0,red,56,80
1,green,24,65
2,blue,65,50


#### Добавим новый столбец 'type', указав для каждой записи (строки) значение данного поля:

In [121]:
df['type']=['circle', 'square', 'triangle']
df

Unnamed: 0,color,speed,volume,type
0,red,56,80,circle
1,green,24,65,square
2,blue,65,50,triangle


#### Можно добавить столбец с константным значением:

In [122]:
df['value'] = 7
df

Unnamed: 0,color,speed,volume,type,value
0,red,56,80,circle,7
1,green,24,65,square,7
2,blue,65,50,triangle,7


В DataFrame можно добавить объект Series как строку. Это действие
относится больше к теме “объединение данных”, но в данном контексте
она уместна:

In [123]:
new_row = pd.Series(['yellow', 34, 10, 'rectangle', 7], ['color','speed', 'volume', 'type', 'value'])
df.append(new_row, ignore_index=True)

Unnamed: 0,color,speed,volume,type,value
0,red,56,80,circle,7
1,green,24,65,square,7
2,blue,65,50,triangle,7
3,yellow,34,10,rectangle,7


## 5.2 Удаление элементов из структуры в pandas

### 5.2.1 Удаление из Series

Для удаления элементов из структуры Series используется метод
drop(), которому, в качестве аргумента, передается список меток для
удаления. При этом, необходимо помнить, что при использовании
данного метода, по умолчанию, текущая структура не изменяется, а
возвращается объект Series, в котором будут отсутствовать выбранные
метки.

#### Исходное состояние структуры s:

In [124]:
s

A    1
B    2
C    3
D    4
E    5
F    6
dtype: int64

In [125]:
s_new = s.drop(['A', 'B'])

#### После операции drop(), структура s осталась прежней:

In [126]:
s

A    1
B    2
C    3
D    4
E    5
F    6
dtype: int64

#### Структура s_new содержит все элементы из s за исключением тех, индексы которых были переданы методу drop():

In [127]:
s_new

C    3
D    4
E    5
F    6
dtype: int64

Как видно из примера, структура s не изменилась. Вызов метода drop()
привел к тому, что была создана еще одна структура с именем s_new без
указанных элементов. 

#### Если нужно изменить непосредственно саму структуру, то, дополнительно, необходимо аргументу inplace метода drop() присвоить значение True:

In [128]:
s.drop(['A', 'B'], inplace=True)
s

C    3
D    4
E    5
F    6
dtype: int64

### 5.2.2 Удаление из DataFrame

Для удаления элементов из структуры DataFrame также применяется метод drop(). 
#### Для демонстрации будем использовать объект df, созданный в предыдущем разделе:

In [129]:
df

Unnamed: 0,color,speed,volume,type,value
0,red,56,80,circle,7
1,green,24,65,square,7
2,blue,65,50,triangle,7


In [130]:
df_new = df.drop([0])
df_new

Unnamed: 0,color,speed,volume,type,value
1,green,24,65,square,7
2,blue,65,50,triangle,7


#### Если необходимо модифицировать саму структуру df, то укажите дополнительно параметр inplace=True:

In [131]:
df.drop([0], inplace=True)
df

Unnamed: 0,color,speed,volume,type,value
1,green,24,65,square,7
2,blue,65,50,triangle,7


DataFrame - это двумерная таблица, из которой можно удалять не только
строки, но и столбцы. Для этого необходимо указать ось, с которой мы
будем работать, она задается через параметр axis, по умолчанию
axis=0, что означает работу со строками. 
#### Если указать axis=1, то это позволит удалить ненужные столбцы:

In [132]:
df

Unnamed: 0,color,speed,volume,type,value
1,green,24,65,square,7
2,blue,65,50,triangle,7


In [133]:
df.drop(['color', 'value'], axis=1, inplace=True)

df

## 5.3 Объединение данных

Pandas предоставляет набор инструментов для решения задачи
объединения данных. В нашем распоряжении имеется возможность
просто объединять структуры в одну без дополнительной обработки,
либо сделать этот процесс более интеллектуальным, задействовав
представляемый pandas функционал.
Мы не будем рассматривать этот функционал отдельно для Series и
DataFrame, все возможности будут показаны только для DataFrame.

### 5.3.1 Использование метода concat

Задачу объединения структур в pandas решает метод concat:

#### pandas.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, copy=True)

Рассмотрим наиболее важные аргументы:

• objs: массив или словарь структур Series, DataFrame или Panel.
◦ Структуры для объединения.

• axis: 0 - строки, 1 - столбцы; значение по умолчанию: 0
◦ Ось, вдоль которой будет производиться объединение.

• join: {'inner', 'outer'}; значение по умолчанию: 'outer'
◦ Тип операции объединения, 'outer' - итоговая структура будет
результатом объединения (логическое ИЛИ) переданных
структур, 'inner' - итоговая структура будет результатом
пересечения (логическое И) переданных структур.

• ignore_index: bool; значение по умолчанию: False
◦ True — не используется значение индекса в процессе
объединения, False – используется.

#### Для начала создадим несколько структур DataFrame:

In [134]:
dfr1 = pd.DataFrame({'a_type':['a1', 'a2', 'a3'], 'b_type':['b1', 'b2','b3'], 'c_type':['c1', 'c2', 'c3']}, index=[0, 1, 2])
dfr1

Unnamed: 0,a_type,b_type,c_type
0,a1,b1,c1
1,a2,b2,c2
2,a3,b3,c3


In [135]:
dfr2 = pd.DataFrame({'a_type':['a4', 'a5', 'a6'], 'b_type':['b4', 'b5', 'b6'], 'c_type':['c4', 'c5', 'c6']}, index=[3, 4, 5])
dfr2

Unnamed: 0,a_type,b_type,c_type
3,a4,b4,c4
4,a5,b5,c5
5,a6,b6,c6


#### Теперь объединим эти две структуры в одну:

In [136]:
df1 = pd.concat([dfr1, dfr2])
df1

Unnamed: 0,a_type,b_type,c_type
0,a1,b1,c1
1,a2,b2,c2
2,a3,b3,c3
3,a4,b4,c4
4,a5,b5,c5
5,a6,b6,c6


#### Создадим ещё одну структуру и объединим ее с первой изменив ось:

In [137]:
dfr3 = pd.DataFrame({'d_type':['d1', 'd2', 'd3'], 'e_type':['e1','e2', 'e3']})
dfr3

Unnamed: 0,d_type,e_type
0,d1,e1
1,d2,e2
2,d3,e3


In [138]:
df2 = pd.concat([dfr1, dfr3], axis=1)
df2

Unnamed: 0,a_type,b_type,c_type,d_type,e_type
0,a1,b1,c1,d1,e1
1,a2,b2,c2,d2,e2
2,a3,b3,c3,d3,e3


#### Для выделения в итоговой структуре составляющие компоненты, используйте параметр keys при объединении:

In [139]:
df3 = pd.concat([dfr1, dfr2], keys=['dfr1', 'dfr2'])
df3

Unnamed: 0,Unnamed: 1,a_type,b_type,c_type
dfr1,0,a1,b1,c1
dfr1,1,a2,b2,c2
dfr1,2,a3,b3,c3
dfr2,3,a4,b4,c4
dfr2,4,a5,b5,c5
dfr2,5,a6,b6,c6


In [140]:
df3.loc['dfr2']

Unnamed: 0,a_type,b_type,c_type
3,a4,b4,c4
4,a5,b5,c5
5,a6,b6,c6


#### Если итоговая структура должна являться результатом объединения (логическое ИЛИ), то параметру join необходимо присвоить значение 'outer'.

In [141]:
dfr4 = pd.DataFrame({'d_type':['d2', 'd3', 'd4'], 'e_type':['e2','e3', 'e4']}, index=[1, 2, 3])
dfr4

Unnamed: 0,d_type,e_type
1,d2,e2
2,d3,e3
3,d4,e4


In [142]:
df4 = pd.concat([dfr1, dfr4], axis=1, join='outer')
df4

Unnamed: 0,a_type,b_type,c_type,d_type,e_type
0,a1,b1,c1,,
1,a2,b2,c2,d2,e2
2,a3,b3,c3,d3,e3
3,,,,d4,e4


#### Если итоговая структура должна являться результатом пересечения (логическое И), то параметру join необходимо присвоить значение 'inner':

In [143]:
df5 = pd.concat([dfr1, dfr4], axis=1, join='inner')
df5

Unnamed: 0,a_type,b_type,c_type,d_type,e_type
1,a2,b2,c2,d2,e2
2,a3,b3,c3,d3,e3


### 5.3.2 Использование Database-style подхода

Суть данного подхода в том, что используется очень быстрый способ
объединения структур данных, который идеологически похож на
операции с реляционными базами данных. В состав pandas входит
функция merge, которая представляет данный функционал:

#### pandas.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=True, suffixes=('_x', '_y'), copy=True, indicator=False, validate=None)

Разберем аргументы данной функции (в представленном ниже списке
указаны наиболее часто используемые аргументы):

• left: DataFrame
◦ “левая” DataFrame структура.

• right: DataFrame
◦ “правая” DataFrame структура.

• how: {'left', 'right', 'outer', 'inner'}; значение по
умолчанию: 'inner'
◦ Один из методов объединения: 'left', 'right', 'outer',
'inner':

▪ 'left' - это аналог SQL операции 'LEFT OUTER JOIN' при
этом будут использоваться ключи только из левого
DataFrame.

▪ 'right' - аналог SQL операции 'RIGHT OUTER JOIN' -
используются ключи из правого DataFrame.

▪ 'outer' - аналог SQL операции 'FULL OUTER JOIN' -
используется объединение ключей из правого и левого
DataFrame.

▪ 'inner' - аналог SQL операции 'INNER JOIN' -
используется пересечение ключей из правого и левого
DataFrame.

• on: список
◦ Список имен столбцов для объединения, столбцы должны
входить как в левый, так и в правый DataFrame.

• left_on: список
◦ Список столбцов левого DataFrame, которые будут
использоваться как ключи.

• right_on: список
◦ Список столбцов из правого DataFrame, которые будут
использоваться как ключи.

• left_index: bool; значение по умолчанию: False
◦ Если параметр равен True, то будет использован индекс (метки
строк) из левого DataFrame в качестве ключа(ей) для
объединения.

• right_index: bool; значение по умолчанию: False
◦ Если параметр равен True, то будет использован индекс (метки
строк) из правого DataFrame в качестве ключа(ей) для
объединения.

• sort: bool; значение по умолчанию: False
◦ Если параметр равен True, то данные в полученном DataFrame
будут отсортированы в лексикографическом порядке.

#### Рассмотрим несколько примеров того, как можно использовать функцию merge().

#### Создадим три DataFrame’а:

In [144]:
dfr1 = pd.DataFrame({'k':['k1', 'k2', 'k3'], 'a_type':['a1', 'a2', 'a3'], 'b_type':['b1', 'b2', 'b3']})
dfr1

Unnamed: 0,k,a_type,b_type
0,k1,a1,b1
1,k2,a2,b2
2,k3,a3,b3


In [145]:
dfr2 = pd.DataFrame({'k':['k1', 'k2', 'k3'], 'c_type':['c1', 'c2','c3']})
dfr2

Unnamed: 0,k,c_type
0,k1,c1
1,k2,c2
2,k3,c3


In [146]:
dfr3 = pd.DataFrame({'k':['k0', 'k1', 'k2'], 'c_type':['c1', 'c2', 'c3']})
dfr3

Unnamed: 0,k,c_type
0,k0,c1
1,k1,c2
2,k2,c3


#### Объединим их через merge(), в качестве ключа будем использовать столбец k:

In [147]:
dfm1 = pd.merge(dfr1, dfr2, on='k')
dfm1

Unnamed: 0,k,a_type,b_type,c_type
0,k1,a1,b1,c1
1,k2,a2,b2,c2
2,k3,a3,b3,c3


#### Пример использования how='left':

In [148]:
dfm2 = pd.merge(dfr1, dfr3, how='left', on='k')
dfm2

Unnamed: 0,k,a_type,b_type,c_type
0,k1,a1,b1,c2
1,k2,a2,b2,c3
2,k3,a3,b3,


#### Пример использования how='right':

In [149]:
dfm3 = pd.merge(dfr1, dfr3, how='right', on='k')
dfm3

Unnamed: 0,k,a_type,b_type,c_type
0,k0,,,c1
1,k1,a1,b1,c2
2,k2,a2,b2,c3


#### Пример использования how='outer':

In [150]:
dfm4 = pd.merge(dfr1, dfr3, how='outer', on='k')
dfm4

Unnamed: 0,k,a_type,b_type,c_type
0,k1,a1,b1,c2
1,k2,a2,b2,c3
2,k3,a3,b3,
3,k0,,,c1


#### Пример использования how='inner':

In [151]:
dfm5 = pd.merge(dfr1, dfr3, how='inner', on='k')
dfm5

Unnamed: 0,k,a_type,b_type,c_type
0,k1,a1,b1,c2
1,k2,a2,b2,c3


# Глава 6. Работа с внешними источниками данных

## 6.1 Работа с данными в формате CSV

CSV (Comma-Separated Values - значения, разделённые запятыми)
является одним из наиболее популярных форматов для хранения
табличных данных, представляет собой текстовый документ, в котором
элементы данных разделены запятыми, а строки файла являются
записями в таблице.

### 6.1.1 Чтение данных

#### Для загрузки данных из CSV файлов в pandas используется метод read_csv().

Количество аргументов в нем достаточно велико, из
наиболее часто используемых можно выделить следующие:

• filepath_or_buffer: str1 (Также возможны: pathlib.Path, py._path.local.LocalPath или любой объект с методом read())
◦ Путь до файла или буфера, который содержит данные в
формате CSV.

• sep: str; значение по умолчанию: ','
◦ Разделитель, по умолчанию он равен ',', т.к. в CSV данные
разделены запятыми. Довольно часто встречается вариант,
когда данные разделяются табуляцией, так называемые TSV-
файлы, если вы используете такой формат, то необходимо
параметру sep присвоить значение '\t'.

• header: int или список int’ов; значение по умолчанию: 0
◦ Номер строки, которая содержит имена столбцов загружаемой
таблицы. По умолчанию header=0. Если header=None, то имена
столбцов можно передать в параметре names.

• names: массив; значение по умолчанию: None
◦ Список имен столбцов таблицы, используется, если в файле нет
строки с именами столбцов и параметр header равен None.

#### Данные в формате CSV можно как непосредственно создавать в Python программе, так и загрузить из файла. 
Начнем с первого варианта. Для начала загрузим необходимые нам библиотеки:

In [152]:
# import pandas as pd
# from io import StringIO
# эти билиотеки загружены наверху

#### Теперь создадим строку, содержащую данные в формате CSV и построим на их базе DataFrame:

In [153]:
csv_d1 = 'col_A, col_B, col_C\na1, b1, c1\na2, b2, c2'
df = pd.read_csv(StringIO(csv_d1))
df

Unnamed: 0,col_A,col_B,col_C
0,a1,b1,c1
1,a2,b2,c2


В приведенном выше примере в первой строке набора данных содержатся заголовки колонок таблицы. Но не всегда бывает так. 

#### Ниже приведен случай, когда в таблице с данными нет информации об именах столбцов, эту ситуацию можно исправить, если параметру header присвоить None и передать нужные значения через параметр names:

In [154]:
csv_d2 = 'a1, b1, c1\na2, b2, c2\na3, b3, c3'
df1 = pd.read_csv(StringIO(csv_d2), header=None, names=['type_a','type_b', 'type_c'])
df1

Unnamed: 0,type_a,type_b,type_c
0,a1,b1,c1
1,a2,b2,c2
2,a3,b3,c3


#### Если файл с данными в формате CSV находится на диске, то для его загрузки достаточно передать имя файла в качестве первого параметра метода read_csv():

In [155]:
df3 = pd.read_csv('test.csv')
df3

Unnamed: 0,Name,Age,City
0,Anna,29,Moscow
1,John,21,New-York
2,Ivan,18,Tomsk
3,Mike,32,Los-Angeles


#### В случае, когда размер файла очень большой и его невозможно загрузить за одни раз в память (DataFrame), воспользуйтесь загрузкой по частям. 

#### Для этого нужно в функцию read_csv() дополнительно передать параметр chunksize, через который указывается количество строк, которые нужно считать в рамках одной порции. Такой подход позволяет работать с DataFrame'ами как с итераторами:

In [156]:
df_chunks = pd.read_csv('test.csv', chunksize=2)
for i, chunk in enumerate(df_chunks):
    print(f'Chunk #{i}')
    print(chunk)

Chunk #0
   Name  Age      City
0  Anna   29    Moscow
1  John   21  New-York
Chunk #1
   Name  Age         City
2  Ivan   18        Tomsk
3  Mike   32  Los-Angeles


In [157]:
df_chunks = pd.read_csv('test.csv', chunksize=2)
print(df_chunks.get_chunk())

   Name  Age      City
0  Anna   29    Moscow
1  John   21  New-York


In [158]:
print(df_chunks.get_chunk())

   Name  Age         City
2  Ivan   18        Tomsk
3  Mike   32  Los-Angeles


### 6.1.2 Запись данных

#### Для записи данных в формате CSV используется метод to_csv().

Рассмотрим некоторые из аргументов, которые могут быть полезны:

• path_or_buf: str или handle файла; значение по умолчанию: None
◦ Имя файла или буфера, в котором будут сохранены данные в
формате CSV.

• sep: str; значение по умолчанию: ','
◦ Разделитель элементов данных, по умолчанию sep=','.

• header: bool или список строк; значение по умолчанию: True
◦ Если в качестве значения передается True, то в файл первой
строкой запишутся имена столбцов, взятые из структуры
данных. Если будет передан список строк, то имена столбцов
будут взяты из него.

• encoding: str
◦ Кодировка. Если вы используете Python 3, то по умолчанию она
равна 'utf-8'.

#### Подготовим данные для записи:

In [159]:
csv_data = 'col_A, col_B, col_C\na1, b1, c1\na2, b2, c2'
df = pd.DataFrame(StringIO(csv_data))

#### Теперь запишем содержимое структуры df в файл с именем tmp.csv:

In [160]:
df.to_csv('tmp.csv')

## 6.2 Работа с данными в формате JSON

С развитием и широким распространением языка программирования
JavaScript возросла популярность формата данных, который органически
совместим с этим языком - JSON (JavaScript Object Notation). Подробно
об этом формате можно прочитать в википедии
(https://ru.wikipedia.org/wiki/JSON).

### 6.2.1 Чтение данных

#### Для чтения данных в формате JSON используется метод read_json().

##### Рассмотрим наиболее часто используемые аргументы данного метода:

• path_or_buf: JSON строка или файл; значение по умолчанию:
None
◦ Путь (это может быть как файл на диске, так и URL) до JSON
файла или строка, содержимое которой - корректный JSON.

• orient: str; значение по умолчанию: None
◦ Ориентация, для того, чтобы загружаемый JSON мог быть
преобразован в структуру данных pandas он должен иметь
определенный вид. 

##### Далее представлены возможные значения orient и соответствующий им JSON:

▪ 'split' : словарь со структурой {index -> [index],
columns -> [columns], data -> [values]}

▪ 'records': список со структурой [{column ->
value}, ... , {column -> value}]

▪ 'index': словарь со структурой {index -> {column ->
value}}

▪ 'columns': словарь со структурой {column -> {index ->
value}}

▪ 'values': массив значений.

• typ: тип объекта для записи; значение по умолчанию: 'frame'
◦ Тип структуры pandas, 'series' - это Series, 'frame' -
DataFrame. В зависимости от значения typ, можно использовать
определенные значения orient. Если typ='series', то orient
может быть 'split', 'records' или 'index', если typ='frame',
то orient нужно выбрать из следующего списка: 'split',
'records', 'index', 'columns', 'values'.

#### Сейчас немного потренируемся с чтением JSON файлов и буферов. В зависимости от того, каким образом отформатированы данные в JSON файле или буфере, используется то или иное значение параметра orient метода read_json().

##### orient='split'
##### Для orient='split' формат данных JSON должен выглядеть следующим образом:
{
'columns': ['col_A', 'col_B', 'col_C'],
'index': [0, 1],
'data': [['a1', 'b1', 'c1'], ['a2', 'b2', 'c2']]
}

#### Код для чтения JSON:

In [161]:
json_buf='{"columns": ["col_A", "col_B", "col_C"],"index": [0,1],"data": [["a1","b1","c1"],["a2","b2","c2"]]}'
df1=pd.read_json(json_buf, orient='split')
df1

Unnamed: 0,col_A,col_B,col_C
0,a1,b1,c1
1,a2,b2,c2


#### orient='records'
#### JSON данные:

[
{
'col_A': 'a1',
'col_B': 'b1',
'col_C':'c1'
},
{
'col_A': 'a2',
'col_B': 'b2',
'col_C': 'c2'
}
]

#### Код для чтения JSON:

In [162]:
json_buf2='[{"col_A": "a1", "col_B": "b1", "col_C":"c1"}, {"col_A":"a2", "col_B": "b2", "col_C": "c2"}]'
df2 = pd.read_json(json_buf2, orient='record')
df2

Unnamed: 0,col_A,col_B,col_C
0,a1,b1,c1
1,a2,b2,c2


#### orient='index'
#### JSON данные:

{
0: {'col_A': 'a1', 'col_B': 'b1', 'col_C':'c1' }
1: {'col_A': 'a2', 'col_B': 'b2', 'col_C':'c2' }
}


### Код для чтения JSON:

In [163]:
json_buf3='{"0": {"col_A": "a1", "col_B": "b1", "col_C":"c1" }, "1": {"col_A": "a2", "col_B": "b2", "col_C":"c2" } }'
df3 = pd.read_json(json_buf3, orient='index')
df3

Unnamed: 0,col_A,col_B,col_C
0,a1,b1,c1
1,a2,b2,c2


#### orient='columns'
#### JSON данные:

{
'col_A': {'0': 'a1', '1': 'a2'},
'col_B': {'0': 'b1', '1': 'b2'},
'col_C': {'0': 'c1', '1': 'c2'}
}


#### Код для чтения JSON:

In [164]:
json_buf4='{"col_A": {"0": "a1", "1": "a2"},"col_B": {"0": "b1", "1":"b2"},"col_C": {"0": "c1", "1": "c2"}}'
df4 = pd.read_json(json_buf4, orient='columns')
df4

Unnamed: 0,col_A,col_B,col_C
0,a1,b1,c1
1,a2,b2,c2


#### orient='values'
#### JSON данные:

[
['a1', 'b1', 'c1'],
['a2', 'b2', 'c2']
]

#### Код для чтения JSON:

In [165]:
json_buf5='[["a1", "b1", "c1"], ["a2", "b2", "c2"]]'
df5 = pd.read_json(json_buf5, orient='values')
df5

Unnamed: 0,0,1,2
0,a1,b1,c1
1,a2,b2,c2


### 6.2.2 Запись данных

#### При работе с JSON довольно часто приходится преобразовывать уже готовые структуры данных в этот формат. 
#### Для этого используется функция to_json().

Два самых важных аргумента данного метода - это path_or_buf и orient, их назначение тоже, что и в методе read_json(), только сейчас речь идет о записи данных, т.е. мы указываем файл или буфер, в который будут помещены данные.

#### Возьмем структуру DataFrame из предыдущей части:

In [166]:
d = {'color':['red', 'green', 'blue'], 'speed': [56, 24, 65], 'volume': [80, 65, 50]}
df = pd.DataFrame(d)
df

Unnamed: 0,color,speed,volume
0,red,56,80
1,green,24,65
2,blue,65,50


#### В зависимости от того, какого вида JSON файл (буфер) мы хотим получить, необходимо параметру orient присвоить соответствующее значение, рассмотрим различные варианты.

In [167]:
# orient='split':
json_split = df.to_json(orient='split')
json_split

'{"columns":["color","speed","volume"],"index":[0,1,2],"data":[["red",56,80],["green",24,65],["blue",65,50]]}'

In [168]:
# orient='records':
json_records = df.to_json(orient='records')
json_records

'[{"color":"red","speed":56,"volume":80},{"color":"green","speed":24,"volume":65},{"color":"blue","speed":65,"volume":50}]'

In [169]:
# orient='index':
json_index = df.to_json(orient='index')
json_index

'{"0":{"color":"red","speed":56,"volume":80},"1":{"color":"green","speed":24,"volume":65},"2":{"color":"blue","speed":65,"volume":50}}'

In [170]:
# orient='columns':
json_columns = df.to_json(orient='columns')
json_columns

'{"color":{"0":"red","1":"green","2":"blue"},"speed":{"0":56,"1":24,"2":65},"volume":{"0":80,"1":65,"2":50}}'

In [171]:
# orient='values':
json_values = df.to_json(orient='values')
json_values

'[["red",56,80],["green",24,65],["blue",65,50]]'

## 6.3 Работа с Excel файлами

Рассмотрим базовые возможности, которые предоставляет pandas для
работы с Excel-файлами.

### 6.3.1 Чтение данных

#### Для чтения данных используется метод read_excel(). 
Он может работать как с файлами в формате Excel 2003 (расширение .xls), так и с файлами в формате Excel 2007 (расширение .xlsx). 
#### Для экспериментов создадим Excel-файл в формате Excel 2003 с именем “test.xls”, добавим в него два листа “Sheet1”, “Sheet2” (см. таблицы 6.1 и 6.2).

#### Прочитаем лист “Sheet1” и поместим полученные данные в DataFrame:

In [172]:
df_xls_sheet1 = pd.read_excel('test.xls', sheet_name='Sheet1', header=None)
df_xls_sheet1

Unnamed: 0,0,1,2
0,red,17,1
1,blue,35,2
2,white,42,3
3,yellow,63,4
4,green,53,5


Обратите внимание на параметр header. По умолчанию он равен нулю -
это означает, что заголовки столбцов лежат в строке с номером 0. В
нашем случае у таблиц нет заголовков, поэтому нужно параметру header
присвоить значение None.

#### Прочитаем содержимое листа “Sheet2”:

In [173]:
df_xls_sheet2 = pd.read_excel('test.xls', sheet_name='Sheet2', header=None)
df_xls_sheet2

Unnamed: 0,0,1,2
0,3,a,a1
1,5,h,b1
2,1,d,c1
3,3,s,d1
4,6,a,e1


Для работы с Excel-файлом можно использовать класс ExcelFile,
объекты которого связываются с определенным файлом на диске.
Объекты этого класса являются контекстными менеджерами, что делает
возможным работу с конструкцией with:

In [174]:
with pd.ExcelFile('test.xls') as excel:
    df1 = pd.read_excel(excel, sheet_name='Sheet1', header=None)
    print(df1)

        0   1  2
0     red  17  1
1    blue  35  2
2   white  42  3
3  yellow  63  4
4   green  53  5


В самом простом случае, работа с ExcelFile может выглядеть вот так:

In [175]:
excel = pd.ExcelFile('test.xls')
df2 = pd.read_excel(excel, sheet_name='Sheet2', header=None)
df2

Unnamed: 0,0,1,2
0,3,a,a1
1,5,h,b1
2,1,d,c1
3,3,s,d1
4,6,a,e1


### 6.3.2 Запись данных

Для записи данных в Excel-файл предварительно подготовим
соответствующий DataFrame. Воспользуемся примером из раздела,
посвященного JSON:

In [176]:
json_buf='[["a1", "b1", "c1"], ["a2", "b2", "c2"]]'
df = pd.read_json(json_buf, orient='values')
df

Unnamed: 0,0,1,2
0,a1,b1,c1
1,a2,b2,c2


#### Запись осуществляется с помощью метода to_excel():

In [177]:
df.to_excel('test_excel.xlsx', sheet_name='Sheet1')

В результате мы получим Excel файл с именем test_excel.xlsx, у которого
будет одна страница, называющаяся Sheet1, содержание которой
представлено в таблице 6.3.

#### Если параметру header присвоить значение None, то в таблице будет отсутствовать заголовки колонок:

In [178]:
df.to_excel('test_excel1.xlsx', sheet_name='Sheet1', header=None)

#### Для того, чтобы убрать индексы (имена) строк нужно дополнительно добавить параметр index=False:

In [179]:
df.to_excel('test_excel2.xlsx', sheet_name='Sheet1', header=None, index=False)

# Глава 7. Операции над данными

## 7.1 Арифметические операции

Структуры данных pandas можно складывать, вычитать, умножать и делить (поэлементно).

#### Для начала создадим две структуры DataFrame:

In [180]:
json_buf1='[["10", "20", "30"], ["40", "50", "60"]]'
df1 = pd.read_json(json_buf1, orient='values')
json_buf2='[["12", "24", "14"], ["16", "54", "25"]]'
df2 = pd.read_json(json_buf2, orient='values')

In [181]:
df1

Unnamed: 0,0,1,2
0,10,20,30
1,40,50,60


In [182]:
df2

Unnamed: 0,0,1,2
0,12,24,14
1,16,54,25


#### Рассмотренные ниже методы не модифицируют саму структуру, они возвращают новую структуру, которую можно сохранить в отдельной переменной.

#### Для сложения структур используется метод add():

In [183]:
df1.add(df2)

Unnamed: 0,0,1,2
0,22,44,44
1,56,104,85


#### К элементам структуры можно добавить константу:

In [184]:
df1.add(5)

Unnamed: 0,0,1,2
0,15,25,35
1,45,55,65


#### Вычитание осуществляется с помощью метода sub():

In [185]:
df1.sub(df2)

Unnamed: 0,0,1,2
0,-2,-4,16
1,24,-4,35


In [186]:
df1.sub(7)

Unnamed: 0,0,1,2
0,3,13,23
1,33,43,53


#### Для умножения структур применяется метод mul():

In [187]:
df1.mul(df2)

Unnamed: 0,0,1,2
0,120,480,420
1,640,2700,1500


In [188]:
df1.mul(2)

Unnamed: 0,0,1,2
0,20,40,60
1,80,100,120


#### Для деления используется метод div():

In [189]:
df1.div(df2)

Unnamed: 0,0,1,2
0,0.833333,0.833333,2.142857
1,2.5,0.925926,2.4


In [190]:
df1.div(2)

Unnamed: 0,0,1,2
0,5.0,10.0,15.0
1,20.0,25.0,30.0


## 7.2 Логические операции

По имеющимся структурам можно строить новые, элементами которых
будут логические переменных, значения которых определяются тем,
удовлетворяет ли элемент исходной структуры определенному условию
или нет.

#### Возьмем структуру df2 из предыдущего раздела:

In [191]:
json_buf2='[["12", "24", "14"], ["16", "54", "25"]]'
df2 = pd.read_json(json_buf2, orient='values')
df2

Unnamed: 0,0,1,2
0,12,24,14
1,16,54,25


#### Определим элементы структуры df2, значения которые больше 20:

In [192]:
df2 > 20

Unnamed: 0,0,1,2
0,False,True,False
1,False,True,True


Pandas предоставляет инструменты свертки структур данных для
получения сводной информации. 
#### Для выполнения операции “логическое ИЛИ” по строкам или столбцам используется метод any(). 
#### Выбор направления определяется параметром axis.

#### Свертка по столбцам:

In [193]:
(df2 > 20).any()

0    False
1     True
2     True
dtype: bool

#### Свертка по строкам:

In [194]:
(df2 > 20).any(axis=1)

0    True
1    True
dtype: bool

#### Для выполнения операции “логическое И” по строкам или столбцам используется метод all(). Выбор направления также определяется параметром axis.

#### Свертка по столбцам:

In [195]:
(df2 > 20).all()

0    False
1     True
2    False
dtype: bool

#### Свертка по строкам:

In [196]:
(df2 > 20).all(axis=1)

0    False
1    False
dtype: bool

#### Для сравнения элементов структур на равенство можно использовать метод equals() или оператор проверки на равенства (==) из языка Python.

#### Создадим ещё одну структуру DataFrame:

In [197]:
json_buf3='[["12", "17", "18"], ["16", "54", "68"]]'
df3 = pd.read_json(json_buf3, orient='values')
df3

Unnamed: 0,0,1,2
0,12,17,18
1,16,54,68


#### Вспомним как выглядит структура df2:

In [198]:
df2

Unnamed: 0,0,1,2
0,12,24,14
1,16,54,25


#### Если сравнить эти структуры с помощью оператора == , то в результате получим DataFrame, элементами которого будут логические переменные. Если значения элементов на данной позиции в обоих DataFrame’ах совпадают, то переменная будет равна True, в противном случае False:

In [199]:
df2 == df3

Unnamed: 0,0,1,2
0,True,False,False
1,True,True,False


#### Можно сравнивать каждый элемент структуры с некоторым константным значением:

In [200]:
df2 == 12

Unnamed: 0,0,1,2
0,True,False,False
1,False,False,False


#### Для быстрой проверки равенства двух структур используется метод equals(). Если структуры равны (на одних и тех же позициях стоят одни и те же значения), то результат будет True, в противном случае False:

In [201]:
df2.equals(df3)

False

In [202]:
df2.equals(df2)

True

## 7.3 Статистики

Pandas предоставляет методы для расчета различных статистик (список
приведен в таблице 7.1). Если вы работаете со структурами DataFrame,
то можно указать ось, по которой будет производиться расчет: axis=0
для столбцов, axis=1 для строк, по умолчанию axis=0.

#### Таблица 7.1 - Методы для расчета статистик

#### Метод Описание

count Количество не-NA объектов

sum Сумма

mean Среднее значение

mad Среднее абсолютное отклонение

median Медиана

min Минимум

max Максимум

mode Мода

abs Абсолютное значение

prod Произведение

std Стандартное отклонение

var Несмещенная дисперсия

sem Стандартная ошибка среднего

skew Скошенность (момент 3-го порядка)

kurt Эксцесс (момент 4-го порядка)

quantile Квантиль (%)

cumsum Кумулятивная сумма

cumprod Кумулятивное произведение

cummax Кумулятивный максимум

cummin Кумулятивный минимум

#### Теперь рассмотрим несколько примеров того, как можно использовать данные методы. Создадим DataFrame размера три на четыре:

In [203]:
json_buf='[["12", "24", "14", "17"], ["16", "54", "25", "83"], ["65","35", "12", "72"]]'
df = pd.read_json(json_buf, orient='value')
df

Unnamed: 0,0,1,2,3
0,12,24,14,17
1,16,54,25,83
2,65,35,12,72


#### Ниже представлены примеры работы функций расчета статистик.

#### Сумма по столбцам:

In [204]:
df.sum()

0     93
1    113
2     51
3    172
dtype: int64

#### Сумма по строкам:

In [205]:
df.sum(axis=1)

0     67
1    178
2    184
dtype: int64

#### Среднее значение по столбцам:

In [206]:
df.mean()

0    31.000000
1    37.666667
2    17.000000
3    57.333333
dtype: float64

#### Медиана по столбцам:

In [207]:
df.median()

0    16.0
1    35.0
2    14.0
3    72.0
dtype: float64

#### Кумулятивная сумма по столбцам:

In [208]:
df.cumsum()

Unnamed: 0,0,1,2,3
0,12,24,14,17
1,28,78,39,100
2,93,113,51,172


#### Для получения сводной информации по статистикам можно воспользоваться методом describe():

In [209]:
df.describe()

Unnamed: 0,0,1,2,3
count,3.0,3.0,3.0,3.0
mean,31.0,37.666667,17.0,57.333333
std,29.512709,15.176737,7.0,35.360053
min,12.0,24.0,12.0,17.0
25%,14.0,29.5,13.0,44.5
50%,16.0,35.0,14.0,72.0
75%,40.5,44.5,19.5,77.5
max,65.0,54.0,25.0,83.0


#### Для структур DataFrame, по умолчанию, статистики рассчитываются для столбцов.

#### Завершим обзор возможностей pandas для расчета статистик функцией value_counts(). Для начала создадим список из тридцати значений, каждое из которых является случайным числом в диапазоне от 0 до 7:

In [210]:
random.seed(123)
rnd_list = [random.randint(0, 7) for i in range(30)]
rnd_list

[0,
 4,
 1,
 6,
 4,
 1,
 0,
 6,
 5,
 5,
 0,
 2,
 2,
 5,
 5,
 3,
 2,
 0,
 6,
 1,
 6,
 1,
 0,
 5,
 7,
 1,
 0,
 1,
 2,
 2]

#### Для получения информации о количестве конкретных чисел в получившемся списке воспользуемся функцией value_counts():

In [211]:
s = pd.Series(rnd_list)
s.value_counts()

1    6
0    6
5    5
2    5
6    4
4    2
7    1
3    1
dtype: int64

#### Как видно, больше всего в нашем массиве единиц и нулей.

## 7.4 Функциональное расширение

### 7.4.1 Потоковая обработка данных

Потоковая обработка данных - это подход, который позволяет в удобном
виде задавать обработку данных таким образом, что структура pandas
является аргументом некоторой функции, результат которой передается
в следующую функцию и т.д. Это похоже на конвейерную обработку. 
#### Для использования данного подхода применяется метод pipe(). 
Рассмотрим это на примере.

#### Для начала реализуем такую обработку без использования функции pipe().

#### Построим DataFrame из JSON-строки:

In [212]:
json_buf='[["12", "24", "14", "17"], ["16", "54", "25", "83"], ["65", "35", "12", "72"]]'
df = pd.read_json(json_buf, orient='value')
df

Unnamed: 0,0,1,2,3
0,12,24,14,17
1,16,54,25,83
2,65,35,12,72


#### Создадим три функции: возведение в квадрат, корень третьей степени и функция, вычитающая число 10:

In [213]:
sqr = lambda x: x**2
root3 = lambda x: x**(1.0/3.0)
minus10 = lambda x: x - 10

#### Если мы хотим сначала возвести каждый элемент структуры df в квадрат, потом вычесть из полученного значения 10, а следом взять корень третьей степени, то самый простой способ реализации такой задачи выглядит так:

In [214]:
root3(minus10(sqr(df)))

Unnamed: 0,0,1,2,3
0,5.11723,8.271904,5.708267,6.534335
1,6.265827,14.270259,8.504035,19.018449
2,16.153471,10.67068,5.11723,17.295859


С такой записью есть несколько проблем: во-первых: она не очень
наглядная (хотя не все с этим согласятся), во-вторых: у данных функций
могут быть дополнительные аргументы, что будет затруднять чтение и
понимание смысла строки кода; в-третьих: модификация такой записи,
при большом количестве используемых функций, вызовет трудности.

#### Обойти эти затруднения можно с помощью функции pipe(), аргументом которой является обрабатывающая функция:

In [215]:
(df.pipe(sqr)
.pipe(minus10)
.pipe(root3))

Unnamed: 0,0,1,2,3
0,5.11723,8.271904,5.708267,6.534335
1,6.265827,14.270259,8.504035,19.018449
2,16.153471,10.67068,5.11723,17.295859


### 7.4.2 Применение функции к элементам строки или столбца

В разделе, посвященном расчету статистик, мы использовали
специальные функции (mean(), std() и т.д.), вычисляющие нужные нам
численные показатели по элементам строки или столбца. 
#### Pandas предоставляет возможность использовать свои собственные функции применяя аналогичный подход. Для этого используется метод apply().

#### Эксперименты будем проводить со структурой df (см. потоковая обработка данных):

In [216]:
df.apply(lambda x: sum(x)/len(x))

0    31.000000
1    37.666667
2    17.000000
3    57.333333
dtype: float64

#### В приведенном выше примере, аргументами функции lambda x: sum(x)/len(x) являются списки, состоящие из столбцов исходной структуры.

#### Вот вариант функции, которая вычисляет квадратный корень из суммы по столбцам:

In [217]:
df.apply(lambda x: sum(x)**(0.5))

0     9.643651
1    10.630146
2     7.141428
3    13.114877
dtype: float64

#### Такую же операцию можно сделать построчно:

In [218]:
df.apply(lambda x: sum(x)**(0.5), axis=1)

0     8.185353
1    13.341664
2    13.564660
dtype: float64

### 7.4.3 Агрегация (API)

#### Ещё одним функциональным расширением, которое предоставляет библиотека pandas является агрегация. Суть в том, что можно использовать несколько функций в том виде, как это мы делали в предыдущем разделе, когда разбирали функцию apply(), только в этом случае нам поможет функция agg().

#### Работать будем с уже известной нам структурой df (см. потоковая обработка данных):

In [219]:
df

Unnamed: 0,0,1,2,3
0,12,24,14,17
1,16,54,25,83
2,65,35,12,72


#### Для начала найдем сумму элементов по столбцам, вы уже должны знать как минимум 2-3 способа как это можно сделать, вот ещё одни в копилку:

In [220]:
df.agg('sum')

0     93
1    113
2     51
3    172
dtype: int64

#### Но что если мы хотим сразу посчитать сумму, среднее значение и стандартное отклонение? Используя агрегацию это очень просто сделать:

In [221]:
df.agg(['sum', 'mean', 'std'])

Unnamed: 0,0,1,2,3
sum,93.0,113.0,51.0,172.0
mean,31.0,37.666667,17.0,57.333333
std,29.512709,15.176737,7.0,35.360053


#### Не забудем и про свои собственные функции:

In [222]:
strange = lambda x: sum(x)**(0.5)
min_div_5 = lambda x: min(x) / 5.0
df.agg([max, strange, min_div_5])

Unnamed: 0,0,1,2,3
max,65.0,54.0,25.0,83.0
<lambda>,9.643651,10.630146,7.141428,13.114877
<lambda>,2.4,4.8,2.4,3.4


#### Как вы заметили, в данном примере, на месте имен функций strange и min_div_5 стоит надпись lambda, чтобы это убрать перепишем эти функции как обычные python-функции:

In [223]:
def strange(x):
    return sum(x)**(0.5)

In [224]:
def min_div_5(x):
    return min(x) / 5.0

In [225]:
df.agg([max, strange, min_div_5])

Unnamed: 0,0,1,2,3
max,65.0,54.0,25.0,83.0
strange,9.643651,10.630146,7.141428,13.114877
min_div_5,2.4,4.8,2.4,3.4


#### Теперь все в порядке! Если вернуться к предыдущему варианту с lambda-функциями, можно добиться нужного нам результата присвоив функциям соответствующие имена (в качестве имени может выступать любая строка):

In [226]:
strange = lambda x: sum(x)**(0.5)
min_div_5 = lambda x: min(x) / 5.0
strange.__name__ = 'strange fun'
min_div_5.__name__ = 'min / 5'
df.agg([max, strange, min_div_5])

Unnamed: 0,0,1,2,3
max,65.0,54.0,25.0,83.0
strange fun,9.643651,10.630146,7.141428,13.114877
min / 5,2.4,4.8,2.4,3.4


### 7.4.4 Трансформирование данных

#### Формат вызова трансформирующей функции похож на тот, что используется при агрегации. В отличии от последней, трансформация - это применение функции к каждому элементу структуры, в результате будет возвращена структура того же размера (или больше), но с измененными элементами.

#### Создадим две функции:

In [227]:
mul2 = lambda x: x * 2
mul2.__name__ = 'mul2'
div2 = lambda x: x / 2
div2.__name__ = 'div2'

#### Используем трансформирующую функцию для модификации элементов структуры df (см. потоковая обработка данных):

In [228]:
df.transform([mul2])

Unnamed: 0_level_0,0,1,2,3
Unnamed: 0_level_1,mul2,mul2,mul2,mul2
0,24,48,28,34
1,32,108,50,166
2,130,70,24,144


#### Вариант с двумя функциями для модификации:

In [229]:
df.transform([mul2, div2])

Unnamed: 0_level_0,0,0,1,1,2,2,3,3
Unnamed: 0_level_1,mul2,div2,mul2,div2,mul2,div2,mul2,div2
0,24,6.0,48,12.0,28,7.0,34,8.5
1,32,8.0,108,27.0,50,12.5,166,41.5
2,130,32.5,70,17.5,24,6.0,144,36.0


#### Можно работать с отдельными столбцами:

In [230]:
df[0].transform([mul2, div2])

Unnamed: 0,mul2,div2
0,24,6.0
1,32,8.0
2,130,32.5


## 7.5 Использование методов типа str для работы с текстовыми данными

Часто структуры данных pandas используются для хранения текстовых
данных - строк и символов. Текстовые данные также могут быть частью
самой структуры, например заголовки столбцов и т.п. Pandas позволяет
использовать функционал типа str языка Python для работы с такими
данными.

#### Рассмотрим пару примеров на практике. Для начала создадим Series, содержащий текстовые данные:

In [231]:
s = pd.Series([' hellO', ' abcABC ', ' one', 'TWO ', ' tHRee'])
s

0       hellO
1     abcABC 
2         one
3        TWO 
4       tHRee
dtype: object

#### Через атрибут str мы можем получить доступ ко всем методам типа данных str из языка Python применительно к элементам структуры Series.

#### Приведем все буквы элементов структуры s к нижнему регистру:

In [232]:
s.str.lower()

0       hello
1     abcabc 
2         one
3        two 
4       three
dtype: object

#### Удалим все лишние пробелы и сделаем заглавными первые буквы слов:

In [233]:
s.str.lower().str.strip().str.title()

0     Hello
1    Abcabc
2       One
3       Two
4     Three
dtype: object

#### Весь список методов, доступных для объекта типа str, можно найти в документации по языку Python.

## Глава 8. Настройка pandas

## 8.1 API для работы с настройками pandas

#### Библиотека pandas предоставляет API для работы с настройками, в него входят функции, перечисленные в таблице 8.1.

#### Таблица 8.1 - Функции для работы с настройками pandas

Функция Описание

get_option() Получение значения параметра

set_option() Установка нового значения параметра

reset_option() Сброс параметра на значение “по умолчанию”

describe_option() Вывод текстового описания параметра

option_context() Присвоение параметрам новых значений в рамках определенного блока кода. Используется с оператором with

#### Также возможна работа с настройками как с атрибутами (через точку).

#### Рассмотрим первый вариант: изменение настроек через вызов функции.
#### Для получения значения параметра используется функция get_option(), в качестве аргумента ей передается настраевыемый параметр в текстовом виде.

#### Максимальное количество выводимых строк:

In [234]:
pd.get_option('display.max_rows')

60

#### Используемая кодировка:

In [235]:
pd.get_option('display.encoding')

'UTF-8'

#### Максимальное количество выводимых столбцов с данными:

In [236]:
pd.get_option('display.max_columns')

20

#### Установка нового значения осуществляется с помощью функции set_option(): ее первым аргументом является название параметра в текстовом виде, вторым - новое значение параметра.

#### Создадим структуру Series для демонстрации:

In [237]:
s = pd.Series([10, 3, 46, 1, 312, 344, 193, 42, 39, 77, 3])
s

0      10
1       3
2      46
3       1
4     312
5     344
6     193
7      42
8      39
9      77
10      3
dtype: int64

#### Текущее значение параметра display.max_rows (максимальное количество выводимых строк):

In [238]:
pd.get_option('display.max_rows')

60

#### Изменим это значение на 5:

In [239]:
pd.set_option('display.max_rows', 5) # в примере было 5 строк
pd.get_option('display.max_rows')

5

#### Вывод содержимого структуры s с новыми настройками:

In [240]:
s

0     10
1      3
      ..
9     77
10     3
Length: 11, dtype: int64

#### Установим прежнее значение:

In [241]:
pd.set_option('display.max_rows', 60)
pd.get_option('display.max_rows')

60

#### Значение параметра можно сбросить на значение “по умолчанию”, для этого используется функция reset_option().

#### Описание параметра можно получить с помощью функции describe_option():

In [242]:
pd.describe_option('display.max_rows')

display.max_rows : int
    If max_rows is exceeded, switch to truncate view. Depending on
    `large_repr`, objects are either centrally truncated or printed as
    a summary view. 'None' value means unlimited.

    In case python/IPython is running in a terminal and `large_repr`
    equals 'truncate' this can be set to 0 and pandas will auto-detect
    the height of the terminal and print a truncated object which fits
    the screen height. The IPython notebook, IPython qtconsole, or
    IDLE do not run in a terminal and hence it is not possible to do
    correct auto-detection.
    [default: 60] [currently: 60]


#### Если необходимо выполнить блок кода, в рамках которого нужно временно присвоить ряду настроенных параметров определенные значения, то в этом случае рекомендуется использовать функцию option_context():

In [243]:
with pd.option_context('display.max_rows', 25):
    print(pd.get_option('display.max_rows'))

25


In [244]:
pd.get_option('display.max_rows')

60

#### Второй вариант работы с настройками — это использование свойства options. Выведем значения уже знакомых нам настроек:

In [245]:
pd.options.display.max_rows

60

In [246]:
pd.options.display.max_columns

20

#### Присвоим параметру новое значение:

In [247]:
pd.options.display.max_columns = 3
pd.options.display.max_columns

3

In [248]:
pd.options.display.max_columns = 20
pd.options.display.max_columns

20

## 8.2 Настройки библиотеки pandas

Ниже, в таблице 8.2, представлены настраиваемые параметры, которые доступны при работе с pandas.

Таблица 8.2 - Настраиваемые параметры pandas

Настройка Значение по умолчанию Описание

#### display.chop_threshold 

None

Если float-значение ниже этого
порога, то оно будет
отображаться равным 0


#### display.colheader_justify 

right

Выравнивание заголовков
столбцов. Используется
DataFrameFormatter’ом.

#### display.date_dayfirst 

False

Если параметр равен True, то при
отображении и парсинге дат
будет использоваться следующий
порядок: день/месяц/год.

#### display.date_yearfirst 

False

Если параметр равен True, то при
отображении и парсинге дат
будет использоваться следующий
порядок: год/месяц/день.

#### display.encoding 

UTF-8

Определяет кодировку для строк,
возвращаемых через метод
to_string, а также для
отображения строк в консоли.

#### display.max_columns 

20

Если Python/IPython запущен в
терминале, то данный параметр
может быть установлен в 0, в
этом случае pandas будет
автоматически определять
ширину терминала и
использовать другой формат
представления, если все столбцы
не поместились вертикально.
Значение None определяет
неограниченное количество
символов.

#### display.max_colwidth 

50

Максимальная ширина столбца
(в символах) для представления
структур данных pandas. Когда
происходит переполнение
столбца по символам, то в вывод
будут добавлены символы “...”.

#### display.max_rows 

60

Параметр устанавливает
максимальное количество строк,
которые будут выведены при
отображении структур pandas.
Для снятия ограничения на
количество строк, присвойте
этому параметру значение None.

#### display.memory_usage 

True

Указывает, должен ли
отображаться объем занимаемой
памяти для DataFrame при
вызове метода df.info().

#### display.notebook_repr_html 

True

Если параметр равен True, то
IPython notebook будет
использовать html-представление
для объектов pandas.

#### display.precision 

6

Определяет количество знаков
после запятой при выводе чисел
с плавающей точкой.

#### display.width 

80

Ширина дисплея в символах.
Если python/IPython запущен в
терминале, то параметр может
быть установлен в None, в этом
случае pandas автоматически
определит ширину.

#### display.html.border 

1

Определяет значение для
атрибута border=value, который
будет вставлен в тег table для
HTML-представления структуры
DataFrame.

#### io.excel.xls.writer 
    
xlwt

Используемый по умолчанию
движок для работы с Excel-
файлами в формате “xls”.

#### io.excel.xlsm.writer
    
openpyxl

Используемый по умолчанию
движок для работы с Excel-
файлами в формате “xlsm”.

#### io.excel.xlsx.writer 

openpyxl

Используемый по умолчанию
движок для работы с Excel-
файлами в формате “xlsx”.

#### mode.sim_interactive 

False

Моделирование интерактивного
режима, используется при
тестировании.

# Глава 9. Инструменты для работы с данными

## 9.1 Скользящее окно. Статистики

Первый набор инструментов, который мы рассмотрим, относится к
группе, которую можно назвать скользящие статистики (или оконные
функции). Суть их заключается в том, что различные статистики, такие
как математическое ожидание, медиана, ковариация, стандартное
отклонение и т.п. расчитываются не для всех объектов структуры, а
только для группы подряд идущих значений, размер этой группы
предварительно задается задавать вручную (этот параметр носит
название - размер окна).

#### Рисунок 9.1 — Скользящее окно

#### Расчет статистик (например среднего значения) будет выглядеть так:

#### Рисунок 9.2 — Расчет статистик (среднего значения)

#### Для проведения экспериментов создадим структуру Series:

In [249]:
arr = [random.randint(0, 50) for i in range(500)]
s = pd.Series(arr)
s.shape

(500,)

In [250]:
s[0:5]

0    50
1     1
2    18
3    27
4    36
dtype: int64

#### Для расчета различных статистик с заданным окном, для начала, создадим объект класса Rolling. Для этого воспользуемся функцией pandas.DataFrame.rolling():

DataFrame.rolling(window, min_periods=None, freq=None, center=False, win_type=None, on=None, axis=0, closed=None)

Данная функция имеет следующие параметры:

• window: int
◦ Размер окна.

• min_periods: int; значение по умолчанию: None
◦ Минимальное количество элементов в окне для получения
значения статистики.

• freq: str или объект DateOffset; значение по умолчанию: None
◦ В настоящий момент данный параметр имеет статус
Deprecated и не рекомендован к использованию.

• center: bool; значение по умолчанию: False
◦ Установка метки в центр окна.

• win_type: str; значение по умолчанию: None
◦ Тип окна (об этом параметре более подробно будет рассказано
позже).

• on: str; значение по умолчанию: None
◦ Задает столбец, по которому будут производиться вычисления.

• closed: str; значение по умолчанию: None
◦ Определяет конечные точки закрытого интервала ('right',
'left', 'both', 'neither').

• axis: int или str; значение по умолчанию: 0
◦ Ось, вдоль которой будут производиться вычисления (0 -
вычисления по строкам, 1 - по столбцам).

#### Создадим объект Rolling с настройками по умолчанию и зададим размер окна равным 10:

In [251]:
roll = s.rolling(window=10)
roll

Rolling [window=10,center=False,axis=0]

Данный объект предоставляет методы для расчета скользящих
статистик. Список методов практически аналогичен тому, что был
приведен в главе 7 (раздел “статистики”). 
#### Ниже, в таблице 9.1, приведены наиболее часто используемые функции.

#### Таблица 9.1 - Методы, используемые для расчета скользящих статистик

Метод Описание

apply() Функция общего назначения

corr() Корреляция

cov() Ковариация

count() Количество не-NA объектов

kurt() Эксцесс (момент 4-го порядка)

max() Максимум

mean() Среднее значение

median() Медиана

min() Минимум

quantile() Квантиль (%)

skew() Скошенность (момент 3-го порядка)

std() Стандартное отклонение

sum() Сумма

var() Несмещенная дисперсия

#### Теперь можно использовать функции расчета статистик применительно к созданному набору данных с заданным окном:

In [252]:
pd.options.display.max_rows=20
roll.median()

0       NaN
1       NaN
2       NaN
3       NaN
4       NaN
       ... 
495    22.0
496    25.0
497    18.5
498    18.5
499    12.0
Length: 500, dtype: float64

Для ограничения выводимой информации мы воспользовались
настройкой max_rows, о том, что это такое и как использовать данный
параметр написано в главе 8. Как вы можете видеть: до десятого
элемента (в нашем случае, это элемент с индексом 9 т.к. счет
начинается с нуля) элементы структуры имеют значение NaN. Это связано
с тем, что размер окна равен 10, и статистика считается по десяти
предыдущим элементам, такой момент наступает, когда мы доходим до
индекса 9.

#### Вычисление стандартного отклонения для окна размера 10:

In [253]:
roll.std()

0            NaN
1            NaN
2            NaN
3            NaN
4            NaN
         ...    
495    16.338435
496    16.338435
497    15.254872
498    15.926568
499    12.804513
Length: 500, dtype: float64

#### Определение элемента с максимальным численным значением среди элементов окна:

In [254]:
roll.max()

0       NaN
1       NaN
2       NaN
3       NaN
4       NaN
       ... 
495    49.0
496    49.0
497    49.0
498    49.0
499    42.0
Length: 500, dtype: float64

#### Можно использовать свои функции для расчета статистик, для этого их необходимо предварительно создать, а потом передать в качестве параметра методу apply().

#### Pandas позволяет задать тип окна, это делается с помощью параметра win_type функции rolling. Ниже приведена таблица возможных значений данного параметра.

#### Таблица 9.2 - Параметры, определяющие тип окна для расчета статистик

Значение параметра Описание

boxcar Прямоугольное окно (окно Дирихле)

triang Треугольное окно

blackman Окно Блэкмана

hamming Окно Хемминга

bartlett Окно Барлетта

parzen Окно Парзена

bohman Окно Бохмана

blackmanharris Окно Блэкмана-Харриса

nuttall Окно Наттела

barthann Окно Барлетта-Ханна

kaiser Окно Кайзера

gaussian Окно Гаусса

general_gaussian Обобщенное Гауссовое окно

slepian Окно Слепиана

Описание особенностей работы с данными параметрами выходит за
рамки книги.

## 9.2 Расширяющееся окно. Статистики

В предыдущем разделе мы познакомились со скользящими окнами и
расчетом статистик по ним. Этот раздел посвящен расширяющимся
окнами, размер которых, в отличии от скользящих, изменяется,
расширяясь, начиная с первого элемента.

#### Принцип работы расширяющегося окна, представлен на рисунках ниже

#### Рисунок 9.3 — Расширяющееся окно

#### Расчет среднего значения для такого окна будет производиться следующим образом:

#### Рисунок 9.4 — Расчет среднего значения для расширяющего окна

#### Для работы с расширяющимся окном используется объект класса Expanding, который можно получить через метод expanding() структуры pandas.

#### Воспользуемся структурой s, созданной в предыдущем разделе:

In [255]:
s[0:5]

0    50
1     1
2    18
3    27
4    36
dtype: int64

#### Создадим объект Expanding:

In [256]:
ex = s.expanding()
ex

Expanding [min_periods=1,center=False,axis=0]

#### Для расчета статистик используются функции, аналогичные тем, что применяются при работе с объектами Rolling (см. таблицу 1):

In [257]:
pd.options.display.max_rows=20

#### Вычислим среднее значение для расширяющегося окна:

In [258]:
ex.mean()

0      50.000000
1      25.500000
2      23.000000
3      24.000000
4      26.400000
         ...    
495    24.756048
496    24.766600
497    24.732932
498    24.683367
499    24.654000
Length: 500, dtype: float64

#### Вычисление стандартного отклонения для расширяющегося окна:

In [259]:
ex.std()

0            NaN
1      34.648232
2      24.879711
3      20.412415
4      18.474306
         ...    
495    14.395109
496    14.382514
497    14.387668
498    14.415797
499    14.416308
Length: 500, dtype: float64

#### Подход к работе с расширяющимся окном аналогичен тому, что используется для скользящего окна.

## 9.3 Время-ориентированное скольжение

#### Суть время-ориентированного скольжения в том, что в качестве окна используется временной интервал.
#### Создадим DataFrame, в котором индексом будет временная метка:

In [260]:
df = pd.DataFrame([1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
index=pd.date_range('20180101 00:00:00', periods=10, freq='s'))
df

Unnamed: 0,0
2018-01-01 00:00:00,1
2018-01-01 00:00:01,2
2018-01-01 00:00:02,3
2018-01-01 00:00:03,4
2018-01-01 00:00:04,5
2018-01-01 00:00:05,6
2018-01-01 00:00:06,7
2018-01-01 00:00:07,8
2018-01-01 00:00:08,9
2018-01-01 00:00:09,10


#### Создадим объект Rolling с окном в 2 секунды:

In [261]:
rt = df.rolling('2s')
rt.sum()

Unnamed: 0,0
2018-01-01 00:00:00,1.0
2018-01-01 00:00:01,3.0
2018-01-01 00:00:02,5.0
2018-01-01 00:00:03,7.0
2018-01-01 00:00:04,9.0
2018-01-01 00:00:05,11.0
2018-01-01 00:00:06,13.0
2018-01-01 00:00:07,15.0
2018-01-01 00:00:08,17.0
2018-01-01 00:00:09,19.0


#### Вот такой результат будет для окна в 5 секунд:

In [262]:
rt = df.rolling('5s')
rt.sum()

Unnamed: 0,0
2018-01-01 00:00:00,1.0
2018-01-01 00:00:01,3.0
2018-01-01 00:00:02,6.0
2018-01-01 00:00:03,10.0
2018-01-01 00:00:04,15.0
2018-01-01 00:00:05,20.0
2018-01-01 00:00:06,25.0
2018-01-01 00:00:07,30.0
2018-01-01 00:00:08,35.0
2018-01-01 00:00:09,40.0


## 9.4 Агрегация данных

Функция агрегации позволяет одновременно производить расчет
различных статистик для заданного набора данных. Для экспериментов
возьмем структуру df из предыдущего параграфа:

In [263]:
df

Unnamed: 0,0
2018-01-01 00:00:00,1
2018-01-01 00:00:01,2
2018-01-01 00:00:02,3
2018-01-01 00:00:03,4
2018-01-01 00:00:04,5
2018-01-01 00:00:05,6
2018-01-01 00:00:06,7
2018-01-01 00:00:07,8
2018-01-01 00:00:08,9
2018-01-01 00:00:09,10


#### Создадим для него объект скольжение:

In [264]:
rt = df.rolling(window='5s')
rt

Rolling [window=5000000000,min_periods=1,center=False,win_type=freq,axis=0]

#### Теперь посчитаем одновременно сумму, среднее значение и стандартное отклонение. 
#### Функции для расчета статистик возьмем из библиотеки numpy:

In [265]:
rt.agg([np.sum, np.mean, np.std])

Unnamed: 0_level_0,0,0,0
Unnamed: 0_level_1,sum,mean,std
2018-01-01 00:00:00,1.0,1.0,
2018-01-01 00:00:01,3.0,1.5,0.707107
2018-01-01 00:00:02,6.0,2.0,1.0
2018-01-01 00:00:03,10.0,2.5,1.290994
2018-01-01 00:00:04,15.0,3.0,1.581139
2018-01-01 00:00:05,20.0,4.0,1.581139
2018-01-01 00:00:06,25.0,5.0,1.581139
2018-01-01 00:00:07,30.0,6.0,1.581139
2018-01-01 00:00:08,35.0,7.0,1.581139
2018-01-01 00:00:09,40.0,8.0,1.581139


#### При необходимости, можно самостоятельно реализовать функции, рассчитывающие нужные статистики.

# Глава 10. Временные ряды

Популярным направлением в области работы с данными является анализ временных рядов. Библиотека pandas содержит набор
инструментов, который позволяет производить манипуляции с данными, представленными в виде временных рядов.

Для работы с временными рядами в pandas используются классы, представленные в таблице 10.1.

#### Таблица 10.1 - Классы pandas, используемые для работы с временными рядами

Класс Создание Описание

#### Timestamp 

to_datetime,
Timestamp

Единичная временная метка


#### DatetimeIndex 

to_datetime,
date_range,
bdate_range,
DatetimeIndex

Набор объектов Timestamp


#### Period 

Period 

Единичный временной интервал


#### PeriodIndex 

period_range,
PeriodIndex

Набор объектов Period

#### В pandas различают временные метки и временные интервалы.

#### Временная метка - это конкретное значение даты/времени, например: 2018-01-01 01:20:35. 
#### Временной интервал предполагает наличие неполной временной метки и маркера, который определяет период, например метка 2018-01 будет иметь маркер 'M', что означает - месяц.

#### DatetimeIndex - это класс, позволяющий хранить массив временных меток, которые могут быть использованы в качестве индексов при построение структур данных pandas. 

#### PeriodIndex - класс, хранящий массив временных интервалов, который также может быть использован в качестве индекса.

## 10.1 Работа с временными метками

### 10.1.1 Создание временной метки

#### Для создания временной метки (объекта класса Timestamp) можно воспользоваться конструктором Timestamp(), либо методом to_datetime().

#### Начнем со знакомства с конструктором Timestamp:

#### pandas.Timestamp(ts_input, freq, tz, unit, offset)

Ниже представлено описание аргументов.

• ts_input: datetime, str, int, float
◦ Значение, которое будет преобразовано в объект класса
Timestamp.

• freq: str, DateOffset
◦ Величина сдвига.

• tz: str, pytz.timezone, dateutil.tz.tzfile или None; значение
по умолчанию: None
◦ Временная зона.

• unit: str; значение по умолчанию: None
◦ Единица измерения, параметр используется если значение
ts_input имеет тип int или float.

• offset: str, DateOffset: значение по умолчанию: None
◦ Не поддерживается, используйте freq.

#### Рассмотрим варианты создания объекта Timestamp.

#### Создание объекта из строки:

In [266]:
ts = pd.Timestamp('2018-10-5')
ts

Timestamp('2018-10-05 00:00:00')

In [267]:
ts = pd.Timestamp('2018-10-5 01:15:33')
ts

Timestamp('2018-10-05 01:15:33')

#### Использование объекта datetime :

In [268]:
# from datetime import datetime
# необходимую библиотеку импортировали наверху
dt = datetime.now()
dt

datetime.datetime(2021, 12, 15, 17, 34, 34, 553847)

In [269]:
ts = pd.Timestamp(dt)
ts

Timestamp('2021-12-15 17:34:34.553847')

#### Использование int и float значений :

In [270]:
ts = pd.Timestamp(1517246359, unit='s')
ts

Timestamp('2018-01-29 17:19:19')

In [271]:
ts = pd.Timestamp(1517246359.732405, unit='s')
ts

Timestamp('2018-01-29 17:19:19.732404947')

#### Для создания объектов Timestamp можно использовать метод to_datetime(). 
#### Это мощный инструмент, который обладает широким функционалом, мы не будем рассматривать все его возможности, наша задача - просто познакомиться с ним:

In [272]:
ts = pd.to_datetime('2018-01-01 00:01:02')
ts

Timestamp('2018-01-01 00:01:02')

In [273]:
ts = pd.to_datetime('20180101023215', format='%Y%m%d%H%M%S')
ts

Timestamp('2018-01-01 02:32:15')

In [274]:
ts = pd.to_datetime(1517246359, unit='s')
ts

Timestamp('2018-01-29 17:19:19')

#### Обратите внимание, что при использовании Timestamp можно оперировать с временными данным в следующем диапазоне:

In [275]:
pd.Timestamp.min

Timestamp('1677-09-21 00:12:43.145225')

In [276]:
pd.Timestamp.max

Timestamp('2262-04-11 23:47:16.854775807')

### 10.1.2 Создание ряда временных меток

## 10.2 Работа с временными интервалами

### 10.2.1 Создание временного интервала

### 10.2.2 Создание ряда временных интервалов

## 10.3 Использование временных рядов в качестве индексов

# Глава 11. Визуализация данных

## 11.1 Построение графиков

### 11.1.1 Линейные графики

### 11.1.2 Столбчатые диаграммы

### 11.1.3 Гистограммы

### 11.1.4 График с заливкой

### 11.1.5 Точечный график

### 11.1.6 Круговая диаграмма

### 11.1.7 Диаграмма из шестиугольников

## 11.2 Настройка внешнего вида диаграммы

### 11.2.1 Настройка внешнего вида линейного графика

### 11.2.2 Вывод графиков на разных плоскостях

# Глава 12. Настройка внешнего вида таблиц

## 12.1 Изменение формата представления данных

## 12.2 Создание собственных стилей

### 12.2.1 Задание цвета надписи для элементов данных

### 12.2.2 Задание цвета ячейки таблицы

### 12.2.3 Задание цвета строки таблицы

### 12.3 Встроенные инструменты задания стилей

### 12.3.1 Подсветка минимального и максимального значений

### 12.3.2 Подсветка null-элементов

### 12.3.3 Задание тепловой карты

### 12.3.4 Наложение столбчатой диаграммы

### 12.3.5 Цепочки вычислений (Method Chaining) для настройки внешнего вида таблицы