# Тема "Структуры данных"

### Для того чтобы работать с данными необходимы определенные структуры. Иначе у каждого исследователя данные будут собраны на основе различных принципов и в разном порядке. Наличие стандартных структур значительно облегчает работу с данными и позволяет использовать заранее созданные библиотеки.

### Библиотеки для работы с данными

Импортируем необходимые библиотеки - Pandas и NumPy. NumPy – это базовый набор инструментов для проведения научных вычислений с помощью Python. На базе Numpy была создана библиотека Pandas и, работая с Pandas, почти всегда используется NumPy. Для выполнения кода ячейки нажимайте одновременно комбинацию клавиш Ctrl + Enter.
Библиотеки загружены. Переходим к изучению базовых структур данных библиотеки Pandas.


In [1]:
import pandas as pd
import numpy as np

### Определения
Series — это структура, используемая для работы с последовательностью одномерных данных.
Dataframe — более сложная структура, подходящая для нескольких измерений.
Если упросить, то Series это нумерованный список, а Dataframe - это таблица с номерами строк и названиями столбцов.
Таким образом, ключевой особенностью этих структур является наличие в их составе объектов index и labels (метки). С их помощью выполнять различные операции со структурами становится очень легко.

### Создание объекта Series из списка

Создаем Series значений из списка целых чисел

Первой структурой данных, которую мы рассмотрим, будет объект Series. Для создания этого объекта воспользуемся одноименной функцией библиотеки Pandas. Выполняем код в ячейке комбинацией клавиш Ctrl + Enter. В данном примере объект Series создается из "питоновского" списка. Посмотрим из чего состоит только что созданный объект Series. Первый столбец чисел представляет собой индексные метки. Второй столбец содержит значения.
dtype: int64 означает тип данных, к которому относятся значения объекта Series. В этом примере индексные метки заданы при помощи параметра index.

In [2]:
s = pd.Series(data=[10, 11, 12, 13, 14],
              index=[9, 2, 3, 5, 7])
s

9    10
2    11
3    12
5    13
7    14
dtype: int64

Посмотрим что будет, если удалить данный параметр - index.
По умолчанию Pandas создает индекс, состоящий из последовательности целых чисел с началом отсчета в 0. Кроме целых чисел в качестве значений объекта Series можно использовать и другие типы данных.


In [3]:
#Ваш код здесь


В следующем примере создается объект Series, значения которого - строки.

### Создание объекта Series из строковых значений

In [3]:
s = pd.Series(['Blue', 'Yellow', 'Green'])
s

0      Blue
1    Yellow
2     Green
dtype: object

В следующем примере каждое значение объекта Series - это "питоновский" объект, список из элементов 1 и 2. Создаем Series из 5 элементов, каждый элемент - list python

In [4]:
l = [[1, 2]]
s = pd.Series(l*5)
s

0    [1, 2]
1    [1, 2]
2    [1, 2]
3    [1, 2]
4    [1, 2]
dtype: object

### Создание объекта DataFrame из двумерного списка

Теперь рассмотрим другую структуру данных библиотеки Pandas - Dataframe. Для создания используется одноименная функция. Dataframe (датафрейм) расширяет фунционал объекта Series. Появляется возможность работать с 2 измерениями. В данном примере для создания объекта Dataframe используется многомерный "питоновский" список. Помимо меток индекса у датафрейма присутствуют метки столбцов. По умолчанию это последовательность чисел от нулевово значения.

In [5]:
df = pd.DataFrame([[10, 11], [20, 21], [30, 31]])
df

Unnamed: 0,0,1
0,10,11
1,20,21
2,30,31


Для задания имен столбцов при создании датафрейма воспользуемся параметром columns. Датафрейм можно создать, используя список из объектов Series, которые будут в датафрейме строками. Чтобы задать имена столбцов после создания датафрейма, необходимо воспользоваться свойством columns.

Задаем имена столбцов

In [6]:
df = pd.DataFrame([[10, 11], [20, 21], [30, 31]],
                  columns=['A', 'B'])
df

Unnamed: 0,A,B
0,10,11
1,20,21
2,30,31


Создаем DataFrame для списка объектов Series

In [7]:
series_1 = pd.Series([70, 90])
series_2 = pd.Series([71, 91])
df = pd.DataFrame([series_1, series_2])
df

Unnamed: 0,0,1
0,70,90
1,71,91


Задаем имена столбцов после создания датафрейма

In [8]:
df.columns = ['col_1', 'col_2']
df

Unnamed: 0,col_1,col_2
0,70,90
1,71,91


Мы рассмотрели как создавать объект Series или объект Датафрейм, используя в качестве исходных данных "питоновские" списки. Конечно же это не единственный способ. 
Рассмотрим создание Series из "питоновского" словаря. При этом ключи будут использованы в качестве меток индекса. А при создании объекта Датафрейм, ключи словаря будут использованы в качестве имен столбцов. А значения словаря будут использованы в качестве значений столбцов. В качестве значений словаря может выступать "питоновский" список или объект Series.


### Создание объекта Series из словаря

Создаем объект Series из словаря, при этом посмотрим, как изменились индексы

In [9]:
s = pd.Series({'Homer': 'Dad',
               'Marge': 'Mom',
               'Bart': 'Son',
               'Lisa': 'Daughter',
               'Maggie': 'Daughter'})
s

Homer          Dad
Marge          Mom
Bart           Son
Lisa      Daughter
Maggie    Daughter
dtype: object

### Создание объекта DataFrame с помощью "питоновского" словаря

In [10]:
list_1 = [70, 71]
list_2 = [80, 81]
temperatures = {'col_1': list_1,
                'col_2': list_2}
pd.DataFrame(temperatures)

Unnamed: 0,col_1,col_2
0,70,80
1,71,81


Создание DataFrame с помощью словаря, состоящего из объектов Series

In [11]:
series_1 = pd.Series([70, 71])
series_2 = pd.Series([90, 91])

df = pd.DataFrame({'col_1': series_1,
                   'col_2': series_2})
df

Unnamed: 0,col_1,col_2
0,70,90
1,71,91


### Создание объекта Series при помощи функций

Создание Series, используя np.arange - последовательность чисел от **start** до **stop-1** с шагом **step**:
```python 
np.arange(start, stop, step) 
```

Cоздание объекта Series с помощью различных функций библиотеки NumPy является обычной практикой. В качестве примера следующий программный код использует функцию np.arrange, чтобы создать последовательность чисел от 15 до 25 с шагом 2. При этом число 25 не включается в последовательность.

In [12]:
s = pd.Series(np.arange(15,25,2))
s

0    15
1    17
2    19
3    21
4    23
dtype: int32

Создаем Series из 5 значений, равномерно разбивающих отрезок 0 до 9

Метод np.linspace похож по функционалу на arange, однако он позволяет указать количество чисел, которое должно быть создано между двумя указанными значениями, для этого задаем количество шагов. Кроме того, часто генерируется набор случайных чисел с помощью функции normal из модуля random. Данный программный код генерирует 5 случайных чисел из нормального распределения для создания объекта Series.

In [13]:
s = pd.Series(np.linspace(0, 9, 5))
s

0    0.00
1    2.25
2    4.50
3    6.75
4    9.00
dtype: float64

### Генерация случайных чисел.

Зафикисруем значение seed, что позволит нам в будущем воcпроизводить свои результаты

Создадим объект Series из 5 нормально распределенных случайных чисел

In [14]:
np.random.seed(123)
s = pd.Series(np.random.normal(size=5))
s

0   -1.085631
1    0.997345
2    0.282978
3   -1.506295
4   -0.578600
dtype: float64

А другой пример - это создание объекта Датафрейм. При этом явно указывается значение меток индексов и столбцов. Для того, чтобы посмотреть полный список возможных параметров фунции Датафрейм, воспользуемся комбинацией клавиш Shift + Tab. Помимо описания каждого параметра функции представлены примеры использования.

Создадим объект DataFrame размерности 4х3 из случайных чисел

In [15]:
np.random.seed(123)
df = pd.DataFrame(np.random.normal(size=12).reshape(4, 3),    #reshape здесь обязателен, без него не будет работать, 
                  index=['ind_1', 'ind_2', 'ind_3', 'ind_4'], #и только в такой конфигурации
                  columns=['col_1', 'col_2', 'col_3'])
df

Unnamed: 0,col_1,col_2,col_3
ind_1,-1.085631,0.997345,0.282978
ind_2,-1.506295,-0.5786,1.651437
ind_3,-2.426679,-0.428913,1.265936
ind_4,-0.86674,-0.678886,-0.094709


### Свойства структур данных

Далее будет дано описание основных свойств рассмотренных выше структур. Для дальнейших примеров создадим Series Simpsons. Используем "питоновский" список в качестве исходных данных. Также нам потребуется Series Numbers. Используем функцию Random Normal. Индексные метки данного объекта Series - последовательность чисел от 25 до 34.

#### Создаем Series для примеров

In [16]:
Simpsons = pd.Series({'Homer': 120,
                      'Marge': 60,
                      'Bart': 35,
                      'Lisa': 30,
                      'Maggie': 7})

Simpsons

Homer     120
Marge      60
Bart       35
Lisa       30
Maggie      7
dtype: int64

In [2]:
np.random.seed(123)
numbers = pd.Series(data = np.random.normal(size=10),
                    index = np.arange(25,35))
numbers

NameError: name 'np' is not defined

#### Тип данных

Чтобы узнать тип данных значений объекта Series воспользуемся свойством dtype.

In [18]:
Simpsons.dtype

dtype('int64')

#### Количество элементов

Количество элементов в объекте Series можно определить несколькими способами, первый из которых – использовать "питоновскую" функцию len. Тот же самый результат можно получить, используя свойство .size. Альтернативным способом получения информации о размере объекта Series является использование свойства .shape. Оно возвращает кортеж из двух значений, одно из которых не заполнено. Посмотрим как изменится вывод, если заменить Series на DataFrame. Применение функции len позволит узнать количество строк в датафрейме. Свойство .size - количество элементов (500 строк, 3 столбца - всего 1500 элементов).
Свойство .shape возвращает кортеж из двух значений - количества строк и количества столбцов.


Series:

In [19]:
print('Первый способ:', len(Simpsons))
print('Второй способ:', Simpsons.size)
print('Третий способ:', Simpsons.shape)

Первый способ: 5
Второй способ: 5
Третий способ: (5,)


#### Количество уникальных элементов

Чтобы узнать количество уникальных элементов в объекте Series, воспользуемся методом .nunique(). Аналогичный метод существует и для датафрейма. Вывод - это количество уникальных элементов для каждого столбца.

In [20]:
Simpsons.nunique()

5

#### Индекс и значения

Каждый объект Series состоит из массивов значений и индекса. Индекс для серии можно получить с помощью свойства .index. Доступ к значениям можно получить с помощью свойства .values Для датафрейма существуют аналогичные свойства. Дополнительно необходимо отметить свойство .columns, благодаря которому можно получить список названий столбцов датафрейма.

Series:

In [21]:
Simpsons.index

Index(['Homer', 'Marge', 'Bart', 'Lisa', 'Maggie'], dtype='object')

In [22]:
Simpsons.values

array([120,  60,  35,  30,   7], dtype=int64)

#### Присвоение / изменение имени

Свойство .name дает возможность понять какую характеристику описывают значения объекта Series. Для данного примера после присвоения свойства .name становится понятно, что значения объекта Series - это вес для каждого члена семьи Simpsons.
Такое же свойство есть и у индекса объекта Series. Благодаря ему можно понять, что означают метки индекса. В нашем примере - имена семьи Simpsons. Столбцы можно переименовать с помощью соответствующего метода .rename(). Этому методу можно передать словарь, в нем ключи представляют собой метки столбцов, которые нужно переименовать, а значения – это новые имена. После применения метода .rename() возвращается новый датафрейм с переименованным столбцом и данными, скопированными из исходного датафрейма.


#####  объекта Series

In [23]:
Simpsons.name = 'Simpsons weight'
Simpsons

Homer     120
Marge      60
Bart       35
Lisa       30
Maggie      7
Name: Simpsons weight, dtype: int64

##### индекса

In [24]:
Simpsons.index.name = 'First name'
Simpsons

First name
Homer     120
Marge      60
Bart       35
Lisa       30
Maggie      7
Name: Simpsons weight, dtype: int64

### Вывод значений

#### первые / последние строки

Библиотека Pandas предлагает методы .head() и .tail() для исследования первых или последних строк в объекте Series. По умолчанию они возвращают первые или последние пять строк, однако это можно изменить с помощью параметра n.

In [25]:
Simpsons.head(3)

First name
Homer    120
Marge     60
Bart      35
Name: Simpsons weight, dtype: int64

##### Отбор значений по метке

Значения объекта Series можно отбирать с помощью меток индекса, воспользовавшись свойством .loc. В случае отсутствия метки в индексе вызывается исключение. Для датафрейма метод .loc позволят выбрать строки. При выборе одной строки, результат - это объект Series. А при выборе нескольких строк, результат отбора - объект DataFrame. Второй подход к отбору значений Series и строк DataFrame - это использование номера позиции в индексе. Данную задачу решает свойство .iloc. Чтобы понять как определяются номера позиций, выведем на экран объект Series .numbers. Элемент с меткой индекса равной 25 имеет номер позиции - 0. Далее по номерам позиций - 0, 1, 2, 3, 4, 5. Элемент с меткой индекса 30 имеет номер позиции 5.

**Series**

In [1]:
numbers.loc[[25,33]]
numbers

NameError: name 'numbers' is not defined

ошибка - нет метки

In [27]:
numbers.loc[0] #исполнение этого кода приводит к ошибке, т.к. нулевого элемента нет.

KeyError: 0

Существует альтернативная нумерация позиций в индексе. Нумерация с последнего элемента в индексе. Элемент с меткой индекса 34 имеет номер позиции -1. Далее - -2, -3 -4, -5. Элемент с меткой индекса равной 25 - пятый с конца, поэтому номер позиции -5. В итоге, одно и то же значение объекта Series возможно выбрать, используя нумерацию с первого или с последнего элемента.
При отсутствии номера позиции в индексе получаем исключение. Сравните с исключением, полученным при некорректном выборе метки индекса. Работа свойства .iloc для выбора строк датафрейма аналогична выбору значений объекта Series. Можно найти позицию определенной метки индекса, а затем использовать эту информацию для извлечения строки по позиции.


##### Отбор значения по позиции

**Series** 

In [28]:
numbers

25   -1.085631
26    0.997345
27    0.282978
28   -1.506295
29   -0.578600
30    1.651437
31   -2.426679
32   -0.428913
33    1.265936
34   -0.866740
dtype: float64

по позиции

In [29]:
numbers.iloc[[5,-5]]

30    1.651437
30    1.651437
dtype: float64

ошибка:

In [30]:
numbers.iloc[10]

IndexError: single positional indexer is out-of-bounds

### Срезы данных

Библиотека Pandas позволяет создавать срезы данных. Создание срезов – это мощный способ извлечения подмножеств данных из "пандасовского" объекта. С помощью срезов мы можем отобрать данные по номерам позиций или меткам индекса. Чтобы проиллюстрировать создание срезов, мы воспользуемся ранее созданным объектом .numbers. Мы можем последовательно отобрать элементы, используя для формирования среза синтаксис: "начальная позиция" "двоеточие (:)" "конечная позиция".
Следующий программный код отбирает в объекте Series пять элементов в позициях с первой по пятую. Поскольку мы не указали компонент "шаг", то по умолчанию он будет равен 1. Кроме того, обратите внимание, что конечная позиция не будет включена в результат. Можно сформировать срез путем отбора каждого второго элемента, указав "шаг 2".


#### Series

Задаём срез по правилу: [начальная позиция: конечная позиция: величина шага], при этом:
- Правая граница - не включается
- Шаг может быть отрицательным
- Позиция также может быть отрицательной - тогда отсчёт происходит "с другого конца"
- Нумерация происходит от нуля

In [31]:
numbers

25   -1.085631
26    0.997345
27    0.282978
28   -1.506295
29   -0.578600
30    1.651437
31   -2.426679
32   -0.428913
33    1.265936
34   -0.866740
dtype: float64

Срез, содержащий элементы с позициями от 1 по 5

In [32]:
numbers.iloc[1:6]

26    0.997345
27    0.282978
28   -1.506295
29   -0.578600
30    1.651437
dtype: float64

Выбираем элементы в позициях 1, 3, 5 == выбираем элементы с 1 по 5 позицию с шагом 2

In [33]:
numbers.iloc[1:6:2]

26    0.997345
28   -1.506295
30    1.651437
dtype: float64

Можем оставить только конечную позицию

In [34]:
numbers.iloc[:6]

25   -1.085631
26    0.997345
27    0.282978
28   -1.506295
29   -0.578600
30    1.651437
dtype: float64

Либо оставим только начальную позицию

In [35]:
numbers.iloc[3:]

28   -1.506295
29   -0.578600
30    1.651437
31   -2.426679
32   -0.428913
33    1.265936
34   -0.866740
dtype: float64

Отбираем элементы Series в обратном порядке, начиная с 5

Каждый компонент среза является опциональным. Если компонент "начальная позиция" опуcтить, результаты будут выведены, начиная с первого элемента. Отбор элементов, начинающийся с определенной позиции, можно осуществить, задав компонент "начальная позиция" и опустив компонент "конечная позиция". Использование отрицательного значения компонента "шаг" приведет к тому, что отбор элементов осуществляется в обратном порядке. Отрицательное стартовое значение -4 означает отбор последних четырех строк.

In [36]:
numbers.iloc[5::-1]

30    1.651437
29   -0.578600
28   -1.506295
27    0.282978
26    0.997345
25   -1.085631
dtype: float64

Отбор 4 последних строк

In [37]:
numbers.iloc[-4:]

31   -2.426679
32   -0.428913
33    1.265936
34   -0.866740
dtype: float64

### Копирование и ссылки

При создании среза копирования данных не производится. Формируется ссылка на данные. Покажем на примере.
Будем работать с уже известным нам объектом Series - numbers. Следующий код выбирает элементы с номерами позиций 1, 2, 3, 4. Сохраним выбранную часть объекта Series в переменную n. Каждое значение объекта n изменим на 0. Проверим состояние исходного объекта n. Никаких изменений в исходном объекте Series не произошло. При использовании свойства iloc создается копия данных. Теперь покажем, что при создании среза данных используется ссылка на исходные данные. Для этого еще раз создаем переменную n. Создаем переменную k, используя срез данных. Обнуляем все значения переменной k. Значения исходного объекта Series изменились. При создании среза происходит создание ссылки. Необходимо быть крайне аккуратным, чтобы не потерять исходные данные. Восстановим исходный объект Series.


In [38]:
numbers

25   -1.085631
26    0.997345
27    0.282978
28   -1.506295
29   -0.578600
30    1.651437
31   -2.426679
32   -0.428913
33    1.265936
34   -0.866740
dtype: float64

Элементы с 1 по 4

In [39]:
numbers.iloc[[1,2,3,4]]

26    0.997345
27    0.282978
28   -1.506295
29   -0.578600
dtype: float64

Сохранили в переменную n

In [40]:
n = numbers.iloc[[1,2,3,4]]

In [41]:
n

26    0.997345
27    0.282978
28   -1.506295
29   -0.578600
dtype: float64

Присваиваем значение 0 всем элементам

In [42]:
n.loc[:] = 0
n

26    0.0
27    0.0
28    0.0
29    0.0
dtype: float64

Что-нибудь произошло с numbers?

In [43]:
numbers

25   -1.085631
26    0.997345
27    0.282978
28   -1.506295
29   -0.578600
30    1.651437
31   -2.426679
32   -0.428913
33    1.265936
34   -0.866740
dtype: float64

Еще раз сохраним первые 4 элемента

In [44]:
n = numbers.iloc[[1,2,3,4]]
n

26    0.997345
27    0.282978
28   -1.506295
29   -0.578600
dtype: float64

Создаем переменную k = срез с 1 по 4 элемент

In [45]:
k = numbers[1:5]
k.loc[:] = 0
k

26    0.0
27    0.0
28    0.0
29    0.0
dtype: float64

In [46]:
numbers

25   -1.085631
26    0.000000
27    0.000000
28    0.000000
29    0.000000
30    1.651437
31   -2.426679
32   -0.428913
33    1.265936
34   -0.866740
dtype: float64

Воcстановили numbers

In [47]:
numbers[1:5] = n
numbers

25   -1.085631
26    0.997345
27    0.282978
28   -1.506295
29   -0.578600
30    1.651437
31   -2.426679
32   -0.428913
33    1.265936
34   -0.866740
dtype: float64

###  Удаление 

Удалить строки, столбцы объекта DataFrame, значения объекта Series можно с помощью ключевого слова del или методов DataFrame .pop() или .drop(). Работа каждого из них немного отличается: del просто удаляет значение, строку или столбец; pop() удаляет и возвращает в результате удаленное; drop возвращает копию данных, исходный объект изменен не будет.
Посмотрим примеры. Исходный Series. Создадим копию исходного объекта. Удаляем значение с индексной меткой Maggie. Выводим на экран. Значение удалено. В следующем примере демонстрируется удаление столбца датафрейма. Удаление происходит без копирования данных. После использования ключевого слова del восстановить данные невозможно.


#### del

Series

In [48]:
Simpsons

First name
Homer     120
Marge      60
Bart       35
Lisa       30
Maggie      7
Name: Simpsons weight, dtype: int64

In [49]:
Simpsons_copy = Simpsons.copy()
del Simpsons_copy['Maggie']
Simpsons_copy

First name
Homer    120
Marge     60
Bart      35
Lisa      30
Name: Simpsons weight, dtype: int64