4.1


### Урок 4.5: структурированные списки

До этого мы работали с обычными массивами, массивами, где у нас не было никаких меток, которые бы сообщали, что именно содержится в том или ином списке: возраст человека, его доход, пол и прочее. Мы уже заранее знали, что, например, в массиве `scores` сохранены оценки студентов и больше ничего. Кроме того, мы не могли бы включить в список имена студентов как есть, ведь массив не может содержать элементы разных типов, в нашем случае, целые числа и строки. Как быть? Можно создать структурированный массив или структурированный список (*structured array*). 

Чтобы познакомиться с этой структурой, рассмотрим пример. У нас есть данные по трем людям: имя (строка), возраст (целое число) и рост (число с плавающей точкой). Мы хотим создать массив таким образом, чтобы было понятно, что в нем сохранены именно такие показатели, плюс, чтобы разные типы данных не конфликтовали между собой. Попробуем! 

In [2]:
import numpy as np

In [69]:
info = np.array([('A', 1, 4), 
                 ('B', 2, 5), 
                 ('C', 3, 6)],
             dtype=[('literal', 'U10'), 
                    ('id', int), 
                    ('index', float)])

Для удобства можно думать о массиве `info` как о таблице с данными, в которой есть 3 столбца (`name`, `age`, `height`) и три строки, соответствующие трём респондентам (*Anna*, *Sam*, *Pam*). 

Что приведенный выше код означает? Во-первых, данные по каждому человеку мы записали в виде кортежа – набора элементов в круглых скобках, причем перечислили имя, возраст и рост друг за другом. Каждый кортеж – это одна строка в таблице. Во-вторых, каждому значению в кортеже мы присвоили название: в `dtype` у нас указано три элемента. Первый элемент имеет название или метку `name`, второй – `age`, третий – `height`. 
В-третьих, чтобы Python не привёл все элементы к одному типу (строковый тип, *string*, окажется сильнее, поэтому есть риск превратить все числовые значения в массиве в текст), в `dtype`, помимо названия поля, то есть столбца в таблице, мы указываем его тип. Тип 

Посмотрим на  массив:

In [70]:
info

array([('A', 1, 4.), ('B', 2, 5.), ('C', 3, 6.)],
      dtype=[('literal', '<U10'), ('id', '<i4'), ('index', '<f8')])

In [71]:
print(info)

[('A', 1, 4.) ('B', 2, 5.) ('C', 3, 6.)]


Обращаться к элементам структурированного массива можно обычным образом. Так, выведем на экран информацию по Анне, которая у нас находится на первом месте в массиве:

In [72]:
info[0]

('A', 1, 4.)

Или информацию по Анне и Сэму сразу, используя срез:

In [73]:
info[0:2]

array([('A', 1, 4.), ('B', 2, 5.)],
      dtype=[('literal', '<U10'), ('id', '<i4'), ('index', '<f8')])

Однако история со структурированными массивами ещё более интересная. Можно отдельно вызывать определенные поля – значения с фиксированной меткой или названием. Так, мы можем запросить значения возраста по всем людям в массиве:

In [75]:
info['index']

array([4., 5., 6.])

Или пары возраст-рост:

In [76]:
info[['literal', 'index']]  # названия оформлены в виде списка - в []

array([('A', 4.), ('B', 5.), ('C', 6.)],
      dtype={'names':['literal','index'], 'formats':['<U10','<f8'], 'offsets':[0,44], 'itemsize':52})

Отсюда можем получить информацию по первому человеку (Анне):

In [77]:
info[['literal', 'index']][0]

('A', 4.)

Или отдельно по второму (Сэм):

In [78]:
info[['literal', 'index']][1]

('B', 5.)

**Дополнение для желающих**

Изменять элементы структурированного массива тоже можно. И логика ничем не отличается от работы с обычными массивами. Заменим третий элемент массива: вместо данных по Пэм запишем данные по Стиву:

In [79]:
info[2] = ('D', 4, 5)  # в виде кортежа

In [80]:
info

array([('A', 1, 4.), ('B', 2, 5.), ('D', 4, 5.)],
      dtype=[('literal', '<U10'), ('id', '<i4'), ('index', '<f8')])

А теперь изменим возраст Анны (допустим, мы ошиблись ранее и указали возраст не той Анны):

In [81]:
info['literal'][0] = 25
info

array([('25', 1, 4.), ('B', 2, 5.), ('D', 4, 5.)],
      dtype=[('literal', '<U10'), ('id', '<i4'), ('index', '<f8')])

## Библиотека `pandas`: часть 1

### Урок 5.1:  основные структуры

Библиотека `pandas` используется для удобной и более эффективной работы с таблицами. Её функционал достаточно разнообразен, но давайте начнем с каких-то базовых функций и методов. Для начала импортируем саму библиотеку (она была установлена вместе с Anaconda):

In [1]:
import pandas as pd

Здесь мы опять использовали тот же трюк, что и с библиотекой `NumPy` – импортировали её с сокращённым названием. Основная структура данных в `pandas` – это датафрейм (`DataFrame`), который можно рассматривать как совокупность массивов `NumPy`, а точнее как таблицу, столбцами которой являются массивы. Библиотека `pandas` позволяет загружать данные из файлов разных форматов (*csv*, *xls*, *json*), но так как у вас будет отдельный модуль, посвящённый работе с файлами, давайте для примера создадим маленький датафрейм с нуля, из списка списков. В каждом списке указано имя респондента, его возраст и число лет опыта работы, каждый список можно рассматривать как строку в таблице:

In [27]:
df = pd.DataFrame([['A', 1, 2],
             ['B', 3, 4],
             ['C', 5, 6],
             ['D', 7, 8],
             ['E', 9, 10],
             ['F', 11, None]])

Посмотрим на датафрейм:

In [28]:
df

Unnamed: 0,0,1,2
0,A,1,2.0
1,B,3,4.0
2,C,5,6.0
3,D,7,8.0
4,E,9,10.0
5,F,11,


На датафреймы смотреть гораздо приятнее, чем на массивы. Проверим, какой тип у полученного объекта:

In [29]:
type(df)  # pandas DataFrame

pandas.core.frame.DataFrame

В начале урока я сказала, что на датафрейм можно смотреть как на совокупность массивов. На самом деле, если говорить совсем точно, датафрейм – это совокупность особых объектов `pandas Series`, последовательностей `pandas`.

In [30]:
df[0]

0    A
1    B
2    C
3    D
4    E
5    F
Name: 0, dtype: object

Столбец датафрейма `df` имеет особый тип *Series*. Внешне *Series* отличается от обычного списка значений, потому что, во-первых, при вызове столбца на экран выводятся не только сами элементы, но их номер (номер строки), а во-вторых, на экран выводится строка с названием столбца (`Name: 0`) и его тип (`dtype: object`, текстовый). Первая особенность роднит *Series* со словарями: он представляет собой пары ключ-значение, то есть номер-значение. Вторая особенность роднит *Series* с массивами `NumPy`: элементы должны быть одного типа.

### Урок 5.2: индексы и метод `.iloc`

Чтобы наш датафрейм был больше похож на настоящие данные из файла, давайте назовём столбцы в таблице. Для этого нам необходимо изменить атрибут `.columns`, присвоить ему значение в виде списка.

In [31]:
df.columns = ['literal', 'id', 'index']  

In [32]:
df

Unnamed: 0,literal,id,index
0,A,1,2.0
1,B,3,4.0
2,C,5,6.0
3,D,7,8.0
4,E,9,10.0
5,F,11,


Для выбора строк и столбцов в `Pandas` есть два основных метода: `.iloc` и `.loc`. Первый используется для выбора строк и столбцов по их индексу, второй – по их названию. Внутри каждого из этих методов в квадратных скобках указывается сначала идентификатор (индекс или название) строки, а затем – идентификатор столбца. Попробуем выбрать элемент, который находится в строке с индексом 1 и в столбце с индексом 2:

In [33]:
df.iloc[1, 2]

4.0

В качестве индексов можно указывать числовые срезы (как обычно, правый конец отрезка не включается):

In [34]:
df.iloc[1:3, 1]

1    3
2    5
Name: id, dtype: int64

И полные срезы тоже:

In [35]:
df.iloc[:, 0]

0    A
1    B
2    C
3    D
4    E
5    F
Name: literal, dtype: object

In [36]:
df.iloc[1:3, :]

Unnamed: 0,literal,id,index
1,B,3,4.0
2,C,5,6.0


Можно попробовать ввести индекс без `.loc` и посмотреть, что получится: 

In [37]:
df[0]

KeyError: 0

Ничего не получится: Python думает, что в квадратных скобках указано название столбца и возвращает `KeyError`, что означает, что столбца с таким названием в таблице нет. Самое интересное: если мы укажем в квадратных скобках числовой срез, всё сработает! Только Python будет воспринимать эти числа как индексы строк (да `pandas` коварна, к ней нужно привыкнуть):

In [38]:
df[0:2]

Unnamed: 0,literal,id,index
0,A,1,2.0
1,B,3,4.0


### Урок 5.3: индексы и метод `.loc`

Теперь посмотрим, как выбирать столбцы и строки по названию. Выберем столбец `name`, вписав его название в квадратных скобках:

In [57]:
df['literal']

0    A
1    B
2    C
3    D
4    E
Name: literal, dtype: object

Если нужно выбрать более одного столбца сразу, то названия столбцов нужно оформить в список и поместить его в квадратные скобки:

In [58]:
df[['literal', 'id']]

Unnamed: 0,literal,id
0,A,1
1,B,3
2,C,5
3,D,7
4,E,9


Хорошая новость: помимо числовых срезов в `Pandas` можно использовать текстовые срезы, то есть, сейчас я могу, например, выбрать все столбцы с `name` до `age` подряд. Только тогда этот срез нужно будет указать в методе `.loc`:

In [59]:
df.loc[:, 'literal':'id']

Unnamed: 0,literal,id
0,A,1
1,B,3
2,C,5
3,D,7
4,E,9


Обратите внимание: текстовый срез включает оба конца отрезка, правый конец не исключается.

Метод `.loc` будет работать так же, как и `.iloc`, только здесь в качестве идентификаторов будут использоваться названия. Для удобства назовём строки по столбцу `name`, чтобы к ним можно было обращаться по названию:

In [65]:
df.index = df.literal
df

Unnamed: 0_level_0,literal,id,index
literal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,A,0,2.0
B,B,1,4.0
C,C,2,6.0
D,D,3,8.0
E,E,4,10.0


Теперь у строк есть текстовые названия. Выберем значение, соответствующее возрасту Билла:

In [66]:
df.loc['A', 'index']

2.0

А теперь опыт работы для нескольких человек (строк) подряд:

In [67]:
df.loc['A':'D', 'id']

literal
A    0
B    1
C    2
D    3
Name: id, dtype: int64

А теперь два столбца одновременно (представим, что они идут не подряд, более общий способ):

In [68]:
df.loc['A':'D', ['id', 'index']]

Unnamed: 0_level_0,id,index
literal,Unnamed: 1_level_1,Unnamed: 2_level_1
A,0,2.0
B,1,4.0
C,2,6.0
D,3,8.0


5.4

In [39]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   literal  6 non-null      object 
 1   id       6 non-null      int64  
 2   index    5 non-null      float64
dtypes: float64(1), int64(1), object(1)
memory usage: 272.0+ bytes


Какую информацию выдал метод `.info()`? Во-первых, он сообщил нам, что `df` является объектом `DataFrame`. Во-вторых, он вывел число строк (`6 entries`) и показал их индексы. В-третьих, он вывел число столбцов (`total 3 columns`). Наконец, он выдал информацию по каждому столбцу. Остановимся на этом поподробнее.

В выдаче выше представлено, сколько непустых элементов содержится в каждом столбце. Непустые элементы `non-null` – это всё, кроме пропущенных значений, которые кодируются особым образом (`NaN` – от *Not A Number*). В нашей таблице почти все столбцы заполнены полностью: 6 ненулевых элементов из 6.

Далее указан тип каждого столбца, целочисленный `int64` и с плавающей точкой `float64`. Что означают числа в конце? Это объем памяти, который требуется для хранения.

При желании можно запросить число строк и столбцов отдельно:

In [40]:
df.shape  # как в массивах numpy

(6, 3)

In [41]:
df.shape[0] # отдельно строкиё

6

In [42]:
df.shape[1]  # отдельно столбцы

3

Можем запросить описательные статистики по столбцам данного датафрейма:

In [43]:
df.describe()

Unnamed: 0,id,index
count,6.0,5.0
mean,6.0,6.0
std,3.741657,3.162278
min,1.0,2.0
25%,3.5,4.0
50%,6.0,6.0
75%,8.5,8.0
max,11.0,10.0


В случае количественных показателей этот метод возвращает таблицу с основными описательными статистиками:

* `count` – число непустых (заполненных) значений;
* `mean` – среднее арифметическое;
* `std` – стандартное отклонение (показатель разброса данных относительно среднего значения);
* `min` – миниммальное значение;
* `max` – максимальное значение;
* `25%` – нижний квартиль (значение, которое 25% значений не превышают);
* `50%` – медиана (значение, которое 50% значений не превышают);
* `75%` – верхний квартиль (значение, которое 75% значений не превышают).

Можем вывести названия столбцов:

In [44]:
df.columns

Index(['literal', 'id', 'index'], dtype='object')

Обратите внимание: полученный объект не является обычным списком:

In [45]:
type(df.columns)

pandas.core.indexes.base.Index

Если мы попробуем обратиться к элементу как обычно, всё получится:

In [46]:
df.columns[2]

'index'

А вот изменить значение уже нет:

In [47]:
df.columns[2] = 'experience'

TypeError: Index does not support mutable operations

Чтобы получить список названий, достаточно сконвертировать тип с помощью привычного `list()`:

In [48]:
list(df.columns)

['literal', 'id', 'index']

Аналогично для строк:

In [49]:
df.index

RangeIndex(start=0, stop=6, step=1)

### Урок 5.5: операции над датафреймами – часть 1

Если датафрейм достаточно объёмный, иногда удобно вывести из него только первые несколько строк:

In [50]:
df.head()

Unnamed: 0,literal,id,index
0,A,1,2.0
1,B,3,4.0
2,C,5,6.0
3,D,7,8.0
4,E,9,10.0


По умолчанию выводятся первые 5, но это можно изменить:

In [51]:
df.head(2)

Unnamed: 0,literal,id,index
0,A,1,2.0
1,B,3,4.0


Или вывести последние несколько строк:

In [52]:
df.tail()

Unnamed: 0,literal,id,index
1,B,3,4.0
2,C,5,6.0
3,D,7,8.0
4,E,9,10.0
5,F,11,


Если в датафрейме присутствуют строки с пропущенными значениями (`NaN`, *Not a number*), то их можно удалить:

In [53]:
df = df.dropna()
df  # последней строки уже нет

Unnamed: 0,literal,id,index
0,A,1,2.0
1,B,3,4.0
2,C,5,6.0
3,D,7,8.0
4,E,9,10.0


### Выбор строк по условиям

Если вы помните, как происходил выбор элементов массива по условиям, то похожая логика будет использоваться и в датафреймах `pandas`. Попробуем выбрать строки, соответствующие респондентам старше 30 лет:

In [55]:
df[df['index'] > 3]

Unnamed: 0,literal,id,index
1,B,3,4.0
2,C,5,6.0
3,D,7,8.0
4,E,9,10.0


Теперь в квадратных скобках мы будем указывать целое условие (вспомните про отбор элементов из массива). Выберем респондентов не моложе 25 лет с опытом работы более 7 лет:

In [56]:
df[(df['index'] > 3) & (df['id'] < 7)]  # не забываем круглые скобки

Unnamed: 0,literal,id,index
1,B,3,4.0
2,C,5,6.0


Или респондентов старше 35 или моложе 25:

### Урок 5.6: операции над датафреймами – часть 2

In [82]:
 df = df.dropna()

### Создание новых столбцов

Добавим столбец `age_sq`, содержащий значения возраста респондентов, возведенные в квадрат:

In [83]:
df['id2'] = df['id'] ** 2
df

Unnamed: 0_level_0,literal,id,index,id2
literal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,A,0,2.0,0
B,B,1,4.0,1
C,C,2,6.0,4
D,D,3,8.0,9
E,E,4,10.0,16


Сначала указывается название нового столбца в квадратных скобках, затем описывам те операции, которые необходимо выполнить со старым столбцом. Можно создать новый столбец на основе двух (и более) старых. Создадим столбец `no_work`, в котором будет сохранено число лет, которое люди не работали (возраст за вычетом лет опыта работы).

In [84]:
df['iddiff'] = df['id2'] - df['id']
df

Unnamed: 0_level_0,literal,id,index,id2,iddiff
literal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,A,0,2.0,0,0
B,B,1,4.0,1,0
C,C,2,6.0,4,2
D,D,3,8.0,9,6
E,E,4,10.0,16,12


Можно создать столбец с нуля, например, столбец, состоящий из одного значения (возьмем `W` как статус человека – в трудоспособном возрасте):

In [87]:
df['l2'] = 'W'  # из одного значения
df

Unnamed: 0_level_0,literal,id,index,id2,iddiff,status,l2
literal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
A,A,0,2.0,0,0,W,W
B,B,1,4.0,1,0,W,W
C,C,2,6.0,4,2,W,W
D,D,3,8.0,9,6,W,W
E,E,4,10.0,16,12,W,W


Или столбец из списка значений (столбец `gender`, пол):

In [88]:
df['id3'] = [1, 0, 1, 0, 1]  # из списка значений
df

Unnamed: 0_level_0,literal,id,index,id2,iddiff,status,l2,id3
literal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
A,A,0,2.0,0,0,W,W,1
B,B,1,4.0,1,0,W,W,0
C,C,2,6.0,4,2,W,W,1
D,D,3,8.0,9,6,W,W,0
E,E,4,10.0,16,12,W,W,1


### Урок 6.3. Сортировка и упорядочение

In [18]:
import pandas as pd
import numpy as np 
df = pd.read_csv("WeightLoss.csv")
df['total'] = df['w1'] + df['w2'] + df['w3']
df['total_gr'] = df['total'] * 1000

Попробуем отсортировать строки в таблице по значениям в каком-нибудь столбце. Для этого нам пригодится метод `.sort_values()`. Отсортируем строки по показателю `total`:

In [22]:
df.sort_values('id')

Unnamed: 0,id,group,w1,w2,w3,se1,se2,se3,total,total_gr
0,1,Control,4,3,3.0,14.0,13.0,15.0,10.0,10000.0
1,2,Control,4,4,3.0,13.0,14.0,17.0,11.0,11000.0
2,3,Control,4,3,1.0,17.0,12.0,16.0,8.0,8000.0
3,4,Control,3,2,1.0,11.0,11.0,12.0,6.0,6000.0
4,5,Control,5,3,2.0,16.0,15.0,14.0,10.0,10000.0
5,6,Control,6,5,4.0,17.0,18.0,18.0,15.0,15000.0
6,7,Control,6,5,4.0,17.0,16.0,19.0,15.0,15000.0
7,8,Control,5,4,1.0,,,,10.0,10000.0
8,9,Control,5,4,1.0,14.0,14.0,15.0,10.0,10000.0
9,10,Control,3,3,2.0,14.0,15.0,13.0,8.0,8000.0


Сортировка может происходить по нескольким столбцам сразу. Например, давайте сделаем так, чтобы вначале шли люди, которые меньше всего сбросили килограммов за три месяца и чья самооценка в последний месяц была небольшой:

In [23]:
df.sort_values(['id', 'total'])

Unnamed: 0,id,group,w1,w2,w3,se1,se2,se3,total,total_gr
0,1,Control,4,3,3.0,14.0,13.0,15.0,10.0,10000.0
1,2,Control,4,4,3.0,13.0,14.0,17.0,11.0,11000.0
2,3,Control,4,3,1.0,17.0,12.0,16.0,8.0,8000.0
3,4,Control,3,2,1.0,11.0,11.0,12.0,6.0,6000.0
4,5,Control,5,3,2.0,16.0,15.0,14.0,10.0,10000.0
5,6,Control,6,5,4.0,17.0,18.0,18.0,15.0,15000.0
6,7,Control,6,5,4.0,17.0,16.0,19.0,15.0,15000.0
7,8,Control,5,4,1.0,,,,10.0,10000.0
8,9,Control,5,4,1.0,14.0,14.0,15.0,10.0,10000.0
9,10,Control,3,3,2.0,14.0,15.0,13.0,8.0,8000.0


По умолчанию сортировка происходит по возрастанию, но это можно поправить:

In [24]:
df.sort_values(['id', 'total'], ascending = False)

Unnamed: 0,id,group,w1,w2,w3,se1,se2,se3,total,total_gr
33,34,DietEx,8,6,1.0,17.0,17.0,17.0,15.0,15000.0
32,33,DietEx,7,9,4.0,16.0,16.0,19.0,20.0,20000.0
31,32,DietEx,9,5,2.0,16.0,14.0,17.0,16.0,16000.0
30,31,DietEx,6,6,3.0,15.0,13.0,18.0,15.0,15000.0
29,30,DietEx,6,5,2.0,15.0,12.0,18.0,13.0,13000.0
28,29,DietEx,3,5,1.0,13.0,13.0,16.0,9.0,9000.0
27,28,DietEx,3,4,1.0,16.0,13.0,,8.0,8000.0
26,27,DietEx,9,7,3.0,13.0,12.0,17.0,19.0,19000.0
25,26,DietEx,4,7,,16.0,12.0,18.0,,
24,25,DietEx,7,7,4.0,15.0,11.0,19.0,18.0,18000.0


По умолчаю изменения исходного датафрейма не происходит, но это можно исправить, добавив опцию `inplace=True`. Тогда строки в исходном датасете поменяют своё расположение в соответствии с выбранной сортировкой.

### Урок 5.4: характеристики датафрейма `pandas`

Какую сводную информацию по таблице можно получить? Например, число переменных (столбцов) и наблюдений (строк), а также число заполненных значений.