## Работа с составными типами данных

При обработке массивов чисел есть несколько подходов.

Рассмострим несколько типов составных переменных и взаимосвязи между ними.

В качестве данных будем использовать текстовый файл с данными по времени реакции (reaction time, RT).

In [1]:
u='rt.tsv'
u

'rt.tsv'

## 1. Список
Входит в базовый комплект `Python` и не требует импорта библиотек.

Достоинство - универсальность, недостатки - требует перебора входящих элементов, ибо никак не предполагает их единообразия: в одном списке могут быть и числа, и строки, и сложные объекты.

In [2]:
#создаем пустой список
vv=[]
#открываем файл и считываем из него число между 1-м и 2-м пробелами или табуляциями (2-ю колонку)
with open(u) as f:
    for l in f.readlines():
#       print(v)  # выводит на экран каждую строку
        v = l.split()[1]

        if '.' in v:
            vv.append(float(v))
        
vv        

[0.429,
 0.335,
 0.357,
 0.373,
 0.439,
 0.402,
 0.382,
 0.325,
 0.4,
 0.303,
 0.349,
 0.285,
 0.288,
 0.308,
 0.282,
 0.382,
 0.338,
 0.307,
 0.514,
 0.287,
 0.316,
 0.29,
 0.434,
 0.622,
 0.402,
 0.393,
 0.471,
 0.411,
 0.431,
 0.519,
 0.37,
 0.412,
 0.385,
 0.513,
 0.389,
 0.439,
 0.443,
 0.698,
 0.473,
 0.377,
 0.372,
 0.357,
 0.378,
 0.391,
 0.396]

У списка есть только длина, но в его состав могут входить другие списки.

In [4]:
len(vv)

45

Сгруппируем список из 9 списочков по 5 значений в каждом.

In [5]:
vv9x5 = []
i=0 #текущая позиция
for igroup in range(9):
    v1 = vv[i:i+5]
    vv9x5.append(v1)
    i+=5 #сдвигаемся к началу следующей группы
        
vv9x5

[[0.429, 0.335, 0.357, 0.373, 0.439],
 [0.402, 0.382, 0.325, 0.4, 0.303],
 [0.349, 0.285, 0.288, 0.308, 0.282],
 [0.382, 0.338, 0.307, 0.514, 0.287],
 [0.316, 0.29, 0.434, 0.622, 0.402],
 [0.393, 0.471, 0.411, 0.431, 0.519],
 [0.37, 0.412, 0.385, 0.513, 0.389],
 [0.439, 0.443, 0.698, 0.473, 0.377],
 [0.372, 0.357, 0.378, 0.391, 0.396]]

Необходимо правильно рассчитывать размеры, и проверять крайние группы, чтобы при указании индексов не выйти за пределы массива.

Из функций обработки в чистом `Python` есть только сумма. Вот так можно посчитать средние значения для каждой группы.

In [6]:
[sum(gr)/len(gr) for gr in vv9x5]

[0.3866,
 0.36239999999999994,
 0.3024,
 0.3656,
 0.4128,
 0.445,
 0.4138,
 0.48599999999999993,
 0.3788]

## 2. Numpy Array

Массивы чисел, с которыми можно обращаться как с единым целым. Библиотека `numpy` включает функции линейной алгебры для работы с матрицами.

Типичный импорт в виде `np`. В блокноте более удобным является импорт командой `%pylab` (см. в других примерах).

In [7]:
import numpy as np
np.set_printoptions(suppress=True)  #не использовать научную нотацию

В `numpy` есть функция загрузки таблиц с числами. Поскольку в нашем файле есть заголовки (строки, а не числа) и колонки с нечисловыми значениями, то указываем дополнительные параметры: пропустить 1 ряд, использовать 2-ю колонку.

In [8]:
x = np.loadtxt(u, skiprows=1, usecols=(1,))
x

array([ 0.429,  0.335,  0.357,  0.373,  0.439,  0.402,  0.382,  0.325,
        0.4  ,  0.303,  0.349,  0.285,  0.288,  0.308,  0.282,  0.382,
        0.338,  0.307,  0.514,  0.287,  0.316,  0.29 ,  0.434,  0.622,
        0.402,  0.393,  0.471,  0.411,  0.431,  0.519,  0.37 ,  0.412,
        0.385,  0.513,  0.389,  0.439,  0.443,  0.698,  0.473,  0.377,
        0.372,  0.357,  0.378,  0.391,  0.396])

In [9]:
x.shape

(45,)

In [19]:
X = x.reshape(-1,3)
X

array([[ 0.429,  0.335,  0.357],
       [ 0.373,  0.439,  0.402],
       [ 0.382,  0.325,  0.4  ],
       [ 0.303,  0.349,  0.285],
       [ 0.288,  0.308,  0.282],
       [ 0.382,  0.338,  0.307],
       [ 0.514,  0.287,  0.316],
       [ 0.29 ,  0.434,  0.622],
       [ 0.402,  0.393,  0.471],
       [ 0.411,  0.431,  0.519],
       [ 0.37 ,  0.412,  0.385],
       [ 0.513,  0.389,  0.439],
       [ 0.443,  0.698,  0.473],
       [ 0.377,  0.372,  0.357],
       [ 0.378,  0.391,  0.396]])

In [11]:
type(X)

numpy.ndarray

In [12]:
X.shape

(9, 5)

С массивом можно обращаться к с единым целым. При этом можно применять разные операции к колонкам и строчкам. В случае необходимости менять форму и переворачивать (транспонировать).

Есть методы для базовой статистики.

In [13]:
X.mean()

0.3948222222222223

In [14]:
X.mean(axis=0)

array([ 0.38355556,  0.36811111,  0.39811111,  0.44722222,  0.37711111])

In [15]:
X.mean(axis=1).round(2)

array([ 0.39,  0.36,  0.3 ,  0.37,  0.41,  0.44,  0.41,  0.49,  0.38])

In [16]:
X.T.mean(axis=1).round(2)

array([ 0.38,  0.37,  0.4 ,  0.45,  0.38])

Свойство `.T` (T большое) - транспонирование.

Очень удобно выполнять действия с несколькими массивами. При этом автоматически подбираются соответствия между количеством значений в каждом.

Распределенное соответствие

![](numpy_broadcasting.png)

Например, нормализуем массив - вычтем среднее и разделим на стандартное отклонение каждую колонку.

In [17]:
((X - X.mean(axis=0))/X.std(axis=0)).round(3)

array([[ 1.263, -0.543, -0.357, -0.838,  0.85 ],
       [ 0.513,  0.228, -0.635, -0.533, -1.018],
       [-0.961, -1.363, -0.956, -1.573, -1.306],
       [-0.043, -0.494, -0.791,  0.754, -1.237],
       [-1.878, -1.281,  0.312,  1.974,  0.342],
       [ 0.263,  1.688,  0.112, -0.183,  1.948],
       [-0.377,  0.72 , -0.114,  0.743,  0.163],
       [ 1.541,  1.228,  2.603,  0.291, -0.002],
       [-0.321, -0.182, -0.175, -0.635,  0.259]])

Из массива можно редуцироваться до списка.

In [None]:
X.tolist()

In [None]:
type(_)

##  3. Pandas DataFrame

Для работы со структурированными данными библиотека `pandas` предлагает структуры:
- 1-мерная Series,
- 2-мерная DataFrame,
- 3-мерная Panel
- 4-мерная Panel4D

Типичный импорт в виде pd. Библиотека включает массу функций для удобного обращения с файлами, датами, статистикой и рисунками.

In [20]:
import pandas as pd

In [21]:
D = pd.read_table(u)
D

Unnamed: 0,t,v,isi,mod,g
0,9.585,0.429,,v,8
1,16.368,0.335,6.782,v,8
2,23.729,0.357,7.361,v,8
3,30.93,0.373,7.201,v,8
4,40.303,0.439,9.372,v,8
5,46.804,0.402,6.501,v,8
6,55.448,0.382,8.643,v,8
7,62.401,0.325,6.953,v,8
8,68.91,0.4,6.508,v,8
9,73.463,0.303,4.552,v,4


При чтении таблицы создаются индексы - для наблюдений (строчек) и для переменных (колонок).

In [None]:
D.columns

In [None]:
D.index

Можно задать в качестве индекса одну из колонок. По-умолчанию используется автоматическая нумерация (как в этом примере).

Каждая строчка или колонка `DataFrame` - это серия с тем же индексом. К значениям можно обращаться по их индексу в любом порядке. Например, чтобы получить третье по счету значение ВР:

In [None]:
D['v'][2]

In [None]:
D.ix[2]['v']

In [None]:
D.ix[2,'v']

Можно использовать индекс позиции, как в массивах numpy.

In [None]:
D.iloc[2,1]

Таблицы включают мощные средства манипуляции данными.

Например, чтобы посчитать среднее ВР для разных МСИ (в колонке `g`), можно сделать так:

In [None]:
D.groupby('g')['v'].mean()

Таблицы и Серии подходят для использования в операциях линейной алгебры из `numpy`. Если надо,  значения таблицы можно извлечь в виде массива или в виде списка.

In [None]:
D.values

И, наоборот, из массива можно сделать датафрейм (таблицу). Если не указать индексы - они создадутся автоматически.

In [None]:
pd.DataFrame(X)

In [None]:
type(vv), type(X), type(D['isi']), type(D)