# Лабораторная работа № 2. Работа с массивами и таблицами.

В работе проводится обзор основных возможностей языка Python и модулей **numpy**, **pandas** для анализа данных.

## Цель работы

Изучить основные возможности языка Python и модулей **numpy** и **pandas** по работе с векторами, одномерными и многомерными массивами. Освоить выполнение векторных операций над массивами данных, булево индексирование, а также аггрегирование двумерных таблиц.

## Модуль numpy

NumPy это open-source модуль для языка Python, который предоставляет общие математические и числовые операции в виде пре-скомпилированных, быстрых функций. Они объединяются в высокоуровневые пакеты. NumPy (Numeric Python) предоставляет базовые методы для манипуляции с большими массивами и матрицами. SciPy (Scientific Python) расширяет функционал numpy огромной коллекцией полезных алгоритмов, таких как минимизация, преобразование Фурье, регрессия, и другие прикладные математические техники.

Всю документацию по этому модулю и примеры его использования можно найти на [официальном сайте.](https://numpy.org/doc/stable/ "numpy.org")

Чтобы использовать модуль, его необходимо подключить с помощью команды **import**. Команда **as** позволяет обращаться к модулю через любое другое ключевое слово. Это позволяет сделать код более кратким и легко воспринимаемым. Стандартное сокращение для модуля **numpy** - это **np**.

In [75]:
import numpy as np

### Создание массивов

Ключевым типом данных, с которым работает **numpy**, являются массивы различных размерностей. В конструктор **np.array()** можно передать любой объект, имеющий структуру массива, например, список, в том числе многомерный. Также можно задать тип данных.

In [76]:
arr = np.array([1,2,3,4,5], dtype=np.int32)
arr

array([1, 2, 3, 4, 5], dtype=int32)

In [77]:
arr = np.array([[1,2,3],[4,5,6]], dtype=np.float32)
arr

array([[1., 2., 3.],
       [4., 5., 6.]], dtype=float32)

Конструкторы **np.zeros()**, **np.ones()**, **np.empty()** позволяют создавать массивы, состоящие из нулей и единиц, пустые массивы соответственно. Размер массива указывается в параметре **shape**.

In [78]:
arr = np.zeros(shape=(2,3))
arr

array([[0., 0., 0.],
       [0., 0., 0.]])

In [79]:
arr = np.ones(shape=(3,2), dtype=np.int32)
arr

array([[1, 1],
       [1, 1],
       [1, 1]], dtype=int32)

In [80]:
arr = np.empty(shape=(2,2))
arr

array([[2.5e-323, 2.5e-323],
       [2.5e-323, 2.5e-323]])

Массивы имеют несколько атрибутов, например, **shape** (форма), **size** (размер), **dtype** (тип данных).

In [81]:
print('Shape: ', arr.shape)
print('Size: ', arr.size)
print('Data type: ', arr.dtype)

Shape:  (2, 2)
Size:  4
Data type:  float64


### Индексирование

Получить определенный элемент массива можно стандартным образом, указав в квадратных скобках номер элемента.

In [82]:
arr2d = np.array([[1,2,3,4,5],[6,7,8,9,10],[11,12,13,14,15]])
arr2d

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15]])

In [83]:
arr2d[2,3]

14

Очень мощным (в смысле уменьшения временных затрат на выполнение операции) способом получения какой-то части массива является *slicing*. 

В квадратных скобках через двоеточие указывается последовательно начальный индекс, конечный индекс и шаг, с которым нужно выдавать элементы массива. Если не указан первый, то он подразумевается равным 0. Если не указан второй, то он подразумевается равным максимальному индексу. Если не указан последний, то он подразумевается равным 0. 

In [84]:
arr2d[:,2]

array([ 3,  8, 13])

In [85]:
arr2d[:2, 1:4]

array([[2, 3, 4],
       [7, 8, 9]])

In [86]:
arr2d[:2, 1:]

array([[ 2,  3,  4,  5],
       [ 7,  8,  9, 10]])

In [87]:
arr2d[:2, 1::2]

array([[2, 4],
       [7, 9]])

Значение -1 обозначает максимальный индекс, -2 - предшествующий максимальному и т.д. Если значение -1 стоит в качестве шага для *slising*, то это означает, что элементы будут возвращаться в обратном порядке. Такой трюк можно использовать, например, для изменения порядка следования элементов в массиве на противоположный. 

In [88]:
arr2d[:,-1]

array([ 5, 10, 15])

In [89]:
arr2d[:,::-1]

array([[ 5,  4,  3,  2,  1],
       [10,  9,  8,  7,  6],
       [15, 14, 13, 12, 11]])

In [90]:
arr2d[::-1,::-1]

array([[15, 14, 13, 12, 11],
       [10,  9,  8,  7,  6],
       [ 5,  4,  3,  2,  1]])

### Генераторы

Другим способ создания массивов с упорядоченными элементами являются различные генераторы. Например, метод **np.arange(a,b,c)**, который создает массив чисел в диапазоне от **a** до **b** с шагом **c**.

**np.linspace(a, b, n)** создает массив чисел в количестве **n**, линейно расположенных в диапазоне от **a** до **b**. Параметр **endpoint** указывает на то, включать **b** в массив или нет. По умолчанию он равен **True**.

**np.logspace(a, b, n)** создает массив чисел в количестве **n**, логарифмически расположенных в диапазоне от **$10^a$** до **$10^b$**. Параметр **endpoint** указывает на то, включать **b** в массив или нет. По умолчанию он равен **True**.

In [91]:
np.arange(0,100,2)

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32,
       34, 36, 38, 40, 42, 44, 46, 48, 50, 52, 54, 56, 58, 60, 62, 64, 66,
       68, 70, 72, 74, 76, 78, 80, 82, 84, 86, 88, 90, 92, 94, 96, 98])

In [92]:
np.linspace(0,100,20)

array([  0.        ,   5.26315789,  10.52631579,  15.78947368,
        21.05263158,  26.31578947,  31.57894737,  36.84210526,
        42.10526316,  47.36842105,  52.63157895,  57.89473684,
        63.15789474,  68.42105263,  73.68421053,  78.94736842,
        84.21052632,  89.47368421,  94.73684211, 100.        ])

In [93]:
np.linspace(0,100,20, endpoint=False)

array([ 0.,  5., 10., 15., 20., 25., 30., 35., 40., 45., 50., 55., 60.,
       65., 70., 75., 80., 85., 90., 95.])

In [94]:
np.logspace(-5,5,10)

array([1.00000000e-05, 1.29154967e-04, 1.66810054e-03, 2.15443469e-02,
       2.78255940e-01, 3.59381366e+00, 4.64158883e+01, 5.99484250e+02,
       7.74263683e+03, 1.00000000e+05])

In [95]:
np.logspace(-5,5,10, endpoint=False)

array([1.e-05, 1.e-04, 1.e-03, 1.e-02, 1.e-01, 1.e+00, 1.e+01, 1.e+02,
       1.e+03, 1.e+04])

### Увеличение массива

Для того, чтобы добавить элемент в одномерный массив, применяется функция **np.append(arr1, arr2)**, где в качестве первого аргумента передается массив, в который нужно добавить элементы, а последующие - то, что нужно добавить. Они могут быть как скалярами, так и одномерными массивами. При этом возвращается новый массив, а не изменяется старый.

In [96]:
arr1d = np.arange(0,20,2)
arr1d

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [97]:
np.append(arr1d, 20)
arr1d

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [98]:
arr1d = np.append(arr1d, 20)
arr1d

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18, 20])

In [99]:
arr1d = np.append(arr1d, [22, 24, 26, 28])
arr1d

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28])

In [100]:
arr1d = np.append(arr1d, arr1d[::4])
arr1d

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28,  0,  8,
       16, 24])

Иногда необходимо создать пустой массив и поэлементно добавлять в него значения (например, в цикле for). При добавлении первого элемента произойдет ошибка, поскольку в пустой массив с помощью **np.append()** добавить новое значение невозможно. Для решения этой проблемы удобно использовать конструкцию **if / else**. В этом случае, если **arr = None** (первая итерация), то выполниться **arr = np.array(i)** и создастся массив. На всех последующих итерациях к массиву будет добавляться по одному элементу.

In [101]:
arr = None
for i in range(10):
    arr = np.append(arr, i) if arr is not None else np.array(i)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

Для объединения двух многомерных массивов используются методы **np.vstack((arr1, arr2, ...))** - объединение вдоль вертикальной оси, **np.hstack((arr1, arr2, ...))** - объединение вдоль горизонтальной оси. Параметры **arr1**, **arr2**, ... должны иметь одинаковую ширину (в случае с **np.vstack()**) или одинаковую высоту (в случае с **np.hstack()**). 

Существуют и другие (более общие) способы объединения массивов - **np.concatenate()** и **np.stack()**.

In [102]:
arr = np.vstack((arr2d, arr2d[:2]))
arr

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15],
       [ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10]])

In [103]:
arr = np.hstack((arr, arr, arr[:,:3]))
arr

array([[ 1,  2,  3,  4,  5,  1,  2,  3,  4,  5,  1,  2,  3],
       [ 6,  7,  8,  9, 10,  6,  7,  8,  9, 10,  6,  7,  8],
       [11, 12, 13, 14, 15, 11, 12, 13, 14, 15, 11, 12, 13],
       [ 1,  2,  3,  4,  5,  1,  2,  3,  4,  5,  1,  2,  3],
       [ 6,  7,  8,  9, 10,  6,  7,  8,  9, 10,  6,  7,  8]])

### Векторные операции

Выполнение арифметических операций в векторной форме позволяет существенно ускорить выполнение этих операций, особенно если массивы очень большие. Поэтому всегда надо стараться писать код так, чтобы он был векторным.

Простые арифметические операции (сложение, вычитание, умножение и деление на число), возведение в степень, примененные к массивам, являются по определению векторными и выполняются поэлементно.

In [104]:
arr2d

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15]])

In [105]:
arr2d + 5

array([[ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15],
       [16, 17, 18, 19, 20]])

In [106]:
arr2d * 2

array([[ 2,  4,  6,  8, 10],
       [12, 14, 16, 18, 20],
       [22, 24, 26, 28, 30]])

In [107]:
arr2d ** 2

array([[  1,   4,   9,  16,  25],
       [ 36,  49,  64,  81, 100],
       [121, 144, 169, 196, 225]])

Сложение и вычитание, произведение и деление двух массивов также являются векторными операциями (массивы должны иметь одинаковый размер) и выполняются поэлементно.

In [108]:
arr2d + np.ones(shape=arr2d.shape)

array([[ 2.,  3.,  4.,  5.,  6.],
       [ 7.,  8.,  9., 10., 11.],
       [12., 13., 14., 15., 16.]])

In [109]:
arr2d / arr2d

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

Примененить к элементам массивов более сложные функции можно с помощью определенных в модуле **numpy** стандартных функций: **np.sin()**, **np.log()** и т.д.  

In [110]:
np.sin(arr2d)

array([[ 0.84147098,  0.90929743,  0.14112001, -0.7568025 , -0.95892427],
       [-0.2794155 ,  0.6569866 ,  0.98935825,  0.41211849, -0.54402111],
       [-0.99999021, -0.53657292,  0.42016704,  0.99060736,  0.65028784]])

In [111]:
np.log(arr2d)

array([[0.        , 0.69314718, 1.09861229, 1.38629436, 1.60943791],
       [1.79175947, 1.94591015, 2.07944154, 2.19722458, 2.30258509],
       [2.39789527, 2.48490665, 2.56494936, 2.63905733, 2.7080502 ]])

С помощью метода **np.apply_along_axis(func, axis, arr)** можно применить различные функции **func** к столбцам или строкам массива **arr**. Функция **func** принимает на вход одномерный массив, т.е. выполняет какую-то операцию над столбцами (если **axis** = 0) или над строками (если **axis** = 1).

Функция **func** может быть встроенной (определенной в модуле **numpy**) или определенной самим пользователем. Главное, чтобы она принимала на вход одномерный массив. Отдельным классом таких функций являются lambda-выражения, или анонимные функции. Их синтаксис таков: *lambda x: x+1*, где до двоеточия указываются аргументы, а после двоеточия - операция.  

In [112]:
np.apply_along_axis(np.max, 0, arr2d)

array([11, 12, 13, 14, 15])

In [113]:
np.apply_along_axis(np.max, 1, arr2d)

array([ 5, 10, 15])

In [114]:
np.apply_along_axis(lambda x: x[::-1], 1, arr2d)

array([[ 5,  4,  3,  2,  1],
       [10,  9,  8,  7,  6],
       [15, 14, 13, 12, 11]])

## Модуль pandas

Данный пакет делает Python мощным инструментом для анализа данных. Пакет дает возможность строить сводные таблицы, выполнять группировки, предоставляет удобный доступ к табличным данным, а при наличии пакета matplotlib дает возможность рисовать графики на полученных наборах данных (об этом в следующей лабораторной работе).

Общепринятым способом краткого наименования этого модуля является **pd**. Всю документацию по этому модулю, а также примеры его использования можно найти на [официальном сайте](https://pandas.pydata.org/docs/ "pandas.pydata.org").

In [115]:
import pandas as pd

Этот модуль используется для эффективной работы с таблицами. Базовыми классами являются *Index* (индексы), *Series* (столбцы), *DataFrame* (матрица). Их конструкторы принимают на вход объекты, имеющие логику одномерных массивов (для *Index* и *Series*) или же двумерных массивов (для *DataFrame*).

### Класс Index

Этот класс описывает индексы и колонки, содержащиеся в табличке. Объекты класса **Index** обладают множеством атрибутов, например, **name**, **size**, **shape**, **values** и др. Атрибут **values** выдает элементы, содержащиеся в объекте, в виде массива **np.array**.

In [116]:
idx = pd.Index(['One','Two','Three','Four','Five'], name='numbers')
print(idx)
print('Name: ', idx.name)
print('Shape: ', idx.shape)
print('Values: ', idx.values)

Index(['One', 'Two', 'Three', 'Four', 'Five'], dtype='object', name='numbers')
Name:  numbers
Shape:  (5,)
Values:  ['One' 'Two' 'Three' 'Four' 'Five']


Метод **drop(labels)** возвращает объект **Index** с выкинутыми значениями **labels**. Метод **drop_duplicates(keep)** возвращает объект с уделенными повторяющимися значениями. Если параметр **keep = 'first'**, по сохраняется первое появление повторяющегося значения, если **keep = 'last'**, то сохранияет последнее упоминание. Метод **unique()** возвращает объект с уникальными элементами, т.е. встречающимися только 1 раз. Этот метод аналогичен методу **drop_duplicates()**.

In [117]:
idx = pd.Index(['One','Two','Three','Four','Five','One','Two'], name='numbers')
idx

Index(['One', 'Two', 'Three', 'Four', 'Five', 'One', 'Two'], dtype='object', name='numbers')

In [118]:
idx = idx.drop_duplicates()
idx

Index(['One', 'Two', 'Three', 'Four', 'Five'], dtype='object', name='numbers')

In [119]:
idx.drop(['One','Two'])

Index(['Three', 'Four', 'Five'], dtype='object', name='numbers')

In [120]:
idx.unique()

Index(['One', 'Two', 'Three', 'Four', 'Five'], dtype='object', name='numbers')

При желании можно переименовать те или иные элементы в объекте **Index** с помощью метода **reindex(new_labels)**, подав ему на вход новые элементы.

In [121]:
idx.reindex(['NewOne','NewTwo','NewThree','NewFour'])

(Index(['NewOne', 'NewTwo', 'NewThree', 'NewFour'], dtype='object', name='numbers'),
 array([-1, -1, -1, -1]))

### Класс Series

Этот класс представляет собой реализацию одномерного массива с множеством различных методов и атрибутов. Конструктор класса принимает на вход данные в виде массива, индексы (в виде массива или объекта класса **Index**), имя объекта. У класса **Series** довольно много атрибутов. Вот некоторые их них: **name**, **values**, **size**, **index** и др.

In [122]:
ser = pd.Series(np.arange(0,100,1), name='numbers', index=np.arange(100,300,2))
ser

100     0
102     1
104     2
106     3
108     4
       ..
290    95
292    96
294    97
296    98
298    99
Name: numbers, Length: 100, dtype: int64

Сменить тип данных можно с помощью метода **astype(new_type)**, который по определению возвращает копию объекта.

In [123]:
ser.astype(np.float32)

100     0.0
102     1.0
104     2.0
106     3.0
108     4.0
       ... 
290    95.0
292    96.0
294    97.0
296    98.0
298    99.0
Name: numbers, Length: 100, dtype: float32

Индексирование одного элемента можно проводить подобно обычному массиву, однако в квадратных скобках надо указать именно значение элемента из **Index**, а не порядковый номер элемента. Для того, чтобы получить *slice*, то есть получить какую-то часть объекта, нужно использовать метод **loc[a,b,c]**. Его функционал полностью аналогичен индексированию массивов **numpy**, c той лишь разницей, что элемент с индексом **b** включается.

In [124]:
ser[100]

0

In [125]:
ser.loc[100:120]

100     0
102     1
104     2
106     3
108     4
110     5
112     6
114     7
116     8
118     9
120    10
Name: numbers, dtype: int64

In [126]:
ser.loc[100:120:2]

100     0
104     2
108     4
112     6
116     8
120    10
Name: numbers, dtype: int64

Если же нужно получить *slice* на основе порядковых номеров элементов, то используется метод **iloc[a:b:c]**. Работает он аналогично методу **loc[a:b:c]**, с той лишь разницей, что индекс с номером **b** не включается.

In [127]:
ser.iloc[0:10]

100    0
102    1
104    2
106    3
108    4
110    5
112    6
114    7
116    8
118    9
Name: numbers, dtype: int64

Полезным бывает итерирование по всем парам (индекс, значение) с помощью метода **iteritems()**.

In [128]:
for index, value in ser.iloc[:10].iteritems():
    print('Index:', index, ', Value:', value)

Index: 100 , Value: 0
Index: 102 , Value: 1
Index: 104 , Value: 2
Index: 106 , Value: 3
Index: 108 , Value: 4
Index: 110 , Value: 5
Index: 112 , Value: 6
Index: 114 , Value: 7
Index: 116 , Value: 8
Index: 118 , Value: 9


  for index, value in ser.iloc[:10].iteritems():


**Series** имеет широким набором векторных операций: сложение **add()**, вычитание **sub()**, умножение **mul()**, деление **div()**, округление **round()**, возведение в степень **pow()**, операций сравнения: меньше **lt()**, больше **gt()**, меньши или равно **le()**, больше или равно **ge()**, не равен **ne()**, равен **eq()** и др.

In [129]:
ser.add(ser)

100      0
102      2
104      4
106      6
108      8
      ... 
290    190
292    192
294    194
296    196
298    198
Name: numbers, Length: 100, dtype: int64

In [130]:
ser / ser

100    NaN
102    1.0
104    1.0
106    1.0
108    1.0
      ... 
290    1.0
292    1.0
294    1.0
296    1.0
298    1.0
Name: numbers, Length: 100, dtype: float64

In [131]:
ser1 = ser.pow(np.linspace(1,2,len(ser)))
ser1

100       0.000000
102       1.000000
104       2.028203
106       3.101555
108       4.230441
          ...     
290    7508.257976
292    8025.528491
294    8578.407365
296    9169.354356
298    9801.000000
Name: numbers, Length: 100, dtype: float64

In [132]:
ser1.round(2)

100       0.00
102       1.00
104       2.03
106       3.10
108       4.23
        ...   
290    7508.26
292    8025.53
294    8578.41
296    9169.35
298    9801.00
Name: numbers, Length: 100, dtype: float64

In [133]:
ser.lt(-ser)

100    False
102    False
104    False
106    False
108    False
       ...  
290    False
292    False
294    False
296    False
298    False
Name: numbers, Length: 100, dtype: bool

Также у класса **Series** есть много статистических функций **mean()**, **max()**, **min()**, **skew()**, **kurtosis()** и др. Значения некоторых статистических функций можно получить с помощью метода **describe()**.

In [134]:
ser.describe()

count    100.000000
mean      49.500000
std       29.011492
min        0.000000
25%       24.750000
50%       49.500000
75%       74.250000
max       99.000000
Name: numbers, dtype: float64

Заполнение пропущенных значений производится с помощью метода **fillna()**, при этом параметр **inplace** позволяет выполнять заполнение исходного объекта, а не создавать его копию. Аналогично работает метод **replace()**, который позволяет заменить одни значения на другие. Для этого в него надо передать словарь, в котором старые значения являются ключами, а новые - значениями.

In [135]:
ser = pd.Series([1,2,3,np.nan,5,6,7,np.nan])
ser

0    1.0
1    2.0
2    3.0
3    NaN
4    5.0
5    6.0
6    7.0
7    NaN
dtype: float64

In [136]:
ser.fillna(10)

0     1.0
1     2.0
2     3.0
3    10.0
4     5.0
5     6.0
6     7.0
7    10.0
dtype: float64

In [137]:
ser.fillna(10, inplace=True)
ser.replace({10:4}, inplace=True)
ser

0    1.0
1    2.0
2    3.0
3    4.0
4    5.0
5    6.0
6    7.0
7    4.0
dtype: float64

Объединение нескольких объектов **Series** производится с помощью метода **append()**. Если параметр **ignore_index = True**, то индексы в итоговом объекте будут от 0 до максимального индекса. Если же **ignore_index = False**, то сохранятся индексы исходных объектов.

In [138]:
ser1 = pd.Series([1,1,1])
ser2 = pd.Series([2,2,2])
ser1.append(ser2, ignore_index = False)

  ser1.append(ser2, ignore_index = False)


0    1
1    1
2    1
0    2
1    2
2    2
dtype: int64

In [139]:
ser1.append(ser2, ignore_index = True)

  ser1.append(ser2, ignore_index = True)


0    1
1    1
2    1
3    2
4    2
5    2
dtype: int64

### Класс DataFrame

Класс **Series** описывает структуру таблиц. Каждая колонка является объектом класса **Series**, а названия колонок и индексы - объектами класса **Index**. Функционал этого класса почти полностью совпадает с функционалом класса **Series**. Перечислим основные возможности по работе с таблицами, предоставляемые классом **DataFrame**. Конструктор принимает на себя данные, имеющие логическую структуру двумерного массива: двумерный массив, список списков, кортеж из списков, словарь. В последнем случае ключи словаря будут являться названиями колонок. Также в конструктор можно передать непосредственно названия колонок и индексов, а также тип данных.

In [140]:
dt = pd.DataFrame(np.ones(shape=(4,5))/2., columns=['one','two','three','four','five'])
dt

Unnamed: 0,one,two,three,four,five
0,0.5,0.5,0.5,0.5,0.5
1,0.5,0.5,0.5,0.5,0.5
2,0.5,0.5,0.5,0.5,0.5
3,0.5,0.5,0.5,0.5,0.5


In [141]:
dt = pd.DataFrame({'one':[1]*5,
                  'two':[2]*5,
                  'three':[3]*5,
                   'four':[4]*5,
                   'five':[5]*5},
                 dtype=np.float32)
dt

Unnamed: 0,one,two,three,four,five
0,1.0,2.0,3.0,4.0,5.0
1,1.0,2.0,3.0,4.0,5.0
2,1.0,2.0,3.0,4.0,5.0
3,1.0,2.0,3.0,4.0,5.0
4,1.0,2.0,3.0,4.0,5.0


Информацию о количестве строк и столбцов, о типах данных можно получить с помощью метода **info()**. Статистику по колонкам можно получить с помощью метода **describe()**.

In [142]:
dt.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   one     5 non-null      float32
 1   two     5 non-null      float32
 2   three   5 non-null      float32
 3   four    5 non-null      float32
 4   five    5 non-null      float32
dtypes: float32(5)
memory usage: 232.0 bytes


In [143]:
dt.describe()

Unnamed: 0,one,two,three,four,five
count,5.0,5.0,5.0,5.0,5.0
mean,1.0,2.0,3.0,4.0,5.0
std,0.0,0.0,0.0,0.0,0.0
min,1.0,2.0,3.0,4.0,5.0
25%,1.0,2.0,3.0,4.0,5.0
50%,1.0,2.0,3.0,4.0,5.0
75%,1.0,2.0,3.0,4.0,5.0
max,1.0,2.0,3.0,4.0,5.0


Если требуется посмотреть на несколько строк таблицы, то применяется метод **head(n)**, возвращающий первые **n** строк. Если **n** не задано, то оно полагается равным 5. Этот метод особенно полезен, если требуется увидеть структуру таблицы, а данных очень много. Также есть метод **tail(n)**, который позволяет увидеть последние **n** строк таблицы.

In [144]:
dt.head(3)

Unnamed: 0,one,two,three,four,five
0,1.0,2.0,3.0,4.0,5.0
1,1.0,2.0,3.0,4.0,5.0
2,1.0,2.0,3.0,4.0,5.0


Изменить тип данных одной или нескольких колонок можно с помощью метода **astype(dict)**, в словаре **dict** можно определить, к какому типу нужно привести какую колонку. Метод возвращает измененную копию таблицы.

In [145]:
dt.astype({'one':np.int32,'three':bool}).head(3)

Unnamed: 0,one,two,three,four,five
0,1,2.0,True,4.0,5.0
1,1,2.0,True,4.0,5.0
2,1,2.0,True,4.0,5.0


### Индексирование и итерирование

Индексирование производится аналогично классу **Series** с помощью методов **loc[a1:b1:c1, a2:b2:c2]** и **iloc[a1:b1:c1, a2:b2:c2]**. Отличие состоит в том, что **loc[]** включает в индексирование конечные индексы **b1, b2**, а **iloc[]** нет.

In [146]:
dt.loc[:3, 'two'::2]

Unnamed: 0,two,four
0,2.0,4.0
1,2.0,4.0
2,2.0,4.0
3,2.0,4.0


In [147]:
dt.iloc[:3, 1::2]

Unnamed: 0,two,four
0,2.0,4.0
1,2.0,4.0
2,2.0,4.0


Булевое индексирование позволяет выдавать только те элементы таблицы, которые удовлетворяют определенному условию. Выполняется такое индексирование следующим образом. Операция **dt['one'] > 1** выдает объект **Series** булева типа. Если использовать этот массив в качестве индексов, то мы получим все ряды таблицы, у которой **dt['one'] > 1**.

In [148]:
dt.loc[2:4, 'one'] = 2
dt

Unnamed: 0,one,two,three,four,five
0,1.0,2.0,3.0,4.0,5.0
1,1.0,2.0,3.0,4.0,5.0
2,2.0,2.0,3.0,4.0,5.0
3,2.0,2.0,3.0,4.0,5.0
4,2.0,2.0,3.0,4.0,5.0


In [149]:
dt['one'] > 1

0    False
1    False
2     True
3     True
4     True
Name: one, dtype: bool

In [150]:
dt[dt['one'] > 1]

Unnamed: 0,one,two,three,four,five
2,2.0,2.0,3.0,4.0,5.0
3,2.0,2.0,3.0,4.0,5.0
4,2.0,2.0,3.0,4.0,5.0


Итерирование по элементам таблицы можно проводить различными способами: по парам **(column_label, Series)** с помощью методов **items()** и **iteritems()** (они идентичны), по парам **(index_label, Series)** с помощью метода **iterrows()**.

In [151]:
for col, ser in dt.iteritems():
    print(col, ser.name)

one one
two two
three three
four four
five five


  for col, ser in dt.iteritems():


In [152]:
for idx, ser in dt.iterrows():
    print(idx, ser.name)

0 0
1 1
2 2
3 3
4 4


Класс **DataFrame**, так же как и класс **Series**, имеет много различных поэлементных операций: сложение **add()**, вычитание **sub()**, умножение **mul()**, деление **div()**, округление **round()**, возведение в степень **pow()**, операций сравнения: меньше **lt()**, больше **gt()**, меньши или равно **le()**, больше или равно **ge()**, не равен **ne()**, равен **eq()** и др.

Есть возможность также находить значение различных статистических функций **mean()**, **max()**, **min()**, **skew()**, **kurtosis()**, **median()**, **corr()**, **cov()** и др, параметр **axis** определять направление, вдоль которого применяется та или иная функция (0 означает по колонкам, 1 - по рядам).

In [153]:
dt.mean(axis=0)

one      1.6
two      2.0
three    3.0
four     4.0
five     5.0
dtype: float32

In [154]:
dt.mean(axis=1)

0    3.0
1    3.0
2    3.2
3    3.2
4    3.2
dtype: float32

### Применение пользовательских и аггрегирующих функций

Метод **apply(func, axis)** позволяет применять любую функцию **func**, которая принимает на вход одномерный массив, к колонкам (**axis = 0**) или к строкам (**axis == 1**). Для того, чтобы применить функцию ко всем элементам массива, т.е. поэлементно, нужно применить использовать метод **applymap(func)**.

In [155]:
dt.applymap(np.sin)

Unnamed: 0,one,two,three,four,five
0,0.841471,0.909297,0.14112,-0.756802,-0.958924
1,0.841471,0.909297,0.14112,-0.756802,-0.958924
2,0.909297,0.909297,0.14112,-0.756802,-0.958924
3,0.909297,0.909297,0.14112,-0.756802,-0.958924
4,0.909297,0.909297,0.14112,-0.756802,-0.958924


In [156]:
dt.apply(np.min, axis=0)

one      1.0
two      2.0
three    3.0
four     4.0
five     5.0
dtype: float32

Для группировки рядов по значениям в определенных колонках используется метод **groupby(by, axis)**, где в качестве первого параметра можно передать названия колонок, по значениям которых будет производиться группировка. Параметр **axis** показывает, будет ли производиться разбиение по колонкам или по рядам. Этот метод возвращает объект **DataFrameGroupBy**, который содержит в себе группы. Чтобы получить снова таблицу, необходимо применить дополнительно любую функцию, выделяющую один элемент из нескольких (среднее, максимум и др.)

In [157]:
dt.loc[2:4, 'one'] = 2
dt.loc[:2, 'three'] = 2
dt.loc[3:4, 'five'] = 2
dt

Unnamed: 0,one,two,three,four,five
0,1.0,2.0,2.0,4.0,5.0
1,1.0,2.0,2.0,4.0,5.0
2,2.0,2.0,2.0,4.0,5.0
3,2.0,2.0,3.0,4.0,2.0
4,2.0,2.0,3.0,4.0,2.0


In [158]:
dt.groupby(['one'])

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f43b484da90>

In [159]:
dt.groupby(['one']).mean()

Unnamed: 0_level_0,two,three,four,five
one,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1.0,2.0,2.0,4.0,5.0
2.0,2.0,2.666667,4.0,3.0


Другой способ аггрегирования состоит в расчете определенных аггрегирующих функций (максимум, среднее и пр.) для определенных столбцов с помощью метода **agg(dict, axis)**. Ключами словаря **dict** являются названия колонок (или индексы рядов), а значениями - функции. Или же можно просто передать набор функций, в этом случае они будут применены ко всем колонкам. Параметр **axis** позволяет применять аггрегирование либо к колонкам, либо к рядам.

In [160]:
dt.agg([np.mean, np.median])

Unnamed: 0,one,two,three,four,five
mean,1.6,2.0,2.4,4.0,3.8
median,2.0,2.0,2.0,4.0,5.0


In [161]:
dt.agg([np.mean, np.sum], axis=1)

Unnamed: 0,mean,sum
0,2.8,14.0
1,2.8,14.0
2,3.0,15.0
3,2.6,13.0
4,2.6,13.0


## Задания для самостоятельной работы

### Задание 1.

Используя модуль **numpy**:
1. Создайте массив numpy длиной 50, содержащий значения квадратного корня для отрезка от 0 до 10. Исходное разбиение отрезка линейное. Правую границу отрезка не включать.

In [162]:
x = np.linspace(0, 10, 50, endpoint=False)
x = np.sqrt(x)
x

array([0.        , 0.4472136 , 0.63245553, 0.77459667, 0.89442719,
       1.        , 1.09544512, 1.18321596, 1.26491106, 1.34164079,
       1.41421356, 1.4832397 , 1.54919334, 1.61245155, 1.67332005,
       1.73205081, 1.78885438, 1.84390889, 1.8973666 , 1.94935887,
       2.        , 2.04939015, 2.0976177 , 2.14476106, 2.19089023,
       2.23606798, 2.28035085, 2.32379001, 2.36643191, 2.40831892,
       2.44948974, 2.48997992, 2.52982213, 2.56904652, 2.60768096,
       2.64575131, 2.68328157, 2.7202941 , 2.75680975, 2.79284801,
       2.82842712, 2.86356421, 2.89827535, 2.93257566, 2.96647939,
       3.        , 3.03315018, 3.06594194, 3.09838668, 3.13049517])

2. Оставьте только каждое 2-е значение в массиве. Расположите их в обратном порядке.

In [163]:
x = x[::-2]
x

array([3.13049517, 3.06594194, 3.        , 2.93257566, 2.86356421,
       2.79284801, 2.7202941 , 2.64575131, 2.56904652, 2.48997992,
       2.40831892, 2.32379001, 2.23606798, 2.14476106, 2.04939015,
       1.94935887, 1.84390889, 1.73205081, 1.61245155, 1.4832397 ,
       1.34164079, 1.18321596, 1.        , 0.77459667, 0.4472136 ])

3. Добавьте снизу к этой строке еще одну, содержащую значения из отрезка [1,2], расположенные в логарифмическом масштабе.

In [164]:
x = np.vstack((x, np.logspace(np.log10(1), np.log10(2), 25)))
x

array([[3.13049517, 3.06594194, 3.        , 2.93257566, 2.86356421,
        2.79284801, 2.7202941 , 2.64575131, 2.56904652, 2.48997992,
        2.40831892, 2.32379001, 2.23606798, 2.14476106, 2.04939015,
        1.94935887, 1.84390889, 1.73205081, 1.61245155, 1.4832397 ,
        1.34164079, 1.18321596, 1.        , 0.77459667, 0.4472136 ],
       [1.        , 1.02930224, 1.05946309, 1.09050773, 1.12246205,
        1.1553527 , 1.18920712, 1.22405354, 1.25992105, 1.29683955,
        1.33483985, 1.37395365, 1.41421356, 1.45565318, 1.49830708,
        1.54221083, 1.58740105, 1.63391545, 1.68179283, 1.73107312,
        1.78179744, 1.83400809, 1.88774863, 1.94306388, 2.        ]])

4. Посчитайте от каждого столбца среднее геометрическое и представьте ответ в виде одномерного массива.

In [165]:
x = np.sqrt(x[0] * x[1])
x

array([1.76932054, 1.77645177, 1.78280377, 1.78829428, 1.79283076,
       1.79630857, 1.79860866, 1.79959475, 1.79910972, 1.79697091,
       1.79296405, 1.78683512, 1.77827941, 1.76692622, 1.75231726,
       1.73387495, 1.71085444, 1.68226769, 1.64675725, 1.60237211,
       1.54613457, 1.47310137, 1.37395365, 1.22682143, 0.94574161])

5. Определите его среднее значение.

In [166]:
np.mean(x)

1.6687797941190206

6. Создайте одномерный массив длиной 1000 путем поэлементного добавления в него значений функции sinc(x) на отрезке [-3,3].

In [167]:
x = None
space = np.linspace(-3, 3, 1000)
for i in space:
    x = np.append(x, np.sinc(i)) if x is not None else np.array(np.sinc(i))
x

array([ 3.89817183e-17,  2.00589903e-03,  4.01914642e-03,  6.03906985e-03,
        8.06499205e-03,  1.00962311e-02,  1.21321005e-02,  1.41719095e-02,
        1.62149632e-02,  1.82605631e-02,  2.03080067e-02,  2.23565883e-02,
        2.44055989e-02,  2.64543266e-02,  2.85020566e-02,  3.05480717e-02,
        3.25916523e-02,  3.46320769e-02,  3.66686218e-02,  3.87005621e-02,
        4.07271712e-02,  4.27477216e-02,  4.47614846e-02,  4.67677311e-02,
        4.87657314e-02,  5.07547557e-02,  5.27340742e-02,  5.47029573e-02,
        5.66606760e-02,  5.86065022e-02,  6.05397085e-02,  6.24595690e-02,
        6.43653592e-02,  6.62563564e-02,  6.81318398e-02,  6.99910908e-02,
        7.18333935e-02,  7.36580343e-02,  7.54643030e-02,  7.72514924e-02,
        7.90188987e-02,  8.07658219e-02,  8.24915659e-02,  8.41954387e-02,
        8.58767529e-02,  8.75348257e-02,  8.91689791e-02,  9.07785403e-02,
        9.23628420e-02,  9.39212224e-02,  9.54530257e-02,  9.69576021e-02,
        9.84343081e-02,  

7. Определите среднее значение, максимальное значение, минимальное значение, стандартное отклонение, медиану для этого массива.

In [168]:
print("Среднее значение:", np.mean(x))
print("Максимальное значение:", np.max(x))
print("Минимальное значение:", np.min(x))
print("Стандартное отклонение:", np.std(x))
print("Медиана:", np.median(x))

Среднее значение: 0.1775197144580381
Максимальное значение: 0.9999851660061273
Минимальное значение: -0.21722874308243081
Стандартное отклонение: 0.3597138979880454
Медиана: 0.07918501225963478


### Задание 2.

Используя модуль **pandas**: 
1. Создайте таблицу с колонками [тип, цвет, масса, размер, стоимость] и индексами [яблоко, банан, апельсин, мандарин, груша, персик, картошка, морковь, лук, капуста]. Заполните массив значениями, отражающими действительность (тип - овощ или фрукт, цвет - строковый тип, остальные колонки - числовой тип).

In [169]:
import pandas as pd

data = [['фрукт', 'зеленый', 200, 3, 100],
        ['фрукт', 'желтый', 150, 4, 80],
        ['фрукт', 'оранжевый', 100, 3, 100],
        ['фрукт', 'оранжевый', 50, 1, 200],
        ['фрукт', 'зеленый', 200, 2, 150],
        ['фрукт', 'красный', 250, 3, 150],
        ['овощь', 'коричневый', 200, 2, 15],
        ['овощь', 'оранжевый', 100, 2, 10],
        ['овощь', 'зеленый', 150, 3, 40],
        ['овощь', 'зеленый', 1500, 5, 30]]

df = pd.DataFrame(data, columns=['тип', 'цвет', 'масса', 'размер', 'стоимость'], index=['яблоко', 'банан', 'апельсин', 'мандарин', 'груша', 'персик', 'картошка', 'морковь', 'лук', 'капуста'])
print(df)


            тип        цвет  масса  размер  стоимость
яблоко    фрукт     зеленый    200       3        100
банан     фрукт      желтый    150       4         80
апельсин  фрукт   оранжевый    100       3        100
мандарин  фрукт   оранжевый     50       1        200
груша     фрукт     зеленый    200       2        150
персик    фрукт     красный    250       3        150
картошка  овощь  коричневый    200       2         15
морковь   овощь   оранжевый    100       2         10
лук       овощь     зеленый    150       3         40
капуста   овощь     зеленый   1500       5         30


2. Выведите последние 4 записи в таблице.

In [170]:
df.tail(4)


Unnamed: 0,тип,цвет,масса,размер,стоимость
картошка,овощь,коричневый,200,2,15
морковь,овощь,оранжевый,100,2,10
лук,овощь,зеленый,150,3,40
капуста,овощь,зеленый,1500,5,30


3. Выведите информацию о числе колонок, их типе, числе строк.

In [171]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10 entries, яблоко to капуста
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   тип        10 non-null     object
 1   цвет       10 non-null     object
 2   масса      10 non-null     int64 
 3   размер     10 non-null     int64 
 4   стоимость  10 non-null     int64 
dtypes: int64(3), object(2)
memory usage: 480.0+ bytes


4. Определите те фрукты, у которых размер больше размера картошки.

In [172]:
df[df['размер'] > df['размер']['картошка']]

Unnamed: 0,тип,цвет,масса,размер,стоимость
яблоко,фрукт,зеленый,200,3,100
банан,фрукт,желтый,150,4,80
апельсин,фрукт,оранжевый,100,3,100
персик,фрукт,красный,250,3,150
лук,овощь,зеленый,150,3,40
капуста,овощь,зеленый,1500,5,30


5. Определите среднюю стоимость тех овощей, которые весят больше банана.

In [173]:
df[df['масса'] > df['масса']['банан']]['стоимость'].mean()

89.0

6. С помошью итерирования по рядам определите среднюю стоимость фруктов.

In [174]:
counter = 0
total_sum = 0
for idx, row in df.iterrows():
    price = row['стоимость']
    total_sum += price
    counter += 1
avg = total_sum / counter
avg


87.5

7. Определите максимальное и минимальное значение, среднее и медиану для массы, размера и стоимости с помощью встроенных статистических функций.

In [175]:
print(df.mean(axis=0))
print(df[['масса', 'размер', 'стоимость']].min(axis=0))
print(df[['масса', 'размер', 'стоимость']].max(axis=0))
print(df[['масса', 'размер', 'стоимость']].median(axis=0))

масса        290.0
размер         2.8
стоимость     87.5
dtype: float64
масса        50
размер        1
стоимость    10
dtype: int64
масса        1500
размер          5
стоимость     200
dtype: int64
масса        175.0
размер         3.0
стоимость     90.0
dtype: float64


  print(df.mean(axis=0))


8. Определите максимальное и минимальное значение, среднее и медиану для массы, размера и стоимости с помощью метода **agg()**.

In [176]:
df[['масса', 'размер', 'стоимость']].agg([np.mean, np.max, np.min, np.median])

Unnamed: 0,масса,размер,стоимость
mean,290.0,2.8,87.5
max,1500.0,5.0,200.0
min,50.0,1.0,10.0
median,175.0,3.0,90.0


9. Сгруппируйте таблицу по цвету фруктов и определите среднее и максимальное значение массы и стоимости для этих групп.

In [177]:
print(df.groupby(['цвет'])[['масса', 'стоимость']].mean())
print(df.groupby(['цвет'])[['масса', 'стоимость']].max())
print(df.groupby(['цвет'])[['масса', 'стоимость']].min())
print(df.groupby(['цвет'])[['масса', 'стоимость']].median())

                 масса   стоимость
цвет                              
желтый      150.000000   80.000000
зеленый     512.500000   80.000000
коричневый  200.000000   15.000000
красный     250.000000  150.000000
оранжевый    83.333333  103.333333
            масса  стоимость
цвет                        
желтый        150         80
зеленый      1500        150
коричневый    200         15
красный       250        150
оранжевый     100        200
            масса  стоимость
цвет                        
желтый        150         80
зеленый       150         30
коричневый    200         15
красный       250        150
оранжевый      50         10
            масса  стоимость
цвет                        
желтый      150.0       80.0
зеленый     200.0       70.0
коричневый  200.0       15.0
красный     250.0      150.0
оранжевый   100.0      100.0


## Список литературы

- Модуль **numpy** [https://numpy.org/doc/stable/](https://numpy.org/doc/stable/ "numpy")
- Модуль **pandas** [https://pandas.pydata.org/docs/](https://pandas.pydata.org/docs/ "pandas")