# Лабораторная работа № 1. Работа с массивами и таблицами.

В работе проводится обзор основных возможностей языка Python и модулей **numpy**, **pandas** для анализа данных.

## Цель работы

Изучить основные возможности языка Python и модулей **numpy** и **pandas** по работе с векторами, одномерными и многомерными массивами. Освоить выполнение векторных операций над массивами данных, булево индексирование, а также аггрегирование двумерных таблиц.

## Модуль numpy

NumPy это open-source модуль для языка Python, который предоставляет общие математические и числовые операции в виде пре-скомпилированных, быстрых функций. Они объединяются в высокоуровневые пакеты. NumPy (Numeric Python) предоставляет базовые методы для манипуляции с большими массивами и матрицами. SciPy (Scientific Python) расширяет функционал numpy огромной коллекцией полезных алгоритмов, таких как минимизация, преобразование Фурье, регрессия, и другие прикладные математические техники.

Всю документацию по этому модулю и примеры его использования можно найти на [официальном сайте.](https://numpy.org/doc/stable/ "numpy.org")

Чтобы использовать модуль, его необходимо подключить с помощью команды **import**. Команда **as** позволяет обращаться к модулю через любое другое ключевое слово. Это позволяет сделать код более кратким и легко воспринимаемым. Стандартное сокращение для модуля **numpy** - это **np**.

In [2]:
import numpy as np


### Создание массивов

Ключевым типом данных, с которым работает **numpy**, являются массивы различных размерностей. В конструктор **np.array()** можно передать любой объект, имеющий структуру массива, например, список, в том числе многомерный. Также можно задать тип данных.

In [3]:
arr = np.array([1,2,3,4,5], dtype=int)
arr

array([1, 2, 3, 4, 5])

In [4]:
arr = np.array([[1,2,3],[4,5,6]], dtype=np.float32)
arr

array([[1., 2., 3.],
       [4., 5., 6.]], dtype=float32)

Конструкторы **np.zeros()**, **np.ones()**, **np.empty()** позволяют создавать массивы, состоящие из нулей и единиц, пустые массивы соответственно. Размер массива указывается в параметре **shape**.

In [5]:
arr = np.zeros(shape=(2,3))
arr

array([[0., 0., 0.],
       [0., 0., 0.]])

In [6]:
arr = np.ones(shape=(3,2), dtype=int)
arr

array([[1, 1],
       [1, 1],
       [1, 1]])

In [7]:
arr = np.empty(shape=(2,2))
arr

array([[1.2282978e-316, 0.0000000e+000],
       [9.8813129e-324,            nan]])

Массивы имеют несколько атрибутов, например, **shape** (форма), **size** (размер), **dtype** (тип данных).

In [8]:
print('Shape: ', arr.shape)
print('Size: ', arr.size)
print('Data type: ', arr.dtype)

Shape:  (2, 2)
Size:  4
Data type:  float64


### Индексирование

Получить определенный элемент массива можно стандартным образом, указав в квадратных скобках номер элемента.

In [9]:
arr2d = np.array([[1,2,3,4,5],[6,7,8,9,10],[11,12,13,14,15]])
arr2d

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15]])

In [10]:
arr2d[2,3]

14

Очень мощным (в смысле уменьшения временных затрат на выполнение операции) способом получения какой-то части массива является *slicing*. 

В квадратных скобках через двоеточие указывается последовательно начальный индекс, конечный индекс и шаг, с которым нужно выдавать элементы массива. Если не указан первый, то он подразумевается равным 0. Если не указан второй, то он подразумевается равным максимальному индексу. Если не указан последний, то он подразумевается равным 0. 

In [11]:
arr2d[:,2]

array([ 3,  8, 13])

In [12]:
arr2d[:2, 1:4]

array([[2, 3, 4],
       [7, 8, 9]])

In [13]:
arr2d[:2, 1:]

array([[ 2,  3,  4,  5],
       [ 7,  8,  9, 10]])

In [14]:
arr2d[:2, 1::2]

array([[2, 4],
       [7, 9]])

Значение -1 обозначает максимальный индекс, -2 - предшествующий максимальному и т.д. Если значение -1 стоит в качестве шага для *slising*, то это означает, что элементы будут возвращаться в обратном порядке. Такой трюк можно использовать, например, для изменения порядка следования элементов в массиве на противоположный. 

In [15]:
arr2d[:,-1]

array([ 5, 10, 15])

In [16]:
arr2d[:,::-1]

array([[ 5,  4,  3,  2,  1],
       [10,  9,  8,  7,  6],
       [15, 14, 13, 12, 11]])

In [17]:
arr2d[::-1,::-1]

array([[15, 14, 13, 12, 11],
       [10,  9,  8,  7,  6],
       [ 5,  4,  3,  2,  1]])

### Генераторы

Другим способ создания массивов с упорядоченными элементами являются различные генераторы. Например, метод **np.arange(a,b,c)**, который создает массив чисел в диапазоне от **a** до **b** с шагом **c**.

**np.linspace(a, b, n)** создает массив чисел в количестве **n**, линейно расположенных в диапазоне от **a** до **b**. Параметр **endpoint** указывает на то, включать **b** в массив или нет. По умолчанию он равен **True**.

**np.logspace(a, b, n)** создает массив чисел в количестве **n**, логарифмически расположенных в диапазоне от **$10^a$** до **$10^b$**. Параметр **endpoint** указывает на то, включать **b** в массив или нет. По умолчанию он равен **True**.

In [18]:
np.arange(0,100,2)

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32,
       34, 36, 38, 40, 42, 44, 46, 48, 50, 52, 54, 56, 58, 60, 62, 64, 66,
       68, 70, 72, 74, 76, 78, 80, 82, 84, 86, 88, 90, 92, 94, 96, 98])

In [19]:
print(np.linspace(0,100,20, dtype=int))

print(np.linspace(0,100,20))

[  0   5  10  15  21  26  31  36  42  47  52  57  63  68  73  78  84  89
  94 100]
[  0.           5.26315789  10.52631579  15.78947368  21.05263158
  26.31578947  31.57894737  36.84210526  42.10526316  47.36842105
  52.63157895  57.89473684  63.15789474  68.42105263  73.68421053
  78.94736842  84.21052632  89.47368421  94.73684211 100.        ]


In [20]:
np.linspace(0,100,20, endpoint=False)

array([ 0.,  5., 10., 15., 20., 25., 30., 35., 40., 45., 50., 55., 60.,
       65., 70., 75., 80., 85., 90., 95.])

In [21]:
np.logspace(-5,5,10)

array([1.00000000e-05, 1.29154967e-04, 1.66810054e-03, 2.15443469e-02,
       2.78255940e-01, 3.59381366e+00, 4.64158883e+01, 5.99484250e+02,
       7.74263683e+03, 1.00000000e+05])

In [22]:
np.logspace(-5,5,10, endpoint=False)

array([1.e-05, 1.e-04, 1.e-03, 1.e-02, 1.e-01, 1.e+00, 1.e+01, 1.e+02,
       1.e+03, 1.e+04])

### Увеличение массива

Для того, чтобы добавить элемент в одномерный массив, применяется функция **np.append(arr1, arr2)**, где в качестве первого аргумента передается массив, в который нужно добавить элементы, а последующие - то, что нужно добавить. Они могут быть как скалярами, так и одномерными массивами. При этом возвращается новый массив, а не изменяется старый.

In [23]:
arr1d = np.arange(0,20,2)
arr1d

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [24]:
np.append(arr1d, 20)
arr1d

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [25]:
arr1d = np.append(arr1d, 20)
arr1d

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18, 20])

In [26]:
arr1d = np.append(arr1d, [22, 24, 26, 28])
arr1d

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28])

In [27]:
arr1d = np.append(arr1d, arr1d[::4])
arr1d

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28,  0,  8,
       16, 24])

Иногда необходимо создать пустой массив и поэлементно добавлять в него значения (например, в цикле for). При добавлении первого элемента произойдет ошибка, поскольку в пустой массив с помощью **np.append()** добавить новое значение невозможно. Для решения этой проблемы удобно использовать конструкцию **if / else**. В этом случае, если **arr = None** (первая итерация), то выполниться **arr = np.array(i)** и создастся массив. На всех последующих итерациях к массиву будет добавляться по одному элементу.

In [28]:
arr = None
for i in range(10):
    arr = np.append(arr, i) if arr is not None else np.array(i)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

Для объединения двух многомерных массивов используются методы **np.vstack((arr1, arr2, ...))** - объединение вдоль вертикальной оси, **np.hstack((arr1, arr2, ...))** - объединение вдоль горизонтальной оси. Параметры **arr1**, **arr2**, ... должны иметь одинаковую ширину (в случае с **np.vstack()**) или одинаковую высоту (в случае с **np.hstack()**). 

Существуют и другие (более общие) способы объединения массивов - **np.concatenate()** и **np.stack()**.

In [29]:
arr = np.vstack((arr2d, arr2d[:2]))
arr

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15],
       [ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10]])

In [30]:
arr = np.hstack((arr, arr, arr[:,:3]))
arr

array([[ 1,  2,  3,  4,  5,  1,  2,  3,  4,  5,  1,  2,  3],
       [ 6,  7,  8,  9, 10,  6,  7,  8,  9, 10,  6,  7,  8],
       [11, 12, 13, 14, 15, 11, 12, 13, 14, 15, 11, 12, 13],
       [ 1,  2,  3,  4,  5,  1,  2,  3,  4,  5,  1,  2,  3],
       [ 6,  7,  8,  9, 10,  6,  7,  8,  9, 10,  6,  7,  8]])

### Векторные операции

Выполнение арифметических операций в векторной форме позволяет существенно ускорить выполнение этих операций, особенно если массивы очень большие. Поэтому всегда надо стараться писать код так, чтобы он был векторным.

Простые арифметические операции (сложение, вычитание, умножение и деление на число), возведение в степень, примененные к массивам, являются по определению векторными и выполняются поэлементно.

In [31]:
arr2d

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15]])

In [32]:
arr2d + 5

array([[ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15],
       [16, 17, 18, 19, 20]])

In [33]:
arr2d * 2

array([[ 2,  4,  6,  8, 10],
       [12, 14, 16, 18, 20],
       [22, 24, 26, 28, 30]])

In [34]:
arr2d ** 2

array([[  1,   4,   9,  16,  25],
       [ 36,  49,  64,  81, 100],
       [121, 144, 169, 196, 225]])

Сложение и вычитание, произведение и деление двух массивов также являются векторными операциями (массивы должны иметь одинаковый размер) и выполняются поэлементно.

In [35]:
arr2d + np.ones(shape=arr2d.shape)

array([[ 2.,  3.,  4.,  5.,  6.],
       [ 7.,  8.,  9., 10., 11.],
       [12., 13., 14., 15., 16.]])

In [36]:
arr2d / arr2d

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

Примененить к элементам массивов более сложные функции можно с помощью определенных в модуле **numpy** стандартных функций: **np.sin()**, **np.log()** и т.д.  

In [37]:
np.sin(arr2d)

array([[ 0.84147098,  0.90929743,  0.14112001, -0.7568025 , -0.95892427],
       [-0.2794155 ,  0.6569866 ,  0.98935825,  0.41211849, -0.54402111],
       [-0.99999021, -0.53657292,  0.42016704,  0.99060736,  0.65028784]])

In [38]:
np.log(arr2d)

array([[0.        , 0.69314718, 1.09861229, 1.38629436, 1.60943791],
       [1.79175947, 1.94591015, 2.07944154, 2.19722458, 2.30258509],
       [2.39789527, 2.48490665, 2.56494936, 2.63905733, 2.7080502 ]])

С помощью метода **np.apply_along_axis(func, axis, arr)** можно применить различные функции **func** к столбцам или строкам массива **arr**. Функция **func** принимает на вход одномерный массив, т.е. выполняет какую-то операцию над столбцами (если **axis** = 0) или над строками (если **axis** = 1).

Функция **func** может быть встроенной (определенной в модуле **numpy**) или определенной самим пользователем. Главное, чтобы она принимала на вход одномерный массив. Отдельным классом таких функций являются lambda-выражения, или анонимные функции. Их синтаксис таков: *lambda x: x+1*, где до двоеточия указываются аргументы, а после двоеточия - операция.  

In [39]:
np.apply_along_axis(np.max, 0, arr2d)

array([11, 12, 13, 14, 15])

In [40]:
%%time
#np.apply_along_axis(np.max, 1, arr2d)

o = np.arange(0,19)

CPU times: user 16 µs, sys: 12 µs, total: 28 µs
Wall time: 35 µs


In [41]:
np.apply_along_axis(lambda x: x[::-1], 1, arr2d)

array([[ 5,  4,  3,  2,  1],
       [10,  9,  8,  7,  6],
       [15, 14, 13, 12, 11]])

## Модуль pandas

Данный пакет делает Python мощным инструментом для анализа данных. Пакет дает возможность строить сводные таблицы, выполнять группировки, предоставляет удобный доступ к табличным данным, а при наличии пакета matplotlib дает возможность рисовать графики на полученных наборах данных (об этом в следующей лабораторной работе).

Общепринятым способом краткого наименования этого модуля является **pd**. Всю документацию по этому модулю, а также примеры его использования можно найти на [официальном сайте](https://pandas.pydata.org/docs/ "pandas.pydata.org").

In [42]:
import pandas as pd

Этот модуль используется для эффективной работы с таблицами. Базовыми классами являются *Index* (индексы), *Series* (столбцы), *DataFrame* (матрица). Их конструкторы принимают на вход объекты, имеющие логику одномерных массивов (для *Index* и *Series*) или же двумерных массивов (для *DataFrame*).

### Класс Index

Этот класс описывает индексы и колонки, содержащиеся в табличке. Объекты класса **Index** обладают множеством атрибутов, например, **name**, **size**, **shape**, **values** и др. Атрибут **values** выдает элементы, содержащиеся в объекте, в виде массива **np.array**.

In [43]:
idx = pd.Index(['One','Two','Three','Four','Five'], name='numbers')
print(idx)
print('Name: ', idx.name)
print('Shape: ', idx.shape)
print('Values: ', idx.values)

Index(['One', 'Two', 'Three', 'Four', 'Five'], dtype='object', name='numbers')
Name:  numbers
Shape:  (5,)
Values:  ['One' 'Two' 'Three' 'Four' 'Five']


Метод **drop(labels)** возвращает объект **Index** с выкинутыми значениями **labels**. Метод **drop_duplicates(keep)** возвращает объект с уделенными повторяющимися значениями. Если параметр **keep = 'first'**, по сохраняется первое появление повторяющегося значения, если **keep = 'last'**, то сохранияет последнее упоминание. Метод **unique()** возвращает объект с уникальными элементами, т.е. встречающимися только 1 раз. Этот метод аналогичен методу **drop_duplicates()**.

In [44]:
idx = pd.Index(['One','Two','Three','Four','Five','One','Two'], name='numbers')
idx

Index(['One', 'Two', 'Three', 'Four', 'Five', 'One', 'Two'], dtype='object', name='numbers')

In [45]:
print(idx.drop_duplicates())

print(idx)

Index(['One', 'Two', 'Three', 'Four', 'Five'], dtype='object', name='numbers')
Index(['One', 'Two', 'Three', 'Four', 'Five', 'One', 'Two'], dtype='object', name='numbers')


In [46]:
idx.drop(['One','Two'])
print(idx)

Index(['One', 'Two', 'Three', 'Four', 'Five', 'One', 'Two'], dtype='object', name='numbers')


In [47]:
idx.unique()
type(idx)

pandas.core.indexes.base.Index

При желании можно переименовать те или иные элементы в объекте **Index** с помощью метода **reindex(new_labels)**, подав ему на вход новые элементы.

In [48]:
idsx = idx
idx.reindex(idsx,)

idsx

Index(['One', 'Two', 'Three', 'Four', 'Five', 'One', 'Two'], dtype='object', name='numbers')

### Класс Series

Этот класс представляет собой реализацию одномерного массива с множеством различных методов и атрибутов. Конструктор класса принимает на вход данные в виде массива, индексы (в виде массива или объекта класса **Index**), имя объекта. У класса **Series** довольно много атрибутов. Вот некоторые их них: **name**, **values**, **size**, **index** и др.

In [49]:
ser = pd.Series(np.arange(0,100,1), name='numbers', index=np.arange(100,300,2))
ser

100     0
102     1
104     2
106     3
108     4
       ..
290    95
292    96
294    97
296    98
298    99
Name: numbers, Length: 100, dtype: int64

Сменить тип данных можно с помощью метода **astype(new_type)**, который по определению возвращает копию объекта.

In [50]:
ser.astype(np.float32)

100     0.0
102     1.0
104     2.0
106     3.0
108     4.0
       ... 
290    95.0
292    96.0
294    97.0
296    98.0
298    99.0
Name: numbers, Length: 100, dtype: float32

Индексирование одного элемента можно проводить подобно обычному массиву, однако в квадратных скобках надо указать именно значение элемента из **Index**, а не порядковый номер элемента. Для того, чтобы получить *slice*, то есть получить какую-то часть объекта, нужно использовать метод **loc[a,b,c]**. Его функционал полностью аналогичен индексированию массивов **numpy**, c той лишь разницей, что элемент с индексом **b** включается.

In [51]:
ser[100]

0

In [52]:
ser.loc[100:120]

100     0
102     1
104     2
106     3
108     4
110     5
112     6
114     7
116     8
118     9
120    10
Name: numbers, dtype: int64

In [53]:
ser.loc[100:120:2]

100     0
104     2
108     4
112     6
116     8
120    10
Name: numbers, dtype: int64

Если же нужно получить *slice* на основе порядковых номеров элементов, то используется метод **iloc[a:b:c]**. Работает он аналогично методу **loc[a:b:c]**, с той лишь разницей, что индекс с номером **b** не включается.

In [54]:
ser.iloc[0:10]

100    0
102    1
104    2
106    3
108    4
110    5
112    6
114    7
116    8
118    9
Name: numbers, dtype: int64

Полезным бывает итерирование по всем парам (индекс, значение) с помощью метода **iteritems()**.

In [55]:
for index, value in ser.iloc[:10].iteritems():
    print('Index:', index, ', Value:', value)

Index: 100 , Value: 0
Index: 102 , Value: 1
Index: 104 , Value: 2
Index: 106 , Value: 3
Index: 108 , Value: 4
Index: 110 , Value: 5
Index: 112 , Value: 6
Index: 114 , Value: 7
Index: 116 , Value: 8
Index: 118 , Value: 9


**Series** имеет широким набором векторных операций: сложение **add()**, вычитание **sub()**, умножение **mul()**, деление **div()**, округление **round()**, возведение в степень **pow()**, операций сравнения: меньше **lt()**, больше **gt()**, меньши или равно **le()**, больше или равно **ge()**, не равен **ne()**, равен **eq()** и др.

In [56]:
ser.add(1)

100      1
102      2
104      3
106      4
108      5
      ... 
290     96
292     97
294     98
296     99
298    100
Name: numbers, Length: 100, dtype: int64

In [57]:
ser / ser

100    NaN
102    1.0
104    1.0
106    1.0
108    1.0
      ... 
290    1.0
292    1.0
294    1.0
296    1.0
298    1.0
Name: numbers, Length: 100, dtype: float64

In [58]:
%%time
ser1 = ser.pow(np.linspace(1,2,len(ser)))
ser1

CPU times: user 364 µs, sys: 219 µs, total: 583 µs
Wall time: 556 µs


100       0.000000
102       1.000000
104       2.028203
106       3.101555
108       4.230441
          ...     
290    7508.257976
292    8025.528491
294    8578.407365
296    9169.354356
298    9801.000000
Name: numbers, Length: 100, dtype: float64

In [59]:
%%time
ser1.round(2)

CPU times: user 136 µs, sys: 82 µs, total: 218 µs
Wall time: 223 µs


100       0.00
102       1.00
104       2.03
106       3.10
108       4.23
        ...   
290    7508.26
292    8025.53
294    8578.41
296    9169.35
298    9801.00
Name: numbers, Length: 100, dtype: float64

In [60]:
ser.lt(ser+1)

100    True
102    True
104    True
106    True
108    True
       ... 
290    True
292    True
294    True
296    True
298    True
Name: numbers, Length: 100, dtype: bool

Также у класса **Series** есть много статистических функций **mean()**, **max()**, **min()**, **skew()**, **kurtosis()** и др. Значения некоторых статистических функций можно получить с помощью метода **describe()**.

In [61]:
ser.describe()

count    100.000000
mean      49.500000
std       29.011492
min        0.000000
25%       24.750000
50%       49.500000
75%       74.250000
max       99.000000
Name: numbers, dtype: float64

Заполнение пропущенных значений производится с помощью метода **fillna()**, при этом параметр **inplace** позволяет выполнять заполнение исходного объекта, а не создавать его копию. Аналогично работает метод **replace()**, который позволяет заменить одни значения на другие. Для этого в него надо передать словарь, в котором старые значения являются ключами, а новые - значениями.

In [62]:
ser = pd.Series([1,2,3,np.nan,5,6,7,np.nan])
ser

0    1.0
1    2.0
2    3.0
3    NaN
4    5.0
5    6.0
6    7.0
7    NaN
dtype: float64

In [63]:
ser.fillna(10)
ser

0    1.0
1    2.0
2    3.0
3    NaN
4    5.0
5    6.0
6    7.0
7    NaN
dtype: float64

In [64]:
ser.fillna(10, inplace=True)
print(ser)
ser.replace({4:10}, inplace=True)
print(ser)

0     1.0
1     2.0
2     3.0
3    10.0
4     5.0
5     6.0
6     7.0
7    10.0
dtype: float64
0     1.0
1     2.0
2     3.0
3    10.0
4     5.0
5     6.0
6     7.0
7    10.0
dtype: float64


Объединение нескольких объектов **Series** производится с помощью метода **append()**. Если параметр **ignore_index = True**, то индексы в итоговом объекте будут от 0 до максимального индекса. Если же **ignore_index = False**, то сохранятся индексы исходных объектов.

In [65]:
ser1 = pd.Series([1,1,1])
ser2 = pd.Series([2,2,2])
ser1.append(ser2, ignore_index = False)

0    1
1    1
2    1
0    2
1    2
2    2
dtype: int64

In [66]:
ser1.append(ser2, ignore_index = True)

0    1
1    1
2    1
3    2
4    2
5    2
dtype: int64

### Класс DataFrame

Класс **Series** описывает структуру таблиц. Каждая колонка является объектом класса **Series**, а названия колонок и индексы - объектами класса **Index**. Функционал этого класса почти полностью совпадает с функционалом класса **Series**. Перечислим основные возможности по работе с таблицами, предоставляемые классом **DataFrame**. Конструктор принимает на себя данные, имеющие логическую структуру двумерного массива: двумерный массив, список списков, кортеж из списков, словарь. В последнем случае ключи словаря будут являться названиями колонок. Также в конструктор можно передать непосредственно названия колонок и индексов, а также тип данных.

In [67]:
dt = pd.DataFrame(np.ones(shape=(10,5)), columns=['one','two','three','four','five'])
dt

Unnamed: 0,one,two,three,four,five
0,1.0,1.0,1.0,1.0,1.0
1,1.0,1.0,1.0,1.0,1.0
2,1.0,1.0,1.0,1.0,1.0
3,1.0,1.0,1.0,1.0,1.0
4,1.0,1.0,1.0,1.0,1.0
5,1.0,1.0,1.0,1.0,1.0
6,1.0,1.0,1.0,1.0,1.0
7,1.0,1.0,1.0,1.0,1.0
8,1.0,1.0,1.0,1.0,1.0
9,1.0,1.0,1.0,1.0,1.0


In [68]:
dt = pd.DataFrame({'one':[2]*5,
                  'two':5,
                  'three':5,
                   'four':4.2,
                   'five':5},
                 dtype=np.float32)
dt

Unnamed: 0,one,two,three,four,five
0,2.0,5.0,5.0,4.2,5.0
1,2.0,5.0,5.0,4.2,5.0
2,2.0,5.0,5.0,4.2,5.0
3,2.0,5.0,5.0,4.2,5.0
4,2.0,5.0,5.0,4.2,5.0


Информацию о количестве строк и столбцов, о типах данных можно получить с помощью метода **info()**. Статистику по колонкам можно получить с помощью метода **describe()**.

In [69]:
dt.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   one     5 non-null      float32
 1   two     5 non-null      float32
 2   three   5 non-null      float32
 3   four    5 non-null      float32
 4   five    5 non-null      float32
dtypes: float32(5)
memory usage: 228.0 bytes


In [70]:
dt.describe()

Unnamed: 0,one,two,three,four,five
count,5.0,5.0,5.0,5.0,5.0
mean,2.0,5.0,5.0,4.2,5.0
std,0.0,0.0,0.0,0.0,0.0
min,2.0,5.0,5.0,4.2,5.0
25%,2.0,5.0,5.0,4.2,5.0
50%,2.0,5.0,5.0,4.2,5.0
75%,2.0,5.0,5.0,4.2,5.0
max,2.0,5.0,5.0,4.2,5.0


Если требуется посмотреть на несколько строк таблицы, то применяется метод **head(n)**, возвращающий первые **n** строк. Если **n** не задано, то оно полагается равным 5. Этот метод особенно полезен, если требуется увидеть структуру таблицы, а данных очень много. Также есть метод **tail(n)**, который позволяет увидеть последние **n** строк таблицы.

In [71]:
dt.head(100)



Unnamed: 0,one,two,three,four,five
0,2.0,5.0,5.0,4.2,5.0
1,2.0,5.0,5.0,4.2,5.0
2,2.0,5.0,5.0,4.2,5.0
3,2.0,5.0,5.0,4.2,5.0
4,2.0,5.0,5.0,4.2,5.0


Изменить тип данных одной или нескольких колонок можно с помощью метода **astype(dict)**, в словаре **dict** можно определить, к какому типу нужно привести какую колонку. Метод возвращает измененную копию таблицы.

In [72]:
dt.astype({'one':np.int32,'three':bool}).head(3)

Unnamed: 0,one,two,three,four,five
0,2,5.0,True,4.2,5.0
1,2,5.0,True,4.2,5.0
2,2,5.0,True,4.2,5.0


### Индексирование и итерирование

Индексирование производится аналогично классу **Series** с помощью методов **loc[a1:b1:c1, E2:b2:c2]** и **iloc[a1:b1:c1, E2:b2:c2]**. Отличие состоит в том, что **loc[]** включает в индексирование конечные индексы **b1, b2**, а **iloc[]** нет.

In [73]:
dt.loc[[1,3,4], 'two'::2]

Unnamed: 0,two,four
1,5.0,4.2
3,5.0,4.2
4,5.0,4.2


In [74]:
print(dt.iloc[:3, 1::2])
print(dt.iloc[0:3, 1:2])

   two  four
0  5.0   4.2
1  5.0   4.2
2  5.0   4.2
   two
0  5.0
1  5.0
2  5.0


Булевое индексирование позволяет выдавать только те элементы таблицы, которые удовлетворяют определенному условию. Выполняется такое индексирование следующим образом. Операция **dt['one'] > 1** выдает объект **Series** булева типа. Если использовать этот массив в качестве индексов, то мы получим все ряды таблицы, у которой **dt['one'] > 1**.

In [75]:
dt.loc[2:4, 'one'] = 1
dt

Unnamed: 0,one,two,three,four,five
0,2.0,5.0,5.0,4.2,5.0
1,2.0,5.0,5.0,4.2,5.0
2,1.0,5.0,5.0,4.2,5.0
3,1.0,5.0,5.0,4.2,5.0
4,1.0,5.0,5.0,4.2,5.0


In [76]:
dt['one'] > 1

0     True
1     True
2    False
3    False
4    False
Name: one, dtype: bool

In [77]:
dt.loc[(dt['one'] > 1),"one":"three"]

Unnamed: 0,one,two,three
0,2.0,5.0,5.0
1,2.0,5.0,5.0


Итерирование по элементам таблицы можно проводить различными способами: по парам **(column_label, Series)** с помощью методов **items()** и **iteritems()** (они идентичны), по парам **(index_label, Series)** с помощью метода **iterrows()**.

In [78]:
for col, ser in dt.iteritems():
    print(col, ser.name)

one one
two two
three three
four four
five five


In [79]:
for idx, ser in dt.iterrows():
    print(idx, ser[2])

0 5.0
1 5.0
2 5.0
3 5.0
4 5.0


Класс **DataFrame**, так же как и класс **Series**, имеет много различных поэлементных операций: сложение **add()**, вычитание **sub()**, умножение **mul()**, деление **div()**, округление **round()**, возведение в степень **pow()**, операций сравнения: меньше **lt()**, больше **gt()**, меньши или равно **le()**, больше или равно **ge()**, не равен **ne()**, равен **eq()** и др.

Есть возможность также находить значение различных статистических функций **mean()**, **max()**, **min()**, **skew()**, **kurtosis()**, **median()**, **corr()**, **cov()** и др, параметр **axis** определять направление, вдоль которого применяется та или иная функция (0 означает по колонкам, 1 - по рядам


).

In [80]:
dt.mean(axis=0)

one      1.4
two      5.0
three    5.0
four     4.2
five     5.0
dtype: float32

In [81]:
dt.mean(axis=1)

0    4.24
1    4.24
2    4.04
3    4.04
4    4.04
dtype: float32

### Применение пользовательских и аггрегирующих функций

Метод **apply(func, axis)** позволяет применять любую функцию **func**, которая принимает на вход одномерный массив, к колонкам (**axis = 0**) или к строкам (**axis == 1**). Для того, чтобы применить функцию ко всем элементам массива, т.е. поэлементно, нужно применить использовать метод **applymap(func)**.

In [82]:
dt.applymap(np.sin)

Unnamed: 0,one,two,three,four,five
0,0.909297,-0.958924,-0.958924,-0.871576,-0.958924
1,0.909297,-0.958924,-0.958924,-0.871576,-0.958924
2,0.841471,-0.958924,-0.958924,-0.871576,-0.958924
3,0.841471,-0.958924,-0.958924,-0.871576,-0.958924
4,0.841471,-0.958924,-0.958924,-0.871576,-0.958924


In [83]:
dt.apply(np.min, axis=0)

one      1.0
two      5.0
three    5.0
four     4.2
five     5.0
dtype: float32

Для группировки рядов по значениям в определенных колонках используется метод **groupby(by, axis)**, где в качестве первого параметра можно передать названия колонок, по значениям которых будет производиться группировка. Параметр **axis** показывает, будет ли производиться разбиение по колонкам или по рядам. Этот метод возвращает объект **DataFrameGroupBy**, который содержит в себе группы. Чтобы получить снова таблицу, необходимо применить дополнительно любую функцию, выделяющую один элемент из нескольких (среднее, максимум и др.)

In [84]:
dt.loc[2:4, 'one'] = 100
dt.loc[:2, 'three'] = 101
dt.loc[3:4, ['five','two']] = 102
dt

Unnamed: 0,one,two,three,four,five
0,2.0,5.0,101.0,4.2,5.0
1,2.0,5.0,101.0,4.2,5.0
2,100.0,5.0,101.0,4.2,5.0
3,100.0,102.0,5.0,4.2,102.0
4,100.0,102.0,5.0,4.2,102.0


In [85]:
dt.groupby(['one'])

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f51c0444ac0>

In [86]:
dt.groupby(['one']).mean()

Unnamed: 0_level_0,two,three,four,five
one,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2.0,5.0,101.0,4.2,5.0
100.0,69.666664,37.0,4.2,69.666664


Другой способ аггрегирования состоит в расчете определенных аггрегирующих функций (максимум, среднее и пр.) для определенных столбцов с помощью метода **agg(dict, axis)**. Ключами словаря **dict** являются названия колонок (или индексы рядов), а значениями - функции. Или же можно просто передать набор функций, в этом случае они будут применены ко всем колонкам. Параметр **axis** позволяет применять аггрегирование либо к колонкам, либо к рядам.

In [87]:
dt.agg([np.mean, np.median])


Unnamed: 0,one,two,three,four,five
mean,60.799999,43.799999,62.599998,4.2,43.799999
median,100.0,5.0,101.0,4.2,5.0


In [88]:
dt.agg([np.mean, np.sum], axis=1)

Unnamed: 0,mean,sum
0,23.439999,117.199997
1,23.439999,117.199997
2,43.040001,215.199997
3,62.640003,313.200012
4,62.640003,313.200012


## Задания для самостоятельной работы

### Задание 1.

Используя модуль **numpy**:
1. Создайте массив numpy длиной 50, содержащий значения квадратного корня для отрезка от 0 до 10. Исходное разбиение отрезка линейное. Правую границу отрезка не включать.
1. Оставьте только каждое 2-е значение в массиве. Расположите их в обратном порядке.
1. Добавьте снизу к этой строке еще одну, содержащую значения из отрезка [1,2], расположенные в логарифмическом масштабе.
1. Посчитайте от каждого столбца среднее геометрическое и представьте ответ в виде одномерного массива.
1. Определите его среднее значение.
1. Создайте одномерный массив длиной 1000 путем поэлементного добавления в него значений функции sinc(x) на отрезке [-3,3].
1. Определите среднее значение, максимальное значение, минимальное значение, стандартное отклонение, медиану для этого массива.

#### Создайте массив numpy длиной 50, содержащий значения квадратного корня для отрезка от 0 до 10. Исходное разбиение отрезка линейное. Правую границу отрезка не включать.**

In [89]:
arr = np.linspace(0,10,50,endpoint=False) ** 0.5

arr



array([0.        , 0.4472136 , 0.63245553, 0.77459667, 0.89442719,
       1.        , 1.09544512, 1.18321596, 1.26491106, 1.34164079,
       1.41421356, 1.4832397 , 1.54919334, 1.61245155, 1.67332005,
       1.73205081, 1.78885438, 1.84390889, 1.8973666 , 1.94935887,
       2.        , 2.04939015, 2.0976177 , 2.14476106, 2.19089023,
       2.23606798, 2.28035085, 2.32379001, 2.36643191, 2.40831892,
       2.44948974, 2.48997992, 2.52982213, 2.56904652, 2.60768096,
       2.64575131, 2.68328157, 2.7202941 , 2.75680975, 2.79284801,
       2.82842712, 2.86356421, 2.89827535, 2.93257566, 2.96647939,
       3.        , 3.03315018, 3.06594194, 3.09838668, 3.13049517])

#### **Оставьте только каждое 2-е значение в массиве. Расположите их в обратном порядке.<!--  -->**

In [90]:
arr2 = arr[::-2]
arr2

array([3.13049517, 3.06594194, 3.        , 2.93257566, 2.86356421,
       2.79284801, 2.7202941 , 2.64575131, 2.56904652, 2.48997992,
       2.40831892, 2.32379001, 2.23606798, 2.14476106, 2.04939015,
       1.94935887, 1.84390889, 1.73205081, 1.61245155, 1.4832397 ,
       1.34164079, 1.18321596, 1.        , 0.77459667, 0.4472136 ])

#### Добавьте снизу к этой строке еще одну, содержащую значения из отрезка [1,2], расположенные в логарифмическом масштабе.

In [91]:
arr3 = np.logspace(1,2,25)
#arr3
arr2 = np.vstack((arr2, arr3))
arr2

array([[  3.13049517,   3.06594194,   3.        ,   2.93257566,
          2.86356421,   2.79284801,   2.7202941 ,   2.64575131,
          2.56904652,   2.48997992,   2.40831892,   2.32379001,
          2.23606798,   2.14476106,   2.04939015,   1.94935887,
          1.84390889,   1.73205081,   1.61245155,   1.4832397 ,
          1.34164079,   1.18321596,   1.        ,   0.77459667,
          0.4472136 ],
       [ 10.        ,  11.00694171,  12.11527659,  13.33521432,
         14.67799268,  16.15598098,  17.7827941 ,  19.57341781,
         21.5443469 ,  23.71373706,  26.10157216,  28.72984833,
         31.6227766 ,  34.80700588,  38.3118685 ,  42.16965034,
         46.41588834,  51.08969775,  56.23413252,  61.89658189,
         68.12920691,  74.98942093,  82.54041853,  90.85175757,
        100.        ]])

#### осчитайте от каждого столбца среднее геометрическое и представьте ответ в виде одномерного массива.

In [92]:
from functools import reduce

def geom(arr):
    return reduce(lambda x,y: x*y, arr) ** 1/len(arr)


arr2
arr6 = np.apply_along_axis(geom,1,arr2)
arr6

array([5.60111627e+05, 1.26491106e+36])

#### Определите его среднее значение.

In [93]:
np.mean(arr6)

6.324555320336742e+35

#### Создайте одномерный массив длиной 1000 путем поэлементного добавления в него значений функции sinc(x) на отрезке [-3,3].

In [94]:
arr = np.array([], dtype=int)

arr2 = np.linspace(-3,3,1000, endpoint=False)

for i in range(1000):
    arr = np.append(arr,np.sinc(arr2[i]))

arr

array([ 3.89817183e-17,  2.00388935e-03,  4.01511304e-03,  6.03300076e-03,
        8.05687732e-03,  1.00860628e-02,  1.21198728e-02,  1.41576187e-02,
        1.61986078e-02,  1.82421434e-02,  2.02875255e-02,  2.23340503e-02,
        2.43810111e-02,  2.64276980e-02,  2.84733986e-02,  3.05173977e-02,
        3.25589780e-02,  3.45974200e-02,  3.66320025e-02,  3.86620026e-02,
        4.06866960e-02,  4.27053572e-02,  4.47172600e-02,  4.67216773e-02,
        4.87178816e-02,  5.07051454e-02,  5.26827409e-02,  5.46499408e-02,
        5.66060184e-02,  5.85502474e-02,  6.04819029e-02,  6.24002609e-02,
        6.43045992e-02,  6.61941971e-02,  6.80683359e-02,  6.99262991e-02,
        7.17673728e-02,  7.35908455e-02,  7.53960091e-02,  7.71821582e-02,
        7.89485911e-02,  8.06946097e-02,  8.24195198e-02,  8.41226314e-02,
        8.58032589e-02,  8.74607213e-02,  8.90943425e-02,  9.07034514e-02,
        9.22873825e-02,  9.38454757e-02,  9.53770768e-02,  9.68815377e-02,
        9.83582166e-02,  

#### Определите среднее значение, максимальное значение, минимальное значение, стандартное отклонение, медиану для этого массива.

In [95]:
print(np.meanl(arr))
print(np.max(arr))
print(np.min(arr))
print(np.std(arr))
print(np.median(arr))

AttributeError: module 'numpy' has no attribute 'meanl'

# Задание 2.

Используя модуль **pandas**: 
1. Создайте таблицу с колонками [тип, цвет, масса, размер, стоимость] и индексами [яблоко, банан, апельсин, мандарин, груша, персик, картошка, морковь, лук, капуста]. Заполните массив значениями, отражающими действительность (тип - овощ или фрукт, цвет - строковый тип, остальные колонки - числовой тип).
1. Выведите последние 4 записи в таблице.
1. Выведите информацию о числе колонок, их типе, числе строк.
1. Определите те фрукты, у которых размер больше размера картошки.
1. Определите среднюю стоимость тех овощей, которые весят больше банана.
1. С помошью итерирования по рядам определите среднюю стоимость фруктов.
1. Определите максимальное и минимальное значение, среднее и медиану для массы, размера и стоимости с помощью встроенных статистических функций.
1. Определите максимальное и минимальное значение, среднее и медиану для массы, размера и стоимости с помощью метода **agg()**.
1. Сгруппируйте таблицу по цвету фруктов и определите среднее и максимальное значение массы и стоимости для этих групп.

## Создайте таблицу с колонками [тип, цвет, масса, размер, стоимость] и индексами [яблоко, банан, апельсин, мандарин, груша, персик, картошка, морковь, лук, капуста]. Заполните массив значениями, отражающими действительность (тип - овощ или фрукт, цвет - строковый тип, остальные колонки - числовой тип).

In [96]:
baza = pd.DataFrame(index=['apple','banana','orange','tangerine','pear','peach','potatoe','carrot','onion','cabbage'],
columns=['type','color','weight','size','price'])
baza.astype({'type':str,'color':str})
baza.loc['apple'] =     ['fruite',   'green',     120, 8,   60]
baza.loc['banana'] =    ['fruite',   'yellow',    200, 9,  63]
baza.loc['orange'] =    ['fruite',   'orange',    210, 10,  130]
baza.loc['tangerine'] = ['fruite',   'orange',    60,  6,  90]
baza.loc['pear'] =      ['fruite',   'green',     120, 9,  200]
baza.loc['potatoe'] =   ['vegetable','green',     90,  7,  50]
baza.loc['peach'] =     ['fruite',   'yellow-red',110, 9,  250]
baza.loc['carrot'] =    ['vegetable','orange',    80,  7,  30]
baza.loc['onion'] =     ['vegetable','yellow',    75,  7,  40]
baza.loc['cabbage'] =   ['vegetable','green',     1500,20, 43]
print(baza)

                type       color weight size price
apple         fruite       green    120    8    60
banana        fruite      yellow    200    9    63
orange        fruite      orange    210   10   130
tangerine     fruite      orange     60    6    90
pear          fruite       green    120    9   200
peach         fruite  yellow-red    110    9   250
potatoe    vegetable       green     90    7    50
carrot     vegetable      orange     80    7    30
onion      vegetable      yellow     75    7    40
cabbage    vegetable       green   1500   20    43


## Выведите последние 4 записи в таблице.

In [97]:
baza[-4:]

Unnamed: 0,type,color,weight,size,price
potatoe,vegetable,green,90,7,50
carrot,vegetable,orange,80,7,30
onion,vegetable,yellow,75,7,40
cabbage,vegetable,green,1500,20,43


## Выведите информацию о числе колонок, их типе, числе строк.

In [98]:
baza.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10 entries, apple to cabbage
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   type    10 non-null     object
 1   color   10 non-null     object
 2   weight  10 non-null     object
 3   size    10 non-null     object
 4   price   10 non-null     object
dtypes: object(5)
memory usage: 780.0+ bytes


## Определите те фрукты, у которых размер больше размера картошки.

In [100]:
ac = baza.loc[baza['weight'] > baza.loc['potatoe',"weight"]]
ac.loc[ac['type'] == "fruite"]

Unnamed: 0,type,color,weight,size,price
apple,fruite,green,120,8,60
banana,fruite,yellow,200,9,63
orange,fruite,orange,210,10,130
pear,fruite,green,120,9,200
peach,fruite,yellow-red,110,9,250


## Определите среднюю стоимость тех овощей, которые весят больше банана.

In [101]:
baza.loc[baza['weight'] > baza.loc['banana','weight']]['price'].mean()

86.5

## С помошью итерирования по рядам определите среднюю стоимость фруктов.

In [102]:
sum = 0
num = 0
for col,ser in baza.iterrows():
    if (ser['type'] == 'fruite'):
        sum += ser['price']
        num += 1
sum/num

132.16666666666666

## Определите максимальное и минимальное значение, среднее и медиану для массы, размера и стоимости с помощью встроенных статистических функций.

In [None]:
print(baza.loc[:,['weight','size','price']].max())
print(baza.loc[:,['weight','size','price']].mean())
print(baza.loc[:,['weight','size','price']].min())
print(baza.loc[:,['weight','size','price']].median())

weight    1500
size        20
price      250
dtype: object
weight    256.5
size        9.2
price      95.6
dtype: float64
weight    60
size       6
price     30
dtype: object
weight    115.0
size        8.5
price      61.5
dtype: float64


## Определите максимальное и минимальное значение, среднее и медиану для массы, размера и стоимости с помощью метода **agg()**.

In [None]:
baza.loc[:,['weight','size','price']].agg([max,min,np.mean,np.median])

Unnamed: 0,weight,size,price
max,1500.0,20.0,250.0
min,60.0,6.0,30.0
mean,256.5,9.2,95.6
median,115.0,8.5,61.5


## Сгруппируйте таблицу по цвету фруктов и определите среднее и максимальное значение массы и стоимости для этих групп.

In [None]:
baza.groupby(['color']).agg([max,min,np.mean,np.median])

Unnamed: 0_level_0,weight,weight,weight,weight,size,size,size,size,price,price,price,price
Unnamed: 0_level_1,max,min,mean,median,max,min,mean,median,max,min,mean,median
color,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
green,1500,90,457.5,120.0,20,7,11.0,8.5,200,43,88.25,55.0
orange,210,60,116.666667,80.0,10,6,7.666667,7.0,130,30,83.333333,90.0
yellow,200,75,137.5,137.5,9,7,8.0,8.0,63,40,51.5,51.5
yellow-red,110,110,110.0,110.0,9,9,9.0,9.0,250,250,250.0,250.0


## Список литературы

- Модуль **numpy** [https://numpy.org/doc/stable/](https://numpy.org/doc/stable/ "numpy")
- Модуль **pandas** [https://pandas.pydata.org/docs/](https://pandas.pydata.org/docs/ "pandas")