# __Интеллектуальный анализ данных__
# Лабораторная работа №0
# Исследование данных

## Среда для выполнения лабораторных работ

Для установки среды для выполнения лабораторных работ скачайте с сайта https://www.anaconda.com и установите на компьютер дистрибутив Anaconda (Individual Edition). В качестве редактора/среды исполнения при выполнении лабораторных работ будет использоваться приложение Jupiter Notebook.

Если на локальном компьютере ведется разработка программ в среде Python, то для лабораторных работ рекомендуется создание виртуального окружения.

Например, для виртуального окружения `dm` выполняем команды (в теминале):

__conda create -n dm__

__pip install --user ipykernel__

__python -m ipykernel install --user --name=dm__

Тогда в Jupiter Notebook появляется виртуальное окружение `dm`.

### Библиотеки для выполнения лабораторных работ

* [NumPy](https://numpy.org)  
* [Pandas](https://pandas.pydata.org)
* [Matplotlib](https://matplotlib.org)
* [scikit-learn](https://scikit-learn.org/stable/)

## Библиотека NumPy

NumPy (Numerical Python) — это библиотека Python с поддержкой многомерных массивов (включая матрицы) и математических функций, предназначенных для работы с многомерными массивами. NumPy является основой для многих других библиотек Python, в т.ч. библиотек машинного обучения.

Для использования NumPy импортируем библиотеку командой `import`.

In [630]:
import numpy as np

### Создание объекта ndarray

Объект `ndarray` (многомерный массив) может быть создан из списка или кортежа.

Объект `ndarray` имеет такие свойства как:

• `ndim` – ранг (число осей или измерений) массива 

• `shape` – кортеж, показывающий длину массива по каждой из осей (размеры массива). Для матрицы из `n` строк и `m` столбов, свойство shape равно `(n,m)`. Число элементов в кортеже `shape` равно рангу массива, то есть свойству `ndim`.

• `size` – число элементов в массиве, равное произведению всех элементов кортежа `shape`.

• `dtype` – тип элементов массива. Тип `dtype` можно определить явно, используя стандартные типы данных Python или типы, предусмотренные библиотекой NumPy, например, `dtype=np.int8`. Тип `dtype` также может быть составным, например, целое число и число с плавающей точкой.

In [631]:
oneDim = np.array([1,2,3,4,5],dtype=np.float16) # одномерный массивa (вектор)
print(oneDim)
print("Ранг =", oneDim.ndim) 
print("Размеры =", oneDim.shape) 
print("Число элементов =", oneDim.size) 
print("Тип массива =", oneDim.dtype)

[1. 2. 3. 4. 5.]
Ранг = 1
Размеры = (5,)
Число элементов = 5
Тип массива = float16


In [632]:
twoDim = np.array([[1,2],[3,4],[5,6],[7,8]]) # двумерный массив (матрица) 
print(twoDim)
print("Ранг =", twoDim.ndim)
print("Размеры =", twoDim.shape)
print("Число элементов =", twoDim.size) 
print("Тип массива =", twoDim.dtype)

[[1 2]
 [3 4]
 [5 6]
 [7 8]]
Ранг = 2
Размеры = (4, 2)
Число элементов = 8
Тип массива = int64


In [633]:
arrFromTuple = np.array([(1,'a',3.0),(2,'b',3.5)]) # создание ndarray из кортежа 
print(arrFromTuple)
print("Ранг =", arrFromTuple.ndim)
print("Размеры =", arrFromTuple.shape)
print("Число элементов =", arrFromTuple.size)
print("Тип массива =", arrFromTuple.dtype)

[['1' 'a' '3.0']
 ['2' 'b' '3.5']]
Ранг = 2
Размеры = (2, 3)
Число элементов = 6
Тип массива = <U32


В NumPy имеется ряд встроенных функций для создания объектов `ndarray`. 

In [634]:
print(np.random.rand(5))         # случайные числа с равномерным распределением на [0,1]

[0.20599634 0.73567283 0.28488197 0.66136553 0.91767708]


In [635]:
print(np.random.randn(5))        # случайные числа со стандартным нормальным распределением

[-1.11788489 -0.17903258  0.47863137  0.15741656 -0.01848998]


In [636]:
print(np.arange(-10,10))       # аналогично range, возвращается объект ndarray вместо списка

[-10  -9  -8  -7  -6  -5  -4  -3  -2  -1   0   1   2   3   4   5   6   7
   8   9]


In [637]:
print(np.linspace(0,1,11))       # разбиение интервала [0,1] на 11 равноудаленных значений

[0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]


In [638]:
print(np.zeros((2,3)))           # матрица из нулей

[[0. 0. 0.]
 [0. 0. 0.]]


In [639]:
print(np.ones((3,2),dtype=int))  # матрица из единиц

[[1 1]
 [1 1]
 [1 1]]


In [640]:
print(np.eye(4,dtype=np.int16))  # единичная матрица размером 4 x 4 (со значениями типа np.int16)

[[1 0 0 0]
 [0 1 0 0]
 [0 0 1 0]
 [0 0 0 1]]


### Поэлементные операции

Можно применять стандартные операции, такие как сложение и умножение, к каждому элементу объекта `ndarray`, при этом создается новый массив, который заполняется результатами действия оператора.

In [641]:
x = np.array([1,2,3,4,5]) # ndarray из списка Python

print(x + 1)      # сложение
print(x - 1)      # вычитание
print(x * 2)      # умножение
print(x // 2)     # целая часть от деления
print(x ** 2)     # возведение в квадрат
print(x % 2)      # остаток от деления  
print(1 / x)      # деление

[2 3 4 5 6]
[0 1 2 3 4]
[ 2  4  6  8 10]
[0 1 1 2 2]
[ 1  4  9 16 25]
[1 0 1 0 1]
[1.         0.5        0.33333333 0.25       0.2       ]


In [642]:
x = np.array([2,4,6,8,10])
y = np.array([1,2,3,4,5])

print(x + y)
print(x - y)
print(x * y)
print(x / y)
print(x // y)
print(x ** y)

[ 3  6  9 12 15]
[1 2 3 4 5]
[ 2  8 18 32 50]
[2. 2. 2. 2. 2.]
[2 2 2 2 2]
[     2     16    216   4096 100000]


### Индексы и срезы

Существуют различные способы выбрать определенные элементы в массиве `ndarray`. Нумерация элементов в массиве (как и в других структурах данных) начинается с нуля.

In [643]:
x = np.arange(-5,5)
print(x)

[-5 -4 -3 -2 -1  0  1  2  3  4]


In [644]:
y = x[3:5]     # y - это срез или указатель на подмассив в x
print("y =",y)
y[:] = 1000    # изменение y приведет к изменению x
print("y =",y)
print("x =",x)

y = [-2 -1]
y = [1000 1000]
x = [  -5   -4   -3 1000 1000    0    1    2    3    4]


In [645]:
z = x[3:5].copy()   # делаем копию подмассива
print("z =",z)
z[:] = 500          # изменение z не влияет на x
print("z =",z)
print("x =",x)

z = [1000 1000]
z = [500 500]
x = [  -5   -4   -3 1000 1000    0    1    2    3    4]


Срез массива представляет собой представление тех же самых данных (ссылку на данные), а для создания копии данных массива можно воспользоваться методом `copy()`. 


### Изменение формы массива (метод `reshape`)

Приведем три разных метода изменения формы массива:

In [646]:
X = np.floor(10 * np.random.randn(3,4)) # случайная матрица 3 x 4 
X

array([[  1., -14.,   4.,   0.],
       [-10., -20.,  -4.,   5.],
       [ 10.,   2.,  -5.,   6.]])

In [647]:
X.ravel() # выпрямление массива в одномерный из 12 элементов

array([  1., -14.,   4.,   0., -10., -20.,  -4.,   5.,  10.,   2.,  -5.,
         6.])

In [648]:
X.reshape(2, 6) # преобразование в матрицу 2 x 6

array([[  1., -14.,   4.,   0., -10., -20.],
       [ -4.,   5.,  10.,   2.,  -5.,   6.]])

In [649]:
X.T # транспонирование в матрицу 4 x 3

array([[  1., -10.,  10.],
       [-14., -20.,   2.],
       [  4.,  -4.,  -5.],
       [  0.,   5.,   6.]])

Вместо метода `reshape()`, который возвращает модифицированный массив, можно использовать метод `resize()`, который модифицирует сам массив:

In [650]:
X.resize((6, 2))
X

array([[  1., -14.],
       [  4.,   0.],
       [-10., -20.],
       [ -4.,   5.],
       [ 10.,   2.],
       [ -5.,   6.]])

Если в операции изменения формы указано значение -1, то фактическое значение вычисляется автоматически:

In [651]:
X.reshape(4, -1)

array([[  1., -14.,   4.],
       [  0., -10., -20.],
       [ -4.,   5.,  10.],
       [  2.,  -5.,   6.]])

На практике достаточно часто метод `reshape()` применяется для перехода от матрицы с одним столбцом/строкой к вектору и обратно:

In [652]:
X.reshape(-1) # одномерный вектор

array([  1., -14.,   4.,   0., -10., -20.,  -4.,   5.,  10.,   2.,  -5.,
         6.])

In [653]:
X.reshape(-1, X.size) # матрица размерами 1 x 12

array([[  1., -14.,   4.,   0., -10., -20.,  -4.,   5.,  10.,   2.,  -5.,
          6.]])

In [654]:
X.reshape(X.size, -1) # матрица размерами 12 x 1

array([[  1.],
       [-14.],
       [  4.],
       [  0.],
       [-10.],
       [-20.],
       [ -4.],
       [  5.],
       [ 10.],
       [  2.],
       [ -5.],
       [  6.]])

### Объединение массивов

Массивы могут быть объединены по вертикали и по горизонтали:

In [655]:
X1 = np.arange(1, 10).reshape(3, 3)
X1

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [656]:
X2 = np.arange(11, 20).reshape(3, 3)
X2

array([[11, 12, 13],
       [14, 15, 16],
       [17, 18, 19]])

In [657]:
np.vstack((X1, X2))

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [11, 12, 13],
       [14, 15, 16],
       [17, 18, 19]])

In [658]:
np.hstack((X1, X2))

array([[ 1,  2,  3, 11, 12, 13],
       [ 4,  5,  6, 14, 15, 16],
       [ 7,  8,  9, 17, 18, 19]])

### Индексирование массивов

Объект `ndarray` допускает __индексирование массивами__ или списками целых чисел:

In [659]:
X = np.arange(10)**2
X

array([ 0,  1,  4,  9, 16, 25, 36, 49, 64, 81])

In [660]:
idx = np.array([2, 3, 2, 8, 6]) # одномерный массив индексов (начиная с нуля)
X[idx]

array([ 4,  9,  4, 64, 36])

In [661]:
idx2 = np.array([[2, 3], [8, 6]]) # двумерный массив индексов (начиная с нуля)
X[idx2]

array([[ 4,  9],
       [64, 36]])

Объект `ndarray` также поддерживает __булево индексирование__:

In [662]:
X = np.arange(1,13,1).reshape(3,4)
X

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [663]:
X_cond = X > 5
X_cond

array([[False, False, False, False],
       [False,  True,  True,  True],
       [ True,  True,  True,  True]])

In [664]:
X[X_cond]

array([ 6,  7,  8,  9, 10, 11, 12])

In [665]:
X[X_cond] = 0
X

array([[1, 2, 3, 4],
       [5, 0, 0, 0],
       [0, 0, 0, 0]])

### Арифметические и статистические функции Numpy

В NumPy встроены многие математические функции для манипулирования элементами `ndarray`.

In [666]:
y = np.array([-1.4, 0.4, -3.2, 2.5, 3.4])    # массив чисел
print(y)

[-1.4  0.4 -3.2  2.5  3.4]


In [667]:
print(np.abs(y))          # абсолютные значения

[1.4 0.4 3.2 2.5 3.4]


In [668]:
print(np.sqrt(abs(y)))    # квадратный корень из абсолютных значений

[1.18321596 0.63245553 1.78885438 1.58113883 1.84390889]


In [669]:
print(np.sign(y))         # знак каждого элемента

[-1.  1. -1.  1.  1.]


In [670]:
print(np.exp(y))          # экспонента

[ 0.24659696  1.4918247   0.0407622  12.18249396 29.96410005]


In [671]:
print(np.sort(y))         # сортировка

[-3.2 -1.4  0.4  2.5  3.4]


In [672]:
y = np.array([-3.2, -1.4, 0.4, 2.5, 3.4])    # массив чисел
print(y)

print("Минимум  =", np.min(y))           
print("Максимум =", np.max(y))          
print("Среднее  =", np.mean(y))        
print("Стандартное отклонение =", np.std(y))   
print("Сумма =", np.sum(y))              

[-3.2 -1.4  0.4  2.5  3.4]
Минимум  = -3.2
Максимум = 3.4
Среднее  = 0.34000000000000014
Стандартное отклонение = 2.432776191925595
Сумма = 1.7000000000000006


### Линейная алгебра в Numpy

Numpy поддерживает многие операции линейной алгебры, например, транспонирование матрицы и матричное умножение.

In [673]:
X = np.random.randn(2,4) # случайная матрица 2 x 4 
print(X)
print(X.T)               # транспонирование матрицы X^T 

[[ 1.25555592  0.64596035 -1.82792967  1.66218561]
 [-0.64619643 -0.00774242  0.35975724 -1.56866291]]
[[ 1.25555592 -0.64619643]
 [ 0.64596035 -0.00774242]
 [-1.82792967  0.35975724]
 [ 1.66218561 -1.56866291]]


In [674]:
y = np.random.randn(4) # случайный вектор
print(y)

[-0.06880473  1.64535157 -1.52587654 -0.53249537]


In [675]:
print(X.dot(y))        # умножение матрицы на вектор   X * y

[2.88053255 0.31808297]


In [676]:
print(X.dot(X.T))      # умножение матрицы на матрицу  X * X^T

[[ 8.09787333 -4.0813569 ]
 [-4.0813569   3.00775836]]


In [677]:
print(X.T.dot(X))      # умножение матрицы на матрицу  X^T * X

[[ 1.99399049  0.81604246 -2.52754176  3.10063135]
 [ 0.81604246  0.41732471 -1.18355548  1.08585124]
 [-2.52754176 -1.18355548  3.47075216 -3.60269624]
 [ 3.10063135  1.08585124 -3.60269624  5.22356432]]


Также поддерживается вычисление определителя, обратной матрицы, собственных значений и собственных векторов матрицы.

In [678]:
X = np.random.randn(5,3)     # матрица 5 x 3
print(X)

[[ 0.64737834  1.01349478 -2.39731829]
 [ 0.04644457  1.96438981  2.7999115 ]
 [-1.20006712 -1.77985276 -0.45650718]
 [ 1.4191517  -2.4404524   0.78196784]
 [-0.13795325 -0.31727629 -1.02804638]]


In [679]:
C = X.T.dot(X)               # C = X^T * X - это квадратная матрица
print(C)

[[ 3.89443955 -0.53631028  0.37746133]
 [-0.53631028 14.11034698  2.30078306]
 [ 0.37746133  2.30078306 15.46339126]]


In [680]:
invC = np.linalg.inv(C)      # обратная матрица 
print(invC)

[[ 0.25908547  0.0111491  -0.00798314]
 [ 0.0111491   0.07311188 -0.0111504 ]
 [-0.00798314 -0.0111504   0.06652279]]


In [681]:
detC = np.linalg.det(C)      # определитель
print(detC)

821.7373702720563


In [682]:
S, U = np.linalg.eig(C)      # собственные значения S и собственные вектора U 
print(S)
print(U)

[ 3.84411814 12.43897922 17.18508042]
[[-0.99706887 -0.07649559 -0.0014469 ]
 [-0.06210216  0.7981248   0.59928301]
 [ 0.0446877  -0.59761629  0.80053593]]


## Библиотека Pandas

Библиотека Pandas содержит две удобных структуры данных для хранения и манипуляций с данными – объекты `Series` и `DataFrame`. Объект `Series` подобен одномерному массиву, в то время, как объект `DataFrame` более напоминает матрицу или таблицу.

In [683]:
import pandas as pd

### Объект Series 

Объект `Series` состоит из одномерного массива значений (свойство `values`), к элементам которого можно обращаться при помощи массива индексов (свойство `index`). Все элементы в объекте `Series` __имеют один и тот же тип__. Объект `Series` может быть создан из списка, массива NumPy или словаря Python. 

In [684]:
s = pd.Series([2000, 2004, 2008, 2012, 2016, 2021]) # объект Series из списка
s

0    2000
1    2004
2    2008
3    2012
4    2016
5    2021
dtype: int64

In [685]:
s.values, s.index

(array([2000, 2004, 2008, 2012, 2016, 2021]),
 RangeIndex(start=0, stop=6, step=1))

Массив индексов объекта `Series` может быть динамически изменен на другой:

In [686]:
s.index = range(27,33)
s

27    2000
28    2004
29    2008
30    2012
31    2016
32    2021
dtype: int64

In [687]:
from pandas import Series

s = Series([3.1, 2.4, -1.7, 0.2, -2.9, 4.5])   # объект Series из списка
print(s)
print('Values =', s.values)     # значения объекта Series
print('Index =', s.index)       # индексы объекта Series

0    3.1
1    2.4
2   -1.7
3    0.2
4   -2.9
5    4.5
dtype: float64
Values = [ 3.1  2.4 -1.7  0.2 -2.9  4.5]
Index = RangeIndex(start=0, stop=6, step=1)


In [688]:
s2 = pd.Series(data=np.random.randn(6))  # объект Series из массива numpy
s2

0   -1.028029
1   -1.821807
2   -1.737118
3    0.518662
4   -0.388113
5   -0.758363
dtype: float64

In [689]:
lst = [[10,20,30]]
lst*3

[[10, 20, 30], [10, 20, 30], [10, 20, 30]]

In [690]:
s3 = pd.Series(data = lst*6, 
            index = ['Jan 1','Jan 2','Jan 3','Jan 4','Jan 5','Jan 6',])
s3

Jan 1    [10, 20, 30]
Jan 2    [10, 20, 30]
Jan 3    [10, 20, 30]
Jan 4    [10, 20, 30]
Jan 5    [10, 20, 30]
Jan 6    [10, 20, 30]
dtype: object

In [691]:
capitals = {'MI': 'Lansing', 'CA': 'Sacramento', 'TX': 'Austin', 'MN': 'St Paul'}

s4 = pd.Series(capitals)   # объект Series из словаря
s4

MI       Lansing
CA    Sacramento
TX        Austin
MN       St Paul
dtype: object

Доступ к элементам объекта `Series` возможен по номеру объекта или по ключу:

In [692]:
print('\ns3[2]=', s3[2])             # доступ по номеру
print('s3[\'Jan 3\']=', s3['Jan 3']) # доступ по индексу

print('\ns3[1:3]=')                  # срез объекта Series
print(s3[1:3])


s3[2]= [10, 20, 30]
s3['Jan 3']= [10, 20, 30]

s3[1:3]=
Jan 2    [10, 20, 30]
Jan 3    [10, 20, 30]
dtype: object


Большинство функций NumPy могут применяться к объекту `Series`.

In [693]:
print('shape =', s2.shape)  # размеры Series
print('size =', s2.size)    # число элементов в Series

shape = (6,)
size = 6


In [694]:
print(s2[s2 < 0])   # фильтр для выбора элементов Series

0   -1.028029
1   -1.821807
2   -1.737118
4   -0.388113
5   -0.758363
dtype: float64


In [695]:
print(s2 + 4)       # операции числового объекта Series со скалярными величинами
print(s2 / 4)    

0    2.971971
1    2.178193
2    2.262882
3    4.518662
4    3.611887
5    3.241637
dtype: float64
0   -0.257007
1   -0.455452
2   -0.434280
3    0.129665
4   -0.097028
5   -0.189591
dtype: float64


In [696]:
print(np.log(s2 + 4))    # функция numpy от числового объекта Series

0    1.089225
1    0.778495
2    0.816639
3    1.508216
4    1.284230
5    1.176078
dtype: float64


## Объект DataFrame

Объект `DataFrame` представляет собой табличную структуру данных, содержащую набор столбцов, каждый из которых может иметь различный тип (числовой, строковый, логический и т.п.). В отличие от объекта `Series` объект `DataFrame` имеет различные свойства для индексов строк (`.index`) и столбцов (`.columns`). Существуют различные способы создания объекта `DataFrame` (например, из словаря, списка кортежей или массивов ndarray).

In [697]:
cars = {'make': ['Ford', 'Honda', 'Toyota', 'Tesla'],
       'model': ['Taurus', 'Accord', 'Camry', 'Model S'],
       'MSRP': [27595, 23570, 23495, 68000]}          
carData = pd.DataFrame(cars)   # объект DataFrame из словаря
carData                        # вывод объекта DataFrame с форматированием

Unnamed: 0,make,model,MSRP
0,Ford,Taurus,27595
1,Honda,Accord,23570
2,Toyota,Camry,23495
3,Tesla,Model S,68000


In [698]:
print(carData) # вывод объекта DataFrame без форматирования при помощи print

     make    model   MSRP
0    Ford   Taurus  27595
1   Honda   Accord  23570
2  Toyota    Camry  23495
3   Tesla  Model S  68000


In [699]:
print(carData.index)       # индексы строк
print(carData.columns)     # индексы столбцов

RangeIndex(start=0, stop=4, step=1)
Index(['make', 'model', 'MSRP'], dtype='object')


In [700]:
carData.index = range(1,5) # изменяем индексы строк
carData['year'] = 2022     # добавляем столбец с одним и тем же значением
carData['dealer'] = ['Courtesy Ford','Capital Honda','Spartan Toyota','N/A']
carData                  

Unnamed: 0,make,model,MSRP,year,dealer
1,Ford,Taurus,27595,2022,Courtesy Ford
2,Honda,Accord,23570,2022,Capital Honda
3,Toyota,Camry,23495,2022,Spartan Toyota
4,Tesla,Model S,68000,2022,


Объект `DataFrame` может быть создан из списка кортежей, при этом названия столбцов могут быть заданы при помощи свойства `columns`:

In [701]:
tuplelist = [(2015,7.3,32.4),(2016,5.8,34.5),(2017,8.4,39.2),
              (2018,6.8,31.4),(2019,4.4,29.8),(2020,5.3,36.7)]
columnNames = ['Год','Темп','Осадки']
weatherData = pd.DataFrame(tuplelist, columns=columnNames)
weatherData

Unnamed: 0,Год,Темп,Осадки
0,2015,7.3,32.4
1,2016,5.8,34.5
2,2017,8.4,39.2
3,2018,6.8,31.4
4,2019,4.4,29.8
5,2020,5.3,36.7


Объект `DataFrame` может быть создан из двумерного массива numpy (объекта `ndarray`):

In [702]:
npdata = np.random.randn(5,3)  # случайная матрица 5 на 3
columnNames = ['x1','x2','x3']
indexNames = range(1,6)
data = pd.DataFrame(npdata, index=indexNames, columns=columnNames)
data

Unnamed: 0,x1,x2,x3
1,0.500855,-1.256761,0.96491
2,1.794371,2.121208,1.41991
3,-0.269348,1.30551,-0.653386
4,0.735199,-0.219794,-0.747562
5,-0.808272,1.001166,0.783691


Объект `DataFrame` может быть создан из списка объектов `Series`:

In [703]:
series_1 = pd.Series([2021, 2022, 2023])
series_2 = pd.Series([1000., 1100., 1200.])
df = pd.DataFrame([series_1, series_2])
df

Unnamed: 0,0,1,2
0,2021.0,2022.0,2023.0
1,1000.0,1100.0,1200.0


Объект `DataFrame` может быть создан из словаря со списками в качестве значений:

In [704]:
years = [2021, 2022, 2023]
output = [1000., 1100., 1200.]
dict_lst = {'year': years, 'output': output}
pd.DataFrame(dict_lst)

Unnamed: 0,year,output
0,2021,1000.0
1,2022,1100.0
2,2023,1200.0


## Арифметические операции

In [705]:
data

Unnamed: 0,x1,x2,x3
1,0.500855,-1.256761,0.96491
2,1.794371,2.121208,1.41991
3,-0.269348,1.30551,-0.653386
4,0.735199,-0.219794,-0.747562
5,-0.808272,1.001166,0.783691


In [706]:
print("Данные:\n",data)

Данные:
          x1        x2        x3
1  0.500855 -1.256761  0.964910
2  1.794371  2.121208  1.419910
3 -0.269348  1.305510 -0.653386
4  0.735199 -0.219794 -0.747562
5 -0.808272  1.001166  0.783691


In [707]:
print('Транспонированные данные:')
print(data.T)    # транспонирование

Транспонированные данные:
           1         2         3         4         5
x1  0.500855  1.794371 -0.269348  0.735199 -0.808272
x2 -1.256761  2.121208  1.305510 -0.219794  1.001166
x3  0.964910  1.419910 -0.653386 -0.747562  0.783691


In [708]:
print('Сложение:')
print(data + 4)    # операция сложения

Сложение:
         x1        x2        x3
1  4.500855  2.743239  4.964910
2  5.794371  6.121208  5.419910
3  3.730652  5.305510  3.346614
4  4.735199  3.780206  3.252438
5  3.191728  5.001166  4.783691


In [709]:
print('Умножение:')
print(data * 10)   # операция умножения

Умножение:
          x1         x2         x3
1   5.008550 -12.567611   9.649095
2  17.943714  21.212075  14.199103
3  -2.693483  13.055100  -6.533862
4   7.351991  -2.197935  -7.475620
5  -8.082715  10.011664   7.836910


In [710]:
columnNames = ['x1','x2','x3']
data2 = pd.DataFrame(np.random.randn(5,3), columns=columnNames)
print('\ndata2 =')
print(data2)


data2 =
         x1        x2        x3
0  2.096295  0.671014  1.329064
1  0.034808  0.804653 -0.282468
2 -0.373487  1.965867  0.691803
3  0.623273 -0.103546 -1.119877
4 -0.480064  0.648881  0.343414


In [711]:
print('\ndata + data2 = ')
print(data+data2) # data.add(data2)

print('\ndata * data2 = ')
print(data*data2) # data.mul(data2)


data + data2 = 
         x1        x2        x3
0       NaN       NaN       NaN
1  0.535663 -0.452108  0.682441
2  1.420884  4.087075  2.111713
3  0.353924  1.201964 -1.773264
4  0.255135  0.429088 -0.404148
5       NaN       NaN       NaN

data * data2 = 
         x1        x2        x3
0       NaN       NaN       NaN
1  0.017434 -1.011257 -0.272556
2 -0.670175  4.170012  0.982298
3 -0.167877 -0.135181  0.731713
4 -0.352943 -0.142620 -0.256724
5       NaN       NaN       NaN


In [712]:
print(data.abs())    # абсолютное значение по каждому элементу

         x1        x2        x3
1  0.500855  1.256761  0.964910
2  1.794371  2.121208  1.419910
3  0.269348  1.305510  0.653386
4  0.735199  0.219794  0.747562
5  0.808272  1.001166  0.783691


In [713]:
print('\nМаксимальное значение по столбцам:')
print(data.max()) # максимальное значение по каждому столбцу (axis=0)


Максимальное значение по столбцам:
x1    1.794371
x2    2.121208
x3    1.419910
dtype: float64


In [714]:
print('\nМинимальное значение по строкам:')
print(data.min(axis=1)) # минимальное значение по каждой строке


Минимальное значение по строкам:
1   -1.256761
2    1.419910
3   -0.653386
4   -0.747562
5   -0.808272
dtype: float64


In [715]:
print('\nСумма значений по столбцам:')
print(data.sum()) # найти сумму значений для каждого столбца


Сумма значений по столбцам:
x1    1.952806
x2    2.951329
x3    1.767563
dtype: float64


In [716]:
print('\nСреднее значение по строкам:')
print(data.mean(axis=1)) # найти среднее значение для каждой строки


Среднее значение по строкам:
1    0.069668
2    1.778496
3    0.127592
4   -0.077385
5    0.325529
dtype: float64


In [717]:
print('\nВычислить max - min по столбцам')
f = lambda x: x.max() - x.min()
print(data.apply(f))

print('\nВычислить max - min по строкам')
f = lambda x: x.max() - x.min()
print(data.apply(f, axis=1))


Вычислить max - min по столбцам
x1    2.602643
x2    3.377969
x3    2.167472
dtype: float64

Вычислить max - min по строкам
1    2.221671
2    0.701297
3    1.958896
4    1.482761
5    1.809438
dtype: float64


### Загрузка объекта DataFrame из файла

Считаем таблицу из файла `sp500.csv` со следующими столбцами:

| Имя столбца        | Описание
| ------------- |:-------------:|
|Symbol|Сокращенное название организации|
|Name|Полное название организации|
|Sector|Сектор экономики|
|Price|Стоимость акции|
|Dividend Yield|Дивидендная доходность|
|Price/Earnings|Цена / прибыль|
|Earnings/Share|Прибыль на акцию|
|Book Value|Балансовая стоимость компании|
|52 week low|52-недельный минимум|
|52 week high|52-недельный максимум|
|Market Cap|Рыночная капитализация|
|EBITDA|**E**arnings **b**efore **i**nterest, **t**axes, **d**epreciation and **a**mortization|
|Price/Sales|Цена / объём продаж|
|Price/Book|Цена / балансовая стоимость|
|SEC Filings|Ссылка на *sec.gov*|

In [718]:
pd.read_csv("/sp500.csv")

Unnamed: 0,Symbol,Name,Sector,Price,Dividend Yield,Price/Earnings,Earnings/Share,Book Value,52 week low,52 week high,Market Cap,EBITDA,Price/Sales,Price/Book,SEC Filings
0,MMM,3M Co.,Industrials,141.14,2.12,20.33,6.900,26.668,107.15,143.37,92.345,8.1210,2.95,5.26,http://www.sec.gov/cgi-bin/browse-edgar?action...
1,ABT,Abbott Laboratories,Health Care,39.60,1.82,25.93,1.529,15.573,32.70,40.49,59.477,4.3590,2.74,2.55,http://www.sec.gov/cgi-bin/browse-edgar?action...
2,ABBV,AbbVie Inc.,Health Care,53.95,3.02,20.87,2.570,2.954,40.10,54.78,85.784,7.1900,4.48,18.16,http://www.sec.gov/cgi-bin/browse-edgar?action...
3,ACN,Accenture,Information Technology,79.79,2.34,19.53,4.068,8.326,69.00,85.88,50.513,4.4230,1.75,9.54,http://www.sec.gov/cgi-bin/browse-edgar?action...
4,ACE,ACE Limited,Financials,102.91,2.21,10.00,10.293,86.897,84.73,104.07,34.753,4.2750,1.79,1.18,http://www.sec.gov/cgi-bin/browse-edgar?action...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
495,YHOO,Yahoo Inc.,Information Technology,35.02,,28.94,1.199,12.768,23.82,41.72,35.258,0.8873,7.48,2.72,http://www.sec.gov/cgi-bin/browse-edgar?action...
496,YUM,Yum! Brands Inc,Consumer Discretionary,74.77,1.93,29.86,2.507,5.147,64.08,79.70,33.002,2.8640,2.49,14.55,http://www.sec.gov/cgi-bin/browse-edgar?action...
497,ZMH,Zimmer Holdings,Health Care,101.84,0.81,22.92,4.441,37.181,74.55,108.33,17.091,1.6890,3.68,2.74,http://www.sec.gov/cgi-bin/browse-edgar?action...
498,ZION,Zions Bancorp,Financials,28.43,0.56,18.82,1.511,30.191,26.39,33.33,5.257,0.0000,2.49,0.94,http://www.sec.gov/cgi-bin/browse-edgar?action...


В качестве разделителя между значениями используется запятая, названия столбцов берутся из первой строки файла. Если используем другой разделитель (`;`), то данные не загрузятся корректно:

In [719]:
pd.read_csv(filepath_or_buffer = "/sp500.csv", sep = ';')

Unnamed: 0,"Symbol,Name,Sector,Price,Dividend Yield,Price/Earnings,Earnings/Share,Book Value,52 week low,52 week high,Market Cap,EBITDA,Price/Sales,Price/Book,SEC Filings"
0,"MMM,3M Co.,Industrials,141.14,2.12,20.33,6.90,..."
1,"ABT,Abbott Laboratories,Health Care,39.60,1.82..."
2,"ABBV,AbbVie Inc.,Health Care,53.95,3.02,20.87,..."
3,"ACN,Accenture,Information Technology,79.79,2.3..."
4,"ACE,ACE Limited,Financials,102.91,2.21,10.00,1..."
...,...
495,"YHOO,Yahoo Inc.,Information Technology,35.02,,..."
496,"YUM,Yum! Brands Inc,Consumer Discretionary,74...."
497,"ZMH,Zimmer Holdings,Health Care,101.84,0.81,22..."
498,"ZION,Zions Bancorp,Financials,28.43,0.56,18.82..."


Можем при загрузке ограничиться определенным количеством записей (параметр `nrows`):

In [720]:
pd.read_csv(filepath_or_buffer = "/sp500.csv", sep = ',', nrows = 3)

Unnamed: 0,Symbol,Name,Sector,Price,Dividend Yield,Price/Earnings,Earnings/Share,Book Value,52 week low,52 week high,Market Cap,EBITDA,Price/Sales,Price/Book,SEC Filings
0,MMM,3M Co.,Industrials,141.14,2.12,20.33,6.9,26.668,107.15,143.37,92.345,8.121,2.95,5.26,http://www.sec.gov/cgi-bin/browse-edgar?action...
1,ABT,Abbott Laboratories,Health Care,39.6,1.82,25.93,1.529,15.573,32.7,40.49,59.477,4.359,2.74,2.55,http://www.sec.gov/cgi-bin/browse-edgar?action...
2,ABBV,AbbVie Inc.,Health Care,53.95,3.02,20.87,2.57,2.954,40.1,54.78,85.784,7.19,4.48,18.16,http://www.sec.gov/cgi-bin/browse-edgar?action...


Можно подгрузить не все, а только некоторые столбцы (параметр `usecols`):

In [721]:
pd.read_csv(filepath_or_buffer = "/sp500.csv",
           sep = ',',
           nrows = 3,
           usecols=['Symbol', 'Sector', 'Price', 'Book Value'])

Unnamed: 0,Symbol,Sector,Price,Book Value
0,MMM,Industrials,141.14,26.668
1,ABT,Health Care,39.6,15.573
2,ABBV,Health Care,53.95,2.954


Можем при считывании данных сразу назначить индекс:

In [722]:
sp500 = pd.read_csv(filepath_or_buffer = "/sp500.csv",
           sep = ',',
           usecols=['Symbol', 'Sector', 'Price', 'Book Value'],
           index_col='Symbol')
sp500

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MMM,Industrials,141.14,26.668
ABT,Health Care,39.60,15.573
ABBV,Health Care,53.95,2.954
ACN,Information Technology,79.79,8.326
ACE,Financials,102.91,86.897
...,...,...,...
YHOO,Information Technology,35.02,12.768
YUM,Consumer Discretionary,74.77,5.147
ZMH,Health Care,101.84,37.181
ZION,Financials,28.43,30.191


Датафрейм может содержать столбцы разных типов. Для контроля типов столбцов можно использовать свойство `dtypes`:

In [723]:
sp500.dtypes

Sector         object
Price         float64
Book Value    float64
dtype: object

Для подсчета количества уникальных элементов можно использовать метод `nunique()`:

In [724]:
sp500.nunique()

Sector         13
Price         495
Book Value    495
dtype: int64

Также для получения информации об объекте `DataFrame` можно использовать метод `info()`:

In [725]:
sp500.info()

<class 'pandas.core.frame.DataFrame'>
Index: 500 entries, MMM to ZTS
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Sector      500 non-null    object 
 1   Price       500 non-null    float64
 2   Book Value  499 non-null    float64
dtypes: float64(2), object(1)
memory usage: 15.6+ KB


### Обращение к данным DataFrame

Для обращения первым/последним строкам объекта `DataFrame` можно использовать методы `head()/tail()`: 

In [726]:
sp500.head() # по умолчанию 5 строк

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MMM,Industrials,141.14,26.668
ABT,Health Care,39.6,15.573
ABBV,Health Care,53.95,2.954
ACN,Information Technology,79.79,8.326
ACE,Financials,102.91,86.897


In [727]:
sp500.tail(3) # 3 строки

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
ZMH,Health Care,101.84,37.181
ZION,Financials,28.43,30.191
ZTS,Health Care,30.53,2.15


Для обращения к столбцу объекта `DataFrame` можно использовать имя столбца (получаем объект `Series`):

In [728]:
sp500.Price.head(3)

Symbol
MMM     141.14
ABT      39.60
ABBV     53.95
Name: Price, dtype: float64

In [729]:
sp500['Book Value'].head(3)

Symbol
MMM     26.668
ABT     15.573
ABBV     2.954
Name: Book Value, dtype: float64

Если необходимо получить датафрейм с одним столбцом, то можно обратиться к столбцу так:

In [730]:
sp500[['Sector']]

Unnamed: 0_level_0,Sector
Symbol,Unnamed: 1_level_1
MMM,Industrials
ABT,Health Care
ABBV,Health Care
ACN,Information Technology
ACE,Financials
...,...
YHOO,Information Technology
YUM,Consumer Discretionary
ZMH,Health Care
ZION,Financials


При выборе строк и/или столбцов объекта `DataFrame` можно использовать индексаторы `.loc` и `.iloc`. Индексатор `.loc` выбирает данные по меткам строк и столбцов, а индексатор `.iloc` использует номера (позиции) строк и столбцов, которые необходимо выбрать.

In [731]:
sp500.loc['MMM'] # строка представлена как объект Series

Sector        Industrials
Price              141.14
Book Value         26.668
Name: MMM, dtype: object

In [732]:
sp500.iloc[-1] # строка представлена как объект Series

Sector        Health Care
Price               30.53
Book Value           2.15
Name: ZTS, dtype: object

In [733]:
sp500.loc[['ABT','ABBV']] # список строк представлен как объект DataFrame

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
ABT,Health Care,39.6,15.573
ABBV,Health Care,53.95,2.954


In [734]:
sp500.loc['ABT':'ACE'] # можно использовать срез для меток

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
ABT,Health Care,39.6,15.573
ABBV,Health Care,53.95,2.954
ACN,Information Technology,79.79,8.326
ACE,Financials,102.91,86.897


In [735]:
sp500.iloc[[-3,-1]] # список для индексатора iloc

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
ZMH,Health Care,101.84,37.181
ZTS,Health Care,30.53,2.15


In [736]:
sp500.iloc[-3:] # срез для индексатора iloc

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
ZMH,Health Care,101.84,37.181
ZION,Financials,28.43,30.191
ZTS,Health Care,30.53,2.15


Если обращаемся к несуществующей метке или позиции, то получаем исключение: 

In [737]:
try:
    sp500.loc['Z']
except Exception as err:
    print(f"Ошибка {err=} с типом {type(err)=}")

SyntaxError: ignored

In [None]:
try:
    sp500.iloc[1000]
except Exception as err:
    print(f"Ошибка {err=} с типом {type(err)=}")

Для поиска позиции строки (записи) с заданной меткой можно использовать метод `get_loc()`: 

In [None]:
iMSFT = sp500.index.get_loc('MSFT')
sp500.iloc[[iMSFT]]

Можно найти значение по метке строки и метке (имени) столбца:

In [None]:
sp500.at['MSFT', 'Price']

Можно извлечь значение по позициям (номерам) строки и столбца:

In [None]:
sp500.iat[250, 1]

Можно выполнить одновременный отбор строк и столбцов по меткам или позициям:

In [None]:
sp500.loc[['AAPL', 'MSFT']]

In [None]:
sp500.loc[['AAPL', 'MSFT']][['Price', 'Book Value']]

Иначе можно выполнить отбор по меткам так:

In [None]:
sp500.loc[['AAPL', 'MSFT'], ['Price', 'Book Value']]

А теперь отбор по позициям строк и столбцов:

In [None]:
sp500.index.get_loc('AAPL'), sp500.index.get_loc('MSFT')

In [None]:
sp500.iloc[[40, 302], [1, 2]]

#### Срезы данных

Задаём срез для числовых данных (целых чисел) по правилу: 

__[начальная позиция: конечная позиция: шаг]__, 

при этом:
- конечная позиция - не включается
- шаг может быть отрицательным
- начальная/конечная позиция также может быть отрицательной - тогда отсчёт происходит "с другого конца"
- нумерация начинается с нуля

Срезы работают для объектов `Series`:

In [None]:
prices = sp500.Price
prices # объект Series

In [None]:
prices.iloc[1::2]

In [None]:
prices.iloc[-1:-11:-1]

Также срезы работают для объектов `DaraFrame`:

In [None]:
sp500.iloc[-1::-10].head()

Срезы можно применять и к столбцам:

In [None]:
sp500.iloc[-1::-1,-1::-1].head()

Срезы (с несколько отличающимся функционалом) работают и для меток:

In [None]:
sp500.loc['AAPL':'MSFT':2]

При использовании срезов, как правило, возникает ссылка на первоначальные данные.

In [None]:
pr5 = prices.iloc[range(5)] # не срез!
pr5

In [None]:
pr5.iloc[:] = 0.
pr5

В `pr5` цены обнулились, но в `prices` цены остались прежними:

In [None]:
prices

Теперь воспользуемся срезом:

In [None]:
pr5 = prices.iloc[range(5)] # резервная копия
pr5slice = prices.iloc[0:5] # срез!
pr5slice.iloc[:] = 0.
prices

Цены в `prices` обнулились, так как `pr5slice` представляет собой ссылку на данные в `prices`. Восстанавливаем данные из копии в переменной `pr5`:

In [None]:
pr5slice.iloc[:] = pr5
prices

#### Удаление данных

Существуют различные способы удаления данных из датафрейма.

* команда `del`

In [None]:
pr5 = prices.iloc[range(5)]
del pr5['MMM']
pr5

Для датафрейма команда `del` вызывает удаление столбца. Также столбец может быть удален методом `pop()`:

In [None]:
sp500_copy = sp500.copy()
sector_col = sp500_copy.pop('Sector')
sector_col

In [None]:
sp500_copy

* метод `drop()` (применим как к строкам, когда `axis=0`, так и столбцам, когда `axis=1`)

По умолчанию изменения производятся в возвращаемой копии датафрейма, чтобы изменения производились в самом датафрейме применяется ключ `inplace=True`.

In [None]:
sp500_copy = sp500.copy()
sp500_copy.drop(['ABBV', 'ABT'], axis=0, inplace=True) # удаляем строки с метками
sp500_copy

In [None]:
sp500_copy.drop(['Sector'], axis=1, inplace=True) # удаляем столбец
sp500_copy

### Фильтрация данных по условию

Series

In [None]:
prices90_100 = (prices > 90.) & (prices < 100.)
prices90_100

In [None]:
prices[prices90_100]

Также для фильтрации данных можно использовать метод `where()` (не путать с функцией `where()` из NumPy):

In [None]:
prices.where(prices > 100.)

Вместо значения `NaN` (Not-a-Number) можно использовать другое значение, скажем, `-1`:

In [None]:
prices.where(prices > 100., other=-1)

Проверяем, все ли элементы в `prices` удовлетворяют условию:

In [None]:
(prices < 200.).all()

Проверяем, есть ли хотя бы один элемент в `prices`, удовлетворяющий условию:

In [None]:
(prices > 250.).any()

Вычисляем, сколько элементов в `prices` удовлетворяет условию:

In [None]:
(prices > 250.).sum()

При работе с датафреймами возможности фильтрации данных сохраняются.

In [None]:
sp500[sp500.Price > 250.]

Извлечем строки, в которых переменная `Sector` принимает значение `Information Technology`, а переменная `Price` больше или равна 250., и оставим столбцы `Price` и `Sector`:

In [None]:
sp500[(sp500.Sector == 'Information Technology') & 
          (sp500.Price >= 250.00)] [['Price', 'Sector']]

Если для столбца с категориальными (текстовыми) значениями проверяется равенство одному из нескольких значений, то может быть полезен метод `isin()`: 

In [None]:
sect_IT_Fin = sp500.Sector.isin(['Information Technology', 'Financials'])
sp500[sect_IT_Fin].head()

Также для фильтрации данных может применяться метод `query()`, в котором условие фильтрации задается как символьная строка: 

In [None]:
sp500.query("Sector=='Financials' & Price >= 150.")[['Price', 'Book Value']]

### Сортировка данных

Сортировка данных датафрейма возможна по индексу и по значению.

In [None]:
sp500.sort_index().head()

In [None]:
sp500.sort_index(axis=1).head()

In [None]:
sp500.sort_values(by='Price').head()

In [None]:
sp500.sort_values(by='Price', ascending=False).head()

Также можно извлечь нужно число записей с наименьшими/наибольшими значениями:

In [None]:
sp500.nsmallest(5, 'Book Value')

In [None]:
sp500.nlargest(3, 'Book Value')

## Индекс датафрейма

Продемонстрируем важность выбора индекса на следующем примере.

In [None]:
np.random.seed(2022)
df = pd.DataFrame({'value':np.random.random(10000), 'key':range(100, 10100)})
df.head(3)

Отберем строку со значением столбца `key` равным 2022, измеряя время выполнения операции отбора:

In [None]:
%timeit df[df.key==2022]

Превратим столбец `key` в индекс датафрейма `df_key`:

In [None]:
df_key = df.set_index(['key'])
df_key.head(3)

Отберем строку со значением столбца `key` равным 2022 при помощи индекса:

In [None]:
%timeit df_key.loc[2022]

Таким образом, использование индекса ускорило отбор данных почти в 5 раз.

В датафрейме можно сбрасывать и устанавливать индекс:

In [None]:
sp500.reset_index(inplace=True)
sp500

In [None]:
sp500.set_index('Sector', inplace=True)
sp500

Индекс может быть иерархическим (составным):

In [None]:
sp500.reset_index(inplace=True)
sp500.set_index(['Sector','Symbol'], inplace=True)
sp500