## Теоретический материал — Библиотека NumPy

NumPy (NumercialPython) — это библиотека Python с открытым исходным кодом, которая используется практически во всех областях науки и техники. Это универсальный стандарт для работы с числовыми данными в Python.

Если у вас уже есть Python, вы можете установить NumPy с помощью командной строки:
```
pip install numpy
```
Чтобы начать использовать NumPy необходимо импортировать соотвествующую библиотеку:
``` python
import numpy as np
```
Основным объектом NumPy является однородный многомерный массив (в numpy называется `numpy.ndarray`). Это многомерный массив элементов (обычно чисел) одного типа.

Наиболее важные атрибуты объектов ndarray:

`ndarray.ndim` — число измерений (чаще их называют "оси") массива.

`ndarray.shape` — размеры массива, его форма. Это кортеж натуральных чисел, показывающий длину массива по каждой оси. Для матрицы из n строк и m столбцов, shape будет (n, m). Число элементов кортежа shape равно ndim.

`ndarray.size` — количество элементов массива. Очевидно, равно произведению всех элементов атрибута shape.

`ndarray.dtype` — объект, описывающий тип эоементов массива. Можно определить dtype, используя стандартные типы данных Python. NumPy здесь предоставляет целый букет возиожностей, как встроенных, например: bool, character, int8, in16, int32, int64, float8, float16, float32, float64, complex64, object, так и возможность определить собственные типы данных, в том числе и составные.

`ndarray.itemsize` — размер каждого элемента массива в байтах.

`ndarray.data` — буфер, содержащий фактические элементы массива. Обычно не нужно использовать этот атрибут, так как обращаться к элементам массива проще всего с помощью нескольких индексов.

Подробнее о массивах в NumPy можно найти в официальной документации https://numpy.org/doc/stable/user/absolute_beginners.html
## 1.2.1 Пример
### Задача:

Создать массив 5x2. Вывести все значения массива, значение элемента с индексом (3, 1) и второй столбец. Индексация начинается с нуля.
### Решение:

In [1]:
import numpy as np
x = np.array([[1, 2], [3, 4], [5, 6], [7, 8], [9, 10]])
print(x)
print(x[3][1])
print(x[1])

[[ 1  2]
 [ 3  4]
 [ 5  6]
 [ 7  8]
 [ 9 10]]
8
[3 4]


## 1.2.2 Пример
### Задача:

Пример. Выполнить следующее:
1. Создать вектор (одномерный массив) размера 10, заполненный нулями.
2. Создать вектор размера 10, Заполненный единицами.
3. Создать вектор размера 10, заполненный заданным числом.
4. Создать вектор со значениями от 10 до 19.
### Решение:

In [2]:
a = np.zeros(10)
b = np.ones(10)
c = np.full(10, 5)
d = np.arange(10, 20)
print(a, '\n', b, '\n', c, '\n', d)

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.] 
 [1. 1. 1. 1. 1. 1. 1. 1. 1. 1.] 
 [5 5 5 5 5 5 5 5 5 5] 
 [10 11 12 13 14 15 16 17 18 19]


## 1.2.3 Пример
### Задача:

Создать массив 10х10 со случайными значениями, найти минимум, максимум и среднее значение.
### Решение:

In [3]:
z = np.random.random((10, 10))
z_min, z_max, z_mean = z.min(), z.max(), z.mean()
print(z_min, z_max, z_mean)

0.0016672505647711278 0.9661241855481046 0.47994476105119366


## 1.2.4 Пример
### Задача:

Задать матрицу размерности 5 на 5 и поменять 2 строки в матрице местами.
### Решение:

In [4]:
a = np.arange(25).reshape(5, 5)
a[[0, 1]] = a[[1, 0]]
print(a)

[[ 5  6  7  8  9]
 [ 0  1  2  3  4]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]]


## 1.2.5 Пример
### Задача:

Выяснить результат следующих выражений:
``` python
0 * np.nan
np.nan == np.nan
np.inf > np.nan
np.nan - np.nan
0.3 == 3 * 0.1
```
### Решение:

In [5]:
print(0 * np.nan,
      np.nan == np.nan,
      np.inf > np.nan,
      np.nan - np.nan,
      0.3 == 3 * 0.1,
      sep='\n')

nan
False
False
nan
False


## 1.2.6 Пример
### Задача:

Отсортировать массив.
### Решение:

In [6]:
arr = np.array([2, 1, 5, 3, 7, 4, 6, 8])
print(np.sort(arr))

[1 2 3 4 5 6 7 8]


## 1.3.1 Задание
### Задача:

Создать 8х8 матрицу и заполнить её в шахматном порядке нулями и единицами.
### Решение:

In [7]:
matrix = np.zeros((8, 8))
for i in range(8):
    for j in range(8):
        if (j % 2 != 0) ^ (i % 2 != 0):
            matrix[i][j] = 1
print(matrix)

[[0. 1. 0. 1. 0. 1. 0. 1.]
 [1. 0. 1. 0. 1. 0. 1. 0.]
 [0. 1. 0. 1. 0. 1. 0. 1.]
 [1. 0. 1. 0. 1. 0. 1. 0.]
 [0. 1. 0. 1. 0. 1. 0. 1.]
 [1. 0. 1. 0. 1. 0. 1. 0.]
 [0. 1. 0. 1. 0. 1. 0. 1.]
 [1. 0. 1. 0. 1. 0. 1. 0.]]


## 1.3.2 Задание
### Задача:

Создать 5х5 матрицу со значениями с строках от 0 до 4. Для создания необходимо использовать функцию `arange`.
### Решение:

In [8]:
matrix = np.matrix([np.arange(5) for x in range(5)])
print(matrix)

[[0 1 2 3 4]
 [0 1 2 3 4]
 [0 1 2 3 4]
 [0 1 2 3 4]
 [0 1 2 3 4]]


## 1.3.3 Задание
### Задача:

Создать массив 3х3х3 со случайными значениями.
### Решение:

In [9]:
tensor = np.random.random((3, 3, 3))
print(tensor)

[[[0.44758386 0.80493029 0.87617695]
  [0.02254464 0.07690669 0.13404622]
  [0.18588375 0.69036437 0.14908701]]

 [[0.08481827 0.85169487 0.39792434]
  [0.91216685 0.64757898 0.8850886 ]
  [0.94353109 0.32361889 0.84577067]]

 [[0.20378629 0.88403795 0.5026067 ]
  [0.47178216 0.68562147 0.99674291]
  [0.79042823 0.474877   0.60196892]]]


## 1.3.4 Задание:
### Задача:

Создать матрицу с 0 внутри, и 1 на границах.
### Решение:

In [10]:
matrix = np.ones((10,10))
matrix[1:-1,1:-1] = 0
print(matrix)

[[1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
 [1. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [1. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [1. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [1. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [1. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [1. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [1. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [1. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]]


## 1.3.5 Задание
### Задача:

Создайте массив и отсортируйте его по убыванию.
### Решение:

In [11]:
arr = np.random.randint(0, 100, 15)
print(np.sort(arr)[::-1])

[89 87 78 74 68 66 62 46 38 33 31 25 21 21 15]


## 1.3.6 Задание
### Задача:

Создайте матрицу, выведете её форму, размер и размерность.
### Решение:

In [12]:
matrix = np.random.randint(0, 100, (5, 4))
print(f'is square = {matrix.shape[0] == matrix.shape[1]}',
      matrix.shape, len(matrix.shape), sep='\n')

is square = False
(5, 4)
2


## 2.1 Теоретический материал — Библиотека Pandas

Первым шагом в любом начинании в области машинного обучения является введение исходных данных в систему. Исходные данные могут вводиться вручную, содержаться в файле или храниться в интернете в каком-либо формате. Кроме того, часто требуется получить данные из нескольких источников.

_Библиотека_ `pandas` — это удобный и быстрый инструмент для работы с данными, обладающий большим функционалом. Если очень кратко, то `pandas` — это библиотека, которая предоставляет очень удобные с точки зрения использования инструменты для хранения данных и работе с ними.

_Библиотека_ `pandas` присутствует в стандартной поставке `Anaconda`. Если же её там нет, то её можно установить отдельно. Для этого введите в командной строке:
```
pip install pandas
```
Для импорта библиотеки используйте команду:
``` python
import pandas as pd
```
_Библиотека_ `pandas` предоставляет две ключевые структуры данных: `Series` и `DataFrame`.
`Series` — это одномерная структура данных, её можнно представить, как таблицу с одной строкой. С `Series` можно работать как с обычным массивом (обращаться по номеру индекса) и как с ассоциированным массивом, когда можно использовать ключ для доступа к элементам данных.
`DataFrame` — это двумерная структура. Идейно она очень похода на обычную таблицу, что выражается в способе её создания и работе с её элементами.
## 2.2.1 Пример
### Задача:

Создать `Series` из списка Python, словаря Python и массива `numpy` (установить буквенные метки для последнего).
### Решение:

In [13]:
import pandas as pd
lst = [1, 2, 3, 4, 5]
d = {'a': 1, 'b': 2, 'c': 3}
ndarr = np.array([1, 2, 3, 4, 5])

s1 = pd.Series(lst)
s2 = pd.Series(d)
s3 = pd.Series(ndarr, ['a', 'b', 'c', 'd', 'e'])

print(s1)
print(s2)
print(s3)

0    1
1    2
2    3
3    4
4    5
dtype: int64
a    1
b    2
c    3
dtype: int64
a    1
b    2
c    3
d    4
e    5
dtype: int64


## 2.2.2 Пример
### Задача:

Дано два `Series`. Напечатать их первые элементы и все элементы после третьего (во втором фрейме).
### Решение:

In [14]:
s1 = pd.Series([1, 2, 3, 4, 5], ['a', 'b', 'c', 'd', 'e'])
s2 = pd.Series([5, 4, 3, 2, 1])
print(s1['a'])
print(s2[0])
print(s2[3:])

1
5
3    2
4    1
dtype: int64


## 2.2.3 Пример
### Задача:

Создайте новый фрейм данных.
### Решение:

In [15]:
dataframe = pd.DataFrame()
dataframe['Имя'] = ['Джеки Джексон', 'Стивен Стивенсон']
dataframe['Возраст'] = [38, 25]
dataframe['Водитель'] = [True, False]
dataframe

Unnamed: 0,Имя,Возраст,Водитель
0,Джеки Джексон,38,True
1,Стивен Стивенсон,25,False


## 2.2.4 Пример
### Задача:

Загрузите фрейм данных по ссылке:
https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv
### Решение:

In [16]:
url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'
dataframe = pd.read_csv(url)
dataframe.head(5)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0


## 2.2.5 Пример
### Задача:

Проанализировать характеристики фрейма данных.
### Решение:

Одна из самых простых вещей, которые мы можем сделать после загрузки данных — это взгялнуть на первые несколько строк с помощью метода `head`. На последние строки можно посмотреть с помощью функции `tail`. Мы также можем взглянуть на количество строк и столбцов: `dataframe.shape`. Кроме того, используя метод `describe`, мы можем получить описательную статистику для любых числовых столбцов.

In [17]:
dataframe.head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


In [18]:
dataframe.tail(3)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
1310,"Zenni, Mr Philip",3rd,22.0,male,0,0
1311,"Lievens, Mr Rene",3rd,24.0,male,0,0
1312,"Zimmerman, Leo",3rd,29.0,male,0,0


In [19]:
dataframe.shape

(1313, 6)

In [20]:
dataframe.describe()

Unnamed: 0,Age,Survived,SexCode
count,756.0,1313.0,1313.0
mean,30.397989,0.342727,0.351866
std,14.259049,0.474802,0.477734
min,0.17,0.0,0.0
25%,21.0,0.0,0.0
50%,28.0,0.0,0.0
75%,39.0,1.0,1.0
max,71.0,1.0,1.0


## 2.2.6 Пример
### Задача:

Выберите индивидуальные данные или срезы фрейма данных.
### Решение:

Для выбора одной или нескольких строк либо значений можно использовать методы `loc` или `iloc`.

In [21]:
dataframe.iloc[1:4]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1


## 2.2.7 Пример
### Задача:

Требуется отобрать строки фрейма данных на основе некоторого условия. Необходимо сформировать новый фрейм данных из пассажиров первого класса.
### Решение:

In [22]:
dataframe[dataframe['PClass'] == '1st'].head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


## 2.3.1 Задание
### Задача:

Найдите евклидово расстояние между двумя `Series` (точками) a и b, не используя встроенную формулу.
### Решение:

In [23]:
point_a = pd.Series([np.random.random() for x in range(4)])
point_b = pd.Series([np.random.random() for x in range(4)])
dist = np.sqrt(np.sum(np.square(point_a - point_b)))
print(a, b, f'\ndist = {dist}', sep='\n')

[[ 5  6  7  8  9]
 [ 0  1  2  3  4]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]]
[1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]

dist = 1.3491595831358332


## 2.3.2 Задание
### Задача:

Найдите в интернете ссылку на любой csv файл и сформируйте из него фрейм данных (например, коллекцию фреймов данных можно найти здесь: https://github.com/akmand/datasets).
### Решение:

In [24]:
url = 'https://media.githubusercontent.com/media/datablist/sample-csv-files/main/files/customers/customers-100.csv'
df = pd.read_csv(url, on_bad_lines='skip')
df

Unnamed: 0,Index,Customer Id,First Name,Last Name,Company,City,Country,Phone 1,Phone 2,Email,Subscription Date,Website
0,1,DD37Cf93aecA6Dc,Sheryl,Baxter,Rasmussen Group,East Leonard,Chile,229.077.5154,397.884.0519x718,zunigavanessa@smith.info,2020-08-24,http://www.stephenson.com/
1,2,1Ef7b82A4CAAD10,Preston,Lozano,Vega-Gentry,East Jimmychester,Djibouti,5153435776,686-620-1820x944,vmata@colon.com,2021-04-23,http://www.hobbs.com/
2,3,6F94879bDAfE5a6,Roy,Berry,Murillo-Perry,Isabelborough,Antigua and Barbuda,+1-539-402-0259,(496)978-3969x58947,beckycarr@hogan.com,2020-03-25,http://www.lawrence.com/
3,4,5Cef8BFA16c5e3c,Linda,Olsen,"Dominguez, Mcmillan and Donovan",Bensonview,Dominican Republic,001-808-617-6467x12895,+1-813-324-8756,stanleyblackwell@benson.org,2020-06-02,http://www.good-lyons.com/
4,5,053d585Ab6b3159,Joanna,Bender,"Martin, Lang and Andrade",West Priscilla,Slovakia (Slovak Republic),001-234-203-0635x76146,001-199-446-3860x3486,colinalvarado@miles.net,2021-04-17,https://goodwin-ingram.com/
...,...,...,...,...,...,...,...,...,...,...,...,...
95,96,cb8E23e48d22Eae,Karl,Greer,Carey LLC,East Richard,Guyana,(188)169-1674x58692,001-841-293-3519x614,hhart@jensen.com,2022-01-30,http://hayes-perez.com/
96,97,CeD220bdAaCfaDf,Lynn,Atkinson,"Ware, Burns and Oneal",New Bradview,Sri Lanka,+1-846-706-2218,605.413.3198,vkemp@ferrell.com,2021-07-10,https://novak-allison.com/
97,98,28CDbC0dFe4b1Db,Fred,Guerra,Schmitt-Jones,Ortegaland,Solomon Islands,+1-753-067-8419x7170,+1-632-666-7507x92121,swagner@kane.org,2021-09-18,https://www.ross.com/
98,99,c23d1D9EE8DEB0A,Yvonne,Farmer,Fitzgerald-Harrell,Lake Elijahview,Aruba,(530)311-9786,001-869-452-0943x12424,mccarthystephen@horn-green.biz,2021-08-11,http://watkins.info/


## 2.3.3 Задание
### Задача

Проделайте с получившемся из предыдущего задания фреймом данных те же действия, что и в примерах 2.2.5-2.2.7.
### Решение:

In [25]:
df.head(2)

Unnamed: 0,Index,Customer Id,First Name,Last Name,Company,City,Country,Phone 1,Phone 2,Email,Subscription Date,Website
0,1,DD37Cf93aecA6Dc,Sheryl,Baxter,Rasmussen Group,East Leonard,Chile,229.077.5154,397.884.0519x718,zunigavanessa@smith.info,2020-08-24,http://www.stephenson.com/
1,2,1Ef7b82A4CAAD10,Preston,Lozano,Vega-Gentry,East Jimmychester,Djibouti,5153435776,686-620-1820x944,vmata@colon.com,2021-04-23,http://www.hobbs.com/


In [26]:
df.tail(3)

Unnamed: 0,Index,Customer Id,First Name,Last Name,Company,City,Country,Phone 1,Phone 2,Email,Subscription Date,Website
97,98,28CDbC0dFe4b1Db,Fred,Guerra,Schmitt-Jones,Ortegaland,Solomon Islands,+1-753-067-8419x7170,+1-632-666-7507x92121,swagner@kane.org,2021-09-18,https://www.ross.com/
98,99,c23d1D9EE8DEB0A,Yvonne,Farmer,Fitzgerald-Harrell,Lake Elijahview,Aruba,(530)311-9786,001-869-452-0943x12424,mccarthystephen@horn-green.biz,2021-08-11,http://watkins.info/
99,100,2354a0E336A91A1,Clarence,Haynes,"Le, Nash and Cross",Judymouth,Honduras,(753)813-6941,783.639.1472,colleen91@faulkner.biz,2020-03-11,http://www.hatfield-saunders.net/


In [27]:
df.shape

(100, 12)

In [28]:
df.describe()

Unnamed: 0,Index
count,100.0
mean,50.5
std,29.011492
min,1.0
25%,25.75
50%,50.5
75%,75.25
max,100.0


In [29]:
df.iloc[16:22]

Unnamed: 0,Index,Customer Id,First Name,Last Name,Company,City,Country,Phone 1,Phone 2,Email,Subscription Date,Website
16,17,a5DC21AE3a21eaA,Caroline,Foley,Winters-Mendoza,West Adriennestad,Western Sahara,936.222.4746x9924,001-469-948-6341x359,holtgwendolyn@watson-davenport.com,2021-03-10,http://www.benson-roth.com/
17,18,F8Aa9d6DfcBeeF8,Greg,Mata,Valentine LLC,Lake Leslie,Mozambique,(701)087-2415,(195)156-1861x26241,jaredjuarez@carroll.org,2022-03-26,http://pitts-cherry.com/
18,19,F160f5Db3EfE973,Clifford,Jacobson,Simon LLC,Harmonview,South Georgia and the South Sandwich Islands,001-151-330-3524x0469,(748)477-7174,joseph26@jacobson.com,2020-09-24,https://mcconnell.com/
19,20,0F60FF3DdCd7aB0,Joanna,Kirk,Mays-Mccormick,Jamesshire,French Polynesia,(266)131-7001x711,(283)312-5579x11543,tuckerangie@salazar.net,2021-09-24,https://www.camacho.net/
20,21,9F9AdB7B8A6f7F2,Maxwell,Frye,Patterson Inc,East Carly,Malta,423.262.3059,202-880-0688x7491,fgibson@drake-webb.com,2022-01-12,http://www.roberts.com/
21,22,FBd0Ded4F02a742,Kiara,Houston,"Manning, Hester and Arroyo",South Alvin,Netherlands,001-274-040-3582x10611,+1-528-175-0973x4684,blanchardbob@wallace-shannon.com,2020-09-15,https://www.reid-potts.com/


In [30]:
df[df['Country'] == 'Sri Lanka'].head(2)

Unnamed: 0,Index,Customer Id,First Name,Last Name,Company,City,Country,Phone 1,Phone 2,Email,Subscription Date,Website
13,14,A08A8aF8BE9FaD4,Kristine,Cox,Carpenter-Cook,Jodyberg,Sri Lanka,786-284-3358x62152,+1-315-627-1796x8074,holdenmiranda@clarke.com,2021-02-08,https://www.brandt.com/
96,97,CeD220bdAaCfaDf,Lynn,Atkinson,"Ware, Burns and Oneal",New Bradview,Sri Lanka,+1-846-706-2218,605.413.3198,vkemp@ferrell.com,2021-07-10,https://novak-allison.com/


## 3.1 Теоретический матрериал — Работа с числовыми данными

Количественные данные что-то измеряют — будь то размер класса, ежемесячные продажи или оценки учащихся. Естественным способом представления этих величин является численным (например, 150 студентов, $529, 392 продаж).

_**Нормализация данных**_ — это общепринятая задачаа предобработки в машинном обучении. Многие алгоритмы предполагают, что все признаки находятся в единой шкале, как правило, от 0 до 1 или от -1 до 1.

Существует множество способов нормализации значений признаков, чтобы масштабировать их к диному диапазону и использовать в различных моделях машинного обучения. В зависимости от используемой функции, их можно разделить на 2 большие группы: линейные и нелинейные. При нелинейной нормализации в расчётных соотношениях используются функции логистической сигмоиды или гиперболического тангенса. В линейной нормализации изменение переменных осуществляется пропорционально, по линейному закону.

На практике наиболее распространены следующие методы нормализации признаков:
- _**Минимакс**_ — линейное преобразование данных в диапазоне [0, 1], где минимальное и максимальное масштабируемые значения соотвествуют 0 и 1 соответственно;
- _**Z-масштабирование**_ данных на основе среднего значения и стандартного отклонения: производят деление разницы между переменной и средним значением на стандартное отклонение.

$X_{norm} = \frac{X-X_{min}}{X_{max}-X_{min}}$ — _нормализация по методу минимакс_

$z=\frac{x-\mu}{\sigma}$ — _Z-масштабирование_

При масштабировании данных мы будем использовать одну из популярных библиотек машинного обучения  `Scikit-learn`. Библиотека содержит пакет `sklearn.preprocessing`, который предоставляет широкие возможности для нормализации данных. Следует отметить, что в целом алгоритмы обучения выигрывают от стандартизации набора данных.
## 3.2.1 Пример
### Задача:

Прошкалируйте числовой признак в диапазон между двумя значениями.
### Решение:

In [31]:
# Загрузить библиотеки
import numpy as np
from sklearn import preprocessing as pp

# Создать признак
feature = np.array([[-500.5], [-100.1], [0], [100.1], [900.9]])

# Создать шкалировщик
minmax_scale = pp.MinMaxScaler(feature_range = (0, 1))

# Прошкалировать признак
scaled_feature = minmax_scale.fit_transform(feature)

# Показать прошкалированный признак
scaled_feature

array([[0.        ],
       [0.28571429],
       [0.35714286],
       [0.42857143],
       [1.        ]])

## 3.2.2 Пример
### Задача:

Преобразуйте признак, чтобы он имел среднее значение 0 и стандартное отклонение 1.
### Решение:

In [32]:
x = np.array([[-1000.1], [-200.2], [500.5], [600.6], [9000.9]])

# Создать шкалировщик
scaler = pp.StandardScaler()

# Преобразовать признак
standardized = scaler.fit_transform(x)

# Показать признак
standardized
print("Среднее:", round(standardized.mean()))
print("Стандартное отклонение:", standardized.std())

Среднее: 0
Стандартное отклонение: 1.0


## 3.2.3 Пример
### Задача:

Дан фрейм данных
```
dfTest = pd.DataFrame({'A':[14.00,90.20,90.95,96.27,91.21],
                       'B':[103.02,107.26,110.35,114.23,114.68],
                       'C':['big','small','big','small','small']})
```
Необходимо масштабировать его числовые столбцы.
### Решение:

In [33]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
dfTest = pd.DataFrame({'A':[14.00,90.20,90.95,96.27,91.21],
                       'B':[103.02,107.26,110.35,114.23,114.68],
                       'C':['big','small','big','small','small']})

dfTest[['A', 'B']] = scaler.fit_transform(dfTest[['A', 'B']])
dfTest

Unnamed: 0,A,B,C
0,0.0,0.0,big
1,0.926219,0.363636,small
2,0.935335,0.628645,big
3,1.0,0.961407,small
4,0.938495,1.0,small


## 3.3.2 Задание
### Задача:

Загрузите фрейм данных по ссылке:
https://raw.githubusercontent.com/akmand/datasets/master/iris.csv

Необходимо выполнить нормализацию первого числового признака (sepal_length_cm) с использованием минимального преобразования, а второго (sepal_width_cm) с задействованием z-масштабирования.
### Решение:

In [34]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler, StandardScaler

url = 'https://raw.githubusercontent.com/akmand/datasets/master/iris.csv'
df = pd.read_csv(url)

df[['sepal_length_cm']] = MinMaxScaler().fit_transform(df[['sepal_length_cm']])
df[['sepal_width_cm']] = StandardScaler().fit_transform(df[['sepal_width_cm']])

df

Unnamed: 0,sepal_length_cm,sepal_width_cm,petal_length_cm,petal_width_cm,species
0,0.222222,1.032057,1.4,0.2,setosa
1,0.166667,-0.124958,1.4,0.2,setosa
2,0.111111,0.337848,1.3,0.2,setosa
3,0.083333,0.106445,1.5,0.2,setosa
4,0.194444,1.263460,1.4,0.2,setosa
...,...,...,...,...,...
145,0.666667,-0.124958,5.2,2.3,virginica
146,0.555556,-1.281972,5.0,1.9,virginica
147,0.611111,-0.124958,5.2,2.0,virginica
148,0.527778,0.800654,5.4,2.3,virginica
