# 1.1. Теоретический материал – Библиотека NumPy
NumPy (NumericalPython) - это библиотека Python с открытым
исходным кодом, которая используется практически во всех областях науки
и техники. Это универсальный стандарт для работы с числовыми данными в
Python.
Если у вас уже есть Python, вы можете установить NumPy с помощью
командной строки:
- pip install numpy
Чтобы начать использовать NumPy необходимо импортировать
соответствующую библиотеку:
import numpy as np
Основным объектом NumPy является однородный многомерный
массив (в numpy называется numpy.ndarray). Это многомерный массив
элементов (обычно чисел), одного типа.
Наиболее важные атрибуты объектов ndarray:
ndarray.ndim - число измерений (чаще их называют "оси") массива.
ndarray.shape - размеры массива, его форма. Это кортеж натуральных
чисел, показывающий длину массива по каждой оси. Для матрицы из n строк
и m столбов, shape будет (n,m). Число элементов кортежа shape равно ndim.
ndarray.size - количество элементов массива. Очевидно, равно
произведению всех элементов атрибута shape.
ndarray.dtype - объект, описывающий тип элементов массива. Можно
определить dtype, используя стандартные типы данных Python. NumPy здесь
предоставляет целый букет возможностей, как встроенных, например: bool_,
character, int8, int16, int32, int64, float8, float16, float32, float64, complex64,
object_, так и возможность определить собственные типы данных, в том
числе и составные.
ndarray.itemsize - размер каждого элемента массива в байтах.
ndarray.data - буфер, содержащий фактические элементы массива.
Обычно не нужно использовать этот атрибут, так как обращаться к
элементам массива проще всего с помощью индексов.
Подробнее о массивах в NumPy можно найти в официальной
документации https://numpy.org/doc/stable/user/absolute_beginners.htm

# 1.2.1 Пример
Задача:
Создать массив 5x2. Создать массив 5x2. Вывести все значения массива,
значение элемента с индексом (3,1) и второй столбец. Индексация
начинается с нуля.


In [2]:
import numpy as np
x=np.array([[1,2],[3,4],[5,6],[7,8],[9,10]])
print(x)
print(x[3][1])
print(x[1])

[[ 1  2]
 [ 3  4]
 [ 5  6]
 [ 7  8]
 [ 9 10]]
8
[3 4]


# 1.2.2 Пример
Пример. Выполнить следующее:
1. Создать вектор (одномерный массив) размера 10, заполненный
нулями.
2. Создать вектор размера 10, заполненный единицами.
3. Создать вектор размера 10, заполненный заданным числом.
4. Создать вектор со значениями от 10 до 19.

In [4]:
a=np.zeros(10)
b=np.ones(10)
c=np.full(10,5)
d=np.arange(10,20)
print(a,"\n", b, "\n", c, "\n", d)

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.] 
 [1. 1. 1. 1. 1. 1. 1. 1. 1. 1.] 
 [5 5 5 5 5 5 5 5 5 5] 
 [10 11 12 13 14 15 16 17 18 19]


# 1.2.3 Пример
Создать массив 10x10 со случайными значениями, найти минимум,
максимум и среднее значение.

In [5]:
Z=np.random.random((10,10))
Zmin, Zmax, Zmean= Z.min(), Z.max(), Z.mean()
print(Zmin,Zmax,Zmean)

0.008735185429422532 0.9981490287856424 0.4791333236950519


# 1.2.4 Пример
Задать матрицу размерности 5 на 5 и поменять 2 строки в матрице
местами.

In [6]:
A=np.arange(25).reshape(5,5)
A[[0,1]]=A[[1,0]]
print(A)

[[ 5  6  7  8  9]
 [ 0  1  2  3  4]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]]


# 1.2.5 Пример
Выяснить результат следующих выражений:
0 * np.nan
np.nan == np.nan
np.inf > np.nan
np.nan - np.nan
0.3 == 3 * 0.1

In [7]:
print(0*np.nan)
print(np.nan==np.nan)
print(np.inf>np.nan)
print(np.nan-np.nan)
print(0.3==3*0.1)

nan
False
False
nan
False


# 1.2.6 Пример
Отсортировать массив.

In [8]:
arr=np.array([2,1,5,3,7,4,6,8])
print(np.sort(arr))

[1 2 3 4 5 6 7 8]


# 1.3.1 Задание
Создать 8x8 матрицу и заполнить её в шахматном порядке нулями и
единицами

In [24]:
from numpy import zeros

arr = zeros((8, 8))
for i in range(0, 8, 2):
    arr[i][::2] = 1
    for j in range(1, 8, 2):
        for k in range(1, 8, 2):
            arr[j][k] = 1
print(arr)

[[1 0 1 0 1 0 1 0]
 [0 1 0 1 0 1 0 1]
 [1 0 1 0 1 0 1 0]
 [0 1 0 1 0 1 0 1]
 [1 0 1 0 1 0 1 0]
 [0 1 0 1 0 1 0 1]
 [1 0 1 0 1 0 1 0]
 [0 1 0 1 0 1 0 1]]


# 1.3.2 Задание
Создать 5x5 матрицу со значениями в строках от 0 до 4. Для создания 
необходимо использовать функцию arrange.


In [25]:
from numpy import arange

print([list(arange(5)) for i in range(5)])

[[0 1 2 3 4]
 [0 1 2 3 4]
 [0 1 2 3 4]
 [0 1 2 3 4]
 [0 1 2 3 4]]


## 1.3.3 Задание
Создать массив 3x3x3 со случайными значениями.

In [1]:
import numpy as np

print(np.random.random((3, 3, 3)))

[[[0.69902866 0.30732669 0.11359818]
  [0.51401138 0.10526152 0.2703095 ]
  [0.48108461 0.64818862 0.33299064]]

 [[0.23173803 0.94608522 0.78496626]
  [0.30813494 0.6580397  0.36717758]
  [0.54392505 0.33153413 0.07489476]]

 [[0.8910952  0.16440822 0.55422172]
  [0.53429149 0.29584325 0.60938993]
  [0.79291538 0.52474304 0.37240648]]]


## 1.3.4 Задание
Создать матрицу с 0 внутри, и 1 на границах.

In [26]:
import numpy as np

size = 6
a = np.zeros((size, size))
a[0] = np.ones(size)
a[size - 1] = np.ones(size)
for i in range(1, size - 1):
    a[i][0] = 1
    a[i][size - 1] = 1

print(a)


Введите размерность матрицы nxn (Указать число n только один раз! n>3)
4
[[1. 1. 1. 1.]
 [1. 0. 0. 1.]
 [1. 0. 0. 1.]
 [1. 1. 1. 1.]]


## 1.3.5 Задание
Создайте массив и отсортируйте его по убыванию.

In [27]:
import numpy as np

a = np.random.random(100)
print(np.sort(a)[::-1])

Введите размерность матрицы axb (Указать сначала первое,  только потом второе!)
4
5
Рандомные числа 
 [87 67 81 17 91 63 43 56 93 49 28 51 64 87 40 92 63 73 70 31]
Матрица 
 [[93 92 91 87 87]
 [81 73 70 67 64]
 [63 63 56 51 49]
 [43 40 31 28 17]]


## 1.3.6 Задание
Создайте матрицу, выведите ее форму, размер и размерность.

In [None]:
import numpy as np

a = np.arange(25).reshape(5, 5)
print(f"Форма: {np.shape(a)}\nРазмер: {np.size(a)}\nРазмерность: {np.ndim(a)}")

# 2.1. Теоретический материал – Библиотека Pandas
Первым шагом в любом начинании в области машинного обучения 
является введение исходных данных в систему. Исходные данные могут 
вводиться вручную, содержаться в файле или храниться в интернете в какомлибо формате. Кроме того, часто требуется получить данные из нескольких 
источников.
Библиотека pandas – это удобный и быстрый инструмент для работы 
с данными, обладающий большим функционалом. Если очень кратко, то
pandas – это библиотека, которая предоставляет очень удобные с точки 
зрения использования инструменты для хранения данных и работе с ними. 
Библиотека pandas присутствует в стандартной поставке Anaconda. 
Если же ее там нет, то его можно установить отдельно. Для этого введите 
командной строке:
- pip install pandas

Для импорта библиотеки используйте команду:
import pandas as pd

Библиотека pandas предоставляет две ключевые структуры данных: 
Series и DataFrame.
Series – это одномерная структура данных, ее можно представить, как 
таблицу с одной строкой. С Series можно работать как с обычным массивом 
(обращаться по номеру индекса), и как с ассоциированным массивом, когда 
можно использовать ключ для доступа к элементам данных.
DataFrame – это двумерная структура. Идейно она очень похожа на 
обычную таблицу, что выражается в способе ее создания и работе с ее 
элементами.


## 2.2.1 Пример

Создать Series из списка Python, словаря Python, и массива Numpy
(установить буквенные метки для последнего). 

In [28]:
import pandas as pd
lst=[1,2,3,4,5]
d={'a':1, 'b':2, 'c':3,}
ndarr=np.array([1,2,3,4,5])
s1=pd.Series(lst)
s2=pd.Series(d)
s3=pd.Series(ndarr, ['a', 'b', 'c', 'd', 'e'])
print(s1)
print(s2)
print(s3)

0    1
1    2
2    3
3    4
4    5
dtype: int64
a    1
b    2
c    3
dtype: int64
a    1
b    2
c    3
d    4
e    5
dtype: int32


## 2.2.2 Пример

Дано два Series. Напечатать их первые элементы и все элементы после 
третьего (во втором фрейме).

In [29]:
s1=pd.Series([1,2,3,4,5], ['a', 'b', 'c', 'd', 'e'])
s2=pd.Series([5,4,3,2,1])
print(s1['a'])
print(s2[0])
print(s2[3:])

1
5
3    2
4    1
dtype: int64


## 2.2.3 Пример
Создайте новый фрейм данных

In [31]:
dataframe=pd.DataFrame()
dataframe["Имя"]=["Джеки Джексон", "Стивен Стивенсон"]
dataframe["Возраст"]=[38,25]
dataframe["Водитель"]=[True,False]
dataframe

Unnamed: 0,Имя,Возраст,Водитель
0,Джеки Джексон,38,True
1,Стивен Стивенсон,25,False


## 2.2.4 Пример
Загрузите фрейм данных по ссылке: 
https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv

In [32]:
#Создать URL-адрес
url='https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'
#Загрузить данные
dataframe = pd.read_csv(url)
#Показать пять строк
dataframe.head(5)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0


## 2.2.5 Пример

Пронализировать характеристики фрейма данных.

   Одна из самых простых вещей, которые мы можем сделать после 
загрузки данных, – это взглянуть на первые несколько строк с помощью 
метода head. На последние строки можно посмотреть с помощью 
функции tail. Мы также можем взглянуть на количество строк и 
столбцов: dataframe.shape. Кроме того, используя метод describe, мы 
можем получить описательную статистику для любых числовых 
столбцов.

In [34]:
dataframe.head(2)
dataframe.tail(3)
dataframe.shape
dataframe.describe()

Unnamed: 0,Age,Survived,SexCode
count,756.0,1313.0,1313.0
mean,30.397989,0.342727,0.351866
std,14.259049,0.474802,0.477734
min,0.17,0.0,0.0
25%,21.0,0.0,0.0
50%,28.0,0.0,0.0
75%,39.0,1.0,1.0
max,71.0,1.0,1.0


Более подробно с возможностями работы с фреймами данных 
можно узнать по ссылке ниже: 
    
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html

## 2.2.6 Пример
Выберите индивидуальные данные или срезы фрейма данных.

Для выбора одной или нескольких строк, либо значений, можно 
использовать методы 1ос или iloc.

In [36]:
dataframe.iloc[1:4]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1


## 2.2.7 Пример

Требуется отобрать строки фрейма данных на основе некоторого 
условия. Необходимо сформировать новый фрейм данных из пассажиров 
первого класса.

In [38]:
dataframe[dataframe['PClass']=='1st'].head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


## Задание 2.3.1

Найдитн евклидово расстояние между двумя Series (точками) a и b, не 
используя встроенную формулу.

In [2]:
import pandas as pd
from numpy import sqrt

a = list(input("Введите координаты XYZ для точки A: "))
b = list(input("Введите координаты XYZ для точки B: "))
a = list(map(int, a))
b = list(map(int, b))
a = pd.Series(a, ['x', 'y', 'z'])
b = pd.Series(b, ['x', 'y', 'z'])
distance = sqrt(((a['x'] - b['x']) ** 2) + ((a['y'] - b['y']) ** 2) + ((a['z'] - b['z']) ** 2))
print(distance)

Введите координаты XYZ для точки A: 235
Введите координаты XYZ для точки B: 144
1.7320508075688772


## Задание 2.3.2

Найдите в Интернете ссылку на любой csv файл и сформируйте из него 
фрейм данных (например, коллекцию фреймов данных можно найти 
здесь: https://github.com/akmand/datasets).

In [1]:
import pandas as pd

url = 'https://raw.githubusercontent.com/akmand/datasets/main/airline_passenger_satisfaction.csv'
dataframe = pd.read_csv(url, on_bad_lines='skip')
print(dataframe)


Unnamed: 0,age,education_num,hours_per_week,capital
count,45222.0,45222.0,45222.0,45222.0
mean,38.547941,10.11846,40.938017,1012.834925
std,13.21787,2.552881,12.007508,7530.31538
min,17.0,1.0,1.0,-4356.0
25%,28.0,9.0,40.0,0.0
50%,37.0,10.0,40.0,0.0
75%,47.0,13.0,45.0,0.0
max,90.0,16.0,99.0,99999.0


## Задание 2.3.3

Проделайте с получившемся из предыдущего задания фреймом данных 
те же действия, что и в примерах 2.2.5-2.2.7

In [3]:
import pandas as pd
url = 'https://raw.githubusercontent.com/akmand/datasets/main/adult.csv'
dataframe = pd.read_csv(url)
dataframe.head(2)

Unnamed: 0,age,workclass,education_num,marital_status,occupation,relationship,race,gender,hours_per_week,native_country,capital,income_status
0,39,State-gov,13,Never-married,Adm-clerical,Not-in-family,White,Male,40,United-States,2174,<=50K
1,50,Self-emp-not-inc,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,13,United-States,0,<=50K


In [4]:
import pandas as pd
url = 'https://raw.githubusercontent.com/akmand/datasets/main/adult.csv'
dataframe = pd.read_csv(url)
dataframe.tail(3)

Unnamed: 0,age,workclass,education_num,marital_status,occupation,relationship,race,gender,hours_per_week,native_country,capital,income_status
45219,38,Private,13,Married-civ-spouse,Prof-specialty,Husband,White,Male,50,United-States,0,<=50K
45220,44,Private,13,Divorced,Adm-clerical,Own-child,Other,Male,40,United-States,5455,<=50K
45221,35,Self-emp-inc,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,60,United-States,0,>50K


In [42]:
import pandas as pd
url = 'https://raw.githubusercontent.com/akmand/datasets/main/adult.csv'
dataframe = pd.read_csv(url)
dataframe.shape

(45222, 12)

In [40]:
import pandas as pd
url = 'https://raw.githubusercontent.com/akmand/datasets/main/adult.csv'
dataframe = pd.read_csv(url)
dataframe.describe()

Unnamed: 0,Age,Survived,SexCode
count,756.0,1313.0,1313.0
mean,30.397989,0.342727,0.351866
std,14.259049,0.474802,0.477734
min,0.17,0.0,0.0
25%,21.0,0.0,0.0
50%,28.0,0.0,0.0
75%,39.0,1.0,1.0
max,71.0,1.0,1.0


In [None]:
import pandas as pd
url = 'https://raw.githubusercontent.com/akmand/datasets/main/adult.csv'
dataframe = pd.read_csv(url)
print(dataframe.iloc[:5])
print(dataframe.loc[:5])
print(dataframe[dataframe['type_of_travel'] == 'Personal Travel'].head(2))


#  3.1. Теоретический материал – Работа с числовыми данными
Количественные данные что-то измеряют – будь то размер класса, 
ежемесячные продажи или оценки учащихся. Естественным способом 
представления этих величин является численным (например, 150 студентов, 
$529 392 продаж).
Нормализация данных — это общепринятая задача предобработки в 
машинном обучении. Многие алгоритмы предполагают, что все признаки 
находятся в единой шкале, как правило, от 0 до 1 или от -1 до 1. 
Существует множество способов нормализации значений признаков, 
чтобы масштабировать их к единому диапазону и использовать в различных 
моделях машинного обучения. В зависимости от используемой функции, их 
можно разделить на 2 большие группы: линейные и нелинейные. При 
нелинейной нормализации в расчетных соотношениях используются 
функции логистической сигмоиды или гиперболического тангенса. В 
линейной нормализации изменение переменных осуществляется 
пропорционально, по линейному закону.
На практике наиболее распространены следующие методы 
нормализации признаков:
- Минимакс – линейное преобразование данных в диапазоне [0..1], где 
минимальное и максимальное масштабируемые значения 
соответствуют 0 и 1 соответственно;
- Z-масштабирование данных на основе среднего значения и 
стандартного отклонения: производят деление разницы межд

## 3.2.1. Пример
Прошкалируйте числовой признак в диапазон между двумя значениями.


In [44]:
#Загрузить библиотеки
import pandas as pd
from sklearn import preprocessing
#Cоздать признак
feature=np.array([[-500.5], [-100.1], [0], [100.1], [900.9]])
#Cоздать шкалировщик
minmax_scale= preprocessing.MinMaxScaler(feature_range = (0, 1))
#Прошкалировать признак
scaled_feature=minmax.fit_transform(feature)
#Показать прошкалированный признак
scaled_feature


array([[0.        ],
       [0.28571429],
       [0.35714286],
       [0.42857143],
       [1.        ]])

## 3.2.2. Пример

Преобразуйте признак, чтобы он имел среднее значение 0 и стандартное 
отклонение 1.

In [49]:
x=np.array([[-1000.1], [-200.2], [500.5], [600.6], [9000.9]])
#Cоздать шкалировщик
scaler = preprocessing.StandardScaler()
#Преобразовать признак
standardized=scaler.fit_transform(x)
#Показать признак
standardized

array([[-0.76058269],
       [-0.54177196],
       [-0.35009716],
       [-0.32271504],
       [ 1.97516685]])

Мы можем увидеть эффект стандартизации, обратившись к среднему значению и стандартному отклонению результата нашего решения:

In [50]:
print("Среднее:", round(standardized.mean()))
print("Стандартное отклонение:",standardized.std())

Среднее: 0
Стандартное отклонение: 1.0


## 3.2.3. Пример
Дан фрейм данных 

dfTest = pd.DataFrame({'A':[14.00,90.20,90.95,96.27,91.21],

'B':[103.02,107.26,110.35,114.23,114.68],

'C':['big','small','big','small','small']})

Необходимо масштабировать его числовые столбцы.

In [56]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler
scaler=MinMaxScaler()
dfTest= pd.DataFrame({'A':[14.00,90.20,90.95,96.27,91.21],
                      'B':[103.02,107.26,110.35,114.23,114.68],
                      'C':['big','small','big','small','small']})
dfTest[['A', 'B']]= scaler.fit_transform(dfTest[['A', 'B']])  
dfTest

Unnamed: 0,A,B,C
0,0.0,0.0,big
1,0.926219,0.363636,small
2,0.935335,0.628645,big
3,1.0,0.961407,small
4,0.938495,1.0,small


## 3.3.2 Задание

Загрузить фрейм данных по ссылке:
https://raw.githubusercontent.com/akmand/datasets/master/iris.csv.
Необходимо выполнить нормализацию первого числового признака 
(sepal_length_cm) с использованием минимаксного преобразования, а 
второго (sepal_width_cm) с задействованием z-масштабирования.


In [4]:
import pandas as pd
import numpy as np
from sklearn import preprocessing
dataframe = pd.read_csv('https://raw.githubusercontent.com/akmand/datasets/master/iris.csv')
minmax = preprocessing.MinMaxScaler(feature_range = (0, 1))
zscale = preprocessing.StandardScaler()
dataframe[['sepal_length_cm']] = minmax.fit_transform(dataframe[['sepal_length_cm']])
dataframe[['sepal_width_cm']] = zscale.fit_transform(dataframe[['sepal_length_cm']])
print(dataframe[['sepal_length_cm', 'sepal_width_cm']])

     sepal_length_cm  sepal_width_cm
0           0.222222       -0.900681
1           0.166667       -1.143017
2           0.111111       -1.385353
3           0.083333       -1.506521
4           0.194444       -1.021849
..               ...             ...
145         0.666667        1.038005
146         0.555556        0.553333
147         0.611111        0.795669
148         0.527778        0.432165
149         0.444444        0.068662

[150 rows x 2 columns]
