# 1.1. Теоретический материал – Библиотека NumPy
NumPy (NumericalPython) - это библиотека Python с открытым исходным кодом, которая используется практически во всех областях науки и техники. Это универсальный стандарт для работы с числовыми данными в Python.
Если у вас уже есть Python, вы можете установить NumPy с помощью командной строки:
 pip install numpy
Чтобы начать использовать NumPy необходимо импортировать соответствующую библиотеку:
import numpy as np
Основным объектом NumPy является однородный многомерный массив (в numpy называется numpy.ndarray). Это многомерный массив элементов (обычно чисел), одного типа.
Наиболее важные атрибуты объектов ndarray:
ndarray.ndim - число измерений (чаще их называют "оси") массива. ndarray.shape - размеры массива, его форма. Это кортеж натуральных
чисел, показывающий длину массива по каждой оси. Для матрицы из n строк и m столбов, shape будет (n,m). Число элементов кортежа shape равно ndim.
ndarray.size - количество элементов массива. Очевидно, равно произведению всех элементов атрибута shape.
ndarray.dtype - объект, описывающий тип элементов массива. Можно определить dtype, используя стандартные типы данных Python. NumPy здесь предоставляет целый букет возможностей, как встроенных, например: bool_, character, int8, int16, int32, int64, float8, float16, float32, float64, complex64, object_, так и возможность определить собственные типы данных, в том числе и составные.
ndarray.itemsize - размер каждого элемента массива в байтах.
ndarray.data - буфер, содержащий фактические элементы массива. Обычно не нужно использовать этот атрибут, так как обращаться к элементам массива проще всего с помощью индексов.
Подробнее о массивах в NumPy можно найти в официальной документации https://numpy.org/doc/stable/user/absolute_beginners.html

In [84]:
#1.2.1 Пример
import numpy as np
x = np.array ([[1,2],[3,4],[5,6],[7,8],[9,10]])
print(x)
print (x[3][1])
print (x[1])

[[ 1  2]
 [ 3  4]
 [ 5  6]
 [ 7  8]
 [ 9 10]]
8
[3 4]


In [85]:
# 1.2.2 Пример
a = np.zeros(10)
b = np.ones (10)
c = np.full(10,5)
d = np.arange(10,20)
print (a,"\n",b,"\n",c,"\n",d)

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.] 
 [1. 1. 1. 1. 1. 1. 1. 1. 1. 1.] 
 [5 5 5 5 5 5 5 5 5 5] 
 [10 11 12 13 14 15 16 17 18 19]


In [86]:
# 1.2.3 Пример
Z = np.random.random((10,10))
Zmin,Zmax,Zmean= Z.min() , Z.max(), Z.mean()
print (Zmin,Zmax,Zmean)

0.0003299056522209076 0.9978171431668162 0.4854319434259764


In [87]:
A = np.arange(25).reshape(5,5)
A[[0,1]] = A[[1,0]]
print (A)

[[ 5  6  7  8  9]
 [ 0  1  2  3  4]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]]


In [88]:
# 1.2.5 Пример
print (0 * np.nan)
print (np.nan == np.nan)
print (np.inf >np.nan)
print (np.nan-np.nan)
print (0.3 == 3*0.1)

nan
False
False
nan
False


In [89]:
# 1.2.6 Пример
arr = np.array([2,1,5,3,7,6,4,8])
print (np.sort(arr))

[1 2 3 4 5 6 7 8]


In [90]:
#1.3.1 Задание
arr = np.ones(64).reshape(8,8)

for i in range(8):
    for j in range(8):
        if(i%2==0):
            if(j%2==0):
                arr[i][j]=0
        else:
             if(j%2!=0):
                    arr[i][j]=0
                    
        
print (arr)

[[0. 1. 0. 1. 0. 1. 0. 1.]
 [1. 0. 1. 0. 1. 0. 1. 0.]
 [0. 1. 0. 1. 0. 1. 0. 1.]
 [1. 0. 1. 0. 1. 0. 1. 0.]
 [0. 1. 0. 1. 0. 1. 0. 1.]
 [1. 0. 1. 0. 1. 0. 1. 0.]
 [0. 1. 0. 1. 0. 1. 0. 1.]
 [1. 0. 1. 0. 1. 0. 1. 0.]]


In [91]:
#1.3.2 Задание
arr = np.arange(10).reshape(2,5)%5
answ = np.arange(10).reshape(2,5)%5
answ = np.concatenate((answ,arr),axis=0)
print (answ)

[[0 1 2 3 4]
 [0 1 2 3 4]
 [0 1 2 3 4]
 [0 1 2 3 4]]


In [92]:
#1.3.3 Задание
arr = np.random.random((3,3,3))
print(arr)

[[[0.91926567 0.25650759 0.64433215]
  [0.99003689 0.5373644  0.75148802]
  [0.33502969 0.22459113 0.48765365]]

 [[0.61499974 0.8286804  0.17698481]
  [0.36248808 0.9269996  0.61913805]
  [0.64615311 0.08760247 0.12522959]]

 [[0.72961639 0.1932716  0.94416773]
  [0.9060742  0.74866143 0.97840219]
  [0.94893488 0.16727634 0.24776245]]]


In [93]:
#1.3.4 Задание
arr_1 = np.ones((3,3))
arr_1[1][1]=0
print(arr_1)


[[1. 1. 1.]
 [1. 0. 1.]
 [1. 1. 1.]]


In [94]:
#1.3.5 Задание
arr =[2,5,4,7,4,8,3,0,7,4]
arr.sort(reverse = True)
print(arr)

[8, 7, 7, 5, 4, 4, 4, 3, 2, 0]


In [95]:
#1.3.6 Задание
b = np.array([[1,2,3],[4,5,6]])
ans = np.shape(b)
if(ans[0]==ans[1]):
    print("square")
else: print ("rectangle")
print ("S =", ans[0]*ans[1])
print (ans[0],"*",ans[1])


rectangle
S = 6
2 * 3


# 2.1. Теоретический материал – Библиотека Pandas
Первым шагом в любом начинании в области машинного обучения является введение исходных данных в систему. Исходные данные могут вводиться вручную, содержаться в файле или храниться в интернете в каком- либо формате. Кроме того, часто требуется получить данные из нескольких источников.
Библиотека pandas – это удобный и быстрый инструмент для работы с данными, обладающий большим функционалом. Если очень кратко, то pandas – это библиотека, которая предоставляет очень удобные с точки зрения использования инструменты для хранения данных и работе с ними.
Библиотека pandas присутствует в стандартной поставке Anaconda.
Если же ее там нет, то его можно установить отдельно. Для этого введите командной строке:
 pip install pandas
Для импорта библиотеки используйте команду:
import pandas as pd
Библиотека pandas предоставляет две ключевые структуры данных: Series и DataFrame.
Series – это одномерная структура данных, ее можно представить, как таблицу с одной строкой. С Series можно работать как с обычным массивом (обращаться по номеру индекса), и как с ассоциированным массивом, когда можно использовать ключ для доступа к элементам данных.
DataFrame – это двумерная структура. Идейно она очень похожа на обычную таблицу, что выражается в способе ее создания и работе с ее элементами.

In [96]:
#2.2.1 Пример
import pandas as pd
lst = [1,2,3,4,5]
d = {'a':1,'b':2,'c':3}
ndarr = np.array([1,2,3,4,5])
s1 = pd.Series(lst)
s2 = pd.Series(d)
s3 = pd.Series(ndarr,['a','b','c','d','e'])
print (s1)
print (s2)
print (s3)

0    1
1    2
2    3
3    4
4    5
dtype: int64
a    1
b    2
c    3
dtype: int64
a    1
b    2
c    3
d    4
e    5
dtype: int64


In [97]:
#2.2.2 Пример
s1 = pd.Series([1,2,3,4,5],['a','b','c','d','e'])
s2 = pd.Series([5,4,3,2,1])
print(s1['a'])
print (s2[0])
print (s2[3:])

1
5
3    2
4    1
dtype: int64


In [98]:
#2.2.3 Пример
dataframe = pd.DataFrame()
dataframe['Name'] = ['Jacky Jackson','Stiven Stivenson']
dataframe['Age'] = [38,25]
dataframe['Driver'] = [True,False]
dataframe

Unnamed: 0,Name,Age,Driver
0,Jacky Jackson,38,True
1,Stiven Stivenson,25,False


In [99]:
#2.2.4 Пример
url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'
dataframe = pd.read_csv(url)
dataframe.head(5)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0


In [100]:
#2.2.5 Пример
dataframe.head(2)
dataframe.tail(3)
dataframe.shape
dataframe.describe()

Unnamed: 0,Age,Survived,SexCode
count,756.0,1313.0,1313.0
mean,30.397989,0.342727,0.351866
std,14.259049,0.474802,0.477734
min,0.17,0.0,0.0
25%,21.0,0.0,0.0
50%,28.0,0.0,0.0
75%,39.0,1.0,1.0
max,71.0,1.0,1.0


In [101]:
#2.2.6 Пример
dataframe.iloc[1:4]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1


In [103]:
#2.2.7 Пример
dataframe[dataframe['PClass']=='1st'].head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
