In [1]:
import numpy as np

### Генерация случайной матрицы

In [6]:
#Функция генерации чисел из нормального распределения:
np.random.normal()
''' Параметры:
    loc: среднее нормального распределения
    scale: стандартное отклонение нормального распределения
    size: размер матрицы
'''
X = np.random.normal(loc = 1, scale = 10, size = (1000, 50))

### Нормировка матрицы

In [8]:
#Функция для вычисления среднего: 
''' np.mean() '''
#Функция для вычисления стандартного отклонения: 
''' np.std() '''
''' Первый параметр — матрица, для которой производятся вычисления. 
Также полезным будет параметр axis, который указывает,
по какому измерению вычисляются среднее и стандартное отклонение
(если axis=0, то по столбцам, если axis=1, то по строкам; если его не указывать,
то данные величины будут вычислены по всей матрице). 
'''
m = np.mean(X, axis=0)
std = np.std(X, axis=0)
X_norm = ((X - m)  / std)
print (X_norm)

[[ 0.41836722  0.4472397  -0.31167373 ... -1.19979314  1.0517726
  -0.2289963 ]
 [ 0.32768597 -1.20039109  1.06751472 ... -1.11365287  1.62838912
  -1.19812926]
 [ 1.13902182  0.29949183 -0.46014484 ... -0.00326748 -1.36451461
   0.27704073]
 ...
 [ 0.20087834  0.02325404  1.67288394 ...  2.67723072  0.18511435
  -1.33518578]
 [-0.87037264  0.52587633  0.29547765 ... -1.30965487 -2.00558753
  -1.95451788]
 [ 0.84786006 -0.9479706  -0.4849224  ...  0.67039814 -0.17300539
   0.46148876]]


### Операции над элементами матрицы

In [11]:
'''
Функция для подсчета суммы: 
np.sum
Аргументы аналогичны функциям  np.mean и np.std.

К матрицам можно применять логические операции,
которые будут применяться поэлементно.
Соответственно, результатом такой операции будет матрица такого же размера,
в ячейках которой будет записано либо True, либо False.
Индексы элементов со значением True можно получить с помощью функции np.nonzero.
'''

Z = np.array([[4, 5, 0], 
             [1, 9, 3],              
             [5, 1, 1],
             [3, 3, 3], 
             [9, 9, 9], 
             [4, 7, 1]])
r = np.sum(Z, axis=1)
print (np.nonzero(r > 10))

(array([1, 4, 5]),)


### Объединение матриц

In [15]:
'''
Функция для генерации единичной матрицы: np.eye

Аргумент: число строк (или, что эквивалентно, столбцов).

Функция для вертикальной стыковки матриц: np.vstack((A, B))
'''
A = np.eye(3)
B = np.eye(3)
print (A)
print (B)

AB = np.vstack((A, B))
print (AB)

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]
 [1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


### Пример использования решающих деревьев в SkLearn

In [1]:
import numpy as np
from sklearn.tree import DecisionTreeClassifier
X = np.array([[1, 2], [3, 4], [5, 6]])
y = np.array([0, 1, 0])
clf = DecisionTreeClassifier()
clf.fit(X, y)

DecisionTreeClassifier()

In [2]:
### Классификатор важности признаков

In [3]:
importances = clf.feature_importances_

In [5]:
''' 
Переменная importances будет содержать массив "важностей" признаков.
Индекс в этом массиве соответствует индексу признака в данных.

Стоит обратить внимание, что данные могут содержать пропуски.
Pandas хранит такие значения как nan (not a number).
Для того, чтобы проверить, является ли число nan'ом, можно воспользоваться функцией np.isnan.
'''

' \nПеременная importances будет содержать массив "важностей" признаков.\nИндекс в этом массиве соответствует индексу признака в данных.\n\nСтоит обратить внимание, что данные могут содержать пропуски.\nPandas хранит такие значения как nan (not a number).\nДля того, чтобы проверить, является ли число nan\'ом, можно воспользоваться функцией np.isnan.\n'

In [6]:
np.isnan(X)

array([[False, False],
       [False, False],
       [False, False]])