# Работа с векторами и матрицами в NumPy

In [1]:
import numpy as np

## 1. Генерация случайной матрицы

Сгенерируйте матрицу, состоящую из 1000 строк и 50 столбцов, элементы которой являются случайными из нормального распределения N(1,100).

Функция для генерации чисел из нормального распределения: np.random.normal

Параметры: 

loc: среднее нормального распределения (в нашем случае 1)

scale: стандартное отклонение нормального распределения (в нашем случае 10)

size: размер матрицы (в нашем случае (1000, 50))

In [2]:
X = np.random.normal(loc=1, scale=100, size=(1000, 50))
print(X)

[[ -28.01363319  -83.73374101  102.14721014 ... -156.05028158
    79.0160298   -92.34325541]
 [  59.79025455  -90.13411483 -139.69800027 ...   29.38533006
   -23.15822119 -126.19254808]
 [   5.62495945   56.13589702  -20.58764904 ...   45.6198083
   103.33302675   37.19716572]
 ...
 [  65.59622175   21.45876008   89.18369829 ...  -51.8363438
   -87.47275482   26.39918409]
 [ 226.99646423 -114.89895826   63.83608943 ...  -68.33927468
   -65.93217521  -27.97019351]
 [  16.54205349  231.03562851  -94.4323795  ...  -14.36181349
  -132.29863995   28.26914235]]


## 2. Нормировка матрицы


Произведите нормировку матрицы из предыдущего задания: вычтите из каждого столбца его среднее значение, а затем поделите на его стандартное отклонение.

Функция для вычисления среднего: np.mean

Функция для вычисления стандартного отклонения: np.std

Первый параметр — матрица, для которой производятся вычисления. Также полезным будет параметр axis, который указывает, по какому измерению вычисляются среднее и стандартное отклонение (если axis=0, то по столбцам, если axis=1, то по строкам; если его не указывать, то данные величины будут вычислены по всей матрице).

In [3]:
m   = np.mean(X, axis=0)
std = np.std(X, axis=0)

X_norm = ((X - m)  / std)
print(X_norm)

[[-0.3386861  -0.92022144  0.99889538 ... -1.51613818  0.78757901
  -0.93645704]
 [ 0.53562515 -0.9840358  -1.44367873 ...  0.23869312 -0.25518277
  -1.28480245]
 [-0.00372827  0.47433644 -0.24069497 ...  0.39232472  1.03575146
   0.39665239]
 ...
 [ 0.59343833  0.12859111  0.86796726 ... -0.52993128 -0.91155887
   0.28552962]
 [ 2.20058867 -1.23095148  0.61196297 ... -0.68610333 -0.69172175
  -0.27398941]
 [ 0.1049792   2.21815878 -0.98650766 ... -0.17529887 -1.36903929
   0.30477349]]


## 3. Операции над элементами матрицы

Выведите для заданной матрицы номера строк, сумма элементов в которых превосходит 10.

Функция для подсчета суммы: np.sum

Аргументы аналогичны функциям np.mean и np.std.

К матрицам можно применять логические операции, которые будут применяться поэлементно. Соответственно, результатом такой операции будет матрица такого же размера, в ячейках которой будет записано либо True, либо False. Индексы элементов со значением True можно получить с помощью функции np.nonzero.

In [4]:
Z = np.array([[4, 5, 0], 
             [1, 9, 3],              
             [5, 1, 1],
             [3, 3, 3], 
             [9, 9, 9], 
             [4, 7, 1]])
print(Z)

[[4 5 0]
 [1 9 3]
 [5 1 1]
 [3 3 3]
 [9 9 9]
 [4 7 1]]


In [5]:
r = np.sum(Z, axis=1)
r

array([ 9, 13,  7,  9, 27, 12])

In [6]:
print(np.nonzero(r > 10))

(array([1, 4, 5], dtype=int64),)


## 4. Объединение матриц


Сгенерируйте две единичные матрицы (т.е. с единицами на диагонали) размера 3x3. Соедините две матрицы в одну размера 6x3.

Функция для генерации единичной матрицы: np.eye

Аргумент: число строк (или, что эквивалентно, столбцов).

Функция для вертикальной стыковки матриц: np.vstack((A, B))

In [7]:
A = np.eye(3)
B = np.eye(3)

C = np.vstack((A, B))
print(C)

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]
 [1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


In [32]:
D = np.hstack((A, B))
print(D)

[[1. 0. 0. 1. 0. 0.]
 [0. 1. 0. 0. 1. 0.]
 [0. 0. 1. 0. 0. 1.]]


# Предобработка данных в Pandas

In [33]:
import pandas

path = 'titanic.csv'
data = pandas.read_csv(path, index_col='PassengerId')

type(data)

pandas.core.frame.DataFrame

In [9]:
data[:10]

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


In [10]:
data.head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [11]:
data['Pclass']

PassengerId
1      3
2      1
3      3
4      1
5      3
      ..
887    2
888    1
889    3
890    1
891    3
Name: Pclass, Length: 891, dtype: int64

In [12]:
data['Pclass'].value_counts()

3    491
1    216
2    184
Name: Pclass, dtype: int64

### Задача 1

Какое количество мужчин и женщин ехало на корабле? В качестве
ответа приведите два числа через пробел.

In [13]:
data['Sex'].value_counts()

male      577
female    314
Name: Sex, dtype: int64

### Задача 2

Какой части пассажиров удалось выжить? Посчитайте долю выживших пассажиров. Ответ приведите в процентах (число в интервале от 0 до 100, знак процента не нужен), округлив до двух
знаков.

In [38]:
count = data['Survived'].count()
survived = data['Survived'].value_counts()[1]

print(round(survived / count * 100, 2))

38.38


### Задача 3

Какую долю пассажиры первого класса составляли среди всех пассажиров? Ответ приведите в процентах (число в интервале от 0 до
100, знак процента не нужен), округлив до двух знаков.

In [15]:
count = data['Pclass'].count()
fclass = data['Pclass'].value_counts()[1]

print(round(fclass / count * 100, 2))

24.24


### Задача 4

Какого возраста были пассажиры? Посчитайте среднее и медиану возраста пассажиров. В качестве ответа приведите два числа через пробел.

In [16]:
count = data['Age'].count()
average = round(data['Age'].sum() / count, 2)
median =  data['Age'].median()

print(average)
print(median)

29.7
28.0


### Задача 5

Коррелируют ли число братьев/сестер с числом родителей/детей?
Посчитайте корреляцию Пирсона между признаками SibSp и Parch.

In [17]:
print(round(data['SibSp'].corr(data['Parch']),2))

0.41


### Задача 6

Какое самое популярное женское имя на корабле? Извлеките из
полного имени пассажира (колонка Name) его личное имя (First
Name). Это задание — типичный пример того, с чем сталкивается специалист по анализу данных. Данные очень разнородные и
шумные, но из них требуется извлечь необходимую информацию.
Попробуйте вручную разобрать несколько значений столбца Name
и выработать правило для извлечения имен, а также разделения
их на женские и мужские.

In [18]:
rows = data.loc[data['Sex'] == 'female']
rows

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C
...,...,...,...,...,...,...,...,...,...,...,...
881,1,2,"Shelley, Mrs. William (Imanita Parrish Hall)",female,25.0,0,1,230433,26.0000,,S
883,0,3,"Dahlberg, Miss. Gerda Ulrika",female,22.0,0,0,7552,10.5167,,S
886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.1250,,Q
888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S


In [19]:
names = rows['Name'].values.tolist()

In [20]:
first_names = []

for name in names:
    
    if 'Mrs' in name:
        if '(' in name:
            first_names.append(name.split('(')[1].split(' ')[0])
        else:
            first_names.append(name.split('Mrs. ')[-1])
        
        
    if 'Miss' in name:
        first_names.append(name.split('Miss. ')[1].split(' ')[0])

print(max(set(first_names), key = first_names.count))

Anna


# Важность признаков

В библиотеке scikit-learn решающие деревья реализованы в классах sklearn.tree.DecisionTreeСlassifier (для классификации) и sklearn.tree.DecisionTreeRegressor (для регрессии). Обучение модели производится с помощью функции fit.

Пример использования:

In [21]:
import numpy as np
from sklearn.tree import DecisionTreeClassifier

In [22]:
X = np.array([[1, 2], [3, 4], [5, 6]])
y = np.array([0, 1, 0])
clf = DecisionTreeClassifier()
clf.fit(X, y)

DecisionTreeClassifier()

In [23]:
# Проверка важности признаков
importances = clf.feature_importances_
importances

array([0., 1.])

In [24]:
# Проверка, является ли число nan’ом
np.isnan(X)

array([[False, False],
       [False, False],
       [False, False]])

## Задание

1. Загрузите выборку из файла titanic.csv с помощью пакета Pandas.
2. Оставьте в выборке четыре признака: класс пассажира (Pclass), цену билета (Fare), возраст пассажира (Age) и его пол (Sex).
3. Обратите внимание, что признак Sex имеет строковые значения.
4. Выделите целевую переменную — она записана в столбце Survived.
5. В данных есть пропущенные значения — например, для некоторых пассажиров неизвестен их возраст. Такие записи при чтении их в pandas принимают значение nan. Найдите все объекты, у которых есть пропущенные признаки, и удалите их из выборки.
6. Обучите решающее дерево с параметром random_state=241 и остальными параметрами по умолчанию.
7. Вычислите важности признаков и найдите два признака с наибольшей важностью. Их названия будут ответами для данной задачи (в качестве ответа укажите названия признаков через запятую без пробелов).


In [25]:
import pandas

path = 'titanic.csv'
data = pandas.read_csv(path, index_col='PassengerId')

type(data)

pandas.core.frame.DataFrame

In [26]:
data

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...
887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [27]:
X = data[['Pclass', 'Fare', 'Age', 'Sex']].to_numpy()
X = np.where(X == 'male', 0, X)
X = np.where(X == 'female', 1, X)

W = np.nonzero(np.isnan(X.astype(np.float)))
W

Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  W = np.nonzero(np.isnan(X.astype(np.float)))


(array([  5,  17,  19,  26,  28,  29,  31,  32,  36,  42,  45,  46,  47,
         48,  55,  64,  65,  76,  77,  82,  87,  95, 101, 107, 109, 121,
        126, 128, 140, 154, 158, 159, 166, 168, 176, 180, 181, 185, 186,
        196, 198, 201, 214, 223, 229, 235, 240, 241, 250, 256, 260, 264,
        270, 274, 277, 284, 295, 298, 300, 301, 303, 304, 306, 324, 330,
        334, 335, 347, 351, 354, 358, 359, 364, 367, 368, 375, 384, 388,
        409, 410, 411, 413, 415, 420, 425, 428, 431, 444, 451, 454, 457,
        459, 464, 466, 468, 470, 475, 481, 485, 490, 495, 497, 502, 507,
        511, 517, 522, 524, 527, 531, 533, 538, 547, 552, 557, 560, 563,
        564, 568, 573, 578, 584, 589, 593, 596, 598, 601, 602, 611, 612,
        613, 629, 633, 639, 643, 648, 650, 653, 656, 667, 669, 674, 680,
        692, 697, 709, 711, 718, 727, 732, 738, 739, 740, 760, 766, 768,
        773, 776, 778, 783, 790, 792, 793, 815, 825, 826, 828, 832, 837,
        839, 846, 849, 859, 863, 868, 878, 888], dt

In [28]:
X = np.delete(X, W[0], 0)
X[5]

array([1, 51.8625, 54.0, 0], dtype=object)

In [29]:
Y = np.delete(data['Survived'].to_numpy(), W[0], 0)
Y

array([0, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 1, 1, 0,
       1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 1, 1, 0, 1, 0, 1,
       0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 1, 0, 1, 1,
       0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0,
       0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0,
       0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 1, 0, 1,
       1, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 1, 0, 0, 1, 1, 0, 1,
       0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0,
       0, 1, 1, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1, 1,
       0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 1,
       0, 1, 1, 0, 1, 1, 1, 0, 0, 0, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 1,
       1, 1, 0, 0, 0, 0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0,
       1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 1,

In [30]:
clf = DecisionTreeClassifier(random_state=241)
clf.fit(X, Y)

DecisionTreeClassifier(random_state=241)

In [31]:
importances = clf.feature_importances_
importances

array([0.14751816, 0.29538468, 0.25658495, 0.30051221])