# Работа с векторами и матрицами в NumPy

In [3]:
import numpy as np

### Генерация случайной матрицы

Сгенерируйте матрицу, состоящую из 1000 строк и 50 столбцов, элементы которой являются случайными из нормального распределения N(1,100).

Функция для генерации чисел из нормального распределения: np.random.normal

Параметры:

    loc: среднее нормального распределения (в нашем случае 1)

    scale: стандартное отклонение нормального распределения (в нашем случае 10)

    size: размер матрицы (в нашем случае (1000, 50))

In [4]:
X = np.random.normal(loc=1, scale=10, size=(1000, 50))
print(X)

[[  3.1486155   -3.19416335  -6.35220067 ... -12.71448587  22.3767252
    5.60073189]
 [  1.47663806   2.19493288  -9.57916973 ...  13.62156618   3.09905588
  -11.09650915]
 [  5.75655775   3.44402618  -4.86228881 ...  -0.38260463  13.53712157
    8.29209598]
 ...
 [-10.32156373   1.66681766   9.16305482 ...   3.04014334   5.11876838
    3.65993615]
 [ -0.46985456   0.58295937  -8.94693053 ...  12.37568827  10.59173272
    3.33683372]
 [ -3.80873638   0.20679442  -6.66795959 ...  -6.37487552   4.18991583
    4.76762774]]


### Нормировка матрицы

Произведите нормировку матрицы из предыдущего задания: вычтите из каждого столбца его среднее значение, а затем поделите на его стандартное отклонение.

Функция для вычисления среднего: np.mean

Функция для вычисления стандартного отклонения: np.std

Первый параметр — матрица, для которой производятся вычисления. Также полезным будет параметр axis, который указывает, по какому измерению вычисляются среднее и стандартное отклонение (если axis=0, то по столбцам, если axis=1, то по строкам; если его не указывать, то данные величины будут вычислены по всей матрице).

In [7]:
m = np.mean(X, axis=0)
std = np.std(X, axis=0)
X_norm = ((X - m)  / std)
print(X_norm)

[[ 0.18339373 -0.44684812 -0.79445052 ... -1.47371214  2.20764484
   0.46360617]
 [ 0.0178225   0.08952229 -1.13425657 ...  1.29488007  0.2465452
  -1.26585603]
 [ 0.44165092  0.21384308 -0.63755994 ... -0.17731622  1.30840006
   0.74237153]
 ...
 [-1.15052025  0.0369596   0.83933572 ...  0.18250207  0.4520087
   0.26258297]
 [-0.17493319 -0.07091554 -1.06768057 ...  1.16390646  1.00876835
   0.22911675]
 [-0.50557327 -0.10835479 -0.82770054 ... -0.80725706  0.35751738
   0.37731514]]


### Операции над элементами матрицы

Выведите для заданной матрицы номера строк, сумма элементов в которых превосходит 10.

Функция для подсчета суммы: np.sum

Аргументы аналогичны функциям np.mean и np.std.

К матрицам можно применять логические операции, которые будут применяться поэлементно. Соответственно, результатом такой операции будет матрица такого же размера, в ячейках которой будет записано либо True, либо False. Индексы элементов со значением True можно получить с помощью функции np.nonzero.

In [11]:
Z = np.array([[4, 5, 0], 
             [1, 9, 3],              
             [5, 1, 1],
             [3, 3, 3], 
             [9, 9, 9], 
             [4, 7, 1]])

r = np.sum(Z, axis=1)
print(np.nonzero(r > 10))

(array([1, 4, 5]),)


### Объединение матриц

Сгенерируйте две единичные матрицы (т.е. с единицами на диагонали) размера 3x3. Соедините две матрицы в одну размера 6x3.

Функция для генерации единичной матрицы: np.eye

Аргумент: число строк (или, что эквивалентно, столбцов).

Функция для вертикальной стыковки матриц: np.vstack((A, B))

In [12]:
A = np.eye(3)
B = np.eye(3)
print(A)
print(B)

AB = np.vstack((A, B))
print(AB)

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]
 [1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


In [75]:
import pandas
data = pandas.read_csv('titanic.csv', index_col='PassengerId')

In [21]:
data[:10]

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


In [22]:
data.head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [23]:
data['Pclass']

PassengerId
1      3
2      1
3      3
4      1
5      3
      ..
887    2
888    1
889    3
890    1
891    3
Name: Pclass, Length: 891, dtype: int64

In [24]:
data['Pclass'].value_counts()

3    491
1    216
2    184
Name: Pclass, dtype: int64

    1. Какое количество мужчин и женщин ехало на корабле? В качестве ответа приведите два числа через пробел.

    2. Какой части пассажиров удалось выжить? Посчитайте долю выживших пассажиров. Ответ приведите в процентах (число в интервале от 0 до 100, знак процента не нужен), округлив до двух знаков.

    3. Какую долю пассажиры первого класса составляли среди всех пассажиров? Ответ приведите в процентах (число в интервале от 0 до 100, знак процента не нужен), округлив до двух знаков.

    4. Какого возраста были пассажиры? Посчитайте среднее и медиану возраста пассажиров. В качестве ответа приведите два числа через пробел.

    5. Коррелируют ли число братьев/сестер/супругов с числом родителей/детей? Посчитайте корреляцию Пирсона между признаками SibSp и Parch.

    6. Какое самое популярное женское имя на корабле? Извлеките из полного имени пассажира (колонка Name) его личное имя (First Name). Это задание — типичный пример того, с чем сталкивается специалист по анализу данных. Данные очень разнородные и шумные, но из них требуется извлечь необходимую информацию. Попробуйте вручную разобрать несколько значений столбца Name и выработать правило для извлечения имен, а также разделения их на женские и мужские.

Если ответом является нецелое число, то целую и дробную часть необходимо разграничивать точкой, например, 0.42. При необходимости округляйте дробную часть до двух знаков. 

Ответ на каждое задание — текстовый файл, содержащий ответ в первой строчке. Обратите внимание, что отправляемые файлы не должны содержать перевод строки в конце. Данный нюанс является ограничением платформы Coursera. Мы работаем над тем, чтобы убрать это ограничение.

In [28]:
data.describe()

Unnamed: 0,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,714.0,891.0,891.0,891.0
mean,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,0.0,1.0,0.42,0.0,0.0,0.0
25%,0.0,2.0,20.125,0.0,0.0,7.9104
50%,0.0,3.0,28.0,0.0,0.0,14.4542
75%,1.0,3.0,38.0,1.0,0.0,31.0
max,1.0,3.0,80.0,8.0,6.0,512.3292


In [117]:
answer = data['Sex'].value_counts()
answer
# answer = f'{answer[0]} {answer[1]}'

# print(answer)
# with open('lab1_1.txt', 'w') as outfile:
#     outfile.write(answer)

male      577
female    314
Name: Sex, dtype: int64

In [25]:
all = data['Survived']
sur = all[all == 1]

answer = str(round(sur.count() / all.shape[0] * 100, 2))

print(answer)
with open('lab1_2.txt', 'w') as outfile:
    outfile.write(answer)

38.38


In [29]:
all = data['Pclass']
class1 = all[all == 1]

answer = str(round(class1.count() / all.shape[0] * 100, 2))

print(answer)
with open('lab1_3.txt', 'w') as outfile:
    outfile.write(answer)

24.24


In [34]:
all = data['Age']
answer = f'{round(all.mean(), 2)} {round(all.median(), 2)}'

print(answer)
with open('lab1_4.txt', 'w') as outfile:
    outfile.write(answer)

29.7 28.0


In [11]:
answer = f"{round(data['SibSp'].corr(data['Parch']), 2)}"
print(answer)
with open('lab1_5.txt', 'w') as outfile:
    outfile.write(answer)

0.41


6. Какое самое популярное женское имя на корабле? Извлеките из полного имени пассажира (колонка Name) его личное имя (First Name).

Попробуйте вручную разобрать несколько значений столбца Name и выработать правило для извлечения имен, а также разделения их на женские и мужские.

In [119]:
import re
#names = data['Name'][data['Sex'] == 'female']


def f(x):
    n = re.search("(Miss. (\S*))|(Mrs. (\S*))|(Ms. (\S*))|(Dr. (\S*))", x)    
    n = "" if n is None else n.group(0)
    n = re.sub("(Miss.)|(Mrs.)|(Ms.)|(Dr.)", "", n)
    return n.strip()

fem = data[data['Sex'] == 'female']

data['FirstName'] = data['Name'][data['Sex'] == 'female'].apply(f)

print(data[['FirstName', 'Name']][(data['Sex'] == 'female') & (data['FirstName'] == "")])
print(data['FirstName'].value_counts())
answer = data['FirstName'].value_counts().index[0]

print(answer)
with open('lab1_6.txt', 'w') as outfile:
    outfile.write(answer)

            FirstName                                               Name
PassengerId                                                             
370                                        Aubart, Mme. Leontine Pauline
557                    Duff Gordon, Lady. (Lucille Christiana Sutherl...
642                                                 Sagesser, Mlle. Emma
711                     Mayne, Mlle. Berthe Antonine ("Mrs de Villiers")
760                    Rothes, the Countess. of (Lucy Noel Martha Dye...
William     13
Anna         9
Mary         9
John         6
Margaret     6
            ..
Aloisia      1
Nora         1
Victor       1
Laura        1
Gerda        1
Name: FirstName, Length: 199, dtype: int64
William


In [67]:
re.search("(Miss. (\S*))|(Mrs. (\S*))", "jhjhj Mrs. TTT").group(0)

'Mrs. '