# Полезные ссылки

- $\href{https://github.com/jupyter/jupyter/wiki/A-gallery-of-interesting-Jupyter-Notebooks}{\text{Коллекция интересных IPython-ноутбуков}}$

- Лекции $\href{https://github.com/jrjohansson/scientific-python-lectures#online-read-only-versions}{\text{Scientific Python}}$

- $\href{https://nbviewer.jupyter.org/gist/rpmuller/5920182}{\text{A Crash Course in Python for Scientists}}$

- $\href{https://www.learndatasci.com/free-data-science-books/}{\text{100+ Free Data Science Books}}$

# Работа с векторами и матрицами в NumPy

In [1]:
import numpy as np

__Генерация случайной матрицы__

Сгенерируйте матрицу, состоящую из $1000$ строк и $50$ столбцов, элементы которой являются случайными из нормального распределения $N(1,100)$.

In [9]:
X = np.random.normal(loc=1, scale=10, size=(1000, 50))

__Нормировка матрицы__

Произведите нормировку матрицы из предыдущего задания: вычтите из каждого столбца его среднее значение, а затем поделите на его стандартное отклонение.

Первый параметр — матрица, для которой производятся вычисления. Также полезным будет параметр axis, который указывает, по какому измерению вычисляются среднее и стандартное отклонение (если $axis=0$, то по столбцам, если $axis=1$, то по строкам; если его не указывать, то данные величины будут вычислены по всей матрице).

In [11]:
m = np.mean(X, axis=0)
std = np.std(X, axis=0)
X_norm = (X -  m) / std

__Операции над элементами матрицы__

Выведите для заданной матрицы номера строк, сумма элементов в которых превосходит 10.

К матрицам можно применять логические операции, которые будут применяться поэлементно. Соответственно, результатом такой операции будет матрица такого же размера, в ячейках которой будет записано либо $True$, либо $False$. Индексы элементов со значением $True$ можно получить с помощью функции $np.nonzero$.

In [12]:
Z = np.array([[4, 5, 0], 
             [1, 9, 3],              
             [5, 1, 1],
             [3, 3, 3], 
             [9, 9, 9], 
             [4, 7, 1]])

In [14]:
r = np.sum(Z, axis=1) > 10
print(r)

[False  True False False  True  True]


In [19]:
idx = np.nonzero(r)
print(idx)

(array([1, 4, 5]),)


__Объединение матриц__

Сгенерируйте две единичные матрицы (т.е. с единицами на диагонали) размера $3\times3$. Соедините две матрицы в одну размера $6\times3$.

In [23]:
A = np.eye(3)
B = np.eye(3)
AB_v = np.vstack((A, B)) # вертикальная стыковка
AB_h = np.hstack((A, B)) # горизонтальная стыкова
print(AB_v, AB_h, sep='\n') 

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]
 [1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]
[[1. 0. 0. 1. 0. 0.]
 [0. 1. 0. 0. 1. 0.]
 [0. 0. 1. 0. 0. 1.]]


# Предобработка данных в Pandas

In [27]:
import pandas
data = pandas.read_csv('data/titanic.csv', index_col='PassengerId')
data.head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


__1 Вопрос__

Какое количество мужчин и женщин ехало на корабле? В качестве ответа приведите два числа через пробел.

In [44]:
men = np.sum(data.Sex == 'male')
women = np.sum(data.Sex == 'female')
print(data.Sex.unique())
print(data.size, men, women, men + women == data.shape[0])
with open('answers/1_2_ans_1.txt', 'w') as f:
    f.write(str(men) + ' ' + str(women))

['male' 'female']
9801 577 314 True


__2 Вопрос__

Какой части пассажиров удалось выжить? Посчитайте долю выживших пассажиров. Ответ приведите в процентах (число в интервале от $0$ до $100$, знак процента не нужен), округлив до двух знаков.

In [42]:
share = np.sum(data.Survived == 1) / data.shape[0] * 100
print(round(share, 2), '{:.2f}'.format(share))
with open('answers/1_2_ans_2.txt', 'w') as f:
    f.write(str(round(share, 2)))

38.38 38.38


__3 Вопрос__

Какую долю пассажиры первого класса составляли среди всех пассажиров? Ответ приведите в процентах (число в интервале от $0$ до $100$, знак процента не нужен), округлив до двух знаков.

In [43]:
share_2 = np.sum(data.Pclass == 1) / data.shape[0] * 100
print(round(share_2, 2), '{:.2f}'.format(share_2))
with open('answers/1_2_ans_3.txt', 'w') as f:
    f.write(str(round(share_2, 2)))

24.24 24.24


__4 Вопрос__

Какого возраста были пассажиры? Посчитайте среднее и медиану возраста пассажиров. В качестве ответа приведите два числа через пробел.

In [54]:
mean = np.mean(data.Age)
median = np.nanmedian(data.Age)
print(mean, median)
with open('answers/1_2_ans_4.txt', 'w') as f:
    f.write(str(mean) + ' ' + str(median))

29.69911764705882 28.0


__5 Вопрос__

Коррелируют ли число братьев/сестер с числом родителей/детей? Посчитайте корреляцию Пирсона между признаками SibSp и Parch.

In [116]:
corr = data.SibSp.corr(data.Parch)
print(corr)
with open('answers/1_2_ans_5.txt', 'w') as f:
    f.write(str(corr))

0.41483769862015557


__6 Вопрос__

Какое самое популярное женское имя на корабле? Извлеките из полного имени пассажира (колонка Name) его личное имя (First Name). Это задание — типичный пример того, с чем сталкивает- ся специалист по анализу данных. Данные очень разнородные и шумные, но из них требуется извлечь необходимую информацию. Попробуйте вручную разобрать несколько значений столбца Name и выработать правило для извлечения имен, а также разделения их на женские и мужские.

In [117]:
def clean_name(name):
 
    # Первое слово до запятой - фамилия
    s = re.findall('[^,]+, (.*)', name)
    if s:
        name = s[0]

    # Если есть скобки - то имя пассажира в них
    s = re.findall('\(([^)]+)\)', name)
    if s:
        name = s[0]
    # Удаляем обращения
    name = re.sub('(Miss\. |Mrs\. |Ms\. |Mme\.)', '', name)
    # Берем первое оставшееся слово и удаляем кавычки
    name = name.split(' ')[0].replace('"', '')
    return name

names = data[data['Sex'] == 'female']['Name'].map(clean_name)
name_counts = names.value_counts()
name = name_counts.head(1).index.values[0]

print(name)

with open('answers/1_2_ans_6.txt', 'w') as f:
    f.write(name)

Anna
