# Как выжить на Титанике

---

Эта тетрадка научит тебя использовать numpy, pandas, строить графики в matplotlib и выживать при кораблекрушении.

Начнём!


* Клетки можно просто выполнять (выделить и ctrl+enter или shift+enter - чтобы сразу выделить следующую)
* По надобности их можно создавать ("плюсик" в панели наверху)
* В некоторых клетках нужно дописать код, что именно - пишется в комментариях рядом

## Знакомство с NumPy
Библиотека NumPy -- быстрая библиотека для математики в Python, основная структура данных -- массив numpy.array:

In [1]:
# подключение модуля numpy
import numpy

# основная структура данных - массив
a = numpy.array([1, 2, 3, 4, 5])
b = numpy.array([0.1, 0.2, 0.3, 0.4, 0.5])
print("a =", a, " type:", a.dtype)
print("b =", b, " type:", b.dtype)

a = [1 2 3 4 5]  type: int64
b = [ 0.1  0.2  0.3  0.4  0.5]  type: float64


Арифметические операции применяются поэлементно:

In [None]:
# математические операции считаются для каждого элемента массива
print("a+1 =", a + 1)
print("a*2 =", a * 2)
# если в операции участвуют 2 массива, операции считаются для соответствующих пар
print("a+b =", a + b)
print("a*b =", a * b)

Логические операции тоже применяются к каждому элементу массива. Возвращаемое значение -- массив, содержащий результаты вычислений для каждого элемента:

In [None]:
print("a =", a)
print("a==2:", a == 2)
print("a>2:", a > 2)

print("\nnumpy.logical_not(a>2):", numpy.logical_not(a > 2))
print("numpy.logical_and(a>2, b>0):", numpy.logical_and(a > 2, b > 0))
print("numpy.logical_or(a>4, b<0.5) =", numpy.logical_or(a > 2, b < 0.5))

print("\nили проще")
print("~(a>2) = ", ~(a > 2))  # как logical_not
print("(a>2) & (b>0) = ", (a > 2) & (b > 0)) # как logical_and
print("(a>2) | (b<0.5) = ", (a > 2) | (b < 0.5)) # как logical_or

Массивы с логическими значениями удобно использовать для выбора элементов массива, удовлетворяющих какому-нибудь условию:

In [None]:
print("a =", a)
print("a>2:", a > 2)
# индексация - выбираем элементы из массива
print("a[a>2] =", a[a > 2])
# где в массиве лежат True (кортеж, в котором лежит массив с индексами)
print("numpy.where(a>2) =", numpy.where(a > 2))
print("a[numpy.where(a>2)] =", a[numpy.where(a > 2)])

### А ещё...
В NumPy очень много полезных и быстрых операций, Google в помощь!

In [None]:
print("numpy.sum(a) = ", numpy.sum(a))
print("numpy.min(a) = ", numpy.min(a))
print("numpy.argmin(a) = ", numpy.argmin(a)) # индекс минимального элемента
print("numpy.unique(['male','male','female','female','male']) =", numpy.unique(['male', 'male', 'female', 'female', 'male']))
# и ещё много  всего ...

### Немного тренировки
---
Выполни операции, перечисленные ниже:

In [None]:
print("Разность между a и b:", None) #<твой код>
print("Квадраты элементов b:", None) #<твой код>
print("Половины произведений элементов массивов a и b:", None) #<твой код>
print("Частное разности элементов a и единицы с квадратами b:", None)#<твой код>

In [None]:
print("Индексы элементов b, которые больше 0.25:", None) #<твой код>
print("Элементы a, квадрат которых меньше 16:", None) #<твой код>
print("Элементы массива a, стоящие на местах, где элементы b>0.25:", None) #<твой код>

In [None]:
print("Максимальный элемент b:", None) #<твой код>
print("Индекс максимального элемента b:", None) #<твой код>
print("Арифметическоее среднее массива b:", None) #<твой код>

## Бонус по NumPy: насколько она быстрая, Гарри?
Испытаем numpy на скорость
* создадим 2 массива по 10^6 элементов
 * первый - числа от 0 до 1 000 000
 * второй - числа от 99 до 1 000 099
* посчитаем:
 * поэлементную сумму
 * поэлементное произведение
 * корень квадратный элементов первого массива
 * сумму всех элементов первого массива (одно число)
 
* Сделаем это 3-мя способами
 * чистый python и списки
 * начинаем в python, преобразуем в numpy и 



In [None]:
%%time
# эта штука считает время выполнения КЛЕТКИ (должна быть на первой строчке клетки)
# время печатается в конце (точное время - total)

# без numpy, чистый python
arr_1 = range(1000000 + 1)
arr_2 = range(99, 1000099 + 1)

a_sum = []
a_prod = []
sqrt_a1 = []
for i in range(len(arr_1)):
    a_sum.append(arr_1[i] + arr_2[i])
    a_prod.append(arr_1[i] * arr_2[i])
    a_sum.append(arr_1[i] ** 0.5)
    
# сумма всех элементов arr_1
arr_1_sum = sum(arr_1)

In [None]:
%%time

# с numpy, преобразуя из list
arr_1 = range(1000000 + 1)
arr_2 = range(99, 1000099 + 1)

arr_1, arr_2 = numpy.array(arr_1), numpy.array(arr_2)

a_sum = arr_1 + arr_2
a_prod = arr_1 * arr_2
sqrt_a1 = arr_1 ** 0.5

In [None]:
%%time
# чистый numpy
arr_1 = numpy.arange(1000000 + 1)
arr_2 = numpy.arange(99, 1000099 + 1)

a_sum = arr_1 + arr_2
a_prod = arr_1 * arr_2
sqrt_a1 = arr_1 ** 0.5

## Pandas

![](https://filearmy.s3.amazonaws.com/2017/03/03/25b10be.jpg)

Загрузим данные о пассажирах Титаника из файла train.csv и выведем первые строки таблицы:

In [2]:
# подключим модуль Pandas
# он нужен, чтобы работать с данными
import pandas

# считаем данные
data = pandas.DataFrame.from_csv("train.csv")

In [3]:
# данные - таблица, двумерный массив
data[:5]

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### Описание данных
* Survived - выжил ли человек
* Pclass - класс, которым человек путешествовал
* Name - имя (строка)
* Sex - пол, а не то, что ты подумал - строка male/female
* Age - возраст
* Sibsp - число родственников на корабле
* Parch - число родителей на корабле
* Ticket - билет (строка-шифр)
* Fare - сколько стоил билет
* Cabin - номер каюты, если есть
* Embarked - порт, в котором человек зашёл на борт (C = Cherbourg; Q = Queenstown; S = Southampton)

В некоторых колонках встречается NaN - значит, что у данного человека данная колонка неизвестна (квест - найти их глазами в данных выше)

---

Вывести размеры таблицы можно с помощью функции len (получим количество строк) и shape (получим кортеж с количеством строк и столбцов):

In [4]:
# размеры таблицы
print("len(data) =", len(data))
print("data.shape =", data.shape)

len(data) = 891
data.shape = (891, 11)


### Индексация в Pandas

In [1]:
# вот так можно получить 4-ую строку таблицы, считая с нуля
print(data.iloc[4, :])

In [2]:
# первые 5 строк
print(data[:5])

In [3]:
# так можно получить столбец
print(data["Name"])
# или даже так:
print(data.Name)

In [None]:
# несколько колонок, несколько строк
data[["Sex", "Pclass"]][5:10]

Как и в NumPy, в Pandas много операций, облегчающих жизнь:

In [None]:
print("Максимальная цена на билет:", data.Fare.max())

## Теперь сам
* выведи данные о 1, 13, 666 и последнем пассажире. Кто из них выжил?


* выведи данные о столбике "Survived" - выжившие.
* напиши программу, которая считает, сколько всего людей выжило и сколько всего людей было на корабле


! Обрати внимание, что в данных может быть мусор (NaN, пустые значения) ! 

Их можно найти и удалить. Подумай (или погугли), как это сделать в питоне

In [None]:
# 1, 13, 666 и последний из пассажиров

In [None]:
# "Survived"

In [None]:
# программа

In [None]:
# бонус - посчитай средний возраст людей на корабле (тут точно будет NaN)

### Обработка NaN
Теперь посмотрим, как можно выбрать данные без пропущенных значений (NaN).

Например, в колонке возраст есть пропущенные значения:

In [None]:
data[["Name", "Age"]][:7]

**Задача:** хотим найти число людей с известным возрастом.

Выделим данные, в которых определённая колонка - не NaN:

In [None]:
age_is_nan = numpy.isnan(data.Age) # массив bool - является ли у данного человека возраст NaN
age_is_nan[:7]

Сохраним пассажиров с известным образом в отдельную таблицу:

In [None]:
# все люди, у которых возраст - не NaN (отдельная таблица)
data_with_age = data[numpy.logical_not(age_is_nan)]

print(len(data), "всего людей")
print(len(data_with_age), "людей с известным возрастом")

In [None]:
data_with_age[["Name", "Age"]][:7]

In [None]:
# найди пассажира с (минимальной/максимальной) стоимостью билета. Сколько он заплатил? Выжил ли он?
print(None) #<твой код>

# Сколько лет было самому (молодому\старому) пассажиру. Как его звали? Какого он пола?
print(None) #<твой код>

**Мини-квест:** найди число и долю людей с известным возрастом в 1-2 строчки с использованием numpy

*подсказка:*
- *если массив состоит из 0 и 1, то сумма элементов = количество единичек *
- *среднее значение = вероятность единички*

### Немного практики

Квесты
* 1) сколько всего классов и какие они? ("Pclass")
* 2) какая средняя стоимость билета в каждом классе?
* 3) в каком классе больше детей (< 18 лет)? 
* 4) все ли дети путешествуют с родителями?
* 5) есть ли различия в названиях билетов ("Ticket") в разных классах?

In [None]:
#<твой код>

Бонусные сайд-квесты
* 1) какие бывают порты? ("Embarked")
* 2) из какого порта больше пассажиров
* 3) в каком порту самые дорогие билеты?
* 4) в каком порту самые молодые девушки?
* 5) есть ли различия в названиях билетов ("Ticket") в разных портах?

In [None]:
#<твой код>

#### Битва полов:
* кто больше платил за билет?
* у кого больше вероятность, что он плавает с семьёй (в данных колонка "SibSp" - к-во родственников)
* кто в среднем моложе?
* кто ЧАЩЕ плавает ПЕРВЫМ классом? ("Pclass")
---
Сначала выдели в отдельные таблицы мужчин и женщин:

In [None]:
# за пол отвечает колонка "Sex", ("male", "female")

men = None #<твой код>
women = None #<твой код>

# кто с большей вероятностью выживет: мужчина или женщина?
print("P(выжил|мужчина) =", None) #<твой код>
print("P(выжил|женщина) =", None) #<твой код>

In [None]:
print("Средняя цена для мужчин:", None) #<твой код> 
print("Средняя цена для женщин:", None) #<твой код>

print("Вероятность, у мужчины на корабле семья", None) #<твой код>
print("Вероятность, у женщины на корабле семья", None) #<твой код>

print("Средний возраст мужчин:", None) #<твой код>
print("Средний возраст женщин:", None) #<твой код>

print("Вероятность плавать первым классом у мужчин:", None) #<твой код>
print("Вероятность плавать первым классом у женщин:", None) #<твой код>

## Графики и matplotlib
Как рисовать красивые картинки и издеваться над любителями MS Excel!

In [None]:
# подключение модуля matplotlib.pyplot под именем plt
import matplotlib.pyplot as plt
# чтобы графики рисовались прямо в ячейке, а не в отдельном окне
%matplotlib inline

# линии
plt.plot([0, 1, 2, 3, 4, 5], [0, 1, 4, 9, 16, 25])
# после этой функции всё уже построенное отрисуется и начнётся новый график
plt.show()
# точки
plt.scatter([0, 1, 2, 3, 4, 5], [0, 1, 4, 9, 16, 25])

In [None]:
# если не писать plt.show() между графиками, они накладываются
plt.scatter([1, 1, 2, 3], [3, 2, 2, 1], c=["red", "blue", "blue", "green"], marker="x")
plt.scatter([0, 1, 2, 3, 4, 5], [0, 1, 4, 9, 16, 25], c="black")

Посмотрим теперь распределение цен на билеты и возрастов пассажиров на Титанике.

Для этого тебе понадобится гистограмма:

In [None]:
# гистограмма
plt.hist([0, 1, 1, 1, 2, 2, 3, 3, 3, 3, 3, 4, 4, 5, 5, 5, 6, 7, 7, 8, 9, 10])
plt.show()

plt.hist([0, 1, 1, 1, 2, 2, 3, 3, 3, 3, 3, 4, 4, 5, 5, 5, 6, 7, 7, 8, 9, 10], bins=5)

Построй гистограмму возрастов пассажиров и цен на билеты (*в качестве бонуса: узнай, как строить 2D-гистограму возрастов И цен*):

In [None]:
#<твой код>

Построй следующий график из точек:
как цена билета зависит от возраста, причём мужчины (male) и женщины (female) выделяются разными цветами.

In [None]:
# построй график из точек x=возраст, y=цена билета
# цвет - пол

#<твой код>

## Битва с финальным боссом

При помощи интуиции, графиков и вычислений попробуй выделить по признакам группу людей,
в которой почти все выжили. 

Признаки - это выражения вида:
* [колонка] равно [значение] (пол = женский)
* [математическое выражение] >, <, >= или <=  [значение]  (возраст старше 18 лет) (количество родственников минус родителей больше 1)
* [колонка с именем] - [утверждение про имя]  (имя содержит "Mr." и длинее 5 букв)

Признаки могут использоваться через И и ИЛИ.

(и только их. НЕ, импликация, XOR, эквивалентность, штрих Шифера и стрелка Пирса идут лесом)

Например, все [старше 30 лет] И [из порта C] И ([родственников 0] ИЛИ [первый класс]) - это 4 признака

При этом:
* Чем больше выживших людей(количество, а не доля), тем лучше;
* В группе обязательно должны выжить более 80% людей;
* Желательно использовать не более 5 признаков;
 * Если нашёл более 1 такой группы - перечисли несколько;
* Гипотеза должна подтверждаться запускабельным кодом, 
 * который считает число людей и шанс выжить;
 * высший пилотаж - заправить это красивыми граффиками по теме;

Напутствие: возможно, будет полезно сначала изучить данные, посмотреть на графики и обусдить идеи, а потом бросаться лихорадочно пробовать всё подряд.

In [None]:
# предварительные вычисления графики


In [None]:
# пример
# [старше 30 лет] И [из порта C] И ([родственников 0] ИЛИ [первый класс])

data_with_age = data[~numpy.isnan(data.Age)]
# старше 30 И из порта С
age_and_port = numpy.logical_and(data_with_age.Age > 30, data_with_age.Embarked == "C")

# родственников на борту 0 ИЛИ в первом классе
sibsp_or_class = numpy.logical_or(data_with_age.SibSp == 0, data_with_age.Pclass == 1)

# всё вместе
group_indexer = numpy.logical_and(age_and_port, sibsp_or_class)

In [None]:
# итоговая группа
## замените этот код на свою группу
group = data_with_age[group_indexer]

In [None]:
print("Количество человек:", len(group))
print("Количество выживших:", len(group[group.Survived == True]))
p_survived = numpy.average(group.Survived)
print("Вероятность выжить:", p_survived)
print("Достаточно выживших:", p_survived > 0.8)

### Для самых бодрых
Если ещё не устал, аналогично выдели группы людей, где все погибли.

[руководства по библиотекам]

  * [NumPy](http://www.numpy.org/)
    - [руководство для пользователей Matlab](http://wiki.scipy.org/NumPy_for_Matlab_Users)
  * [Pandas](http://pandas.pydata.org/)
    - [пример работы с данными при помощи pandas](http://nbviewer.ipython.org/github/agconti/kaggle-titanic/blob/master/Titanic.ipynb)
  * [Matplotlib](http://matplotlib.org/index.html)
    - [pyplot](http://matplotlib.org/api/pyplot_api.html) — эмуляция функционала графопостроений в Matlab
    - [галерея примеров](http://matplotlib.org/gallery.html)
  * [SciPy](http://scipy.org/)