# Семинар по библиотеке Pandas

Библиотека Pandas - важный инструмент, с которым мы будем активно работать на курсе. Pandas $-$ это модуль для первичной обработки данных, с помощью которого можно провести простой обзор и подготовку данных к дальнейшему интеллектуальному анализу.
Основные возможности:
* удобное чтение и запись данных из многих источников, начиная от текстовых (txt, csv, json, html), бинарных (Excel, Open Document, Msgpack, HDF5) и SQL форматов (PostgreSQL, MySQL, SQLite, Google BigQuery) до автоматизации обращений к популярным веб-ресурсам (Eurostat, World Bank, Nasdaq, MOEX, ...) с базовым внутренним представлением в виде датафреймов (двумерных индексированных массивов)
* удобная предобработка (убрать пропуски, переформатировать, объединить, переиндексировать и сделать срез по индексу)
* слияние и конкатенация
* поиск, сортировка, выборка объектов, удовлетворяющих заданным критериям
* визуализация данных

Импорт библиотеки:

In [2]:
import pandas as pd

### Загрузка данных и создание датафреймов

__Для начал поприветствуем следующие форматы__:
* _csv_ (comma separated values), _tsv_ (tab separated values) - таблицы, записанные в текстовые файлы с простой структурой. Эти файлы можно открывать в обычном текстовом редакторе. Pandas представит эти данные в табличном формате
* _xls_ (eXceL Spreadsheet $-$ формат используемый Microsoft Office)
* _json_ (JavaScript Object Notation, используется для _сериализации_ структур данных, то есть сохранения объектов из памяти, например, вложенных списков или словарей python, в виде структуризованного текста). Json-текст представляет собой либо набор пар "ключ: значение", либо упорядоченный набор значений
* текстовые в иной специфичной для задачи форме (например, vowpal-wabbit и uci bag-of-words для <<мешка слов>>)

В pandas есть готовые функции для чтения данных во всех этих форматах.

В коммерческой практике данные в идеале хранятся в базах. Оттуда их часто читают с помощью sql-подобных запросов, но pandas также представляет более удобные интерфейсы для этого.

__Чтение из csv с помощью pandas__:
[pandas.read_csv()](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html)
У функции немало параметров, основные:
* filepath_or_buffer (перый и единственный обязательный аргумент) --- имя файла
* sep $-$ разделитель (; , \t ...)
* quotechar $-$ символ кавычек, все что внутри считается за строку (разделители также могут входить в эту строку; ' " ...)
* names $-$ список названий колонок
* header $-$ номер строки файла (с 0), которую нужно считать заголовком
* dtype $-$ словарь, сопоставляющий именам колонок типы данных в них
* na_values $-$ строка/список/словарь (ключи $-$ названия колонок) строковых значений, которые нужно считать пропуском.

По умолчанию names=None и header=0, то есть названия колонок берутся из первой строки файла. Можно передать названия через names. Если вы не хотите давать названия, укажите header=None, тогда названия будут даны автоматически индексами с 0. Учтите, что названия нужны при дальнейшей работе с данными (если вы только не собираетесь взять оттуда только numpy-матрицу; в этом случае они не понадобятся). Следите за длиной списка названий, он должен совпадать с реальным числом колонок в файле (а в противном случае вы получите ошибки)! Чтобы заменить заголовки, записанные в файле, нужно установить header=0 и передать names.

В функцию pd.read\_csv можно передавать как путь к файлу, хранящемуся на компьютере, так и ссылку на файл в Интернете.

Для чтения xls: [pandas.read_excel](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_excel.html)

Для чтения sql: [pandas.read_sql](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_sql.html)


In [None]:
pandas.read_csv(name, na_values{"Имя": "-1"})

Считывание данных:

In [3]:
data = pd.read_csv("https://raw.githubusercontent.com/iad34/seminars/master/materials/data_sem1.csv",
                   sep=";")

Сегодня мы будем работать на сверхпопулярном примере данных по кораблекрушению Титаника: он содержит информацию о пассажирах корабля, включая их демографические характеристики и информацию о выживании, которую обычно пытаются "предсказать".

Посмотреть первые строки:

In [13]:
data

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,Braund; Mr. Owen Harris,male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,Cumings; Mrs. John Bradley (Florence Briggs Th...,female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,Heikkinen; Miss. Laina,female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,Futrelle; Mrs. Jacques Heath (Lily May Peel),female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,Allen; Mr. William Henry,male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,Montvila; Rev. Juozas,male,27.0,0,0,211536,13.0000,,S
887,888,1,1,Graham; Miss. Margaret Edith,female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston; Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,Behr; Mr. Karl Howell,male,26.0,0,0,111369,30.0000,C148,C


In [5]:
type(data)

pandas.core.frame.DataFrame

Переменная, которую возвращает функция чтения, ссылается на _датафрейм_; это основная структура данных в pandas. Его можно создать и вручную:

In [18]:
df = pd.DataFrame({'AAA' : [4,5,6,7], 'BBB' : [10,20,30,40], 'CCC' : [100,50,-30,-50]})
df

Unnamed: 0,AAA,BBB,CCC
0,4,10,100
1,5,20,50
2,6,30,-30
3,7,40,-50


### Работа со строками и столбцами датафрейма

Датафрейм - это таблица. Названия строк:

In [19]:
data.index

RangeIndex(start=0, stop=891, step=1)

*Названия* столбов:

In [None]:
data.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [20]:
data

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,Braund; Mr. Owen Harris,male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,Cumings; Mrs. John Bradley (Florence Briggs Th...,female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,Heikkinen; Miss. Laina,female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,Futrelle; Mrs. Jacques Heath (Lily May Peel),female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,Allen; Mr. William Henry,male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,Montvila; Rev. Juozas,male,27.0,0,0,211536,13.0000,,S
887,888,1,1,Graham; Miss. Margaret Edith,female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston; Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,Behr; Mr. Karl Howell,male,26.0,0,0,111369,30.0000,C148,C


In [28]:
data['Ticket']

0             A/5 21171
1              PC 17599
2      STON/O2. 3101282
3                113803
4                373450
             ...       
886              211536
887              112053
888          W./C. 6607
889              111369
890              370376
Name: Ticket, Length: 891, dtype: object

Полезный функционал:
* параметр df.dtypes $-$ типы колонок
* метод [df.fillna(value)](http://pandas.pydata.org/pandas-docs/version/0.17.1/generated/pandas.DataFrame.fillna.html), value $-$ на что заменить (скаляр или словарь с ключами-названиями колонок)
* методы df.head([N]) и df.tail([N]) $-$ показать N (необязательный аргумент) первых или последних значений
* параметры df.index, df.columns и df.values $-$ соответственно индексы строк датафрейма, названия колонок и np.array, составленный из значений датафрейма
* метод df.T $-$ транспонировать данные (поменять строки и столбцы местами)
* сортировка данных по индексу (по названиям строк) и по значениям колонки, например df.sort_index(axis=1, ascending=False) и df.sort_values(by='B')
* метод df.copy() $-$ копировать датафрейм

Все структуры данных, показываемые и возвращаемые pandas, имеют тип, разработанный для pandas (а не стандартный для python список или словарь). Все эти типы имеют удобный интерфейс обращения к своим элементам (индексация, slicing), но иногда кажутся непривычными. Например, df[smth], как указано выше, должен выдать колонку, имеющую название smth (если она существует в датафрейме).

В датафрейме могут храниться данные разных типов (главное, чтобы тип был один и тот же внутри колонки), например float, int, string.

Выбор нескольких столбцов:

In [33]:
data[["Age", "Sex", "Cabin"]].head(10)

Unnamed: 0,Age,Sex,Cabin
0,22.0,male,
1,38.0,female,C85
2,26.0,female,
3,35.0,female,C123
4,35.0,male,
5,,unknown,
6,54.0,male,E46
7,2.0,male,
8,27.0,female,
9,14.0,female,


In [39]:
data[data.index == 0]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,Braund; Mr. Owen Harris,male,22.0,1,0,A/5 21171,7.25,,S


В машинном обучении библиотеку удобно использовать со следующей интерпретацией: по строкам датафрейма находятся объекты, по столбцам - признаки и целевая переменная. В нашем датафрейме целевая переменная задана в столбце Survived. Если мы бы хотели выделить часть датафрейма без этого столбца, мы бы использовали такой код:

In [47]:
data.drop("Survived", axis=1).head()

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,3,Braund; Mr. Owen Harris,male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,Cumings; Mrs. John Bradley (Florence Briggs Th...,female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,3,Heikkinen; Miss. Laina,female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,Futrelle; Mrs. Jacques Heath (Lily May Peel),female,35.0,1,0,113803,53.1,C123,S
4,5,3,Allen; Mr. William Henry,male,35.0,0,0,373450,8.05,,S


Обратите внимание, что столбец не удалился из датафрейма навсегда. Результат нашей операции оказался только в выводе, и если бы мы хотели его сохранить, мы должны были бы присвоить результат операции новой переменной.

Индексация по строкам:

In [53]:
data2 = data.iloc[data.index % 2 == 0].head(5)
data2

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,Braund; Mr. Owen Harris,male,22.0,1,0,A/5 21171,7.25,,S
2,3,1,3,Heikkinen; Miss. Laina,female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,5,0,3,Allen; Mr. William Henry,male,35.0,0,0,373450,8.05,,S
6,7,0,1,McCarthy; Mr. Timothy J,male,54.0,0,0,17463,51.8625,E46,S
8,9,1,3,Johnson; Mrs. Oscar W (Elisabeth Vilhelmina Berg),female,27.0,0,2,347742,11.1333,,S


Использование столбца Name для задания названий строк (index):

In [54]:
data.set_index(data["Name"], inplace=True)

In [56]:
data.head()

Unnamed: 0_level_0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Braund; Mr. Owen Harris,1,0,3,Braund; Mr. Owen Harris,male,22.0,1,0,A/5 21171,7.25,,S
Cumings; Mrs. John Bradley (Florence Briggs Thayer),2,1,1,Cumings; Mrs. John Bradley (Florence Briggs Th...,female,38.0,1,0,PC 17599,71.2833,C85,C
Heikkinen; Miss. Laina,3,1,3,Heikkinen; Miss. Laina,female,26.0,0,0,STON/O2. 3101282,7.925,,S
Futrelle; Mrs. Jacques Heath (Lily May Peel),4,1,1,Futrelle; Mrs. Jacques Heath (Lily May Peel),female,35.0,1,0,113803,53.1,C123,S
Allen; Mr. William Henry,5,0,3,Allen; Mr. William Henry,male,35.0,0,0,373450,8.05,,S


Тут строки индексируются с помощью Name (выделено жирным в начале каждой строки).

Считывание данных без названий колонок и придумывание своих названий колонкам:

In [57]:
data_m = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/mushroom/agaricus-lepiota.data",
                     header=None)

In [58]:
data_m

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,13,14,15,16,17,18,19,20,21,22
0,p,x,s,n,t,p,f,c,n,k,...,s,w,w,p,w,o,p,k,s,u
1,e,x,s,y,t,a,f,c,b,k,...,s,w,w,p,w,o,p,n,n,g
2,e,b,s,w,t,l,f,c,b,n,...,s,w,w,p,w,o,p,n,n,m
3,p,x,y,w,t,p,f,c,n,n,...,s,w,w,p,w,o,p,k,s,u
4,e,x,s,g,f,n,f,w,b,k,...,s,w,w,p,w,o,e,n,a,g
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8119,e,k,s,n,f,n,a,c,b,y,...,s,o,o,p,o,o,p,b,c,l
8120,e,x,s,n,f,n,a,c,b,y,...,s,o,o,p,n,o,p,b,v,l
8121,e,f,s,n,f,n,a,c,b,n,...,s,o,o,p,o,o,p,b,c,l
8122,p,k,y,n,f,y,f,c,n,b,...,k,w,w,p,w,o,e,w,v,l


In [59]:
data_m.columns = ["col"+str(i) for i in range(23)]

In [60]:
data_m.head()

Unnamed: 0,col0,col1,col2,col3,col4,col5,col6,col7,col8,col9,...,col13,col14,col15,col16,col17,col18,col19,col20,col21,col22
0,p,x,s,n,t,p,f,c,n,k,...,s,w,w,p,w,o,p,k,s,u
1,e,x,s,y,t,a,f,c,b,k,...,s,w,w,p,w,o,p,n,n,g
2,e,b,s,w,t,l,f,c,b,n,...,s,w,w,p,w,o,p,n,n,m
3,p,x,y,w,t,p,f,c,n,n,...,s,w,w,p,w,o,p,k,s,u
4,e,x,s,g,f,n,f,w,b,k,...,s,w,w,p,w,o,e,n,a,g


### Анализ и преобразование датафрейма

Основная информация по датафрейму:

In [None]:
data.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


По этим статистикам можно понять, одинаковый ли масштаб имеют признаки (например, Age измеряется от 0 до 80, а Pclass в единицах - от 1 до 3). Также можно понять, есть ли пропуски в данных (по count). Например, в графе Age есть пропуски.

Уникальные значения в столбце:

In [64]:
data['Sex'].unique()

array(['male', 'female', 'unknown'], dtype=object)

In [61]:
set(data["Sex"])

{'female', 'male', 'unknown'}

Уникальные значения в столбце с числом строк с таким значением:

In [None]:
data["Sex"].value_counts()

male       574
female     312
unknown      5
Name: Sex, dtype: int64

Перекодирование столбца с помощью функции map:

In [67]:
sex = data["Sex"]
sex.map({"male":1, "female":-1, "unknown":0}).head()

Name
Braund; Mr. Owen Harris                                1
Cumings; Mrs. John Bradley (Florence Briggs Thayer)   -1
Heikkinen; Miss. Laina                                -1
Futrelle; Mrs. Jacques Heath (Lily May Peel)          -1
Allen; Mr. William Henry                               1
Name: Sex, dtype: int64

Функция apply: применение функции поэлементно к столбцу или строке (+ создание нового столбца, потому что apply возвращает результат и никак не модифицирует датафрейм)

In [68]:
data["NewAge"] = data["Age"].apply(lambda x: x+100)

In [69]:
data.head()

Unnamed: 0_level_0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,NewAge
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
Braund; Mr. Owen Harris,1,0,3,Braund; Mr. Owen Harris,male,22.0,1,0,A/5 21171,7.25,,S,122.0
Cumings; Mrs. John Bradley (Florence Briggs Thayer),2,1,1,Cumings; Mrs. John Bradley (Florence Briggs Th...,female,38.0,1,0,PC 17599,71.2833,C85,C,138.0
Heikkinen; Miss. Laina,3,1,3,Heikkinen; Miss. Laina,female,26.0,0,0,STON/O2. 3101282,7.925,,S,126.0
Futrelle; Mrs. Jacques Heath (Lily May Peel),4,1,1,Futrelle; Mrs. Jacques Heath (Lily May Peel),female,35.0,1,0,113803,53.1,C123,S,135.0
Allen; Mr. William Henry,5,0,3,Allen; Mr. William Henry,male,35.0,0,0,373450,8.05,,S,135.0


In [None]:
data2 = data.reindex(sorted(data.columns), axis=1)
data2

Функция groupby: создание групп по значению какого-то столбца (или группы столбцов)

In [76]:
data.groupby("Pclass")['Fare'].apply(lambda x: x.mean())

Pclass
1    84.154687
2    20.662183
3    13.675550
Name: Fare, dtype: float64

Создаем столбец с фамилией:

In [77]:
data["Family"] = data["Name"].apply(lambda s: s.split(";")[0])

In [78]:
data.head(1)

Unnamed: 0_level_0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,NewAge,Family
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
Braund; Mr. Owen Harris,1,0,3,Braund; Mr. Owen Harris,male,22.0,1,0,A/5 21171,7.25,,S,122.0,Braund


Сколько человек в каждой семье (семья - множество людей с одной фамилией Family)?

In [79]:
data.groupby("Family")["Age"].count().head(20)

Family
Abbing             1
Abbott             2
Abelson            2
Adahl              1
Adams              1
Ahlin              1
Aks                1
Albimona           1
Alexander          1
Alhomaki           1
Ali                2
Allen              2
Allison            3
Allum              1
Andersen-Jensen    1
Anderson           1
Andersson          9
Andreasson         1
Andrew             1
Andrews            2
Name: Age, dtype: int64

Сколько семей, в которых больше трех человек?

In [80]:
(data.groupby("Family")["Age"].count() > 3).sum()

16

Выбор строк по условию (индексация по строкам по массиву из True и False)

In [93]:
data[(data.Age > 10) & (data.Sex == "male")]

Unnamed: 0_level_0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,NewAge,Family
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
Braund; Mr. Owen Harris,1,0,3,Braund; Mr. Owen Harris,male,22.0,1,0,A/5 21171,7.2500,,S,122.0,Braund
Allen; Mr. William Henry,5,0,3,Allen; Mr. William Henry,male,35.0,0,0,373450,8.0500,,S,135.0,Allen
McCarthy; Mr. Timothy J,7,0,1,McCarthy; Mr. Timothy J,male,54.0,0,0,17463,51.8625,E46,S,154.0,McCarthy
Saundercock; Mr. William Henry,13,0,3,Saundercock; Mr. William Henry,male,20.0,0,0,A/5. 2151,8.0500,,S,120.0,Saundercock
Fynney; Mr. Joseph J,21,0,2,Fynney; Mr. Joseph J,male,35.0,0,0,239865,26.0000,,S,135.0,Fynney
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
Banfield; Mr. Frederick James,884,0,2,Banfield; Mr. Frederick James,male,28.0,0,0,C.A./SOTON 34068,10.5000,,S,128.0,Banfield
Sutehall; Mr. Henry Jr,885,0,3,Sutehall; Mr. Henry Jr,male,25.0,0,0,SOTON/OQ 392076,7.0500,,S,125.0,Sutehall
Montvila; Rev. Juozas,887,0,2,Montvila; Rev. Juozas,male,27.0,0,0,211536,13.0000,,S,127.0,Montvila
Behr; Mr. Karl Howell,890,1,1,Behr; Mr. Karl Howell,male,26.0,0,0,111369,30.0000,C148,C,126.0,Behr


In [96]:
data.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
NewAge         177
Family           0
dtype: int64

In [94]:
data.nunique()

PassengerId    891
Survived         2
Pclass           3
Name           891
Sex              3
Age             88
SibSp            7
Parch            7
Ticket         681
Fare           248
Cabin          147
Embarked         3
NewAge          88
Family         667
dtype: int64

In [92]:
data[True, False, True]

KeyError: ignored

### Задания:

1. Какова доля семей, в которых минимальный возраст меньше 20 (семьи с детьми)?

In [None]:
# your code here

2. Какова доля выживших пассажиров из класса 3? А пассажиров из класса 1?

In [None]:
# your code here

In [None]:
# your code here

3. Сколько пассажиров выжило, а сколько - нет?

In [None]:
#your code here

4. Создайте столбец "IsChild", который равен 1, если возраст меньше 20, и 0 иначе. Для пропущенных значений поведение функции может быть произвольным.

In [None]:
# your code here

5. Какова доля выживших женщин из первого класса? А доля выживших мужчин из 3 класса?

In [None]:
# your code here