# Семинар по библиотеке Pandas

Библиотека Pandas - важная библиотека, с которой мы будем активно работать в курсе. Pandas $-$ это модуль для первичной работы с данными, с помощью которого можно проводить простой анализ данных и предобработку данных..
Основные возможности:
* удобное чтение и запись данных из csv, txt, xls, SQL databases, HDF5
* удобная работа с пропусками в данных
* поиск, сортировка, выборка объектов, удовлетворяющих заданным критериям
* возможности по соединению датасетов
* красивая визуализация

In [1]:
# импорт библиотеки
import pandas as pd

## Загрузка данных и создание датафреймов

__Наиболее популярные форматы данных (при скачивании датасета из интернета)__:
* _csv_ (comma separated file), _tsv_ (tab separated file) - таблицы, записанные в текстовые файлы с простой структурой. Эти файлы можно открывать в обычном текстовом редакторе. Pandas позволяет считывать эти данные именно в формате таблицы.
* _xls_ (eXceL Spreadsheet $-$ таблицы Microsoft)
* _json_ (JavaScript Object Notation, используется для _сериализации_ структур языка, то есть сохранения сложных объектов, например, вложенных списков или словарей python). Json-текст представляет собой либо набор пар ключ: значение, либо упорядоченный набор значений
* _txt_ в иной специфичной для задачи форме (например, vowpal-wabbit и uci bag-of-words для <<мешка слов>>)

В pandas есть функции для считывания во всех этих форматах.

В реальной жизни данные хранятся в базах данных, откуда с помощью sql-подобных языков из них составляют файлы в указанных выше форматах.

__Чтение из csv с помощью pandas__:
[pandas.read_csv()](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html)
У функции несколько параметров, основные необходимые:
* filepath_or_buffer (перый и единственный обязательный аргумент) --- имя файла
* sep $-$ разделитель (; , \t ...)
* quotechar $-$ символ кавычек, все что внутри считается за строку (разделители также могут входить в эту строку; ' " ...)
* names $-$ список названий колонок
* header $-$ номер строки файла (с 0), которую нужно считать заголовком
* dtype $-$ словарь, сопоставляющий именам колонок типы данных в них
* na_values $-$ строка/список/словарь (ключи $-$ названия колонок) строковых значений, которые нужно считать пропуском.

По умолчанию names=None и header=0, то есть названия колонок берутся из первой строки файла. Можно передать названия через names. Если вы не хотите давать названия, укажите header=None, тогда названия будут даны автоматически индексами с 0. Учтите, что названия нужны при дальнейшей работе с данными (если вы только не собираетесь взять оттуда только numpy-матрицу; в этом случае они не понадобятся). Следите за длиной списка названий, он должен совпадать с реальным числом колонок в файле (а в противном случае вы получите ошибки)! Чтобы заменить заголовки, записанные в файле, нужно установить header=0 и передать names.

В функцию pd.read\_csv можно передавать как путь к файлу, хранящемуся на компьютере, так и ссылку на файл в Интернете.

Для чтения xls: [pandas.read_excel](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_excel.html)

Для чтения sql: [pandas.read_sql](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_sql.html)


Считывание данных:

In [2]:
data = pd.read_csv('titanic.csv', encoding='latin-1', sep = ';')
data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,Braund; Mr. Owen Harris,male,22,1,0,A/5 21171,èþë.25,,S
1,2,1,1,Cumings; Mrs. John Bradley (Florence Briggs Th...,female,38,1,0,PC 17599,71.2833,C85,C
2,3,1,3,Heikkinen; Miss. Laina,female,26,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,Futrelle; Mrs. Jacques Heath (Lily May Peel),female,35,1,0,113803,53.1,C123,S
4,5,0,3,Allen; Mr. William Henry,male,35,0,0,373450,08.ìàé,,S


In [4]:
#data = pd.read_csv("https://raw.githubusercontent.com/evgpat/hse_ml_light_autumn_2023/main/datasets/titanic.csv",sep=";")

Мы будем работать с данными Titanic: он содержит информаицию о пассажирах корабля, включая их демографические характеристики и выжил пассажир или нет.

Посмотреть первые строки:

In [5]:
data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,Braund; Mr. Owen Harris,male,22,1,0,A/5 21171,èþë.25,,S
1,2,1,1,Cumings; Mrs. John Bradley (Florence Briggs Th...,female,38,1,0,PC 17599,71.2833,C85,C
2,3,1,3,Heikkinen; Miss. Laina,female,26,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,Futrelle; Mrs. Jacques Heath (Lily May Peel),female,35,1,0,113803,53.1,C123,S
4,5,0,3,Allen; Mr. William Henry,male,35,0,0,373450,08.ìàé,,S


In [6]:
data.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,Montvila; Rev. Juozas,male,27.0,0,0,211536,13,,S
887,888,1,1,Graham; Miss. Margaret Edith,female,19.0,0,0,112053,30,B42,S
888,889,0,3,"Johnston; Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,Behr; Mr. Karl Howell,male,26.0,0,0,111369,30,C148,C
890,891,0,3,Dooley; Mr. Patrick,male,32.0,0,0,370376,èþë.75,,Q


In [7]:
type(data)

pandas.core.frame.DataFrame

In [8]:
pd.DataFrame([[1, 4], [3, 2]])

Unnamed: 0,0,1
0,1,4
1,3,2


In [9]:
data.shape

(891, 12)

In [10]:
len(data)

891

Переменная, которую возвращает функция чтения, ссылается на _датафрейм_; это основная структура данных в pandas. Его можно создать и вручную:

In [11]:
df = pd.DataFrame({'AAA' : [4,5,6,7], 'BBB' : [10,20,30,40], 'CCC' : [100,50,-30,-50]})
df

Unnamed: 0,AAA,BBB,CCC
0,4,10,100
1,5,20,50
2,6,30,-30
3,7,40,-50


## Работа со строками и столбцами датафрейма

Датафрейм - это таблица. Названия строк:

In [12]:
data.index

RangeIndex(start=0, stop=891, step=1)

Названия столбов:

In [13]:
data.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

Полезный функционал:
* параметр df.dtypes $-$ типы колонок
* метод [df.fillna(value)](http://pandas.pydata.org/pandas-docs/version/0.17.1/generated/pandas.DataFrame.fillna.html), value $-$ на что заменить (скаляр или словарь с ключами-названиями колонок)
* методы df.head([N]) и df.tail([N]) $-$ показать N (необязательный аргумент) первых или последних значений
* параметры df.index, df.columns и df.values $-$ соответственно индексы строк датафрейма, названия колонок и np.array, составленный из значений датафрейма
* метод df.T $-$ транспонировать данные (поменять строки и столбцы местами)
* сортировка данных по индексу (по названиям строк) и по значениям колонки, например df.sort_index(axis=1, ascending=False) и df.sort_values(by='B')
* метод df.copy() $-$ копировать датафрейм

Все структуры данных, показываемые и возвращаемые pandas, имеют тип, придуманный разработчиками pandas (а не стандартный для python список или словарь). Все эти типы имеют удобный интерфейс обращения к своим элементам (индексация, slicing), но иногда кажутся непривычными. Например, df[smth], как указано выше, должен выдать колонку, имеющую название smth (если она существует в датафрейме).

В датафрейме могут храниться данные разных типов (главное, чтобы тип был один и тот же внутри колонки), например float, int, string.

Выбор нескольких столбцов:

In [15]:
data[["Age", "Sex", "Cabin"]].head(3)

Unnamed: 0,Age,Sex,Cabin
0,22,male,
1,38,female,C85
2,26,female,


In [16]:
#print(data.index[2:5])
#print(data.columns[0])
print(data.dtypes)

PassengerId     int64
Survived        int64
Pclass          int64
Name           object
Sex            object
Age            object
SibSp           int64
Parch           int64
Ticket         object
Fare           object
Cabin          object
Embarked       object
dtype: object


В машинном обучении библиотеку удобно использовать со следующей интерпретацией: по строкам датафрейма находятся объекты, по столбцам - признаки и целевая переменная. В нашем датафрейме целевая переменная задана в столбце Survived. Если мы бы хотели выделить часть датафрейма без этого столбца, мы бы использовали такой код:

In [17]:
y = data['Survived'] # целевая переменная (вектор ответов)

X = data.drop("Survived", axis=1) # матрица объект-признак

X.head()

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,3,Braund; Mr. Owen Harris,male,22,1,0,A/5 21171,èþë.25,,S
1,2,1,Cumings; Mrs. John Bradley (Florence Briggs Th...,female,38,1,0,PC 17599,71.2833,C85,C
2,3,3,Heikkinen; Miss. Laina,female,26,0,0,STON/O2. 3101282,7.925,,S
3,4,1,Futrelle; Mrs. Jacques Heath (Lily May Peel),female,35,1,0,113803,53.1,C123,S
4,5,3,Allen; Mr. William Henry,male,35,0,0,373450,08.ìàé,,S


In [18]:
data.drop("Survived", axis=1)

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,3,Braund; Mr. Owen Harris,male,22,1,0,A/5 21171,èþë.25,,S
1,2,1,Cumings; Mrs. John Bradley (Florence Briggs Th...,female,38,1,0,PC 17599,71.2833,C85,C
2,3,3,Heikkinen; Miss. Laina,female,26,0,0,STON/O2. 3101282,7.925,,S
3,4,1,Futrelle; Mrs. Jacques Heath (Lily May Peel),female,35,1,0,113803,53.1,C123,S
4,5,3,Allen; Mr. William Henry,male,35,0,0,373450,08.ìàé,,S
...,...,...,...,...,...,...,...,...,...,...,...
886,887,2,Montvila; Rev. Juozas,male,27,0,0,211536,13,,S
887,888,1,Graham; Miss. Margaret Edith,female,19,0,0,112053,30,B42,S
888,889,3,"Johnston; Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,Behr; Mr. Karl Howell,male,26,0,0,111369,30,C148,C


In [19]:
data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,Braund; Mr. Owen Harris,male,22,1,0,A/5 21171,èþë.25,,S
1,2,1,1,Cumings; Mrs. John Bradley (Florence Briggs Th...,female,38,1,0,PC 17599,71.2833,C85,C
2,3,1,3,Heikkinen; Miss. Laina,female,26,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,Futrelle; Mrs. Jacques Heath (Lily May Peel),female,35,1,0,113803,53.1,C123,S
4,5,0,3,Allen; Mr. William Henry,male,35,0,0,373450,08.ìàé,,S


In [20]:
data = data.drop("Survived", axis=1) # две таблицы в памяти

# или

data.drop("Survived", axis=1, inplace=True) # изменение таблицы без создания копий

data.head()

KeyError: "['Survived'] not found in axis"

Обратите внимание, что столбец не удалился из датафрейма навсегда. Наоборот, результат нашей операции записан в выводе, и если бы мы хотели его сохранить, мы должны были бы присвоить результат операции новой переменной.

Индексация по строкам:

In [21]:
data.head()

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,3,Braund; Mr. Owen Harris,male,22,1,0,A/5 21171,èþë.25,,S
1,2,1,Cumings; Mrs. John Bradley (Florence Briggs Th...,female,38,1,0,PC 17599,71.2833,C85,C
2,3,3,Heikkinen; Miss. Laina,female,26,0,0,STON/O2. 3101282,7.925,,S
3,4,1,Futrelle; Mrs. Jacques Heath (Lily May Peel),female,35,1,0,113803,53.1,C123,S
4,5,3,Allen; Mr. William Henry,male,35,0,0,373450,08.ìàé,,S


In [22]:
data.index %2

Int64Index([0, 1, 0, 1, 0, 1, 0, 1, 0, 1,
            ...
            1, 0, 1, 0, 1, 0, 1, 0, 1, 0],
           dtype='int64', length=891)

In [23]:
#data2 = data.iloc[data.index % 2 == 0].head(5)

data.iloc[data.index % 2 == 0]

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,3,Braund; Mr. Owen Harris,male,22,1,0,A/5 21171,èþë.25,,S
2,3,3,Heikkinen; Miss. Laina,female,26,0,0,STON/O2. 3101282,7.925,,S
4,5,3,Allen; Mr. William Henry,male,35,0,0,373450,08.ìàé,,S
6,7,1,McCarthy; Mr. Timothy J,male,54,0,0,17463,51.8625,E46,S
8,9,3,Johnson; Mrs. Oscar W (Elisabeth Vilhelmina Berg),female,27,0,2,347742,11.1333,,S
...,...,...,...,...,...,...,...,...,...,...,...
882,883,3,Dahlberg; Miss. Gerda Ulrika,female,22,0,0,7552,îêò.67,,S
884,885,3,Sutehall; Mr. Henry Jr,male,25,0,0,SOTON/OQ 392076,07.ìàé,,S
886,887,2,Montvila; Rev. Juozas,male,27,0,0,211536,13,,S
888,889,3,"Johnston; Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S


Использовать столбец Name для задания названий строк (index):

In [24]:
data.set_index(data["Name"], inplace=True)

In [25]:
data.head()

Unnamed: 0_level_0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Braund; Mr. Owen Harris,1,3,Braund; Mr. Owen Harris,male,22,1,0,A/5 21171,èþë.25,,S
Cumings; Mrs. John Bradley (Florence Briggs Thayer),2,1,Cumings; Mrs. John Bradley (Florence Briggs Th...,female,38,1,0,PC 17599,71.2833,C85,C
Heikkinen; Miss. Laina,3,3,Heikkinen; Miss. Laina,female,26,0,0,STON/O2. 3101282,7.925,,S
Futrelle; Mrs. Jacques Heath (Lily May Peel),4,1,Futrelle; Mrs. Jacques Heath (Lily May Peel),female,35,1,0,113803,53.1,C123,S
Allen; Mr. William Henry,5,3,Allen; Mr. William Henry,male,35,0,0,373450,08.ìàé,,S


Теперь строки индексируются с помощью Name (выделено жирным в начале каждой строки).

Считывание данных без названий колонок и придумывание своих названий колонкам:

In [26]:
data_m = pd.read_csv(
    "https://archive.ics.uci.edu/ml/machine-learning-databases/mushroom/agaricus-lepiota.data",
    header=None
    )

data_m.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,13,14,15,16,17,18,19,20,21,22
0,p,x,s,n,t,p,f,c,n,k,...,s,w,w,p,w,o,p,k,s,u
1,e,x,s,y,t,a,f,c,b,k,...,s,w,w,p,w,o,p,n,n,g
2,e,b,s,w,t,l,f,c,b,n,...,s,w,w,p,w,o,p,n,n,m
3,p,x,y,w,t,p,f,c,n,n,...,s,w,w,p,w,o,p,k,s,u
4,e,x,s,g,f,n,f,w,b,k,...,s,w,w,p,w,o,e,n,a,g


In [27]:
data_m.columns = ["col"+str(i) for i in range(23)]

In [28]:
data_m.head()

Unnamed: 0,col0,col1,col2,col3,col4,col5,col6,col7,col8,col9,...,col13,col14,col15,col16,col17,col18,col19,col20,col21,col22
0,p,x,s,n,t,p,f,c,n,k,...,s,w,w,p,w,o,p,k,s,u
1,e,x,s,y,t,a,f,c,b,k,...,s,w,w,p,w,o,p,n,n,g
2,e,b,s,w,t,l,f,c,b,n,...,s,w,w,p,w,o,p,n,n,m
3,p,x,y,w,t,p,f,c,n,n,...,s,w,w,p,w,o,p,k,s,u
4,e,x,s,g,f,n,f,w,b,k,...,s,w,w,p,w,o,e,n,a,g


## Анализ и преобразование датафрейма

Основная информация по датафрейму:

In [29]:
data.describe()

Unnamed: 0,PassengerId,Pclass,SibSp,Parch
count,891.0,891.0,891.0,891.0
mean,446.0,2.308642,0.523008,0.381594
std,257.353842,0.836071,1.102743,0.806057
min,1.0,1.0,0.0,0.0
25%,223.5,2.0,0.0,0.0
50%,446.0,3.0,0.0,0.0
75%,668.5,3.0,1.0,0.0
max,891.0,3.0,8.0,6.0


In [30]:
data.describe(include='object')

Unnamed: 0,Name,Sex,Age,Ticket,Fare,Cabin,Embarked
count,891,891,714,891,891,204,889
unique,891,3,88,681,230,147,3
top,Braund; Mr. Owen Harris,male,24,347082,èþë.58,B96 B98,S
freq,1,574,30,7,47,4,644


По этим статистикам можно понять, одинаковый ли масштаб имеют признаки (например, Age измеряется от 0 до 80, а Pclass в единицах - от 1 до 3). Также можно понять, есть ли пропуски в данных (по count). Например, в графе Age есть пропуски.

Уникальные значения в столбце:

In [31]:
set(data["Sex"])

# или

data['Sex'].unique()

array(['male', 'female', 'unknown'], dtype=object)

In [32]:
data[data.Sex == 'unknown']

Unnamed: 0_level_0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Moran; Mr. James,6,3,Moran; Mr. James,unknown,,0,0,330877,àâã.83,,Q
Andersson; Mr. Anders Johan,14,3,Andersson; Mr. Anders Johan,unknown,39.0,1,5,347082,31.275,,S
"O'Dwyer; Miss. Ellen ""Nellie""",29,3,"O'Dwyer; Miss. Ellen ""Nellie""",unknown,,0,0,330959,èþë.92,,Q
Arnold-Franchi; Mrs. Josef (Josefine Franchi),50,3,Arnold-Franchi; Mrs. Josef (Josefine Franchi),unknown,18.0,1,0,349237,17.àâã,,S
Caldwell; Master. Alden Gates,79,2,Caldwell; Master. Alden Gates,unknown,0.83,0,2,248738,29,,S


Уникальные значения в столбце с числом строк с таким значением:

In [33]:
data["Sex"].value_counts()

male       574
female     312
unknown      5
Name: Sex, dtype: int64

Перекодирование столбца с помощью функции map:

In [34]:
sex = data["Sex"]
sex.map({"male":1, "female":-1, "unknown":0}).head()

Name
Braund; Mr. Owen Harris                                1
Cumings; Mrs. John Bradley (Florence Briggs Thayer)   -1
Heikkinen; Miss. Laina                                -1
Futrelle; Mrs. Jacques Heath (Lily May Peel)          -1
Allen; Mr. William Henry                               1
Name: Sex, dtype: int64

In [35]:
data['Sex'] = data['Sex'].apply(lambda x: 1 if x == 'male' else -1)

# цикл - самый медленный (iterrows)
# apply - оптимизированный цикл
# map - самый быстрый

Функция apply: применение функции поэлементно к столбцу или строке (+ создание нового столбца, потому что apply возвращает результат и никак не модифицирует датафрейм)

Функция groupby: создание групп по значению какого-то столбца (или группы столбцов)

In [36]:
data['Age'] = data['Age'].fillna(0).astype(int, errors = 'ignore')
[int(i) for i in data['Age'].values]

ValueError: invalid literal for int() with base 10: '28.ìàé'

In [37]:
data.iloc[9]

PassengerId                                     10
Pclass                                           2
Name           Nasser; Mrs. Nicholas (Adele Achem)
Sex                                             -1
Age                                             14
SibSp                                            1
Parch                                            0
Ticket                                      237736
Fare                                       30.0708
Cabin                                          NaN
Embarked                                         C
Name: Nasser; Mrs. Nicholas (Adele Achem), dtype: object

In [38]:
data.groupby("Sex")['Age'].mean()

TypeError: can only concatenate str (not "int") to str

In [39]:
#data.groupby("Sex")['Age'].apply(lambda x: x.mean())

data.groupby("Pclass")['Age'].mean()

TypeError: can only concatenate str (not "int") to str

Создаем столбец с фамилией:

In [40]:
data[['Name']].head(5)

Unnamed: 0_level_0,Name
Name,Unnamed: 1_level_1
Braund; Mr. Owen Harris,Braund; Mr. Owen Harris
Cumings; Mrs. John Bradley (Florence Briggs Thayer),Cumings; Mrs. John Bradley (Florence Briggs Th...
Heikkinen; Miss. Laina,Heikkinen; Miss. Laina
Futrelle; Mrs. Jacques Heath (Lily May Peel),Futrelle; Mrs. Jacques Heath (Lily May Peel)
Allen; Mr. William Henry,Allen; Mr. William Henry


In [41]:
data

Unnamed: 0_level_0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Braund; Mr. Owen Harris,1,3,Braund; Mr. Owen Harris,1,22,1,0,A/5 21171,èþë.25,,S
Cumings; Mrs. John Bradley (Florence Briggs Thayer),2,1,Cumings; Mrs. John Bradley (Florence Briggs Th...,-1,38,1,0,PC 17599,71.2833,C85,C
Heikkinen; Miss. Laina,3,3,Heikkinen; Miss. Laina,-1,26,0,0,STON/O2. 3101282,7.925,,S
Futrelle; Mrs. Jacques Heath (Lily May Peel),4,1,Futrelle; Mrs. Jacques Heath (Lily May Peel),-1,35,1,0,113803,53.1,C123,S
Allen; Mr. William Henry,5,3,Allen; Mr. William Henry,1,35,0,0,373450,08.ìàé,,S
...,...,...,...,...,...,...,...,...,...,...,...
Montvila; Rev. Juozas,887,2,Montvila; Rev. Juozas,1,27,0,0,211536,13,,S
Graham; Miss. Margaret Edith,888,1,Graham; Miss. Margaret Edith,-1,19,0,0,112053,30,B42,S
"Johnston; Miss. Catherine Helen ""Carrie""",889,3,"Johnston; Miss. Catherine Helen ""Carrie""",-1,0,1,2,W./C. 6607,23.45,,S
Behr; Mr. Karl Howell,890,1,Behr; Mr. Karl Howell,1,26,0,0,111369,30,C148,C


In [42]:
data['new1'] = data["Name"].str.split(';')

In [43]:
data["Family"] = data["Name"].apply(lambda s: s.split(";")[0])
data['Family']

Name
Braund; Mr. Owen Harris                                   Braund
Cumings; Mrs. John Bradley (Florence Briggs Thayer)      Cumings
Heikkinen; Miss. Laina                                 Heikkinen
Futrelle; Mrs. Jacques Heath (Lily May Peel)            Futrelle
Allen; Mr. William Henry                                   Allen
                                                         ...    
Montvila; Rev. Juozas                                   Montvila
Graham; Miss. Margaret Edith                              Graham
Johnston; Miss. Catherine Helen "Carrie"                Johnston
Behr; Mr. Karl Howell                                       Behr
Dooley; Mr. Patrick                                       Dooley
Name: Family, Length: 891, dtype: object

In [44]:
data.reset_index(drop=True,inplace=True)

In [45]:
data.head(5)

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,new1,Family
0,1,3,Braund; Mr. Owen Harris,1,22,1,0,A/5 21171,èþë.25,,S,"[Braund, Mr. Owen Harris]",Braund
1,2,1,Cumings; Mrs. John Bradley (Florence Briggs Th...,-1,38,1,0,PC 17599,71.2833,C85,C,"[Cumings, Mrs. John Bradley (Florence Briggs ...",Cumings
2,3,3,Heikkinen; Miss. Laina,-1,26,0,0,STON/O2. 3101282,7.925,,S,"[Heikkinen, Miss. Laina]",Heikkinen
3,4,1,Futrelle; Mrs. Jacques Heath (Lily May Peel),-1,35,1,0,113803,53.1,C123,S,"[Futrelle, Mrs. Jacques Heath (Lily May Peel)]",Futrelle
4,5,3,Allen; Mr. William Henry,1,35,0,0,373450,08.ìàé,,S,"[Allen, Mr. William Henry]",Allen


Сколько человек в каждой семье (семья - множество людей с одной фамилией Family)?

In [46]:
data.groupby("Family")["Pclass"].count().head()

Family
Abbing     1
Abbott     2
Abelson    2
Adahl      1
Adams      1
Name: Pclass, dtype: int64

In [47]:
grouped_family = data.groupby("Family")["Age"]

In [48]:
grouped_family.mean()

TypeError: Could not convert 50.750.7524 to numeric

Сколько семей, в которых больше трех человек?

In [49]:
data.head()

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,new1,Family
0,1,3,Braund; Mr. Owen Harris,1,22,1,0,A/5 21171,èþë.25,,S,"[Braund, Mr. Owen Harris]",Braund
1,2,1,Cumings; Mrs. John Bradley (Florence Briggs Th...,-1,38,1,0,PC 17599,71.2833,C85,C,"[Cumings, Mrs. John Bradley (Florence Briggs ...",Cumings
2,3,3,Heikkinen; Miss. Laina,-1,26,0,0,STON/O2. 3101282,7.925,,S,"[Heikkinen, Miss. Laina]",Heikkinen
3,4,1,Futrelle; Mrs. Jacques Heath (Lily May Peel),-1,35,1,0,113803,53.1,C123,S,"[Futrelle, Mrs. Jacques Heath (Lily May Peel)]",Futrelle
4,5,3,Allen; Mr. William Henry,1,35,0,0,373450,08.ìàé,,S,"[Allen, Mr. William Henry]",Allen


In [50]:
(data.groupby("Family")["Pclass"].count() > 3).sum()

22

Выбор строк по условию (индексация по строкам по массиву из True и False)

In [51]:
data[(data.Age > 17) & (data.Sex=="male")].head()

TypeError: '>' not supported between instances of 'str' and 'int'

## Задания

1. Какова доля семей, в которых минимальный возраст меньше 20 (семьи с детьми)?

In [52]:
# ваш код здесь
data.head()


Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,new1,Family
0,1,3,Braund; Mr. Owen Harris,1,22,1,0,A/5 21171,èþë.25,,S,"[Braund, Mr. Owen Harris]",Braund
1,2,1,Cumings; Mrs. John Bradley (Florence Briggs Th...,-1,38,1,0,PC 17599,71.2833,C85,C,"[Cumings, Mrs. John Bradley (Florence Briggs ...",Cumings
2,3,3,Heikkinen; Miss. Laina,-1,26,0,0,STON/O2. 3101282,7.925,,S,"[Heikkinen, Miss. Laina]",Heikkinen
3,4,1,Futrelle; Mrs. Jacques Heath (Lily May Peel),-1,35,1,0,113803,53.1,C123,S,"[Futrelle, Mrs. Jacques Heath (Lily May Peel)]",Futrelle
4,5,3,Allen; Mr. William Henry,1,35,0,0,373450,08.ìàé,,S,"[Allen, Mr. William Henry]",Allen


In [53]:
data[data['Age'] < 20]['Family'].nunique()/data['Family'].nunique()

TypeError: '<' not supported between instances of 'str' and 'int'

In [54]:
data['Family'].nunique()

667

2. Какова доля выживших пассажиров из класса 3? А пассажиров из класса 1?

In [55]:
data[data['Pclass'] == 3].groupby('Survived').size()/len(data[data['Pclass'] == 3])

KeyError: 'Survived'

In [56]:
data.head()

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,new1,Family
0,1,3,Braund; Mr. Owen Harris,1,22,1,0,A/5 21171,èþë.25,,S,"[Braund, Mr. Owen Harris]",Braund
1,2,1,Cumings; Mrs. John Bradley (Florence Briggs Th...,-1,38,1,0,PC 17599,71.2833,C85,C,"[Cumings, Mrs. John Bradley (Florence Briggs ...",Cumings
2,3,3,Heikkinen; Miss. Laina,-1,26,0,0,STON/O2. 3101282,7.925,,S,"[Heikkinen, Miss. Laina]",Heikkinen
3,4,1,Futrelle; Mrs. Jacques Heath (Lily May Peel),-1,35,1,0,113803,53.1,C123,S,"[Futrelle, Mrs. Jacques Heath (Lily May Peel)]",Futrelle
4,5,3,Allen; Mr. William Henry,1,35,0,0,373450,08.ìàé,,S,"[Allen, Mr. William Henry]",Allen


3. Сколько пассажиров выжило, а сколько - нет?

In [57]:
table = data.groupby(['Survived', 'Sex']).size()

KeyError: 'Survived'

In [None]:
table = pd.DataFrame(table).reset_index()

In [None]:
pd.pivot(table, index = 'Survived', columns = 'Sex').T

4. Создайте столбец "IsChild", который равен 1, если возраст меньше 20, и 0 иначе. Для пропущенных значений поведение функции может быть произвольным.

In [None]:
data['IsChild'] = (data['Age'] < 20).astype(int)

In [None]:
data

5. Какова доля выживших женщин из первого класса? А доля выживших мужчин из 3 класса?

In [None]:
# ваш код здесь

In [None]:
data[(data['Pclass'] == 1) & (data['Sex'] == 'female')]['Survived'].mean()