# Краткое содержание

## Краткое описание библиотеки Pandas

В работе рассматривается практические аспекты использования библиотеки Pandas. Pandas — программная библиотека на языке Python для обработки и анализа данных. Работа pandas с данными строится поверх библиотеки NumPy, являющейся инструментом более низкого уровня. Предоставляет специальные структуры данных и операции для манипулирования числовыми таблицами и временны́ми рядами. Название библиотеки происходит от эконометрического термина «панельные данные», используемого для описания многомерных структурированных наборов информации. Источник - <a href="https://ru.wikipedia.org/wiki/Pandas">Википедия</a>.

Ссылка на <a href="https://pandas.pydata.org/docs/">документацию</a>.

## Рассматриваемый набор данных

Рассматриваемый набор - данные о погибших и выживших на Титанике. Данный набор данных находится в открытом доступе на <a href="https://www.kaggle.com/c/titanic/data?select=train.csv">kaggle</a>. В данном наборе имеются следующие колонки:
- PassengerId - ID пассажира;
- Survival - выжил ли пассажир. 0 - не выжил, 1 = выжил;
- Pclass - класс билета.	1 = 1й класс, 2 = 2й класс, 3 = 3й класс;
- Name - имя пассажира;
- sex - пол пассажира;
- Age	- возраст пассажира;	
- SibSp	- количество братьев, сестер или супругов на борту Титаника;
- Parch	- количество родителей или детей на борту Титаника;
- Ticket - номер билета;
- Fare	- стоимость билета;
- Cabin	- номер кабины;
- Embarked	- в каком порту пассажир зашел на борт Титаника. C = Шербур, Q = Куинстаун, S = Саутгемптон.

## Рассматриваемые методы и атрибуты

В работе на практических примерах применяются следующие популярные для анализа данных методы и атрибуты:

<b>Методы:</b>
- read_csv - чтение содержимого csv файла и представление его в виде DataFrame;
- head - показ первых n строчек в Series или DataFrame;
- tail - показ последних n строчек в Series или DataFrame;
- describe - вывод описательных статистик (число строк, среднее, стандартное отклонение, минимум, максимум и значения по 25-ому, 50-ому и 75-ому квартилям) для Series или DataFrame;
- info - вывод подробной информации (занимаемая память, типы данных, количество непропущенных значений и так далее) для DataFrame;
- sum - сумма значений для Series или DataFrame;
- mean - среднее значение для Series или DataFrame;
- isnull, isna - поиск пропущенных значений в Series или DataFrame. Возвращает True, если пропущенное значение найдено для элемента, False - в противном случае;
- fillna - замена пропущенных значений на то значение, которое указано как аргумент для метода в Series или DataFrame;
- dropna - удаляет строки с пропущенными значениями в Series или DataFrame;
- duplicated - поиск дубликатов в Series или DataFrame. Возвращает True, если дубликат найден, False - в противном случае;
- rename - переименование элементов в Series или DataFrame;
- unique - поиск уникальных значений в Series;
- nunique - количество уникальных значений в Series или DataFrame;
- value_counts - подсчет количества каждого из значения в Series;
- round - округление чисел с плавающей точкой до n знаков после запятой (по умолчанию 0) в Series или DataFrame;
- idxmax, idxmin - индекс, по которому находится максимальное или минимальное значение (первое вхождение) в Series или DataFrame;
- query - позволяет делать запросы к DataFrame;
- groupby - группировка Series или DataFrame;
- aggregate (agg) - агрегация элементов в Series или DataFrame;
- sort_values - сортировка значений в Series или DataFrame (по умолчанию в порядке возрастания);
- crosstab - построение таблицы сопряженности;
- pivot_table - построение сводной таблицы;
- insert - добавление столбца в DataFrame. Использование данного метода позволяет вставлять колонку не в конец DataFrame, а по порядковому номер;
- assign - добавление нескольких столбцов в DataFrame;
- drop - удаляет строки или столбцы в DataFrame, или элементы Series;
- apply - применение метода в Series или DataFrame;
- astype - изменение типов данных в Series или DataFrame;
- map - позволяет изменять значения в Series;
- replace - позволяет изменять значения в Series или DataFrame;
- merge - объединение двух DataFrame;
- to_csv - сохранение DataFrame в файле csv.

<b>Атрибуты:</b>
- shape - размер Series или DataFrame;
- size - количество элементов в Series или DataFrame;
- columns - названия колонок в DataFrame;
- index - индексы в Series или DataFrame;
- dtypes - типа данных в Series или DataFrame;
- iloc - фильтрация данных по порядковому номеру в Series или DataFrame;
- loc - фильтрация данных по лэйблам в Series или DataFrame.

# Начало работы с Pandas

Для работы понадобятся библиотеки <a href="https://pandas.pydata.org/docs/index.html#">pandas</a> и <a href="https://numpy.org/doc/stable/">numpy</a>. Библиотека – набор кода, посвящённый определённой цели и используемый для облегчения работы. По умолчанию содержимое библиотек недоступно при работе в Python, а чтобы их использовать, необходимо их сначала импортировать. Для подключения библиотекие используем инструкцию import, и для простоты обращения используем сокращенные общепризнанные названия с помощью ключевого слова as:

In [1]:
import pandas as pd
import numpy as np

### Загрузка набора данных и предварительный анализ

Для чтения набора данных используем метод <code>read_csv</code> из библиотеки Pandas (используется сокращенное запись pd, указанная при импорте с помощью ключевого слова as). В качестве аргумента этого метода передадим расположение и название файла, а результат запишем в переменную df.

Стоит отметить, что полезными атрибутами (которые часто используются при анализе данных) для данного метода также являются:
- <code>encoding</code> – параметр в read_csv, отвечает за кодировку текста. Пример использования атрибута: <code>encoding='Windows-1251'</code>;
- <code>sep</code> – разделитель между ячейками в строке (по умолчанию ","). Часто (особенно в русскоязычных наборах данных), где "," является разделителем для дробной части числа, используется разделитель ";". Пример использования атрибута: <code>sep=';'</code>;
- <code>parse_dates</code> – указывает, стоит ли воспринимать даты как даты (по умолчанию они воспринимаются пандасом как строки). Значение атрибута: строки, которые должны быть представлены в виде даты. Пример использования атрибута: <code>parse_dates=['column1', 'column2']</code>.

In [2]:
df = pd.read_csv('../Data/Titanic/train.csv')

Набор данных хранится в табличном виде (<a href="https://pandas.pydata.org/docs/reference/frame.html">DataFrame</a>) и очень удобен для восприятия и работы человеком
Для DataFrame можно вызвать множество методов или обратиться к их атрибутам, рассмотрим часть из них, которые могут пригодиться для первичного анализа

Для вывода первых несколько строк DataFrame используется метод <code>head</code>, для последних строк - метод <code>tail</code>, где в качестве атрибута передается число - количество выводимых строк. Выведем первые и последние 5 строк из набора данных:

In [3]:
df.head(5)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [4]:
df.tail(5)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


Чтобы оценить размеры DataFrame, можно обратиться к атрибутам <code>shape</code> и <code>size</code>. Атрибут <code>shape</code> хранит количество строк и столбцов в DataFrame в виде <a href="https://pythonworld.ru/tipy-dannyx-v-python/kortezhi-tuple.html">кортежа</a>, который содержит 2 значения – число строк и число колонок в нём. Атрибут <code>size</code> содержит количество наблюдей в DataFrame (количество строк * количество столбцов)

In [5]:
df.shape

(891, 12)

In [6]:
df.size

10692

Названия столбцов хранятся в атрибуте <code>columns</code>

In [7]:
df.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

Для DataFrame можно легко получить описательные статистики (число строк, среднее, стандартное отклонение, минимум, максимум и значения по 25-ому, 50-ому и 75-ому квартилям), вызвав метод <code>describe</code>

In [8]:
df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


Описательные статистики вывелись не для всех столбцов - для их расчета используются количественные переменные (int64 и float). Чтобы узнать типы колонок в DataFrame можно обратиться к атрибуту <code>dtypes</code>  dtypes – он возвращает серию с описанием типа каждой колонки. Указанные в результате типы совпадают со стандартными типами в Python, кроме нескольких различий:
- у типов присутствует описание размера (числа битов);
- сложные типы (не числа или логические значения) отображаются как object.

In [9]:
df.dtypes

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

Получить информацию по всему набору данных можно с помощью метода <code>info</code>. Данный метод позволяет посмотреть основные параметры набора, в том числе и количество пропущенных значений для каждого столбца

In [10]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


### Предобработка данных

В исходных, необработанных данных, могут встретиться пропущенные значения, которые затрудняют анализ. Отследить пропущенные значения можно с помощью методов <code>isnull</code> или <code>isna</code>

In [11]:
df.isnull().head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,False,False,False,False,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,True,False
3,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,True,False


In [12]:
df.isna().head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,False,False,False,False,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,True,False
3,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,True,False


Однако, такое отображение не даёт достаточной информации по всей таблице (затруднительно искать количество пустых значенией в ручную). Для нахождения количества пропущенных значений для каждого столбца можно использовать метод <code>sum</code>

In [13]:
df.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [14]:
df.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

Один из вариантов для борьбы с пропущенными значениями - заменить их на какое-либо другое значение, например, на 0. Для этого воспользуемся методом <code>fillna</code>

In [15]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [16]:
df.fillna(0).head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,0,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,0,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,0,S


В наборе данных в переменной, хранящей возраст пассажира, пропущено 177 значений, которые также заменили на 0, что портит набор (для подсчета различных статистик). В таком случае, один из вариантов удалить строки с пропущенными значениями с помощью метода <code>dropna</code>

Важно отметить, что после замены пропущенных значений на 0, изначальный набор данных не изменился, так как переменная не перезаписана на измененный набор данных

In [17]:
df.dropna().head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7,G6,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S


In [18]:
print('Размер датафрейма до удаления строк с пропущенными значениями', df.shape[0])
print('Размер датафрейма после удаления строк с пропущенными значениями', df.dropna().shape[0])

Размер датафрейма до удаления строк с пропущенными значениями 891
Размер датафрейма после удаления строк с пропущенными значениями 183


При удалении строк, индексы также удаляются, нарушая порядок при нумерации от 0. Чтобы сбросить индексы (перевести индексы в колонку) для измененного датафрейма, необходимо воспользоваться методом <code>reset_index</code> с атрибутом <code>drop=True</code>

In [19]:
df.dropna().reset_index(drop=True).head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
1,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
2,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
3,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7,G6,S
4,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S


Метод <code>dropna</code> удалил большую часть набора данных, потому что он удалял любую строку, в которой находится хоть одно пропущенное значение для любой переменной. Для удаления пропущенных значений только в определенной переменной, необходимо передать атрибут subset с названиями необходимых столбцов. Удалим все пустые строки по переменной возраста

In [20]:
df.dropna(subset=['Age']).head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [21]:
print('Размер датафрейма до удаления строк с пропущенными значениями', df.shape[0])
print('Размер датафрейма после удаления строк с пропущенными значениями в столбце Age', df.dropna(subset=['Age']).shape[0])

Размер датафрейма до удаления строк с пропущенными значениями 891
Размер датафрейма после удаления строк с пропущенными значениями в столбце Age 714


В наборе данных могут находиться дубликаты, которые способны испортить анализ. Для нахождения дубликатов используется метод <code>duplicated</code>. Также по анологии с методом <code>fillna</code> (с помощью метода <code>sum</code>) можно найти количество найденных дубликатов

In [22]:
df.duplicated().head()

0    False
1    False
2    False
3    False
4    False
dtype: bool

In [23]:
df.duplicated().sum()

0

Ещё одной из проблем в наборе данных является не совсем правильно с точки зрения программирования названия столбцов при наличие пробелов. Также, рекомендуется давать названиям осмысленные и актуальные названия на английском. Для изменения подобных проблем используется метод <code>rename</code>, в котором для атрибута <code>columns</code> передается словарь, где ключами являются старые значения столбцов, а значением - новые. Предположим, что колонки PassengerId,	Pclass и SibSp содержат пробелы, и заменим их на нижнее подчеркивание

In [24]:
df.rename(columns={'PassengerId': 'Passenger_Id', 'Pclass': 'P_class', 'SibSp': 'Sib_Sp'}).head()

Unnamed: 0,Passenger_Id,Survived,P_class,Name,Sex,Age,Sib_Sp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### Отбор значений в наборе данных

У каждых строк и столбцов таблицы есть название и порядковый номер, с помощью которых можно обращаться к определенных элемента набора данных. Отобрать некоторые значения можно как с помощью индексов (название строки) и названий столбцов, так и с помощью их порядковых номеров

Для отбора значений по порядковому номеру используется <code>iloc</code>, где используются порядковые номера выводимых строк, а затем номера столбцов. Для вывода подряд нескольких значений можно использоваться <a href="https://pythonworld.ru/osnovy/indeksy-i-srezy.html">срезы</a>. Выведем первые три строки и первые 5 столбцов

In [25]:
df.iloc[0:3, 0:5]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex
0,1,0,3,"Braund, Mr. Owen Harris",male
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female
2,3,1,3,"Heikkinen, Miss. Laina",female


Также можно вывести несколько определенных строк и столбцов, для этого каждый из них нужно передать в виде списка. Выведем имя и пол (четвертый и пятый столбцы) для первого, третьго и десятого наблюдения

In [26]:
df.iloc[[0, 2, 9], [3, 4]]

Unnamed: 0,Name,Sex
0,"Braund, Mr. Owen Harris",male
2,"Heikkinen, Miss. Laina",female
9,"Nasser, Mrs. Nicholas (Adele Achem)",female


Можно отобрать только какие-то наблюдения, не отбирая при этом определенные столбцы. Выведем все значения для 6, 15 и 200 наблюдений

In [27]:
df.iloc[[5, 14, 199]]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
14,15,0,3,"Vestrom, Miss. Hulda Amanda Adolfina",female,14.0,0,0,350406,7.8542,,S
199,200,0,2,"Yrois, Miss. Henriette (""Mrs Harbeck"")",female,24.0,0,0,248747,13.0,,S


У каждого наблюдения (строки) есть свое название - то есть индекс. Рассмотрим индексы в датафрейме с помощью обращения к атрибуту <code>index</code>

In [28]:
df.index

RangeIndex(start=0, stop=891, step=1)

Индексы представляют собой последовательность от 0 до 891 с шагом 1, однако часто возникают задачи, где нужны осмысленные названия индексов. Для примера попробуем изменить названия индексов в датафрейме.

Для этого возьмем часть набора данных (первые 100 строк) с помощью среза и сохраним в отдельную переменную df_index_rename. Заменим старую последовательность на новый список индексов new_index с помощью цикла и посмотрим на результат замены

In [29]:
df_index_rename = df.iloc[0:100]
new_index = []
i = 1
while i <  df_index_rename.shape[0] + 1:
    new_index.append(str(i) + 'й пассажир')
    i += 1
df_index_rename.index = new_index

df_index_rename.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1й пассажир,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2й пассажир,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3й пассажир,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4й пассажир,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
5й пассажир,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Для отбора значений по индексу и названиям столбцов используется <code>loc</code>. Выведем имена и пол для первого, пятого и третьего пассажиров

In [30]:
df_index_rename.loc[['1й пассажир', '5й пассажир', '3й пассажир'], ['Name', 'Sex']]

Unnamed: 0,Name,Sex
1й пассажир,"Braund, Mr. Owen Harris",male
5й пассажир,"Allen, Mr. William Henry",male
3й пассажир,"Heikkinen, Miss. Laina",female


Для сравнения выведем тоже самое с помощью <code>iloc</code>

In [31]:
df_index_rename.iloc[[0, 4, 2], [3, 4]]

Unnamed: 0,Name,Sex
1й пассажир,"Braund, Mr. Owen Harris",male
5й пассажир,"Allen, Mr. William Henry",male
3й пассажир,"Heikkinen, Miss. Laina",female


Механизм отбора строк и столбцов в целом похожи, но есть одно небольшое, но важное различие: при использовании <code>loc</code> правая граница включается, в отличии от <code>iloc</code> и стандартных слайсов в Python 

Например если индексы строк представлены в виде последовательности цифр от нуля, то для вывода первых пяти строк с помощью <code>loc</code> используется:

In [32]:
df.loc[:4]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


При этом, вывод первых пяти строк с помощью <code>iloc</code> выглядит следующим образом:

In [33]:
df.iloc[:5]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### Как устроены DataFrame и Series

Разберемся чуть подробнее, что из себя представляет датафрейм, и для этого выведем все значения для столбца Name

In [34]:
df.loc[:, 'Name'].head()

0                              Braund, Mr. Owen Harris
1    Cumings, Mrs. John Bradley (Florence Briggs Th...
2                               Heikkinen, Miss. Laina
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                             Allen, Mr. William Henry
Name: Name, dtype: object

Значения вывелись не в привычной табличной форме, рассмотрим этот тип данных, сравнив с предыдущим представлением (для имени и пола)

In [35]:
print(type(df.loc[:, ['Name', 'Sex']]))
print(type(df.loc[:, 'Name']))

<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.series.Series'>


Датафрейм - это строго говоря собранные вместе "Пандасовские серии" (<a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html">Series</a>), где каждый столбец - это серия. Создадим серию

In [36]:
pd.Series([1, 2, 3])

0    1
1    2
2    3
dtype: int64

Серии тажке можно проиндексировать

In [37]:
series1 = pd.Series([1, 2, 3], index=['Первая строка', 'Вторая строка', 'Третья строка'])
series1

Первая строка    1
Вторая строка    2
Третья строка    3
dtype: int64

Создадим вторую серию и создадим из них датафрейм

In [38]:
series2 = pd.Series([11, 22, 33], index=['Первая строка', 'Вторая строка', 'Третья строка'])
pd.DataFrame({'Первый столбец': series1, 'Второй столбец': series2})

Unnamed: 0,Первый столбец,Второй столбец
Первая строка,1,11
Вторая строка,2,22
Третья строка,3,33


Ещё одним важным методом для серии является <code>unique</code>, позволяющий определить уникальные значения. Количество уникальных значений можно также определить, обратившись к атрибуту <code>shape</code> или вызвав метод <code>nunique</code>

In [39]:
df.loc[:, 'Name'].unique().shape

(891,)

In [40]:
df.loc[:, 'Name'].nunique()

891

Важно отметить, что для серии (в кортеже) находится только одно значение в атрибуте <code>shape</code>, в отличии от датафрейма

In [41]:
df.loc[:, ['Name']].shape

(891, 1)

Обращаться к столбцам (к Series) можно используя сокращенную вариант (без <code>loc</code> или <code>iloc</code>)

In [42]:
df['Name'].head()

0                              Braund, Mr. Owen Harris
1    Cumings, Mrs. John Bradley (Florence Briggs Th...
2                               Heikkinen, Miss. Laina
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                             Allen, Mr. William Henry
Name: Name, dtype: object

Есть ещё один вариант обращения к столбцам вида <code>df.column_name</code> (вместо <code>df['column_name']</code>), но он работает если в названии нет пробелов. Однако, одним из минусов использования такой конструкции стоит выделить возможность спутать обращение к колонке с обращением к атрибуту

In [43]:
df.Name.head()

0                              Braund, Mr. Owen Harris
1    Cumings, Mrs. John Bradley (Florence Briggs Th...
2                               Heikkinen, Miss. Laina
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                             Allen, Mr. William Henry
Name: Name, dtype: object

Часто используемым методом при анализе данных (для Series) является <code>value_counts</code>, который позволяет подсчитать количество уникальных значений. Рассчитаем, сколько пассажиров каждого из классов были на корабле

In [44]:
df['Pclass'].value_counts()

3    491
1    216
2    184
Name: Pclass, dtype: int64

Для подсчета значений в процентном соотношении используется значение аргумента <code>normalize=True</code> для метода <code>value_counts</code>

In [45]:
df['Pclass'].value_counts(normalize=True)

3    0.551066
1    0.242424
2    0.206510
Name: Pclass, dtype: float64

Зачастую, такое количество знаков после запятой хранить не нужно, и их уменьшить можно с помощью метода <code>round</code>, который принимает необязательный аргумент - количество знаков после запятой (по умолчанию 0)

In [46]:
df['Pclass'].value_counts(normalize=True).round(2)

3    0.55
1    0.24
2    0.21
Name: Pclass, dtype: float64

Для подсчета уникальных количественных значений с помощью метода <code>value_counts</code> может использоваться атрибут <code>bins</code>, который указывает, на сколько промежутков разбить результат работы метода <code>value_counts</code>

In [47]:
df['Age'].value_counts(bins=3)

(26.947, 53.473]    345
(0.339, 26.947]     319
(53.473, 80.0]       50
Name: Age, dtype: int64

Получить индекс, которому соответствует самое большое или маленькое значение, можно с помощью методов <code>idxmax</code> и <code>idxmin</code> соответственно. Если таких индексов несколько, метод возвращает первое вхождение

In [48]:
df['Age'].idxmax()

630

In [49]:
df['Age'].idxmin()

803

### Фильтрация данных

Серии позволяют совершать операции для всех её элементов. Для примера сравним значения серии для пола со значением 'male'

In [50]:
(df['Sex'] == 'male').head()

0     True
1    False
2    False
3    False
4     True
Name: Sex, dtype: bool

Для использования результатов этого сравнения (серию с типом хранимых значений bool), можно использовать эту серию в <code>loc</code>, где в результате будет возвращен датафрейм (где элементы серии будут равны True). Выведем датафрейм, где будут представлены только мужчины

In [51]:
df.loc[df['Sex'] == 'male'].head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S


Также можно использовать эту конструкцию для вывода значений определенных столбцов для наблюдений, соответствующим некоторому условию. Выведем имена и возраст всех женщин

In [52]:
df.loc[df['Sex'] == 'female', ['Name', 'Sex']].head()

Unnamed: 0,Name,Sex
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female
2,"Heikkinen, Miss. Laina",female
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female
8,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female
9,"Nasser, Mrs. Nicholas (Adele Achem)",female


Также возможна комбинация условий для вывода необходимых строк. Выведем датафрейм, в котором будут женщины старше среднего возраста (средний возраст по всей выборке). Для начала определим средний возраст всех пассажиров с помощью метода <code>mean</code> (<a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html">подробнее о доступных атрибутах и методах для серий</a>)

In [53]:
age_mean = df['Age'].mean()
print(age_mean)

29.69911764705882


Для объединения условий, каждое их из них нужно записать в скобки, а между условиями поставить логические операторы. Для сравнения серий используется немного другие (в отличии от привычных в Python and и or) логические операторы: например, & используется как логический оператор И (вместо and), а | - как оператор ИЛИ (вместо or)

In [54]:
df.loc[(df['Sex'] == 'female') & (df['Age'] > age_mean)].head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S
15,16,1,2,"Hewlett, Mrs. (Mary D Kingcome)",female,55.0,0,0,248706,16.0,,S
18,19,0,3,"Vander Planke, Mrs. Julius (Emelia Maria Vande...",female,31.0,1,0,345763,18.0,,S


В Pandas есть возможность фильтровать данные используя SQL-like синтаксис. Для этого используется метод <code>query</code>, принимающий строку с запросом. Внутри него можно использовать названия колонок (если они без пробелов)

In [55]:
df.query("Sex == 'male'").head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S


Напишем запрос, где выводится датафрейм, содержащий пассажиров младше 15 лет

In [56]:
df.query("Age < 15").head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7,G6,S
14,15,0,3,"Vestrom, Miss. Hulda Amanda Adolfina",female,14.0,0,0,350406,7.8542,,S
16,17,0,3,"Rice, Master. Eugene",male,2.0,4,1,382652,29.125,,Q


В методе query можно использовать также и переменные, но для этого их в запросе нужно экранировать. Выведем датафрейм, в котором пассажиры моложе среднего возраста

In [57]:
age_mean = df['Age'].mean()
df.query("Age < @age_mean").head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


Метод query позволяет также комбинировать условия. Выведем  датафрейм, содержащий пассажиров, старше среднего возраста и которые смогли спастись

In [58]:
df.query("Age > @age_mean & Survived == 1").head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S
15,16,1,2,"Hewlett, Mrs. (Mary D Kingcome)",female,55.0,0,0,248706,16.0,,S
21,22,1,2,"Beesley, Mr. Lawrence",male,34.0,0,0,248698,13.0,D56,S


### Группировка и сортировка данных

Группировка используется для вычисления чего-либо по сгруппированным данным. Для группировка датафрейма используется метод <code>groupby</code>. Сгруппируем датафрейм по полу

In [59]:
df.groupby('Sex')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000002816E7CFC70>

В результате получаем сгруппированный датафрейм, хотя он и не отображается привычным образом. К сгруппированному датафрейму можно также применять методы. Вычислим средние значения количественных характеристик для сгруппированного датафрейма

In [60]:
df.groupby('Sex').mean()

Unnamed: 0_level_0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
female,431.028662,0.742038,2.159236,27.915709,0.694268,0.649682,44.479818
male,454.147314,0.188908,2.389948,30.726645,0.429809,0.235702,25.523893


При группировке индексами становятся сгруппированные переменные (female и male в прошлом примере). Чтобы избежать этого, нужно передать в метод <code>as_index=False</code>

In [61]:
df.groupby('Sex', as_index=False).mean()

Unnamed: 0,Sex,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
0,female,431.028662,0.742038,2.159236,27.915709,0.694268,0.649682,44.479818
1,male,454.147314,0.188908,2.389948,30.726645,0.429809,0.235702,25.523893


Для использования определенных методов к необходимым столбцам, можно использовать метод <code>aggregate</code> для сгруппированных данных. Выведем средние значения возраста и цены билета для мужчин и женщин

In [62]:
df.groupby('Sex', as_index=False).aggregate({'Age': 'mean', 'Fare': 'mean'})

Unnamed: 0,Sex,Age,Fare
0,female,27.915709,44.479818
1,male,30.726645,25.523893


Группировать можно по нескольким переменным. Выведем средние значения возраста и цены билетов для мужчин и женщин учитывая классы кают

In [63]:
df.groupby(['Sex', 'Pclass']).aggregate({'Age': 'mean', 'Fare': 'mean'})

Unnamed: 0_level_0,Unnamed: 1_level_0,Age,Fare
Sex,Pclass,Unnamed: 2_level_1,Unnamed: 3_level_1
female,1,34.611765,106.125798
female,2,28.722973,21.970121
female,3,21.75,16.11881
male,1,41.281386,67.226127
male,2,30.740707,19.741782
male,3,26.507589,12.661633


Однако, подобная мультииндексация при группировке по нескольким переменным весьма сложна для работы, и часто лучше (для простых задач) не изменять индексы

In [64]:
df.groupby(['Sex', 'Pclass'], as_index=False).aggregate({'Age': 'mean', 'Fare': 'mean'})

Unnamed: 0,Sex,Pclass,Age,Fare
0,female,1,34.611765,106.125798
1,female,2,28.722973,21.970121
2,female,3,21.75,16.11881
3,male,1,41.281386,67.226127
4,male,2,30.740707,19.741782
5,male,3,26.507589,12.661633


Для применения различных статистик к нескольким столбцам для сгруппированных переменных, необходимо использовать конструкцию немного отличной от предыдущего примера. Выведем среднее значение, отклонение, максимум и минимум для переменных возраста и стоимости билета для сгруппированных переменных пола и класса каюты

In [65]:
df.groupby(['Sex', 'Pclass'])[['Age', 'Fare']].aggregate(['mean', 'std', 'min', 'max'])

Unnamed: 0_level_0,Unnamed: 1_level_0,Age,Age,Age,Age,Fare,Fare,Fare,Fare
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,std,min,max,mean,std,min,max
Sex,Pclass,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
female,1,34.611765,13.612052,2.0,63.0,106.125798,74.259988,25.9292,512.3292
female,2,28.722973,12.872702,2.0,57.0,21.970121,10.891796,10.5,65.0
female,3,21.75,12.729964,0.75,63.0,16.11881,11.690314,6.75,69.55
male,1,41.281386,15.13957,0.92,80.0,67.226127,77.548021,0.0,512.3292
male,2,30.740707,14.793894,0.67,70.0,19.741782,14.922235,0.0,73.5
male,3,26.507589,12.159514,0.42,74.0,12.661633,11.681696,0.0,69.55


Датафрейм можно сортировать, используя метод <code>sort_values</code>. При сортировке по умолчанию выводятся значения в порядке возрастания (заглавные буквы считаются меньше обычныx). Отсортируем датафрейм по возрасту

In [66]:
df.sort_values('Age').head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
803,804,1,3,"Thomas, Master. Assad Alexander",male,0.42,0,1,2625,8.5167,,C
755,756,1,2,"Hamalainen, Master. Viljo",male,0.67,1,1,250649,14.5,,S
644,645,1,3,"Baclini, Miss. Eugenie",female,0.75,2,1,2666,19.2583,,C
469,470,1,3,"Baclini, Miss. Helene Barbara",female,0.75,2,1,2666,19.2583,,C
78,79,1,2,"Caldwell, Master. Alden Gates",male,0.83,0,2,248738,29.0,,S


Для вывода значений в порядке убываний необходимо использовать параметр <code>ascending=False</code> в методе <code>sort_values</code>. Также для сортировки можно передавать несколько парамтеров. Отсортируем датафрейм по убыванию по значениям возраста и стоимости билета

In [67]:
df.sort_values(['Age', 'Fare'], ascending=False).head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
630,631,1,1,"Barkworth, Mr. Algernon Henry Wilson",male,80.0,0,0,27042,30.0,A23,S
851,852,0,3,"Svensson, Mr. Johan",male,74.0,0,0,347060,7.775,,S
493,494,0,1,"Artagaveytia, Mr. Ramon",male,71.0,0,0,PC 17609,49.5042,,C
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C
116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.75,,Q


Однако, при сортировки по двум столбцам и меняя их порядок с помощью передачи <code>ascending=False</code>, мы меняем порядок сразу для двух столбцов. Для имзенения порядка для определенного столбца, нужно параметры передать в виде списка для аргумента <code>ascending</code>. Отсортируем датаферйм по колонке возраства в порядке убывания и по колонке возраста по возрастанию стоимости билета

In [68]:
df.sort_values(['Age', 'Fare'], ascending=[False, True]).head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
630,631,1,1,"Barkworth, Mr. Algernon Henry Wilson",male,80.0,0,0,27042,30.0,A23,S
851,852,0,3,"Svensson, Mr. Johan",male,74.0,0,0,347060,7.775,,S
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C
493,494,0,1,"Artagaveytia, Mr. Ramon",male,71.0,0,0,PC 17609,49.5042,,C
116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.75,,Q


### Построение таблиц сопряженности и сводных таблиц

Для просмотра того, как наблюдения распределены относительно некоторых переменных, используется таблица сопряженности, вызываемая методом <code>crosstab</code>. Выведим табличное представление распределения всех наблюдений в контексте переменныъ пол и класс кают

In [69]:
pd.crosstab(df['Sex'], df['Pclass'])

Pclass,1,2,3
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,94,76,144
male,122,108,347


Для вывода распределения в процентном соотношении необходимо добавить в методе <code>normalize=True</code>

In [70]:
pd.crosstab(df['Sex'], df['Pclass'], normalize=True)

Pclass,1,2,3
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.105499,0.085297,0.161616
male,0.136925,0.121212,0.38945


В таблице сопряженности можно также выводить общее количество наблюдений для каждой из переменных, как и в процентном соотношении, так и в абсолютном

In [71]:
pd.crosstab(df['Sex'], df['Pclass'], margins=True, normalize=True)

Pclass,1,2,3,All
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,0.105499,0.085297,0.161616,0.352413
male,0.136925,0.121212,0.38945,0.647587
All,0.242424,0.20651,0.551066,1.0


In [72]:
pd.crosstab(df['Sex'], df['Pclass'], margins=True)

Pclass,1,2,3,All
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,94,76,144,314
male,122,108,347,577
All,216,184,491,891


Pandas также позволяет строить сводные таблицы с помощью метода <code>pivot_table</code>, который принимает в качестве параметров:
- values – список переменных, по которым требуется рассчитать нужные статистики;
- index – список переменных, по которым нужно сгруппировать данные;
- aggfunc — сами функции для подсчета статистик.

Выведем сводную по таблицу, где представлены средние значения возраста и цены билеты для каждого класса каюты

In [73]:
df.pivot_table(['Age', 'Fare'], ['Pclass'], aggfunc='mean')

Unnamed: 0_level_0,Age,Fare
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,38.233441,84.154687
2,29.87763,20.662183
3,25.14062,13.67555


## Создание, удаление и изменение столбцов

Для добавления столбца в датафрейм используется метод <code>insert</code>, принимающий следующие параметры:

- loc - номер столбца, после которого нужно вставить необходимую;
- column - название столбца;
- value - значение для всего столбца.

Добавим столбец FarePart со значением fare_sum, которая хранит долю затраченных денег пассажиром на покупку билета от общей суммы стоимости проданных билетов. Данный столбец вставим самым последним (порядковый номер - количество существующих столбцов)

In [74]:
fare_sum = df['Fare'] / df['Fare'].sum()

df.insert(loc=len(df.columns), column='FarePart', value=fare_sum) 
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,FarePart
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0.000253
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0.002484
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0.000276
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,0.001851
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,0.000281


Однако, существует более простой (и часто используемый) способ добавления столбца. Для этого нужно указать название нового для нужного датафрейма и записать значение для этой серии

In [75]:
df['FarePartLite'] = df['Fare'] / df['Fare'].sum()
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,FarePart,FarePartLite
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0.000253,0.000253
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0.002484,0.002484
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0.000276,0.000276
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,0.001851,0.001851
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,0.000281,0.000281


Для создания нескольких столбцов можно использовать метод <code>assign</code>

In [76]:
df = df.assign(TestColumn1=df['Fare']*3, TestColumn2=df['Age']*2)
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,FarePart,FarePartLite,TestColumn1,TestColumn2
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0.000253,0.000253,21.75,44.0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0.002484,0.002484,213.8499,76.0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0.000276,0.000276,23.775,52.0
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,0.001851,0.001851,159.3,70.0
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,0.000281,0.000281,24.15,70.0


Для удаления столбцов используется метод <code>drop</code>. По умолчанию с помощью метода <code>drop</code> удаляются строки, чтобы удалить столбцы - необходимо передать параметр <code>axis=1</code>. Удалим созданные столбцы

In [77]:
df = df.drop(['FarePart', 'FarePartLite', 'TestColumn1', 'TestColumn2'], axis=1)
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Для изменения значений в таблице или столбце можно использовать метод <code>replace</code>. Заменим все значения переменной стоимости билета с нуля на малую величину 0.01 и проверим результат

In [78]:
print('Количество бесплатных билетов до изменения:', df[df['Fare'] == 0].shape[0])
print('Количество условно бесплатных билетов до изменения:', df[df['Fare'] == 0.01].shape[0])
print()
df['Fare'] = df['Fare'].replace(0, 0.01)
print('Количество бесплатных билетов до изменения:', df[df['Fare'] == 0].shape[0])
print('Количество условно бесплатных билетов до изменения:', df[df['Fare'] == 0.01].shape[0])

Количество бесплатных билетов до изменения: 15
Количество условно бесплатных билетов до изменения: 0

Количество бесплатных билетов до изменения: 0
Количество условно бесплатных билетов до изменения: 15


Для замены определенного значения необходима к нему обратиться с помощью <code>loc</code>. Изменим стоимость билета, купленного третьим пассажиром

In [79]:
print('Значение до изменения:', df.loc[2, 'Fare'])
df.loc[2, 'Fare'] = 8.5
print('Значение после изменения:', df.loc[2, 'Fare'])

Значение до изменения: 7.925
Значение после изменения: 8.5


Для применения функций к столбцам можно использовать метод <code>apply</code>. Например, найдем максимальные значения для возраста и цены билета

In [80]:
df[['Age', 'Fare']].apply(np.max)

Age      80.0000
Fare    512.3292
dtype: float64

В методе <code>apply</code> можно применить и свои функции. Создадим новый признак - возрастная категория

In [81]:
def age_category(age):
    if age < 30:
        return 1
    elif age < 55:
        return 2
    else:
        return 3

In [82]:
df['AgeСategory1'] = df['Age'].apply(age_category)
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,AgeСategory1
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,1
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,8.5,,S,1
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,2
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,2


Также в <code>apply</code> можно использовать lambda-функцию

In [83]:
df['AgeСategory2'] = df['Age'].apply(lambda age: 1 if age < 30 else (2 if age < 55 else 3))
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,AgeСategory1,AgeСategory2
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,1,1
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,2,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,8.5,,S,1,1
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,2,2
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,2,2


В рассмотренном примере запись lambda-функции может оказаться сложной и для может пригодиться метод <code>select</code> в библиотеке numpy (<code>np.select</code>)

In [84]:
df['AgeСategory3'] = (
    np.select(
        condlist=[df['Age'] < 30, df['Age'] < 55], 
        choicelist=[1, 2], 
        default=3))
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,AgeСategory1,AgeСategory2,AgeСategory3
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,1,1,1
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,2,2,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,8.5,,S,1,1,1
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,2,2,2
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,2,2,2


Также можно использовать list comprehension для подобного примера

In [85]:
df['AgeСategory4'] = [1 if age < 25 else (2 if age < 55 else 3) for age in df['Age']]
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,AgeСategory1,AgeСategory2,AgeСategory3,AgeСategory4
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,1,1,1,1
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,2,2,2,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,8.5,,S,1,1,1,2
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,2,2,2,2
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,2,2,2,2


Значения можно также устанавливать с помощью перебора в цикле, причем такой метод самый затратный по времени

In [86]:
for i in df.index:
    if df.loc[i, 'Age'] < 25:
        df.loc[i, 'AgeСategory5'] = 1
    elif df.loc[i, 'Age'] < 55:
        df.loc[i, 'AgeСategory5'] = 2
    else:
        df.loc[i, 'AgeСategory5'] = 3

df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,AgeСategory1,AgeСategory2,AgeСategory3,AgeСategory4,AgeСategory5
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,1,1,1,1,1.0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,2,2,2,2,2.0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,8.5,,S,1,1,1,2,2.0
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,2,2,2,2,2.0
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,2,2,2,2,2.0


Получившийся столбец получился с типом float. Изменить его можно используя метод <code>astype</code>

In [87]:
print('Тип значения до изменения:', df['AgeСategory5'].dtypes)
df['AgeСategory5'] = df['AgeСategory5'].astype('int64')
print('Тип значения после изменения:', df['AgeСategory5'].dtypes)

Тип значения до изменения: float64
Тип значения после изменения: int64


Для изменения значений столбца можно использовать метод <code>map</code> для замены значений, передав ему в качестве аргумента словарь вида <code>{old_value: new_value}</code>. Заменим сокращенные названия городов на полные

In [88]:
df['Embarked'] = df['Embarked'].map({'C': 'Cherbourg', 'Q': 'Queenstown', 'S': 'Southampton'})
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,AgeСategory1,AgeСategory2,AgeСategory3,AgeСategory4,AgeСategory5
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,Southampton,1,1,1,1,1
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,Cherbourg,2,2,2,2,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,8.5,,Southampton,1,1,1,2,2
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,Southampton,2,2,2,2,2
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,Southampton,2,2,2,2,2


Данную операцию можно совершить проще с помощью метода <code>replace</code>. Заменим обратно полные названия городов на сокращенные

In [89]:
df['Embarked'] = df['Embarked'].replace({'Cherbourg': 'C', 'Queenstown': 'Q', 'Southampton': 'S'})
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,AgeСategory1,AgeСategory2,AgeСategory3,AgeСategory4,AgeСategory5
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,1,1,1,1,1
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,2,2,2,2,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,8.5,,S,1,1,1,2,2
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,2,2,2,2,2
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,2,2,2,2,2


Рассмотрим также замену названий столбцов с помощью метода rename. Например, стоит заменить столбцы AgeCategory1, AgeCategory2, ..., AgeCategory5 на Test1, Test2, ..., Test5. Для решения этой задачи можно использовать метод rename и передать словарик значений, однако для множественных однотипных изменений можно воспользоваться lambda-функцией с методом <code>replace</code> для атрибута <code>columns</code>

In [90]:
df.rename(columns=lambda col: col.replace('AgeСategory', 'Test')).head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Test1,Test2,Test3,Test4,Test5
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,1,1,1,1,1
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,2,2,2,2,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,8.5,,S,1,1,1,2,2
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,2,2,2,2,2
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,2,2,2,2,2


Удалим последние 5 последних добавочных столбца. Это можно сделать с помощью среза, обратившись к атрибуту <code>columns</code>

In [91]:
df = df.drop(df.columns[-5:], axis=1)
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,8.5,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### Объединение датафреймов

Для объединения наборов данных используется метод <code>merge</code>. Он принимает обязательный параметр - присоединяемый датафрейм, а также необязательные параметры <code>how</code> - способ объединения наборов данных и <code>on</code> - по какому столбцу производится объединение

Описание способов объединения: <br>
https://habr.com/ru/post/448072/ <br>
https://habr.com/ru/post/450528/ <br>

Создадим новые датафреймы, один из которых содержит всех пассажиров старше 35 лет, а другой - содержащий пассажиров, купивших билеты дороже 20

In [92]:
df_age = df.query('Age > 35')
df_age.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S
13,14,0,3,"Andersson, Mr. Anders Johan",male,39.0,1,5,347082,31.275,,S
15,16,1,2,"Hewlett, Mrs. (Mary D Kingcome)",female,55.0,0,0,248706,16.0,,S


In [93]:
df_fare = df.query('Fare > 20')
df_fare.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


Рассмотрим, какие способы объединения существуют в Pandas. Для этого выведим справочную информацию по методу <code>merge</code>

In [94]:
??pd.DataFrame.merge

Согласно справке, Pandas поддерживает следующие способы объединения датафреймов:

- left: use only keys from left frame, similar to a SQL left outer join;
      preserve key order.
- right: use only keys from right frame, similar to a SQL right outer join;
      preserve key order.
- outer: use union of keys from both frames, similar to a SQL full outer
      join; sort keys lexicographically.
- inner: use intersection of keys from both frames, similar to a SQL inner
      join; preserve the order of the left keys.
      
На примерах рассмотрим эти способы объединения

<img src="https://www.w3schools.com/sql/img_innerjoin.gif">

In [95]:
df_age.merge(df_fare, on='PassengerId', how='inner').head()

Unnamed: 0,PassengerId,Survived_x,Pclass_x,Name_x,Sex_x,Age_x,SibSp_x,Parch_x,Ticket_x,Fare_x,...,Pclass_y,Name_y,Sex_y,Age_y,SibSp_y,Parch_y,Ticket_y,Fare_y,Cabin_y,Embarked_y
0,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,...,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
1,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,...,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
2,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,...,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S
3,14,0,3,"Andersson, Mr. Anders Johan",male,39.0,1,5,347082,31.275,...,3,"Andersson, Mr. Anders Johan",male,39.0,1,5,347082,31.275,,S
4,26,1,3,"Asplund, Mrs. Carl Oscar (Selma Augusta Emilia...",female,38.0,1,5,347077,31.3875,...,3,"Asplund, Mrs. Carl Oscar (Selma Augusta Emilia...",female,38.0,1,5,347077,31.3875,,S


In [96]:
print('Размер датасета после объединения с помощью inner:', df_age.merge(df_fare, on='PassengerId', how='inner').shape)

Размер датасета после объединения с помощью inner: (132, 23)


<img src="https://www.w3schools.com/sql/img_fulljoin.gif">

In [97]:
df_age.merge(df_fare, on='PassengerId', how='outer').head()

Unnamed: 0,PassengerId,Survived_x,Pclass_x,Name_x,Sex_x,Age_x,SibSp_x,Parch_x,Ticket_x,Fare_x,...,Pclass_y,Name_y,Sex_y,Age_y,SibSp_y,Parch_y,Ticket_y,Fare_y,Cabin_y,Embarked_y
0,2,1.0,1.0,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1.0,0.0,PC 17599,71.2833,...,1.0,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1.0,0.0,PC 17599,71.2833,C85,C
1,7,0.0,1.0,"McCarthy, Mr. Timothy J",male,54.0,0.0,0.0,17463,51.8625,...,1.0,"McCarthy, Mr. Timothy J",male,54.0,0.0,0.0,17463,51.8625,E46,S
2,12,1.0,1.0,"Bonnell, Miss. Elizabeth",female,58.0,0.0,0.0,113783,26.55,...,1.0,"Bonnell, Miss. Elizabeth",female,58.0,0.0,0.0,113783,26.55,C103,S
3,14,0.0,3.0,"Andersson, Mr. Anders Johan",male,39.0,1.0,5.0,347082,31.275,...,3.0,"Andersson, Mr. Anders Johan",male,39.0,1.0,5.0,347082,31.275,,S
4,16,1.0,2.0,"Hewlett, Mrs. (Mary D Kingcome)",female,55.0,0.0,0.0,248706,16.0,...,,,,,,,,,,


In [98]:
print('Размер датасета после объединения с помощью outer:', df_age.merge(df_fare, on='PassengerId', how='outer').shape)

Размер датасета после объединения с помощью outer: (461, 23)


<img src="https://www.w3schools.com/sql/img_leftjoin.gif">

In [99]:
df_age.merge(df_fare, on='PassengerId', how='left').head()

Unnamed: 0,PassengerId,Survived_x,Pclass_x,Name_x,Sex_x,Age_x,SibSp_x,Parch_x,Ticket_x,Fare_x,...,Pclass_y,Name_y,Sex_y,Age_y,SibSp_y,Parch_y,Ticket_y,Fare_y,Cabin_y,Embarked_y
0,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,...,1.0,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1.0,0.0,PC 17599,71.2833,C85,C
1,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,...,1.0,"McCarthy, Mr. Timothy J",male,54.0,0.0,0.0,17463,51.8625,E46,S
2,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,...,1.0,"Bonnell, Miss. Elizabeth",female,58.0,0.0,0.0,113783,26.55,C103,S
3,14,0,3,"Andersson, Mr. Anders Johan",male,39.0,1,5,347082,31.275,...,3.0,"Andersson, Mr. Anders Johan",male,39.0,1.0,5.0,347082,31.275,,S
4,16,1,2,"Hewlett, Mrs. (Mary D Kingcome)",female,55.0,0,0,248706,16.0,...,,,,,,,,,,


In [100]:
print('Размер датасета после объединения с помощью left:', df_age.merge(df_fare, on='PassengerId', how='left').shape)

Размер датасета после объединения с помощью left: (217, 23)


<img src="https://www.w3schools.com/sql/img_rightjoin.gif">

In [101]:
df_age.merge(df_fare, on='PassengerId', how='right').head()

Unnamed: 0,PassengerId,Survived_x,Pclass_x,Name_x,Sex_x,Age_x,SibSp_x,Parch_x,Ticket_x,Fare_x,...,Pclass_y,Name_y,Sex_y,Age_y,SibSp_y,Parch_y,Ticket_y,Fare_y,Cabin_y,Embarked_y
0,2,1.0,1.0,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1.0,0.0,PC 17599,71.2833,...,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
1,4,,,,,,,,,,...,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
2,7,0.0,1.0,"McCarthy, Mr. Timothy J",male,54.0,0.0,0.0,17463,51.8625,...,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
3,8,,,,,,,,,,...,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
4,10,,,,,,,,,,...,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


In [102]:
print('Размер датасета после объединения с помощью right:', df_age.merge(df_fare, on='PassengerId', how='right').shape)

Размер датасета после объединения с помощью right: (376, 23)


### Сохранение датафрейма в файл

Для сохранения датафрейма в файл в разрешение csv нужно использовать метод <code>to_csv</code> и передав название сохраняемого файла. Сохранить файл можно не только в формате csv, но и во многих <a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html">других</a> (методы, начинающиеся с "to_"). Также полезным атрибутом со значением False является <code>index=False</code>, который не сохраняет в файле индексы датафрейма

In [103]:
df.to_csv('df_test_save.csv', index=False)