# Начало работы с Pandas

<u>Что такое pandas, что позволяет делать и для чего нужен</u>

Для работы понадобятся библиотеки pandas (https://pandas.pydata.org/docs/index.html#) и numpy (https://numpy.org/doc/stable/). Для подключения используем инструкцию import, и для простоты обращения используем сокращенные общепризнанные названия с помощью ключевого слова as

In [1]:
import pandas as pd
import numpy as np

Для чтения набора данных используем метод read_csv для импортированного модуля pandas с сокращенным именем pd. В качестве аргумента этого метода передадим расположение и название файла, а результат запишем в переменную df_test

### Загрузка набора данных и предварительный анализ

In [2]:
df_test = pd.read_csv('train.csv')

Выведем результат загрузки набора данных

In [3]:
df_test

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


Набор данных хранится в табличном виде (<a href="https://pandas.pydata.org/docs/reference/frame.html">датафрейме</a>) и очень удобен для восприятия и работы человеком
Для датафрейма можно вызвать множество методов или обратиться к их атрибутам, рассмотрим некоторые, которые могут пригодиться для первичного анализа

Для вывода первых несколько строк датафрейма используется метод head, для последних стро - метод tail, где в качестве атрибута передается число - количество выводимых строк

In [4]:
df_test.head(5)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [5]:
df_test.tail(5)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


Чтобы оценить размеры датафрейма, можно обратиться к атрибутам shape и size. Атрибут shape хранит количество строк и столбцов в датафрейме в виде <a href="https://pythonworld.ru/tipy-dannyx-v-python/kortezhi-tuple.html">кортежа</a>. Атрибут size содержит количество наблюдей в датафрейме (количество строк * количество столбцов)

In [6]:
df_test.shape

(891, 12)

In [7]:
df_test.size

10692

Названия столбцов хранятся в атрибуте columns

In [8]:
df_test.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

Для датафрейма можно легко получить описательные статистики, вызвав метод describe

In [9]:
df_test.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


Описательные статистики вывелись не для всех столбцов - для их расчета используются количественные переменные (int64 и float). Для просмотра типов хранимых значений обратимся к атрибуту dtypes

In [10]:
df_test.dtypes

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

Получить информацию по всему набору данных можно с помощью метода info. Данный метод позволяет посмотреть основные параметры набора, в том числе и количество пропущенных значений для каждого столбца

In [11]:
df_test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


### Предобработка данных

В исходных, необработанных данных, могут встретиться пропущенные значения, которые затрудняют анализ. Отследить пропущенные значения можно с помощью методов isnull или isna

In [12]:
df_test.isnull()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,False,False,False,False,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,True,False
3,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,True,False
...,...,...,...,...,...,...,...,...,...,...,...,...
886,False,False,False,False,False,False,False,False,False,False,True,False
887,False,False,False,False,False,False,False,False,False,False,False,False
888,False,False,False,False,False,True,False,False,False,False,True,False
889,False,False,False,False,False,False,False,False,False,False,False,False


In [13]:
df_test.isna()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,False,False,False,False,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,True,False
3,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,True,False
...,...,...,...,...,...,...,...,...,...,...,...,...
886,False,False,False,False,False,False,False,False,False,False,True,False
887,False,False,False,False,False,False,False,False,False,False,False,False
888,False,False,False,False,False,True,False,False,False,False,True,False
889,False,False,False,False,False,False,False,False,False,False,False,False


Однако, такое отображение не даёт достаточной информации по всей таблице (затруднительно искать количество пустых значенией в ручную). Для нахождения количества пропущенных значений для каждого столбца можно использовать метод sum()

In [14]:
df_test.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [15]:
df_test.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

Один из вариантов для борьбы с пропущенными значениями - заменить их на какое-либо другое значение, например, на 0. Для этого воспользуемся методом fillna

In [16]:
df_test

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [17]:
df_test.fillna(0)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,0,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,0,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,0,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,0,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,0.0,1,2,W./C. 6607,23.4500,0,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


В наборе данных в переменной, хранящей возраст пассажира, пропущено 177 значений, которые заменили на 0, что портит набор. В таком случае, один из вариантов удалить строки с пропущенными значениями с помощью метода dropna

Важно отметить, что после замены пропущенных значений на 0, изначальный набор данных не изменился, так как переменная не перезаписана на измененный набор данных

In [18]:
df_test

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [19]:
df_test.dropna()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7000,G6,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.5500,C103,S
...,...,...,...,...,...,...,...,...,...,...,...,...
871,872,1,1,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)",female,47.0,1,1,11751,52.5542,D35,S
872,873,0,1,"Carlsson, Mr. Frans Olof",male,33.0,0,0,695,5.0000,B51 B53 B55,S
879,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S


При удалении строк, индексы также удаляются. Чтобы сбросить индексы для измененного датафрейма, необходимо воспользоваться методом reset_index с атрибутом drop=True

In [20]:
df_test.dropna().reset_index(drop=True)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
1,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
2,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
3,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7000,G6,S
4,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.5500,C103,S
...,...,...,...,...,...,...,...,...,...,...,...,...
178,872,1,1,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)",female,47.0,1,1,11751,52.5542,D35,S
179,873,0,1,"Carlsson, Mr. Frans Olof",male,33.0,0,0,695,5.0000,B51 B53 B55,S
180,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C
181,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S


Метод dropna удалил большую часть набора данных, потому что он удалял любую строку, в которой находится хоть одно пропущенное значение для любой переменной. Для удаления пропущенных значений только в определенной переменной, необходимо передать атрибут subset с названиями необходимых столбцов. Удалим все пустые строки по переменной возраста

In [21]:
df_test.dropna(subset=['Age'])

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.1250,,Q
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


В наборе данных могут находиться дубликаты, которые способны испортить анализ. Для нахождения дубликатов используется метод duplicated. Также по анологии с методом fillna можно найти количество найденных дубликатов

In [22]:
df_test.duplicated()

0      False
1      False
2      False
3      False
4      False
       ...  
886    False
887    False
888    False
889    False
890    False
Length: 891, dtype: bool

In [23]:
df_test.duplicated().sum()

0

### Отбор значений в наборе данных

У каждых строк и столбцов таблицы есть название и порядковый номер, с помощью которых можно обращаться к определенных элемента набора данных. Отобрать некоторые значения можно как с помощью индексов (название строки) и названий столбцов, так и с помощью их порядковых номеров

Для отбора значений по порядковому номеру используется iloc, где используются порядковые номера выводимых строк, а затем номера столбцов. Для вывода подряд нескольких значений можно использоваться <a href="https://pythonworld.ru/osnovy/indeksy-i-srezy.html">срезы</a>. Выведем первые три строки и первые 5 столбцов

In [24]:
df_test.iloc[0:3, 0:5]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex
0,1,0,3,"Braund, Mr. Owen Harris",male
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female
2,3,1,3,"Heikkinen, Miss. Laina",female


Также можно вывести несколько определенных строк и столбцов, для этого каждый из них нужно передать в виде списка. Выведем имя и пол (четвертый и пятый столбцы) для первого, третьго и десятого наблюдения

In [25]:
df_test.iloc[[0, 2, 9], [3, 4]]

Unnamed: 0,Name,Sex
0,"Braund, Mr. Owen Harris",male
2,"Heikkinen, Miss. Laina",female
9,"Nasser, Mrs. Nicholas (Adele Achem)",female


Можно отобрать только какие-то наблюдения, не отбирая при этом определенные столбцы. Выведем все значения для 6, 15 и 200 наблюдений

In [26]:
df_test.iloc[[5, 14, 199]]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
14,15,0,3,"Vestrom, Miss. Hulda Amanda Adolfina",female,14.0,0,0,350406,7.8542,,S
199,200,0,2,"Yrois, Miss. Henriette (""Mrs Harbeck"")",female,24.0,0,0,248747,13.0,,S


У каждого наблюдения (строки) есть свое название - то есть индекс. Рассмотрим индексы в датафрейме

In [27]:
df_test.index

RangeIndex(start=0, stop=891, step=1)

Индексы представляют собой последовательность от 0 до 891 с шагом 1, однако часто возникают задачи, где нужны осмысленные названия индексов. Для примера попробуем изменить названия индексов в датафрейме.

Для этого возьмем часть набора данных (первые 100 строк) с помощью среза и сохраним в отдельную переменную df_index_rename. Заменим старую последовательность на новый список индексов new_index с помощью цикла и посмотрим на результат замены

In [28]:
df_index_rename = df_test.iloc[0:100]
new_index = []
i = 1
while i <  df_index_rename.shape[0] + 1:
    new_index.append(str(i) + 'й пассажир')
    i += 1
df_index_rename.index = new_index

df_index_rename

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1й пассажир,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
2й пассажир,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3й пассажир,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
4й пассажир,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
5й пассажир,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
96й пассажир,96,0,3,"Shorney, Mr. Charles Joseph",male,,0,0,374910,8.0500,,S
97й пассажир,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C
98й пассажир,98,1,1,"Greenfield, Mr. William Bertram",male,23.0,0,1,PC 17759,63.3583,D10 D12,C
99й пассажир,99,1,2,"Doling, Mrs. John T (Ada Julia Bone)",female,34.0,0,1,231919,23.0000,,S


Для отбора значений по индексу и названиям столбцов используется loc. Выведем имена и пол для первого, пятого и третьего пассажиров

In [29]:
df_index_rename.loc[['1й пассажир', '5й пассажир', '3й пассажир'], ['Name', 'Sex']]

Unnamed: 0,Name,Sex
1й пассажир,"Braund, Mr. Owen Harris",male
5й пассажир,"Allen, Mr. William Henry",male
3й пассажир,"Heikkinen, Miss. Laina",female


Для сравнения выведем тоже самое с помощью iloc

In [30]:
df_index_rename.iloc[[0, 4, 2], [3, 4]]

Unnamed: 0,Name,Sex
1й пассажир,"Braund, Mr. Owen Harris",male
5й пассажир,"Allen, Mr. William Henry",male
3й пассажир,"Heikkinen, Miss. Laina",female


Механизм отбора строк и столбцов в целом похожи, но есть одно небольшое, но важное различие: при использовании loc правая граница включается, в отличии от iloc и стандартных слайсов в Python 

Например если индексы строк представлены в виде последовательности цифр от нуля, то для вывода первых пяти строк с помощью loc используется:

In [31]:
df_test.loc[:4]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


При этом, вывод первых пяти строк с помощью iloc выглядит следующим образом:

In [32]:
df_test.iloc[:5]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### Как устроены DataFrame и Series

Разберемся чуть подробнее, что из себя представляет датафрейм, и для этого выведем все значения для столбца Name

In [33]:
df_test.loc[:, 'Name']

0                                Braund, Mr. Owen Harris
1      Cumings, Mrs. John Bradley (Florence Briggs Th...
2                                 Heikkinen, Miss. Laina
3           Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                               Allen, Mr. William Henry
                             ...                        
886                                Montvila, Rev. Juozas
887                         Graham, Miss. Margaret Edith
888             Johnston, Miss. Catherine Helen "Carrie"
889                                Behr, Mr. Karl Howell
890                                  Dooley, Mr. Patrick
Name: Name, Length: 891, dtype: object

Значения вывелись не в привычной табличной форме, рассмотрим этот тип данных, сравнив с предыдущим представлением (для имени и пола)

In [34]:
print(type(df_test.loc[:, ['Name', 'Sex']]))
print(type(df_test.loc[:, 'Name']))

<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.series.Series'>


Датафрейм - это строго говоря собранные вместе "Пандасовские серии" (<a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html">Series</a>), где каждый столбец - это серия. Создадим серию

In [35]:
pd.Series([1, 2, 3])

0    1
1    2
2    3
dtype: int64

Серии тажке можно проиндексировать

In [36]:
series1 = pd.Series([1, 2, 3], index=['Первая строка', 'Вторая строка', 'Третья строка'])
series1

Первая строка    1
Вторая строка    2
Третья строка    3
dtype: int64

Создадим вторую серию и создадим из них датафрейм

In [37]:
series2 = pd.Series([11, 22, 33], index=['Первая строка', 'Вторая строка', 'Третья строка'])
pd.DataFrame({'Первый столбец': series1, 'Второй столбец': series2})

Unnamed: 0,Первый столбец,Второй столбец
Первая строка,1,11
Вторая строка,2,22
Третья строка,3,33


Ещё одним важным методом для серии является unique, позволяющий определить уникальные значения. Количество уникальных значений можно также определить, обратившись к атрибуту shape

Количество уникальных значений можно также определить, обратившись к атрибуту shape

In [38]:
df_test.loc[:, 'Name'].unique().shape

(891,)

Важно отметить, что для серии (в кортеже) находится только одно значение в атрибуте shape, в отличии от датафрейма

In [39]:
df_test.loc[:, ['Name']].shape

(891, 1)

### Фильтрация данных

Серии позволяют совершать операции для всех её элементов. Для примера сравним значения серии для пола со значением 'male'

In [40]:
df_test['Sex'] == 'male'

0       True
1      False
2      False
3      False
4       True
       ...  
886     True
887    False
888    False
889     True
890     True
Name: Sex, Length: 891, dtype: bool

Для использования результатов этого сравнения (серию с типом хранимых значений bool), можно использовать эту серию в loc, где в результате будет возвращен датафрейм (где элементы серии будут равны True). Выведем датафрейм, где будут представлены только мужчины

In [41]:
df_test.loc[df_test['Sex'] == 'male']

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.0750,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
883,884,0,2,"Banfield, Mr. Frederick James",male,28.0,0,0,C.A./SOTON 34068,10.5000,,S
884,885,0,3,"Sutehall, Mr. Henry Jr",male,25.0,0,0,SOTON/OQ 392076,7.0500,,S
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


Также можно использовать эту конструкцию для вывода значений определенных столбцов для наблюдений, соответствующим некоторому условию. Выведем имена и возраст всех женщин

In [42]:
df_test.loc[df_test['Sex'] == 'female', ['Name', 'Sex']]

Unnamed: 0,Name,Sex
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female
2,"Heikkinen, Miss. Laina",female
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female
8,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female
9,"Nasser, Mrs. Nicholas (Adele Achem)",female
...,...,...
880,"Shelley, Mrs. William (Imanita Parrish Hall)",female
882,"Dahlberg, Miss. Gerda Ulrika",female
885,"Rice, Mrs. William (Margaret Norton)",female
887,"Graham, Miss. Margaret Edith",female


Также возможна комбинация условий для вывода необходимых строк. Выведем датафрейм, в котором будут женщины старше среднего возраста (средний возраст по всей выборке). Для начала определим средний возраст всех пассажиров с помощью метода mean (<a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html">подробнее о доступных атрибутах и методах для серий</a>)

In [43]:
age_mean = df_test['Age'].mean()
print(age_mean)

29.69911764705882


Для объединения условий, каждое их из них нужно записать в скобки, а между условиями поставить логические операторы. Для сравнения серий используется немного другие (в отличии от привычных в Python and и or) логические операторы: например, & используется как логический оператор И (вместо and), а | - как оператор ИЛИ (вместо or)

In [44]:
df_test.loc[(df_test['Sex'] == 'female') & (df_test['Age'] > age_mean)]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.5500,C103,S
15,16,1,2,"Hewlett, Mrs. (Mary D Kingcome)",female,55.0,0,0,248706,16.0000,,S
18,19,0,3,"Vander Planke, Mrs. Julius (Emelia Maria Vande...",female,31.0,1,0,345763,18.0000,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
862,863,1,1,"Swift, Mrs. Frederick Joel (Margaret Welles Ba...",female,48.0,0,0,17466,25.9292,D17,S
865,866,1,2,"Bystrom, Mrs. (Karolina)",female,42.0,0,0,236852,13.0000,,S
871,872,1,1,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)",female,47.0,1,1,11751,52.5542,D35,S
879,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C


Для упрощения написания запросов можно использовать метод query. Выведем датафрейм, содержащий всех пассажиров мужчин

In [45]:
df_test.query("Sex == 'male'")

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.0750,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
883,884,0,2,"Banfield, Mr. Frederick James",male,28.0,0,0,C.A./SOTON 34068,10.5000,,S
884,885,0,3,"Sutehall, Mr. Henry Jr",male,25.0,0,0,SOTON/OQ 392076,7.0500,,S
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


Напишем запрос, где выводится датафрейм, содержащий пассажиров младше 15 лет

In [46]:
df_test.query("Age < 15")

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.00,3,1,349909,21.0750,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.00,1,0,237736,30.0708,,C
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.00,1,1,PP 9549,16.7000,G6,S
14,15,0,3,"Vestrom, Miss. Hulda Amanda Adolfina",female,14.00,0,0,350406,7.8542,,S
16,17,0,3,"Rice, Master. Eugene",male,2.00,4,1,382652,29.1250,,Q
...,...,...,...,...,...,...,...,...,...,...,...,...
827,828,1,2,"Mallet, Master. Andre",male,1.00,0,2,S.C./PARIS 2079,37.0042,,C
831,832,1,2,"Richards, Master. George Sibley",male,0.83,1,1,29106,18.7500,,S
850,851,0,3,"Andersson, Master. Sigvard Harald Elias",male,4.00,4,2,347082,31.2750,,S
852,853,0,3,"Boulos, Miss. Nourelain",female,9.00,1,1,2678,15.2458,,C


В методе query можно использовать также и переменные, но для этого их в запросе нужно экранировать. Выведем датафрейм, в котором пассажиры моложе среднего возраста

In [47]:
age_mean = df_test['Age'].mean()
df_test.query("Age < @age_mean")

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.0750,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C
...,...,...,...,...,...,...,...,...,...,...,...,...
883,884,0,2,"Banfield, Mr. Frederick James",male,28.0,0,0,C.A./SOTON 34068,10.5000,,S
884,885,0,3,"Sutehall, Mr. Henry Jr",male,25.0,0,0,SOTON/OQ 392076,7.0500,,S
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S


Метод query позволяет также комбинировать условия. Выведем  датафрейм, содержащий пассажиров, старше среднего возраста и которые смогли спастись

In [48]:
df_test.query("Age > @age_mean & Survived == 1")

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.5500,C103,S
15,16,1,2,"Hewlett, Mrs. (Mary D Kingcome)",female,55.0,0,0,248706,16.0000,,S
21,22,1,2,"Beesley, Mr. Lawrence",male,34.0,0,0,248698,13.0000,D56,S
...,...,...,...,...,...,...,...,...,...,...,...,...
857,858,1,1,"Daly, Mr. Peter Denis",male,51.0,0,0,113055,26.5500,E17,S
862,863,1,1,"Swift, Mrs. Frederick Joel (Margaret Welles Ba...",female,48.0,0,0,17466,25.9292,D17,S
865,866,1,2,"Bystrom, Mrs. (Karolina)",female,42.0,0,0,236852,13.0000,,S
871,872,1,1,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)",female,47.0,1,1,11751,52.5542,D35,S


### Группировка и сортировка данных

Для группировка датафрейма используется метод groupby. Сгруппируем датафрейм по полу

In [49]:
df_test.groupby('Sex')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001CEC9EA7160>

В результате получаем сгруппированный датафрейм. К сгруппированному датафрейму можно также применять методы. Вычислим средние значения количественных характеристик для сгруппированного датафрейма

In [50]:
df_test.groupby('Sex').mean()

Unnamed: 0_level_0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
female,431.028662,0.742038,2.159236,27.915709,0.694268,0.649682,44.479818
male,454.147314,0.188908,2.389948,30.726645,0.429809,0.235702,25.523893


При группировке индексами становятся сгруппированные переменные (female и male в прошлом примере). Чтобы избежать этого, нужно передать в метод as_index=False

In [51]:
df_test.groupby('Sex', as_index=False).mean()

Unnamed: 0,Sex,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
0,female,431.028662,0.742038,2.159236,27.915709,0.694268,0.649682,44.479818
1,male,454.147314,0.188908,2.389948,30.726645,0.429809,0.235702,25.523893


Для использования определенных методов к необходимым столбцам, можно использовать aggregate для сгруппированных данных. Выведем средние значения возраста и цены билета для мужчин и женщин

In [52]:
df_test.groupby('Sex', as_index=False).aggregate({'Age': 'mean', 'Fare': 'mean'})

Unnamed: 0,Sex,Age,Fare
0,female,27.915709,44.479818
1,male,30.726645,25.523893


Группировать можно по нескольким переменным. Выведем средние значения возраста и цены билетов для мужчин и женщин учитывая классы кают

In [53]:
df_test.groupby(['Sex', 'Pclass']).aggregate({'Age': 'mean', 'Fare': 'mean'})

Unnamed: 0_level_0,Unnamed: 1_level_0,Age,Fare
Sex,Pclass,Unnamed: 2_level_1,Unnamed: 3_level_1
female,1,34.611765,106.125798
female,2,28.722973,21.970121
female,3,21.75,16.11881
male,1,41.281386,67.226127
male,2,30.740707,19.741782
male,3,26.507589,12.661633


Однако, подобная мультииндексация при группировке по нескольким переменным весьма сложна для работы, и часто лучше (для простых задач) не изменять индексы

In [54]:
df_test.groupby(['Sex', 'Pclass'], as_index=False).aggregate({'Age': 'mean', 'Fare': 'mean'})

Unnamed: 0,Sex,Pclass,Age,Fare
0,female,1,34.611765,106.125798
1,female,2,28.722973,21.970121
2,female,3,21.75,16.11881
3,male,1,41.281386,67.226127
4,male,2,30.740707,19.741782
5,male,3,26.507589,12.661633


Для применения различных статистик к нескольким столбцам для сгруппированных переменных, необходимо использовать конструкцию немного отличной от предыдущего примера. Выведем среднее значение, отклонение, максимум и минимум для переменных возраста и стоимости билета для сгруппированных переменных пола и класса каюты

In [55]:
df_test.groupby(['Sex', 'Pclass'])[['Age', 'Fare']].aggregate(['mean', 'std', 'min', 'max'])

Unnamed: 0_level_0,Unnamed: 1_level_0,Age,Age,Age,Age,Fare,Fare,Fare,Fare
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,std,min,max,mean,std,min,max
Sex,Pclass,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
female,1,34.611765,13.612052,2.0,63.0,106.125798,74.259988,25.9292,512.3292
female,2,28.722973,12.872702,2.0,57.0,21.970121,10.891796,10.5,65.0
female,3,21.75,12.729964,0.75,63.0,16.11881,11.690314,6.75,69.55
male,1,41.281386,15.13957,0.92,80.0,67.226127,77.548021,0.0,512.3292
male,2,30.740707,14.793894,0.67,70.0,19.741782,14.922235,0.0,73.5
male,3,26.507589,12.159514,0.42,74.0,12.661633,11.681696,0.0,69.55


Датафрейм можно сортировать, используя метод sort_values. При сортировке по умолчанию выводятся значения в порядке возрастания. Отсортируем датафрейм по возрасту

In [56]:
df_test.sort_values('Age')

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
803,804,1,3,"Thomas, Master. Assad Alexander",male,0.42,0,1,2625,8.5167,,C
755,756,1,2,"Hamalainen, Master. Viljo",male,0.67,1,1,250649,14.5000,,S
644,645,1,3,"Baclini, Miss. Eugenie",female,0.75,2,1,2666,19.2583,,C
469,470,1,3,"Baclini, Miss. Helene Barbara",female,0.75,2,1,2666,19.2583,,C
78,79,1,2,"Caldwell, Master. Alden Gates",male,0.83,0,2,248738,29.0000,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
859,860,0,3,"Razi, Mr. Raihed",male,,0,0,2629,7.2292,,C
863,864,0,3,"Sage, Miss. Dorothy Edith ""Dolly""",female,,8,2,CA. 2343,69.5500,,S
868,869,0,3,"van Melkebeke, Mr. Philemon",male,,0,0,345777,9.5000,,S
878,879,0,3,"Laleff, Mr. Kristo",male,,0,0,349217,7.8958,,S


Для вывода значений в порядке убываний необходимо использовать параметр ascending=False в методе sort_values. Также для сортировки можно передавать несколько парамтеров. Отсортируем датафрейм по убыванию по значениям возраста и стоимости билета

In [57]:
df_test.sort_values(['Age', 'Fare'], ascending=False)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
630,631,1,1,"Barkworth, Mr. Algernon Henry Wilson",male,80.0,0,0,27042,30.0000,A23,S
851,852,0,3,"Svensson, Mr. Johan",male,74.0,0,0,347060,7.7750,,S
493,494,0,1,"Artagaveytia, Mr. Ramon",male,71.0,0,0,PC 17609,49.5042,,C
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C
116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.7500,,Q
...,...,...,...,...,...,...,...,...,...,...,...,...
481,482,0,2,"Frost, Mr. Anthony Wood ""Archie""",male,,0,0,239854,0.0000,,S
633,634,0,1,"Parr, Mr. William Henry Marsh",male,,0,0,112052,0.0000,,S
674,675,0,2,"Watson, Mr. Ennis Hastings",male,,0,0,239856,0.0000,,S
732,733,0,2,"Knight, Mr. Robert J",male,,0,0,239855,0.0000,,S


### Построение таблиц сопряженности и сводных таблиц

Для просмотра того, как наблюдения распределены относительно некоторых переменных, используется таблица сопряженности, вызываемая методом crosstab. Выведим табличное представление распределения всех наблюдений в контексте переменныъ пол и класс кают

In [58]:
pd.crosstab(df_test['Sex'], df_test['Pclass'])

Pclass,1,2,3
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,94,76,144
male,122,108,347


Для вывода распределения в процентном соотношении необходимо добавить в методе normalize=True

In [59]:
pd.crosstab(df_test['Sex'], df_test['Pclass'], normalize=True)

Pclass,1,2,3
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.105499,0.085297,0.161616
male,0.136925,0.121212,0.38945


В таблице сопряженности можно также выводить общее количество наблюдений для каждой из переменных, как и в процентном соотношении, так и в абсолютном

In [60]:
pd.crosstab(df_test['Sex'], df_test['Pclass'], margins=True, normalize=True)

Pclass,1,2,3,All
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,0.105499,0.085297,0.161616,0.352413
male,0.136925,0.121212,0.38945,0.647587
All,0.242424,0.20651,0.551066,1.0


In [61]:
pd.crosstab(df_test['Sex'], df_test['Pclass'], margins=True)

Pclass,1,2,3,All
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,94,76,144,314
male,122,108,347,577
All,216,184,491,891


Pandas также позволяет строить сводные таблицы с помощью метода pivot_table, который принимает в качестве параметров:
- values – список переменных, по которым требуется рассчитать нужные статистики;
- index – список переменных, по которым нужно сгруппировать данные;
- aggfunc — сами функции для подсчета статистик.

Выведем сводную по таблицу, где представлены средние значения возраста и цены билеты для каждого класса каюты

In [62]:
df_test.pivot_table(['Age', 'Fare'], ['Pclass'], aggfunc='mean')

Unnamed: 0_level_0,Age,Fare
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,38.233441,84.154687
2,29.87763,20.662183
3,25.14062,13.67555


## Создание, удаление и изменение столбцов

Для добавления столбца в датафрейм используется метод insert, принимающий следующие параметры:

- loc - номер столбца, после которого нужно вставить необходимую;
- column - название столбца;
- value - значение для всего столбца.

Добавим столбец FarePart со значением, fare_sum, которая хранит долю затраченных денег пассажиром на покупку билета от общей суммы стоимости проданных билетов. Данный столбец вставим самым последним (порядковый номер - количество существующих столбцов)

In [63]:
fare_sum = df_test['Fare'] / df_test['Fare'].sum()

df_test.insert(loc=len(df_test.columns), column='FarePart', value=fare_sum) 
df_test

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,FarePart
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S,0.000253
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0.002484
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S,0.000276
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S,0.001851
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S,0.000281
...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S,0.000453
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S,0.001046
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S,0.000817
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C,0.001046


Однако, существует более простой способ добавления столбца. Для этого нужно указать название нового для нужного датафрейма и записать значение для этой серии

In [64]:
df_test['FarePartLite'] = df_test['Fare'] / df_test['Fare'].sum()
df_test

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,FarePart,FarePartLite
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S,0.000253,0.000253
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0.002484,0.002484
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S,0.000276,0.000276
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S,0.001851,0.001851
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S,0.000281,0.000281
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S,0.000453,0.000453
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S,0.001046,0.001046
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S,0.000817,0.000817
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C,0.001046,0.001046


Для создания нескольких столбцов можно использовать метод assign

In [65]:
df_test = df_test.assign(TestColumn1 = '123', TestColumn2 = '456')
df_test

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,FarePart,FarePartLite,TestColumn1,TestColumn2
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S,0.000253,0.000253,123,456
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0.002484,0.002484,123,456
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S,0.000276,0.000276,123,456
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S,0.001851,0.001851,123,456
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S,0.000281,0.000281,123,456
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S,0.000453,0.000453,123,456
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S,0.001046,0.001046,123,456
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S,0.000817,0.000817,123,456
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C,0.001046,0.001046,123,456


Для удаления столбцов используется метод drop. По умолчанию с помощью метода drop удаляются строки, чтобы удалить столбцы - необходимо передать параметр axis=1. Удалим созданные столбцы

In [66]:
df_test = df_test.drop(['FarePart', 'FarePartLite', 'TestColumn1', 'TestColumn2'], axis=1)
df_test

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


Для изменения значений в таблице или столбце можно использовать метод replace. Заменим все значения переменной стоимости билета с нуля на малую величину 0.01 и проверим результат

In [67]:
print('Количество бесплатных билетов до изменения:', df_test[df_test['Fare'] == 0].shape[0])
print('Количество условно бесплатных билетов до изменения:', df_test[df_test['Fare'] == 0.01].shape[0])
print()
df_test['Fare'] = df_test['Fare'].replace(0, 0.01)
print('Количество бесплатных билетов до изменения:', df_test[df_test['Fare'] == 0].shape[0])
print('Количество условно бесплатных билетов до изменения:', df_test[df_test['Fare'] == 0.01].shape[0])

Количество бесплатных билетов до изменения: 15
Количество условно бесплатных билетов до изменения: 0

Количество бесплатных билетов до изменения: 0
Количество условно бесплатных билетов до изменения: 15


Для замены определенного значения необходима к нему обратиться с помощью loc. Изменим стоимость билета, купленного третьим пассажиром

In [68]:
print('Значение до изменения:', df_test.loc[2, 'Fare'])
df_test.loc[2, 'Fare'] = 8.5
print('Значение после изменения:', df_test.loc[2, 'Fare'])

Значение до изменения: 7.925
Значение после изменения: 8.5


Для применения функций к столбцам можно использовать метод apply. Например, найдем максимальные значения для возраста и цены билета

In [69]:
df_test[['Age', 'Fare']].apply(np.max)

Age      80.0000
Fare    512.3292
dtype: float64

В методе apply можно применить и свои функции. Создадим новый признак - возрастная категория

In [70]:
def age_category(age):
    if age < 30:
        return 1
    elif age < 55:
        return 2
    else:
        return 3

In [71]:
df_test['AgeСategory1'] = df_test['Age'].apply(age_category)
df_test

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,AgeСategory1
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S,1
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,8.5000,,S,1
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S,2
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S,1
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S,1
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S,3
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C,1


Также в apply можно использовать lambda функции

In [72]:
df_test['AgeСategory2'] = df_test['Age'].apply(lambda age: 1 if age < 30 else (2 if age < 55 else 3))
df_test

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,AgeСategory1,AgeСategory2
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S,1,1
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,2,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,8.5000,,S,1,1
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S,2,2
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S,2,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S,1,1
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S,1,1
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S,3,3
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C,1,1


В рассмотренном примере запись lambda функции может оказаться сложной и для может пригодиться метод select в библиотеке numpy

In [73]:
df_test['AgeСategory3'] = (
    np.select(
        condlist=[df_test['Age'] < 30, df_test['Age'] < 55], 
        choicelist=[1, 2], 
        default=3))
df_test

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,AgeСategory1,AgeСategory2,AgeСategory3
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S,1,1,1
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,2,2,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,8.5000,,S,1,1,1
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S,2,2,2
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S,2,2,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S,1,1,1
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S,1,1,1
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S,3,3,3
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C,1,1,1


Также можно использовать list comprehension для подобного примера

In [74]:
df_test['AgeСategory4'] = [1 if age < 25 else (2 if age < 55 else 3) for age in  df_test['Age']]
df_test

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,AgeСategory1,AgeСategory2,AgeСategory3,AgeСategory4
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S,1,1,1,1
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,2,2,2,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,8.5000,,S,1,1,1,2
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S,2,2,2,2
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S,2,2,2,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S,1,1,1,2
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S,1,1,1,1
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S,3,3,3,3
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C,1,1,1,2


Значения можно также устанавливать с помощью перебора в цикле, причем такой метод более затратный по времени

In [75]:
for i in df_test.index:
    if df_test.loc[i, 'Age'] < 25:
        df_test.loc[i, 'AgeСategory5'] = 1
    elif df_test.loc[i, 'Age'] < 55:
        df_test.loc[i, 'AgeСategory5'] = 2
    else:
        df_test.loc[i, 'AgeСategory5'] = 3

df_test

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,AgeСategory1,AgeСategory2,AgeСategory3,AgeСategory4,AgeСategory5
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S,1,1,1,1,1.0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,2,2,2,2,2.0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,8.5000,,S,1,1,1,2,2.0
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S,2,2,2,2,2.0
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S,2,2,2,2,2.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S,1,1,1,2,2.0
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S,1,1,1,1,1.0
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S,3,3,3,3,3.0
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C,1,1,1,2,2.0


Получившийся столбец получился с типом float. Изменить его можно используя метод astype

In [76]:
print('Тип значения до изменения:', df_test['AgeСategory5'].dtypes)
df_test['AgeСategory5'] = df_test['AgeСategory5'].astype('int64')
print('Тип значения после изменения:', df_test['AgeСategory5'].dtypes)

Тип значения до изменения: float64
Тип значения после изменения: int64


Для изменения значений столбца можно использовать метод map для замены значений, передав ему в качестве аргумента словарь вида {old_value: new_value}. Заменим сокращенные названия городов на полные

In [77]:
df_test['Embarked'] = df_test['Embarked'].map({'C': 'Cherbourg', 'Q': 'Queenstown', 'S': 'Southampton'})
df_test

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,AgeСategory1,AgeСategory2,AgeСategory3,AgeСategory4,AgeСategory5
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,Southampton,1,1,1,1,1
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,Cherbourg,2,2,2,2,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,8.5000,,Southampton,1,1,1,2,2
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,Southampton,2,2,2,2,2
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,Southampton,2,2,2,2,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,Southampton,1,1,1,2,2
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,Southampton,1,1,1,1,1
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,Southampton,3,3,3,3,3
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,Cherbourg,1,1,1,2,2


Данную операцию можно совершить проще с помощью метода replace. Заменим обратно полные названия городов на сокращенные

In [78]:
df_test['Embarked'] = df_test['Embarked'].replace({'Cherbourg': 'C', 'Queenstown': 'Q', 'Southampton': 'S'})
df_test

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,AgeСategory1,AgeСategory2,AgeСategory3,AgeСategory4,AgeСategory5
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S,1,1,1,1,1
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,2,2,2,2,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,8.5000,,S,1,1,1,2,2
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S,2,2,2,2,2
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S,2,2,2,2,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S,1,1,1,2,2
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S,1,1,1,1,1
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S,3,3,3,3,3
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C,1,1,1,2,2
