In [1]:
import pandas as pd

    В этом руководстве используется набор данных Titanic, сохраненный в формате CSV. Данные состоят из следующих столбцов данных:
    
    * PassengerId: идентификатор каждого пассажира.
    * Survived: указывает, выжил ли пассажир. `0` за да и `1` за нет.
    * Pclass: один из 3 классов билетов: Class `1`, Class `2` и `Class 3`.
    * Name: Имя пассажира.
    * Sex: Пол пассажира.
    * Age: Возраст пассажира в годах.
    * SibSp: Количество братьев и сестер или супругов на борту.
    * Parch: Количество родителей или детей на борту.
    * Ticket: номер билета пассажира.
    * Fare: указание тарифа.
    * Cabin: Номер кабины пассажира.
    * Embarked: Порт посадки.

In [2]:
titanic = pd.read_csv("data/titanic.csv")

titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


# Как выбрать подмножество DataFrame?

## Как выбрать определенные столбцы из DataFrame?

![03_subset_columns](https://pandas.pydata.org/docs/_images/03_subset_columns.svg)

___

⸮ Меня интересует возраст пассажиров Титаника.

In [3]:
ages = titanic["Age"]

ages.head()

0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64

Чтобы выбрать один столбец, используйте квадратные скобки `[]` с именем интересующего столбца.

Каждый столбец в `DataFrame` представляет собой `Series`. Поскольку выбран один столбец, возвращаемый объект представляет собой `Series`. Мы можем убедиться в этом, проверив тип вывода:

In [4]:
type(titanic["Age"])

pandas.core.series.Series

И посмотрите на `shape` вывода:

In [5]:
titanic["Age"].shape

(891,)

`DataFrame.shape` — это атрибут `Series` и `DataFrame` (помните учебник по чтению и записи, не используйте круглые скобки для атрибутов), содержащий количество строк и столбцов: *(nrows, ncolumns)*. `Series` является одномерной, и возвращается только количество строк.

___

⸮ Меня интересует возраст и пол пассажиров Титаника.

In [6]:
age_sex = titanic[["Age", "Sex"]]

age_sex.head()

Unnamed: 0,Age,Sex
0,22.0,male
1,38.0,female
2,26.0,female
3,35.0,female
4,35.0,male


Чтобы выбрать несколько столбцов, используйте список имен столбцов в квадратных скобках выбора `[]`.

*Примечание:*

Внутренние квадратные скобки определяют список Python с именами столбцов, тогда как внешние скобки используются для выбора данных из `DataFrame`, как показано в предыдущем примере, т.е. одни скобки принадлежат списку, а другие скобки принадлежат условию отбора.

Если нужен один стобец в виде `DataFrame` а не `Series`, то можно передать список, состоящий из одного элемента. Т.е. использовать двойные скобки:

In [7]:
titanic[["Age"]].head()

Unnamed: 0,Age
0,22.0
1,38.0
2,26.0
3,35.0
4,35.0


Тип и форма массива:

In [8]:
type(titanic[["Age", "Sex"]])

pandas.core.frame.DataFrame

In [9]:
titanic[["Age", "Sex"]].shape

(891, 2)

## Как отфильтровать определенные строки из DataFrame?

![03_subset_rows](https://pandas.pydata.org/docs/_images/03_subset_rows.svg)

___

⸮ Меня интересуют пассажиры старше 35 лет.

In [10]:
above_35 = titanic[titanic["Age"] > 35]

above_35.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S
13,14,0,3,"Andersson, Mr. Anders Johan",male,39.0,1,5,347082,31.275,,S
15,16,1,2,"Hewlett, Mrs. (Mary D Kingcome)",female,55.0,0,0,248706,16.0,,S


Чтобы выбрать строки на основе условного выражения, используйте условие внутри квадратных скобок выбора `[]`.

Условие внутри скобок выбора `titanic["Age"] > 35` проверяет, для каких строк столбец `Age` имеет значение больше 35:

In [11]:
titanic["Age"] > 35

0      False
1       True
2      False
3      False
4      False
       ...  
886    False
887    False
888    False
889    False
890    False
Name: Age, Length: 891, dtype: bool

Вывод условного выражения (`>`, но также будет работать `==`, `!=`, `<`, `<=`, …) на самом деле представляет собой серию логических значений pandas (либо `True`, либо `False`) с тем же количеством строк, что и исходный `DataFrame`. Такую серию `Series` логических значений можно использовать для фильтрации `DataFrame`, помещая ее между скобками выбора `[]`. Будут выбраны только строки, для которых значение равно `True`.

Мы уже знаем, что оригинальный Titanic `DataFrame` состоит из 891 строки. Давайте посмотрим на количество строк, удовлетворяющих условию, проверив атрибут формы результирующего датафрейма above_35:

In [12]:
above_35.shape

(217, 12)

___

⸮ Меня интересуют пассажиры Титаника из класса обслуживания 2 и 3.

In [13]:
class_23 = titanic[titanic["Pclass"].isin([2, 3])]

class_23.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S


Подобно условному выражению, условная функция `isin()` возвращает значение `True` для каждой строки, значения которой находятся в предоставленном списке. Чтобы отфильтровать строки на основе такой функции, используйте условную функцию внутри скобок выбора `[]`. В этом случае условие внутри скобок выбора `titanic["Pclass"].isin([2, 3])` проверяет, для каких строк столбец `Pclass` имеет значение `2` или `3`.

Вышеупомянутое эквивалентно фильтрации по строкам, для которых класс равен `2` или `3`, и объединению двух операторов с `|` (или) оператор:

In [14]:
class_23 = titanic[(titanic["Pclass"] == 2) | (titanic["Pclass"] == 3)]

class_23.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S


*Примечание:*

При объединении нескольких условных операторов каждое условие должно быть заключено в круглые скобки `()`. Кроме того, вы не можете использовать `or`/`and`, но вам нужно использовать оператор логического ИЛИ `|` и оператор логического И `&`.

___

⸮ Я хочу работать с данными о пассажирах, возраст которых известен.

In [15]:
age_no_na = titanic[titanic["Age"].notna()]

age_no_na.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [16]:
age_no_na.shape

(714, 12)

Условная функция `notna()` возвращает значение `True` для каждой строки, значения которой не являются значением `Null`. Таким образом, это можно комбинировать со скобками выбора `[]` для фильтрации таблицы данных.

## Как выбрать определенные строки и столбцы из DataFrame?

![03_subset_columns_rows](https://pandas.pydata.org/docs/_images/03_subset_columns_rows.svg)

___

⸮ Меня интересуют имена пассажиров старше 35 лет.

In [17]:
adult_names = titanic.loc[titanic["Age"] > 35, "Name"]

adult_names.head()

1     Cumings, Mrs. John Bradley (Florence Briggs Th...
6                               McCarthy, Mr. Timothy J
11                             Bonnell, Miss. Elizabeth
13                          Andersson, Mr. Anders Johan
15                     Hewlett, Mrs. (Mary D Kingcome) 
Name: Name, dtype: object

В этом случае подмножество как строк, так и столбцов создается за один раз, и простого использования скобок выбора `[]` уже недостаточно. Операторы `loc`/`iloc` необходимы перед скобками выбора `[]`. При использовании `loc`/`iloc` часть перед запятой — это нужные вам строки, а часть после запятой — это столбцы, которые вы хотите выбрать.

При использовании имен столбцов, меток строк или выражения условия используйте оператор `loc` перед скобками выбора `[]`. Для части до и после запятой вы можете использовать одну метку, список меток, часть меток, условное выражение или двоеточие. Использование двоеточия указывает, что вы хотите выбрать все строки или столбцы.

In [18]:
adult_names = titanic.loc[titanic["Age"] > 35, ["Name"]]

adult_names.head()

Unnamed: 0,Name
1,"Cumings, Mrs. John Bradley (Florence Briggs Th..."
6,"McCarthy, Mr. Timothy J"
11,"Bonnell, Miss. Elizabeth"
13,"Andersson, Mr. Anders Johan"
15,"Hewlett, Mrs. (Mary D Kingcome)"


In [19]:
adult_names = titanic.loc[titanic["Age"] > 35, ["Name", "Age"]]

adult_names.head()

Unnamed: 0,Name,Age
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",38.0
6,"McCarthy, Mr. Timothy J",54.0
11,"Bonnell, Miss. Elizabeth",58.0
13,"Andersson, Mr. Anders Johan",39.0
15,"Hewlett, Mrs. (Mary D Kingcome)",55.0


___

⸮ Меня интересуют строки с 10 по 25 и столбцы с 3 по 5.

In [20]:
titanic.iloc[9:25, 2:5]

Unnamed: 0,Pclass,Name,Sex
9,2,"Nasser, Mrs. Nicholas (Adele Achem)",female
10,3,"Sandstrom, Miss. Marguerite Rut",female
11,1,"Bonnell, Miss. Elizabeth",female
12,3,"Saundercock, Mr. William Henry",male
13,3,"Andersson, Mr. Anders Johan",male
14,3,"Vestrom, Miss. Hulda Amanda Adolfina",female
15,2,"Hewlett, Mrs. (Mary D Kingcome)",female
16,3,"Rice, Master. Eugene",male
17,2,"Williams, Mr. Charles Eugene",male
18,3,"Vander Planke, Mrs. Julius (Emelia Maria Vande...",female


Опять же, подмножество как строк, так и столбцов создается за один раз, и простого использования скобок выбора `[]` уже недостаточно. Если вас особенно интересуют определенные строки и/или столбцы в зависимости от их положения в таблице, используйте оператор `iloc` перед скобками выбора `[]`.

При выборе определенных строк и/или столбцов с помощью `loc` или `iloc` выбранным данным могут быть присвоены новые значения. Например, чтобы присвоить анонимное имя первым 3 элементам третьего столбца:

In [21]:
titanic.iloc[0:3, 3] = "anonymous"

titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,anonymous,male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,anonymous,female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,anonymous,female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


`iloc` не включает последнее значение в срезе.