In [1]:
"""Библиотека Pandas."""

'Библиотека Pandas.'

In [None]:
# импортируем модуль sqlite3 для работы с базой данных SQL
import sqlite3 as sql

import numpy as np
import pandas as pd

In [None]:
# Создание датафрейма
# Способ 1. Создание датафрейма из файла

# функция read_csv() распознает zip-архивы,
# в архиве может содержаться только один файл
csv_zip = pd.read_csv(r"K:\Storage\makarov\train.zip")
csv_zip.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [4]:
# импортируем данные в формате Excel, указав номер листа,
# который хотим использовать
excel_data = pd.read_excel(r"K:\Storage\makarov\iris.xlsx", sheet_name=0)
excel_data.head(3)

Unnamed: 0,Petal_width,Petal_length,Sepal_width,Sepal_length,Species_name
0,0.2,1.4,3.5,5.1,Setosa
1,0.2,1.4,3.0,4.9,Setosa
2,0.2,1.3,3.2,4.7,Setosa


In [None]:
# Файл в формате html.
# передадим соответствующую ссылку в функцию pd.read_html()
# в параметре match укажем ключевые слова, которые
# помогут найти нужную таблицу
html_data = pd.read_html(
    "https://en.wikipedia.org/wiki/World_population", match="World population"
)

# # мы получили пять результатов
len(html_data)

In [None]:
html_data[0]

In [8]:
# Способ 2. Подключение к базе данных SQL


# создадим соединение с базой данных chinook
conn = sql.connect(r"K:\Storage\makarov\chinook.db")

# выберем все строки из таблицы tracks
sql_data = pd.read_sql("SELECT * FROM tracks;", conn)  # vs. read_sql_query

# посмотрим на результат
sql_data.head(3)

Unnamed: 0,TrackId,Name,AlbumId,MediaTypeId,GenreId,Composer,Milliseconds,Bytes,UnitPrice
0,1,For Those About To Rock (We Salute You),1,1,1,"Angus Young, Malcolm Young, Brian Johnson",343719,11170334,0.99
1,2,Balls to the Wall,2,2,1,,342562,5510424,0.99
2,3,Fast As a Shark,3,2,1,"F. Baltes, S. Kaufman, U. Dirkscneider & W. Ho...",230619,3990994,0.99


In [None]:
# Способ 3. Создание датафрейма из словаря

# создадим несколько списков и массивов Numpy
# с информацией о семи странах мира
country = np.array(
    [
        "China",
        "Vietnam",
        "United Kingdom",
        "Russia",
        "Argentina",
        "Bolivia",
        "South Africa",
    ]
)
capital = ["Beijing", "Hanoi", "London", "Moscow", "Buenos Aires", "Sucre", "Pretoria"]
population = [1400, 97, 67, 144, 45, 12, 59]  # млн. человек
area = [9.6, 0.3, 0.2, 17.1, 2.8, 1.1, 1.2]  # млн. кв. км.
sea = [1] * 5 + [0, 1]  # выход к морю (в этом списке его нет только у Боливии)

In [None]:
# создадим пустой словарь
countries_dict = {}

# превратим эти списки в значения словаря,
# одновременно снабдив необходимыми ключами
countries_dict["country"] = country
countries_dict["capital"] = capital  # type: ignore[assignment]
countries_dict["population"] = population  # type: ignore[assignment]
countries_dict["area"] = area  # type: ignore[assignment]
countries_dict["sea"] = sea  # type: ignore[assignment]

In [11]:
# посмотрим на результат
countries_dict

{'country': array(['China', 'Vietnam', 'United Kingdom', 'Russia', 'Argentina',
        'Bolivia', 'South Africa'], dtype='<U14'),
 'capital': ['Beijing',
  'Hanoi',
  'London',
  'Moscow',
  'Buenos Aires',
  'Sucre',
  'Pretoria'],
 'population': [1400, 97, 67, 144, 45, 12, 59],
 'area': [9.6, 0.3, 0.2, 17.1, 2.8, 1.1, 1.2],
 'sea': [1, 1, 1, 1, 1, 0, 1]}

In [12]:
# создадим датафрейм
countries = pd.DataFrame(countries_dict)
countries

Unnamed: 0,country,capital,population,area,sea
0,China,Beijing,1400,9.6,1
1,Vietnam,Hanoi,97,0.3,1
2,United Kingdom,London,67,0.2,1
3,Russia,Moscow,144,17.1,1
4,Argentina,Buenos Aires,45,2.8,1
5,Bolivia,Sucre,12,1.1,0
6,South Africa,Pretoria,59,1.2,1


In [14]:
# Способ 4. Создание датафрейма из 2D массива Numpy

# внешнее измерение будет столбцами, внутренее - строками
arr = np.array([[1, 1, 1], [2, 2, 2], [3, 3, 3]])

pd.DataFrame(arr)

Unnamed: 0,0,1,2
0,1,1,1
1,2,2,2
2,3,3,3


In [None]:
# Структура и свойства датафрейма
# Датафрейм библиотеки Pandas состоит из трех основных компонентов:
# строк (index), столбцов (columns) и значений (values).

# выведем столбцы датафрейма countries
countries.columns

Index(['country', 'capital', 'population', 'area', 'sea'], dtype='object')

In [16]:
# в нашем случае индекс это числовая последовательность
countries.index

RangeIndex(start=0, stop=7, step=1)

In [None]:
# значения выводятся в формате массива Numpy
countries.values

array([['China', 'Beijing', 1400, 9.6, 1],
       ['Vietnam', 'Hanoi', 97, 0.3, 1],
       ['United Kingdom', 'London', 67, 0.2, 1],
       ['Russia', 'Moscow', 144, 17.1, 1],
       ['Argentina', 'Buenos Aires', 45, 2.8, 1],
       ['Bolivia', 'Sucre', 12, 1.1, 0],
       ['South Africa', 'Pretoria', 59, 1.2, 1]], dtype=object)

In [None]:
# выведем описание индекса датафрейма через атрибут axes[0]
countries.axes[0]

RangeIndex(start=0, stop=7, step=1)

In [19]:
# axes[1] выводит названия столбцов
countries.axes[1]

Index(['country', 'capital', 'population', 'area', 'sea'], dtype='object')

In [20]:
countries.ndim, countries.shape, countries.size

(2, (7, 5), 35)

In [22]:
# Атрибут dtypes выдает тип данных каждого столбца.

countries.dtypes

country        object
capital        object
population      int64
area          float64
sea             int64
dtype: object

In [23]:
# Кроме того, с помощью метода .memory_usage() мы можем посмотреть
# объем занимаемой памяти по столбцам в байтах.

countries.memory_usage()

Index         132
country        56
capital        56
population     56
area           56
sea            56
dtype: int64

In [None]:
# Индекс датафрейма
# Присвоение индекса

# создадим список с кодами стран
custom_index = ["CN", "VN", "GB", "RU", "AR", "BO", "ZA"]

# создадим датафрейм из словаря и передадим список через параметр index
countries = pd.DataFrame(countries_dict, index=custom_index)

# посмотрим на результат
countries

Unnamed: 0,country,capital,population,area,sea
CN,China,Beijing,1400,9.6,1
VN,Vietnam,Hanoi,97,0.3,1
GB,United Kingdom,London,67,0.2,1
RU,Russia,Moscow,144,17.1,1
AR,Argentina,Buenos Aires,45,2.8,1
BO,Bolivia,Sucre,12,1.1,0
ZA,South Africa,Pretoria,59,1.2,1


In [25]:
# Этот индекс можно сбросить с помощью метода .reset_index().

# при этом параметр inplace = True сделает изменения постоянными
countries.reset_index(inplace=True)
countries

Unnamed: 0,index,country,capital,population,area,sea
0,CN,China,Beijing,1400,9.6,1
1,VN,Vietnam,Hanoi,97,0.3,1
2,GB,United Kingdom,London,67,0.2,1
3,RU,Russia,Moscow,144,17.1,1
4,AR,Argentina,Buenos Aires,45,2.8,1
5,BO,Bolivia,Sucre,12,1.1,0
6,ZA,South Africa,Pretoria,59,1.2,1


In [26]:
# Как мы видим, прошлый индекс стал отдельным столбцом.
# Снова сделаем этот столбец индексом
# с помощью метода .set_index().

# передадим методу название столбца, который хотим сделать индексом
countries.set_index("index", inplace=True)
countries

Unnamed: 0_level_0,country,capital,population,area,sea
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
CN,China,Beijing,1400,9.6,1
VN,Vietnam,Hanoi,97,0.3,1
GB,United Kingdom,London,67,0.2,1
RU,Russia,Moscow,144,17.1,1
AR,Argentina,Buenos Aires,45,2.8,1
BO,Bolivia,Sucre,12,1.1,0
ZA,South Africa,Pretoria,59,1.2,1


In [27]:
# Еще раз сбросим индекс, но на этот раз не будем делать его отдельным
# столбцом. Для этого передадим методу .reset_index() параметр drop = True.

countries.reset_index(drop=True, inplace=True)
countries

Unnamed: 0,country,capital,population,area,sea
0,China,Beijing,1400,9.6,1
1,Vietnam,Hanoi,97,0.3,1
2,United Kingdom,London,67,0.2,1
3,Russia,Moscow,144,17.1,1
4,Argentina,Buenos Aires,45,2.8,1
5,Bolivia,Sucre,12,1.1,0
6,South Africa,Pretoria,59,1.2,1


In [28]:
# Собственный индекс можно создать, просто поместив
# новые значения в атрибут index.


countries.index = custom_index
countries

Unnamed: 0,country,capital,population,area,sea
CN,China,Beijing,1400,9.6,1
VN,Vietnam,Hanoi,97,0.3,1
GB,United Kingdom,London,67,0.2,1
RU,Russia,Moscow,144,17.1,1
AR,Argentina,Buenos Aires,45,2.8,1
BO,Bolivia,Sucre,12,1.1,0
ZA,South Africa,Pretoria,59,1.2,1


In [29]:
# Многоуровневый индекс

# Многоуровневый (MultiIndex) или иерархический (hierarchical) индекс
# позволяет задать несколько уровней (levels) для индексации строк или столбцов

# создадим список из кортежей с названием континента и кодом страны
rows = [
    ("Asia", "CN"),
    ("Asia", "VN"),
    ("Europe", "GB"),
    ("Europe", "RU"),
    ("S. America", "AR"),
    ("S. America", "BO"),
    ("Africa", "ZA"),
]

In [30]:
# в столбцах название страны и столицы мы объединим в категорию names
# а размер населения, площадь и выход к морю в data

cols = [
    ("names", "country"),
    ("names", "capital"),
    ("data", "population"),
    ("data", "area"),
    ("data", "sea"),
]

In [31]:
# Теперь создадим иерархический индекс для строк и столбцов
# с помощью функции pd.MultiIndex.from_tuples().

# создадим многоуровневый индекс для строк
# индексам присвоим названия через names = ['region', 'code']
custom_multindex = pd.MultiIndex.from_tuples(rows, names=["region", "code"])

# сделаем то же самое для столбцов
custom_multicols = pd.MultiIndex.from_tuples(cols)

In [32]:
countries.index = custom_multindex
countries.columns = custom_multicols

countries

Unnamed: 0_level_0,Unnamed: 1_level_0,names,names,data,data,data
Unnamed: 0_level_1,Unnamed: 1_level_1,country,capital,population,area,sea
region,code,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Asia,CN,China,Beijing,1400,9.6,1
Asia,VN,Vietnam,Hanoi,97,0.3,1
Europe,GB,United Kingdom,London,67,0.2,1
Europe,RU,Russia,Moscow,144,17.1,1
S. America,AR,Argentina,Buenos Aires,45,2.8,1
S. America,BO,Bolivia,Sucre,12,1.1,0
Africa,ZA,South Africa,Pretoria,59,1.2,1


In [33]:
# вернемся к обычному индексу и названиям столбцов
custom_cols = ["country", "capital", "population", "area", "sea"]

countries.index = custom_index
countries.columns = custom_cols

countries

Unnamed: 0,country,capital,population,area,sea
CN,China,Beijing,1400,9.6,1
VN,Vietnam,Hanoi,97,0.3,1
GB,United Kingdom,London,67,0.2,1
RU,Russia,Moscow,144,17.1,1
AR,Argentina,Buenos Aires,45,2.8,1
BO,Bolivia,Sucre,12,1.1,0
ZA,South Africa,Pretoria,59,1.2,1


In [None]:
# Преобразование в другие форматы
# Получившийся датафрейм можно преобразовать в словарь с помощью метода .to_dict().

print(countries.to_dict())

{'country': {'CN': 'China', 'VN': 'Vietnam', 'GB': 'United Kingdom', 'RU': 'Russia', 'AR': 'Argentina', 'BO': 'Bolivia', 'ZA': 'South Africa'}, 'capital': {'CN': 'Beijing', 'VN': 'Hanoi', 'GB': 'London', 'RU': 'Moscow', 'AR': 'Buenos Aires', 'BO': 'Sucre', 'ZA': 'Pretoria'}, 'population': {'CN': 1400, 'VN': 97, 'GB': 67, 'RU': 144, 'AR': 45, 'BO': 12, 'ZA': 59}, 'area': {'CN': 9.6, 'VN': 0.3, 'GB': 0.2, 'RU': 17.1, 'AR': 2.8, 'BO': 1.1, 'ZA': 1.2}, 'sea': {'CN': 1, 'VN': 1, 'GB': 1, 'RU': 1, 'AR': 1, 'BO': 0, 'ZA': 1}}


In [35]:
# Аналогично, метод .to_numpy() преобразовывает данные в массив Numpy.

countries.to_numpy()

array([['China', 'Beijing', 1400, 9.6, 1],
       ['Vietnam', 'Hanoi', 97, 0.3, 1],
       ['United Kingdom', 'London', 67, 0.2, 1],
       ['Russia', 'Moscow', 144, 17.1, 1],
       ['Argentina', 'Buenos Aires', 45, 2.8, 1],
       ['Bolivia', 'Sucre', 12, 1.1, 0],
       ['South Africa', 'Pretoria', 59, 1.2, 1]], dtype=object)

In [36]:
# по умолчанию, индекс также станет частью .csv файла
# параметр index = False позволит этого избежать
countries.to_csv("countries.csv", index=False)

In [37]:
# Метод .to_list() позволяет преобразовать объект Series
# (столбец датафрейма) в список.

print(countries.country.to_list())

['China', 'Vietnam', 'United Kingdom', 'Russia', 'Argentina', 'Bolivia', 'South Africa']


In [None]:
# Создание Series
country_list = [
    "China",
    "South Africa",
    "United Kingdom",
    "Russia",
    "Argentina",
    "Vietnam",
    "Australia",
]

In [None]:
country_series = pd.Series(country_list)
country_series

0             China
1      South Africa
2    United Kingdom
3            Russia
4         Argentina
5           Vietnam
6         Australia
dtype: object

In [None]:
# например, выведем первый элемент
country_series[0]

'China'

In [42]:
# Создание Series из словаря

country_dict = {
    "CN": "China",
    "ZA": "South Africa",
    "GB": "United Kingdom",
    "RU": "Russia",
    "AR": "Argentina",
    "VN": "Vietnam",
    "AU": "Australia",
}

In [None]:
country_series = pd.Series(country_dict)
country_series

CN             China
ZA      South Africa
GB    United Kingdom
RU            Russia
AR         Argentina
VN           Vietnam
AU         Australia
dtype: object

In [None]:
country_series["AU"]

'Australia'

In [None]:
# Доступ к строкам, столбцам и элементам
# Циклы в датафрейме
# Цикл for позволяет получить доступ к названиям столбцов датафрейма.

for column in countries:
    print(column)

country
capital
population
area
sea


In [46]:
# Метод .iterrows() возвращает индекс строки и ее содержимое в формате Series.

# прервем цикл после первой итерации с помощью break
for index, row in countries.iterrows():
    print(index)
    print(row)
    print("...")
    print(type(row))
    break

CN
country         China
capital       Beijing
population       1400
area              9.6
sea                 1
Name: CN, dtype: object
...
<class 'pandas.core.series.Series'>


In [47]:
# Получить доступ к элементам одной строки можно
# по индексу объекта Series
# (то есть по названиям столбцов исходного датафрейма).

for _, row in countries.iterrows():
    # например, сформируем вот такое предложение
    print(row["capital"] + " is the capital of " + row["country"])
    break

Beijing is the capital of China


In [48]:
# Доступ к столбцам

# выведем столбец capital датафрейма countries
countries["capital"]

CN         Beijing
VN           Hanoi
GB          London
RU          Moscow
AR    Buenos Aires
BO           Sucre
ZA        Pretoria
Name: capital, dtype: object

In [49]:
# однако в этом случае название не должно содержать пробелов
countries.capital

CN         Beijing
VN           Hanoi
GB          London
RU          Moscow
AR    Buenos Aires
BO           Sucre
ZA        Pretoria
Name: capital, dtype: object

In [51]:
# Как уже было сказано, отдельные столбцы в датафрейме имеют тип данных Series.
type(countries.capital)

pandas.core.series.Series

In [52]:
# Для того чтобы получить доступ к столбцам и
# при этом на выходе сформировать датафрейм,
# необходимо использовать двойные скобки.

# логика здесь в том, что внутрениие скобки - это список,
# внешние - оператор индексации
countries[["capital"]]

Unnamed: 0,capital
CN,Beijing
VN,Hanoi
GB,London
RU,Moscow
AR,Buenos Aires
BO,Sucre
ZA,Pretoria


In [53]:
countries[["capital", "area"]]

Unnamed: 0,capital,area
CN,Beijing,9.6
VN,Hanoi,0.3
GB,London,0.2
RU,Moscow,17.1
AR,Buenos Aires,2.8
BO,Sucre,1.1
ZA,Pretoria,1.2


In [54]:
# Доступ к столбцам можно также получить с помощью метода
# .filter(), передав параметру items список с
# необходимыми нам столбцами.

countries.filter(items=["capital", "population"])

Unnamed: 0,capital,population
CN,Beijing,1400
VN,Hanoi,97
GB,London,67
RU,Moscow,144
AR,Buenos Aires,45
BO,Sucre,12
ZA,Pretoria,59


In [55]:
# Доступ к строкам

# выведем строки со второй по пятую (не включительно)
countries[1:5]

Unnamed: 0,country,capital,population,area,sea
VN,Vietnam,Hanoi,97,0.3,1
GB,United Kingdom,London,67,0.2,1
RU,Russia,Moscow,144,17.1,1
AR,Argentina,Buenos Aires,45,2.8,1


In [56]:
# Методы .loc[] и .iloc[]
# Метод .loc[] позволяет получить доступ к строкам и столбцам через
# их названия (label-based location)

In [57]:
# для этого передадим методу .loc[] два списка:
# с индексами строк и названиями столбцов
countries.loc[["CN", "RU", "VN"], ["capital", "population", "area"]]

Unnamed: 0,capital,population,area
CN,Beijing,1400,9.6
RU,Moscow,144,17.1
VN,Hanoi,97,0.3


In [58]:
# Через двоеточие, как и в Numpy, мы можем вывести
# все строки или все столбцы датафрейма


# например, выведем все строки датафрейма
countries.loc[:, ["capital", "population", "area"]]

Unnamed: 0,capital,population,area
CN,Beijing,1400,9.6
VN,Hanoi,97,0.3
GB,London,67,0.2
RU,Moscow,144,17.1
AR,Buenos Aires,45,2.8
BO,Sucre,12,1.1
ZA,Pretoria,59,1.2


In [59]:
# Метод .loc[] также поддерживает значения Boolean


# например, выведем все строки и только последний столбец,
# передав список соответствующих логических значений
countries.loc[:, [False, False, False, False, True]]

Unnamed: 0,sea
CN,1
VN,1
GB,1
RU,1
AR,1
BO,0
ZA,1


In [60]:
# Метод .get_loc() позволяет узнать порядковый номер
# (начиная с нуля) строки или столбца по их индексу
# и названию соответственно.

# выведем номер строки с индексом RU
countries.index.get_loc("RU")

3

In [61]:
countries.columns.get_loc("country")

0

In [62]:
# Метод .iloc[]
# Метод .iloc[] действует примерно также, как и .loc[],
# с тем отличием, что он основывается на числовом индексе
# (integer-based location).

# теперь в списки мы передаем номера строк и столбцов,
# нумерация начинается с нуля
countries.iloc[[0, 3, 5], [0, 1, 2]]

Unnamed: 0,country,capital,population
CN,China,Beijing,1400
RU,Russia,Moscow,144
BO,Bolivia,Sucre,12


In [63]:
# выведем первые три строки и последние два столбца
countries.iloc[:3, -2:]

Unnamed: 0,area,sea
CN,9.6,1
VN,0.3,1
GB,0.2,1


In [64]:
# К столбцам удобно обращаться по их названиям, к строкам —
# по порядковому номеру (числовому индексу).

# вначале передадим названия столбцов в двойных скобках,
# затем номера строк через метод .iloc[]
countries[["population", "area"]].iloc[[0, 3]]

Unnamed: 0,population,area
CN,1400,9.6
RU,144,17.1


In [65]:
# Многоуровневый индекс и методы .loc[] и .iloc[]
# вновь создадим датафрейм с многоуровневым индексом по строкам и столбцам
countries.index = custom_multindex
countries.columns = custom_multicols

countries

Unnamed: 0_level_0,Unnamed: 1_level_0,names,names,data,data,data
Unnamed: 0_level_1,Unnamed: 1_level_1,country,capital,population,area,sea
region,code,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Asia,CN,China,Beijing,1400,9.6,1
Asia,VN,Vietnam,Hanoi,97,0.3,1
Europe,GB,United Kingdom,London,67,0.2,1
Europe,RU,Russia,Moscow,144,17.1,1
S. America,AR,Argentina,Buenos Aires,45,2.8,1
S. America,BO,Bolivia,Sucre,12,1.1,0
Africa,ZA,South Africa,Pretoria,59,1.2,1


In [None]:
# Для доступа к первой строке передадим методу
# .loc[] соответствующий двойной индекс.

countries.loc["Asia", "CN"]

names  country         China
       capital       Beijing
data   population       1400
       area              9.6
       sea                 1
Name: (Asia, CN), dtype: object

In [67]:
# выведем первую строку и столбцы с числовыми данными
countries.loc[
    ("Asia", "CN"), [("data", "population"), ("data", "area"), ("data", "sea")]
]

data  population    1400.0
      area             9.6
      sea              1.0
Name: (Asia, CN), dtype: float64

In [69]:
# Доступ к строкам можно получить, указав внутри кортежа
# название региона и список с кодами стран.

countries.loc[("Asia", ["CN", "VN"]), :]

Unnamed: 0_level_0,Unnamed: 1_level_0,names,names,data,data,data
Unnamed: 0_level_1,Unnamed: 1_level_1,country,capital,population,area,sea
region,code,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Asia,CN,China,Beijing,1400,9.6,1
Asia,VN,Vietnam,Hanoi,97,0.3,1


In [70]:
# Внутри кортежа можно указать только регион. В этом случае
# мы получим все находящиеся в нем страны.

countries.loc[("Asia"), :]

Unnamed: 0_level_0,names,names,data,data,data
Unnamed: 0_level_1,country,capital,population,area,sea
code,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
CN,China,Beijing,1400,9.6,1
VN,Vietnam,Hanoi,97,0.3,1


In [71]:
# Аналогичным образом мы можем получить доступ к столбцам.

countries.loc[:, [("names", "country"), ("data", "population")]]

Unnamed: 0_level_0,Unnamed: 1_level_0,names,data
Unnamed: 0_level_1,Unnamed: 1_level_1,country,population
region,code,Unnamed: 2_level_2,Unnamed: 3_level_2
Asia,CN,China,1400
Asia,VN,Vietnam,97
Europe,GB,United Kingdom,67
Europe,RU,Russia,144
S. America,AR,Argentina,45
S. America,BO,Bolivia,12
Africa,ZA,South Africa,59


In [72]:
# Метод .iloc[], при этом, игнорирует структуру иерархического индекса
# и использует простой числовой индекс.

# получим доступ к четвертой строке и третьему, четвертому и пятому столбцам
countries.iloc[3, [2, 3, 4]]

data  population    144.0
      area           17.1
      sea             1.0
Name: (Europe, RU), dtype: float64

In [73]:
# Метод .xs()
# Метод .xs() (от англ. cross-section, срез) позволяет получить доступ
# к определенному уровню иерархического индекса. Начнем со строк.

# выберем Европу из уровня region
# axis = 0 указывает, что мы берем строки
countries.xs("Europe", level="region", axis=0)

Unnamed: 0_level_0,names,names,data,data,data
Unnamed: 0_level_1,country,capital,population,area,sea
code,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
GB,United Kingdom,London,67,0.2,1
RU,Russia,Moscow,144,17.1,1


In [None]:
# levels указывает, на каких уровнях искать названия столбцов
# параметр axis = 1 говорит о том, что мы имеем дело со столбцами
countries.xs(("names", "country"), axis=1)

Unnamed: 0_level_0,Unnamed: 1_level_0,names
Unnamed: 0_level_1,Unnamed: 1_level_1,country
region,code,Unnamed: 2_level_2
Asia,CN,China
Asia,VN,Vietnam
Europe,GB,United Kingdom
Europe,RU,Russia
S. America,AR,Argentina
S. America,BO,Bolivia
Africa,ZA,South Africa


In [None]:
# Кроме того, мы можем соединить два метода .xs() и одновременно
# получить доступ и к строкам, и к столбцам.

# в данном случае мы можем не указывать level, потому что
# Europe и names находятся во внешних индексах,
# которые в level указаны по умолчанию
countries_xs = countries.xs("Europe", axis=0).loc[:, "names"]
countries_xs

Unnamed: 0_level_0,country,capital
code,Unnamed: 1_level_1,Unnamed: 2_level_1
GB,United Kingdom,London
RU,Russia,Moscow


In [76]:
# Вернем датафрейму одноуровневый индекс.

# обновим атрибуты index и columns
countries.index = custom_index
countries.columns = custom_cols

# посмотрим на исходный датафрейм
countries

Unnamed: 0,country,capital,population,area,sea
CN,China,Beijing,1400,9.6,1
VN,Vietnam,Hanoi,97,0.3,1
GB,United Kingdom,London,67,0.2,1
RU,Russia,Moscow,144,17.1,1
AR,Argentina,Buenos Aires,45,2.8,1
BO,Bolivia,Sucre,12,1.1,0
ZA,South Africa,Pretoria,59,1.2,1


In [77]:
# Метод .at[]
# Метод .at[] подходит для извлечения или записи одного значения датафрейма.

countries.at["CN", "capital"]

'Beijing'

In [None]:
# Фильтры
# создадим логическую маску для стран с населением больше миллиарда человек
countries.population > 1000

CN     True
VN    False
GB    False
RU    False
AR    False
BO    False
ZA    False
Name: population, dtype: bool

In [79]:
# применим логическую маску к исходному датафрейму
countries[countries.population > 1000]

Unnamed: 0,country,capital,population,area,sea
CN,China,Beijing,1400,9.6,1


In [80]:
# отфильтруем датафрейм по критериям численности населения и площади
countries[(countries.population > 50) & (countries.area < 2)]

Unnamed: 0,country,capital,population,area,sea
VN,Vietnam,Hanoi,97,0.3,1
GB,United Kingdom,London,67,0.2,1
ZA,South Africa,Pretoria,59,1.2,1


In [81]:
# вначале создаем нужные нам маски
population_mask = countries.population > 70
area_mask = countries.population < 50

# затем объединяем их по необходимым условиям (в данном случае ИЛИ)
mask = population_mask | area_mask
# и применяем маску к исходному датафрейму
countries[mask]

Unnamed: 0,country,capital,population,area,sea
CN,China,Beijing,1400,9.6,1
VN,Vietnam,Hanoi,97,0.3,1
RU,Russia,Moscow,144,17.1,1
AR,Argentina,Buenos Aires,45,2.8,1
BO,Bolivia,Sucre,12,1.1,0


In [82]:
# Метод .query()
# Метод .query() позволяет задавать условие фильтрации «своими словами».

# например, выберем страны с населением более 50 млн. человек И
# площадью менее двух млн. кв. километров
countries.query("population > 50 and area < 2")

Unnamed: 0,country,capital,population,area,sea
VN,Vietnam,Hanoi,97,0.3,1
GB,United Kingdom,London,67,0.2,1
ZA,South Africa,Pretoria,59,1.2,1


In [83]:
# выведем данные по Великобритании
countries.query("country == 'United Kingdom'")

Unnamed: 0,country,capital,population,area,sea
GB,United Kingdom,London,67,0.2,1


In [None]:
# С помощью метода .isin() мы можем проверить наличие нескольких значений
# в определенном столбце, а затем использовать результат
# в качестве логической маски.

# найдем строки, в которых в столбце capital присутствуют следующие значения
keyword_list = ["Beijing", "Moscow", "Hanoi"]

countries_print = countries[countries.capital.isin(keyword_list)]
print(countries_print)

Unnamed: 0,country,capital,population,area,sea
CN,China,Beijing,1400,9.6,1
VN,Vietnam,Hanoi,97,0.3,1
RU,Russia,Moscow,144,17.1,1


In [None]:
# Похожим образом можно использовать метод .startswith().
# например, для нахождения стран, НЕ начинающихся с буквы "A"
countries_start = countries[~countries.country.str.startswith("A")]
countries_start

Unnamed: 0,country,capital,population,area,sea
CN,China,Beijing,1400,9.6,1
VN,Vietnam,Hanoi,97,0.3,1
GB,United Kingdom,London,67,0.2,1
RU,Russia,Moscow,144,17.1,1
BO,Bolivia,Sucre,12,1.1,0
ZA,South Africa,Pretoria,59,1.2,1


In [86]:
# например, возьмем три строки с наибольшими значением по столбцу population
countries.nlargest(3, "population")

Unnamed: 0,country,capital,population,area,sea
CN,China,Beijing,1400,9.6,1
RU,Russia,Moscow,144,17.1,1
VN,Vietnam,Hanoi,97,0.3,1


In [None]:
# Метод .argmax() выводит индекс строки, в которой в
# определенном столбце содержится наибольшее значение.

# например, предположим, что мы хотим найти индекс страны с наибольшей площадью
countries_max = countries.area.argmax()
countries_max

np.int64(3)

In [None]:
# Посмотрим, какой стране соответствует этот индекс.

# напомню, что двойные скобки позволяют вывести DataFrame, а не Series
countries_area = countries.iloc[[countries.area.argmax()]]
countries_area

Unnamed: 0,country,capital,population,area,sea
RU,Russia,Moscow,144,17.1,1


In [89]:
# Вспомним, что в метод .loc[] можно передать тип данных Boolean.
# Используем это свойство для создания фильтра.

# выведем страны с населением более 90 млн. человек
countries.loc[countries.population > 90, :]

Unnamed: 0,country,capital,population,area,sea
CN,China,Beijing,1400,9.6,1
VN,Vietnam,Hanoi,97,0.3,1
RU,Russia,Moscow,144,17.1,1


In [None]:
# Метод .filter(), если использовать параметр like,
# ищет совпадения с искомой фразой в индексе
# (если axis = 0) или названии столбцов (если axis = 1).

# найдем строки, в которых в индексе есть буквосочетание "ZA"
countries.filter(like="ZA", axis=0)

Unnamed: 0,country,capital,population,area,sea
ZA,South Africa,Pretoria,59,1.2,1


In [None]:
# Сортировка
# выполним сортировку по столбцу population, не сохраняя изменений,
# в возрастающем порядке (значение по умолчанию)
countries.sort_values(by="population", inplace=False, ascending=True)

Unnamed: 0,country,capital,population,area,sea
BO,Bolivia,Sucre,12,1.1,0
AR,Argentina,Buenos Aires,45,2.8,1
ZA,South Africa,Pretoria,59,1.2,1
GB,United Kingdom,London,67,0.2,1
VN,Vietnam,Hanoi,97,0.3,1
RU,Russia,Moscow,144,17.1,1
CN,China,Beijing,1400,9.6,1


In [92]:
# теперь отсортируем по двум столбцам в нисходящем порядке
countries.sort_values(by=["area", "population"], inplace=False, ascending=False)

Unnamed: 0,country,capital,population,area,sea
RU,Russia,Moscow,144,17.1,1
CN,China,Beijing,1400,9.6,1
AR,Argentina,Buenos Aires,45,2.8,1
ZA,South Africa,Pretoria,59,1.2,1
BO,Bolivia,Sucre,12,1.1,0
VN,Vietnam,Hanoi,97,0.3,1
GB,United Kingdom,London,67,0.2,1


In [93]:
# Кроме того, можно отсортировать строки по индексу с помощью метода .sort_index().

countries.sort_index()

Unnamed: 0,country,capital,population,area,sea
AR,Argentina,Buenos Aires,45,2.8,1
BO,Bolivia,Sucre,12,1.1,0
CN,China,Beijing,1400,9.6,1
GB,United Kingdom,London,67,0.2,1
RU,Russia,Moscow,144,17.1,1
VN,Vietnam,Hanoi,97,0.3,1
ZA,South Africa,Pretoria,59,1.2,1
