In [1]:
"""Pandas."""

'Pandas.'

## Библиотека Pandas

In [2]:
# Подключение к базе данных SQL
import sqlite3 as sql

import numpy as np
import pandas as pd
import requests
from pandas import Index

### Объекты DataFrame и Series

#### Создание датафрейма

In [3]:
# из архива .zip, который содержит только один файл
csv_zip = pd.read_csv("./content/train.zip")
csv_zip.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [4]:
# из excel-файла
excel_data = pd.read_excel("./content/iris.xlsx", sheet_name=0)
excel_data.head(3)

Unnamed: 0,Petal_width,Petal_length,Sepal_width,Sepal_length,Species_name
0,0.2,1.4,3.5,5.1,Setosa
1,0.2,1.4,3.0,4.9,Setosa
2,0.2,1.3,3.2,4.7,Setosa


In [5]:
# из элементов (таблицы) на web-странице
# используем requests с правильными заголовками для обхода блокировки
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)"}
response = requests.get(
    "https://en.wikipedia.org/wiki/World_population", headers=headers
)

html_data = pd.read_html(response.text, match="World population")

  html_data = pd.read_html(response.text, match="World population")


In [6]:
len(html_data)

3

In [7]:
html_data[0]

Unnamed: 0,Population (in billions),1,1.1,2,2.1,3,3.1,4,4.1,5,...,6,6.1,7,7.1,8,8.1,9,9.1,10,10.1
0,Year,1804,1804,1927,1927,1960,1960,1974,1974,1987,...,1999,1999,2011,2011,2022,2022,2037,2037,2057,2057
1,Years elapsed,—,123,123,33,33,14,14,13,13,...,12,12,12,11,11,15,15,20,20,—


In [8]:
# подключение
conn = sql.connect("./content/chinook.db")

# выберем все строки из таблицы tracks
sql_data = pd.read_sql("SELECT * FROM tracks;", conn)

sql_data.head(3)

Unnamed: 0,TrackId,Name,AlbumId,MediaTypeId,GenreId,Composer,Milliseconds,Bytes,UnitPrice
0,1,For Those About To Rock (We Salute You),1,1,1,"Angus Young, Malcolm Young, Brian Johnson",343719,11170334,0.99
1,2,Balls to the Wall,2,2,1,,342562,5510424,0.99
2,3,Fast As a Shark,3,2,1,"F. Baltes, S. Kaufman, U. Dirkscneider & W. Ho...",230619,3990994,0.99


#### Создание датафрейма из словаря

In [9]:
# создадим несколько списков и массивов Numpy
country = np.array(
    [
        "China",
        "Vietnam",
        "United Kingdom",
        "Russia",
        "Argentina",
        "Bolivia",
        "South Africa",
    ]
)
capital = np.array(
    ["Beijing", "Hanoi", "London", "Moscow", "Buenos Aires", "Sucre", "Pretoria"]
)
population = np.array([1400, 97, 67, 144, 45, 12, 59])  # млн. человек
area = np.array([9.6, 0.3, 0.2, 17.1, 2.8, 1.1, 1.2])  # млн. кв. км.
sea = np.array([1] * 5 + [0, 1])

In [10]:
countries_dict = {}

countries_dict["country"] = country
countries_dict["capital"] = capital
countries_dict["population"] = population
countries_dict["area"] = area
countries_dict["sea"] = sea

countries_dict

{'country': array(['China', 'Vietnam', 'United Kingdom', 'Russia', 'Argentina',
        'Bolivia', 'South Africa'], dtype='<U14'),
 'capital': array(['Beijing', 'Hanoi', 'London', 'Moscow', 'Buenos Aires', 'Sucre',
        'Pretoria'], dtype='<U12'),
 'population': array([1400,   97,   67,  144,   45,   12,   59]),
 'area': array([ 9.6,  0.3,  0.2, 17.1,  2.8,  1.1,  1.2]),
 'sea': array([1, 1, 1, 1, 1, 0, 1])}

In [11]:
# создадим датафрейм
countries = pd.DataFrame(countries_dict)
countries

Unnamed: 0,country,capital,population,area,sea
0,China,Beijing,1400,9.6,1
1,Vietnam,Hanoi,97,0.3,1
2,United Kingdom,London,67,0.2,1
3,Russia,Moscow,144,17.1,1
4,Argentina,Buenos Aires,45,2.8,1
5,Bolivia,Sucre,12,1.1,0
6,South Africa,Pretoria,59,1.2,1


#### Создание датафрейма из 2D массива Numpy

In [12]:
arr = np.array([[1, 1, 1], [2, 2, 2], [3, 3, 3]])
pd.DataFrame(arr)

Unnamed: 0,0,1,2
0,1,1,1
1,2,2,2
2,3,3,3


### Структура и свойства датафрейма

In [13]:
# названия столбцов
countries.columns

Index(['country', 'capital', 'population', 'area', 'sea'], dtype='object')

In [14]:
# способ идентификации строк
countries.index

RangeIndex(start=0, stop=7, step=1)

In [15]:
# значения
countries.values

array([['China', 'Beijing', 1400, 9.6, 1],
       ['Vietnam', 'Hanoi', 97, 0.3, 1],
       ['United Kingdom', 'London', 67, 0.2, 1],
       ['Russia', 'Moscow', 144, 17.1, 1],
       ['Argentina', 'Buenos Aires', 45, 2.8, 1],
       ['Bolivia', 'Sucre', 12, 1.1, 0],
       ['South Africa', 'Pretoria', 59, 1.2, 1]], dtype=object)

In [16]:
# выведем описание индекса датафрейма через атрибус axes[0]
countries.axes[0]

RangeIndex(start=0, stop=7, step=1)

In [17]:
# axes[1] выводит названия столбцов
countries.axes[1]

Index(['country', 'capital', 'population', 'area', 'sea'], dtype='object')

In [18]:
# количество измерений
print(countries.ndim)
# размерность
print(countries.shape)
# общее кол-во элементов
print(countries.size)

2
(7, 5)
35


In [19]:
# типы каждого столбца
countries.dtypes

country        object
capital        object
population      int64
area          float64
sea             int64
dtype: object

In [20]:
# объем занимаемой памяти по столбцам
countries.memory_usage()

Index         132
country        56
capital        56
population     56
area           56
sea            56
dtype: int64

### Индекс

#### Присвоение индекса

In [21]:
# в датафейме можно задать собственный индекс
# например коды стран
custom_index: "Index[str]" = pd.Index(
    ["CN", "VN", "GB", "RU", "AR", "BO", "ZA"], dtype="string"
)

In [22]:
countries = pd.DataFrame(countries_dict, index=custom_index)
countries

Unnamed: 0,country,capital,population,area,sea
CN,China,Beijing,1400,9.6,1
VN,Vietnam,Hanoi,97,0.3,1
GB,United Kingdom,London,67,0.2,1
RU,Russia,Moscow,144,17.1,1
AR,Argentina,Buenos Aires,45,2.8,1
BO,Bolivia,Sucre,12,1.1,0
ZA,South Africa,Pretoria,59,1.2,1


In [23]:
# сброс индекса
# параметр inplace = True сохраняет изменения
countries.reset_index(inplace=True)
countries

Unnamed: 0,index,country,capital,population,area,sea
0,CN,China,Beijing,1400,9.6,1
1,VN,Vietnam,Hanoi,97,0.3,1
2,GB,United Kingdom,London,67,0.2,1
3,RU,Russia,Moscow,144,17.1,1
4,AR,Argentina,Buenos Aires,45,2.8,1
5,BO,Bolivia,Sucre,12,1.1,0
6,ZA,South Africa,Pretoria,59,1.2,1


In [24]:
# прошлый индекс стал отдельным столбцом
# чтобы снова сделать индексом .set_index
countries.set_index("index", inplace=True)
countries

Unnamed: 0_level_0,country,capital,population,area,sea
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
CN,China,Beijing,1400,9.6,1
VN,Vietnam,Hanoi,97,0.3,1
GB,United Kingdom,London,67,0.2,1
RU,Russia,Moscow,144,17.1,1
AR,Argentina,Buenos Aires,45,2.8,1
BO,Bolivia,Sucre,12,1.1,0
ZA,South Africa,Pretoria,59,1.2,1


In [25]:
# снова сбросим но без сохранения
countries.reset_index(drop=True, inplace=True)
countries

Unnamed: 0,country,capital,population,area,sea
0,China,Beijing,1400,9.6,1
1,Vietnam,Hanoi,97,0.3,1
2,United Kingdom,London,67,0.2,1
3,Russia,Moscow,144,17.1,1
4,Argentina,Buenos Aires,45,2.8,1
5,Bolivia,Sucre,12,1.1,0
6,South Africa,Pretoria,59,1.2,1


In [26]:
# собственный индекс
countries.index = custom_index
countries

Unnamed: 0,country,capital,population,area,sea
CN,China,Beijing,1400,9.6,1
VN,Vietnam,Hanoi,97,0.3,1
GB,United Kingdom,London,67,0.2,1
RU,Russia,Moscow,144,17.1,1
AR,Argentina,Buenos Aires,45,2.8,1
BO,Bolivia,Sucre,12,1.1,0
ZA,South Africa,Pretoria,59,1.2,1


#### Многоуровневые индекс и названия столбцов

In [27]:
multiple_rows = [
    ("Asia", "CN"),
    ("Asia", "VN"),
    ("Europe", "GB"),
    ("Europe", "RU"),
    ("S. America", "AR"),
    ("S. America", "BO"),
    ("Africa", "ZA"),
]

multiple_cols = [
    ("names", "country"),
    ("names", "capital"),
    ("data", "population"),
    ("data", "area"),
    ("data", "sea"),
]

# мульти-индексы из кортежей
custom_multindex = pd.MultiIndex.from_tuples(multiple_rows, names=["region", "code"])

# мульти-столбцы из кортежей
custom_multicols = pd.MultiIndex.from_tuples(multiple_cols)

# передадим в датафрейм
countries.index = custom_multindex
countries.columns = custom_multicols

countries

Unnamed: 0_level_0,Unnamed: 1_level_0,names,names,data,data,data
Unnamed: 0_level_1,Unnamed: 1_level_1,country,capital,population,area,sea
region,code,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Asia,CN,China,Beijing,1400,9.6,1
Asia,VN,Vietnam,Hanoi,97,0.3,1
Europe,GB,United Kingdom,London,67,0.2,1
Europe,RU,Russia,Moscow,144,17.1,1
S. America,AR,Argentina,Buenos Aires,45,2.8,1
S. America,BO,Bolivia,Sucre,12,1.1,0
Africa,ZA,South Africa,Pretoria,59,1.2,1


In [28]:
# вернемся к обычному индексу и названиям столбцов
custom_cols1: "Index[str]" = pd.Index(
    ["country", "capital", "population", "area", "sea"], dtype="string"
)

In [29]:
countries.index = custom_index

In [30]:
countries.columns = custom_cols1

In [31]:
print(countries)

           country       capital  population  area  sea
CN           China       Beijing        1400   9.6    1
VN         Vietnam         Hanoi          97   0.3    1
GB  United Kingdom        London          67   0.2    1
RU          Russia        Moscow         144  17.1    1
AR       Argentina  Buenos Aires          45   2.8    1
BO         Bolivia         Sucre          12   1.1    0
ZA    South Africa      Pretoria          59   1.2    1


### Преобразование в другие форматы

In [32]:
# в словарь
print(countries.to_dict())

{'country': {'CN': 'China', 'VN': 'Vietnam', 'GB': 'United Kingdom', 'RU': 'Russia', 'AR': 'Argentina', 'BO': 'Bolivia', 'ZA': 'South Africa'}, 'capital': {'CN': 'Beijing', 'VN': 'Hanoi', 'GB': 'London', 'RU': 'Moscow', 'AR': 'Buenos Aires', 'BO': 'Sucre', 'ZA': 'Pretoria'}, 'population': {'CN': 1400, 'VN': 97, 'GB': 67, 'RU': 144, 'AR': 45, 'BO': 12, 'ZA': 59}, 'area': {'CN': 9.6, 'VN': 0.3, 'GB': 0.2, 'RU': 17.1, 'AR': 2.8, 'BO': 1.1, 'ZA': 1.2}, 'sea': {'CN': 1, 'VN': 1, 'GB': 1, 'RU': 1, 'AR': 1, 'BO': 0, 'ZA': 1}}


In [33]:
# Numpy=array
countries.to_numpy()

array([['China', 'Beijing', 1400, 9.6, 1],
       ['Vietnam', 'Hanoi', 97, 0.3, 1],
       ['United Kingdom', 'London', 67, 0.2, 1],
       ['Russia', 'Moscow', 144, 17.1, 1],
       ['Argentina', 'Buenos Aires', 45, 2.8, 1],
       ['Bolivia', 'Sucre', 12, 1.1, 0],
       ['South Africa', 'Pretoria', 59, 1.2, 1]], dtype=object)

In [34]:
# файл
# index = False, чтобы не сохранять индекс
countries.to_csv("./content/countries.csv", index=False)

In [35]:
# Series в список
print(countries.country.to_list())

['China', 'Vietnam', 'United Kingdom', 'Russia', 'Argentina', 'Bolivia', 'South Africa']


### Создание Series

#### Создание Series из списка

In [36]:
country_list = [
    "China",
    "South Africa",
    "United Kingdom",
    "Russia",
    "Argentina",
    "Vietnam",
    "Australia",
]

In [37]:
country_series = pd.Series(country_list)
country_series

0             China
1      South Africa
2    United Kingdom
3            Russia
4         Argentina
5           Vietnam
6         Australia
dtype: object

In [38]:
# доступ к элементам по индексу
country_series[0]

'China'

#### Создание Series из словаря

In [39]:
country_dict = {
    "CN": "China",
    "ZA": "South Africa",
    "GB": "United Kingdom",
    "RU": "Russia",
    "AR": "Argentina",
    "VN": "Vietnam",
    "AU": "Australia",
}

In [40]:
country_series = pd.Series(country_dict)
country_series

CN             China
ZA      South Africa
GB    United Kingdom
RU            Russia
AR         Argentina
VN           Vietnam
AU         Australia
dtype: object

In [41]:
# теперь для доступа к элементам можно использовать индекс
# которым у нас являются коды стран
country_series["AU"]

'Australia'

## Доступ к строкам и столбцам

### Циклы в датафрейме

In [42]:
for columns in countries:
    print(columns)

country
capital
population
area
sea


In [43]:
# .iterrows() - Series с индексом каждой строки и её значением
for index, row in countries.iterrows():
    print(index)
    print(row)
    print("...")
    print(type(row))
    break

CN
country         China
capital       Beijing
population       1400
area              9.6
sea                 1
Name: CN, dtype: object
...
<class 'pandas.core.series.Series'>


In [44]:
# использование данных определённой строки
for _, row in countries.iterrows():
    print(row["capital"] + " is the capital of " + row["country"])
    break

Beijing is the capital of China


### Доступ к столбцам

In [45]:
# в отличие от Series, в датафрейме через квадратные скобки
# происходит доступ к столбцам

countries["capital"]

CN         Beijing
VN           Hanoi
GB          London
RU          Moscow
AR    Buenos Aires
BO           Sucre
ZA        Pretoria
Name: capital, dtype: object

In [46]:
# также можно через точку, но без пробелов

countries.capital

CN         Beijing
VN           Hanoi
GB          London
RU          Moscow
AR    Buenos Aires
BO           Sucre
ZA        Pretoria
Name: capital, dtype: object

In [47]:
# отдельные столбцы - Series

print(type(countries.capital))
print(type(countries["capital"]))

<class 'pandas.core.series.Series'>
<class 'pandas.core.series.Series'>


In [48]:
# внутренние скобки - список столбцов
# внешние скобки - сам оператор индексации
# поэтому на выходи получится DataFrame, а не Series
countries[["capital"]]

Unnamed: 0,capital
CN,Beijing
VN,Hanoi
GB,London
RU,Moscow
AR,Buenos Aires
BO,Sucre
ZA,Pretoria


In [49]:
# к нескольким столбцам
countries[["capital", "area"]]

Unnamed: 0,capital,area
CN,Beijing,9.6
VN,Hanoi,0.3
GB,London,0.2
RU,Moscow,17.1
AR,Buenos Aires,2.8
BO,Sucre,1.1
ZA,Pretoria,1.2


In [50]:
# через метод .filter()
# с параметром items
countries.filter(items=["capital", "population"])

Unnamed: 0,capital,population
CN,Beijing,1400
VN,Hanoi,97
GB,London,67
RU,Moscow,144
AR,Buenos Aires,45
BO,Sucre,12
ZA,Pretoria,59


### Доступ к строкам

In [51]:
# доступ к строкам с помощью индекса
# не включая верхнюю границу
countries[1:5]

Unnamed: 0,country,capital,population,area,sea
VN,Vietnam,Hanoi,97,0.3,1
GB,United Kingdom,London,67,0.2,1
RU,Russia,Moscow,144,17.1,1
AR,Argentina,Buenos Aires,45,2.8,1


### Методы `.loc[]` и `iloc[]`

#### Метод `.loc[]`

In [52]:
# label-based location
# метод .loc[] позволяет получить доступ
# к строкам и столбцам по их названиям
countries.loc[["CN", "RU", "VN"], ["capital", "population", "area"]]

Unnamed: 0,capital,population,area
CN,Beijing,1400,9.6
RU,Moscow,144,17.1
VN,Hanoi,97,0.3


In [53]:
# через : можно вывести все столбцы/строки
countries.loc[:, ["capital", "population", "area"]]

Unnamed: 0,capital,population,area
CN,Beijing,1400,9.6
VN,Hanoi,97,0.3
GB,London,67,0.2
RU,Moscow,144,17.1
AR,Buenos Aires,45,2.8
BO,Sucre,12,1.1
ZA,Pretoria,59,1.2


In [54]:
# также можно передавать значения Boolean
# чтобы фильтровать данные по условию
countries.loc[:, [False, False, False, False, True]]

Unnamed: 0,sea
CN,1
VN,1
GB,1
RU,1
AR,1
BO,0
ZA,1


#### Метод `.get_loc()`

In [55]:
# атрибут index и метод .get_loc
# позволяют вывести порядковый номер
# строки по индексу (начиная с нуля)
countries.index.get_loc("RU")

3

In [56]:
# атрибут columns и метод .get_loc
# позволяют вывести порядковый номер
# столбца по названию (начиная с нуля)
countries.columns.get_loc("country")

0

Метод `.iloc[]`

In [57]:
# integer-based location
# метод .iloc[] позволяет получить доступ
# к строкам и столбцам по числовому индексу
countries.iloc[[0, 3, 5], [0, 1, 2]]

Unnamed: 0,country,capital,population
CN,China,Beijing,1400
RU,Russia,Moscow,144
BO,Bolivia,Sucre,12


In [58]:
# можно использовать срезы
countries.iloc[:3, -2:]

Unnamed: 0,area,sea
CN,9.6,1
VN,0.3,1
GB,0.2,1


In [59]:
# удобно использовать доступ
# с помощью квадратных скобок
# и метода .iloc[]
countries[["population", "area"]].iloc[[0, 3]]

Unnamed: 0,population,area
CN,1400,9.6
RU,144,17.1


#### Доступ по многоуровневому индексу

In [60]:
countries.index = custom_multindex
countries.columns = custom_multicols

countries

Unnamed: 0_level_0,Unnamed: 1_level_0,names,names,data,data,data
Unnamed: 0_level_1,Unnamed: 1_level_1,country,capital,population,area,sea
region,code,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Asia,CN,China,Beijing,1400,9.6,1
Asia,VN,Vietnam,Hanoi,97,0.3,1
Europe,GB,United Kingdom,London,67,0.2,1
Europe,RU,Russia,Moscow,144,17.1,1
S. America,AR,Argentina,Buenos Aires,45,2.8,1
S. America,BO,Bolivia,Sucre,12,1.1,0
Africa,ZA,South Africa,Pretoria,59,1.2,1


In [61]:
# доступ к первой строке
# с помощью двойного индекса
# и метода .loc[]
countries.loc["Asia", "CN"]

names  country         China
       capital       Beijing
data   population       1400
       area              9.6
       sea                 1
Name: (Asia, CN), dtype: object

In [62]:
# также можно передавать значения в
# форме кортежей для строк и столбцов
countries.loc[
    ("Asia", "CN"),  # мульти-индексы
    [
        ("data", "population"),  # мульти-названия столбцов
        ("data", "area"),
        ("data", "sea"),
    ],
]

data  population    1400.0
      area             9.6
      sea              1.0
Name: (Asia, CN), dtype: float64

In [63]:
# доступ к строкам можно получить,
# указав внутри кортежа название региона,
# список с кодами стран
countries.loc[("Asia", ["CN", "VN"]), :]

Unnamed: 0_level_0,Unnamed: 1_level_0,names,names,data,data,data
Unnamed: 0_level_1,Unnamed: 1_level_1,country,capital,population,area,sea
region,code,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Asia,CN,China,Beijing,1400,9.6,1
Asia,VN,Vietnam,Hanoi,97,0.3,1


In [64]:
# можно указать только регион
# тогда мы получим все страны,
# которые в него входят
countries.loc[("Asia"), :]

Unnamed: 0_level_0,names,names,data,data,data
Unnamed: 0_level_1,country,capital,population,area,sea
code,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
CN,China,Beijing,1400,9.6,1
VN,Vietnam,Hanoi,97,0.3,1


In [65]:
# аналогично можно получить доступ к столбцам
countries.loc[:, [("names", "country"), ("data", "population")]]

Unnamed: 0_level_0,Unnamed: 1_level_0,names,data
Unnamed: 0_level_1,Unnamed: 1_level_1,country,population
region,code,Unnamed: 2_level_2,Unnamed: 3_level_2
Asia,CN,China,1400
Asia,VN,Vietnam,97
Europe,GB,United Kingdom,67
Europe,RU,Russia,144
S. America,AR,Argentina,45
S. America,BO,Bolivia,12
Africa,ZA,South Africa,59


In [66]:
# метод .iloc[] игнорирует структуру многоуровневого индекса
# и использует простой числовой индекс
countries.iloc[3, [2, 3, 4]]

data  population    144.0
      area           17.1
      sea             1.0
Name: (Europe, RU), dtype: float64

### Метод `.xs()`

In [67]:
# cross-secton
# позволяет получить доступ к определённому уровню
# многоуровневого индекса
# на уровне 'r
# axis = 0, чтобы отбирались строки
countries.xs("Europe", level="region", axis=0)

Unnamed: 0_level_0,names,names,data,data,data
Unnamed: 0_level_1,country,capital,population,area,sea
code,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
GB,United Kingdom,London,67,0.2,1
RU,Russia,Moscow,144,17.1,1


In [68]:
# на первом уровне выберем 'names'
# на втором уровне выберем 'country'
# axis = 1, чтобы отбирались столбцы
countries.xs(("names", "country"), level=(0, 1), axis=1)

Unnamed: 0_level_0,Unnamed: 1_level_0,names
Unnamed: 0_level_1,Unnamed: 1_level_1,country
region,code,Unnamed: 2_level_2
Asia,CN,China
Asia,VN,Vietnam
Europe,GB,United Kingdom
Europe,RU,Russia
S. America,AR,Argentina
S. America,BO,Bolivia
Africa,ZA,South Africa


In [69]:
# можно разбить на два xs
# чтобы не использовать level
countries.xs("names", axis=1, level=0).xs("Europe", axis=0)

Unnamed: 0_level_0,country,capital
code,Unnamed: 1_level_1,Unnamed: 2_level_1
GB,United Kingdom,London
RU,Russia,Moscow


In [70]:
# вернём одноуровневость
countries.index = custom_index
countries.columns = custom_cols1

countries

Unnamed: 0,country,capital,population,area,sea
CN,China,Beijing,1400,9.6,1
VN,Vietnam,Hanoi,97,0.3,1
GB,United Kingdom,London,67,0.2,1
RU,Russia,Moscow,144,17.1,1
AR,Argentina,Buenos Aires,45,2.8,1
BO,Bolivia,Sucre,12,1.1,0
ZA,South Africa,Pretoria,59,1.2,1


### Метод `.at[]`

In [71]:
# только для одной ячейки
countries.at["CN", "capital"]

'Beijing'

### Фильтры

#### Логическая маска

In [72]:
# создадим логическую маску
countries.population > 1000

CN     True
VN    False
GB    False
RU    False
AR    False
BO    False
ZA    False
Name: population, dtype: bool

In [73]:
# применим логическую маску
countries[countries.population > 1000]

Unnamed: 0,country,capital,population,area,sea
CN,China,Beijing,1400,9.6,1


In [74]:
# & - логическое И
countries[(countries.population > 50) & (countries.area < 2)]

Unnamed: 0,country,capital,population,area,sea
VN,Vietnam,Hanoi,97,0.3,1
GB,United Kingdom,London,67,0.2,1
ZA,South Africa,Pretoria,59,1.2,1


In [75]:
# | - логическое ИЛИ
population_mask = countries.population > 70
area_mask = countries.population < 50

mask = population_mask | area_mask
countries[mask]

Unnamed: 0,country,capital,population,area,sea
CN,China,Beijing,1400,9.6,1
VN,Vietnam,Hanoi,97,0.3,1
RU,Russia,Moscow,144,17.1,1
AR,Argentina,Buenos Aires,45,2.8,1
BO,Bolivia,Sucre,12,1.1,0


### Метод `.query()` 

In [76]:
# условия дословно
countries.query("population > 50 and area < 2")

Unnamed: 0,country,capital,population,area,sea
VN,Vietnam,Hanoi,97,0.3,1
GB,United Kingdom,London,67,0.2,1
ZA,South Africa,Pretoria,59,1.2,1


In [77]:
# использование кавычек
countries.query("country == 'United Kingdom'")

Unnamed: 0,country,capital,population,area,sea
GB,United Kingdom,London,67,0.2,1


### Другие способы фильтрации

In [78]:
# проверка вхождения
keyword_list = ["Beijing", "Moscow", "Hanoi"]

print(countries[countries.capital.isin(keyword_list)])

    country  capital  population  area  sea
CN    China  Beijing        1400   9.6    1
VN  Vietnam    Hanoi          97   0.3    1
RU   Russia   Moscow         144  17.1    1


In [79]:
# строка начинается с ...
# ~ - логическое НЕ
print(countries[~countries.country.str.startswith("A")])

           country   capital  population  area  sea
CN           China   Beijing        1400   9.6    1
VN         Vietnam     Hanoi          97   0.3    1
GB  United Kingdom    London          67   0.2    1
RU          Russia    Moscow         144  17.1    1
BO         Bolivia     Sucre          12   1.1    0
ZA    South Africa  Pretoria          59   1.2    1


In [80]:
# n наибольших
countries.nlargest(3, "population")

Unnamed: 0,country,capital,population,area,sea
CN,China,Beijing,1400,9.6,1
RU,Russia,Moscow,144,17.1,1
VN,Vietnam,Hanoi,97,0.3,1


In [81]:
# n наименьших
countries.nsmallest(3, "population")

Unnamed: 0,country,capital,population,area,sea
BO,Bolivia,Sucre,12,1.1,0
AR,Argentina,Buenos Aires,45,2.8,1
ZA,South Africa,Pretoria,59,1.2,1


In [82]:
# argmax() индекс наибольшей
# argmin() индекс наименьшей
countries.area.argmax()

np.int64(3)

In [83]:
# соответствующая страна
print(countries.iloc[[int(countries.area.argmax())]])

   country capital  population  area  sea
RU  Russia  Moscow         144  17.1    1


In [84]:
# логические маски можно использовать с loc
countries.loc[countries.population > 90, :]

Unnamed: 0,country,capital,population,area,sea
CN,China,Beijing,1400,9.6,1
VN,Vietnam,Hanoi,97,0.3,1
RU,Russia,Moscow,144,17.1,1


In [85]:
# .filter с параметром like позволяет искать совпадения в
# индексе (axis = 0) или столбцах (axis = 1)
countries.filter(like="ZA", axis=0)

Unnamed: 0,country,capital,population,area,sea
ZA,South Africa,Pretoria,59,1.2,1


### Сортировка

In [86]:
countries.sort_values(by="population", inplace=False, ascending=True)  # восходящий

Unnamed: 0,country,capital,population,area,sea
BO,Bolivia,Sucre,12,1.1,0
AR,Argentina,Buenos Aires,45,2.8,1
ZA,South Africa,Pretoria,59,1.2,1
GB,United Kingdom,London,67,0.2,1
VN,Vietnam,Hanoi,97,0.3,1
RU,Russia,Moscow,144,17.1,1
CN,China,Beijing,1400,9.6,1


In [87]:
countries.sort_values(
    by=["area", "population"], inplace=False, ascending=False  # нисходящий
)

Unnamed: 0,country,capital,population,area,sea
RU,Russia,Moscow,144,17.1,1
CN,China,Beijing,1400,9.6,1
AR,Argentina,Buenos Aires,45,2.8,1
ZA,South Africa,Pretoria,59,1.2,1
BO,Bolivia,Sucre,12,1.1,0
VN,Vietnam,Hanoi,97,0.3,1
GB,United Kingdom,London,67,0.2,1


In [88]:
# сортировка по индексу
countries.sort_index()

Unnamed: 0,country,capital,population,area,sea
AR,Argentina,Buenos Aires,45,2.8,1
BO,Bolivia,Sucre,12,1.1,0
CN,China,Beijing,1400,9.6,1
GB,United Kingdom,London,67,0.2,1
RU,Russia,Moscow,144,17.1,1
VN,Vietnam,Hanoi,97,0.3,1
ZA,South Africa,Pretoria,59,1.2,1
