In [None]:
import pandas as pd

# Lesson 2 - Filtering Columns and Rows in Pandas

In [None]:
df = pd.read_csv("world_population.csv")
df

In [None]:
# Фильтрация по значению в колонке
# Этот код выберет только те строки, где значение в колонке 'Rank' меньше 10.
# Выражение df['Rank'] < 10 создает булеву (True/False) серию,
# и Pandas использует её, чтобы "отфильтровать" строки.
df[df['Rank'] < 10]

In [None]:
# Фильтрация по списку значений
specific_country = ["China", "Pakistan"]

df[df['Country'].isin(specific_country)]
# Метод .isin() очень удобен для проверки, содержится ли значение в списке.
# Он вернёт True для каждой строки, где 'Country' есть в списке specific_country.

In [None]:
# Фильтрация по части строки
# Метод .str.contains() позволяет искать подстроку в строковых данных.
# Это аналог "LIKE" в SQL.
# Метод .str должен быть использован, потому что .contains() применяется
# к сериям с типом данных "строка" (object).
df[df["Country"].str.contains("United")]

In [None]:
# Установка индекса
# Создаем новый DataFrame, где в качестве индекса (строк) выступает колонка 'Country'.
# Это очень полезно, когда ты хочешь обращаться к данным по имени страны,
# а не по числовому индексу (0, 1, 2...).
df2 = df.set_index('Country')
df2

In [None]:
# Фильтрация колонок
# Здесь мы используем filter для выбора колонок ('Continent', 'CCA3').
# axis=1 означает, что мы работаем по оси столбцов.
# В итоге получаем DataFrame, который содержит только эти две колонки.
df2.filter(items=["Continent", "CCA3"], axis=1)

In [None]:
# Фильтрация строк
# Ты правильно заметил, что тут мы используем имя записи ('Zimbabwe'), а не имя колонки.
# Это потому что axis=0 означает, что мы работаем по оси строк (индексов).
# Pandas ищет в индексе (который мы ранее установили как 'Country')
# элемент с именем 'Zimbabwe' и возвращает соответствующую строку.
df2.filter(items=["Zimbabwe"], axis=0)

In [None]:
# Фильтрация с помощью "LIKE" (поиск подстроки)
# like="United" похож на .str.contains(), но используется в методе filter().
# Он ищет в индексе (по оси 0) все элементы, которые содержат подстроку "United".
df2.filter(like="United", axis=0)

In [None]:
# Сортировка по одной колонке
# .sort_values() сортирует DataFrame. by="Country" указывает, по какой колонке сортировать.
# ascending=True (по умолчанию) сортирует по возрастанию (от А до Я, от меньшего к большему).
# Чтобы сортировать по убыванию, используй ascending=False.
df[df["Rank"] < 10].sort_values(by="Country", ascending=True)

# Сортировка по нескольким колонкам
# Можно передать список колонок в by и список булевых значений в ascending.
# В этом примере мы сначала сортируем по "Country" в обратном алфавитном порядке (False),
# а затем, для одинаковых значений в "Country" (если бы они были),
# сортируем по "Continent" в прямом алфавитном порядке (True).
df[df["Rank"] < 10].sort_values(by=["Country", "Continent"], ascending=[False, True])