# Программирование для всех<br>(основы работы с Python)

*Алла Тамбовцева*

## Практикум 8. Работа с таблицами: датафреймы pandas (часть 1)

Содержание:

* Загрузка данных из CSV-файлов
* Описание датафрейма: атрибуты и методы
* Описание датафрейма: статистическое описание с `.describe()`
* Удаление столбцов и аргумент `inplace`
* Фильтрация наблюдений: выбор строк по условию

### Загрузка данных из CSV-файлов

Импортируем библиотеку `pandas` с сокращенным названием:

In [1]:
import pandas as pd

Загрузим данные из файла `nplus1_2025.csv` с характеристиками новостей науки с сайта [N+1](https://nplus1.ru/):

* `Unnamed: 0`: номер новости (номер строки);
* `title`: заголовок новости;
* `author`: автор новости;
* `date`: дата публикации новости;
* `diffc`: сложность новости;
* `rubrics`: рубрики новости;
* `text`: текст новости.

Важно, чтобы текущий ipynb-файл и файл с данными, к которому мы обращаемся, были рядом. Для этого поместим файл в рабочую папку Jupyter Notebook или Google Colab. 

* В Jupyter Notebook загружаем файл через `Upload`, как и обычные ipynb-файлы ранее.
* В Google Colab в левом боковом меню выбираем значок папки (меню *Файлы*), потом кликаем на значок загрузок (↑, *Загрузить в сессионное хранилище*) и выбираем файл с компьютера.

Если файл вне зоны видимости или если мы напишем его название с опечаткой, на запуск кода для считывания файла будет выдана ошибка `FileNotFoundError`. А считывание данных из CSV-файла и сохранение их в датафрейм осуществляется с помощью функции `read_csv()` из `pandas`:

In [2]:
# аргумент – название файла в кавычках

df = pd.read_csv("nplus1_2025.csv")
df

Unnamed: 0.1,Unnamed: 0,title,author,date,diffc,rubrics,text
0,0,Температуру ядра Земли уточнили с помощью лазе...,Егор Конюхов,2025-01-03,2.9,"Физика, Геология",Физики уточнили температуру внутренней границы...
1,1,Большинство людей эпохи мезолита из Оленеостро...,Михаил Подрезов,2025-01-03,3.1,"Археология, Антропология",Ученые проанализировали изотопный состав строн...
2,2,Физики разобрались в состоянии покоя ткани. Он...,Егор Конюхов,2025-01-03,2.3,Физика,"Группа физиков выяснила, что при отсутствии вн..."
3,3,Виноградины усилили микроволновое поле и помог...,Егор Конюхов,2025-01-06,4.1,Физика,Физики использовали две виноградины для усилен...
4,4,Прием глюкокортикоидов при беременности повыси...,Олег Лищук,2025-01-06,1.2,"Медицина, Психология",Кристина Лаугесен (Kristina Laugesen) из Орхус...
...,...,...,...,...,...,...,...
1772,1772,Нападки сородичей в детстве улучшили когнитивн...,Катерина Петрова,2025-11-19,2.1,Зоология,Когнитивные способности ворон-свистунов завися...
1773,1773,Затемнение далекой звезды объяснили прохождени...,Александр Войтюк,2025-11-19,4.2,Астрономия,Астрономы объяснили затемнение звезды ASASSN-2...
1774,1774,В Чехии нашли гальку с выгравированными в верх...,Михаил Подрезов,2025-11-19,3.1,Археология,Археологи обнаружили в окрестностях чешской Ос...
1775,1775,Ценный пурпур подделали в римское время. Краск...,Михаил Подрезов,2025-11-20,1.3,Археология,На Древнем Востоке подделывали пурпур — самый ...


Так как файл относительно большой (~10 Мб), при очень медленном Wi-Fi в Google Colab он может грузиться долго. В таком случае можно загрузить его сразу по ссылке, минуя этап загрузки с компьютера, пользуясь тем, что он в открытом доступе лежит на Github:

In [None]:
df = pd.read_csv("https://raw.githubusercontent.com/allatambov/PyAll25/refs/heads/main/nplus1_2025.csv")

**Дополнительно – загрузка файла из другой папки**

Путь к папке, где лежит файл, можно найти, кликнув правой клавишей на файл и выбрав *Свойства*, в строке *Расположение* (Windows) или *Где* (Mac OS). Далее копируем путь к папке и

На Windows:

* через `\` добавляем к пути название файла, перед кавычками ставим `r`, чтобы Python воспринимал слэши вида `\`, используемые на Windows, не как специальные символы:

      df = pd.read_csv(r"D:\Downloads\nplus1_2025.csv")

На Mac OS:

* через `/` добавляем к пути название файла, слэши вида `/` менять не нужно:

      df = pd.read_csv("/User/allat/Desktop/nplus1_2025.csv")

### Описание датафрейма: атрибуты и методы

При работе с базовыми типами Python (целые и дробные числа, строки, списки, кортежи, словари, множества) мы сталкивались только с методами. Например, был метод `.upper()`, который приводил строку к верхнему регистру или метод `.append()`, который добавлял в конец списка элемент:

In [3]:
print("ключ на старт!".upper())

L = [1, 3, 5]
L.append(8)
print(L)

КЛЮЧ НА СТАРТ!
[1, 3, 5, 8]


**Метод** – функция на объекте определенного типа. В круглых скобках указывается аргумент функции, однако даже если наличие аргумента не предусматривается по смыслу, круглые скобки `()` после названия метода необходимы, так как они обеспечивают применение функции к объекту.

Применим к датафрейму `df` метод `.info()` и получим общее техническое описание датафрейма:

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1777 entries, 0 to 1776
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Unnamed: 0  1777 non-null   int64  
 1   title       1777 non-null   object 
 2   author      1777 non-null   object 
 3   date        1777 non-null   object 
 4   diffc       1777 non-null   float64
 5   rubrics     1777 non-null   object 
 6   text        1777 non-null   object 
dtypes: float64(1), int64(1), object(5)
memory usage: 97.3+ KB


Что следует из этого описания?

* в таблице 1777 строки с индексами от 0 до 1776 (`RangeIndex: 1777 entries, 0 to 1776`, видели такое ранее в `.index` на последовательности `Series`);
* в таблице 7 столбцов (`total 7 columns`);
* в таблицы есть столбец целочисленного типа (`Unnamed: 0`, тип `int`), столбец вещественного типа (`diffc`, тип `float`) и несколько текстовых столбцов (тип `object`, аналог `str`).
* все ячейки в таблице заполнены, пропущенных значений ни в одном из столбцов нет (`Non-Null Count` для каждого столбца совпадает с числом строк в таблице).

На более сложных объектах, например, на массивах `numpy` и датафреймах `pandas` помимо методов определены атрибуты. **Атрибут** – характеристика объекта. Так, у датафреймов `pandas` есть атрибут `.shape`, в котором хранится кортеж из числа строк и столбцов:

In [5]:
# в датафрейме 1777 строк и 7 столбцов

print(df.shape)

(1777, 7)


В отличие от метода, после названия атрибута круглые скобки не ставятся, так как аргументов у атрибута не бывает, это не функция.

> Поставьте скобки и поясните, почему выводится именно такая ошибка.

In [6]:
df.shape()

TypeError: 'tuple' object is not callable

**Ответ.** Ошибка типа `TypeError`, ошибка типа, значит, мы пытаемся применить некорректное действие к какому-то типу. В данном случае проблема в следующем. Код `df.shape` возвращает кортеж – объект типа `tuple`. Кортеж (как и список, например), не является функцией, поэтому после него нельзя добавлять `()`. И Python довольно прозрачно об этом пишет `'tuple' object is not callable`, то есть кортеж не является «вызываемым» объектом – объектом, который может быть вызван как функция с аргументами в скобках.

> Пользуясь тем, что в `.shape` хранится кортеж, извлеките число строк и столбцов датафрейма.

In [7]:
nrow = df.shape[0]
ncol = df.shape[1]
print(nrow, ncol)

1777 7


> Запросите атрибуты `.dtypes`, `.size`, `.index`, `.columns`, `.values` и посмотрите, что в них хранится.

In [8]:
# типы столбцов

print(df.dtypes)

Unnamed: 0      int64
title          object
author         object
date           object
diffc         float64
rubrics        object
text           object
dtype: object


In [9]:
# общее число ячеек в датафрейме
# можем проверить – перемножить результаты выше

print(df.size)
print(df.size == nrow * ncol)

12439
True


In [10]:
# перечень названий строк
# здесь – числовые индексы от 0 до 1777 по аналогии с range()

print(df.index)

RangeIndex(start=0, stop=1777, step=1)


In [11]:
# перечень названий столбцов
# тип Index, внутри список

print(df.columns)

Index(['Unnamed: 0', 'title', 'author', 'date', 'diffc', 'rubrics', 'text'], dtype='object')


In [12]:
# перечень строк
# один элемент – массив с одной строкой таблицы,
# причем массив с сохранением типов данных,
# числа не превращаются в текст
# для краткости ниже – первые два элемента

print(df.values[0:2])

[[0
  'Температуру ядра Земли уточнили с помощью лазерной абляции и рентгеновской спектроскопии. Новая оценка составила 6202 кельвина'
  'Егор Конюхов' '2025-01-03' 2.9 'Физика, Геология'
  'Физики уточнили температуру внутренней границы земного ядра, экстраполировав экспериментальные данные, которые получили с помощью рентгеновской абсорбционной спектроскопии на железе, сжатом ударным методом до 270 гигапаскаль. Своей новой оценкой в 6202 кельвина при давлении 330 гигапаскалей исследователи поделились в журнале Physical Review Letters. Согласно современным представлениям, ядро нашей планеты в основном состоит из железа и разделено на две части — расплавленную внешнюю и твердую внутреннюю. Кристаллизованный центр обеспечивает конвекцию вещества в жидкой компоненте, что в свою очередь создает магнитное поле вокруг Земли, свойства которого играют важную роль, например, в миграции животных (помогая ориентироваться нетопырям и путешествовать камышовкам в Нефтекамск). Так как параметры земн

**Комментарий.** Атрибуты `.index` и `.columns` хранят объекты специальных типов `Index`. При этом внутри `Index` с названиями столбцов лежит обычный список, из которого при желании можно выбрать отдельные элементы, как обычно:

In [13]:
print(df.columns[1])
print(df.columns[2:5])

title
Index(['author', 'date', 'diffc'], dtype='object')


Однако, в отличие от обычных списков, `Index` защищен от изменений, поэтому выбрать название и изменить его по-простому не получится, для этого потребуются специальные методы.

In [14]:
# уберите # ниже, чтобы увидеть ошибку TypeError
# df.columns[1] = "Title"

Теперь посмотрим на методы `.head()` и `.tail()`:

In [15]:
# возвращает первые n строк датафрейма,
# если ничего в скобках нет, по умолчанию n=5

df.head()

Unnamed: 0.1,Unnamed: 0,title,author,date,diffc,rubrics,text
0,0,Температуру ядра Земли уточнили с помощью лазе...,Егор Конюхов,2025-01-03,2.9,"Физика, Геология",Физики уточнили температуру внутренней границы...
1,1,Большинство людей эпохи мезолита из Оленеостро...,Михаил Подрезов,2025-01-03,3.1,"Археология, Антропология",Ученые проанализировали изотопный состав строн...
2,2,Физики разобрались в состоянии покоя ткани. Он...,Егор Конюхов,2025-01-03,2.3,Физика,"Группа физиков выяснила, что при отсутствии вн..."
3,3,Виноградины усилили микроволновое поле и помог...,Егор Конюхов,2025-01-06,4.1,Физика,Физики использовали две виноградины для усилен...
4,4,Прием глюкокортикоидов при беременности повыси...,Олег Лищук,2025-01-06,1.2,"Медицина, Психология",Кристина Лаугесен (Kristina Laugesen) из Орхус...


In [16]:
# тут уже первые 10 строк

df.head(10)

Unnamed: 0.1,Unnamed: 0,title,author,date,diffc,rubrics,text
0,0,Температуру ядра Земли уточнили с помощью лазе...,Егор Конюхов,2025-01-03,2.9,"Физика, Геология",Физики уточнили температуру внутренней границы...
1,1,Большинство людей эпохи мезолита из Оленеостро...,Михаил Подрезов,2025-01-03,3.1,"Археология, Антропология",Ученые проанализировали изотопный состав строн...
2,2,Физики разобрались в состоянии покоя ткани. Он...,Егор Конюхов,2025-01-03,2.3,Физика,"Группа физиков выяснила, что при отсутствии вн..."
3,3,Виноградины усилили микроволновое поле и помог...,Егор Конюхов,2025-01-06,4.1,Физика,Физики использовали две виноградины для усилен...
4,4,Прием глюкокортикоидов при беременности повыси...,Олег Лищук,2025-01-06,1.2,"Медицина, Психология",Кристина Лаугесен (Kristina Laugesen) из Орхус...
5,5,Уровень лейкоцитов в крови суданской пациентки...,Олег Лищук,2025-01-06,2.2,Медицина,В суданскую больницу поступила 64-летняя женщи...
6,6,Астрономы повторно взвесили одну из самых масс...,Александр Войтюк,2025-01-07,4.8,Астрономия,Астрономы повторно измерили массу центральной ...
7,7,Психотерапия с псилоцибином вызвала нормализац...,Олег Лищук,2025-01-07,3.2,"Психология, Медицина",Американские исследователи провели вторичный а...
8,8,«Джеймс Уэбб» случайно отыскал рекордно далеку...,Александр Войтюк,2025-01-07,4.5,Астрономия,Инфракрасный космический телескоп «Джеймс Уэбб...
9,9,Напитки с сахаром назвали причиной почти 10 пр...,Олег Лищук,2025-01-07,1.9,Медицина,Американские и мексиканские исследователи с ме...


In [17]:
# возвращает последние n строк датафрейма,
# тут – последние 10

df.tail(10)

Unnamed: 0.1,Unnamed: 0,title,author,date,diffc,rubrics,text
1767,1767,Древнее поселение в казахстанской степи назвал...,Михаил Подрезов,2025-11-18,2.5,Археология,Археологи представили результаты дальнейших ис...
1768,1768,Орбитальный зонд LRO заметил на Луне свежий кр...,Александр Войтюк,2025-11-19,1.9,Астрономия,Команда орбитального зонда Lunar Reconnaissanc...
1769,1769,Группу палеолитических людей в пещере сопровод...,Михаил Подрезов,2025-11-19,3.2,Археология,"Итальянские ученые проанализировали следы, кот..."
1770,1770,Людей позднего бронзового века заподозрили в и...,Михаил Подрезов,2025-11-19,3.1,"Археология, Ботаника",Ботаники проанализировали растительные остатки...
1771,1771,Муравьи-паразиты обманом заставили муравьев-хо...,Сергей Коленов,2025-11-19,3.7,Зоология,"Энтомологи описали необычный способ, который п..."
1772,1772,Нападки сородичей в детстве улучшили когнитивн...,Катерина Петрова,2025-11-19,2.1,Зоология,Когнитивные способности ворон-свистунов завися...
1773,1773,Затемнение далекой звезды объяснили прохождени...,Александр Войтюк,2025-11-19,4.2,Астрономия,Астрономы объяснили затемнение звезды ASASSN-2...
1774,1774,В Чехии нашли гальку с выгравированными в верх...,Михаил Подрезов,2025-11-19,3.1,Археология,Археологи обнаружили в окрестностях чешской Ос...
1775,1775,Ценный пурпур подделали в римское время. Краск...,Михаил Подрезов,2025-11-20,1.3,Археология,На Древнем Востоке подделывали пурпур — самый ...
1776,1776,Новый вид змей с острова Большой Никобар назва...,Сергей Коленов,2025-11-20,2.5,"Зоология, Экология и климат",Герпетологи описали новый вид волкозубов — нея...


> Попробуйте поставить в `.head()` и `.tail()` отрицательные значения. Что происходит?

**Ответ.** При отрицательных индексах указанное количество строк исключается. Так, код `df.head(-10)` выберет все первые строки с начала таблицы, кроме последних 10, а код `df.tail(-10)` выберет все строки с конца таблицы, кроме первых 10.

In [18]:
# от 0 до 1767, первые 1767 строк из 1777

df.head(-10)

Unnamed: 0.1,Unnamed: 0,title,author,date,diffc,rubrics,text
0,0,Температуру ядра Земли уточнили с помощью лазе...,Егор Конюхов,2025-01-03,2.9,"Физика, Геология",Физики уточнили температуру внутренней границы...
1,1,Большинство людей эпохи мезолита из Оленеостро...,Михаил Подрезов,2025-01-03,3.1,"Археология, Антропология",Ученые проанализировали изотопный состав строн...
2,2,Физики разобрались в состоянии покоя ткани. Он...,Егор Конюхов,2025-01-03,2.3,Физика,"Группа физиков выяснила, что при отсутствии вн..."
3,3,Виноградины усилили микроволновое поле и помог...,Егор Конюхов,2025-01-06,4.1,Физика,Физики использовали две виноградины для усилен...
4,4,Прием глюкокортикоидов при беременности повыси...,Олег Лищук,2025-01-06,1.2,"Медицина, Психология",Кристина Лаугесен (Kristina Laugesen) из Орхус...
...,...,...,...,...,...,...,...
1762,1762,Норвежский кладоискатель обнаружил 800-летнюю ...,Михаил Подрезов,2025-11-18,1.2,Археология,Норвежский кладоискатель Ким Эрик Фюллинг Дюбв...
1763,1763,Считавшуюся вымершей рыбу из Боливии переоткры...,Сергей Коленов,2025-11-18,2.7,"Зоология, Экология и климат",Ихтиологи переоткрыли ривуловую рыбу Moema cla...
1764,1764,"Кабо-Верде, Маврикий и Сейшелы искоренили корь...",Олег Лищук,2025-11-18,1.1,Медицина,Всемирная организация здравоохранения официаль...
1765,1765,Инженеры построили робота TARS из «Интерстелла...,Андрей Фокин,2025-11-18,1.4,Роботы и дроны,Два инженера-робототехника построили действующ...


In [19]:
# # от 10 до 1777, последние 1767 строк из 1777

df.tail(-10)

Unnamed: 0.1,Unnamed: 0,title,author,date,diffc,rubrics,text
10,10,Эффективность преобразования рентгеновского из...,Егор Конюхов,2025-01-07,5.3,Физика,Физики облучили лазером серебряную мишень свер...
11,11,Роение медуз объяснили с помощью модели активн...,Егор Конюхов,2025-01-07,3.7,"Физика, Биология",Физики проанализировали формирование роя медуз...
12,12,Физики приготовили ферромагнитный сэндвич из о...,Егор Конюхов,2025-01-08,4.3,Физика,"Физики создали многослойную структуру, которая..."
13,13,Производитель аэротакси Lilium нашел инвестора...,Николай Воронцов,2025-01-08,1.3,"Авиация, Транспорт","Немецкая компания Lilium, разрабатывающая элек..."
14,14,Новые рекомендации сократили сроки лечения туб...,Олег Лищук,2025-01-08,3.9,Медицина,Юсси Сауконнен (Jussi Saukkonen) из Бостонског...
...,...,...,...,...,...,...,...
1772,1772,Нападки сородичей в детстве улучшили когнитивн...,Катерина Петрова,2025-11-19,2.1,Зоология,Когнитивные способности ворон-свистунов завися...
1773,1773,Затемнение далекой звезды объяснили прохождени...,Александр Войтюк,2025-11-19,4.2,Астрономия,Астрономы объяснили затемнение звезды ASASSN-2...
1774,1774,В Чехии нашли гальку с выгравированными в верх...,Михаил Подрезов,2025-11-19,3.1,Археология,Археологи обнаружили в окрестностях чешской Ос...
1775,1775,Ценный пурпур подделали в римское время. Краск...,Михаил Подрезов,2025-11-20,1.3,Археология,На Древнем Востоке подделывали пурпур — самый ...


### Описание датафрейма: статистическое описание с `.describe()`

Для описания данных в статистическом смысле пригодится метод `.describe()`:

In [20]:
df.describe()

Unnamed: 0.1,Unnamed: 0,diffc
count,1777.0,1777.0
mean,888.0,2.774226
std,513.120031,1.337353
min,0.0,1.1
25%,444.0,1.8
50%,888.0,2.5
75%,1332.0,3.3
max,1776.0,9.1


По умолчанию метод выбирает числовые столбцы типов `float` и `int` и возвращает для них следующие описательные статистики:

* `count` – число заполненных ячеек, 
* `mean` – среднее арифметическое, 
* `std` – стандартное отклонение, 
* `min` и `max` – минимум и максимум, 
* `50%` – медиана, 
* `25%` – 25-ый процентиль, он же нижний квартиль, он же первый квартиль, он же квантиль уровня 0.25, 
* `75%` – 75-ый процентиль, он же верхний квартиль, он же третий квартиль, он же квантиль уровня 0.75.

Простыми словами, если мы рассмотрим описание `diffc` (`Unnamed: 0` описывать бессмысленно, это номер строки, мы его удалим позже), получается, что средняя сложность статьи равна 2.77, но при этом в 50% случаев сложность статьи не превышает 2.5. Сложность 25% статей не выше 1.8, а сложность 75% статей не выше 3.3. При этом минимальное значение сложности статьи равно 1.1, а максимальное – 9.1. Такое соотношение описательных статистик намекает на то, что в данных присутствуют новости с нетипично высокой сложностью: у 75% новостей `diffc` не выше 3.3, а максимум при этом 9.1, разрыв между этими значениями большой.

Значение стандартного отклонения оценить в данном случае сложно, оно отвечает за разброс значений относительно среднего. Чем оно выше, тем более разнообразные значения присутствуют в данных, потому что если все значения одинаковы и равны числу $a$, среднее тоже равно числу $a$, а стандартное отклонение – 0. Стандартное отклонение имеет смысл интерпретировать при сравнении групп, например, если мы захотим сравнивать разнообразие уровней сложности новостей разных рубрик (где выше – там выше разнообразие).

Как мы уже заметили, в данных преобладают текстовые столбцы, и их тоже неплохо бы описать. Добавим в `.describe()` аргумент `include` и впишем туда название типа `object`:

In [21]:
# можно без кавычек в более новой версии Python,
# если слово object выделяется зеленым

df.describe(include = "object")

Unnamed: 0,title,author,date,rubrics,text
count,1777,1777,1777,1777,1777
unique,1777,19,232,166,1777
top,Температуру ядра Земли уточнили с помощью лазе...,Олег Лищук,2025-06-30,Медицина,Физики уточнили температуру внутренней границы...
freq,1,488,18,402,1


Здесь `count` – число заполненных ячеек, `unique` – число уникальных значений (категорий), `top` – мода, самое частое значение, `freq` – частота, соответствующая моде. Так, например, новости были предложены и написаны 19 разными авторами, чаще всего – Олегом Лищуком (488 раз). 

Если все значения в текстовом столбце уникальны, то они все встречаются по одному разу, поэтому формально каждое из них является модой. В `top` в таком случае может находится первое значение в столбце или иное значение (от системы к системе разное, но на одном и том же компьютере одинаковое при каждом вызове `.describe()`), поскольку метод выбирает его произвольно, но не совсем случайно. Чтобы понять эту загадочную фразу, представьте, что Python не задействует алгоритм случайного выбора элемента, который каждый раз может вернуть разный результат, а просто выбирает первый из неупорядоченного множества. На одном компьютере это множество будет выглядеть одним образом, на другом – другим, и так далее.

Если с помощью `.describe()` мы хотим описать столбцы разных типов сразу, типы можно перечислить в виде списка:

In [22]:
df.describe(include = [float, "object"]) 

Unnamed: 0,title,author,date,diffc,rubrics,text
count,1777,1777,1777,1777.0,1777,1777
unique,1777,19,232,,166,1777
top,Температуру ядра Земли уточнили с помощью лазе...,Олег Лищук,2025-06-30,,Медицина,Физики уточнили температуру внутренней границы...
freq,1,488,18,,402,1
mean,,,,2.774226,,
std,,,,1.337353,,
min,,,,1.1,,
25%,,,,1.8,,
50%,,,,2.5,,
75%,,,,3.3,,


Теперь в тех случаях, где описательные статистики для числовых данных (`mean` и далее) не определены, в выдаче стоят пропущенные значения `NaN`, от *Not a Number*. Статистики для текстовых данных (`unique`, `top` и `freq`), теоретически, могут быть посчитаны и для числовых, но их редко в таком виде интерпретируют, поэтому для единообразия на их месте в описании сложности тоже указаны `NaN`.

### Удаление столбцов и аргумент `inplace`

Удалим неинформативный столбец `Unnamed: 0`. Для удаления строк и столбцов на датафреймах определен универсальный метод `.drop()`. Впишем в аргумент `columns` список из названий столбцов, которые подлежат удалению:

In [23]:
df.drop(columns = ["Unnamed: 0"])

Unnamed: 0,title,author,date,diffc,rubrics,text
0,Температуру ядра Земли уточнили с помощью лазе...,Егор Конюхов,2025-01-03,2.9,"Физика, Геология",Физики уточнили температуру внутренней границы...
1,Большинство людей эпохи мезолита из Оленеостро...,Михаил Подрезов,2025-01-03,3.1,"Археология, Антропология",Ученые проанализировали изотопный состав строн...
2,Физики разобрались в состоянии покоя ткани. Он...,Егор Конюхов,2025-01-03,2.3,Физика,"Группа физиков выяснила, что при отсутствии вн..."
3,Виноградины усилили микроволновое поле и помог...,Егор Конюхов,2025-01-06,4.1,Физика,Физики использовали две виноградины для усилен...
4,Прием глюкокортикоидов при беременности повыси...,Олег Лищук,2025-01-06,1.2,"Медицина, Психология",Кристина Лаугесен (Kristina Laugesen) из Орхус...
...,...,...,...,...,...,...
1772,Нападки сородичей в детстве улучшили когнитивн...,Катерина Петрова,2025-11-19,2.1,Зоология,Когнитивные способности ворон-свистунов завися...
1773,Затемнение далекой звезды объяснили прохождени...,Александр Войтюк,2025-11-19,4.2,Астрономия,Астрономы объяснили затемнение звезды ASASSN-2...
1774,В Чехии нашли гальку с выгравированными в верх...,Михаил Подрезов,2025-11-19,3.1,Археология,Археологи обнаружили в окрестностях чешской Ос...
1775,Ценный пурпур подделали в римское время. Краск...,Михаил Подрезов,2025-11-20,1.3,Археология,На Древнем Востоке подделывали пурпур — самый ...


Что сделал метод `.drop()`? Он вернул копию датафрейма `df`, в которой указанный столбец был удален. Сам оригинальный датафрейм `df` при этом не изменился:

In [24]:
df.head()

Unnamed: 0.1,Unnamed: 0,title,author,date,diffc,rubrics,text
0,0,Температуру ядра Земли уточнили с помощью лазе...,Егор Конюхов,2025-01-03,2.9,"Физика, Геология",Физики уточнили температуру внутренней границы...
1,1,Большинство людей эпохи мезолита из Оленеостро...,Михаил Подрезов,2025-01-03,3.1,"Археология, Антропология",Ученые проанализировали изотопный состав строн...
2,2,Физики разобрались в состоянии покоя ткани. Он...,Егор Конюхов,2025-01-03,2.3,Физика,"Группа физиков выяснила, что при отсутствии вн..."
3,3,Виноградины усилили микроволновое поле и помог...,Егор Конюхов,2025-01-06,4.1,Физика,Физики использовали две виноградины для усилен...
4,4,Прием глюкокортикоидов при беременности повыси...,Олег Лищук,2025-01-06,1.2,"Медицина, Психология",Кристина Лаугесен (Kristina Laugesen) из Орхус...


Как сохранить изменения? Добавить в `.drop()` аргумент `inplace = True`, который сохранит изменения в самом датафрейме, то есть перезапишет датафрейм с изменениями *на место* (отсюда и *in place*) старого:

In [25]:
# теперь удалилось

df.drop(columns = ["Unnamed: 0"], inplace = True)
df.head()

Unnamed: 0,title,author,date,diffc,rubrics,text
0,Температуру ядра Земли уточнили с помощью лазе...,Егор Конюхов,2025-01-03,2.9,"Физика, Геология",Физики уточнили температуру внутренней границы...
1,Большинство людей эпохи мезолита из Оленеостро...,Михаил Подрезов,2025-01-03,3.1,"Археология, Антропология",Ученые проанализировали изотопный состав строн...
2,Физики разобрались в состоянии покоя ткани. Он...,Егор Конюхов,2025-01-03,2.3,Физика,"Группа физиков выяснила, что при отсутствии вн..."
3,Виноградины усилили микроволновое поле и помог...,Егор Конюхов,2025-01-06,4.1,Физика,Физики использовали две виноградины для усилен...
4,Прием глюкокортикоидов при беременности повыси...,Олег Лищук,2025-01-06,1.2,"Медицина, Психология",Кристина Лаугесен (Kristina Laugesen) из Орхус...


**Примечание 1.** Если вариант с `inplace` кажется загадочным, можно просто перезаписать результат `.drop()` через `=`:

    df = df.drop(columns = ["Unnamed: 0"])
    
**Примечание 2.** Если Python в ответ на `.drop()` выдает ошибку `KeyError`, это может происходить по трем причинам:

* забыли указать название аргумента `columns` и написали, например, просто `df.drop(["Unnamed: 0"])`; метод по умолчанию работает со строками, поэтому название `Unnamed: 0` Python ищет среди индексов строк, не находит такого и выдает ошибку ключа;
* указали название столбца с опечаткой;
* пытаетесь повторно удалить столбец, запустив ячейку с `.drop()` второй раз; посмотрите на датафрейм и удостоверьтесь, что столбец, который удаляете, не был удален в предыдущей операции.

### Фильтрация наблюдений: выбор строк по условию

Прежде чем переходить к фильтрации строк, вспомним немного о булевых массивах и распространим эти знания на столбцы датафрейма. Булев массив из `True` и `False` можно было получить, сформулировав условие, истинность которого автоматически проверится для всех элементов массива. Поступим аналогичным образом со столбцом датафрейма. Выберем столбец `diffc` по названию (очень похоже на выбор значения по ключу из словаря) и проверим, превышает ли сложность новостей значение 5:

In [26]:
df["diffc"] > 5

0       False
1       False
2       False
3       False
4       False
        ...  
1772    False
1773    False
1774    False
1775    False
1776    False
Name: diffc, Length: 1777, dtype: bool

Получили булев столбец – последовательность `pandas Series` из `True` и `False`, где `True` стоит на местах значений выше 5. Если нам нужно определить число новостей, удовлетворяющих условию и при этом не требуется выбирать соответствующие строки, можно просто вычислить сумму по такому столбцу:

In [27]:
(df["diffc"] > 5).sum()

112

Итак, 112 новостей (всего 1777) имеют сложность выше 5.

Если сами строки нам все-таки нужны, и мы хотим увидеть, что это за сложные новости, условие, которое возвращает `True` или `False` нужно поместить в фильтр – в квадратные скобки:

In [28]:
# выбираем и сохраняем в news01

news01 = df[df["diffc"] > 5]
news01.head()

Unnamed: 0,title,author,date,diffc,rubrics,text
10,Эффективность преобразования рентгеновского из...,Егор Конюхов,2025-01-07,5.3,Физика,Физики облучили лазером серебряную мишень свер...
37,Детский стресс повлиял на метилирование ДНК в ...,Юлия Нестерова,2025-01-13,5.7,"Медицина, Биология",Ученые из Финляндии и Дании сравнили результат...
75,В ушах и носу млекопитающих нашли новую скелет...,Юлия Нестерова,2025-01-17,5.5,"Биология, Медицина, Наука",Группа ученых из десяти стран открыла липохрящ...
119,Физики создали квантовые состояния кота Шрёдин...,Дмитрий Рудик,2025-01-27,7.8,Физика,Австралийские ученые создали квантовые состоян...
120,Хлорид-анион пролез через слой графена с дефек...,Михаил Бойм,2025-01-27,5.1,Химия,Химики из Германии синтезировали органическую ...


Фильтрация происходит следующим образом: в `news01` Python забирает те строки, на которых условие внутри квадратных скобок вернуло значение `True`.

Проверим размерность таблицы – убедимся, что там 112 строк:

In [29]:
print(news01.shape)

(112, 6)


**Примечание.** Почему `df` в коде выше встречается более одного раза – `df[df["diffc"]...]`? Посмотрите на выражение `df[...]` как на шаблон для выбора элементов. В квадратных скобках мы обычно указываем критерии выбора. При работе со списками и строками в квадратных скобках мы указывали индексы или срезы типа `0:10`, при работе со словарями – ключи записей. А для массивов и датафреймов в квадратных скобках можно указать условия для фильтрации значений. Так как датафрейм `df` состоит из разных столбцов, условия логично формулировать для каждого столбца отдельно, а не для всего `df`. А столбец мы выбираем по названию из `df` (здесь `df["diffc"]`), потому что за рамками `df` объект `diffc` для Python не существует. Поэтому и возникает двойное `df`. 

Если мы попробуем написать что-то вроде `df["diffc" > 5]` или `df[diffc > 5]`, ничего не получится. В первом случае Python будет сравнивать слово `"diffc"` с числом 5, что вызовет ошибку `TypeError`.  А во втором Python будет искать переменную `diffc`, которую мы отдельно не создавали, что вызовет ошибку `NameError`.

> Выберите строки, соответствующие новостям со сложностью от 4 до 5 включительно. Определите количество таких строк. 

In [30]:
# первый способ: объединяем условия через AND (&)
# обратите внимание на обязательные круглые скобки вокруг частей условия

news02 = df[(df["diffc"] >= 4) & (df["diffc"] <= 5)]
print(news02.shape)

(203, 6)


In [31]:
# второй способ: метод .between(),
# в нем указываем границы нужного отрезка

news02 = df[df["diffc"].between(4, 5)]
print(news02.shape)

(203, 6)


Чтобы убедиться, что в методе `.between()`  оба конца отрезка включаются, можно запросить по нему документацию через `help()`:

    help(df["diffc"].between)

> Выберите строки, соответствующие новостям со сложностью менее 4, относящиеся к рубрике *Медицина*. Определите количество таких строк.

In [32]:
# снова объединяем условия через AND (&)

news03 = df[(df["diffc"] < 4) & 
            (df["rubrics"] == "Медицина")] 
print(news03.shape)

(388, 6)


**Примечание.** Если условие стоят внутри квадратных скобок, его части можно переносить по строкам. Здесь Python не выдает ошибку синтаксиса из-за переноса после `&`, потому что он понимает, что пока квадратная скобка не закрыта, далее следует продолжение предыдущей строки.

> Выберите строки, соответствующие новостям, относящиеся к рубрикам *Зоология* и *Экология и климат*. Определите количество таких строк.

In [33]:
# первый способ: объединяем условия через OR (|)

news04 = df[(df["rubrics"] == "Зоология") | 
            (df["rubrics"] == "Экология и климат")] 
print(news04.shape)

(238, 6)


In [34]:
# второй способ: метод .isin()
# проверяет вхождение значения в список

news04 = df[df["rubrics"].isin(["Зоология", "Экология и климат"])]
print(news04.shape)

(238, 6)


**Примечание.** Почему мы используем оператор `|` (`or`), а не `&` (`and`)? Оператор `&` всегда проверяет *одновременное* выполнение условий, а оператор `|` – выполнение *хотя бы одного* условия. В ячейке в столбец `rubrics` не может одновременно стоять `Зоология` и `Экология и климат`, только что-то одно. Если новость относится к нескольким рубрикам сразу, в `rubrics` названия будут перечислены через запятую с пробелом, а это совсем другое. Запросим таблиц частот для этого столбца и убедимся в этом:

In [35]:
# метод .value_counts()
# показывает, сколько раз значения встречаются в столбце,
# значения отсортированы от самого частого к самому редкому

df["rubrics"].value_counts()

Медицина                             402
Археология                           152
Зоология                             146
Астрономия                           108
Экология и климат                     92
                                    ... 
Медицина, Биология, Материалы          1
Медицина, Психология, Лингвистика      1
Космонавтика, Роботы и дроны           1
Медицина, Психология, IT               1
Биология, Палеонтология                1
Name: rubrics, Length: 166, dtype: int64

> Выберите строки, соответствующие новостям, НЕ относящиеся к рубрикам *Зоология* и *Экология и климат*. Определите количество таких строк.

Для построения такого фильтра, нужно знать, как в `pandas` выглядит отрицание. За отрицание отвечает оператор `~` (аналог базового `not` в Python, который с массивами и датафреймами не работает). Поставим отрицание перед методом `.isin()` в одном из вариантов кода выше:

In [36]:
not_news04 = df[~df["rubrics"].isin(["Зоология", 
                                     "Экология и климат"])]
print(not_news04.shape)

(1539, 6)


Метод `.isin()` возвращал значение `True`, если название рубрики входило в указанный список, и `False`, если название рубрики не входило в указанный список. Отрицание `~` обратило значения – превратило `True` в `False`, а `False` – в `True`, поэтому мы отобрали новости, у которых иные рубрики. 

Само по себе отрицание – довольно понятная операция. Однако следует помнить о порядке действий. Если мы применяем отрицание к варианту выбора с оператором `|`, все части условия нужно взять в дополнительные круглые скобки, потому что отрицание сильнее `|`:

In [37]:
df[~((df["rubrics"] == "Зоология") | 
     (df["rubrics"] == "Экология и климат"))]

Unnamed: 0,title,author,date,diffc,rubrics,text
0,Температуру ядра Земли уточнили с помощью лазе...,Егор Конюхов,2025-01-03,2.9,"Физика, Геология",Физики уточнили температуру внутренней границы...
1,Большинство людей эпохи мезолита из Оленеостро...,Михаил Подрезов,2025-01-03,3.1,"Археология, Антропология",Ученые проанализировали изотопный состав строн...
2,Физики разобрались в состоянии покоя ткани. Он...,Егор Конюхов,2025-01-03,2.3,Физика,"Группа физиков выяснила, что при отсутствии вн..."
3,Виноградины усилили микроволновое поле и помог...,Егор Конюхов,2025-01-06,4.1,Физика,Физики использовали две виноградины для усилен...
4,Прием глюкокортикоидов при беременности повыси...,Олег Лищук,2025-01-06,1.2,"Медицина, Психология",Кристина Лаугесен (Kristina Laugesen) из Орхус...
...,...,...,...,...,...,...
1770,Людей позднего бронзового века заподозрили в и...,Михаил Подрезов,2025-11-19,3.1,"Археология, Ботаника",Ботаники проанализировали растительные остатки...
1773,Затемнение далекой звезды объяснили прохождени...,Александр Войтюк,2025-11-19,4.2,Астрономия,Астрономы объяснили затемнение звезды ASASSN-2...
1774,В Чехии нашли гальку с выгравированными в верх...,Михаил Подрезов,2025-11-19,3.1,Археология,Археологи обнаружили в окрестностях чешской Ос...
1775,Ценный пурпур подделали в римское время. Краск...,Михаил Подрезов,2025-11-20,1.3,Археология,На Древнем Востоке подделывали пурпур — самый ...


Если мы не поставим скобки, Python будет читать фильтр так: выбрать строки, где рубрика не *Зоология* ИЛИ строки, где рубрика *Экология и климат*:

In [38]:
df[~(df["rubrics"] == "Зоология") | 
   (df["rubrics"] == "Экология и климат")]

Unnamed: 0,title,author,date,diffc,rubrics,text
0,Температуру ядра Земли уточнили с помощью лазе...,Егор Конюхов,2025-01-03,2.9,"Физика, Геология",Физики уточнили температуру внутренней границы...
1,Большинство людей эпохи мезолита из Оленеостро...,Михаил Подрезов,2025-01-03,3.1,"Археология, Антропология",Ученые проанализировали изотопный состав строн...
2,Физики разобрались в состоянии покоя ткани. Он...,Егор Конюхов,2025-01-03,2.3,Физика,"Группа физиков выяснила, что при отсутствии вн..."
3,Виноградины усилили микроволновое поле и помог...,Егор Конюхов,2025-01-06,4.1,Физика,Физики использовали две виноградины для усилен...
4,Прием глюкокортикоидов при беременности повыси...,Олег Лищук,2025-01-06,1.2,"Медицина, Психология",Кристина Лаугесен (Kristina Laugesen) из Орхус...
...,...,...,...,...,...,...
1770,Людей позднего бронзового века заподозрили в и...,Михаил Подрезов,2025-11-19,3.1,"Археология, Ботаника",Ботаники проанализировали растительные остатки...
1773,Затемнение далекой звезды объяснили прохождени...,Александр Войтюк,2025-11-19,4.2,Астрономия,Астрономы объяснили затемнение звезды ASASSN-2...
1774,В Чехии нашли гальку с выгравированными в верх...,Михаил Подрезов,2025-11-19,3.1,Археология,Археологи обнаружили в окрестностях чешской Ос...
1775,Ценный пурпур подделали в римское время. Краск...,Михаил Подрезов,2025-11-20,1.3,Археология,На Древнем Востоке подделывали пурпур — самый ...


**Дополнительно.** Если мы захотим «раскрыть» скобки и применить отрицание к каждой из частей, это нужно делать осторожно. По логическим [правилам де Моргана](https://ru.wikipedia.org/wiki/%D0%97%D0%B0%D0%BA%D0%BE%D0%BD%D1%8B_%D0%B4%D0%B5_%D0%9C%D0%BE%D1%80%D0%B3%D0%B0%D0%BD%D0%B0):

* `~(A | B)` = `~A & ~B`
* `~(A & B)` = `~A | ~B`

Поэтому, для корректного отрицания в задаче выше нужно будет не просто добавить `~` перед каждым условием, но и заменить оператор `|` на `&`:

In [39]:
df[~(df["rubrics"] == "Зоология") &
   ~(df["rubrics"] == "Экология и климат")]

Unnamed: 0,title,author,date,diffc,rubrics,text
0,Температуру ядра Земли уточнили с помощью лазе...,Егор Конюхов,2025-01-03,2.9,"Физика, Геология",Физики уточнили температуру внутренней границы...
1,Большинство людей эпохи мезолита из Оленеостро...,Михаил Подрезов,2025-01-03,3.1,"Археология, Антропология",Ученые проанализировали изотопный состав строн...
2,Физики разобрались в состоянии покоя ткани. Он...,Егор Конюхов,2025-01-03,2.3,Физика,"Группа физиков выяснила, что при отсутствии вн..."
3,Виноградины усилили микроволновое поле и помог...,Егор Конюхов,2025-01-06,4.1,Физика,Физики использовали две виноградины для усилен...
4,Прием глюкокортикоидов при беременности повыси...,Олег Лищук,2025-01-06,1.2,"Медицина, Психология",Кристина Лаугесен (Kristina Laugesen) из Орхус...
...,...,...,...,...,...,...
1770,Людей позднего бронзового века заподозрили в и...,Михаил Подрезов,2025-11-19,3.1,"Археология, Ботаника",Ботаники проанализировали растительные остатки...
1773,Затемнение далекой звезды объяснили прохождени...,Александр Войтюк,2025-11-19,4.2,Астрономия,Астрономы объяснили затемнение звезды ASASSN-2...
1774,В Чехии нашли гальку с выгравированными в верх...,Михаил Подрезов,2025-11-19,3.1,Археология,Археологи обнаружили в окрестностях чешской Ос...
1775,Ценный пурпур подделали в римское время. Краск...,Михаил Подрезов,2025-11-20,1.3,Археология,На Древнем Востоке подделывали пурпур — самый ...


> Выберите строки, соответствующие новостям, где в названии рубрики *содержится* слово `Медицина`. Определите количество таких строк.

In [40]:
# метод str.contains() проверяет вхождение подстроки в строку

news_med = df[df["rubrics"].str.contains("Медицина")]
print(news_med.shape)

(611, 6)


> Выберите строки, соответствующие новостям, где название рубрики начинается с буквы `А`. Определите количество таких строк.

In [41]:
news_a = df[df["rubrics"].str.startswith("А")]
print(news_a.shape)

(435, 6)


**Примечания:**

* Метод `str.contains()` выступает аналогом оператора `in` в базовом Python, то есть проверяет вхождение подстроки («слова» как любого набора символов) в строку с текстом.

* Методы на строках в `pandas` хранятся в подмодуле `str`, поэтому их нужно вызывать, используя префикс `str` перед названием. Так, например, привычный метод `.lower()` из базового Python в `pandas` представляется как `str.lower()`, а `.startswith()` – как `str.startswith()`. Отличие от базовых методов заключается в том, что методы на строках, те же `.lower()` и `.startswith()` умеют работать только с отдельными строками, а методы из `str` внутри `pandas` могут применяться сразу к набору строк, например, столбцу датафрейма. Кроме того, в `pandas` добавлены некоторые методы, например, `.contains()` на обычных строках не определен.