## Программирование для всех<br>(основы работы с Python)

*Алла Тамбовцева*

### Практикум 9. Работа с таблицами: датафреймы Pandas (часть 2)

Импортируем библиотеку `pandas`:

In [None]:
import pandas as pd

Загружаем данные из файла `nplus1_2025.csv`:

In [None]:
df = pd.read_csv("nplus1_2025.csv")
df.head()

Чтобы не удалять столбец `Unnamed: 0` (и вообще все подобные столбцы, если их будет несколько), при загрузке данных его можно просто исключить.

У функции `read_csv()` есть аргумент `usecols`, в котором можно перечислить столбцы, которые мы хотим оставить в датафрейме при загрузке данных из CSV-файла. Однако перечислять все нужные столбцы, особенно если файл большой, странная затея. Как быть? Воспользоваться тем, что в `usecols` можно указывать не только перечени, но и функции, которые возвращают `True` и `False` в ответ на названия столбцов.

> Напишите lambda-функцию, которая принимает на вход название столбца (обычную строку с текстом) и возвращает значение `False`, если оно начинается с `Unnamed`, и `True` – иначе. Впишите эту функцию в `usecols` и загрузите данные в датафрейм еще раз.

In [None]:
### YOUR CODE HERE ###

### Сортировка

Для сортировки строк на датафрейме определен метод `.sort_values()`, в нем можно указать основание сортировки – название столбца или столбцов, по которым производится упорядочение.

In [None]:
df.sort_values("diffc")

По умолчанию сортировка выполняется по возрастанию, если нужно убывание – необходим аргумент `ascending = False`:

In [None]:
df.sort_values("diffc", ascending = False)

Для текстовых столбцов сортировка производится по алфавиту:

In [None]:
df.sort_values("author")

> Подумайте, как отсортировать строки сразу по двум основаниям, например, по автору и сложности. 

In [None]:
### YOUR CODE HERE ###

### Описание данных: числовые данные

Для описания отдельного столбца можно вызвать метод `.describe()`, который используется для описания всего датафрейма:

In [None]:
df["diffc"].describe()

Если нас интересуют описательные статистики по отдельности, их можно вызвать с помощью методов с «говорящими» названиями:

In [None]:
print("Минимум:", df["diffc"].min())
print("Максимум:", df["diffc"].max())
print("Среднее:", df["diffc"].mean())
print("Медиана:", df["diffc"].median())
print("25% процентиль:", df["diffc"].quantile(0.25))
print("75% процентиль:", df["diffc"].quantile(0.75))

Можем запросить уникальные значения в столбце:

In [None]:
print(df["diffc"].unique())

Или сразу таблицу частот:

In [None]:
print(df["diffc"].value_counts())

> Какой недостаток у таблицы частот выше? Как можно более разумным образом получить представление о количестве те или иных значений, предполагая, что сам показатель дробный? Подсказка: вспомните про гистограмму и основную идею этого графика. Постройте гистограмму для сложности новости.

In [None]:
### YOUR CODE HERE ###

### Добавление новых столбцов

> Определите максимальное значение сложности статьи. Добавьте в датафрейм столбец с относительной сложностью статьи – сложность статьи в процентах от самой сложной, округленной до сотых.

In [None]:
### YOUR CODE HERE ###

> Добавьте бинарный столбец `hard`, где значения 1 соответствуют новостям с относительной сложностью более 50%, а 0 – всем остальным новостям. Используя полученный столбец, вычислите количество и долю новостей с относительной сложностью выше 50%.

In [None]:
### YOUR CODE HERE ###

> Добавьте столбец `n_rubs` с количеством рубрик, к которым относится статья. Используйте для этого lambda-функцию, которая разбивает строку с рубриками на части и считает их количество.

In [None]:
### YOUR CODE HERE ###

> По аналогии с предыдущей задачей, добавьте столбцы `author_name` и `author_surname` с именем и фамилией автора соответственно.

In [None]:
### YOUR CODE HERE ###

### Формат дата-время

Вспомним про описание всего датафрейма и посмотрим на типы столбцов:

In [None]:
df.info()

Столбец с датой пока имеет текстовый тип, а значит, мы не сможем работать с датами полноценно. Рассмотрим разные способы изменения типа столбца:

In [None]:
# вариант 1 – не универсальный

df["date"] = df["date"].astype("datetime64[ns]")

In [None]:
# вариант 2 – универсальный

df["date"] = pd.to_datetime(df["date"], format = "%Y-%m-%d")

Про форматирование дат, которое указывается в `format`, можно почитать [здесь](https://docs.python.org/3/library/datetime.html#strftime-and-strptime-behavior), оно относится не только к датам в `pandas`, а к датам вообще, не только в Python.

Теперь из даты формата `datetime` можно извлекать отдельные части:

In [None]:
print(df["date"].dt.year)

In [None]:
print(df["date"].dt.month)

In [None]:
print(df["date"].dt.day)

> Подумайте, как могут называться атрибуты/методы для извлечения дня недели, квартала, а также часов, минут и секунд (если их в дате нет, это не помеха).

In [None]:
### YOUR CODE HERE ###

> Переименуйте значения с днями недели таким образом, чтобы они были написаны на русском языке. Используйте для этого метод `.map()` для столбца датафрейма и словарь с соответствиями *старое название-новое название*.

### Описание данных: текстовые данные

> Постройте таблицу частот для столбца с днями недели. Изучите аргументы соответствующего метода через `help()`.

In [None]:
### YOUR CODE HERE ###

> Определите моду столбца с днями недели – самое частое значение. Используйте метод `.mode()`. Как вы думаете, почему результатом является столбец типа `pandas Series`, а не отдельное значение.

In [None]:
### YOUR CODE HERE ###

> Используя полученную таблицу частот, постройте столбиковую диаграмму для распределения новостей по дням недели, применив к результату `value_counts()` метод `plot.bar()`.

Постройте таблицу частот для столбца с рубриками. Согласитесь, что тут всё гораздо сложнее. Давайте попробуем разобраться!

In [None]:
# тут готовый семинар заканчивается и начинается взрослая жизнь

### YOUR CODE HERE ###
### YOUR CODE HERE ###
### YOUR CODE HERE ###
### YOUR CODE HERE ###