# Основы Pandas и работа с данными

## 1. Импорт библиотеки

In [None]:
import pandas as pd
import numpy as np

# Проверка версии
print(f"Версия pandas: {pd.__version__}")
print(f"Версия numpy: {np.__version__}")

## 2. Основные структуры данных

### 2.1 Series - одномерный массив с метками

Series — это одномерный массив с индексами. Можно думать о нём как о столбце Excel или словаре Python.

In [None]:
# Создание Series из списка
simple_series = pd.Series([10, 20, 30, 40, 50])
print("Series из списка:")
print(simple_series)
print(f"Тип: {type(simple_series)}")

In [None]:
# Создание Series с явными индексами
indexed_series = pd.Series([10, 20, 30, 40, 50], 
                           index=['a', 'b', 'c', 'd', 'e'])
print("\nSeries с индексами:")
print(indexed_series)

In [None]:
# Создание Series из словаря
dict_data = {'Москва': 12_000_000, 'Санкт-Петербург': 5_000_000, 
             'Новосибирск': 1_500_000, 'Екатеринбург': 1_400_000}
city_population = pd.Series(dict_data)
print("\nSeries из словаря (население городов):")
print(city_population)

In [None]:
# Создание Series из NumPy массива
np_array = np.array([1.5, 2.3, 3.7, 4.1, 5.9])
np_series = pd.Series(np_array, index=['Jan', 'Feb', 'Mar', 'Apr', 'May'])
print("\nSeries из NumPy массива:")
print(np_series)

### 2.2 Свойства и методы Series

In [None]:
# Основные свойства
print("=== СВОЙСТВА SERIES ===")
print(f"Значения (values): {city_population.values}")
print(f"Индекс (index): {city_population.index}")
print(f"Тип данных (dtype): {city_population.dtype}")
print(f"Форма (shape): {city_population.shape}")
print(f"Размер (size): {city_population.size}")
print(f"Имя Series: {city_population.name}")

In [None]:
# Установка имени
city_population.name = 'Население'
city_population.index.name = 'Город'
print(f"\nSeries с именами:")
print(city_population)

In [None]:
# Доступ к элементам
print("\n=== ДОСТУП К ЭЛЕМЕНТАМ ===")
print(f"По индексу: {city_population['Москва']:,}")
print(f"По позиции: {city_population.iloc[0]:,}")
print(f"Первые 2 элемента:\n{city_population.head(2)}")

In [None]:
# Операции с Series
print("\n=== ОПЕРАЦИИ ===")
print(f"Сумма: {city_population.sum():,}")
print(f"Среднее: {city_population.mean():,.0f}")
print(f"Максимум: {city_population.max():,}")
print(f"Минимум: {city_population.min():,}")
print(f"Индекс максимального значения: {city_population.idxmax()}")

In [None]:
# Арифметические операции
population_thousands = city_population / 1000
print(f"\nНаселение в тысячах:\n{population_thousands}")

In [None]:
# Фильтрация
big_cities = city_population[city_population > 2_000_000]
print(f"\nГорода с населением > 2 млн:\n{big_cities}")

### 2.3 DataFrame - двумерная таблица
DataFrame — это основная структура данных pandas. Это таблица с именованными столбцами и индексами строк.

In [None]:
# Создание DataFrame из словаря списков
data = {
    'name': ['Алиса', 'Боб', 'Вера', 'Григорий', 'Дарья'],
    'age': [25, 30, 22, 35, 28],
    'city': ['Москва', 'СПб', 'Москва', 'Казань', 'СПб'],
    'salary': [50000, 60000, 45000, 75000, 55000]
}

df = pd.DataFrame(data)
print("DataFrame из словаря:")
print(df)

In [None]:
# Создание DataFrame из списка словарей
list_of_dicts = [
    {'product': 'Laptop', 'price': 50000, 'quantity': 10},
    {'product': 'Mouse', 'price': 500, 'quantity': 50},
    {'product': 'Keyboard', 'price': 1500, 'quantity': 30}
]

df_products = pd.DataFrame(list_of_dicts)
print("DataFrame из списка словарей:")
print(df_products)

In [None]:
# Создание DataFrame из NumPy массива
np_data = np.random.randint(1, 100, (5, 3))
df_numpy = pd.DataFrame(np_data, 
                        columns=['A', 'B', 'C'],
                        index=['row1', 'row2', 'row3', 'row4', 'row5'])
print("DataFrame из NumPy массива:")
print(df_numpy)

In [None]:
# Создание DataFrame из Series
series1 = pd.Series([1, 2, 3], name='col1')
series2 = pd.Series([4, 5, 6], name='col2')
df_from_series = pd.concat([series1, series2], axis=1)
print("DataFrame из Series:")
print(df_from_series)

In [None]:
# Создание DataFrame с указанием индекса
df_indexed = pd.DataFrame(
    data,
    index=['emp001', 'emp002', 'emp003', 'emp004', 'emp005']
)
print("DataFrame с пользовательским индексом:")
print(df_indexed)

### 2.4 Свойства и атрибуты DataFrame

In [None]:
# Используем ранее созданный DataFrame
print("=== ОСНОВНЫЕ СВОЙСТВА ===")
print(f"Форма (rows, columns): {df.shape}")
print(f"Размер (total elements): {df.size}")
print(f"Количество измерений: {df.ndim}")
print(f"Типы данных:\n{df.dtypes}")
print(f"\nИндекс:\n{df.index}")
print(f"\nСтолбцы:\n{df.columns}")
print(f"\nЗначения (как NumPy массив):\n{df.values}")

In [None]:
# Быстрый доступ к столбцам
print("=== ДОСТУП К СТОЛБЦАМ ===")
print(f"Имена: {df['name']}\n")  # как словарь
print(f"Возраст: \n{df.age}")     # как атрибут (только если имя столбца валидно)


In [None]:
# Выбор нескольких столбцов
subset = df[['name', 'salary']]
print(f"Подмножество столбцов:\n{subset}")

In [None]:
# Добавление нового столбца
df['salary_usd'] = df['salary'] / 90  # курс условный
print(f"С новым столбцом:\n{df}")

In [None]:
# Удаление столбца (не изменяет исходный DataFrame)
df_dropped = df.drop('salary_usd', axis=1)
print(f"Без столбца salary_usd:\n{df_dropped}")
print(f"\nИсходный DataFrame не изменился:\n{df}")

In [None]:
# Переименование столбцов
df_renamed = df.rename(columns={'name': 'Имя', 'age': 'Возраст'})
print(f"Переименованные столбцы:\n{df_renamed}")

### 2.5 Index - объект индекса

In [None]:
# Различные типы индексов
print("=== ТИПЫ ИНДЕКСОВ ===")

# RangeIndex (по умолчанию)
df_default = pd.DataFrame({'A': [1, 2, 3]})
print(f"RangeIndex:\n{df_default.index}")

# Int64Index
df_int_idx = pd.DataFrame({'A': [1, 2, 3]}, index=[10, 20, 30])
print(f"\nInt64Index:\n{df_int_idx.index}")

# DatetimeIndex
dates = pd.date_range('2024-01-01', periods=5, freq='D')
df_dates = pd.DataFrame({'value': [10, 20, 15, 25, 30]}, index=dates)
print(f"\nDatetimeIndex:\n{df_dates}")

# MultiIndex (иерархический индекс)
arrays = [
    ['A', 'A', 'B', 'B'],
    [1, 2, 1, 2]
]
multi_idx = pd.MultiIndex.from_arrays(arrays, names=['letter', 'number'])
df_multi = pd.DataFrame({'value': [10, 20, 30, 40]}, index=multi_idx)
print(f"\nMultiIndex:\n{df_multi}")

In [None]:
# Операции с индексом
print("=== ОПЕРАЦИИ С ИНДЕКСОМ ===")
df_indexed = pd.DataFrame(
    {'value': [10, 20, 30, 40, 50]},
    index=['a', 'b', 'c', 'd', 'e']
)
print(f"Исходный DataFrame:\n{df_indexed}")

In [None]:
# Сброс индекса
df_reset = df_indexed.reset_index()
print(f"После reset_index():\n{df_reset}")

In [None]:
# Установка столбца как индекса
df_set = df_reset.set_index('index')
print(f"После set_index('index'):\n{df_set}")

In [None]:
# Сортировка по индексу
df_sorted = df_indexed.sort_index(ascending=False)
print(f"Отсортированный по индексу:\n{df_sorted}")

## 3. Загрузка и сохранение данных

### 3.1 Создание тестовых файлов

In [None]:
# Создание тестового CSV файла
test_data = {
    'student_id': range(1, 11),
    'name': ['Алиса', 'Боб', 'Вера', 'Григорий', 'Дарья', 
             'Евгений', 'Жанна', 'Игорь', 'Ксения', 'Леонид'],
    'faculty': ['ИТ', 'Математика', 'ИТ', 'Физика', 'Математика',
                'ИТ', 'Физика', 'Математика', 'ИТ', 'Физика'],
    'age': [20, 22, 19, 23, 21, 20, 22, 24, 19, 23],
    'gpa': [3.8, 3.5, 4.0, 3.2, 3.9, 3.7, 3.4, 3.6, 3.9, 3.3]
}

df_test = pd.DataFrame(test_data)
df_test.to_csv('students.csv', index=False, encoding='utf-8')
print("Создан файл: students.csv")

# Создание CSV с разными параметрами
df_test.to_csv('students_semicolon.csv', sep=';', index=False, encoding='utf-8')
print("Создан файл: students_semicolon.csv")

### 3.2 Чтение CSV файлов

In [None]:
# Базовое чтение CSV
df_csv = pd.read_csv('students.csv')
print("=== ЧТЕНИЕ CSV (базовое) ===")
print(df_csv)

In [None]:
# Чтение CSV с другим разделителем
df_semicolon = pd.read_csv('students_semicolon.csv', sep=';')
print("=== CSV с разделителем ; ===")
print(df_semicolon.head())

In [None]:
# Чтение с указанием столбца индекса
df_indexed = pd.read_csv('students.csv', index_col='student_id')
print("=== CSV с индексом ===")
print(df_indexed.head())

In [None]:
# Чтение только определённых столбцов
df_subset = pd.read_csv('students.csv', usecols=['name', 'faculty', 'gpa'])
print("=== Только выбранные столбцы ===")
print(df_subset)

In [None]:
# Чтение с преобразованием типов
df_typed = pd.read_csv('students.csv', 
                       dtype={'student_id': str, 'age': 'Int64'})
print("=== С указанием типов ===")
print(df_typed.dtypes)

In [None]:
# Чтение первых N строк
df_nrows = pd.read_csv('students.csv', nrows=5)
print("=== Первые 5 строк ===")
print(df_nrows)

In [None]:
# Пропуск строк
df_skip = pd.read_csv('students.csv', skiprows=[1, 2])
print("=== С пропуском строк 1 и 2 ===")
print(df_skip.head())

In [None]:
# Чтение с обработкой пропусков
# Сначала создадим файл с пропусками
df_with_nan = df_test.copy()
df_with_nan.loc[2, 'gpa'] = np.nan
df_with_nan.loc[5, 'age'] = np.nan
df_with_nan.to_csv('students_nan.csv', index=False)

df_nan = pd.read_csv('students_nan.csv', na_values=['N/A', 'NULL'])
print("=== Файл с пропусками ===")
print(df_nan)

### 3.3 Чтение других форматов

In [None]:
# Excel файлы
df_test.to_excel('students.xlsx', index=False, sheet_name='Students')
print("Создан файл: students.xlsx")

df_excel = pd.read_excel('students.xlsx', sheet_name='Students')
print("=== Чтение из Excel ===")
print(df_excel.head())

### 3.4 Сохранение данных в CSV

In [None]:
print("=== СОХРАНЕНИЕ В CSV ===")

# Создадим несколько DataFrame для демонстрации
df_save = pd.DataFrame({
    'date': pd.date_range('2024-01-01', periods=5),
    'value': [10.5234, 20.3456, 15.7891, 25.1234, 30.9567],
    'category': ['A', 'B', 'A', 'C', 'B'],
    'count': [100, 250, 180, 320, 270]
})

print("Данные для сохранения:")
print(df_save)

In [None]:
# 1. Базовое сохранение (без индекса)
df_save.to_csv('output_basic.csv', index=False)
print("1. Базовое сохранение: output_basic.csv")

In [None]:
# 2. Сохранение с индексом
df_save.to_csv('output_with_index.csv', index=True)
print("2. С индексом: output_with_index.csv")

In [None]:
# 3. Другой разделитель (точка с запятой)
df_save.to_csv('output_semicolon.csv', sep=';', index=False)
print("3. Разделитель ';': output_semicolon.csv")

In [None]:
# 4. Форматирование чисел
df_save.to_csv('output_formatted.csv', 
               index=False, 
               float_format='%.2f')  # 2 знака после запятой
print("4. Форматированные числа (2 знака): output_formatted.csv")

In [None]:
# 5. Форматирование дат
df_save.to_csv('output_dates.csv',
               index=False,
               date_format='%d.%m.%Y')  # формат: дд.мм.гггг
print("5. Форматированные даты: output_dates.csv")

In [None]:
# 6. Полный контроль форматирования
df_save.to_csv('output_custom.csv',
               index=False,
               sep=';',
               decimal=',',  # десятичный разделитель - запятая
               encoding='utf-8-sig',  # UTF-8 с BOM (для Excel)
               float_format='%.2f',
               date_format='%Y-%m-%d')
print("6. Полностью настроенный: output_custom.csv")

In [None]:
# 7. Сохранение без заголовков
df_save.to_csv('output_no_header.csv', 
               header=False, 
               index=False)
print("7. Без заголовков: output_no_header.csv")

In [None]:
# 8. Сохранение только определённых столбцов
df_save.to_csv('output_selected_columns.csv',
               columns=['date', 'value'],  # только эти столбцы
               index=False)
print("8. Выбранные столбцы: output_selected_columns.csv")

### 3.5 Сохранение данных в Excel

In [None]:
# Создадим несколько DataFrame для работы
df_students = pd.DataFrame({
    'Имя': ['Алиса', 'Боб', 'Вера', 'Григорий', 'Дарья'],
    'Возраст': [20, 22, 19, 23, 21],
    'Факультет': ['ИТ', 'Математика', 'ИТ', 'Физика', 'Математика'],
    'Средний балл': [4.5, 3.8, 4.9, 3.5, 4.2]
})

df_grades = pd.DataFrame({
    'Предмет': ['Математика', 'Физика', 'Программирование', 'Английский'],
    'Средний балл': [4.2, 3.9, 4.5, 4.0],
    'Студентов': [100, 85, 95, 110]
})

df_summary = pd.DataFrame({
    'Показатель': ['Всего студентов', 'Средний возраст', 'Средний балл'],
    'Значение': [5, 21.0, 4.18]
})

In [None]:
# 1. Простое сохранение в Excel
df_students.to_excel('excel_basic.xlsx', 
                     index=False,
                     sheet_name='Студенты')
print("1. Базовое сохранение: excel_basic.xlsx")

In [None]:
# 2. Сохранение с индексом и форматированием
df_students.to_excel('excel_with_index.xlsx',
                     index=True,
                     sheet_name='Студенты',
                     float_format='%.2f')
print("2. С индексом: excel_with_index.xlsx")

In [None]:
# 3. СОХРАНЕНИЕ НА РАЗНЫЕ ЛИСТЫ - основной способ

# Способ 1: Использование ExcelWriter
with pd.ExcelWriter('excel_multiple_sheets.xlsx', 
                    engine='openpyxl') as writer:
    df_students.to_excel(writer, sheet_name='Студенты', index=False)
    df_grades.to_excel(writer, sheet_name='Оценки', index=False)
    df_summary.to_excel(writer, sheet_name='Сводка', index=False)

print("   Создан файл с 3 листами: excel_multiple_sheets.xlsx")
print("   Листы: 'Студенты', 'Оценки', 'Сводка'")

In [None]:
# 4. Добавление листа к существующему файлу

# Сначала создадим файл
df_students.to_excel('excel_add_sheet.xlsx', 
                     sheet_name='Студенты', 
                     index=False)
print("   Создан файл с листом 'Студенты'")

# Теперь добавим новый лист
with pd.ExcelWriter('excel_add_sheet.xlsx',
                    engine='openpyxl',
                    mode='a') as writer:  # режим добавления!
    df_grades.to_excel(writer, sheet_name='Оценки', index=False)

print("   Добавлен лист 'Оценки' к существующему файлу")


## 4. Просмотр и базовая информация

### 4.1 Быстрый просмотр данных

In [None]:
# Загрузим данные для демонстрации
df = pd.read_csv('students.csv')

In [None]:
# Первые n строк
df.head(n=5)

In [None]:
# Последние n строк
df.tail(n=5)

In [None]:
# Случайная выборка объема n
df.sample(n=5)

In [None]:
# Случайная выборка с фиксацией seed
df.sample(frac=0.2, random_state=42)  # 20% случайных строк

### 4.2 Информация о структуре данных

In [None]:
# Базовая информация о DataFrame
df.info()

In [None]:
print(f"Форма (shape): {df.shape}")
print(f"Размер (size): {df.size}")
print(f"Столбцы (columns): {df.columns.tolist()}")
print(f"Индекс (index): {df.index}")
print(f"Типы данных (dtypes): {df.dtypes}")

In [None]:
# Количество уникальных значений
df.nunique()

In [None]:
# Уникальные значения для столбца
print("Уникальные факультеты:")
print(df['faculty'].unique())
print(f"Количество: {df['faculty'].nunique()}")

In [None]:
# Подсчёт значений
print("Распределение по факультетам:")
print(df['faculty'].value_counts())

print("Распределение по факультетам (с процентами):")
print(df['faculty'].value_counts(normalize=True))

### 4.3 Описательная статистика

In [None]:
# Базовая статистика для всех числовых столбцов
df.describe()

In [None]:
# Включение всех столбцов
df.describe(include='all')

In [None]:
# Только для категориальных столбцов
df.describe(include=['object'])

#### 4.3.2 Расширенная описательная статистика

In [None]:
# Создание генератора с seed для воспроизводимости
rng = np.random.default_rng(42)

# Создадим более богатый датасет для демонстрации
rich_data = pd.DataFrame({
    'values': rng.normal(100, 15, 1000),
    'category': rng.choice(['A', 'B', 'C'], 1000),
    'scores': rng.uniform(0, 100, 1000)
})

rich_data.head()

In [None]:
print("Основные статистические показатели:")
stats_dict = {
    'Среднее': rich_data['values'].mean(),
    'Медиана': rich_data['values'].median(),
    'Мода': rich_data['values'].mode()[0] if len(rich_data['values'].mode()) > 0 else None,
    'Стандартное отклонение': rich_data['values'].std(),
    'Дисперсия': rich_data['values'].var(),
    'Минимум': rich_data['values'].min(),
    'Максимум': rich_data['values'].max(),
    'Размах': rich_data['values'].max() - rich_data['values'].min(),
    'Квартиль 25%': rich_data['values'].quantile(0.25),
    'Квартиль 75%': rich_data['values'].quantile(0.75),
    'IQR': rich_data['values'].quantile(0.75) - rich_data['values'].quantile(0.25),
    'Асимметрия (skewness)': rich_data['values'].skew(),
    'Эксцесс (kurtosis)': rich_data['values'].kurtosis()
}

for stat, value in stats_dict.items():
    print(f"{stat:25}: {value:.4f}")

In [None]:
# Квантили
print("Квантили:")
quantiles = [0.1, 0.25, 0.5, 0.75, 0.9, 0.95, 0.99]
print(rich_data['values'].quantile(quantiles))

In [None]:
# Статистика по группам
print("Статистика по категориям:")
print(rich_data.groupby('category')['values'].describe())

In [None]:
# Ковариация
print("Ковариация:")
print(rich_data[['values', 'scores']].cov())

In [None]:
# Корреляция между числовыми столбцами
print("Корреляция:")
print(rich_data[['values', 'scores']].corr())

In [None]:
# Подсчёт пропущенных значений (создадим данные с пропусками)
data_with_nan = rich_data.copy()
data_with_nan.loc[data_with_nan.sample(frac=0.1).index, 'values'] = np.nan
data_with_nan.loc[data_with_nan.sample(frac=0.05).index, 'scores'] = np.nan

print("Пропущенные значения:")
print(data_with_nan.isnull().sum())
print(f"Общее количество пропусков: {data_with_nan.isnull().sum().sum()}")
print(f"Процент пропусков: {data_with_nan.isnull().sum().sum() / data_with_nan.size * 100:.2f}%")


## 5. Индексация и выбор данных

### 5.1 Выбор столбцов

In [None]:
df = pd.read_csv('students.csv')

# Один столбец (возвращает Series)
names = df['name']
print(f"Один столбец (Series):\n{names.head()}")
print(f"Тип: {type(names)}")

In [None]:
# Один столбец (возвращает DataFrame)
names_df = df[['name']]
print(f"Один столбец (DataFrame):\n{names_df.head()}")
print(f"Тип: {type(names_df)}")

In [None]:
# Несколько столбцов
subset = df[['name', 'faculty', 'gpa']]
print(f"Несколько столбцов:\n{subset.head()}")

### 5.2 Выбор строк - Индексация: loc vs iloc - ключевые различия

In [None]:
# Создадим DataFrame с неупорядоченным индексом для демонстрации
df_demo = pd.DataFrame(
    {'name': ['Алиса', 'Боб', 'Вера'],
     'age': [25, 30, 22]},
    index=[10, 20, 30]  # Индексы: 10, 20, 30
)

print("DataFrame с индексами [10, 20, 30]:")
print(df_demo)

In [None]:
print("--- LOC: работает с МЕТКАМИ ---")
print("df_demo.loc[10] - обращение по метке индекса 10:")
print(df_demo.loc[10])

In [None]:
print("df_demo.loc[10:20] - срез ПО МЕТКАМ (включая конец!):")
print(df_demo.loc[10:20])

In [None]:
print("--- ILOC: работает с ПОЗИЦИЯМИ ---")
print("df_demo.iloc[0] - обращение по позиции 0 (первая строка):")
print(df_demo.iloc[0])

In [None]:
print("df_demo.iloc[0:2] - срез ПО ПОЗИЦИЯМ (не включая конец!):")
print(df_demo.iloc[0:2])

⚠️ ВАЖНО
- loc использует МЕТКИ индекса
- iloc использует ПОЗИЦИИ (0, 1, 2, ...)
- loc включает конец среза, iloc - НЕ включает
- В большинстве случаев рекомендуется использовать loc

### 5.3 Индексация по меткам (loc) - основной инструмент

`loc` используется для доступа по меткам индекса и названиям столбцов

Синтаксис: `df.loc[rows, columns]`

In [None]:
# Вернёмся к нашему датасету студентов
df = pd.read_csv('data/students.csv')

In [None]:
# Одна строка по индексу (по умолчанию индексы: 0, 1, 2, ...)
print("Строка с индексом 0:")
print(df.loc[0])

In [None]:
# Несколько строк
print("Строки 0-2:")
print(df.loc[0:2])  # включая 2!

In [None]:
# Строки с определёнными индексами
print("Строки с индексами 0, 3, 5:")
print(df.loc[[0, 3, 5]])

In [None]:
# Одна ячейка
print(f"Значение (row=0, col='name'): {df.loc[0, 'name']}")

In [None]:
# Строки и столбцы
print("Строки 0-2, столбцы name и gpa:")
print(df.loc[0:2, ['name', 'gpa']])

In [None]:
# Все строки, определённые столбцы
print("Все строки, столбцы name и age:")
print(df.loc[:, ['name', 'age']].head())

In [None]:
# Срезы столбцов (работают по меткам!)
print("Срез столбцов от name до age:")
print(df.loc[:, 'name':'age'].head())

### 5.4 Логическая индексация (булевы маски)

In [None]:
df = pd.read_csv('students.csv')

# Создание булевой маски
age_mask = df['age'] > 21
print(f"Маска (возраст > 21):\n{age_mask}")

# Применение маски с loc
older_students = df.loc[age_mask]
print(f"\nСтуденты старше 21 (через loc):\n{older_students}")

In [None]:
# Можно делать в одну строку
print("Студенты моложе 21:")
print(df.loc[df['age'] < 21])

__Множественные условия (используем & для AND, | для OR)__

__ВАЖНО: каждое условие должно быть в скобках!__

In [None]:
print("Студенты ИТ факультета старше 19:")
print(df.loc[(df['faculty'] == 'ИТ') & (df['age'] > 19)])

In [None]:
print("Студенты с GPA > 3.8 ИЛИ возрастом < 20:")
print(df.loc[(df['gpa'] > 3.8) | (df['age'] < 20)])

In [None]:
# Отрицание условия
print("Студенты НЕ с ИТ факультета:")
print(df.loc[~(df['faculty'] == 'ИТ')])

In [None]:
# Проверка вхождения в список
it_math = df.loc[df['faculty'].isin(['ИТ', 'Математика'])]
print("\nСтуденты ИТ или Математики:")
print(it_math)

In [None]:
# between для диапазона
print("Студенты с возрастом от 20 до 22:")
print(df.loc[df['age'].between(20, 22)])

In [None]:
# Проверка строк
print("Имена, начинающиеся с 'А':")
print(df.loc[df['name'].str.startswith('А')])

In [None]:
print("Имена, содержащие 'е':")
print(df.loc[df['name'].str.contains('е')])

In [None]:
# Комбинированная фильтрация с выбором столбцов
print("ИТ студенты старше 19, только имя и GPA:")
print(df.loc[(df['faculty'] == 'ИТ') & (df['age'] > 19), ['name', 'gpa']])