## Практическое задание

**Тема:** первые шаги с `pandas.DataFrame` (после `Series`)
**Формат:** написать код в одном ноутбуке/скрипте (`.ipynb` или `.py`), без чтения файлов — данные создаём в коде.

## Цель

1. Научиться создавать `DataFrame` из словаря списков и из списка словарей.
2. Освоить базовые операции: просмотр, выбор столбцов/строк, фильтрация, создание новых столбцов, простая агрегация и сортировка.
3. Потренировать аккуратность: типы данных, пропуски (`NaN`), проверка результата.

## Задание (шаги)

## Подсказки по ключевым частям

* **Пропуски (None/NaN):**

  * Проверка: `df.isna().sum()`
  * Среднее по двум колонкам с пропусками удобно так:
    `df[['math','python']].mean(axis=1, skipna=True)`

* **Фильтрация:**

  * И: `&`, Или: `|`
  * Скобки обязательны: `(df['group']=='A') & (df['math']>=70)`

* **Новый столбец level:**

  * Вариант 1: `np.select`
  * Вариант 2: функция + `.apply()` (помедленнее, но проще для старта)

* **Группировка:**

  * `df.groupby('group').agg(...)`
  * Количество строк: `'name': 'count'` или просто `.size()`

## Что проверить перед отправкой (чек-лист)

* [ ] `df.shape` показывает минимум 10 строк
* [ ] Есть хотя бы 1–2 пропуска в `math` или `python`
* [ ] `info()` выводится без ошибок
* [ ] Фильтры возвращают адекватные результаты (не пусто “случайно”)
* [ ] `avg_score` посчитан и **не ломается** из-за `NaN`
* [ ] `level` содержит только `high/mid/low` (проверь `value_counts()`)
* [ ] `group_stats` и процент `passed` считаются и имеют индекс по группам
* [ ] `rating` действительно отсортирован по убыванию
* [ ] `final_view.head(5)` выглядит логично

## Советы по улучшению работы

1. **Делай маленькие проверки после каждого шага**: `head()`, `value_counts()`, `isna().sum()`.
2. **Следи за типами**: оценки должны быть числом (`int`/`float`), `passed` — `bool`.
3. **Дай понятные имена переменным** (`top_python`, `group_stats`) — это сильно помогает читать код.
4. **Не бойся промежуточных таблиц**: проще дебажить, чем писать всё одной строкой.
5. Дополнительный бонус: сделай **функцию** `make_level(avg)` и используй её.


### 1) Создай данные и `DataFrame`

**Шаг 1.1.** Создай список словарей `students` (минимум 10 строк).
Каждая запись должна содержать поля:

* `name` (строка)
* `group` (строка, например `"A"` или `"B"`)
* `math` (целое 0–100)
* `python` (целое 0–100)
* `hours` (целое, сколько часов учился на неделе)
* `passed` (логическое `True/False`)
* `city` (строка)
* **и один пропуск**: у 1–2 студентов пусть `python` или `math` будет `None`

**Шаг 1.2.** Создай `df = pd.DataFrame(students)`.

**Шаг 1.3.** Выведи:

* первые 5 строк (`head`)
* информацию о столбцах и типах (`info`)
* базовую статистику (`describe`)

In [None]:
import pandas as pd

import numpy as np

# ========== ШАГ 1: СОЗДАНИЕ ДАННЫХ ==========

# 1.1 Создаем список словарей students (10+ строк)

students = [

    {'name': 'Иван', 'group': 'A', 'math': 85, 'python': 90, 'hours': 15, 'passed': True, 'city': 'Москва'},

    {'name': 'Мария', 'group': 'B', 'math': 92, 'python': 88, 'hours': 20, 'passed': True, 'city': 'Санкт-Петербург'},

    {'name': 'Алексей', 'group': 'A', 'math': 78, 'python': None, 'hours': 10, 'passed': False, 'city': 'Москва'},

    {'name': 'Елена', 'group': 'B', 'math': 65, 'python': 72, 'hours': 12, 'passed': True, 'city': 'Казань'},

    {'name': 'Дмитрий', 'group': 'A', 'math': None, 'python': 80, 'hours': 18, 'passed': True, 'city': 'Новосибирск'},

    {'name': 'Ольга', 'group': 'B', 'math': 88, 'python': 94, 'hours': 22, 'passed': True, 'city': 'Екатеринбург'},

    {'name': 'Сергей', 'group': 'A', 'math': 73, 'python': 68, 'hours': 9, 'passed': False, 'city': 'Москва'},

    {'name': 'Анна', 'group': 'B', 'math': 95, 'python': 89, 'hours': 16, 'passed': True, 'city': 'Санкт-Петербург'},

    {'name': 'Павел', 'group': 'A', 'math': 81, 'python': 85, 'hours': 14, 'passed': True, 'city': 'Казань'},

    {'name': 'Наталья', 'group': 'B', 'math': 70, 'python': 75, 'hours': 11, 'passed': True, 'city': 'Новосибирск'},

    {'name': 'Игорь', 'group': 'A', 'math': 59, 'python': 62, 'hours': 8, 'passed': False, 'city': 'Москва'},

    {'name': 'Татьяна', 'group': 'B', 'math': 82, 'python': 91, 'hours': 19, 'passed': True, 'city': 'Екатеринбург'}

]

# 1.2 Создаем DataFrame

df = pd.DataFrame(students)

# 1.3 Выводим основную информацию

print("1.3.1 Первые 5 строк:")

print(df.head())

print("\n1.3.2 Информация о столбцах и типах:")

print(df.info())

print("\n1.3.3 Базовая статистика:")

print(df.describe())

### 2) Доступ к данным: столбцы и строки

**Шаг 2.1.** Выведи столбцы `name`, `group`, `python` (одной командой).

**Шаг 2.2.** Выведи:

* строку с индексом 0 через `.iloc`
* строки со 2 по 5 (включительно) через `.iloc`

**Шаг 2.3.** Сделай столбец `name` индексом (через `set_index`), сохрани результат в `df2`.
Проверь, что теперь можно обратиться к конкретному студенту по имени через `.loc`.

In [None]:
# ========== ШАГ 2: ДОСТУП К ДАННЫМ ==========

# 2.1 Выводим столбцы name, group, python

print("\n2.1 Столбцы name, group, python:")

print(df[['name', 'group', 'python']])

# 2.2 Выводим строки

print("\n2.2.1 Строка с индексом 0 через iloc:")

print(df.iloc[0])

print("\n2.2.2 Строки со 2 по 5 включительно:")

print(df.iloc[2:6])

# 2.3 Делаем name индексом

df2 = df.set_index('name')

print("\n2.3 Индекс изменен на name. Обращение к студенту 'Иван':")

print(df2.loc['Иван'])


### 3) Фильтрация

**Шаг 3.1.** Отфильтруй студентов, у кого `python >= 80`.
Сохрани в `top_python`.

**Шаг 3.2.** Отфильтруй студентов из группы `"A"` **и** с `math >= 70`.
Сохрани в `a_good_math`.

**Шаг 3.3.** Найди строки, где есть пропуски хотя бы в одной оценке (`math` или `python`).
Сохрани в `with_missing`.

In [None]:
# ========== ШАГ 3: ФИЛЬТРАЦИЯ ==========

# 3.1 Студенты с python >= 80

top_python = df[df['python'] >= 80]

print("\n3.1 Студенты с python >= 80:")

print(top_python)

# 3.2 Студенты группы A с math >= 70

a_good_math = df[(df['group'] == 'A') & (df['math'] >= 70)]

print("\n3.2 Студенты группы A с math >= 70:")

print(a_good_math)

# 3.3 Строки с пропусками в math или python

with_missing = df[df['math'].isna() | df['python'].isna()]

print("\n3.3 Строки с пропусками в math или python:")

print(with_missing)

### 4) Новые столбцы

**Шаг 4.1.** Создай столбец `avg_score` = среднее между `math` и `python`.
Важно: корректно обработай пропуски (чтобы среднее считалось по доступным значениям).

**Шаг 4.2.** Создай столбец `level`:

* `"high"`, если `avg_score >= 85`
* `"mid"`, если `70 <= avg_score < 85`
* `"low"`, если `avg_score < 70`

In [None]:
# ========== ШАГ 4: НОВЫЕ СТОЛБЦЫ ==========

# 4.1 Создаем столбец avg_score (среднее с обработкой пропусков)

df['avg_score'] = df[['math', 'python']].mean(axis=1, skipna=True)

print("\n4.1 Добавлен столбец avg_score:")

print(df[['name', 'math', 'python', 'avg_score']].head())

# 4.2 Создаем столбец level через np.select

conditions = [

    df['avg_score'] >= 85,

    (df['avg_score'] >= 70) & (df['avg_score'] < 85),

    df['avg_score'] < 70

]

choices = ['high', 'mid', 'low']

df['level'] = np.select(conditions, choices, default='unknown')

print("\n4.2 Добавлен столбец level:")

print(df[['name', 'avg_score', 'level']].head())

### 5) Группировка и агрегирование

**Шаг 5.1.** Посчитай по каждой `group`:

* среднее `avg_score`
* среднее `hours`
* количество студентов

Сохрани в `group_stats`.

**Шаг 5.2.** Посчитай, какой процент студентов `passed == True` в каждой группе.
(Можно как долю и умножить на 100.)

In [None]:
# ========== ШАГ 5: ГРУППИРОВКА ==========

# 5.1 Статистика по группам

group_stats = df.groupby('group').agg(

    avg_score_mean=('avg_score', 'mean'),

    hours_mean=('hours', 'mean'),

    count=('name', 'count')

).round(2)

print("\n5.1 Статистика по группам:")

print(group_stats)

# 5.2 Процент сдавших в каждой группе

passed_percent = df.groupby('group')['passed'].mean() * 100

print("\n5.2 Процент сдавших по группам:")

print(passed_percent.round(2))

### 6) Сортировка и итоговая таблица

**Шаг 6.1.** Отсортируй `df` по `avg_score` по убыванию, сохрани в `rating`.

**Шаг 6.2.** Сформируй таблицу `final_view` только из столбцов:
`name`, `group`, `avg_score`, `level`, `hours`, `passed`
и выведи топ-5.

In [None]:
# ========== ШАГ 6: СОРТИРОВКА И ИТОГ ==========

# 6.1 Сортировка по avg_score по убыванию

rating = df.sort_values('avg_score', ascending=False)

print("\n6.1 Рейтинг по убыванию avg_score:")

print(rating[['name', 'group', 'avg_score']].head())

# 6.2 Финалная таблица с топ-5

final_view = rating[['name', 'group', 'avg_score', 'level', 'hours', 'passed']]

print("\n6.2 Финальная таблица (топ-5):")

print(final_view.head())

In [None]:
# ========== ДОПОЛНИТЕЛЬНАЯ ПРОВЕРКА ==========

print("\n" + "="*50)

print("ПРОВЕРОЧНЫЕ ВЫВОДЫ:")

print("="*50)

print(f"1. df.shape: {df.shape}")

print(f"2. Пропуски в math: {df['math'].isna().sum()}")

print(f"   Пропуски в python: {df['python'].isna().sum()}")

print(f"3. Уникальные значения level: {df['level'].unique()}")

print(f"4. Статистика по level:")

print(df['level'].value_counts())