# Практикум по Pandas

## Импорт необходимых библиотек

In [21]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Устанавливаем сид для воспроизводимости результатов
np.random.seed(42)

---

## Блок 1: Основы работы с DataFrame

### Задание 1.1: Создание DataFrame из словаря

**Теория:**
DataFrame - это двумерная структура данных в pandas, похожая на таблицу Excel. Можно создавать DataFrame из словарей, списков, CSV файлов.

**Задание:**
1. Создайте DataFrame с данными о 8 участниках лагеря
2. Используйте эти имена: Александр, Игорь, Илья, Ярослав, Михаил, Дарья, Мария, Александр
3. Добавьте столбцы с генерацией случайных данных (используйте np.random.seed(42)):
   - возраст: от 15 до 17 лет (случайные целые числа)
   - присядет_за_лагерь: от 500 до 2000 раз (случайные целые числа)
   - опоздает_минут: от 0 до 120 минут (случайные целые числа)
   - жалуется_на_душ: True/False (случайный выбор)
   - заболеет: True/False (случайный выбор)
   - поймают_с_запрещенкой: True/False (случайный выбор)
4. Выведите первые 3 строки с помощью `head(3)`
5. Получите информацию о структуре данных с помощью `info()`

In [22]:
# Ваш код здесь
# ВАЖНО: Установите np.random.seed(42) перед генерацией данных
# 1. Создайте словарь с данными участников лагеря
# 2. Создайте DataFrame с помощью pd.DataFrame()
# 3. Выведите первые 3 строки
# 4. Выведите информацию о DataFrame

### Задание 1.2: Создание DataFrame из списков и сохранение в CSV

**Теория:**
DataFrame можно создавать не только из словарей, но и из списков. Pandas позволяет сохранять данные в различных форматах, включая CSV.

**Задание:**
1. Создайте DataFrame из списка списков с данными о комнатах в лагере
2. Используйте данные: [1, 4, True], [2, 3, False], [3, 5, True], [4, 2, False]
3. Назовите столбцы: 'номер_комнаты', 'количество_человек', 'есть_балкон'
4. Сохраните этот DataFrame в файл 'rooms.csv'
5. Загрузите данные обратно и проверьте корректность

In [24]:
# Ваш код здесь
# 1. Создайте DataFrame из списка списков
# 2. Назначьте названия столбцов
# 3. Сохраните в CSV с помощью to_csv()
# 4. Загрузите обратно с помощью pd.read_csv()

### Задание 1.3: Просмотр структуры данных

**Теория:**
Для анализа данных важно понимать их структуру. Основные методы: `head()`, `tail()`, `info()`, `describe()`, `shape`, `columns`.

**Задание:**
1. Выведите последние 3 строки данных участников лагеря с помощью `tail`
2. Получите описательную статистику для числовых столбцов
3. Выведите названия всех столбцов
4. Узнайте размер DataFrame (количество строк и столбцов)


In [26]:
# Ваш код здесь
# 1. Последние 3 строки с помощью tail()
# 2. Описательная статистика с помощью describe()
# 3. Названия столбцов
# 4. Размер DataFrame с помощью shape

### Задание 1.4: Индексация и выбор данных (loc, iloc, условная фильтрация)

**Теория:**
Для выбора данных в pandas используются:
- `loc[]` - по названиям строк/столбцов
- `iloc[]` - по числовым индексам
- Условная фильтрация с помощью булевых масок

**Задание:**
1. Выберите данные участника с индексом 2 с помощью `iloc`
2. Выберите столбцы 'имя' и 'возраст' для всех участников с помощью `loc`
3. Найдите всех участников которые опоздают больше чем на 100 минут
4. Найдите участников, которые и заболеют, и будут пойманы с запрещенкой
5. Выберите имена участников, которые присядут больше 1500 раз

In [28]:
# Ваш код здесь
# 1. Данные участника с индексом 2 (iloc)
# 2. Столбцы имя и опоздания для всех участников (loc)
# 3. Участники которые опоздают больше чем на 100 минут
# 4. Участники с двумя "проблемами"
# 5. Имена "спортсменов"

### Задание 1.5: Сортировка данных

**Теория:**
Сортировка данных выполняется с помощью метода `sort_values()`. Можно сортировать по одному или нескольким столбцам, в возрастающем или убывающем порядке.

**Задание:**
1. Отсортируйте участников по приседаниям (по возрастанию)
2. Отсортируйте по количеству опозданий (по убыванию)
3. Выполните сортировку сначала по опозданиям, затем по количеству приседаний (оба по убыванию)
4. Найдите топ-3 участников по количеству приседаний

In [None]:
# Ваш код здесь
# 1. Сортировка по приседаниям
# 2. Сортировка по опозданиям (убывание)
# 3. Двойная сортировка
# 4. Топ-3 по приседаниям

### Задание 1.6: Работа с пропущенными значениями

**Теория:**
В реальных данных часто встречаются пропущенные значения (NaN). Pandas предоставляет инструменты для их обнаружения и обработки.

**Задание:**
1. Создайте копию DataFrame и добавьте несколько пропущенных значений
2. Найдите пропущенные значения с помощью `isnull()`
3. Заполните пропущенные числовые значения средним значением столбца
4. Заполните пропущенные булевы значения значением False
5. Удалите строки с пропущенными значениями в именах (если такие есть)

In [19]:
# Ваш код здесь
# 1. Создайте копию и добавьте NaN значения
# 2. Найдите пропущенные значения
# 3. Заполните числовые пропуски средним
# 4. Заполните булевы пропуски False
# 5. Удалите строки с пропусками в именах

### Задание 1.7: Добавление и удаление столбцов

**Теория:**
В pandas легко добавлять новые столбцы и удалять существующие. Новые столбцы можно создавать на основе вычислений с существующими данными.

**Задание:**
1. Добавьте столбец 'спортивность' (присядет_за_лагерь / 10)
2. Добавьте столбец 'косячит' (True если заболеет ИЛИ поймают с запрещенкой)
4. Удалите столбец 'опоздает_минут'
5. Переименуйте столбец 'жалуется_на_душ' в 'недоволен_условиями'

In [None]:
# Ваш код здесь
# 1. Добавьте столбец спортивность
# 2. Добавьте столбец проблемный
# 3. Удалите столбец опозданий
# 4. Переименуйте столбец

### Задание 1.8: Изменение типов данных

**Теория:**
Правильные типы данных важны для эффективной работы и корректных вычислений. Pandas позволяет изменять типы данных с помощью `astype()` и других методов.

**Задание:**
1. Проверьте текущие типы данных в DataFrame
2. Преобразуйте столбец приседания в тип float
3. Преобразуйте булевы столбцы в тип int (True=1, False=0)
4. Создайте столбец 'имя_категория' как категориальный тип данных
5. Проверьте изменения типов и сравните использование памяти

In [None]:
# Ваш код здесь
# 1. Проверьте типы данных
# 2. Преобразуйте приседания в float
# 3. Преобразуйте булевы в int
# 4. Создайте категориальный столбец
# 5. Сравните использование памяти

---

## Блок 2: Загрузка и исследование реальных данных

### Задание 2.1: Загрузка и первичный анализ датасета зарплат

**Теория:**
Для загрузки CSV файлов используется `pd.read_csv()`. Для первичного анализа данных полезны методы: `head()`, `tail()`, `info()`, `describe()`, `shape`, `columns`.

**Задание:**
1. Загрузите датасет "Salary Data.csv" в переменную `df`
2. Выведите размер датасета (количество строк и столбцов)
3. Посмотрите на первые 5 строк
4. Получите описательную статистику для числовых столбцов
5. Проверьте наличие пропущенных значений

In [25]:
# Ваш код здесь
# 1. Загрузите CSV файл
# 2. Выведите shape датасета
# 3. Выведите первые 5 строк
# 4. Получите описательную статистику
# 5. Проверьте пропущенные значения с помощью isnull().sum()

### Задание 2.2: Исследование категориальных данных

**Теория:**
Для анализа категориальных данных используются: `value_counts()`, `unique()`, `nunique()`. Эти методы помогают понять распределение категорий.

**Задание:**
1. Посмотрите уникальные значения в столбце "Gender"
2. Подсчитайте количество людей каждого пола
3. Найдите все уникальные уровни образования
4. Посмотрите топ-5 самых популярных должностей

In [31]:
# Ваш код здесь
# 1. Уникальные значения пола
# 2. Подсчет по полу с помощью value_counts()
# 3. Уникальные уровни образования
# 4. Топ-5 должностей

---

## Блок 3: Группировка и агрегация данных

### Задание 3.1: Анализ зарплат по группам

**Теория:**
Группировка данных выполняется с помощью `groupby()`. После группировки можно применять агрегирующие функции: `mean()`, `sum()`, `count()`, `min()`, `max()`.

**Задание:**
1. Найдите среднюю зарплату по полу
2. Найдите среднюю зарплату по уровню образования
3. Создайте сводную таблицу средних зарплат по полу и образованию
4. Найдите максимальную и минимальную зарплату для каждого уровня образования

In [39]:
# Ваш код здесь
# 1. Средняя зарплата по полу
# 2. Средняя зарплата по образованию
# 3. Сводная таблица с помощью pivot_table()
# 4. Максимальная и минимальная зарплата по образованию

### Задание 3.2: Анализ опыта работы и возраста

**Теория:**
Можно группировать данные по нескольким столбцам одновременно и применять различные функции агрегации.

**Задание:**
1. Найдите корреляцию между возрастом и зарплатой
2. Создайте группы по опыту работы (0-5, 6-10, 11-15, 16+ лет)
3. Для каждой группы опыта найдите среднюю зарплату и средний возраст
4. Найдите топ-3 должности с самой высокой средней зарплатой

In [41]:
# Ваш код здесь
# 1. Корреляция возраста и зарплаты
# 2. Создайте столбец с группами опыта с помощью pd.cut()
# 3. Группировка по опыту
# 4. Топ-3 должности по зарплате

---

## Блок 4: Визуализация данных

### Задание 4.1: Базовые графики

**Теория:**
Pandas интегрирован с matplotlib, что позволяет строить графики прямо из DataFrame с помощью метода `.plot()`.

**Задание:**
1. Постройте гистограмму распределения зарплат
2. Создайте box plot зарплат по полу
3. Постройте scatter plot возраста и зарплаты
4. Создайте bar chart средних зарплат по образованию

In [43]:
# Ваш код здесь
# 1. Гистограмма зарплат
# 2. Box plot по полу
# 3. Scatter plot возраст-зарплата
# 4. Bar chart по образованию

### Задание 4.2: Продвинутая визуализация с matplotlib

**Теория:**
Matplotlib предоставляет широкие возможности для создания информативных графиков. Можно создавать тепловые карты, violin plot-подобные графики и другие визуализации.

**Задание:**
1. Создайте тепловую карту корреляций числовых переменных
2. Постройте распределение зарплат по образованию (гистограммы)
3. Создайте многомерный scatter plot с раскраской по полу
4. Постройте горизонтальную диаграмму для анализа распределения должностей (топ-10)

In [45]:
# Ваш код здесь
# 1. Тепловая карта корреляций с помощью imshow
# 2. Гистограммы зарплат по образованию
# 3. Scatter plot с раскраской по полу
# 4. Горизонтальная диаграмма топ-10 должностей

---

## Блок 5: Продвинутый анализ данных

### Задание 5.1: Создание новых признаков и анализ

**Теория:**
Часто нужно создавать новые столбцы на основе существующих данных для более глубокого анализа.

**Задание:**
1. Создайте столбец "Salary_per_Experience" (зарплата на год опыта)
2. Создайте категории зарплат: "Low" (<75k), "Medium" (75k-125k), "High" (>125k)
3. Найдите средний возраст для каждой категории зарплат
4. Определите, какой процент людей с PhD получает зарплату в категории "High"

In [47]:
# Ваш код здесь
# 1. Создайте Salary_per_Experience
# 2. Создайте категории зарплат с помощью pd.cut()
# 3. Средний возраст по категориям зарплат
# 4. Процент PhD в категории High

### Задание 5.2: Итоговый анализ и выводы

**Теория:**
Финальный анализ должен объединить все полученные знания и дать практические выводы.

**Задание:**
1. Найдите самую высокооплачиваемую должность в среднем
2. Определите оптимальный уровень образования с точки зрения ROI (зарплата/годы обучения)
3. Создайте профиль "идеального" кандидата для высокой зарплаты
4. Сделайте 3 практических вывода из анализа данных

In [49]:
# Ваш код здесь
# 1. Самая высокооплачиваемая должность
# 2. ROI по образованию (предположим: Bachelor's=4 года, Master's=6, PhD=8)
# 3. Анализ характеристик людей с зарплатой >150k
# 4. Выводы