# Проект 02 – Разведочный анализ

## 1. Exploratory Data Analysis

**Pandas** — это одна из самых популярных библиотек Python для работы с табличными данными. Она предоставляет удобные 
структуры данных:
* **Series** — одномерный массив с индексами, похожий на колонку в таблице;
* **DataFrame** — двумерная таблица, где каждая колонка может иметь свой тип данных.

![pandas](../misc/images/pandas.jpeg)

С помощью Pandas можно: фильтровать строки и столбцы, группировать данные, агрегировать показатели, объединять таблицы, 
работать с пропущенными значениями и строить простые визуализации. Владение Pandas — базовый и необходимый навык для 
проведения EDA.

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

### Задание 1.1. Загрузка данных
1. Зарегистрируйся на [Kaggle](https://www.kaggle.com/)
2. Перейди на страницу датасета [2025 Kaggle Machine Learning & Data Science Survey](https://www.kaggle.com/datasets/sonialikhan/2025-kaggle-machine-learning-and-data-science-survey)
3. Скачай CSV-файлы с данными и сохрани их в папку `datasets`
4. С помощью библиотеки `pandas` загрузи:
   * таблицу с выбором ответов (multiple choice) в переменную `multuple`
   * таблицу со свободными ответами (free form) `freeform`
5. Выведи размеры каждой таблицы
   
> **Важно:** загружать датасеты на Git не нужно.

### Задание 1.2. Совмещение таблиц
1. Найди общие колонки в таблицах `multiple` и `freeform`. Выведи их количество
2. Определи количество уникальных значений в колонке `Q1_OTHER_TEXT` для обеих таблиц, включая `NaN`.
3. Используя метод `.update()`, дополни DataFrame `multiple` данными из DataFrame `freeform`.
4. Переименуй дополненный DataFrame в `responses`.
5. Выведи количество уникальных значений в колонке `Q1_OTHER_TEXT` для таблицы `responses`, включая `NaN`.


### Задание 1.3. Словарь вопросов
В таблице `responses` первая строка содержит текстовые формулировки вопросов
(например: *'What is your gender? - Selected Choice'*, *'What is your age (# years)?'* и т. д.), а сами данные 
начинаются со второй строки.

1. Преврати первую строку таблицы `responses` в словарь и сохрани его в переменную `column2question`, где ключами 
будут названия колонок, а значениями — формулировки вопросов.
2. Удали эту строку из таблицы `responses`.
3. Выведи тип переменной `column2question`.
4. Выведи размерность таблицы `responses` после удаления первой строки.


### Задание 1.4. Очистка респондентов

В данных есть информация о времени заполнения опроса. Логично предположить, что если респондент отвечал **слишком быстро** или, наоборот, **слишком долго**, такие ответы могут быть недостоверными. Для очистки данных воспользуемся методом выявления выбросов на основе **box plot**.

**Box plot (ящик с усами)** — это способ визуализации распределения данных. Внутри прямоугольника (ящика) находятся значения от 1-го до 3-го квартиля (Q1 и Q3), линия внутри — это медиана. «Усы» обычно определяются через **интерквартильный размах (IQR)**, который равен:

$$IQR = Q3 - Q1$$
Значения ниже $Q1 - 1.5 \times IQR$ и выше $Q3 + 1.5 \times IQR$ считаются выбросами.

![box-plot](../misc/images/box-plot.png)

1. Построй box plot для времени заполнения опроса. Ограничь ось **X** от 0 до 5000 секунд.
2. Рассчитай интерквартильный размах (IQR).
3. Выведи нижнюю и верхнюю границы интервала для выявления выбросов.
4. Так как нижняя граница получилась отрицательной, будем априорно считать минимальное адекватное время заполнения равным **2 минутам (120 секунд)**.
5. Отфильтруй DataFrame, оставив только респондентов с временем заполнения от 120 секунд до верхней границы.
6. Выведи размерность очищенного датасета.

## Задание 2. Посчитать кол-во атакующих вертолетов

Посчитай кол-во людей идентифицирующих себя, как "attack helicopter" (столбец 'Q1_OTHER_TEXT')

In [2]:
# Код тут

## Задание 3. Сконвертировать возраст и посчитать метрики

Сконвертируй возраст респондентов, взяв среднее 

In [3]:
# Код тут

И посчитай метрики размах, первый квантиль, третий квантиль, межквартальный размах, минимум, максимум, медиана, среднее-арифметическое

In [4]:
# Код тут

## Задание 4. Построить pivot table по полу и занимаемой позиции

Построй таблицу сравнения по кол-ву мужчин/женщин и занимаемыми ими позициями

In [5]:
# Код тут

## Задание 5. Корреляция между скоростью заполению опроса и кол-во пропущенных полей

Посчитай корреляцию между скоростью заполнению опроса и кол-ву пропущенных полей

In [6]:
# Код тут