# Проект для задачи Яндекс Акедемии "Анализ экологических проблем"

На заводе по производству полезного полимера ООО “Synthesising the future“ обратились за помощью в исследовании зависимостей вредных выбросов от производственных показателей. Требуется повести анализ данных и построить выводы о том, какой этап имеет высокий риск создать повышенное содержания вредного газа.

## Описание проекта

Вы являетесь отделом аналитиков, к которым опратилась производственная компания ООО “Synthesising the future“. Они хотя выяснить причины, почему появляются высокие значения выбросов, хотя у них заявлено экологичное производство. Вас просят провести анализ данных и произвести необходимые преобразования, чтобы получить качественные расчеты опасного газа и продукции.

Ниже описана структура процесса. Всего есть 4 этапа:
 - Этап 1 - Создание мономеров из сырья (stage_1)
 - Этап 2 - Формирование n-мерных цепочек (stage_2)
 - Этап 3 - Изготовление полимера (stage_3)
 - Этап 4 - Создание продукта (stage_4)

Есть два типа данных:
 - input - входные параметры на этап. Обычно то, что добавляется, чтобы повлиять на процесс
 - output - выходные параметры. Это показатели датчиков и значение элементов на выходе

Данные – файл «analysing_environmental_issues.csv»

## Описание столбцов

- 'DateTime' - время измерения. Частота измерений - каждый час.
- 'stage_1_output_konv_avd' - процент конверсии сырья в мономер. Простыми словами, какая доля стала на входе превратилась в мономер.
- 'stage_2_input_water_sum' - количество подаваемой суммарной воды в агрегат, в м3.
- 'stage_2_output_bottom_pressure' - давление низа (bottom) в агрегате, в Па
- 'stage_2_output_bottom_temp' - температура низа в агрегате, в градусах Цельсия
- 'stage_2_output_bottom_temp_hum_steam' - температура насыщенного пара низа в агрегате, в градусах Цельсия
- 'stage_2_output_bottom_vacuum' - вакуум низа в агрегате, в Па
- 'stage_2_output_top_pressure' - давление верха (top) в агрегате, в Па
- 'stage_2_output_top_pressure_at_end' - давление верха в агрегате на выходе, в Па
- 'stage_2_output_top_temp' - температура низа в агрегате, в градусах Цельсия
- 'stage_2_output_top_vacuum' - вакуум низа в агрегате, в Па
- 'stage_3_input_pressure' - подаваемое давление в агрегат, в Па
- 'stage_3_input_soft_water' - подаваемая смягченная вода, в м3
- 'stage_3_input_steam'- подаваемый пар, в м3
- 'stage_3_output_temp_hum_steam' - температура насыщенного пара, в градусах Цельсия
- 'stage_3_output_temp_top' - температура верха в агрегате, в градусах Цельсия
- 'stage_4_input_overheated_steam' - подача перегретого пара, в м3
- 'stage_4_input_polymer' - подача полимера, в м3
- 'stage_4_input_steam' - подача пара, в м3
- 'stage_4_input_water' - подача воды, в м3
- 'stage_4_output_danger_gas' - доля опасного газа на выходе агрегата, 1 = 100%, 0 = 0%. Это показатель замеряется вручную и имеет другую шкалу измерений. его не делают каждый час, а только тогда, когда требуется.
- 'stage_4_output_dry_residue_avg' - процент сухого остатка финального продукта
- 'stage_4_output_product' - готовый продукт технологического процесса, в кг
- 'work_shift' - номер смены, от 1 до 2

## Постановка задачи

- Провести исследовательский анализ данных (EDA)
- Создать расчеты
- Выполнить проверку гипотез
- Выполнить регрессионное моделирование
- Добавить дашборт по результатам работыы

### Исследование данных на качество

- \[X\]  Исследовать типы данных, привести данные к правильному типу, где это необходимо
- \[ \]  Проверить данные на выбросы и адекватность данных. Предположить причину возникновения выбросов и обработать такие значения.
- \[ \]  Указать на основе выбросов верхние и нижние границы. Указать каким признакам нужны границы, или часть границ и вовсе не нужны границы выбросов.
- \[ \]  Провести аналитический и графический анализ данных. Добавить границы значений. Сделать выводы.
- \[ \]  Проверить данные на пропуски и заполнить их при необходимости. Обосновать решение.

### Проведение расчётов

- \[ \] Создать категорию опасности вредного газа от 1 до 3. Низкая опасность (1) показатель до 0.05, средняя(2) - от 0.05 до 0.16, высокая(3) - от 0.16
- \[ \] Создать сводную таблицу изменения параметров сгруппированную по дням без учета номера смены. Выведите суммарные показатели входных параметров. При однотипности парамтра проведите суммирования. Сделайте выводы по расходу ресурсов каждый день. Есть ли периоды, когда компания тратила больше ресурсов?
- \[ \] Создать сводную таблицу изменения категории опасности сгруппированную по месяцам. Выводите ту категориЮ. которая была чаще всего в месяца. Есть ли в течении года периоды, когда проищводство было самым опасным?
- \[ \] Для каждой категории вывести среднее значение каждого параметра (без учета номера смены). Есть ли заметные отличия типа категории?
- \[ \] Провести корреляционный анализ для поиска зависимостей. Дать выводы. Отдельно пояснить корреляции для столбцов 'stage_4_output_danger_gas', 'stage_4_output_dry_residue_avg' и 'stage_4_output_product'.

### Проверка гипотез

- \[ \] Гипотеза 1. Если ли различия в доле опасного газа от смены?
- \[ \] Гипотеза 2. Какая из смен лучше управляет температурой верха на этапе 3? Считать, что высокая температура хуже.
- \[ \] Гипотеза 3. Конверсия мономера на 1 этапе влияет на количество подаваемой суммарной воды.
- \[ \] Гипотеза 4. Количество выходного количества продукта связано с долей опасного газа
- \[ \] Гипотезы 5-7. Дополнительно выдвинуть и проверить не менее 3 гипотез по влиянию разных факторов на любой из выходных параметров этапа 4.

### Регрессионное моделирование

- \[ \] Провести моделирование показателя доля опасного газа. Выбор и аргументация факторов свободный. Оценить модель на метриках R2 и MAPE. Дать выводы, можно ли использовать модель вместо ручных замеров

### Попросить создать дашборд

- \[ \] На основе результатов выполненных расчетов и исследований составить информативный дашборд: показать наиболее интересные найденные зависимости, результаты проверки гипотез, основные статистики/распределения предоставленных данных: то, что может быть интересно и полезно заказчику для развития его бизнеса.

### Выводы

- \[ \] Оформите выводы и дашборд в презентацию для руководства компании (не более 10 слайдов).

При составлении помните про основной вопрос заказчика: “Какие факторы влияют на долю опасного газа? Какие параметры требуют особого внимания”