Техническое задание:
Исходные данные представлены в двух CSV-файлах:
- Factories.csv - информация о российских цехах с площадью зала до 2500 кв.м.
- Products.csv - информация о выпускаемой продукции на данных цехах.
Основное задание: обработка и чистка данных, их визуализация и подготовка к статистическому анализу.
Дополнительное задание: исследование гипотезы. Гипотеза: температура на цехах влияет на рост количества брака.
Что сделано в рамках проекта?
- Обработаны NaN-значения.
- Обработаны дубликаты.
- Скорректированы типы данных, проведено округление.
- После предварительной очистки и обработки данных, проведено объединение двух датафреймов.
- Проведена сортировка данных.
- Проведена фильтрация данных.
- Выявлены, а также визуализированы (с использованием boxplot) аномалии и выбросы. Проведена очистка данных.
- Проведена группировка данных. Результаты визуализированы (с использованием столбчатых диаграмм, а также тепловой карты).
- Проведен корреляционный анализ с целью выявления взаимосвязей между отдельными числовыми данными, в частности, выявлена взаимосвязь между температурой на цехах и количеством брака.
- Даны выводы и рекомендации.
Стек в рамках данного проекта: NumPy, Pandas, Matplotlib, Seaborn.