Skip to content

Kogannis/python_data_analytics

Repository files navigation

Техническое задание:

Исходные данные представлены в двух CSV-файлах:

  • Factories.csv - информация о российских цехах с площадью зала до 2500 кв.м.
  • Products.csv - информация о выпускаемой продукции на данных цехах.

Основное задание: обработка и чистка данных, их визуализация и подготовка к статистическому анализу.

Дополнительное задание: исследование гипотезы. Гипотеза: температура на цехах влияет на рост количества брака.

Что сделано в рамках проекта?

  1. Обработаны NaN-значения.
  2. Обработаны дубликаты.
  3. Скорректированы типы данных, проведено округление.
  4. После предварительной очистки и обработки данных, проведено объединение двух датафреймов.
  5. Проведена сортировка данных.
  6. Проведена фильтрация данных.
  7. Выявлены, а также визуализированы (с использованием boxplot) аномалии и выбросы. Проведена очистка данных.
  8. Проведена группировка данных. Результаты визуализированы (с использованием столбчатых диаграмм, а также тепловой карты).
  9. Проведен корреляционный анализ с целью выявления взаимосвязей между отдельными числовыми данными, в частности, выявлена взаимосвязь между температурой на цехах и количеством брака.
  10. Даны выводы и рекомендации.

Стек в рамках данного проекта: NumPy, Pandas, Matplotlib, Seaborn.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published