Общая информация:
В датафрейме df содержится 23276 записей и 17 столбцов.
Имеется смесь числовых (float64, int64) и объектных (object) типов данных.
Основные наблюдения и потенциальные проблемы для EDA:
Столбцы с датами (order_date, delivery_date, shipment_date):
Все они сейчас имеют тип object, но должны быть преобразованы в тип datetime для корректного анализа временных рядов, фильтрации по датам и расчетов длительности.
delivery_date (22100 непустых значений из 23276) и shipment_date (22855 непустых значений из 23276) содержат пропущенные значения. Необходимо решить, как их обрабатывать (например, заполнить, удалить строки или использовать для анализа только полные данные).
Столбцы со скидками (discount%, discountRUB):
Оба столбца имеют тип object, но по названию предполагается, что они должны быть числовыми. Вероятно, они содержат символы типа '%' или ' ', которые препятствуют автоматическому преобразованию в числовой тип при загрузке.
Их необходимо очистить от лишних символов и преобразовать в числовой тип (например, float).
Категориальные столбцы (status, customer_payment, currency, promo):
Эти столбцы сейчас имеют тип object. Для анализа их можно преобразовать в категориальный тип (category), что может сэкономить память и ускорить некоторые операции.
Столбец promo имеет пропущенные значения (18449 непустых значений из 23276). Это значительная часть, и нужно решить, как их обрабатывать (например, заполнить 'нет акции', 'без промокода' или анализировать отдельно).
Идентификаторы (order_id, shipment_id, SKU, article):
order_id, shipment_id, article имеют тип object, SKU - int64. Эти столбцы, скорее всего, являются уникальными идентификаторами или кодами. Важно проверить количество уникальных значений, чтобы понять их распределение и роль.
Рекомендации для дальнейших шагов EDA:
Преобразование типов данных: В первую очередь, преобразуйте даты и скидки в правильные числовые/датовые типы.
Обработка пропущенных значений: Определите стратегию для delivery_date, shipment_date и promo.
Уникальные значения: Проверьте количество уникальных значений для категориальных столбцов и идентификаторов, чтобы выявить возможные опечатки или оценить их кардинальность.
Распределения: Постройте гистограммы для order_amount, quantity, price, discount%, discountRUB, чтобы понять их распределение.
Временные ряды: После преобразования дат, проанализируйте тренды продаж по order_date, delivery_date, shipment_date.
Взаимосвязи: Изучите взаимосвязи между order_amount, quantity, price и discount%.
Группировка: Сгруппируйте данные по status, customer_payment, currency, promo для выявления основных характеристик.# Diplom