Skip to content

fidel78rus/Diplom

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 

Repository files navigation

Общая информация:

В датафрейме df содержится 23276 записей и 17 столбцов.
Имеется смесь числовых (float64, int64) и объектных (object) типов данных.

Основные наблюдения и потенциальные проблемы для EDA:

Столбцы с датами (order_date, delivery_date, shipment_date):
    Все они сейчас имеют тип object, но должны быть преобразованы в тип datetime для корректного анализа временных рядов, фильтрации по датам и расчетов длительности.
    delivery_date (22100 непустых значений из 23276) и shipment_date (22855 непустых значений из 23276) содержат пропущенные значения. Необходимо решить, как их обрабатывать (например, заполнить, удалить строки или использовать для анализа только полные данные).

Столбцы со скидками (discount%, discountRUB):
    Оба столбца имеют тип object, но по названию предполагается, что они должны быть числовыми. Вероятно, они содержат символы типа '%' или ' ', которые препятствуют автоматическому преобразованию в числовой тип при загрузке.
    Их необходимо очистить от лишних символов и преобразовать в числовой тип (например, float).

Категориальные столбцы (status, customer_payment, currency, promo):
    Эти столбцы сейчас имеют тип object. Для анализа их можно преобразовать в категориальный тип (category), что может сэкономить память и ускорить некоторые операции.
    Столбец promo имеет пропущенные значения (18449 непустых значений из 23276). Это значительная часть, и нужно решить, как их обрабатывать (например, заполнить 'нет акции', 'без промокода' или анализировать отдельно).

Идентификаторы (order_id, shipment_id, SKU, article):
    order_id, shipment_id, article имеют тип object, SKU - int64. Эти столбцы, скорее всего, являются уникальными идентификаторами или кодами. Важно проверить количество уникальных значений, чтобы понять их распределение и роль.

Рекомендации для дальнейших шагов EDA:

Преобразование типов данных: В первую очередь, преобразуйте даты и скидки в правильные числовые/датовые типы.
Обработка пропущенных значений: Определите стратегию для delivery_date, shipment_date и promo.
Уникальные значения: Проверьте количество уникальных значений для категориальных столбцов и идентификаторов, чтобы выявить возможные опечатки или оценить их кардинальность.
Распределения: Постройте гистограммы для order_amount, quantity, price, discount%, discountRUB, чтобы понять их распределение.
Временные ряды: После преобразования дат, проанализируйте тренды продаж по order_date, delivery_date, shipment_date.
Взаимосвязи: Изучите взаимосвязи между order_amount, quantity, price и discount%.
Группировка: Сгруппируйте данные по status, customer_payment, currency, promo для выявления основных характеристик.# Diplom

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors