# Анализ заказов клиентов с использованием Pandas

Эта задача поможет вам развить навыки обработки данных с использованием Pandas. Вы будете работать с наборами данных клиентов и заказов, хранящимися в отдельных CSV-файлах. В ходе выполнения этой задачи вы научитесь:
- Загружать и объединять несколько CSV-файлов.
- Эффективно обрабатывать отсутствующие значения.
- Выполнять статистический анализ для понимания отношений между клиентами и заказами.
- Рассчитывать маржу прибыли на продукцию и выявлять товары с высокой прибылью.

---

## Инструкции

### Шаг 1. Подготовка данных
**Скачайте** следующие CSV-файлы с **[Kaggle Dataset](https://www.kaggle.com/datasets/gabrielsantello/wholesale-and-retail-orders-dataset/data)**:

- `product-supplier.csv` -> содержит категории продуктов, коды продуктов и информацию о поставщиках.
- `orders.csv` -> содержит заказы клиентов с деталями продуктов, датой заказа и статусом клиента (Платина > Золото > Серебро).

### Шаг 2. Чтение данных из файлов
- Загрузите данные из файла `orders.csv` в DataFrame Pandas.
- Выведите первые 5 строк и проверьте детали файла.

### Шаг 3. Очистка и форматирование данных
- Обработка отсутствующих значений: Проверьте наличие NaN или отсутствующих данных в **orders.csv**.
- Преобразование формата даты: Измените даты заказов на стандартный формат (ГГГГ-ММ-ДД). (например, из 01-Jan-17 в 2017-01-10)
- Исправление названий `Customer Status`: Преобразуйте все вариации "Silver", "GOLD" и т.д. в стандартный формат (например, Серебро написано в разных формах (SILVER или Silver), убедитесь, что они написаны одинаково -> Silver)
- Обеспечение правильных типов данных: Преобразуйте `Customer Status` в строковый формат.

### Шаг 4. Анализ данных
- Рассчитайте `Retail Price per Unit` (`Total Retail Price for This Order` / `Quantity Ordered`)
- Рассчитайте `Profit Margin (%)` ((`Retail Price per Unit` - `Cost Price Per Unit`) / `Cost Price Per Unit` * 100 ).
- Загрузите набор данных поставщиков продукции в DataFrame.
- Выведите первые 5 строк и проверьте детали файла.
- Объедините **orders.csv** и **product_suppliers.csv** по `Product ID` с использованием `inner` соединения.
- Удалите ненужные столбцы и оставьте (Customer ID,    Product ID,  Cost Price Per Unit,  Retail Price per Unit, Profit Margin (%), Product Category, Product Name )
- Отсортируйте продукты по наибольшей марже прибыли и отобразите 10 лучших продуктов.

### Шаг 5. Выполнение анализа
- Выведите первые несколько строк объединенного DataFrame для наглядности.
- Выведите все результаты анализа.
- Сохраните очищенный набор данных как **customer_orders_analysis.csv**, отсортированный по наибольшей марже прибыли.

---

## Реализация



In [None]:
# Загрузка данных в pandas
import pandas as pd
import numpy as np
df=pd.read_csv('orders.csv')
print(df.head(5))

In [None]:
# обработка отсутствующих значений
cleaned_df=df.isna()
print(cleaned_df)

In [None]:
#преобразование даты на стандартный формат
df['date'] = pd.to_datetime(df['Date Order was placed']) # преобразование в формат даты
df['Formated Date'] = df['date'].dt.strftime('%Y-%m-%d') # преобразование в формат YYYY-MM-DD

print(df.head(5))

In [None]:
# Исправдение названий Custunmer Status и преобразуем в сроковой формат
df['Customer Status'] = df['Customer Status'].str.lower().str.capitalize().astype(str)
print(df.head(5))


In [None]:
# Рассчитываем Retail Price per Unit (Total Retail Price for This Order / Quantity Ordered)
df['Retail Price per Unit'] = df['Total Retail Price for This Order'] / df['Quantity Ordered']
print(df.head(5))

In [None]:
# Рассчитываем Profit Margin (%) ((Retail Price per Unit - Cost Price Per Unit) / Cost Price Per Unit * 100 ).
df['Profit Margin (%)'] = ((df['Retail Price per Unit'] - df['Cost Price Per Unit']) / df['Cost Price Per Unit']) * 100
print(df.head(5))

In [None]:
# Загружаем данные поставщиков
df_products=pd.read_csv('product-supplier.csv')
print(df_products.head(5))


In [None]:
# Объединяем данные поставщиков с данными заказов
df = pd.merge(df, df_products, on='Product ID', how='inner')
print(df.head(5))


In [None]:
# Удаляем ненужные столбцы 
df.drop(columns=[col for col in df.columns if col not in ['Customer ID', 'Product ID', 'Cost Price Per Unit', 'Retail Price per Unit', 'Profit Margin (%)', 'Product Category','Product Name']], inplace=True)
print(df.head(5))

In [None]:
# Сортируем продукты по наибольшей марже и отбираем 10 лучших
df = df.sort_values(by='Profit Margin (%)', ascending=False).head(10)
print(df.head(10))

In [None]:
# Сохраняем очищенный набор данных как customer_orders_analysis.csv, отсортированный по наибольшей марже прибыли.
df.to_csv('customer_orders_analysis.csv', index=False)





## Руководство по отправке
- Сохраните очищенный и объединенный набор данных как `customer_orders_analysis.csv`
- Отправьте ноутбук вместе с CSV-файлами.

### Как отправить проект

1. Создайте файл Jupyter Notebook на вашем Google Диске.
2. Напишите ваше решение в ноутбуке.
3. Поделитесь доступом с вашим наставником (или предоставьте ссылку с правами на редактирование).
4. Отправьте ссылку на файл ноутбука или папку в качестве вашего решения для этого урока.

---

## Резюме
Выполнив задачу, вы получили практический опыт в бизнес-анализе данных с использованием Pandas.