**Лабораторная работа 2**

ИУ5И-21М Хаммуд Хала

**Цель работы**

Изучение продвинутых способов предварительной обработки данных для дальнейшего формирования моделей.

**Задание**

Выбрать набор данных (датасет), содержащий категориальные и числовые признаки и пропуски в данных. Для выполнения следующих пунктов можно использовать несколько различных наборов данных (один для обработки пропусков, другой для категориальных признаков и т.д.) Просьба не использовать датасет, на котором данная задача решалась в лекции.

Для выбранного датасета (датасетов) на основе материалов лекций решить следующие задачи:

устранение пропусков в данных;

кодирование категориальных признаков;

нормализация числовых признаков.

**Ход работы**

In [10]:
from google.colab import files
uploaded = files.upload()


Saving amazon_sales_data 2025.csv to amazon_sales_data 2025 (1).csv


In [11]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

# Путь к файлу
file_path = "amazon_sales_data 2025.csv"

# Загрузка данных
df = pd.read_csv(file_path)

# Просмотр первых 5 строк
df.head()


Unnamed: 0,Order ID,Date,Product,Category,Price,Quantity,Total Sales,Customer Name,Customer Location,Payment Method,Status
0,ORD0001,14-03-25,Running Shoes,Footwear,60,3,180,Emma Clark,New York,Debit Card,Cancelled
1,ORD0002,20-03-25,Headphones,Electronics,100,4,400,Emily Johnson,San Francisco,Debit Card,Pending
2,ORD0003,15-02-25,Running Shoes,Footwear,60,2,120,John Doe,Denver,Amazon Pay,Cancelled
3,ORD0004,19-02-25,Running Shoes,Footwear,60,3,180,Olivia Wilson,Dallas,Credit Card,Pending
4,ORD0005,10-03-25,Smartwatch,Electronics,150,3,450,Emma Clark,New York,Debit Card,Pending


In [12]:
# Проверка на пропущенные значения в каждом столбце
df.isnull().sum()


Unnamed: 0,0
Order ID,0
Date,0
Product,0
Category,0
Price,0
Quantity,0
Total Sales,0
Customer Name,0
Customer Location,0
Payment Method,0


Стратегии обработки пропусков в Amazon Sales Data 2025:

В данном наборе данных отсутствуют пропущенные значения.

Но если бы пропуски были, применялись бы следующие стратегии:

— Для числовых признаков (например, Price, Quantity, Total Sales):
    ▸ можно было бы использовать заполнение средним (mean) или медианой (median).

— Для категориальных признаков (например, Product, Category, Payment Method):
    ▸ можно заменить пропуски наиболее частым значением (mode).

— Если бы пропусков в признаке было слишком много (например, более 50%), признак можно было бы удалить из анализа.


**Кодирование категориальных признаков Категориальные признаки нужно преобразовать в числовые для машинного обучения.**

Методы кодирования:

One-Hot Encoding (для номинальных признаков без порядка).

Ordinal Encoding (для порядковых признаков, например Pclass).

In [14]:
import pandas as pd

# Загрузка данных
df = pd.read_csv("amazon_sales_data 2025.csv")

# One-Hot кодирование для признака 'Payment Method' (способ оплаты)
df = pd.get_dummies(df, columns=['Payment Method'], drop_first=True)

# Порядковое кодирование для признака 'Status' (статус заказа)
# Предполагаем следующий порядок: Pending < Shipped < Delivered
status_order = {'Pending': 1, 'Shipped': 2, 'Delivered': 3}
df['Status_encoded'] = df['Status'].map(status_order)

# Просмотр первых 5 строк
df.head()



Unnamed: 0,Order ID,Date,Product,Category,Price,Quantity,Total Sales,Customer Name,Customer Location,Status,Payment Method_Credit Card,Payment Method_Debit Card,Payment Method_Gift Card,Payment Method_PayPal,Status_encoded
0,ORD0001,14-03-25,Running Shoes,Footwear,60,3,180,Emma Clark,New York,Cancelled,False,True,False,False,
1,ORD0002,20-03-25,Headphones,Electronics,100,4,400,Emily Johnson,San Francisco,Pending,False,True,False,False,1.0
2,ORD0003,15-02-25,Running Shoes,Footwear,60,2,120,John Doe,Denver,Cancelled,False,False,False,False,
3,ORD0004,19-02-25,Running Shoes,Footwear,60,3,180,Olivia Wilson,Dallas,Pending,True,False,False,False,1.0
4,ORD0005,10-03-25,Smartwatch,Electronics,150,3,450,Emma Clark,New York,Pending,False,True,False,False,1.0


**Результат кодирования категориальных признаков (для Amazon Sales Data 2025):**


Результат после One-Hot Encoding:

Были созданы столбцы, отражающие различные способы оплаты:
например, Payment Method_Credit Card, Payment Method_Cash, Payment Method_Online и т.д.
Каждый столбец принимает значение:

1, если заказ был оплачен данным способом

0 — в противном случае

Результат после Ordinal Encoding:

Создан новый столбец Status_encoded, отражающий статус заказа:

Pending → 1

Shipped → 2

Delivered → 3

Нормализация числовых признаков:
Числовые признаки в датасете:

Price

Quantity

Total Sales

Методы нормализации:

StandardScaler (среднее = 0, стандартное отклонение = 1) — рекомендуется для моделей, чувствительных к масштабу (например, логистическая регрессия, SVM).

MinMaxScaler (диапазон [0, 1]) — часто используется в нейронных сетях и алгоритмах, основанных на расстояниях (например, KNN).



In [15]:
from sklearn.preprocessing import StandardScaler

# Выбираем числовые признаки для нормализации
numeric_features = ['Price', 'Quantity', 'Total Sales']

# Инициализация StandardScaler
scaler = StandardScaler()

# Применяем масштабирование к выбранным признакам
df[numeric_features] = scaler.fit_transform(df[numeric_features])

# Просматриваем результат
df[numeric_features].head()


Unnamed: 0,Price,Quantity,Total Sales
0,-0.746511,0.100937,-0.636505
1,-0.641213,0.801892,-0.460449
2,-0.746511,-0.600017,-0.68452
3,-0.746511,0.100937,-0.636505
4,-0.50959,0.100937,-0.420437


После применения StandardScaler все числовые признаки (такие как Price, Quantity, Total Sales) были преобразованы таким образом, что:

их среднее значение равно 0

стандартное отклонение равно 1

Такое масштабирование позволяет улучшить качество обучения моделей, чувствительных к масштабу признаков, например, логистической регрессии или метода опорных векторов (SVM).



**Вывод**

Пропущенных значений в датасете не обнаружено.

Категориальные признаки, такие как Payment Method, были закодированы с помощью One-Hot Encoding.

Признак Status (статус заказа) был закодирован с использованием Ordinal Encoding, отражая логический порядок этапов обработки заказа.

Числовые признаки Price, Quantity и Total Sales были нормализованы с помощью StandardScaler (среднее = 0, стандартное отклонение = 1).

Данные полностью подготовлены для машинного обучения, включая модели классификации и регрессии, такие как RandomForestClassifier, LogisticRegression, или KNN.

