# Лабораторная работа 7. Разработка единого шаблона предварительной обработки данных

## <a href="https://www.kaggle.com/datasets/sudarshan24byte/online-food-dataset">Доставка еды</a>

### Описание набора данных:
Набор данных содержит информацию, собранную с платформы онлайн-заказа еды за определенный период времени. Он включает в себя различные характеристики: род занятий, размер семьи, отзывы и пр.

### Прилагающаяся информация:
Этот набор данных может быть использован для изучения взаимосвязи между демографическими факторами и/или местоположением и поведением при онлайн-заказе еды, анализа отзывов клиентов, с целью улучшения качества обслуживания и, возможно, прогнозирования предпочтений или поведения клиентов на основе демографических характеристик и местоположения.

### Параметры набора данных:

#### Демографическая информация:

1) Age - <b>Целое</b> - Возраст клиента
2) Gender - <b>Категориальное</b> - Пол клиента
3) Marital status - <b>Категориальное</b> - Семейное положение клиента
4) Occupation - <b>Категориальное</b> - Род занятий клиента
5) Monthly Income - <b>Целое</b> - Ежемесячный доход клиента
6) Educational Qualifications - <b>Категориальное</b> - Уровень образавания клиента
7) Family Size - <b>Целое</b> - Количество человек в семье клиента

#### Информация о местоположении:

8) Latitude - <b>Дробное</b> - Широта местоположения клиента
9) Longitude - <b>Дробное</b> - Долгота местоположения клиента
10) Pin Code - <b>Целое</b> - код местоположения клиента

#### Детали заказа:

11) Output - <b>Категориальное</b> - Текущий статус заказа (например, ожидающий выполнения, подтвержденный, доставленный)
12) Feedback - <b>Категориальное</b> - Отзыв, предоставленный клиентом после получения заказа

Подключение библиотек

In [2]:
import numpy as np
import pandas as pd

Загрузка данных и разделение на матрицу признаков и зависимую переменную


In [3]:
dataset = pd.read_csv('onlinefoods.csv')

dataset.head()

Unnamed: 0,Age,Gender,Marital Status,Occupation,Monthly Income,Educational Qualifications,Family size,latitude,longitude,Pin code,Output,Feedback,Unnamed: 12
0,20,Female,Single,Student,No Income,Post Graduate,4,12.9766,77.5993,560001,Yes,Positive,Yes
1,24,Female,Single,Student,Below Rs.10000,Graduate,3,12.977,77.5773,560009,Yes,Positive,Yes
2,22,Male,Single,Student,Below Rs.10000,Post Graduate,3,12.9551,77.6593,560017,Yes,Negative,Yes
3,22,Female,Single,Student,No Income,Graduate,6,12.9473,77.5616,560019,Yes,Positive,Yes
4,22,Male,Single,Student,Below Rs.10000,Post Graduate,4,12.985,77.5533,560010,Yes,Positive,Yes


In [4]:
X = dataset.iloc[:, [0,6,7,8,9]].values
y = dataset.iloc[:, 12].values

print ("Матрица признаков", X)
print ("Зависимая переменная", y)

Матрица признаков [[2.00000e+01 4.00000e+00 1.29766e+01 7.75993e+01 5.60001e+05]
 [2.40000e+01 3.00000e+00 1.29770e+01 7.75773e+01 5.60009e+05]
 [2.20000e+01 3.00000e+00 1.29551e+01 7.76593e+01 5.60017e+05]
 ...
 [2.20000e+01 5.00000e+00 1.29850e+01 7.75533e+01 5.60010e+05]
 [2.30000e+01 2.00000e+00 1.29770e+01 7.75773e+01 5.60009e+05]
 [2.30000e+01 5.00000e+00 1.28988e+01 7.75764e+01 5.60078e+05]]
Зависимая переменная ['Yes' 'Yes' 'Yes' 'Yes' 'Yes' 'Yes' 'Yes' 'Yes' 'Yes' 'Yes' 'Yes' 'Yes'
 'Yes' 'Yes' 'Yes' 'Yes' 'Yes' 'Yes' 'Yes' 'Yes' 'Yes' 'Yes' 'Yes' 'Yes'
 'Yes' 'Yes' 'Yes' 'Yes' 'Yes' 'Yes' 'Yes' 'Yes' 'Yes' 'Yes' 'Yes' 'Yes'
 'No' 'Yes' 'Yes' 'Yes' 'Yes' 'Yes' 'Yes' 'Yes' 'Yes' 'Yes' 'Yes' 'Yes'
 'Yes' 'Yes' 'Yes' 'Yes' 'Yes' 'Yes' 'Yes' 'Yes' 'Yes' 'Yes' 'Yes' 'Yes'
 'Yes' 'Yes' 'Yes' 'Yes' 'Yes' 'Yes' 'Yes' 'Yes' 'Yes' 'Yes' 'Yes' 'No'
 'Yes' 'Yes' 'Yes' 'Yes' 'Yes' 'Yes' 'Yes' 'Yes' 'Yes' 'Yes' 'Yes' 'Yes'
 'Yes' 'Yes' 'Yes' 'Yes' 'No' 'No' 'No' 'No' 'Yes' 'Yes' 'Yes' 'Yes'

Обработка пропущенных значений

In [5]:
from sklearn.impute import SimpleImputer


imputer = SimpleImputer(missing_values = np.nan, strategy = 'mean').fit(X[:, [0, 1, 2, 3, 4]])

X_without_nan = X.copy()
X_without_nan[:, [0, 1, 2, 3, 4]] = imputer.transform(X[:, [0, 1, 2, 3, 4]])

X_without_nan

array([[2.00000e+01, 4.00000e+00, 1.29766e+01, 7.75993e+01, 5.60001e+05],
       [2.40000e+01, 3.00000e+00, 1.29770e+01, 7.75773e+01, 5.60009e+05],
       [2.20000e+01, 3.00000e+00, 1.29551e+01, 7.76593e+01, 5.60017e+05],
       ...,
       [2.20000e+01, 5.00000e+00, 1.29850e+01, 7.75533e+01, 5.60010e+05],
       [2.30000e+01, 2.00000e+00, 1.29770e+01, 7.75773e+01, 5.60009e+05],
       [2.30000e+01, 5.00000e+00, 1.28988e+01, 7.75764e+01, 5.60078e+05]])

Замена категории кодом 
<br/><i>LabelEncoder - используется для преобразования категориальных меток в числовые значения<i>

In [6]:
from sklearn.preprocessing import LabelEncoder


label_encoder_y = LabelEncoder()

# преобразование категориального признака в числовой
y = label_encoder_y.fit_transform(y)


print("Зависимая переменная до обработки", y)
print("Зависимая переменная после обработки", y)

Зависимая переменная до обработки [1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 1 1 1 1 1 1 0 0 0 1 1 1 1 0 0 1 0 1 1
 1 1 1 1 0 1 0 1 1 0 1 1 1 0 1 1 1 1 1 1 0 1 0 1 0 1 0 1 1 0 1 1 1 0 1 1 1
 1 1 1 1 1 1 1 1 1 1 0 1 1 0 1 1 1 0 0 1 1 0 1 1 1 1 1 1 0 0 1 0 0 1 1 0 1
 1 1 1 0 1 0 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 0 1 1 0 0 1 0 1 1 1 1 0 1 1 1 0
 0 1 1 1 1 1 0 1 1 1 0 1 1 0 1 1 1 0 1 1 1 1 0 1 0 1 0 1 1 1 1 1 0 1 0 0 1
 0 1 1 0 0 1 1 0 1 1 1 1 0 1 1 1 1 1 1 0 1 1 1 1 1 0 1 1 0 1 1 0 0 0 0 0 1
 1 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 0 1 1 0 1 1 1 0 1 1 1 1 1 1
 0 1 1 0 0 1 0 1 1 1 1 0 1 1 1 1 0 1 1 0 0 1 0 1 0 1 1 1 0 1 1 0 1 1 1 0 1
 1 1 1 0 1 0 1 0 1 1 1 1 1 1 1 1 1 1]
Зависимая переменная после обработки [1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

Формирование числовых значений
<br/><i>OneHotEncoder  - используется для преобразования числовых категориальных значений в бинарные векторы (one-hot encoding)<i>

In [9]:
from sklearn.preprocessing import OneHotEncoder, LabelEncoder

# Создание экземпляра LabelEncoder для кодирования категориального признака
label_encoder_X = LabelEncoder()

# Преобразование категориального признака в числовые значения с использованием LabelEncoder
label_encoder_X.fit_transform(X[:, 0])

# Создание копии исходных данных для кодирования
X_encoded = X_without_nan.copy()

# Замена категориального признака на его закодированное числовое представление
X_encoded[:, 0] = label_encoder_X.fit_transform(X_encoded[:, 0])

# Создание экземпляра OneHotEncoder для выполнения кодирования One-Hot
onehotencoder = OneHotEncoder()

# Применение OneHotEncoder к закодированным данным и преобразование их в массив
X_encoded = onehotencoder.fit_transform(X_encoded).toarray()

# Вывод результата перекодировки категориального признака
print("Перекодировка категориального признака")
print(X_encoded)

Перекодировка категориального признака
[[0. 0. 1. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 ...
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]]


In [34]:
# создаем копию объекта с пропусками и некодированными категориями
X_copy = X.copy()
X_copy

array([[2.00000e+01, 4.00000e+00, 1.29766e+01, 7.75993e+01, 5.60001e+05],
       [2.40000e+01, 3.00000e+00, 1.29770e+01, 7.75773e+01, 5.60009e+05],
       [2.20000e+01, 3.00000e+00, 1.29551e+01, 7.76593e+01, 5.60017e+05],
       ...,
       [2.20000e+01, 5.00000e+00, 1.29850e+01, 7.75533e+01, 5.60010e+05],
       [2.30000e+01, 2.00000e+00, 1.29770e+01, 7.75773e+01, 5.60009e+05],
       [2.30000e+01, 5.00000e+00, 1.28988e+01, 7.75764e+01, 5.60078e+05]])

In [72]:
# Преобразование многомерного массива обратно в Dataframe и его вывод
X_data = pd.DataFrame(
    X_transformed,
    columns=['C1', 'C2', 'Age', "Pincode"])

X_data

Unnamed: 0,C1,C2,Age,Pincode
0,0.0,1.0,20.0,560001.0
1,0.0,1.0,24.0,560009.0
2,1.0,0.0,22.0,560017.0
3,0.0,1.0,22.0,560019.0
4,0.0,1.0,22.0,560010.0
...,...,...,...,...
383,0.0,1.0,23.0,560001.0
384,0.0,1.0,23.0,560048.0
385,0.0,1.0,22.0,560010.0
386,0.0,1.0,23.0,560009.0


### Вывод: 
Пайплайн для обработки данных используется для автоматизации последовательности этапов обработки данных. Он позволяет объединить несколько этапов обработки, таких как: предобработка, преобразование признаков, обучение модели и оценка, в один унифицированный процесс. Пайплайн обеспечивает структурированный и повторно используемый подход к обработке данных, что упрощает развертывание и поддержку моделей машинного обучения. Также он способствует автоматизации процесса обработки данных, что может повысить эффективность и точность моделей машинного обучения.