# Разделение датасета для создания синтетических данных.

# 1. Постановка задачи

Необходимо разделить выборку датасета на train и test для того, чтобы создать синтетику только для обучающих данных и оставить оценку работы модели на тестовых данных без вкраплений синтетических, чтобы получить объективный результат.

# 2. Настройка окружения

Для того, чтобы решить данную задачу, импортируем необходимые библиотеки (open source) для работы, а также укажем, какую роль данные библиотеки играют в ходе исследования:
- **pandas**: используется для работы с данными;
- **sklearn**: используется для деления данных на тестовую и обучающую выборку;
- **numpy**: используется для проверки количества объектов каждого класса

In [17]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split

# 3. Деление выборки

Загрузим основной очищенный датасет.

In [18]:
df = pd.read_csv('..\data\clear_data.csv')
df

  df = pd.read_csv('..\data\clear_data.csv')


Unnamed: 0,Тема,Описание,Тип оборудования,Точка отказа,Серийный номер
0,+BB0EPgRDBEIEMQRDBDo- +BCEEGAQbBBA- +BB0EGg-2-...,Здравствуйте.\r\n\r\n Сломался ...,Ноутбук,Блок питания,C222090381
1,/ шумит кулер / отклеились ножки,"Коллеги, добрый день.\r\n\r\nПрошу осуществить...",Ноутбук,Вентилятор,C223010310
2,10552. СИЛА HK-1404 // замена блоков питания //,"Добрый день! Не работают блоки питания, прошу ...",Ноутбук,Блок питания,"C223010423, C223011174"
3,10979. Ноутбук СИЛА НК2-1404 // не включается,Добрый день! Ноутбук не включается,Ноутбук,Материнская плата,C223012335
4,BIOS'ы,"Здравствуйте!\r\nПоделитесь, пожалуйста, после...",Ноутбук,Консультация,C223010345
...,...,...,...,...,...
180,по неисправной плашке памяти на dd203 - Enclos...,Добрый день!\r\nПросьба открыть заявку по неис...,СХД,Оперативная память,CKM00193800300
181,полосы на матрице НК2-3404,Полосы на матрице.,Ноутбук,Матрица,C223090893
182,полосы на экране и отклеились ножки,Переодически (было 3-4 раза) появляются полосы...,Ноутбук,Матрица,c223012503
183,ремонт ноутбука СИЛА НК2-1404,не работает порт usd и порт type-c на ноутбуке...,Ноутбук,Материнская плата,C223100081


## 3.1 Деление выборки для типа оборудования

Для типа оборудования просто поделим выборку в соотношении 0.35 на тест и 0.65 на обучение и посмотрим на распределение классов.

In [19]:
X = df[['Тема', 'Описание', 'Точка отказа', 'Серийный номер']]
X

Unnamed: 0,Тема,Описание,Точка отказа,Серийный номер
0,+BB0EPgRDBEIEMQRDBDo- +BCEEGAQbBBA- +BB0EGg-2-...,Здравствуйте.\r\n\r\n Сломался ...,Блок питания,C222090381
1,/ шумит кулер / отклеились ножки,"Коллеги, добрый день.\r\n\r\nПрошу осуществить...",Вентилятор,C223010310
2,10552. СИЛА HK-1404 // замена блоков питания //,"Добрый день! Не работают блоки питания, прошу ...",Блок питания,"C223010423, C223011174"
3,10979. Ноутбук СИЛА НК2-1404 // не включается,Добрый день! Ноутбук не включается,Материнская плата,C223012335
4,BIOS'ы,"Здравствуйте!\r\nПоделитесь, пожалуйста, после...",Консультация,C223010345
...,...,...,...,...
180,по неисправной плашке памяти на dd203 - Enclos...,Добрый день!\r\nПросьба открыть заявку по неис...,Оперативная память,CKM00193800300
181,полосы на матрице НК2-3404,Полосы на матрице.,Матрица,C223090893
182,полосы на экране и отклеились ножки,Переодически (было 3-4 раза) появляются полосы...,Матрица,c223012503
183,ремонт ноутбука СИЛА НК2-1404,не работает порт usd и порт type-c на ноутбуке...,Материнская плата,C223100081


In [20]:
y_1 = df['Тип оборудования']

In [21]:
X_train, X_test, y_1_train, y_1_test = train_test_split(
    X, y_1, test_size=0.35, random_state=22, shuffle=True)

In [22]:
np.unique(y_1_test, return_counts=True)

(array(['Ноутбук', 'СХД', 'Сервер'], dtype=object),
 array([48,  7, 10], dtype=int64))

In [23]:
df_train = pd.concat([X_train, y_1_train], axis=1)
df_train.to_csv('../data/df_train.csv', index=False)
df_train

Unnamed: 0,Тема,Описание,Точка отказа,Серийный номер,Тип оборудования
55,Неисправность Ноутбук СИЛА НК2-3404 - NTB48447...,Добрый день! \r\n Ноутбук СИЛА НК2-3404 - NTB4...,Матрица,C223091505,Ноутбук
26,Гарантийный ремонт Т2,Добрый день. \r\n Прошу произвести гарантийный...,Вентилятор,C223014726,Ноутбук
42,НК2-1404 v2 // Не работает зарядное устройство,Не работает зарядное устройство,Блок питания,C223100822,Ноутбук
37,НК2-1404 // Не работает Wi-FI (Кашира),На устройстве не работает WiFi,Wi-fi антенна,C223101179,Ноутбук
160,Сервер СР2-5422 // После обновления bios и bmc...,Добрый день!\r\nПосле обновления bios и bmc в ...,Вентилятор,D251110031,Сервер
...,...,...,...,...,...
102,Ноутбук Сила НК2-3404,Добрый день.\r\nНам поступили ноутбуки Сила НК...,Консультация,"C223091216, C223091307, C223091468, C223091751...",Ноутбук
100,Ноутбук Сила HK2-3404 (SN: ),Ноутбук Сила HK2-3404 (SN: C223091736)\r\nИз к...,Материнская плата,C223091736,Ноутбук
44,Не включается SILA LLC HK2-3404,Добрый день!\r\nПодскажите пожалуйста что може...,Материнская плата,C223094534,Ноутбук
132,СИЛА HK2-1404// Не работает зарядное устройство,Перестало работать зарядное устройство. С друг...,Блок питания,C223100876,Ноутбук


In [24]:
df_test = pd.concat([X_test, y_1_test], axis=1)
df_test.to_csv('../data/df_test.csv', index=False)
df_test

Unnamed: 0,Тема,Описание,Точка отказа,Серийный номер,Тип оборудования
120,Проблема с ноутбуком СИЛА HK2-1404,"Добрый день, у нас вышел из строя SSD у ноутбу...",Программное обеспечение,C222091364,Ноутбук
183,ремонт ноутбука СИЛА НК2-1404,не работает порт usd и порт type-c на ноутбуке...,Материнская плата,C223100081,Ноутбук
77,Ноутбук НК2-1404 // Полосы и мерцание на мониторе,Добрый день!\r\nПримите пожалуйста заявку на р...,Матрица,C223014561,Ноутбук
43,НК2-3404 // Мерцание экрана,У нас же третий из 50 ноутбуков СИЛА проявляет...,Матрица,"C223091001, C223091126",Ноутбук
143,СИЛА НК2-1404// Замена ЗУ на ноутбуках Сила HK...,"Вышли из строя ЗУ от ноутбуков СИЛА НК2-1404, ...",Блок питания,"C223012998, C223101389, C223102298, C223100876...",Ноутбук
...,...,...,...,...,...
142,СИЛА НК2-1404 v2 // Неисправность ноутбука // ...,"Прошу принять в гарантийный ремонт ноутбук ""СИ...",Блок питания,С223011148,Ноутбук
59,Неисправность диска Enclosure=6:Disk=32 dd202,"Коллеги, добрый день.\r\nПрошу открыть кейс по...",Диск,"E419120013, CKM00194301861",СХД
11,HK2-1404 // Не работает кнопка влючения и jack...,Не работает кнопка влючения и jack 3.5\r\n\r\n...,Клавиатура,C223011660,Ноутбук
95,Ноутбук СИЛА HK2-1404 // Неисправность зарядно...,Добрый день!\r\nВ процессе эксплуатации у поль...,Блок питания,C223012673,Ноутбук


## 3.2 Деление выборки для точки отказа

В делении выборки для точки отказа необходимо учесть классы, которые в датасете присутствуют в единственном экземпляре и отправлять их только в обучение.

In [25]:
df['Точка отказа'].value_counts()

Точка отказа
Материнская плата          42
Матрица                    35
Блок питания               32
Диск                       16
Консультация               13
Сервер                      8
Клавиатура                  7
Вентилятор                  7
Оперативная память          5
Программное обеспечение     4
Wi-fi антенна               4
Wi-fi модуль                4
Корпус                      3
Камера                      1
Динамики                    1
Аккумулятор                 1
Jack                        1
SFP модуль                  1
Name: count, dtype: int64

In [26]:
df_only_train = df.loc[(df['Точка отказа'] == 'Jack') | (df['Точка отказа'] == 'Динамики') | (df['Точка отказа'] == 'Аккумулятор') | (df['Точка отказа'] == 'Камера') | (df['Точка отказа'] == 'SFP модуль')]
df_shuffle = df.drop(index=list(df_only_train.index.values))

In [27]:
df_train, df_test = train_test_split(df_shuffle, test_size=0.3, stratify=df_shuffle['Точка отказа'])
df_train

Unnamed: 0,Тема,Описание,Тип оборудования,Точка отказа,Серийный номер
42,НК2-1404 v2 // Не работает зарядное устройство,Не работает зарядное устройство,Ноутбук,Блок питания,C223100822
140,СИЛА НК2-1404 \нет загрузочного диска\,Пропал загрузочный диск.\r\nПри включении попа...,Ноутбук,Диск,C222090950
159,Сервер СР2-5422 // После обновления bios и bmc...,Добрый день!\r\nПосле обновления bios и BMC на...,Сервер,Материнская плата,D251110023
152,СИЛА СХ2-4115-12; СИЛА CX2-4016-25; СИЛА СХ2-4...,Добрый день. \r\nНедавно приобретали у вас 3 с...,СХД,Консультация,"E244030004, E244030002, E244030003"
107,Обновление BIOS,Добрый день. Просьба прислать ссылку на послед...,Ноутбук,Консультация,C223010446
...,...,...,...,...,...
103,Ноутбук Сила не работает порт HDMI,Добрый день\r\nПри подключении внешнего монито...,Ноутбук,Материнская плата,C112050125
174,не работоспособность BMC,Добрый день.\r\n\r\nСервер перестал пускать в ...,Сервер,Материнская плата,"D253040009, D253010009"
160,Сервер СР2-5422 // После обновления bios и bmc...,Добрый день!\r\nПосле обновления bios и bmc в ...,Сервер,Вентилятор,D251110031
95,Ноутбук СИЛА HK2-1404 // Неисправность зарядно...,Добрый день!\r\nВ процессе эксплуатации у поль...,Ноутбук,Блок питания,C223012673


In [28]:
df_train = pd.concat([df_train, df_only_train], axis=0)
df_train

Unnamed: 0,Тема,Описание,Тип оборудования,Точка отказа,Серийный номер
42,НК2-1404 v2 // Не работает зарядное устройство,Не работает зарядное устройство,Ноутбук,Блок питания,C223100822
140,СИЛА НК2-1404 \нет загрузочного диска\,Пропал загрузочный диск.\r\nПри включении попа...,Ноутбук,Диск,C222090950
159,Сервер СР2-5422 // После обновления bios и bmc...,Добрый день!\r\nПосле обновления bios и BMC на...,Сервер,Материнская плата,D251110023
152,СИЛА СХ2-4115-12; СИЛА CX2-4016-25; СИЛА СХ2-4...,Добрый день. \r\nНедавно приобретали у вас 3 с...,СХД,Консультация,"E244030004, E244030002, E244030003"
107,Обновление BIOS,Добрый день. Просьба прислать ссылку на послед...,Ноутбук,Консультация,C223010446
...,...,...,...,...,...
7,HK2- 1404 // Не работает звук на ноутбуке,"Добрый день,\r\nНе работают звук на ноутбуке, ...",Ноутбук,Jack,C223011358
19,IBS. СИЛА хрипит левый динамик,Добрый день! \r\nНа ноутбуке C111120016 хрипит...,Ноутбук,Динамики,C111120016
32,Заряд аккумулятора,"Отсутствие заряда аккумулятора, использовались...",Ноутбук,Аккумулятор,C223100567
94,Ноутбук СИЛА HK1-1427/ i5-1135G7/16G/m.2 512Gb...,"1. Перезалил, биос уже последний, обновил драй...",Ноутбук,Камера,С111120125


In [29]:
df_test.to_csv('../data/df_2_test.csv', index=False)
df_train.to_csv('../data/df_2_train.csv', index=False)