In [2]:
import pandas as pd 
import numpy as np

# <span style="color:red">Содержание

## 1 Анализ сварки 04

## 2 Решения для сварки 05
### 1. Обзор сварки 05
   1.1 Понимание сварки 05
      1) Обзор общего (сварочного) процесса
      2) Болевые точки (Pain point)
   
   1.2 Цель сварки 06
      1) Стандарты сварки
      2) Анализ качества данных
      3) Взаимосвязь данных и сварки
      4) Значение (Implication) для бизнеса

### 2. Решения для сварки 08
  #### 2.1 Представление данных 08
      1) Методы сбора данных
      2) Предварительная обработка/очистка данных
      3) Предварительная (подготовка) обработка данных
   
  #### 2.2 Представление моделей сварки 11
      1) Выбор и проверка моделей, подходящих для характеристик моделей
      2) Сравнение моделей ИИ
      3) Анализ и интерпретация результатов
   
 ####  2.3 Применение сварки 18
      1) Руководство по настройке SW, параметров и методов проверки
      2) Процесс разработки решения для сварки - Flow Chart
         [Этап 1] Предварительная обработка, извлечение данных
         [Этап 2] Анализ данных и проверка значений
         [Этап 3] Специальная обработка данных
         [Этап 4] Разделение данных (обучение)
         [Этап 5] Выбор и обучение модели
         [Этап 6] Обучение модели ИИ
         [Этап 7] Оценка модели ИИ
         [Этап 8] Проверка и анализ результатов сварки

### 3. Другие примеры использования "Набора данных для оптимизации сварочного процесса с использованием ИИ", применение сварки 46

## Приложение

### Руководство по анализу сварки 47
### Предварительная обработка данных [Пример кода] 64
        

# <span style='color:red'>«Набор данных для оптимизации сварочного процесса с использованием ИИ»
# Руководство по решениям для сварки

• **Используемое ПО**: Python, Anaconda, Jupyter Notebook
• **Используемые пакеты**: pandas, sklearn, matplotlib, numpy, seaborn
• **Среда сварки**: [CPU] Intel Xeon 4214R 2.4GHz, [GPU] Nvidia RTX A6000, 48GB, RAM 256GB
• **Используемые данные**: данные сварки.csv

## 1. Анализ сварки

| № | Категория | Содержание |
|---|-----------|------------|
| 1 | Характеристики сварки<br>(Перед использованием, проверка) | Сварка — это процесс соединения двух или более материалов с помощью высокой температуры. При этом, сварка часто используется в производстве для соединения металлов. Однако, из-за различий в навыках сварщиков и условиях окружающей среды, результаты сварки могут отличаться. Поэтому для обеспечения стабильного качества сварки необходимо оптимизировать параметры сварки и контролировать процесс. Для этого используются данные, собранные во время сварки, которые позволяют анализировать и улучшать процесс сварки. |
| 2 | Методы сбора и<br>предварительной обработки данных | 1) **Типы используемых данных сварки**: DV_R, DA_R, AV_R, AA_R, PM_R<br>2) **Методы сбора данных**: Данные сварки собираются с помощью PLC и датчиков, затем передаются в систему хранения данных через 7-ми, DB-интерфейсы и сохраняются в формате .csv<br>3) **Формат файла данных**: 1.csv |
| 3 | Размер данных<br>(Информация о файле) | - **Размер данных**: 5,179,216 строк (прибл. 730,888*7 столбцов)<br>- **Объем данных**: Исходный файл 24.544MB / Обработанный 4.462MB |
| 4 | Используемые<br>алгоритмы | **Алгоритмы**<br>- Машинное обучение, XGBoost, LightGBM<br><br>**Описание алгоритмов**<br>- Используется для прогнозирования качества сварки на основе данных сварочного процесса<br>- XGBoost — это алгоритм градиентного бустинга, который эффективен для работы с большими объемами данных и обеспечивает высокую точность прогнозирования<br>- LightGBM — это оптимизированный алгоритм градиентного бустинга, который работает быстрее и требует меньше памяти |
| 5 | Результаты и<br>применение | - В сварочном процессе собранные данные анализируются с помощью XGBoost, LightGBM для прогнозирования качества сварки<br>- В сварочном процессе параметры/условия, которые могут влиять на качество сварки, анализируются для определения оптимальных параметров сварки<br>- Это позволяет повысить стабильность качества сварки и снизить количество дефектов |

        

          
# <span style='color:red'>Сварочные решения

## 1. Обзор сварки

### 1.1 Понимание сварки

**1) Обзор общего (сварочного) процесса**

Сварочный процесс - это метод соединения металлов, таких как сталь, медь, нержавеющая сталь и т.д.,
путем их плавления при высокой температуре. Это технология, которая позволяет соединять металлы, расплавляя их.
В сварочной промышленности для повышения производительности используются различные
параметры сварки для обеспечения качества, и для этого используются данные.

[На изображении показана большая металлическая труба в процессе производства]

*[Рисунок 1] Пример сварочного оборудования*

**2) Болевые точки (Pain point)**

**• Текущее состояние сварочного (процесса)**

Если в сварочном процессе не установлены точные параметры и не контролируются условия,
могут возникнуть различные дефекты, такие как неравномерное проплавление или образование пор.
Кроме того, из-за различий в навыках сварщиков результаты могут отличаться.
Поэтому необходимо обеспечить стабильное качество сварки с помощью оптимизации сварочных параметров.

**• Проблемы с текущим подходом**

В настоящее время параметры, применяемые в сварочном процессе,
имеют определенные ограничения, но они не оптимизированы,
и сварочное оборудование настраивается в соответствии с опытом оператора. 
Поэтому оптимальные параметры сварки зависят от опыта оператора, что приводит к нестабильному качеству сварных соединений.
        

Это не работает. Даже при применении одинаковых параметров сварки, качество сварного шва может значительно отличаться в зависимости от условий окружающей среды. Фактически, параметры сварки, отображаемые на сварочном оборудовании, не всегда точно соответствуют реальным условиям. Кроме того, качество сварки зависит от множества факторов, и процесс сварки использует различные переменные для контроля этих факторов. Более того, сварочное оборудование имеет сложные настройки, и не всегда легко определить оптимальные параметры сварки. Это не просто вопрос настройки оборудования, а скорее вопрос оптимизации процесса с учетом различных факторов. Для достижения стабильного качества необходимо собирать точные данные, анализировать их и оптимизировать параметры тестирования.

## Ожидаемый эффект

В сварочном процессе используются различные данные для анализа и оптимизации качества сварки. Разработанная система ИИ предназначена для сбора, анализа и распространения информации о сварочных параметрах, что позволяет сварщикам достигать оптимальных результатов и повышать эффективность процесса сварки.

![Изображение сварной трубы большого диаметра]

[Пример сварной трубы большого диаметра, изготовленной с помощью сварки]

## 2 Анализ сварки

### 1) Анализ сварки

- **Сварка**
  - Возможность использовать общие данные (температура, влажность, сварочные материалы и т.д.) для создания оптимальной сварочной среды.
  
  - Анализ общих данных, получаемых в процессе сварки, и данных сварки для выявления взаимосвязей между ними. Выбор важных переменных и применение алгоритмов машинного обучения для создания модели оптимизации сварочного процесса.
        


- **Важные переменные, влияющие на качество сварки**: Представлена методология для определения ключевых переменных, которые значительно влияют на качество сварного шва.

## 2) Описание и представление данных

### • Данные сварочного процесса
  - Для анализа сварочного процесса используются данные PIPE_NO (номер трубы) и данные, собранные во время сварки, включая сварочные данные: DV_R (напряжение правой стороны), DA_R (ток правой стороны), AV_R (среднее напряжение), AA_R (средний ток) и PM_R (сварочный код).

## 3) Характеристики и преимущества данных

### • Данные связанные со сварочным процессом
  - Используются различные типы данных, собранные во время сварки, такие как температура, влажность и другие сварочные данные, для разработки модели оптимизации сварочного процесса, которая определяет ключевые переменные.
  
  - Это не просто сбор производственных данных, но и анализ влияния изменений сварочных параметров на качество сварки, что позволяет определить взаимосвязи между различными факторами и оптимизировать процесс с учетом особенностей конкретного производства.
  
  - Можно определить ключевые переменные, влияющие на качество сварки, и на основе этих данных предсказать оптимальные значения для получения качественного сварного шва.

## 4) Применение и основные функции

- Данная технология применима не только к сварке, но и к другим производственным процессам, требующим оптимизации параметров.

- Кроме того, можно использовать эту технологию для анализа и прогнозирования качества сварки. Поскольку качество сварного шва является критически важным фактором, эта технология может значительно повысить надежность сварных соединений.

- По сравнению с существующими методами, которые фокусируются на параметрах сварки, данный подход позволяет более системно анализировать данные. Используя анализ данных, можно разработать систему искусственного интеллекта для сварки, которая определяет ключевые переменные и предлагает оптимальные параметры.

- Используя анализ данных, можно применять эту технологию к сварочным процессам для создания оптимальных условий, что повышает качество сварки, эффективность процесса и другие важные показатели.
        

## 2. Анализ сварки

### 2.1 Представление набора данных

#### 1) Метод сбора данных
* **Производственная среда**: Трубопроводная сварка
* **Название производства**: Сварка
* **Метод сбора**: ПЛК внутри сварочного цеха
* **Период сбора**: с 17 января 2022 г. по 24 марта 2022 г.
* **Интервал сбора**: 5 мин / труба

#### 2) Формат/структура данных
* **Формат данных**: файл формата CSV
* **Объем данных**:
  [Всего] 5,179,216 записей
  Количество столбцов: 7, количество строк: 739,888, количество элементов данных: 5,179,216

* **Определение основных переменных в наборе данных**

| Столбец | Значение | Примечание |
|---------|----------|------------|
| PIPE_NO | Серийный номер трубы | string |
| DV_R | Напряжение правой стороны | int |
| DA_R | Ток правой стороны | int |
| AV_R | Среднее напряжение | int |
| AA_R | Средний ток | int |
| PM_R | Код режима сварки | int |
| FIN_JGMT | FIN_JGMT=1: норма / FIN_JGMT=0: дефект | int |

[Примечание] Описание основных переменных
        

# Основные статистические показатели

## Таблица основных статистических показателей

| Столбец | Тип данных | Количество | Среднее | Стандартное отклонение | Минимум | Медиана | Максимум |
|---------|------------|------------|---------|----------------------|----------|----------|----------|
| PIPE_NO | string | 739888 | N/N | N/N | N/N | N/N | N/N |
| DV_R | int | 739888 | 326.6 | 254.8 | 1.0 | 310.5 | 12680.0 |
| DA_R | int | 739888 | 1.0 | 1340.9 | 6890.5 | 8979.0 | 13791.0 |
| AV_R | int | 739888 | 376.2 | 455.3 | 11.0 | 349.0 | 10984.0 |
| AA_R | int | 739888 | 5760.5 | 758.9 | 1.0 | 5818.0 | 78035.0 |
| PM_R | int | 739888 | 9009 | 8761.4 | 2.0 | 9569 | 50761370 |
| FIN_JGMT | int | 739888 | 0.846198 | 0.360759 | 0.0 | 1.0 | 1.0 |

## Входные и выходные переменные

### Входные переменные:
- DV_R
- DA_R
- AV_R
- AA_R
- PM_R

### Выходная переменная:
- FIN_JGMT

В данном анализе в качестве входных переменных используются DV_R, DA_R, AV_R, AA_R и PM_R. При этом DV_R, DA_R, AV_R, AA_R, PM_R являются входными переменными, а FIN_JGMT является выходной переменной.

## Предварительная обработка данных

### Определение качества данных
- Данные, получаемые в производственной среде, могут иметь проблемы с качеством из-за различных факторов.
- Даже при наличии хороших методов измерения, использование некачественных данных может привести к плохим результатам.
- Поэтому предварительная обработка данных должна выполняться систематически.
- В соответствии с этим были проанализированы 6 характеристик качества данных и проведена предварительная обработка данных.
        

# Характеристики качества данных

## Основные характеристики

- **Полнота (Completeness)**: Все значения должны быть заполнены.
- **Уникальность (Uniqueness)**: Данные не должны дублироваться или повторяться.
- **Достоверность (Validity)**: Данные должны соответствовать правилам и стандартам формата данных.
- **Согласованность (Consistency)**: Данные должны быть согласованы между собой, и представляемые значения должны быть логически связаны.
- **Точность (Accuracy)**: Фактически измеряемые значения должны точно соответствовать реальным значениям.
- **Целостность (Integrity)**: В базе данных не должно быть ошибок при изменении данных, и должны быть отражены взаимосвязи и зависимости между данными.

## Детальное описание расчета показателей

### Расчет показателя полноты
- Формула: (1-(Количество пустых/Общее количество данных)) * 100
1. Данные с количеством пустых значений более 30% считаются данными с низким качеством полноты и должны быть исключены.
2. Для проверки пустых значений используется функция 'isnull()' и функция 'sum()' для подсчета результатов.
3. Рассчитывается показатель полноты с использованием количества пустых значений.

### Расчет показателя уникальности
- Формула: ((Уникальные данные)/(Общее количество данных)) * 100
1. Данные не считаются уникальными, если они имеют одинаковые значения во всех столбцах.
2. Уникальность определяется путем проверки наличия дубликатов с использованием двух или более столбцов для создания составного ключа.

### Расчет показателя достоверности
- Формула: ((Достоверные данные)/(Общее количество данных)) * 100
1. Проверяется наличие правил достоверности для данных
2. Проверяется формат данных
3. Проверяется наличие выбросов в данных в соответствии с правилами
        




          
### Расчет показателя согласованности
- Формула: (Согласованные данные/Общее количество данных) * 100
1. Проверка взаимосвязей между столбцами
2. Проверка наличия данных
3. Проверка логических связей между значениями и определение их согласованности

Данные должны быть согласованы во времени, и представляемые значения должны быть логически связаны.

### Расчет показателя точности
- Формула: (1-(Количество неточных данных/Общее количество данных)) * 100
1. Данные считаются точными, если измеренное значение соответствует реальному значению.
2. Для выявления неточных данных используется функция '*.mean()' для сравнения данных со средним значением.
3. Функция '*.mean()' используется для определения среднего значения данных и сравнения с ним.
4. Данные, которые сильно отклоняются от этого диапазона, считаются неточными.

### Расчет общего показателя качества
- Формула: (1-(Количество показателей с оценкой менее 100% среди показателей 'полноты', 'уникальности', 'согласованности')/3) * 100

Общий показатель качества рассчитывается на основе всех данных, имеющих показатели 'полноты', 'уникальности', 'согласованности'. Для этого анализа все показатели качества со 100% оценкой рассматриваются как показатели высшего качества.

## 2.2 Описание модели анализа

### 1) Блок-схема процесса анализа данных и создания модели

```plaintext
Сбор данных → Обработка данных → Создание и обучение модели → Оценка эффективности модели и выдача результатов
```

### Процесс и последовательность действий

#### (1) Предварительная обработка

- Удаление индекса (dropna())
- Метод обработки отсутствующих значений в Excel
- Метод заполнения пустых значений (fillna())
- Метод удаления строк с пропущенными значениями
- Метод удаления строк с аномальными значениями

#### (2) Удаление выбросов
- Метод обнаружения выбросов
- Значения выше верхнего 98-го процентиля и значения ниже нижнего 2-го процентиля определяются как выбросы.
- Метод заполнения выбросов через поток данных
- Заменить все выбросы значениями выше верхнего 98-го процентиля и ниже нижнего 2-го процентиля.
- Поскольку возникла проблема, при которой половина данных была потеряна при удалении выбросов, выполняется замена.


### 2) Модель AI-анализа

#### ● Указание причин выбора данного метода AI (алгоритма):

* Для классификации качества продукции сварочного процесса используются алгоритмы на основе дерева решений. Модели, основанные на деревьях решений, хорошо подходят для визуализации различных входных переменных и выявления корреляций, а также являются легко интерпретируемыми. Через обучение модели и её валидацию определяются ключевые переменные, влияющие на итоговое качество, и соответствующие критерии классификации.
* Метод анализа сварочных данных: Decision Tree (дерево решений), XGBoost (Extreme Gradient Boosting), LightGBM (Light Gradient Boosting Machine).
* **Decision Tree** — это алгоритм машинного обучения с учителем, который предсказывает или классифицирует зависимую переменную на основе отношений между независимыми переменными, формирующими данные. Поэтому при классификации годных и дефектных изделий в зависимости от переменных сварочного процесса можно подробно понять, на каком основании (по какому критерию) производилась классификация по каждой независимой переменной.
* **XGBoost (Extreme Gradient Boosting)** — это разновидность бустингового алгоритма, который повторно обучает слабые модели, постепенно улучшая ошибку и превращая их в сильные модели. В XGBoost добавлены параметры для предотвращения переобучения по сравнению с традиционным Gradient Boosting, и он реализует последовательный рост регрессионных деревьев на данном оптимизированном наборе данных сварочного процесса. Начав с одного родительского узла (Root Node), дерево разветвляется, разделяя родительский узел по переменным процесса и соответствующим критериям разбиения.
* **LightGBM (Light Gradient Boosting Machine)** — также разновидность бустинга, как и XGBoost. LightGBM демонстрирует значительно более высокую скорость вычислений по сравнению с другими бустинговыми алгоритмами при анализе оптимизации сварочного процесса с большим объемом данных, и поэтому применяется в данном анализе.

#### ● Подробное описание предлагаемого метода AI-анализа (алгоритма)

- Дерево решений (Decision Tree)
* Дерево решений представляет собой комбинацию правил, позволяющих предсказывать закономерности, существующие между данными. Это модель, которая обучается на простых правилах принятия решений, выведенных из признаков данных, с целью предсказания значения целевой переменной.
* Правила должны быть установлены так, чтобы как можно больше данных попали в соответствующую классификацию. Для этого используется коэффициент Джини (Gini index), чтобы разбивать данные так, чтобы получались максимально однородные подмножества.
* Предсказание начинается с корневого узла (root node: узел на самом верху с глубиной 0), из которого создаются дочерние узлы. В зависимости от условий по переменным, дерево разветвляется влево или вправо, увеличивая глубину на один уровень. Далее создаются листовые узлы (leaf node) — узлы, не имеющие дочерних узлов — до тех пор, пока дальнейшая классификация невозможна.
* Модель применима как к категориальной, так и к непрерывной целевой переменной, и позволяет предварительно отобрать важные переменные. Благодаря древовидной структуре модель легко интерпретируема, также можно понять, как комбинации двух и более переменных влияют на целевую переменную. Дополнительные статистические предположения, такие как линейность, нормальность, гомоскедастичность, не требуются.
* Однако, отдельное дерево решений склонно к переобучению, поэтому требуется обрезка дерева (pruning) или контроль глубины. Кроме того, незначительное изменение данных может привести к построению совершенно иного дерева, что делает модель нестабильной. При несбалансированных данных возможна генерация смещённого дерева.



![](Screenshot_1.jpg)
<figure>
  <figcaption>Структура дерева решений</figcaption>
</figure>

* **XGBoost (Extreme Gradient Boosting)**
  ○ **XGBoost** — это одна из разновидностей **бустинга (Boosting)**.
- Бустинг — это ансамблевый метод, при котором несколько слабых моделей объединяются для построения сильного обучающего алгоритма. Иными словами, обучается серия предсказателей, которые последовательно компенсируют ошибки предыдущих моделей.
- Метод бустинга, аналогично бэггингу, извлекает подвыборки данных и создает множество классификаторов. Однако, отличие состоит в том, что бустинг **регулирует веса обучающих данных** для следующей модели на основе результатов предыдущей. Через множество этапов семплирования получается финальная модель классификации, которая имеет **высокую точность** по сравнению с одиночным классификатором.
- ○ Это алгоритм, который был усовершенствован по сравнению с традиционным **GBM (Gradient Boosting Machine)** за счёт добавления регуляризаторов и **прерывания разветвлений**, в которых значение функции потерь становится отрицательным, что повышает эффективность вычислений.

![](Screenshot_2.jpg)

<figure>
    <figcaption>XGBoost</figcaption>
</figure>

* **LGBM (Light Gradient Boosting Machine)**
-  **LGBM** — это один из методов градиентного бустинга (Gradient Boosting). В то время как большинство деревообразных алгоритмов обычно используют **уровневый (level-wise)** способ разбиения (т.е. сбалансированное расширение всех узлов на одном уровне), LGBM применяет **листовой способ (leaf-wise)**, то есть разбиение ориентировано на листы.
- LGBM выбирает тот листовой узел, у которого максимальное изменение потерь (дельта-лосс), и расширяет его. В результате дерево становится глубже, чем при сбалансированном разбиении, но **общие потери меньше**.
- Однако, при **небольшом количестве данных возможна переобучаемость**, и как правило, ориентируются на объём данных **не менее 10 000** в качестве базового порога.

![](Screenshot_3.jpg)

<figure>
    <figcaption>LightGBM (level-wise)</figcaption>
</figure>

**3) Процедура обучения и валидации**
● **Кросс-валидация KFold**

* Вычисляется точность каждой из *k*-кратных кросс-валидаций. Как показано на \[рисунке 8], при *k = 5* данные делятся на пять подмножеств почти одинакового размера, называемых *фолдами (folds)*.
  Затем создаётся серия моделей:
  первая модель использует первый фолд как **валидационный набор**, а фолды со 2 по 5 — как **обучающий набор**.
  Вторая модель использует второй фолд как валидационный, а 1-й, 3-й, 4-й и 5-й — как обучающий.
  Процесс повторяется аналогично, в результате чего получаются **5 значений точности**.

![](Screenshot_4.jpg)

* **K-кратная кросс-валидация** — это метод, при котором данные разделяются на несколько частей для валидации. Его можно использовать для **поиска оптимальных условий** при подборе **гиперпараметров** или **оптимизации модели**.
  Кроме того, так как все данные используются как для обучения, так и для оценки, этот метод позволяет **оценить степень обобщающей способности алгоритма**.

В отличие от классического подхода, где данные один раз делятся на обучающую и тестовую выборки и затем оценивается производительность модели, при увеличении количества фолдов (*k*) **увеличивается время обучения модели**.
Так как данные делятся и обучаются *k* раз, **вычислительные затраты** на обучение и валидацию выше, чем при обычном делении.

### **● Описание процедуры построения AI-алгоритма (методики анализа)**

* **Определение независимых и зависимых переменных**
  ○ Из всех переменных выбираются независимые и зависимая переменная. В случае данных по сварочному оборудованию переменные **DV\_R, DA\_R, AV\_R, AA\_R, PM\_R** устанавливаются как **независимые переменные**, а переменная результата качества **FIN\_JGMT** — как **зависимая переменная**.

* **Очистка данных (предобработка)**
  ○ После удаления пропущенных значений из датасета сварочного процесса, переменные с **значимыми отличиями** между группой годных и группой дефектных изделий выбираются на основе **t-теста**.

* **Разделение на обучающую и тестовую выборки**
  ○ Если при оценке модели использовать только обучающую выборку, это может привести к переоценке её производительности. Чтобы этого избежать, данные разделяются на **обучающую** и **оценочную выборки**.

* **Обучение и валидация модели**
  ○ Выполняется обучение и валидация модели с использованием алгоритмов: **Random Forest, Decision Tree, XGBoost, LightGBM** для классификации данных.
  ○ С применением **K-Fold кросс-валидации** проводится обучение и проверка на множестве разных обучающих и валидационных поднаборов данных.

* **Оценка и интерпретация модели**
  ○ Производительность модели оценивается по метрикам **Accuracy (точность)** и **F1-score**. Для модели с наилучшей классификацией выводится **важность признаков**, чтобы проанализировать, какое влияние каждая переменная оказывает на качество продукции.

---

![](Screenshot_5.jpg)
* С помощью **кода 6** проверяется **количество данных по каждому номеру производственного процесса**.
* Все переменные, **кроме DA\_R**, имеют **односторонне смещённое распределение**.

---

![](Screenshot_6.jpg)
* С помощью **кода 16** значения, превышающие **98-й процентиль**, заменяются на значение **98-го процентиля**.
* Значения, меньшие **2-го процентиля**, заменяются на значение **2-го процентиля**.


---

![](Screenshot_7.jpg)
- 3. **Корреляция между переменными**
* С помощью **кода 17** отображается **корреляция между зависимой переменной и независимыми переменными**.
* В то же время переменная **DA\_R** показывает **наименьшую корреляцию с зависимой переменной**.

---

* С помощью **кода 18** создаются два объекта — `vars_list` и `cols`, содержащие список переменных, которые будут использоваться в **T-тесте и дальнейшем анализе**:

```python
vars_list = ['DV_R', 'DA_R', 'AV_R', 'AA_R', 'PM_R']
cols = ['FIN_JGMT', 'DV_R', 'DA_R', 'AV_R', 'AA_R', 'PM_R']
```

```python
dat_0 = df.loc[df['FIN_JGMT'] == 0][cols]
dat_1 = df.loc[df['FIN_JGMT'] == 1][cols]
scipy.stats.ttest_ind(dat_0, dat_1, equal_var=False)
```

**\[Код 19] Код для проведения T-теста между дефектными и годными изделиями**

* С помощью **кода 20** данные о **дефектных изделиях** (`dat_0`) и **годных изделиях** (`dat_1`) формируются как два отдельных датафрейма.
* Затем с помощью **кода 20** проводится **T-тест**, чтобы выявить переменные, демонстрирующие **статистически значимые различия** между двумя группами.
* Чтобы проверить гипотезу о наличии значимых различий в распределении переменных между `dat_0` и `dat_1`, используется функция `ttest_ind` из библиотеки **scipy**.


* Для каждой переменной формулируются следующие гипотезы:
  **Нулевая гипотеза (H₀)**: "Средние значения у `dat_0` и `dat_1` **не различаются**"
  **Альтернативная гипотеза (H₁)**: "Средние значения у `dat_0` и `dat_1` **различаются**"

```python
scipy.stats.ttest_ind(dat_0, dat_1, equal_var=False)[1] < 0.05
```

**\[Код 20] Код для проверки значимости переменных**

* Если результат T-теста даёт **p-значение меньше 0.05**, то **нулевая гипотеза отвергается**, а альтернативная принимается.
* Это означает, что данная переменная **показывает статистически значимое различие между `dat_0` и `dat_1`**, и, следовательно, используется для обучения модели.

---

![](Screenshot_8.jpg)
- **5. Визуализация распределения переменных и корреляций после предобработки**
* С помощью **кода 21** визуализируются **распределения переменных после применения предобработки**.
* В сравнении с визуализацией распределений производственных переменных, выполненной ранее в **коде 6**, теперь можно увидеть, что **распределения стали более равномерными**.

---

![](Screenshot_9.jpg)

* С помощью **кода 22** визуализируется **корреляция между независимыми и зависимой переменными**.
* **Интенсивность цвета** позволяет судить о **силе корреляции** между переменными.

---

![](Screenshot_10.jpg)
 
* С помощью **кода 30** производится **оценка оптимальной модели дерева решений**, полученной ранее в **коде 27**.
* В качестве метрик оценки использовались **F1-score** (гармоническое среднее между **precision** и **recall**) и **точность (accuracy)** — наиболее распространённые метрики.
* Было установлено, что **F1-score составляет 0.9753**, а **точность (Accuracy) — 0.9583**.
* По результатам анализа **матрицы ошибок (confusion matrix)**:

  * **183 004** годных изделий были правильно классифицированы как годные,
  * **29 710** дефектных изделий были правильно классифицированы как дефектные.

---

![](Screenshot_11.jpg)

* В **коде 34** проверяются результаты **важности признаков (Feature Importance)** для модели дерева решений, которая показала **наивысшую точность на тестовой выборке** среди моделей, созданных в кодах **30–32**.
* С помощью **кода 34** рассчитываются и визуализируются **значения важности признаков** по каждому производственному параметру.
* Сумма всех значений важности признаков равна **1**, и, согласно результатам модели дерева решений, **переменная скорости сварки (PM\_R)** оказывает **наибольшее влияние на классификацию изделий как годных или дефектных**.

---

![](Screenshot_12.jpg)

* В **коде 35** выполняется **визуализация дерева решений**, построенного моделью, чтобы увидеть, **по каким критериям производственные переменные используются для классификации изделий как годных или дефектных**.

* Чтобы в узлах дерева отображались **реальные значения переменных**, ранее нормализованных в диапазон 0–1 при обучении AI-модели, необходимо применить функцию **`inverse_transform()`**.
  Если этот шаг пропустить, то при визуализации дерева значения переменных в узлах будут отображаться в масштабе от 0 до 1.

* Основные элементы дерева следующие:

  * На **верхнем корневом узле** видно, что если значение переменной **AV\_R ≤ 332.5**, то изделие классифицируется как **дефектное**.
  * Из 517 921 использованного образца, по этому критерию **478 690** были отнесены к **годным**, а **39 231** — к **дефектным**.

* Согласно **коду 35**, переменная **AV\_R**, имеющая значение **важности признака 0.137**, используется в качестве основного критерия для классификации на годные и дефектные изделия. Это объясняется тем, что в представленных данных по сварочному процессу **даже небольшие различия в значении AV\_R приводят к различию между годными и бракованными изделиями**.
* На узлах глубины **1 и 2**, следующих за корневым, переменная **PM\_R**, которая в **коде 34** показала наивысшую важность, также используется как **значимый критерий для классификации**.
* На **правом дочернем узле** от корневого узла (глубина 1), из **478 690 образцов**, если значение **PM\_R ≤ 9782.5**, то 310 852 были классифицированы как **годные**, а 167 838 — как **дефектные**.
* Далее, на **левом дочернем узле** от этого узла (глубина 2), если **PM\_R > 9062.5**, то из 310 852 образцов **230 660 были отнесены к годным изделиям**.
* В целом, **оптимальный диапазон значений переменных для производства годных изделий** — это:
  **AV\_R > 332.5** и **9062.5 < PM\_R ≤ 9782.5**.
  Контролируя переменные в рамках этих условий, можно **оптимизировать производственный процесс**.

---

![](Screenshot_13.jpg)

* Переменная **AV\_R** заняла **третье место по значимости признаков** в дереве решений согласно **коду 34**, но при этом именно она в **коде 35** использовалась для классификации наибольшего количества годных и дефектных изделий. Поэтому в **коде 38** была выполнена **визуализация распределения переменной AV\_R** по группам годных и дефектных изделий.
* На графике из **кода 38**:

  * **синий цвет** обозначает **годные изделия**,
  * **красный цвет** — **дефектные изделия**.
  * **Ось X** представляет значения переменной **AV\_R**,
  * **ось Y** показывает количество данных.
* Как и подтверждено в **коде 35**, результат **кода 38** показывает, что **данные по годным изделиям (синий цвет)** преимущественно сосредоточены в диапазоне **AV\_R > 332.5**.

**⑧-8. Определение оптимального диапазона переменных для настройки производственного процесса**

* По результатам **обучения и сравнения моделей в кодах 27–33**, **модель дерева решений показала наивысшую точность на тестовой выборке**. Также была выполнена **оценка важности признаков** для этой модели.
* В **кодах 37 и 38** была проведена визуализация **двух переменных (PM\_R и AV\_R)**, которые в **коде 35** использовались деревом решений в качестве **наиболее значимых критериев** при классификации годных и дефектных изделий.
* Объединяя все вышеуказанные результаты анализа, можно определить, что **оптимальные значения параметров сварочного процесса для повышения доли годной продукции** следующие:

  * **входное переменное напряжение сварочного аппарата AV\_R ≥ 332.5 В**,
  * **скорость сварки PM\_R в диапазоне от 9062.5 до 9782.5 мм/мин**.
    Эти условия можно использовать для **оптимизации производственного процесса сварки**.


### 3. Применение анализа 「AI-набора данных для оптимизации сварочного процесса」 к аналогичным производственным площадкам

#### 3.1 Описание производственного участка, на который может быть применён данный анализ

* В данном анализе использовался AI-набор данных, связанный с **дуговой сваркой (arc welding)**. Сварочные процессы в целом включают **дуговую сварку**, **лазерную сварку**, **ультразвуковую сварку** и т.д. Предложенный AI-анализ может быть применён к сварочным процессам с аналогичной структурой.
  Несмотря на то, что существует множество видов сварки, **сбор данных о скорости сварки, токе и напряжении** является общим для всех. Поэтому данный AI-набор данных, соответствующий обобщённым сварочным процессам, может быть применим и к другим видам сварки с похожими этапами.

* До настоящего времени на большинстве сварочных производств применялась **неразрушающая проверка (NDT, Non-Destructive Testing)** для контроля качества продукции.
  Неразрушающая проверка — это процесс выявления дефектов и отклонений в изделиях **путём воздействия рентгеновского излучения, ультразвука и т.п.**, при этом **форма и функции изделий не нарушаются**.
  Однако такой подход требует **перемещения изделия** на участок проверки после завершения сварки, что влечёт за собой **затраты времени и трудовых ресурсов**.
  В отличие от этого ресурсоёмкого метода, **AI-анализ, выполняющий предсказание годности изделия (годное/дефектное)**, может существенно повысить эффективность на сварочных производствах.

#### 3.2 Важные аспекты при применении анализа 「AI-набора данных для оптимизации сварочного процесса」 к другим сварочным участкам

* Прежде всего, необходимо **наладить систему сбора данных по производственным переменным**, а также обеспечить **точное сопоставление между процессными данными и метками качества изделий**.
  Обучение AI-модели возможно только в случае, если для каждого сварочного изделия имеются **надёжные метки качества (годное/дефектное)** и при необходимости — **информация о типах дефектов**.
  Только при наличии значимых изменений в измерениях, таких как ток и напряжение, возможен **вывод обоснованных аналитических результатов**.
  При наличии неточных или некорректных данных может быть затруднён точный анализ, а также могут быть получены **ложные результаты** на других сварочных данных.

* Необходимо **управлять соответствием между собранными данными процесса и данными по дефектам**.
  Процессные данные и данные о дефектах должны быть правильно сопоставлены **после завершения каждого процесса**, чтобы избежать **перемешивания с другими этапами производства**.
  Поскольку по каждому изделию собираются значения переменных, таких как ток и напряжение, **если данные по годным и дефектным изделиям смешаются**, то **AI-анализ не сможет дать адекватные результаты**.
  Для обеспечения точного соответствия данных необходимо, чтобы **полевые специалисты и AI-аналитики заранее обсудили особенности конкретного сварочного участка**, а также организовали **правильную среду сбора данных для AI-анализа**.

---

---

▶ **Индекс качества уникальности** = (количество уникальных данных / общее количество данных) × 100
: Элементы данных **должны быть уникальными** и **не должны повторяться**.

В данном наборе данных, предназначенном для оптимизации сварочного процесса,
**сенсоры собирали данные по току, напряжению и скорости сварки несколько раз в разных участках одного и того же трубопровода**.
При перемещении сенсора в следующий участок, значения переменных могли не измениться,
в результате чего **одинаковые значения были зафиксированы подряд**.
**Поэтому индекс уникальности к этим данным не применяется**.

---

▶ **Индекс качества допустимости** = (количество допустимых записей / общее количество данных) × 100
: Значения данных должны соответствовать **определённому допустимому диапазону или формату**.

В данном датасете **не установлены конкретные пороговые значения или диапазоны дат**,
поэтому проверяется только **допустимость формата данных**.

---

① **Соответствуют ли данные требуемому формату?**

* Для столбца **`PIPE_NO`** тип данных должен быть **object (строковый тип)**.
* С помощью метода `unique()` можно проверить уникальные номера изделий следующим образом:

```python
df['PIPE_NO'].unique()
```

* Значения в столбце **`PIPE_NO`** должны иметь формат вида **‘PPXXXXXXXXXXX’**.
  С помощью метода **`unique()`** проверяется, есть ли значения, **не соответствующие этому формату**.
  Согласно приведённому результату, **нарушений формата не обнаружено**, следовательно, **допустимость соблюдена**.

* Данный набор данных содержит **производственные данные по 303 сварочным изделиям**.
  С помощью метода **`nunique()`** проверяется, действительно ли в данных **303 уникальных значений `PIPE_NO`**, как показано ниже:

```python
df['PIPE_NO'].nunique()
# → Должно вернуть: 303
```

* Значения в столбцах данных должны быть **типа `int` или `float`**.
* С помощью функции **`isinstance()`** проверяется, соответствует ли формат данных указанным типам.
  Индекс допустимости (валидности) данных вычисляется следующим образом:

```python
for column in df.columns:
    if df[column].dtype == 'int64':
        df[column] = df[column].apply(lambda x: isinstance(x, int))

    if df[column].dtype == 'float64':
        df[column] = df[column].apply(lambda x: isinstance(x, float))

valid = len(df) / len(df) * 100
print(f"유효성 지수 : {valid}")
```

**\[Код 7] Код для расчёта индекса допустимости данных**

---

▶ **Индекс согласованности** = (число согласованных данных / общее количество данных) × 100
: Проверяется, соблюдается ли **единая структура, значения и формат представления** в наборе данных.

* Проверяется, имеют ли значения в столбце **`PIPE_NO`** **однородный формат** номера изделия.
* Также подтверждено, что переменные процесса, такие как **`PM_R`**, представлены **в числовом формате**.
* С помощью метода **`dtypes()`** проверяется, являются ли все производственные данные, кроме `PIPE_NO`, типом **`int64`**.


▶ **Индекс точности данных** = (1 − (число некорректных значений / общее количество данных)) × 100
: Значения в данных должны **точно отражать реальные объекты**.
В данном наборе данных **все столбцы независимы**, поэтому **индекс точности не рассчитывается**.

---

▶ **Индекс целостности данных** =
(1 − (количество индексов, не равных 100% среди: уникальность, допустимость, согласованность) / 3) × 100
: В датафрейме `df` **допустимость** и **согласованность** равны 100%,
а **уникальность не проверялась**,
поэтому **индекс целостности данных составляет 100%**.

---

▶ **Взвешенный индекс** = индекс качества × вес
▶ **Итоговый индекс качества данных** = сумма всех взвешенных индексов

| Категория       | Индекс качества | Вес      | Взвешенный индекс | Погрешность |
| --------------- | --------------- | -------- | ----------------- | ----------- |
| Полнота (Null)  | 100%            | 25%      | 25%               | 0%          |
| Уникальность    | –               | –        | –                 | –           |
| Допустимость    | 100%            | 25%      | 25%               | 0%          |
| Согласованность | 100%            | 25%      | 25%               | 0%          |
| Точность        | –               | –        | –                 | –           |
| Целостность     | 100%            | 25%      | 25%               | 0%          |
| **Итог**        | **100%**        | **100%** | **100%**          | **0%**      |

**\[Таблица 3] Индекс качества данных**
