In [1]:
import pandas as pd 
import numpy as np

# <span style="color:red">Содержание

## 1 Анализ сварки 04

## 2 Решения для сварки 05
### 1. Обзор сварки 05
   1.1 Понимание сварки 05
      1) Обзор общего (сварочного) процесса
      2) Болевые точки (Pain point)
   
   1.2 Цель сварки 06
      1) Стандарты сварки
      2) Анализ качества данных
      3) Взаимосвязь данных и сварки
      4) Значение (Implication) для бизнеса

### 2. Решения для сварки 08
  #### 2.1 Представление данных 08
      1) Методы сбора данных
      2) Предварительная обработка/очистка данных
      3) Предварительная (подготовка) обработка данных
   
  #### 2.2 Представление моделей сварки 11
      1) Выбор и проверка моделей, подходящих для характеристик моделей
      2) Сравнение моделей ИИ
      3) Анализ и интерпретация результатов
   
 ####  2.3 Применение сварки 18
      1) Руководство по настройке SW, параметров и методов проверки
      2) Процесс разработки решения для сварки - Flow Chart
         [Этап 1] Предварительная обработка, извлечение данных
         [Этап 2] Анализ данных и проверка значений
         [Этап 3] Специальная обработка данных
         [Этап 4] Разделение данных (обучение)
         [Этап 5] Выбор и обучение модели
         [Этап 6] Обучение модели ИИ
         [Этап 7] Оценка модели ИИ
         [Этап 8] Проверка и анализ результатов сварки

### 3. Другие примеры использования "Набора данных для оптимизации сварочного процесса с использованием ИИ", применение сварки 46

## Приложение

### Руководство по анализу сварки 47
### Предварительная обработка данных [Пример кода] 64
        

# <span style='color:red'>«Набор данных для оптимизации сварочного процесса с использованием ИИ»
# Руководство по решениям для сварки

• **Используемое ПО**: Python, Anaconda, Jupyter Notebook
• **Используемые пакеты**: pandas, sklearn, matplotlib, numpy, seaborn
• **Среда сварки**: [CPU] Intel Xeon 4214R 2.4GHz, [GPU] Nvidia RTX A6000, 48GB, RAM 256GB
• **Используемые данные**: данные сварки.csv

## 1. Анализ сварки

| № | Категория | Содержание |
|---|-----------|------------|
| 1 | Характеристики сварки<br>(Перед использованием, проверка) | Сварка — это процесс соединения двух или более материалов с помощью высокой температуры. При этом, сварка часто используется в производстве для соединения металлов. Однако, из-за различий в навыках сварщиков и условиях окружающей среды, результаты сварки могут отличаться. Поэтому для обеспечения стабильного качества сварки необходимо оптимизировать параметры сварки и контролировать процесс. Для этого используются данные, собранные во время сварки, которые позволяют анализировать и улучшать процесс сварки. |
| 2 | Методы сбора и<br>предварительной обработки данных | 1) **Типы используемых данных сварки**: DV_R, DA_R, AV_R, AA_R, PM_R<br>2) **Методы сбора данных**: Данные сварки собираются с помощью PLC и датчиков, затем передаются в систему хранения данных через 7-ми, DB-интерфейсы и сохраняются в формате .csv<br>3) **Формат файла данных**: 1.csv |
| 3 | Размер данных<br>(Информация о файле) | - **Размер данных**: 5,179,216 строк (прибл. 730,888*7 столбцов)<br>- **Объем данных**: Исходный файл 24.544MB / Обработанный 4.462MB |
| 4 | Используемые<br>алгоритмы | **Алгоритмы**<br>- Машинное обучение, XGBoost, LightGBM<br><br>**Описание алгоритмов**<br>- Используется для прогнозирования качества сварки на основе данных сварочного процесса<br>- XGBoost — это алгоритм градиентного бустинга, который эффективен для работы с большими объемами данных и обеспечивает высокую точность прогнозирования<br>- LightGBM — это оптимизированный алгоритм градиентного бустинга, который работает быстрее и требует меньше памяти |
| 5 | Результаты и<br>применение | - В сварочном процессе собранные данные анализируются с помощью XGBoost, LightGBM для прогнозирования качества сварки<br>- В сварочном процессе параметры/условия, которые могут влиять на качество сварки, анализируются для определения оптимальных параметров сварки<br>- Это позволяет повысить стабильность качества сварки и снизить количество дефектов |

        

          
# <span style='color:red'>Сварочные решения

## 1. Обзор сварки

### 1.1 Понимание сварки

**1) Обзор общего (сварочного) процесса**

Сварочный процесс - это метод соединения металлов, таких как сталь, медь, нержавеющая сталь и т.д.,
путем их плавления при высокой температуре. Это технология, которая позволяет соединять металлы, расплавляя их.
В сварочной промышленности для повышения производительности используются различные
параметры сварки для обеспечения качества, и для этого используются данные.

[На изображении показана большая металлическая труба в процессе производства]

*[Рисунок 1] Пример сварочного оборудования*

**2) Болевые точки (Pain point)**

**• Текущее состояние сварочного (процесса)**

Если в сварочном процессе не установлены точные параметры и не контролируются условия,
могут возникнуть различные дефекты, такие как неравномерное проплавление или образование пор.
Кроме того, из-за различий в навыках сварщиков результаты могут отличаться.
Поэтому необходимо обеспечить стабильное качество сварки с помощью оптимизации сварочных параметров.

**• Проблемы с текущим подходом**

В настоящее время параметры, применяемые в сварочном процессе,
имеют определенные ограничения, но они не оптимизированы,
и сварочное оборудование настраивается в соответствии с опытом оператора. 
Поэтому оптимальные параметры сварки зависят от опыта оператора, что приводит к нестабильному качеству сварных соединений.
        

Это не работает. Даже при применении одинаковых параметров сварки, качество сварного шва может значительно отличаться в зависимости от условий окружающей среды. Фактически, параметры сварки, отображаемые на сварочном оборудовании, не всегда точно соответствуют реальным условиям. Кроме того, качество сварки зависит от множества факторов, и процесс сварки использует различные переменные для контроля этих факторов. Более того, сварочное оборудование имеет сложные настройки, и не всегда легко определить оптимальные параметры сварки. Это не просто вопрос настройки оборудования, а скорее вопрос оптимизации процесса с учетом различных факторов. Для достижения стабильного качества необходимо собирать точные данные, анализировать их и оптимизировать параметры тестирования.

## Ожидаемый эффект

В сварочном процессе используются различные данные для анализа и оптимизации качества сварки. Разработанная система ИИ предназначена для сбора, анализа и распространения информации о сварочных параметрах, что позволяет сварщикам достигать оптимальных результатов и повышать эффективность процесса сварки.

![Изображение сварной трубы большого диаметра]

[Пример сварной трубы большого диаметра, изготовленной с помощью сварки]

## 2 Анализ сварки

### 1) Анализ сварки

- **Сварка**
  - Возможность использовать общие данные (температура, влажность, сварочные материалы и т.д.) для создания оптимальной сварочной среды.
  
  - Анализ общих данных, получаемых в процессе сварки, и данных сварки для выявления взаимосвязей между ними. Выбор важных переменных и применение алгоритмов машинного обучения для создания модели оптимизации сварочного процесса.
        


- **Важные переменные, влияющие на качество сварки**: Представлена методология для определения ключевых переменных, которые значительно влияют на качество сварного шва.

## 2) Описание и представление данных

### • Данные сварочного процесса
  - Для анализа сварочного процесса используются данные PIPE_NO (номер трубы) и данные, собранные во время сварки, включая сварочные данные: DV_R (напряжение правой стороны), DA_R (ток правой стороны), AV_R (среднее напряжение), AA_R (средний ток) и PM_R (сварочный код).

## 3) Характеристики и преимущества данных

### • Данные связанные со сварочным процессом
  - Используются различные типы данных, собранные во время сварки, такие как температура, влажность и другие сварочные данные, для разработки модели оптимизации сварочного процесса, которая определяет ключевые переменные.
  
  - Это не просто сбор производственных данных, но и анализ влияния изменений сварочных параметров на качество сварки, что позволяет определить взаимосвязи между различными факторами и оптимизировать процесс с учетом особенностей конкретного производства.
  
  - Можно определить ключевые переменные, влияющие на качество сварки, и на основе этих данных предсказать оптимальные значения для получения качественного сварного шва.

## 4) Применение и основные функции

- Данная технология применима не только к сварке, но и к другим производственным процессам, требующим оптимизации параметров.

- Кроме того, можно использовать эту технологию для анализа и прогнозирования качества сварки. Поскольку качество сварного шва является критически важным фактором, эта технология может значительно повысить надежность сварных соединений.

- По сравнению с существующими методами, которые фокусируются на параметрах сварки, данный подход позволяет более системно анализировать данные. Используя анализ данных, можно разработать систему искусственного интеллекта для сварки, которая определяет ключевые переменные и предлагает оптимальные параметры.

- Используя анализ данных, можно применять эту технологию к сварочным процессам для создания оптимальных условий, что повышает качество сварки, эффективность процесса и другие важные показатели.
        

## 2. Анализ сварки

### 2.1 Представление набора данных

#### 1) Метод сбора данных
* **Производственная среда**: Трубопроводная сварка
* **Название производства**: Сварка
* **Метод сбора**: ПЛК внутри сварочного цеха
* **Период сбора**: с 17 января 2022 г. по 24 марта 2022 г.
* **Интервал сбора**: 5 мин / труба

#### 2) Формат/структура данных
* **Формат данных**: файл формата CSV
* **Объем данных**:
  [Всего] 5,179,216 записей
  Количество столбцов: 7, количество строк: 739,888, количество элементов данных: 5,179,216

* **Определение основных переменных в наборе данных**

| Столбец | Значение | Примечание |
|---------|----------|------------|
| PIPE_NO | Серийный номер трубы | string |
| DV_R | Напряжение правой стороны | int |
| DA_R | Ток правой стороны | int |
| AV_R | Среднее напряжение | int |
| AA_R | Средний ток | int |
| PM_R | Код режима сварки | int |
| FIN_JGMT | FIN_JGMT=1: норма / FIN_JGMT=0: дефект | int |

[Примечание] Описание основных переменных
        

# Основные статистические показатели

## Таблица основных статистических показателей

| Столбец | Тип данных | Количество | Среднее | Стандартное отклонение | Минимум | Медиана | Максимум |
|---------|------------|------------|---------|----------------------|----------|----------|----------|
| PIPE_NO | string | 739888 | N/N | N/N | N/N | N/N | N/N |
| DV_R | int | 739888 | 326.6 | 254.8 | 1.0 | 310.5 | 12680.0 |
| DA_R | int | 739888 | 1.0 | 1340.9 | 6890.5 | 8979.0 | 13791.0 |
| AV_R | int | 739888 | 376.2 | 455.3 | 11.0 | 349.0 | 10984.0 |
| AA_R | int | 739888 | 5760.5 | 758.9 | 1.0 | 5818.0 | 78035.0 |
| PM_R | int | 739888 | 9009 | 8761.4 | 2.0 | 9569 | 50761370 |
| FIN_JGMT | int | 739888 | 0.846198 | 0.360759 | 0.0 | 1.0 | 1.0 |

## Входные и выходные переменные

### Входные переменные:
- DV_R
- DA_R
- AV_R
- AA_R
- PM_R

### Выходная переменная:
- FIN_JGMT

В данном анализе в качестве входных переменных используются DV_R, DA_R, AV_R, AA_R и PM_R. При этом DV_R, DA_R, AV_R, AA_R, PM_R являются входными переменными, а FIN_JGMT является выходной переменной.

## Предварительная обработка данных

### Определение качества данных
- Данные, получаемые в производственной среде, могут иметь проблемы с качеством из-за различных факторов.
- Даже при наличии хороших методов измерения, использование некачественных данных может привести к плохим результатам.
- Поэтому предварительная обработка данных должна выполняться систематически.
- В соответствии с этим были проанализированы 6 характеристик качества данных и проведена предварительная обработка данных.
        

# Характеристики качества данных

## Основные характеристики

- **Полнота (Completeness)**: Все значения должны быть заполнены.
- **Уникальность (Uniqueness)**: Данные не должны дублироваться или повторяться.
- **Достоверность (Validity)**: Данные должны соответствовать правилам и стандартам формата данных.
- **Согласованность (Consistency)**: Данные должны быть согласованы между собой, и представляемые значения должны быть логически связаны.
- **Точность (Accuracy)**: Фактически измеряемые значения должны точно соответствовать реальным значениям.
- **Целостность (Integrity)**: В базе данных не должно быть ошибок при изменении данных, и должны быть отражены взаимосвязи и зависимости между данными.

## Детальное описание расчета показателей

### Расчет показателя полноты
- Формула: (1-(Количество пустых/Общее количество данных)) * 100
1. Данные с количеством пустых значений более 30% считаются данными с низким качеством полноты и должны быть исключены.
2. Для проверки пустых значений используется функция 'isnull()' и функция 'sum()' для подсчета результатов.
3. Рассчитывается показатель полноты с использованием количества пустых значений.

### Расчет показателя уникальности
- Формула: ((Уникальные данные)/(Общее количество данных)) * 100
1. Данные не считаются уникальными, если они имеют одинаковые значения во всех столбцах.
2. Уникальность определяется путем проверки наличия дубликатов с использованием двух или более столбцов для создания составного ключа.

### Расчет показателя достоверности
- Формула: ((Достоверные данные)/(Общее количество данных)) * 100
1. Проверяется наличие правил достоверности для данных
2. Проверяется формат данных
3. Проверяется наличие выбросов в данных в соответствии с правилами
        




          
### Расчет показателя согласованности
- Формула: (Согласованные данные/Общее количество данных) * 100
1. Проверка взаимосвязей между столбцами
2. Проверка наличия данных
3. Проверка логических связей между значениями и определение их согласованности

Данные должны быть согласованы во времени, и представляемые значения должны быть логически связаны.

### Расчет показателя точности
- Формула: (1-(Количество неточных данных/Общее количество данных)) * 100
1. Данные считаются точными, если измеренное значение соответствует реальному значению.
2. Для выявления неточных данных используется функция '*.mean()' для сравнения данных со средним значением.
3. Функция '*.mean()' используется для определения среднего значения данных и сравнения с ним.
4. Данные, которые сильно отклоняются от этого диапазона, считаются неточными.

### Расчет общего показателя качества
- Формула: (1-(Количество показателей с оценкой менее 100% среди показателей 'полноты', 'уникальности', 'согласованности')/3) * 100

Общий показатель качества рассчитывается на основе всех данных, имеющих показатели 'полноты', 'уникальности', 'согласованности'. Для этого анализа все показатели качества со 100% оценкой рассматриваются как показатели высшего качества.

## 2.2 Описание модели анализа

### 1) Блок-схема процесса анализа данных и создания модели

```plaintext
Сбор данных → Обработка данных → Создание и обучение модели → Оценка эффективности модели и выдача результатов
```

### Процесс и последовательность действий

#### (1) Предварительная обработка

- Удаление индекса (dropna())
- Метод обработки отсутствующих значений в Excel
- Метод заполнения пустых значений (fillna())
- Метод удаления строк с пропущенными значениями
- Метод удаления строк с аномальными значениями
        




          
#### (2) Обработка выбросов

**Методы определения выбросов:**
- Метод определения выбросов с использованием среднего значения и стандартного отклонения - определяет значения как выбросы на основе их отклонения от среднего.

**Методы обработки выбросов в наборе данных:**
- Все выбросы обрабатываются с использованием статистических методов, заменяясь значениями на основе определенных критериев.
- Поскольку выбросы могут содержать важную информацию, их обработка производится только при наличии явных ошибок в данных.

### 2) Модель анализа

#### Функции и возможности модели анализа на основе ИИ

- Использует алгоритмы машинного обучения и глубокого обучения для анализа состояния процесса сварки. Алгоритмы машинного обучения и глубокого обучения эффективно обрабатывают различные переменные и их взаимосвязи, что позволяет точно определять состояние процесса и прогнозировать качество сварки.

**Методы анализа данных:**
- Decision Tree (Дерево решений)
- XGBoost (Экстремальный градиентный бустинг)
- LightGBM (Легкий градиентный бустинг)

**Особенности методов:**

- **Decision Tree (Дерево решений)** - это алгоритм машинного обучения, который классифицирует или прогнозирует результаты на основе нескольких условий принятия решений. Однако при анализе состояния сварки точность может быть ограничена из-за сложности взаимосвязей между переменными.

- **XGBoost (Экстремальный градиентный бустинг)** - это технология, которая улучшает точность, последовательно исправляя ошибки предыдущей модели. В отличие от обычного градиентного бустинга, она имеет дополнительные параметры для контроля переобучения. При анализе состояния сварки она показывает высокую точность прогнозирования. Характеристики модели определяются на основе корневого узла (Root Node) и последующих разветвлений.

- **LightGBM (Легкий градиентный бустинг)** - это облегченная версия XGBoost. LightGBM использует алгоритм роста деревьев, который более эффективен при анализе состояния сварки, чем другие алгоритмы машинного обучения, и особенно эффективен при обработке больших наборов данных.
        