In [None]:
import pandas as pd
import numpy as np
import warnings
import re
import os
warnings.filterwarnings("ignore")
pd.options.display.max_columns = 50
pd.options.display.max_rows = 1000

In [None]:
# подгрузка всех файлов без modes2017
dr = 'modes'
file_names = os.listdir(dr)

# файлы для валидации в словарь (пока что один файл)
valid_files = dict()
valid_files[file_names[0]] = pd.read_excel(dr+'\\'+file_names[0],skiprows=1)
print('validation:', file_names[0])

# файлы для обучения в словарь 
print('train:')
mode_files = dict()
for name in file_names[1:]:
    mode_files[name] = pd.read_excel(dr+'\\'+name,skiprows=1)
    print(name)

In [None]:
# Удаление лишнего столбца с комментариями из файла
del mode_files['сводная 2014_v2.xls']['Unnamed: 42']

In [None]:
# Сохраняем столбец с номером партии в переменную batch_number_list 
def rep_part(ls):
    """Удаляет .0 в номере партии и возвращает список без него"""
    for x in ls:
        x = str(x)
        x = x.replace('.0', '')
    return ls


def gen_batch_number_list(files_dict):
    """Создает список номеров партий из правой части таблицы

    Keyword arguments:
    files_dict -- словарь датафреймов, из которых брать номера партий (ключ в словаре - нназвание файла)
    
    Возвращает: list номеров партий
    """
    batch_number_list = []
    for mode in files_dict.values():
        for x in mode['№ партии.1']:
            batch_number_list.append(str(x).replace('.0', ''))

    batch_number_list = rep_part(batch_number_list)
    print(len(batch_number_list))
    return batch_number_list
     
batch_number_list = gen_batch_number_list(mode_files)
valid_batch_number_list = gen_batch_number_list(valid_files)

In [None]:
# выводим размерности всех файлов
print('train:')
for i in mode_files.values():
    print(i.shape)
print('validation:')
for i in valid_files.values():
    print(i.shape)

In [None]:
# Сохраняем заголовки
header = mode_files['сводка 1 и 2 квартал 2017_v2.xls'].columns
val_header = valid_files['Копия сводка январь 2018.xls'].columns

def clean_dict(files_dict):
    """Убирает заголовки у датафреймов из словаря, удаляет лишние столбцы

    Keyword arguments:
    files_dict -- словарь файлов (ключ в словаре - нназвание файла)
    
    Возвращает: list номеров партий
    """
    # убираем заголовки
    tmp = dict()
    for name, mode in zip(files_dict.keys(), files_dict.values()):
        mode.columns = range(mode.shape[1])
        tmp[name] = mode
    files_dict = tmp
    # убираем последние пять столбцов из всех таблиц
    for mode in files_dict.values():
        mode.drop(mode.columns[-5:], axis=1, inplace=True)
    return files_dict
    
mode_files = clean_dict(mode_files)
valid_files = clean_dict(valid_files)

In [None]:
df_modes = pd.DataFrame()
# слияние всех режимов
for df in mode_files.values():
    df_modes = pd.concat([df_modes,df])
# Сбрасываем индекс, чтобы не было повторяющихся
df_modes.reset_index(drop=True, inplace=True)
print(df_modes.shape)

df_valid = valid_files['Копия сводка январь 2018.xls']
df_valid.shape

In [None]:
# Возвращаем заголовки и номера партий, удаляем партии без номеров
def return_headers(df, headers_list, batch_list):
    df.columns = headers_list[:len(df.columns)]
    df['№ партии'] = batch_list
    df = df[df['№ партии'] != 'nan']
    print(df.shape)
    return df

df_modes = return_headers(df_modes, header, batch_number_list)
df_valid = return_headers(df_valid, val_header, valid_batch_number_list)

In [None]:
# исходная таблица без пакетов
df_modes = df_modes.drop(['№ пакета'], axis=1)
df_valid = df_valid.drop(['№ пакета'], axis=1)

In [None]:
# Удаляем партии без номера плавки
df_modes = df_modes[df_modes['плавка'] != 'nan']
print(df_modes.shape)
df_valid = df_valid[df_valid['плавка'] != 'nan']
df_valid.shape

In [None]:
# Удаляем строки со сбитым заполнением 
str_to_del = [3.75, 4.7, 4.18, 4.85, 4.78, 4.56, 3.71, 4.7, 4.63, 4.65, 4.52, 1.57, 3.87, 3.89, 2.5, 1.91, 2.98, 
                  4.6, 4.71, 2.36, 4.39, 4.68, 1.82, 2.74, 2.81, 3.61]

for i in str_to_del:
    df_modes = df_modes[df_modes['НД (гост, ту)'] != i]

df_modes.shape

In [None]:
# Разносим шаг на закалочной и отпускной печах в разные столбцы и очищаем их
def clean_steps(x):
    x = str(x)
    x = x.replace(u'X', '/')
    x = x.replace(u'x', '/')
    x = x.replace(u'Х', '/')
    x = x.replace(u'х', '/')
    x = x.replace(',', '.')
    x = x.replace('\\', '/')
    x = x.replace('/-', '/0')
    x = x.replace('-/', '0/')
    x = x.replace('***', '0')
    x = x.replace('*', '0')
    x = x.replace('-', '/')
    x = x.replace('nan', '')
    return x

def convert_step0(x):
    return clean_steps(x).split('/')[0]
   
def convert_step1(x):
    try:
        return clean_steps(x).split('/')[1]
    except:
        return x

# df_modes = df_modes[df_modes[u'шаг балок закалочная/отпускная печи, сек']!='***']
df_modes[u'шаг балок закалочная печь, сек'] = df_modes[u'шаг балок закалочная/отпускная печи, сек'].apply(convert_step0)
df_modes[u'шаг балок отпускная печь, сек'] = df_modes[u'шаг балок закалочная/отпускная печи, сек'].apply(convert_step1)

df_valid[u'шаг балок закалочная печь, сек'] = df_valid[u'шаг балок закалочная/отпускная печи, сек'].apply(convert_step0)
df_valid[u'шаг балок отпускная печь, сек'] = df_valid[u'шаг балок закалочная/отпускная печи, сек'].apply(convert_step1)
print(df_modes.shape, df_valid.shape)

In [None]:
# Разделяем диаметр и толщину стенки и чистим их
def split_d(x):
    x = str(x)
    x = x.replace(',', '.')
    return re.split('х|Х|x|X', x)[0]

def split_s(x):
    x = str(x)
    x = x.replace(',', '.')
    try:
        return re.split('х|Х|x|X', x)[1]
    except:
        return x
    
def clean_d_s(x):
    x = str(x)
    x = x.replace('п', '')
    x = x.replace('П', '')
    x = x.replace('nan', '')
    x = x.replace(',', '.')
    return x

df_modes['диаметр'] = df_modes[u'D/S'].apply(split_d)
df_modes['толщина стенки'] = df_modes[u'D/S'].apply(split_s)
df_modes['толщина стенки'] = df_modes['толщина стенки'].apply(clean_d_s)
df_modes['толщина стенки'] = df_modes['толщина стенки'].apply(lambda x: x.replace('107.95', ''))
df_modes['диаметр'] = df_modes['диаметр'].apply(clean_d_s)

df_valid['диаметр'] = df_valid[u'D/S'].apply(split_d)
df_valid['толщина стенки'] = df_valid[u'D/S'].apply(split_s)
df_valid['толщина стенки'] = df_valid['толщина стенки'].apply(clean_d_s)
df_valid['толщина стенки'] = df_valid['толщина стенки'].apply(lambda x: x.replace('107.95', ''))
df_valid['диаметр'] = df_valid['диаметр'].apply(clean_d_s)

In [None]:
# Чистим Скорость прохождения трубы через спрейер, м/с
def clean_u_sp(x):
    x = str(x)
    x = x.replace(u'сек', '')
    x = x.replace(u'ек', '')
    x = x.replace(u'\мс', '')
    x = x.replace(u'm/c', '')
    x = x.replace(u'М/С', '')
    x = x.replace(u'М\С', '')
    x = x.replace(u'nan', '')
    x = x.replace(u'м/с', '')
    x = x.replace(u'м\с', '')
    x = x.replace(u',', u'.')
    x = x.replace(u'м\\', '')
    x = x.replace(u'м/', '')
    x = x.replace(u'*****', u'')
    x = x.replace(u'****', u'')
    x = x.replace(u'***', u'')
    x = x.replace(u'29.03.2017', u'')
    x = x.replace(',','.')
    x = x.replace('041','0.41')
    x = x.replace('НЕТ','')
    x = x.replace('нет','')  
    x = x.replace('м','')
    x = x.replace('021', '0.21')
    x = x.replace('1.8', '0.18')
    x = x.replace('2.0', '0.2')
    x = x.replace('012', '0.12')
    if x == '45':
        return '0.45'
    if x == '064':
        return '0.64'
    x = x.replace(u'0.7.', '0.7')
    try:
        y = x.split('-')
        x = (float(y[0])+float(y[1]))/2
    except:
        pass
    return x
    
col = 'Скорость прохождения трубы через спрейер, м/с' 
df_modes[col] = df_modes[col].apply(clean_u_sp)
df_valid[col] = df_valid[col].apply(clean_u_sp)
print(df_modes.shape, df_valid.shape)

In [None]:
# Чистим время выдержки в закалочной ванне, сек.
def clean_time_bath(x):
    x = str(x)
    x = x.replace(u'сек', '')
    x = x.replace(u' ', '')
    x = x.replace(u'.', '')
    return x
col = u'время выдержки в закалочной ванне, сек.'
df_modes[col] = df_modes[col].apply(clean_time_bath)
df_valid[col] = df_valid[col].apply(clean_time_bath)

In [None]:
# Удаляем лишнии столбцы из датафрейма
l2del_modes = [
    'Дата термообработки', u'время начала т/о',u'D/S',u'шаг балок закалочная/отпускная печи, сек', u'плавка',
      '2 зона уставка закалка', '2 зона фактическая температура закалка', '2 зона фактическая температура отпуск', 
      '4 зона фактическая температура отпуск', 'кол-во, шт.'
]

l2del_valid =[
    'Дата термообработки', u'время начала т/о',u'D/S',u'шаг балок закалочная/отпускная печи, сек', u'плавка', 'кол-во, шт.', 
    'масса\nтн']

def del_cols_df(df, l2del):
    df[u'№ плавки'] = df[u'плавка']
    df = df.drop(l2del, axis = 1)
    return df

df_modes = del_cols_df(df_modes, l2del_modes)
df_valid = del_cols_df(df_valid, l2del_valid)
print(df_modes.shape, df_valid.shape)

In [None]:
# Объединение марок стали
def rep_steel(x):
    x = str(x)
    x = x.replace('092ГС','09Г2С')
    x = x.replace('13 ХФА','13ХФА')
    x = x.replace('13хфа','13ХФА')
    x = x.replace('13ХФА ','13ХФА')
    x = x.replace('13хфа-3','13ХФА-3')
    x = x.replace('15Х13H2MБ','15Х13H2МБ')
    x = x.replace('15х5мфбч','15Х5МФБЧ')
    x = x.replace('18х3мфб','18Х3МФБ')
    x = x.replace('18Х3МФБ ','18Х3МФБ')
    x = x.replace('18х3ХМФБ','18Х3МФБ')
    x = x.replace('18хзмфб','18Х3МФБ')
    x = x.replace('18хмфб','18ХМФБ')
    x = x.replace('18ХМФБ ','18ХМФБ')
    x = x.replace('20А простая','20А-пр')
    x = x.replace('20А-ПР','20А-пр')
    x = x.replace('20 А','20А')    
    x = x.replace('20A','20А') 
    x = x.replace('20А ','20А')
    x = x.replace('20 АУ','20А-У')
    x = x.replace('20АУ','20А-У')
    x = x.replace('30Г2 ','30Г2')
    x = x.replace('30Г2.','30Г2')
    x = x.replace('30г2-2','30Г2-2')
    x = x.replace('30г2ф','30Г2Ф')
    x = x.replace('30г2','30Г2')
    x = x.replace('30хгма','30ХГМА')
    x = x.replace('30ХГМА1','30ХГМА-1')
    x = x.replace('30хма','30ХМА')
    x = x.replace('32г1','32Г1')
    x = x.replace('32г2','32Г2')
    x = x.replace('32х1мф-1','32Х1МФ-1')
    x = x.replace('32ха','32ХА')
    x = x.replace('37г2ф','37Г2Ф')
    x = x.replace('37г2Ф','37Г2Ф')
    x = x.replace('37Г2ф','37Г2Ф')
    x = x.replace('37Г2Ф ','37Г2Ф')
    x = x.replace('38Г2С ','38Г2С')
    x = x.replace('38г2с-4','38Г2С-4')
    x = x.replace('38Г2-С-9','38Г2С-9')
    x = x.replace('30Г2 ', '30Г2')
    return x

df_modes['марка стали'] = df_modes['марка стали'].apply(rep_steel)
df_valid['марка стали'] = df_valid['марка стали'].apply(rep_steel)

In [None]:
ls_vtr = [
    '1 зона по ВТР закалка',
    '2 зона по ВТР закалка',
    '3 зона по ВТР закалка',
    '1 зона ВТР и уставка отпуск',
    '2 зона ВТР и уставка отпуск',
    '4 зона ВТР и уставка отпуск'
]
# Очистка всех столбцов с температурами по втр 
def clean_vtr(x):
    x = str(x)
    x = x.replace('*****','')
    x = x.replace('****','')
    x = x.replace('***','')
    x = x.replace('-','')
    x = x.replace('50/*','')
    x = x.replace('нет','')
    x = x.replace('НЕТ','')
    x = x.replace('н/д','')
    return x


def clean_all(df, ls, apply_f):
    """Применяет к столбцам из списка ls датафрейма df метод apply_f"""
    for col in ls:
        df[col] = df[col].apply(apply_f)
    return df

df_modes = clean_all(df_modes, ls_vtr, clean_vtr)
df_valid = clean_all(df_valid, ls_vtr, clean_vtr)
# df_modes['1 зона по ВТР закалка'] = df_modes['1 зона по ВТР закалка'].apply(clean_vtr)
# df_modes['2 зона по ВТР закалка'] = df_modes['2 зона по ВТР закалка'].apply(clean_vtr)
# df_modes['3 зона по ВТР закалка'] = df_modes['3 зона по ВТР закалка'].apply(clean_vtr)
# df_modes['1 зона ВТР и уставка отпуск'] = df_modes['1 зона ВТР и уставка отпуск'].apply(clean_vtr)
# df_modes['2 зона ВТР и уставка отпуск'] = df_modes['2 зона ВТР и уставка отпуск'].apply(clean_vtr)
# df_modes['4 зона ВТР и уставка отпуск'] = df_modes['4 зона ВТР и уставка отпуск'].apply(clean_vtr)

In [None]:
ls_nd = [
    '3 зона ВТР и уставка отпуск',
    '5 зона ВТР и уставка отпуск',
    '1 зона уставка закалка',
    '1 зона фактическая температура закалка',
    '3 зона уставка закалка',
    '3 зона фактическая температура закалка',
    'Температура трубы на выгрузке из печи закалки',
    'Расход воды на закалочный спрейер, м3',
    't˚ C воды в закалочной ванне',
    '1 зона фактическая температура отпуск',
    '3 зона фактическая температура отпуск',
    '5 зона фактическая температура отпуск',
    'Температура трубы на выгрузке из печи отпуска'
]
# Чистим столбцы от н/д
def rep_nd(x):
    x = str(x)
    x = x.replace('н/д','')
    x = x.replace('.0', '')
    x = x.replace('НЕТ', '')
    x = x.replace('***', '')
#     x = x.replace('охлаждение','')
    return x

df_modes = clean_all(df_modes, ls_nd, rep_nd)
df_valid = clean_all(df_valid, ls_nd[:-11], rep_nd)
# df_modes['1 зона уставка закалка'] = df_modes['1 зона уставка закалка'].apply(rep_nd)
# df_modes['1 зона фактическая температура закалка'] = df_modes['1 зона фактическая температура закалка'].apply(rep_nd)
# df_modes['3 зона уставка закалка'] = df_modes['3 зона уставка закалка'].apply(rep_nd)
# df_modes['3 зона фактическая температура закалка'] = df_modes['3 зона фактическая температура закалка'].apply(rep_nd)
# df_modes['Температура трубы на выгрузке из печи закалки'] = df_modes['Температура трубы на выгрузке из печи закалки'].apply(rep_nd)
# df_modes['Расход воды на закалочный спрейер, м3'] = df_modes['Расход воды на закалочный спрейер, м3'].apply(rep_nd)
# df_modes['t˚ C воды в закалочной ванне'] = df_modes['t˚ C воды в закалочной ванне'].apply(rep_nd)
# df_modes['1 зона фактическая температура отпуск'] = df_modes['1 зона фактическая температура отпуск'].apply(rep_nd)
# df_modes['3 зона ВТР и уставка отпуск'] = df_modes['3 зона ВТР и уставка отпуск'].apply(rep_nd)
# df_modes['3 зона фактическая температура отпуск'] = df_modes['3 зона фактическая температура отпуск'].apply(rep_nd)
# df_modes['5 зона ВТР и уставка отпуск'] = df_modes['5 зона ВТР и уставка отпуск'].apply(rep_nd)
# df_modes['5 зона фактическая температура отпуск'] = df_modes['5 зона фактическая температура отпуск'].apply(rep_nd)
# df_modes['Температура трубы на выгрузке из печи отпуска'] = df_modes['Температура трубы на выгрузке из печи отпуска'].apply(rep_nd)

In [None]:
# Чистим время выдержки в закалочной ванне, сек.
def rep_time(x):
    x = str(x)
    x = x.replace('nan','')
    x = x.replace('НЕТ','')
    x = x.replace('нет','')
    x = x.replace('НОРМ','')
    x = x.replace('****','')
    x = x.replace('***','')
    x = x.replace('40-50','45')
    x = x.replace('сек','')
    x = x.replace('с','')
    x = x.replace(',','.')
    x = x.replace('11cек', '')
    return x


col ='время выдержки в закалочной ванне, сек.'
df_modes[col] = df_modes[col].apply(rep_time)
df_valid[col] = df_valid[col].apply(rep_time)

In [None]:
def rep_tempr(x):
    x = str(x)
    x = x.replace('******','')
    x = x.replace('*****','')
    x = x.replace('****','')
    x = x.replace('***','')
    x = x.replace('НОРМ-ИЯ', '')
    x = x.replace('норм-ция', '')
    x = x.replace('\\','/')
    x = x.replace('-','/')
    x = x.replace('<', '')
    x = x.replace('>', '')
    x = x.replace('Доотпуск', 'доотпуск')
    x = x.replace('до', '')
    x = x.replace('Бизнес Тренд', '')
    x = x.replace('БизнесТренд', '')
    x = x.replace('ВОЗДУХ', '')
    x = x.replace('Воздух', '')
    x = x.replace('воэдух', '')
    x = x.replace('высадка', '')
    x = x.replace('закалка', '')
    x = x.replace('НЕТ', '')
    x = x.replace('нет', '')
    x = x.replace('НЕТ', '') 
    x = x.replace('нет', '')
    x = x.replace('НОРМ', '')
    x = x.replace('нормализ.', '')
    x = x.replace('нормализация', '')
    x = x.replace('воздух', '')
    x = x.replace('61702', '')
    x = x.replace('опытные.','')
    x = x.replace('на е','')
    x = x.replace('норм/ия','')
    x = x.replace(',','.')
    y = x.split('/')
    if len(y)==1:
        return x
    fl = True
    tmpy= []
    for i in y:
        if len(i) == 4:
            y.append(i[0:2])
            y.append(i[2:4])
            y.remove(i)
    for i in y:
        try:
            tmpy.append(float(i))
        except:
            tmpy.append(i)
            fl = False
    if(fl):
        y = tmpy   
        x = np.mean(y)
    if x=='0':
        x=''
    return x


def clean_and_tofloat(df, ls, apply_f_ls):
    for col, apply_f in zip(ls,apply_f_ls):
        df[col] = df[col].apply(apply_f)
    df.drop(df[df[col]=='отпуск'].index, inplace = True, axis = 0)
    df[col] = df[col].apply(
                lambda y: str(y) if (y!='nan')&(y!='')&(y!=None)&(y!=' ') else None).astype(float)
    return df

col = 't˚ C трубы после спреера'
df_modes = clean_and_tofloat(df_modes, [col], [rep_tempr])
df_valid = clean_and_tofloat(df_valid, [col], [rep_tempr])
# df_modes[col] = df_modes[col].apply(rep_tempr)
# df_modes.drop(df_modes[df_modes[col]=='отпуск'].index, inplace = True, axis = 0)
# df_modes[col] = df_modes[col].apply(
#                 lambda y: str(y) if (y!='nan')&(y!='')&(y!=None)&(y!=' ') else None).astype(float)

In [None]:
def rep_tempr_bath(x):
    x = str(x)
    x = x.replace('Бизнес Тренд', '')
    x = x.replace('бизнес тренд', '')
    x = x.replace('высадка.', '')
    x = x.replace('высадка', '')
    x = x.replace('ВЫСАДКА', '')
    x = x.replace('Высадка', '')
    x = x.replace('высадка', '') 
    x = x.replace('доотпуск.', 'отпуск')
    x = x.replace('доотпуск', 'отпуск')
    x = x.replace('Доотпуск', 'отпуск')
    x = x.replace('отпуск.', 'отпуск')
    x = x.replace('на отпуск', 'отпуск')
    x = x.replace('в малахи', '')
    x = x.replace('ДООТПУСК', 'отпуск')
    x = x.replace('НЕТ', '')
    x = x.replace('нет', '')
    x = x.replace('НЕТ', '') 
    x = x.replace('НК 8500', '')
    x = x.replace('НК 9000', '')
    x = x.replace('нормализ.', '')
    x = x.replace('нормализация', '')
    x = x.replace('нормал-ция', '')
    x = x.replace('НОРМ-ИЯ', '')
    x = x.replace('норм-ция.', '')
    x = x.replace('норм-ция', '')
    x = x.replace('нор-ция', '')
    x = x.replace('нор/ция', '')
    x = x.replace('опытные.', '')
    x = x.replace('ОПЫТНЫЕ', '')
    x = x.replace('повторная', '')
    x = x.replace('повтор', '')
    x = x.replace('ПОВТОР', '')
    x = x.replace('Самара', '')
    x = x.replace('СИТЦ', '')
    x = x.replace('Трэнд', '')
    x = x.replace('ЧПТЗ', '')
    x = x.replace('ЧТПЗ', '')
    x = x.replace('30 СЕК.', '30')
    x = x.replace('2/я зак/ка', '')
    x = x.replace('ТРЕНД', '')
    x = x.replace('ПЛ.Р. Ц42/№10','')
    x = x.replace('Челябинск','')
    x = x.replace('нормал/ция', '')
    if x=='0':
        x=''
    if x=='.':
        x=''
    return x

col = 't˚ C трубы после ванны'
df_modes = clean_and_tofloat(df_modes, [col, col], [rep_tempr, rep_tempr_bath])
df_valid = clean_and_tofloat(df_valid, [col, col], [rep_tempr, rep_tempr_bath])
# df_modes[col] = df_modes[col].apply(rep_tempr)
# df_modes[col] = df_modes[col].apply(rep_tempr_bath)
# df_modes.drop(df_modes[df_modes[col]=='отпуск'].index, inplace = True, axis = 0)
# df_modes[col] = df_modes[col].apply(
#                 lambda y: str(y) if (y!='nan')&(y!='')&(y!=None)&(y!=' ') else None).astype(float)
# df_modes[col].to_excel('check_col.xlsx')

In [None]:
print(df_modes.shape, df_valid.shape)

In [None]:
df_modes.drop(df_modes[df_modes['шаг балок закалочная печь, сек'] == '0'].index, inplace=True, axis=0)
df_modes.drop(df_modes[df_modes['шаг балок отпускная печь, сек'] == '0'].index, inplace=True, axis=0)
df_valid.drop(df_valid[df_valid['шаг балок закалочная печь, сек'] == '0'].index, inplace=True, axis=0)
df_valid.drop(df_valid[df_valid['шаг балок отпускная печь, сек'] == '0'].index, inplace=True, axis=0)
print(df_modes.shape, df_valid.shape)

In [None]:
ls_mean_modes = df_modes.columns[3:-3]
ls_mean_valid = df_valid.columns[3:-3]

def get_mean(df, ls_mean):
    """Усредняет по [номеру плавки, партиям] и возвращает полученный датафрейм """
    for col in ls_mean:
        if col in df:
            df[col] = df.groupby(['№ плавки', '№ партии'])[col].transform(
                lambda x: x.apply(
                lambda y: str(y) if (y!='nan')&(y!='')&(y!=None)&(y!=' ') else None).astype(float).mean())
    return df

In [None]:
df_modes['№ партии'] = df_modes['№ партии'].astype(str).str.lower()
df_modes['№ плавки'] = df_modes['№ плавки'].astype(str).str.lower()
df_valid['№ партии'] = df_valid['№ партии'].astype(str).str.lower()
df_valid['№ плавки'] = df_valid['№ плавки'].astype(str).str.lower()

In [None]:
print(df_modes.shape, df_valid.shape)
print(df_modes['№ партии'].describe()[1])#количество уникальных значений по партии, итоговое должно быть чуть больше
print(df_valid['№ партии'].describe()[1])#количество уникальных значений по партии, итоговое должно быть чуть больше

In [None]:
# Усреднение по номеру плавки, партиям работает долго, ждем и пьем чаёк..
tmp_modes = get_mean(df_modes, ls_mean_modes)
tmp_modes.shape

In [None]:
# Усреднение по номеру плавки, партиям работает долго, ждем и пьем чаёк..
tmp_valid = get_mean(df_valid, ls_mean_valid)
tmp_valid.shape

In [None]:
full_ls_modes = list(df_modes.columns)
full_ls_modes = full_ls_modes[-1:]+full_ls_modes[0:-1]

full_ls_valid = list(df_valid.columns)
full_ls_valid = full_ls_valid[-1:]+full_ls_valid[0:-1]

In [None]:
tmp_modes = tmp_modes[full_ls_modes]
tmp_modes = tmp_modes.drop_duplicates()

tmp_valid = tmp_valid[full_ls_valid]
tmp_valid = tmp_valid.drop_duplicates()
print(tmp_modes.shape, tmp_valid.shape)

In [None]:
tmp_modes['2 зона по ВТР закалка'] = tmp_modes['2 зона по ВТР закалка'].apply(lambda x: x*10 if x<100 else x)
tmp_modes.shape

In [None]:
tmp_modes.to_excel('all_modes_clean_2.xlsx')
tmp_valid.to_excel('valid_modes_clean.xlsx')

In [None]:
tmp_valid.shape

In [None]:
diff_header = list(set(tmp_modes.columns)-set(tmp_valid.columns))

In [None]:
def save_df_width_col(df, file_name, width=80):
    """Сохраняет датафрейм с широкой первой ячейкой """
    writer = pd.ExcelWriter(file_name, engine='xlsxwriter')
    df.to_excel(writer)
    sh = writer.sheets['Sheet1']
    sh.set_column(1, 1,width)
    writer.close()
    
save_df_width_col(pd.DataFrame({'columns': diff_header}), 'does_nt_exist_in_2018_cols.xlsx', 50)