In [195]:
import numpy as np

import pandas as pd
from IPython.display import display, HTML
pd.set_option('display.max_rows', 500)

In [196]:
# file pathes to input data
fp_ut = 'UT.csv'     
fp_buh =  'BUH.csv'

In [197]:
# ABOUT THE DATA
# both files has similar columns but the UT has additional columns 'Серия', "КодСерии"
# both files has 'quantity' and 'sum' fields

float_type_rows = ['Количество', 'Сумма'] # the specifeid field will be converted to float

In [198]:
# clean up data for the given Series
def clean_up_for_numeric(given_df, df_name, col_name):
    '''col_name - column name for cleaning '''
    given_df[col_name].replace(u'\xa0',u'', regex=True, inplace=True) # clean up the no-break spaces
    given_df[col_name].replace(u',',u'.', regex=True, inplace=True)  # repalce commas with the dots
    print("Cleaning data in ",col_name," column successfull for", df_name)
    return True

In [199]:
# convets the given series to a float type
def convert_to_float(given_df, df_name, col_name): # 'df_name is the name of the datframe
    given_df[col_name] = given_df[col_name].astype(float)
    print("Converting ", col_name, " column in float successful for ", df_name)
    return True

In [200]:
df_ut = pd.read_csv(fp_ut, sep=';', dtype={'КодСерии': 'str','КодНоменклатуры':'str'})

In [201]:
df_ut['ЭтоБухгалтерия'] = False # to distinguish ut.csv rows from buh.csv

In [202]:
df_buh = pd.read_csv(fp_buh,sep=';', dtype={'КодНоменклатуры': 'str'}) 

In [203]:
# Clean up the data in buh_ut
#    Convert Quantity and Sum fields to numeric
#    the quantity column may have a \xa0 symbol (no-break space)
# To figure out the value which can not be converted use: df.apply(pd.to_numeric)

# Remove NB spaces and replace commas with dots for columns Quantity and Sum
for float_col_name in float_type_rows:
        clean_up_for_numeric(df_buh, 'df_buh', float_col_name)
        convert_to_float(df_buh, 'df_buh', float_col_name)
        
        clean_up_for_numeric(df_ut, 'df_ut', float_col_name)
        convert_to_float(df_ut, 'df_ut', float_col_name)

Cleaning data in  Количество  column successfull for df_buh
Converting  Количество  column in float successful for  df_buh
Cleaning data in  Количество  column successfull for df_ut
Converting  Количество  column in float successful for  df_ut
Cleaning data in  Сумма  column successfull for df_buh
Converting  Сумма  column in float successful for  df_buh
Cleaning data in  Сумма  column successfull for df_ut
Converting  Сумма  column in float successful for  df_ut


In [204]:
print(df_buh.dtypes)
print(df_ut.dtypes)

Номенклатура        object
КодНоменклатуры     object
Склад               object
Количество         float64
Сумма              float64
dtype: object
Номенклатура        object
КодНоменклатуры     object
Склад               object
Количество         float64
Сумма              float64
Серия               object
КодСерии            object
ЭтоБухгалтерия        bool
dtype: object


In [205]:
df_buh['ЭтоБухгалтерия'] = True # ADDING FLAG TO MARK THE RECORDS AS BUH

In [206]:
DF_UT_rows = df_ut.shape[0]
print(df_ut.shape)
print(df_ut.sum(numeric_only=True)) # output SUMM
df_ut = df_ut.sort_values(by=['КодНоменклатуры'])

(27, 8)
Количество        1207.0
Сумма                0.0
ЭтоБухгалтерия       0.0
dtype: float64


In [207]:
DF_BUH_rows = df_buh.shape[0]
print(df_buh.shape) # 
print(df_buh.sum(numeric_only=True)) # output SUMM
df_buh = df_buh.sort_values(by=['КодНоменклатуры'])

(120, 6)
Количество           11388.00
Сумма             38890584.91
ЭтоБухгалтерия         120.00
dtype: float64


In [208]:
# CONCATENTATION OF buh and ut
df = pd.concat([df_ut, df_buh], sort=True)
df.reset_index(drop=True)

Unnamed: 0,КодНоменклатуры,КодСерии,Количество,Номенклатура,Серия,Склад,Сумма,ЭтоБухгалтерия
0,678,,42.0,Тяга регулятора ПД-10,,Склад №1,0.0,False
1,804,,3.0,Манометр (0-10атм) мех-й. (14.3830),,Склад №1,0.0,False
2,814,,50.0,Реле-регулятор напряжения мех-й 12в (774.3702),,Склад №1,0.0,False
3,1285,,17.0,Манометр (0-16атм) мех-й.,,Склад №1,0.0,False
4,1950,,50.0,Термостат МТЗ (ТС-117-04),,Склад №1,0.0,False
5,6613,,150.0,Кран ВС-11,,Склад №1,0.0,False
6,6631,,20.0,Подшипник игольчатый саттелита ВОМ МТЗ ЗКК20-2...,,Склад №1,0.0,False
7,6762,,100.0,Кран топливный ПП6-1/КР-25/МТЗ,,Склад №1,0.0,False
8,6804,,90.0,Подшипник игольчатый МТЗ ЗКК30-35-46Е,,Склад №1,0.0,False
9,6854,,500.0,Кольцо гильзы фторопластовое МТЗ,,Склад №1,0.0,False


In [209]:
df['КодНоменклатуры'] = df['КодНоменклатуры'].astype(str) # convert to string
df['КодНоменклатуры'] = df['КодНоменклатуры'].str.strip() # removing whitespace
df['КодНоменклатуры'] = df['КодНоменклатуры'].replace('nan','')

In [210]:
df['Количество'] = df['Количество'].fillna(0.0)
df['Количество'] = df['Количество'].astype(float)

In [211]:
df.to_excel('UT_BUH.xlsx',index_label=False,index=False)

In [212]:
print("United DF, rows:", df.shape[0]," cols:",df.shape[1])

United DF, rows: 147  cols: 8


In [213]:
subset_of_rows=['КодНоменклатуры','Номенклатура','Склад']
duplicated_df_series = df.duplicated(subset=subset_of_rows,keep=False)

In [214]:
# Select all duplicate rows based on all columns
duplicateRowsDF = df[duplicated_df_series]
duplicateRowsDF = duplicateRowsDF.reset_index(drop=True)

In [215]:
print("Duplicates DF, rows:",duplicateRowsDF.shape[0]," cols:",duplicateRowsDF.shape[1])

Duplicates DF, rows: 51  cols: 8


In [216]:
df.sum(numeric_only=True)

Количество           12595.00
Сумма             38890584.91
ЭтоБухгалтерия         120.00
dtype: float64

In [217]:
DF_rows_before_reducing = df.shape[0]
print("DF before duplicates removing, rows:",df.shape[0]," cols:",df.shape[1])
DF_SUM_BEFORE = df.sum(numeric_only=True)
print(DF_SUM_BEFORE["Сумма"])

DF before duplicates removing, rows: 147  cols: 8
38890584.91000001


In [218]:
# Removing intersection of 2 UT and BUH by their intersection
df.drop_duplicates(subset=subset_of_rows, 
                     keep = False, inplace = True) 
print(df.shape)
DF_rows_AFTER_reducing = df.shape[0]
DF_SUM_AFTER = df.sum(numeric_only=True)

(96, 8)


In [219]:
##df

In [220]:
duplicateRowsDF_rows_number = duplicateRowsDF.shape[0]
duplicateRowsDF_summ = duplicateRowsDF.sum(numeric_only=True)

In [221]:
print("DF_UT_rows:",DF_UT_rows)
print("DF_BUH_row:",DF_BUH_rows)
print()
print("DF_rows_before_reducing:",DF_rows_before_reducing)
print("DF_rows_AFTER_reducing:",DF_rows_AFTER_reducing)
print()
print("duplicateRowsDF_rows_number:",duplicateRowsDF_rows_number)

DF_UT_rows: 27
DF_BUH_row: 120

DF_rows_before_reducing: 147
DF_rows_AFTER_reducing: 96

duplicateRowsDF_rows_number: 51


In [222]:
print("*******************")
print("Сумма до удаления дублей:",DF_SUM_BEFORE["Сумма"]) 
print("Сумма после удаления дублей:",DF_SUM_AFTER["Сумма"])
print()
print("Сумма дубликатов:            ", duplicateRowsDF_summ["Сумма"])
print('разница до от разницы после', round(DF_SUM_BEFORE["Сумма"]-DF_SUM_AFTER["Сумма"], 2)) # если тут разнциа то это ошибка

*******************
Сумма до удаления дублей: 38890584.91000001
Сумма после удаления дублей: 14461010.93

Сумма дубликатов:             24429573.98
разница до от разницы после 24429573.98


In [223]:
print("rows dupl",duplicateRowsDF.shape[0])
print(duplicateRowsDF.sum(numeric_only=True))

rows dupl 51
Количество            2410.00
Сумма             24429573.98
ЭтоБухгалтерия          25.00
dtype: float64


In [224]:
# As far as the the buh.csv has no "СерияНоменклатуры" field consider the rows of subset from buh as unique
rows_of_buh = duplicateRowsDF[duplicateRowsDF['ЭтоБухгалтерия'] == True]

In [225]:
print(rows_of_buh.shape)
print(rows_of_buh.sum(numeric_only=True))

(25, 8)
Количество            1205.00
Сумма             24429573.98
ЭтоБухгалтерия          25.00
dtype: float64


In [226]:
counter = 0
size_of_rows = rows_of_buh.shape[0]
for index, row in rows_of_buh.iterrows():   
    ##print("TEMP SERIES BEGIN")
    ##print("***************************************")
    temp_df  = duplicateRowsDF.query('КодНоменклатуры == \''+row['КодНоменклатуры']+'\' and Номенклатура ==\''+row['Номенклатура']+'\' and Склад == \''+row['Склад']+'\'', inplace = False)
    buh_sum = row['Сумма']
    counter+=1
    print("counter:",counter,"/",size_of_rows)
    ##print("бухгалтерская сумма:", buh_sum)  
        
    # Removing the buh string from temp_df otherwirse I won't be able to count the quantity of series in UT
    ##############################
    # Get names of indices for which ЭтоБухгалтерия is true
    indexNames = temp_df[temp_df['ЭтоБухгалтерия'] == True ].index
    # Delete these row indices from dataFrame
    temp_df.drop(indexNames , inplace=True)
    ##############################
    
    temp_number_of_series = temp_df['Количество'].sum() 
    ##print("Количество по сериям: ",temp_number_of_series) 
    
    # define the price
    if temp_number_of_series != 0:
        price = buh_sum / temp_number_of_series
        price = round(price,2)
    else:
        price = 0.0
        
    ##print("Price of series is:", price)
    
    summ_accum = 0.0 # the_sum_remains check 
    
    # Summ distribution to series 
    for temp_index,temp_row in temp_df.iterrows():
        current_sum = price * temp_row['Количество']
        duplicateRowsDF.at[temp_index,'Сумма'] = round(current_sum,2)
        ##print("Teh summ is", duplicateRowsDF.at[temp_index,'Сумма'])
        the_last_index = temp_index  # hope it won't clear iself after the loop
        summ_accum+=round(current_sum,2)
        
    # the_sum_remains check
    if summ_accum != buh_sum:
        print("difference in ",row['КодНоменклатуры'],row['Номенклатура'],row['Склад'], " sum if difference between ",buh_sum," and ",summ_accum)
        summ_dif = buh_sum - summ_accum
        duplicateRowsDF.at[the_last_index, 'Сумма'] += round(summ_dif,2)  # add the sum to the last row with the series
  
    ##display(temp_df)

counter: 1 / 25
difference in  00000000678 Тяга регулятора ПД-10 Склад №1  sum if difference between  24442.44  and  24442.32
counter: 2 / 25
difference in  00000000804 Манометр (0-10атм) мех-й. (14.3830) Склад №1  sum if difference between  7099.25  and  7099.26
counter: 3 / 25
difference in  00000000814 Реле-регулятор напряжения мех-й 12в (774.3702) Склад №1  sum if difference between  19457.19  and  19457.0
counter: 4 / 25
difference in  00000001285 Манометр (0-16атм) мех-й. Склад №1  sum if difference between  40229.06  and  40229.14
counter: 5 / 25
difference in  00000001950 Термостат МТЗ (ТС-117-04) Склад №1  sum if difference between  35759.16  and  35759.0
counter: 6 / 25
difference in  00000006613 Кран ВС-11 Склад №1  sum if difference between  76251.15  and  76251.0
counter: 7 / 25
difference in  00000006631 Подшипник игольчатый саттелита ВОМ МТЗ ЗКК20-26-34Е Склад №1  sum if difference between  3155.22  and  3155.2
counter: 8 / 25
difference in  00000006762 Кран топливный ПП

In [227]:
# Removing buh-string from duplicates dataframe - we've already got the sum to distibute among set of Series rows
###############################################################################################
# Get names of indexes for which ЭтоБухгалтерия is true
indexNames = duplicateRowsDF[duplicateRowsDF['ЭтоБухгалтерия'] == True ].index
# Delete these row indexes from dataFrame
duplicateRowsDF.drop(indexNames , inplace=True)
##############################

In [228]:
# adding fixed duplicates to the df
df = pd.concat([df, duplicateRowsDF], sort=True) # sets union
df.reset_index(drop=True)


Unnamed: 0,КодНоменклатуры,КодСерии,Количество,Номенклатура,Серия,Склад,Сумма,ЭтоБухгалтерия
0,9044,31.0,2.0,"Тест Ном, которой нет в Бух.",2-xxx-чч,Склад №1,0.0,False
1,1227,,20.0,Манометр (0-6 атм) мех-й.(11.3816),,Склад №1,26924.54,True
2,1408,,20.0,Моноциклон ДТ/Т-4/МТЗ-1221,,Склад №1,9325.43,True
3,1642,,500.0,Долото КПШ-9 (Рубцовск),,Склад №2 Жабский В.,162113.2,True
4,1644,,440.0,Лемех КПШ правый (Рубцовск),,Склад №2 Жабский В.,608964.93,True
5,1645,,440.0,Лемех КПШ левый (Рубцовск),,Склад №2 Жабский В.,608964.93,True
6,6346,,5.0,Переходник выпускного коллектора Д-240 (ММЗ) г...,,Склад №1,14706.83,True
7,6347,,20.0,Фильтр масляный центробежный Д-240 (МТЗ) (Бор...,,Склад №1,230751.76,True
8,6487,,300.0,Моноциклон МТЗ А53.21.000,,Склад №1,57845.7,True
9,6488,,20.0,Насос масляный МТЗ 240-1403010 (36зуб. Борисов),,Склад №1,120248.94,True


In [229]:
df.shape

(122, 8)

In [230]:
df.sum(numeric_only=True)["Количество"]

11390.0

In [231]:
round(df.sum(numeric_only=True)["Сумма"],2)

38890584.91

In [232]:
df = df.sort_values(by=['КодНоменклатуры'])

In [233]:
##df

In [234]:
# THE FINAL RESULT BEING MADE HERE
###############################################################################################
df.to_excel('final_UT_BUH.xlsx',index_label=False,index=False,float_format='%.2f')

In [235]:
# All code needed to check the difference of concatenating ut and buh listed below
###############################################################################################
# reread the new file
fp_changed ="final_UT_BUH.xlsx"
#df_changed = pd.read_csv(fp_changed, sep=';', encoding='cp1251', dtype={'КодСерии': 'str','КодНоменклатуры':'str','Количество':float})
df_changed = pd.read_excel(fp_changed)

In [236]:
df_changed.dtypes

КодНоменклатуры      int64
КодСерии           float64
Количество           int64
Номенклатура        object
Серия               object
Склад               object
Сумма              float64
ЭтоБухгалтерия        bool
dtype: object

In [237]:
print(df_changed.shape[0])
print()
print(df_ut.shape[0])

122

27


In [238]:
df_changed = df_changed.drop(['ЭтоБухгалтерия'],  axis = 1)

In [239]:
df_ut = df_ut.drop(['ЭтоБухгалтерия'],  axis = 1)

In [240]:
df_changed = df_changed.drop(['Сумма'],  axis = 1)
df_ut = df_ut.drop(['Сумма'],  axis = 1)

In [241]:
# ATTENTION!
# Code below check the data in memory from df variable! Not from xls file
############################################################################################

df_mem = df.copy(deep=True)  # deep=False - means no indices
# dropping unwanted columns
df_mem = df_mem.drop(['ЭтоБухгалтерия'],  axis = 1)
df_mem = df_mem.drop(['Сумма'],  axis = 1)
# converting columns
df_mem['КодНоменклатуры'] = df_mem['КодНоменклатуры'].str.strip()
df_mem['КодСерии'] = df_mem['КодСерии'].str.strip()
df_mem['Номенклатура'] = df_mem['Номенклатура'].str.strip()
df_mem['Серия'] = df_mem['Серия'].str.strip()
df_mem['Склад'] = df_mem['Склад'].str.strip()
# show example
display(df_mem.head())
print(df_mem.dtypes)
df_mem.reset_index(inplace=True,drop=True)
#display(df_mem.head)
print(df_mem.columns.tolist())
print(df_mem.dtypes)
print(df_mem.shape)

Unnamed: 0,КодНоменклатуры,КодСерии,Количество,Номенклатура,Серия,Склад
0,678,,42.0,Тяга регулятора ПД-10,,Склад №1
1,804,,3.0,Манометр (0-10атм) мех-й. (14.3830),,Склад №1
2,814,,50.0,Реле-регулятор напряжения мех-й 12в (774.3702),,Склад №1
105,1227,,20.0,Манометр (0-6 атм) мех-й.(11.3816),,Склад №1
3,1285,,17.0,Манометр (0-16атм) мех-й.,,Склад №1


КодНоменклатуры     object
КодСерии            object
Количество         float64
Номенклатура        object
Серия               object
Склад               object
dtype: object
['КодНоменклатуры', 'КодСерии', 'Количество', 'Номенклатура', 'Серия', 'Склад']
КодНоменклатуры     object
КодСерии            object
Количество         float64
Номенклатура        object
Серия               object
Склад               object
dtype: object
(122, 6)


In [242]:
df_mem.head()

Unnamed: 0,КодНоменклатуры,КодСерии,Количество,Номенклатура,Серия,Склад
0,678,,42.0,Тяга регулятора ПД-10,,Склад №1
1,804,,3.0,Манометр (0-10атм) мех-й. (14.3830),,Склад №1
2,814,,50.0,Реле-регулятор напряжения мех-й 12в (774.3702),,Склад №1
3,1227,,20.0,Манометр (0-6 атм) мех-й.(11.3816),,Склад №1
4,1285,,17.0,Манометр (0-16атм) мех-й.,,Склад №1


In [243]:
df_ut['КодНоменклатуры'] = df_ut['КодНоменклатуры'].str.strip()
df_ut['КодСерии'] = df_ut['КодСерии'].str.strip()
df_ut['Номенклатура'] = df_ut['Номенклатура'].str.strip()
df_ut['Серия'] = df_ut['Серия'].str.strip()
df_ut['Склад'] = df_ut['Склад'].str.strip()

print(df_ut.columns.tolist())

print(df_ut.dtypes)

df_ut = df_ut.reindex(columns=df_mem.columns.tolist())
print(df_ut.reset_index(inplace=True,drop=True))
print(df_ut.shape)

['Номенклатура', 'КодНоменклатуры', 'Склад', 'Количество', 'Серия', 'КодСерии']
Номенклатура        object
КодНоменклатуры     object
Склад               object
Количество         float64
Серия               object
КодСерии            object
dtype: object
None
(27, 6)


In [244]:
df_ut.head()

Unnamed: 0,КодНоменклатуры,КодСерии,Количество,Номенклатура,Серия,Склад
0,678,,42.0,Тяга регулятора ПД-10,,Склад №1
1,804,,3.0,Манометр (0-10атм) мех-й. (14.3830),,Склад №1
2,814,,50.0,Реле-регулятор напряжения мех-й 12в (774.3702),,Склад №1
3,1285,,17.0,Манометр (0-16атм) мех-й.,,Склад №1
4,1950,,50.0,Термостат МТЗ (ТС-117-04),,Склад №1


In [245]:
# Check columns names for equality
################################
cols1 = df_mem.columns.tolist()
cols2 = df_ut.columns.tolist()
print(cols1)
print(cols2)
if cols1 == cols2:
    print('column names are equal')

['КодНоменклатуры', 'КодСерии', 'Количество', 'Номенклатура', 'Серия', 'Склад']
['КодНоменклатуры', 'КодСерии', 'Количество', 'Номенклатура', 'Серия', 'Склад']
column names are equal


In [246]:
# Code below used for column content collisions
#############################################################
# eg I found the rows with same code but different names - 
# it means the same item in UT and Buh has the different names but the same code

# specify the column to search for duplicates
#COL_NAME = 'КодНоменклатуры'
COL_NAME = 'Номенклатура'

# Prepare the first set 
df_mem_items = list(set(df_mem[COL_NAME].tolist())) # Column folding - get All unique codes of items
print(len(df_mem_items))
df_mem_items.sort()
print(df_mem_items[:10]) # show 10 

# Prepare the second set 
ut_mem_items = list(set(df_ut[COL_NAME].tolist())) # column folding
print(len(ut_mem_items))
ut_mem_items.sort()
print(ut_mem_items[:10])

 
# Function to get the intersection of two lists using set() method 
def intersection(lst1, lst2): 
    return list(set(lst1) & set(lst2)) 

common_values = intersection(df_mem_items, ut_mem_items) # get the intersection

print(len(common_values)) # how many common items in common items set
print(common_values[:10])

print("len of df_mem_items ", len(df_mem_items)) # how many common items in the first set
print()

# MAKING LIST OF UNIQUE CODES FROM df_mem
##############################################
df_mem_count_of_unique_values = 0
df_mem_unique_values = []
# unique df_mem_items
for code in df_mem_items:
    if code not in common_values:
        df_mem_unique_values.append(code)
        df_mem_count_of_unique_values += 1    
print("Number of unique values in df_mem_items", df_mem_count_of_unique_values)
print()
print(df_mem_unique_values)

# MAKING LIST OF UNIQUE CODES FROM df_mem
##############################################
df_ut_count_of_unique_values = 0
df_ut_unique_values = []
# unique df_mem_items
for code in ut_mem_items:
    if code not in common_values:
        df_ut_unique_values.append(code)
        df_ut_count_of_unique_values += 1
        
print("Number of unique values in df_ut ", df_ut_count_of_unique_values)
print()
print(df_ut_unique_values)

120
['Амортизатор рулевого вала МТЗ-80/82', 'Башмак плуга отвального ПЛЕ ЛИТОЙ (Рубцовск)', 'Болт карданный МТЗ-82 М10х1 с гайкой', 'Болт ступицы переднего колеса МТЗ/ЮМЗ', 'Болт шкива коленвала МТЗ', 'Вал гибкий в сборе (трос тахоспидометра) МТЗ, ГАЗ-53 1570мм', 'Вал карданный переднего моста МТЗ-1221', 'Вал привода рулевого управления МТЗ  80-3401072', 'Валик МТЗ  70-1601140', 'Вилка переключения управления понижающим редуктором МТЗ  80-1723021']
25
['Датчик давления масла МТЗ нов. обр.(2 тонких шт.)', 'Датчик температуры двигателя МТЗ нов. обр.', 'Зеркало заднего вида МТЗ боковое 80-8201050', 'Кольцо гильзы фторопластовое МТЗ', 'Корпус дифф-ла заднего моста МТЗ-80/82', 'Кран ВС-11', 'Кран топливный ПП6-1/КР-25/МТЗ', 'Кронштейн крепления гидроцилиндра ГОРУ МТЗ Ф80-3001011', 'Манометр (0-10атм) мех-й. (14.3830)', 'Манометр (0-16атм) мех-й.']
25
['Переключатель освещения клавишный МТЗ', 'Реле-регулятор напряжения мех-й 12в (774.3702)', 'Термостат МТЗ (ТС-117-04)', 'Щетка стеклоочистите

In [247]:
df_names_are_different_in_UT_BUH = df_mem[df_mem[COL_NAME].isin(df_mem_unique_values)]

In [248]:
df_ut[df_ut["КодНоменклатуры"].isin(df_mem_unique_values)] # empty is right

Unnamed: 0,КодНоменклатуры,КодСерии,Количество,Номенклатура,Серия,Склад


In [249]:
print(df_mem.shape)
print(df_ut.shape)
common = df_mem.merge(df_ut,on=['КодНоменклатуры','КодСерии','Номенклатура','Серия','Склад','Количество'])
print(common.shape) #

(122, 6)
(27, 6)
(27, 6)


In [250]:
# out the dif in excel
df_names_are_different_in_UT_BUH.to_excel('different_names.xlsx',index_label=False,index=False,float_format='%.2f') 