In [142]:
import pandas as pd

In [150]:
# 파일 경로
file_path_tax_approval = '국세청승인자료(달랏사이트매출).xlsx'
file_path_credit_card = '신용·체크카드_결제내역_2024.03.01-2024.03.31.xlsx'
file_path_cash_receipt = '현금영수증_2024.03.01-2024.04.01.xlsx'

# 각 파일 읽기
df_tax_approval = pd.read_excel(file_path_tax_approval)
df_credit_card = pd.read_excel(file_path_credit_card)
df_cash_receipt = pd.read_excel(file_path_cash_receipt)

  warn("Workbook contains no default style, apply openpyxl's default")


In [151]:
df_credit_card.info()
df_tax_approval.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 58 entries, 0 to 57
Data columns (total 17 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   상점아이디(MID)  57 non-null     object 
 1   결제일시        57 non-null     object 
 2   취소일시        5 non-null      object 
 3   주문번호        57 non-null     object 
 4   결제상태        57 non-null     object 
 5   구매자명        57 non-null     object 
 6   결제액         58 non-null     int64  
 7   취소액         55 non-null     float64
 8   부가세         57 non-null     float64
 9   공급가액        57 non-null     float64
 10  면세가액        57 non-null     float64
 11  결제수단        57 non-null     object 
 12  결제기관        57 non-null     object 
 13  구매상품        57 non-null     object 
 14  안내메시지       57 non-null     object 
 15  승인번호        57 non-null     float64
 16  취소자         5 non-null      object 
dtypes: float64(5), int64(1), object(11)
memory usage: 7.8+ KB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1260 

In [152]:
# 국세청 데이터와 신용카드 결제 내역 데이터를 합치는 과정
# df_1은 국세청 데이터, df_2는 신용카드 결제 내역 데이터를 나타냅니다.

# 새로운 데이터프레임 생성을 위해 필요한 컬럼만 df_2에서 선택
merged_data = df_credit_card[['결제일시', '공급가액', '부가세', '결제액', '승인번호', '결제수단','주문번호']].copy()

# 컬럼 이름을 df_1과 일치시키기 위해 변경
merged_data.rename(columns={
    '결제일시': '매출일시',
    '결제액': '총금액',
    '결제수단': '거래구분'
}, inplace=True)

# 봉사료, 신분확인 뒷4자리, 용도구분, 비고 컬럼 추가 (값은 비워둠)
merged_data['봉사료'] = None  # 봉사료는 비워둡니다.
merged_data['신분확인뒷4자리'] = None  # 신분확인 뒷4자리는 비워둡니다.
merged_data['용도구분'] = None  # 용도구분은 비워둡니다.
merged_data['비고'] = None  # 비고는 비워둡니다.

# df_1 (국세청 데이터)과 합치기
final_df = pd.concat([df_tax_approval, merged_data], ignore_index=True)

# 최종 데이터프레임 확인
final_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1318 entries, 0 to 1317
Data columns (total 12 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   발행구분      1260 non-null   object 
 1   매출일시      1317 non-null   object 
 2   공급가액      1317 non-null   float64
 3   부가세       1317 non-null   float64
 4   봉사료       1260 non-null   object 
 5   총금액       1318 non-null   int64  
 6   승인번호      1317 non-null   float64
 7   신분확인뒷4자리  1260 non-null   object 
 8   거래구분      1317 non-null   object 
 9   용도구분      1260 non-null   object 
 10  비고        1260 non-null   object 
 11  주문번호      57 non-null     object 
dtypes: float64(3), int64(1), object(8)
memory usage: 123.7+ KB


In [153]:
# 승인번호를 기준으로 신용체크카드 결제내역과 현금영수증 내역의 주문번호를 추출
cash_receipt_order_numbers = df_cash_receipt[['승인번호', '주문번호']].drop_duplicates(subset='승인번호')

# 국세청 승인자료에 주문번호 컬럼 추가하기
Ordernumber_merged = final_df.merge(cash_receipt_order_numbers, on='승인번호', how='left')

In [154]:
# '주문번호_x' 컬럼의 NaN 값을 '주문번호_y' 값으로 채우고, '주문번호'라는 새 컬럼에 저장
Ordernumber_merged['주문번호'] = Ordernumber_merged['주문번호_x'].fillna(Ordernumber_merged['주문번호_y'])

# 이제 '주문번호_x'와 '주문번호_y' 컬럼은 필요 없으므로 삭제
Ordernumber_merged.drop(columns=['주문번호_x', '주문번호_y'], inplace=True)

In [155]:
Ordernumber_merged.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1318 entries, 0 to 1317
Data columns (total 12 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   발행구분      1260 non-null   object 
 1   매출일시      1317 non-null   object 
 2   공급가액      1317 non-null   float64
 3   부가세       1317 non-null   float64
 4   봉사료       1260 non-null   object 
 5   총금액       1318 non-null   int64  
 6   승인번호      1317 non-null   float64
 7   신분확인뒷4자리  1260 non-null   object 
 8   거래구분      1317 non-null   object 
 9   용도구분      1260 non-null   object 
 10  비고        1260 non-null   object 
 11  주문번호      1317 non-null   object 
dtypes: float64(3), int64(1), object(8)
memory usage: 133.9+ KB


In [156]:
# 주문번호에서 '-'와 '-' 뒤의 값을 삭제
Ordernumber_merged['주문번호'] = Ordernumber_merged['주문번호'].str.split('-').str[0]

In [157]:
# 결과를 새 파일로 저장
output_file_path = '국세청승인자료_주문번호추가.xlsx'
Ordernumber_merged.to_excel(output_file_path, index=False)

# 저장된 파일 경로 반환
output_file_path

'국세청승인자료_주문번호추가.xlsx'

In [158]:
Ordernumber_merged

Unnamed: 0,발행구분,매출일시,공급가액,부가세,봉사료,총금액,승인번호,신분확인뒷4자리,거래구분,용도구분,비고,주문번호
0,사업자,2024-03-14 14:42:48,-639086.0,-60914.0,0,-700000,160686873.0,1234,취소거래,소비자소득공제용,일반거래,3000000199
1,사업자,2024-03-08 14:40:06,-285113.0,-15887.0,0,-301000,160491779.0,1234,취소거래,소비자소득공제용,일반거래,000000357
2,사업자,2024-03-29 14:57:02,-109124.0,-8776.0,0,-117900,160516194.0,1234,취소거래,소비자소득공제용,일반거래,3000000425
3,사업자,2024-03-28 14:53:22,-76127.0,-5773.0,0,-81900,160530861.0,1234,취소거래,소비자소득공제용,일반거래,000000991
4,사업자,2024-03-14 14:42:57,-69402.0,-3198.0,0,-72600,160688454.0,1234,취소거래,소비자소득공제용,일반거래,000000647
...,...,...,...,...,...,...,...,...,...,...,...,...
1313,,2024-03-14 13:32:14,3636.0,364.0,,154000,3195869.0,,일반,,,3000000274
1314,,2024-03-14 09:25:59,0.0,0.0,,8600,893529.0,,일반,,,3000000265
1315,,2024-03-13 17:38:39,0.0,0.0,,-8600,770583.0,,일반,,,5000000080
1316,,2024-03-13 17:38:39,0.0,0.0,,8600,770583.0,,일반,,,5000000080


# 주문번호 붙이기 완성 이제 고객명 붙이기

In [159]:
# 데이터 파일 로드
dalat_sales = pd.read_excel('3월 달랏매출.xlsx')
tax_approval_data = pd.read_excel('국세청승인자료_주문번호추가.xlsx')

# 'Order No'와 '주문번호'를 기준으로 두 데이터 프레임을 합친다
merged_data = pd.merge(tax_approval_data, dalat_sales[['Order No', '고객 이름']], left_on='주문번호', right_on='Order No', how='left')

# 중복된 행 제거
final_data = merged_data.drop_duplicates()

# 필요한 컬럼만 선택하여 최종 데이터 프레임 생성
final_columns = ['발행구분', '매출일시', '공급가액', '부가세', '봉사료', '총금액', '승인번호', '신분확인뒷4자리', '거래구분', '용도구분', '비고', '주문번호', '고객 이름']
final_data = final_data[final_columns]

# 최종 데이터를 Excel 파일로 저장
final_data_path = 'final_merged_data.xlsx'
final_data.to_excel(final_data_path, index=False)

# 노가다해서 나온 결과물 groupby 해주기

In [None]:
# 엑셀 파일 경로
file_path = '달랏 3월 원장.xlsx'

# 첫 번째 시트의 데이터를 읽어옴
df = pd.read_excel(file_path, sheet_name=0)

# 고객 이름별로 '공급가액', '부가세', '봉사료', '총금액'의 합계 계산
grouped = df.groupby('고객 이름')[['공급가액', '부가세', '봉사료', '총금액']].sum().reset_index()