# 7장 엑셀 파일과 데이터 다루기

## 7.1 파이썬을 이용한 엑셀 파일 처리 과정

## 7.2 엑셀 파일 통합

### 효율적인 데이터 처리를 위한 엑셀 데이터 구조

### 여러 엑셀 파일을 하나로 통합하기

**[7장: 335페이지]**

In [None]:
from pathlib import Path

input_folder = 'C:/myPyExcel/data/ch07/sales_data/input' # 원본 데이터 폴더
raw_data_dir = Path(input_folder)
excel_files = raw_data_dir.glob('상반기_제품_판매량_*')  # 폴더 내 데이터 파일 이름 

for excel_file in excel_files:
    print(excel_file) # 원본 데이터 파일 경로 출력

**[7장: 336페이지]**

In [None]:
import pandas as pd
from pathlib import Path

input_folder = 'C:/myPyExcel/data/ch07/sales_data/input' # 원본 데이터 폴더
raw_data_dir = Path(input_folder)
excel_files = raw_data_dir.glob('상반기_제품_판매량_*')  # 폴더 내 데이터 파일 이름 

total_df = pd.DataFrame() # 빈 DataFrame 생성

for excel_file in excel_files:
    # 각 엑셀 파일의 데이터 가져오기
    df = pd.read_excel(excel_file)
    # 세로 방향으로 연결하기. 순차적으로 index 증가
    total_df = total_df.append(df, ignore_index= True)

total_df # 통합한 DataFrame 데이터 출력

**[7장: 337페이지]**

In [None]:
# 생성할 통합 엑셀 파일 경로 지정
folder = 'C:/myPyExcel/data/ch07/sales_data/' 
merged_excel_file = folder + '상반기_제품_판매량_통합.xlsx' 

# DataFrame 데이터(total_df)를 생성한 엑셀 객체에 쓰기(옵션 지정)
total_df.to_excel(merged_excel_file, # 엑셀 파일 이름 
                  sheet_name='상반기_제품_판매량_통합', # 시트 이름 지정 
                  index=False)      # DataFrame 데이터 index는 출력 안함

print("생성 파일:", merged_excel_file) # 생성한 엑셀 파일 경로

**[7장: 338페이지]**

In [None]:
import pandas as pd
import numpy as np
from pathlib import Path
import xlwings as xw

input_folder = 'C:/myPyExcel/data/ch07/sales_data/input'
raw_data_dir = Path(input_folder)
excel_files = raw_data_dir.glob('상반기_제품_판매량_*')

total_df2 = pd.DataFrame()  # 빈 DataFrame 생성

for excel_file in excel_files:
    # 각 엑셀 파일의 데이터 가져오기
    wb = xw.Book(excel_file) # 기존에 있는 엑셀 파일(excel_file) 열기
    sht = wb.sheets['Sheet1'] # 워크시트 지정
    
    # 셀 주소 'A1'부터 표 데이터를 판다스 DataFrame 데이터로 읽기
    df = sht.range('A1').options(pd.DataFrame,   
                                 expand='table', 
                                 index=False).value  
    wb.close() # 워크북 객체 닫기
    
    # 세로 방향으로 연결하기. 순차적으로 index 증가
    total_df2 = total_df2.append(df, ignore_index=True)

total_df2 # 통합한 DataFrame 데이터 출력

**[7장: 339페이지]**

In [None]:
month = ['1월','2월','3월','4월','5월','6월'] # DataFrame 데이터의 열 이름 지정
total_df2[month] = total_df2[month].astype(np.int) # 열 데이터를 정수로 변환
total_df2

## 7.3 엑셀 데이터 필터링과 계산

### 데이터 필터링

**[7장: 342페이지]**

In [None]:
import pandas as pd

# 엑셀 파일 경로 지정
folder = 'C:/myPyExcel/data/ch07/sales_data/' 
excel_file = folder + '상반기_제품_판매량_통합.xlsx' 

df = pd.read_excel(excel_file)    
df

In [None]:
df[df['제품명'] == '스마트폰']

**[7장: 343페이지]**

In [None]:
df[ (df['제품명'] == '스마트폰') | (df['제품명'] == 'TV') ]

In [None]:
df[df['제품명'].isin(['스마트폰'])]

In [None]:
df[df['제품명'].isin(['스마트폰', 'TV'])]

### 데이터 계산

**[7장: 344페이지]**

In [None]:
import pandas as pd

# 엑셀 파일 경로 지정
folder = 'C:/myPyExcel/data/ch07/sales_data/' 
excel_file = folder + '상반기_제품_판매량_통합.xlsx' 

df = pd.read_excel(excel_file)    
df

**[7장: 345페이지]**

In [None]:
df_sum = df.sum(axis=1)
df_sum

**[7장: 346페이지]**

In [None]:
df['상반기합계'] = df_sum
df

**[7장: 347페이지]**

In [None]:
df_filter = df[df['제품명'] == '스마트폰']
df_filter

In [None]:
df_filter_sum = df_filter.sum() # df_filter.sum(axis=0) 도 동일
df_filter_sum

In [None]:
df_filter_sum['제품명'] = '스마트폰'
df_filter_sum['담당자'] = '전체'
df_filter_sum['지역'] = '전체'
df_filter_sum

**[7장: 348페이지]**

In [None]:
df_filter_sum_total = df_filter.append(df_filter_sum, ignore_index=True)
df_filter_sum_total

**[7장: 348~349페이지]**

In [None]:
import pandas as pd 
    
def product_sum(df_prod, product_name):
    
    # 행별 합계 구하고 열에 추가
    df_prod['상반기합계'] = df_prod.sum(axis=1)   
    
    # 제품명이 지정한 이름과 같은 행만 필터링(선택)
    df_prod_filter = df_prod[df_prod['제품명'] == product_name]
    
    # 필터링된 행에 대해 열별 합계 구하기
    df_prod_filter_sum = df_prod_filter.sum()    
    
    # df_prod_filter_sum의 제품명 지정
    df_prod_filter_sum['제품명'] = product_name
    # df_prod_filter_sum의 담당자 지정 
    df_prod_filter_sum['담당자'] = '전체'  
    # df_prod_filter_sum의 지역 지정
    df_prod_filter_sum['지역'] = '전체'
    
    # df_prod_filter 마지막 행에 df_prod_filter_sum 추가 후 새 DataFrame 데이터 생성 
    df_prod_filter_sum_total = df_prod_filter.append(df_prod_filter_sum,
                                                     ignore_index=True)
    
    return df_prod_filter_sum_total  # 결과를 반환

**[7장: 349페이지]**

In [None]:
import pandas as pd

# 엑셀 파일 경로 지정
folder = 'C:/myPyExcel/data/ch07/sales_data/' 
excel_file = folder + '상반기_제품_판매량_통합.xlsx' 

df_prod = pd.read_excel(excel_file)    

product_names = ["스마트폰", "TV", "냉장고"]

for product_name in product_names:
    df_prod_sum = product_sum(df_prod, product_name)
    print(df_prod_sum)

**[7장: 350~351페이지]**

In [None]:
import pandas as pd

# 엑셀 파일 읽기
folder = 'C:/myPyExcel/data/ch07/sales_data/'              # 데이터 폴더 지정 
excel_file_in = folder + '상반기_제품_판매량_통합.xlsx'    # 읽어올 엑셀 파일

df_prod = pd.read_excel(excel_file_in) # 엑셀 파일 DataFrame 데이터로 읽기  

# 엑셀 파일 쓰기
excel_file_out = folder + '상반기_제품별_판매량_합계.xlsx' # 쓰기할 엑셀 파일

# 1) ExcelWriter 객체 생성
excel_writer = pd.ExcelWriter(excel_file_out, engine='xlsxwriter') 

# 2) 워크북 생성
workbook = excel_writer.book

# 3) 서식 객체 생성
title_format = workbook.add_format({           # 각 워크시트 제목의 셀 서식 지정
                        'bold': True,         # 텍스트 굵게
                        'font_size': 20,       # 글꼴 크기 20으로
                        'align': 'center',     # 가로 맞춤 가운데
                        'valign': 'vcenter'})  # 세로 맞춤 가운데

product_names = ["스마트폰", "TV", "냉장고"]   # 제품명 중 선택할 제품 지정

# 4) 각 제품별로 product_sum() 함수를 부르고 결과를 개별 워크시트에 쓰기 수행
for product_name in product_names:
    
    # 행 방향과 열 방향 합계 구하기
    df_prod_sum = product_sum(df_prod, product_name)

    # DataFrame 데이터를 엑셀 워크 시트로 출력
    df_prod_sum.to_excel(excel_writer, 
                         sheet_name=product_name, # 시트 이름을 지정
                         index=False,            # index는 출력 안함
                         startrow=2)              # 시작 행 번호 지정
    
    # 엑셀 워크 시트의 셀에 제목 출력
    worksheet = excel_writer.sheets[product_name] # 쓰기를 수행할 워크 시트 지정
    title_string = "상반기 판매량 합계: {}".format(product_name) # 제목 문자열
    worksheet.write('E1', title_string, title_format) # 셀 'E1'에 서식 지정 쓰기
    
# 5) ExcelWriter 객체를 닫고 엑셀 파일로 저장
excel_writer.save() 

print("출력 엑셀 파일:", excel_file_out)

### 여러 엑셀 파일에 적용하기

**[7장: 353페이지]**

In [None]:
import pandas as pd

# 엑셀 파일 읽기
folder = 'C:/myPyExcel/data/ch07/sales_data/input/' # 입력 데이터 폴더 지정 
excel_file = folder + '상반기_제품_판매량_이재정.xlsx' # 읽어올 엑셀 파일

df = pd.read_excel(excel_file)    
df

In [None]:
df['합계'] = df.sum(axis=1)
df

**[7장: 354페이지]**

In [None]:
# 엑셀 파일 쓰기
folder = 'C:/myPyExcel/data/ch07/sales_data/'           # 출력 폴더 지정 
excel_file = folder + '상반기_판매량_이재정_합계.xlsx'  # 출력할 엑셀 파일
 
df.to_excel(excel_file, index=False)

print("생성 파일:", excel_file) # 생성한 파일 이름 출력

**[7장: 354~355페이지]**

In [None]:
import pandas as pd
from pathlib import Path

# 함수명: add_sum
# 역할: 엑셀 파일을 입력하면 처리 후 지정한 출력 디렉터리에 엑셀 파일로 출력
# 입력인자: excel_file (엑셀 파일, 경로 포함), output_dir (출력 디렉터리)

def add_sum(excel_file, output_dir): 
    df = pd.read_excel(excel_file) # DataFrame으로 읽기
    df['합계'] = df.sum(axis=1)    # '합계'열 추가
    
    # 새로운 파일이름 생성
    new_file_name = excel_file.stem + "_합계_제목_추가" +  ".xlsx" 
    output_excel_file = Path(output_dir + new_file_name) # 생성할 엑셀 파일 경로

    # ExcelWriter 객체 생성
    excel_writer = pd.ExcelWriter(output_excel_file, engine='xlsxwriter') 
    # ExcelWriter로부터 객체(excel_writer)에서 워크북 생성
    workbook  = excel_writer.book 

    # 서식 지정
    title_format = workbook.add_format({       # 각 워크시트 제목의 셀 서식 지정
                        'bold': True,          # 텍스트 굵게
                        'font_size': 20,       # 글꼴 크기 20으로
                        'align': 'center',     # 가로 맞춤 가운데
                        'valign': 'vcenter'})  # 세로 맞춤 가운데

    # DataFrame 데이터를 엑셀 워크 시트로 출력
    df.to_excel(excel_writer, sheet_name='Sheet1', index=False, startrow=2)

    # 엑셀 워크 시트의 셀에 제목 출력(서식 지정)
    worksheet = excel_writer.sheets['Sheet1'] # 쓰기를 수행할 워크 시트 지정
    title_string = "판매량 합계: {}".format(df['담당자'][0]) # 제목 문자열 생성
    worksheet.write('E1', title_string, title_format)        # 지정한 셀(E1)에 쓰기

    # ExcelWriter 객체를 닫고 엑셀 파일로 저장
    excel_writer.save() 
    
    return output_excel_file

**[7장: 355~356페이지]**

In [None]:
import pandas as pd
from pathlib import Path

input_dir = Path('C:/myPyExcel/data/ch07/sales_data/input') # 원본 디렉터리
excel_files = input_dir.glob('상반기_제품_판매량_*')        # 원본 엑셀 파일 경로

output_dir = 'C:/myPyExcel/data/ch07/sales_data/output/'    # 엑셀 파일 출력 디렉터리

print("[출력 디렉터리]", output_dir)
for excel_file in excel_files:
    output_excel_file = add_sum(excel_file, output_dir)
    print("[출력 파일]", output_excel_file.name)            # 엑셀 파일 이름 출력

## 7.4 알아두면 유용한 엑셀 함수를 파이썬으로 처리하기

### 지정한 범위에서 데이터 찾아서 가져오기

**[7장: 359페이지]**

In [None]:
import pandas as pd

# 엑셀 파일 읽기
folder = 'C:/myPyExcel/data/ch07/func_data/' # 폴더 지정 
excel_file = folder + '주문내역_샘플.xlsx' # 읽어올 엑셀 파일

# 엑셀 파일 데이터를 DataFrame 데이터로 읽어 오기
df = pd.read_excel(excel_file) 
df

**[7장: 360페이지]**

In [None]:
# 엑셀 파일 읽기
excel_file = folder + '주문내역_참조데이터.xlsx' # 읽어올 엑셀 파일
df_ref = pd.read_excel(excel_file) # 엑셀 파일을 DataFrame 데이터로 읽기
df_ref

**[7장: 361페이지]**

In [None]:
df_new = df.merge(df_ref, how='left', on='제품명') # 두 개의 DataFrame 병합
df_new

In [None]:
df_new = df_new[['주문번호','제품명','제품코드','제품가격','수량','발주처']]
df_new

**[7장: 362~363페이지]**

In [None]:
import pandas as pd

# 엑셀 파일 경로 지정
folder = 'C:/myPyExcel/data/ch07/func_data/'  # 폴더 지정 
excel_file = folder + '주문내역_샘플.xlsx'    # 원본 엑셀 파일
excel_file_ref = folder +'주문내역_참조데이터.xlsx' # 참조 데이터 표 엑셀 파일
excel_file_new = folder + '주문내역_샘플_new.xlsx'  # 데이터를 추가한 엑셀 파일

# excel_file을 DataFrame 데이터(df)로 읽어 오기
df = pd.read_excel(excel_file)
# excel_file_ref를 DataFrame 데이터(df_ref)로 읽어 오기
df_ref = pd.read_excel(excel_file_ref) 

# 두 개의 DataFrame 데이터를 통합
df_new = df.merge(df_ref, how='left', on='제품명') 
# DataFrame 데이터에서 열의 순서 변경
df_new = df_new[['주문번호','제품명','제품코드','제품가격','수량','발주처']]

# DataFrame 데이터를 엑셀 파일로 쓰기. 워크시트 이름 지정, index 불포함
sheet_name1 = '참조 데이터 표 엑셀 파일 이용해서 데이터 입력'
df_new.to_excel(excel_file_new, sheet_name=sheet_name1, index=False)

print("생성한 엑셀 파일:", excel_file_new) # 생성한 파일 이름 출력

### 조건에 따라 결과 입력하기

**[7장: 365페이지]**

In [None]:
import pandas as pd

folder = 'C:/myPyExcel/data/ch07/condition_data/' # 폴더 지정 
excel_file = folder + '시험성적.xlsx' # 원본 엑셀 파일

df = pd.read_excel(excel_file)        # DataFrame 데이터(df)로 읽어 오기
df

In [None]:
# 중간고사와 기말고사의 평균 구하기
df_mean = df[['중간고사', '기말고사']].mean(axis=1) 
df_mean

**[7장: 366페이지]**

In [None]:
df['평균'] = df_mean
df

In [None]:
df.loc[df['평균'] >= 90, '학점'] = 'A'
df.loc[(df['평균'] >= 80) & (df['평균'] < 90), '학점'] = 'B'
df.loc[df['평균'] < 80, '학점'] = 'C'
df

**[7장: 367페이지]**

In [None]:
import pandas as pd

folder = 'C:/myPyExcel/data/ch07/condition_data/' # 폴더 지정 
excel_file = folder + '시험성적.xlsx' # 원본 엑셀 파일
excel_file_new = folder + '시험성적_new.xlsx' #  생성할 엑셀 파일

# excel_file을 DataFrame 데이터(df)로 읽어 오기
df = pd.read_excel(excel_file)
# 중간고사와 기말고사의 평균 구하고 '평균'열에 추가하기
df['평균']= df[['중간고사', '기말고사']].mean(axis = 1) 

# 평균에 따라서 학점 구분해 학점 열에 입력
df.loc[df_mean >= 90, '학점'] = 'A'
df.loc[(df_mean >= 80) & (df_mean < 90), '학점'] = 'B'
df.loc[df_mean < 80, '학점'] = 'C'

# DataFrame 데이터를 엑셀 파일로 쓰기. 워크시트 이름 지정, index 불포함
sheet_name1 = "시험 성적 및 평가 결과"
df.to_excel(excel_file_new, sheet_name=sheet_name1, index=False)

print("생성한 엑셀 파일:", excel_file_new) # 생성한 파일 이름 출력

### 조건에 따라 다른 서식 적용하기

**[7장: 369페이지]**

In [None]:
import pandas as pd

folder = 'C:/myPyExcel/data/ch07/condition_data/' # 폴더 지정 
excel_file = folder + '시험성적_new.xlsx' # 원본 엑셀 파일

df = pd.read_excel(excel_file) # DataFrame 데이터(df)로 읽어 오기
df

**[7장: 370~371페이지]**

In [None]:
# (1) ExcelWriter 객체 생성 (엔진은 xlsxwriter)
folder = 'C:/myPyExcel/data/ch07/condition_data/' # 폴더 지정 
excel_file_new2 = folder + '시험성적_new2.xlsx'   # 원본 엑셀 파일

# ExcelWriter 객체 생성
excel_writer = pd.ExcelWriter(excel_file_new2, engine='xlsxwriter') 

# (2) DataFrame 데이터를 지정된 엑셀 워크시트에 쓰기
# 워크시트 이름 지정. index는 불포함
sheet_name1 = '조건부_서식'
df.to_excel(excel_writer, sheet_name=sheet_name1, index=False) 

# (3) ExcelWriter 객체에서 워크북(workbook)과 워크시트(worksheet) 객체 생성 
workbook  = excel_writer.book  # 워크북 객체 생성
worksheet = excel_writer.sheets[sheet_name1] # 워크시트 객체 생성

# (4) 셀 서식 지정을 위한 객체 생성
cell_format = workbook.add_format() # 서식 형식 객체 생성

# (5) 셀 서식 지정
cell_format.set_bg_color('yellow') # 셀의 배경을 노란색으로 설정
 
# (6) 조건부 서식 지정
# 행 번호와 열 번호를 이용한 범위 지정 방식을 이용
worksheet.conditional_format(1, 3, 10, 3, # 시작_행_번호, 시작_열_번호, 끝_행_번호, 끝_열_번호
                             {'type': 'cell',    # 지정된 범위의 셀이
                              'criteria': '>=',  # value 이상 이면
                              'value': 90,         
                              'format': cell_format}) # cell_format 서식 적용

# 셀 주소를 이용한 범위 지정 방식을 이용
# worksheet.conditional_format('D2:D11',  # 시작_셀_주소:끝_셀_주소
#                              {'type': 'cell',    # 지정된 범위의 셀이
#                               'criteria': '>=',  # value 이상 이면
#                               'value': 90,         
#                               'format': cell_format}) # cell_format 서식 적용

# (7) # ExcelWriter 객체를 닫고 엑셀 파일로 저장
excel_writer.save() 

print("생성한 엑셀 파일:", excel_file_new2) # 생성한 파일 이름 출력

## 7.5 엑셀 데이터 정제

### 누락 데이터 확인과 처리

**[7장: 373~374페이지]**

In [None]:
import pandas as pd

folder = 'C:/myPyExcel/data/ch07/missing_data/' # 폴더 지정 
excel_file = folder + '자동차판매현황.xlsx' # 원본 엑셀 파일

# 엑셀 파일을 DataFrame으로 읽기(index로 사용할 열 이름을 지정)
df = pd.read_excel(excel_file, index_col='연도')
df

**[7장: 374페이지]**

In [None]:
df.info()

**[7장: 376페이지]**

In [None]:
df.isnull() # DataFrame 데이터에서 결측치이면 True

In [None]:
df.isnull().sum() # DataFrame 각 열에서 결측치 개수 계산

In [None]:
df.notnull() # DataFrame 데이터에서 비결측치이면 True

**[7장: 377페이지]**

In [None]:
df.notnull().sum() # DataFrame 각 열에서 비결측치 개수 계산

**[7장: 378페이지]**

In [None]:
df

In [None]:
df.dropna(axis=0) # df.dropna()과 동일

**[7장: 379페이지]**

In [None]:
df.dropna(axis=0, thresh=4)

In [None]:
df.dropna(axis=1)

In [None]:
df.dropna(axis=1, subset=[2018, 2019])

**[7장: 380페이지]**

In [None]:
df.fillna(0) # df.fillna(value=0)과 동일

**[7장: 381페이지]**

In [None]:
df.fillna("누락") # df.fillna(value="누락")과 동일

In [None]:
df.fillna(method='bfill') # df.fillna(method='bfill', axis=0)과 동일

**[7장: 382페이지]**

In [None]:
df.fillna(method='ffill') # df.fillna(method='ffill', axis=0)과 동일

In [None]:
# 딕셔너리를 이용해 열별로 채울 값을 지정
values = {"세단A": 500, "트럭X":200, "왜건K": 0, "밴Q": 0 } 

df.fillna(values) # df.fillna(value=values)와 동일

### 데이터 추출과 정리

**[7장: 384~385페이지]**

In [None]:
import pandas as pd

folder = 'C:/myPyExcel/data/ch07/transaction/raw/' # 폴더 지정 
excel_file = folder + '거래명세서_No_1258115.xlsx' # 원본 엑셀 파일

df = pd.read_excel(excel_file)
df

**[7장: 386페이지]**

In [None]:
# 특정 위치의 값 추출 후 리스트 생성
column_names0 = [df.iloc[7][0], df.iloc[7][2], df.iloc[0][0]] 
# 특정 범위의 값 추출 후 리스트 생성
column_names1 = list(df.iloc[11,1:6].values)                 

column_names = column_names0 + column_names1 # 두 리스트의 결합
column_names

In [None]:
df_new = pd.DataFrame(columns = column_names)
df_new

**[7장: 386~387페이지]**

In [None]:
date = df.iloc[8][0]         # 작성 일차 추출
issue_num = df.iloc[8][2]    # 발행 번호 추출
company = df.iloc[0][1]      # 거래처 추출

[date, issue_num, company]

**[7장: 387페이지]**

In [None]:
date_new = date.strftime("%Y-%m-%d") # datetime 형식의 데이터에서 날짜만 추출
date_new

In [None]:
row_num = 6 # 추출한 DataFrame의 열 개수

df_new[column_names[0]] = [date_new] * row_num   # 작성일자로 열 데이터 생성
df_new[column_names[1]] = [issue_num] * row_num  # 발행번호로 열 데이터 생성
df_new[column_names[2]] = [company] * row_num    # 거래처로 열 데이터 생성
df_new

**[7장: 388페이지]**

In [None]:
df_new[column_names[3]] = df.iloc[12:12+row_num, 1].values
df_new

In [None]:
for k in range(5):
    df_new[column_names[3+k]] = df.iloc[12:12+row_num, 1+k].values
    
df_new

In [None]:
df_new = df_new.dropna() # NaN이 들어간 데이터 제거
df_new

**[7장: 389~390페이지]**

In [None]:
# 함수 설명: 거래명세서 파일에서 필요 내용 추출해 DataFrame 데이터로 반환
# 입력: excel_file(엑셀 파일), row_num(거래내역 최대 개수)
# 출력: 새로운 구조의 DataFrame 데이터
 
import pandas as pd

def excel_data_extractor(excel_file, row_num):
    
    df = pd.read_excel(excel_file)
    
    # 특정 위치의 값 추출 후 리스트 생성
    column_name0 = [ df.iloc[7][0], df.iloc[7][2], df.iloc[0][0] ] 
    # 특정 범위의 값 추출 후 리스트 생성
    column_name1 = list(df.iloc[11,1:6].values)                 

    column_names = column_name0 + column_name1 # 두 리스트를 결합

    df_new = pd.DataFrame(columns=column_names)
    
    date = df.iloc[8][0]      # 작성 일차 추출
    issue_num = df.iloc[8][2] # 발행 번호 추출
    company = df.iloc[0][1]   # 거래처 추출
    
    date_new = date.strftime("%Y-%m-%d") # datetime 형식의 데이터에서 날짜만 추출
    
    df_new[column_names[0]] = [date_new] * row_num  # 작성일자로 열 데이터 생성
    df_new[column_names[1]] = [issue_num] * row_num # 발행번호로 열 데이터 생성
    df_new[column_names[2]] = [company] * row_num   # 거래처로 열 데이터 생성

    for k in range(5):
        df_new[column_names[3+k]] = df.iloc[12:12+row_num, 1+k].values

    df_new = df_new.dropna() # NaN이 들어간 행 제거
        
    return df_new

**[7장: 390페이지]**

In [None]:
folder = 'C:/myPyExcel/data/ch07/transaction/raw/' # 폴더 지정 
excel_file = folder + '거래명세서_No_1258115.xlsx' # 원본 엑셀 파일

df1 = excel_data_extractor(excel_file, 6)
df1

**[7장: 392페이지]**

In [None]:
import pandas as pd
from pathlib import Path

folder = 'C:/myPyExcel/data/ch07/transaction/raw' # 폴더 지정
raw_data_dir = Path(folder) # glob을 위한 디렉터리 설정 

# '거래명세서_No'으로 시작하는 엑셀 파일 모두 가져오기
excel_files = raw_data_dir.glob('거래명세서_No*.xlsx')  

total_df = pd.DataFrame() # 빈 DataFrame 생성

for excel_file in excel_files:
    # 각 엑셀 파일에서 원하는 데이터 추출
    df = excel_data_extractor(excel_file, 6) 
    # 세로 방향으로 DataFrame 데이터 통합하기, 순차적으로 index 증가
    total_df = total_df.append(df, ignore_index=True)  

total_df # 통합한 DataFrame 데이터 출력

**[7장: 393페이지]**

In [None]:
import pandas as pd

# 엑셀 경로
folder = 'C:/myPyExcel/data/ch07/transaction/'     # 폴더 지정 
merged_excel_file = folder + '거래명세서_데이터_추출_후_통합.xlsx' # 원본 엑셀 파일

total_df.to_excel(merged_excel_file, index=False) # index 없이 쓰기 수행

print("생성 파일:", merged_excel_file) # 생성한 파일 이름 출력

## 7.6 엑셀 데이터 요약과 집계

### 피벗 테이블 만들기 기본

**[7장: 396페이지]**

In [None]:
import pandas as pd

# 엑셀 경로
folder = 'C:/myPyExcel/data/ch07/pivot_data/'        # 폴더 지정 
excel_file = folder + '피벗_테이블_기본_데이터.xlsx' # 원본 엑셀 파일

# 엑셀 데이터를 DataFrame으로 읽기
df_coffee = pd.read_excel(excel_file, sheet_name='커피_판매현황_데이터') 
df_coffee

**[7장: 398페이지]**

In [None]:
df_coffee.pivot_table(index=["메뉴"], values=["주문개수"], aggfunc='sum')

In [None]:
df_coffee.pivot_table(index=["메뉴"], values=["주문개수"], 
                      aggfunc='sum', margins=True)

In [None]:
df_pivot = df_coffee.pivot_table(index=["메뉴"], values=["주문개수"], 
                                 aggfunc=['sum', 'count'], margins=True)
df_pivot

**[7장: 399페이지]**

In [None]:
# 엑셀 경로
folder = 'C:/myPyExcel/data/ch07/pivot_data/' # 폴더 지정 
excel_file = folder + '피벗_테이블_기본_데이터_집계_결과.xlsx' # 출력 엑셀 파일

# DataFrame 데이터를 엑셀로 쓰기
df_pivot.to_excel(excel_file, sheet_name='pivot_table')

print("생성 파일:", excel_file) # 생성한 파일 이름 출력

### 피벗 테이블 만들기 심화

**[7장: 402페이지]**

In [None]:
import pandas as pd

# 엑셀 경로
folder = 'C:/myPyExcel/data/ch07/pivot_data/'        # 폴더 지정 
excel_file = folder + '피벗_테이블_심화_데이터.xlsx' # 원본 엑셀 파일

# 엑셀 데이터를 DataFrame으로 읽기
df_product = pd.read_excel(excel_file, sheet_name='농수산물_판매현황_데이터')
df_product

**[7장: 403페이지]**

In [None]:
df_product.pivot_table(index=["구분"], values=["주문량"], 
                       aggfunc='sum', margins=True)

**[7장: 404페이지]**

In [None]:
df_product.pivot_table(index=["구분", "주문품"], values=["주문량"], 
                       aggfunc='sum', margins=True)

In [None]:
df_product.pivot_table(index=["구분", "주문품"], values=["주문량"], 
                       columns=["마트"], aggfunc='sum', margins=True)

**[7장: 405페이지]**

In [None]:
df_pivot2 = df_product.pivot_table(index=["구분", "주문품"], values=["주문량"], 
                                   columns=["마트"], aggfunc='sum', margins=True, 
                                   fill_value=0)
df_pivot2

In [None]:
# 엑셀 경로
folder = 'C:/myPyExcel/data/ch07/pivot_data/' # 폴더 지정 
excel_file = folder + '피벗_테이블_심화_데이터_집계_결과.xlsx' # 출력 엑셀 파일 이름

df_pivot2.to_excel(excel_file, sheet_name='pivot_table')       # DataFrame 데이터를 엑셀로 쓰기

print("생성 파일:", excel_file)                                # 생성한 파일 이름 출력

**[7장: 406페이지]**

In [None]:
df_product.pivot_table(index=["구분", "주문품"], values=["주문량", "판매액"], 
                       columns =["마트"], aggfunc='sum', margins=True, 
                       fill_value=0)

**[7장: 407페이지]**

In [None]:
df_product.pivot_table(index=["마트", "구분", "주문품"], values=["주문량", "판매액"], 
                       aggfunc='sum', margins=True)

In [None]:
df_product.pivot_table(index=["마트"], values=["주문량", "판매액"], 
                       columns=['구분', '주문품'], aggfunc='sum', 
                       margins=True, fill_value=0)

## 7.7 웹 페이지에서 데이터 가져오기

### 표 데이터 가져오기 기본

**[7장: 411페이지]**

In [None]:
import pandas as pd

url='https://search.naver.com/search.naver?sm=top_hty&fbm=0&ie=utf8&query=%ED%99%98%EC%9C%A8'

# url에서 표 데이터를 추출해 DataFrame 데이터의 리스트로 반환
dfs = pd.read_html(url)
dfs

**[7장: 412페이지]**

In [None]:
len(dfs)

In [None]:
dfs[0]

In [None]:
exchange_rate_df = dfs[0].replace({'전일대비상승': '▲', 
                                   '전일대비하락': '▼'}, regex=True)
exchange_rate_df

**[7장: 413페이지]**

In [None]:
import pandas as pd

url='https://search.naver.com/search.naver?sm=top_hty&fbm=0&ie=utf8&query=%ED%99%98%EC%9C%A8'

# url에서 표 데이터를 추출해 DataFrame 데이터의 리스트로 반환
dfs = pd.read_html(url) 

# DataFrame 데이터에서 문자열 변경
exchange_rate_df = dfs[0].replace({'전일대비상승': '▲', 
                                   '전일대비하락': '▼'}, regex=True)

# 엑셀 파일 경로
folder =  'C:/myPyExcel/data/ch07/webpage_data/'
excel_file = folder + "네이버_환율_검색_결과_표_데이터.xlsx" # 저장할 엑셀 파일

# DataFrame의 index 없이 엑셀 파일로 저장
exchange_rate_df.to_excel(excel_file, index=False) 

print("생성 파일:", excel_file) # 엑셀 파일 이름 출력

**[7장: 415페이지]**

In [None]:
import pandas as pd

# 네이버 금융의 환율 정보 웹 사이트 주소
url = 'https://finance.naver.com/marketindex/exchangeList.nhn' 

# 웹 사이트의 표 데이터에서 두 번째 줄을 DataFrame 데이터의 columns로 선택
dfs = pd.read_html(url, header=1) 

dfs[0].head(9) # 전체 데이터 중 앞의 일부분만 표시

In [None]:
# 엑셀 파일 경로
folder =  'C:/myPyExcel/data/ch07/webpage_data/'
excel_file = folder + "네이버_금융_환율_리스트.xlsx" # 저장할 엑셀 파일

# DataFrame의 index 없이 엑셀 파일로 저장
dfs[0].to_excel(excel_file, index=False) 

print("생성 파일:", excel_file) # 엑셀 파일 이름 출력

### 표 데이터 가져오기 심화 

> **내용 수정 알림**
>
> 7.7.2절 '표 데이터 가져오기 심화'(416 ~ 422쪽)에 사용한 '네이버뮤직' 서비스의 중단으로 벅스에서 음악 순위를 가져와 파일로 저장하는 내용으로 대체합니다. 이를 위한 PDF 파일은 아래 링크에서 다운로드할 수 있습니다.
>
> https://wikibook.co.kr/wp/wp-content/uploads/2021/01/일-잘하는-직장인을-위한-엑셀-자동화-with-파이썬_7.7.2.pdf
>
> 여기서는 대체된 7.7.2절의 내용을 반영한 코드를 제공합니다.

**[7장: 418페이지]**

In [None]:
import pandas as pd

base_url = 'https://music.bugs.co.kr/chart/track/week/total?'
url = base_url + 'chartdate=20191104' # 2019년 11월 4일로 날짜를 지정

# 웹 사이트의 표 데이터를 DataFrame 데이터 리스트로 반환
dfs = pd.read_html(url) 

dfs[0].head(5) # 첫 번째 DataFrame 데이터(dfs[0])에 뮤직 차트가 있음 

**[7장: 419페이지]**

In [None]:
# 내장 함수 range()를 이용해 순위 열에 1에서 100까지 할당
dfs[0]['순위'] = range(1,101)

# 웹 사이트 표 데이터 중 원하는 열만 선택해 다른 변수에 지정
df_top100 = dfs[0][['순위', '곡', '아티스트']]
df_top100.head(5) # 처음 일부 데이터만 출력

**[7장: 419~420페이지]**

In [None]:
import pandas as pd

# 벅스차트에서 연도, 월, 일을 지정해 주간 뮤직 차트(Top100)를 추출하는 함수
# 반환 결과: DataFrame 데이터
def bugs_chart_week_top100(year, month, day):
    
    # 월과 일의 경우는 항상 두 자리로 맞춤
    month = "{0:02d}".format(month) 
    day = "{0:02d}".format(day) 
        
    base_url = 'https://music.bugs.co.kr/chart/track/week/total?'        
    url = base_url + 'chartdate={0}{1}{2}'.format(year, month, day)
    
    # 웹 사이트의 표 데이터를 DataFrame 데이터 리스트로 반환
    dfs = pd.read_html(url) 

    # 내장 함수 range()를 이용해 순위 열에 1에서 100까지 할당
    dfs[0]['순위'] = range(1,101)

    # 웹 사이트 표 데이터 중 원하는 열만 선택해 다른 변수에 지정
    df_top100 = dfs[0][['순위', '곡', '아티스트']] 
    
    return df_top100

**[7장: 420페이지]**

In [None]:
df = bugs_chart_week_top100(2020, 4, 8) # bugs_chart_week_top100() 함수를 호출
df.head(10) # 처음 일부 데이터만 출력

In [None]:
folder =  'C:/myPyExcel/data/ch07/webpage_data/'
excel_file = folder + "벅스_차트_주간_Top100.xlsx" # 저장할 엑셀 파일

df.to_excel(excel_file, index=False) # DataFrame의 index 없이 엑셀 파일로 저장

print("생성 파일:", excel_file) # 엑셀 파일 이름 출력

**[7장: 421~422페이지]**

In [None]:
folder =  'C:/myPyExcel/data/ch07/webpage_data/'
excel_file = folder + "벅스_차트_주간_Top100_2020년_11월.xlsx" # 저장할 엑셀 파일

year = 2020               # 연도 지정
month = 11                # 월 지정
days = [1, 8, 15, 22, 29] # 일 지정(일 주일 간격)

with pd.ExcelWriter(excel_file, engine='xlsxwriter') as excel_writer:    
    for day in days:
        # 지정한 주의 top100 뮤직 차트 데이터 가져오기
        df = bugs_chart_week_top100(year, month, day) 

        # DataFrame 데이터를 엑셀 파일로 저장
        week = day//7 + 1 # 날짜를 주로 변환
        week_name = '{0}주'.format(week)  # 시트 이름 지정
        
        # index 없이 시트 이름을 지정해 엑셀로 쓰기
        df.to_excel(excel_writer, sheet_name=week_name, index=False) 
        
print("생성 파일:", excel_file) # 엑셀 파일 이름 출력

## 7.8 정리