### 엑셀 파일과 데이터 다루기

- 데이터를 python으로 읽어와 처리하고 분석한 후에 원하는 형식으로 출력한다.
- 입력 (csv, xlsx, txt, data) --> 데이터 처리(NumPy, XlsxWriter, pandas, xwing) --> 출력 (csv, xlsx, txt, graph)

### Python 처리를 고려한 엑셀 문서 구조

- 열의 머리글(header)은 한 줄로만 만들고 데이터는 그 아래에 입력한다.
- 열 머리글이나 데이터 입력 부분에 셀 병합 기능은 이용하지 않는다.
- 데이터를 입력할 때 하나의 셀에 숫자와 단위를 같이 쓰지 않는다.
- 하나의 열에 입력한 값의 데이터 형식은 모두 일치해야 한다. 즉, 하나의 열에 문자열, 숫자, 날짜 등을 섞어 쓰지 않는다.
- 데이터를 시기별(연도, 분기, 월, 주 등), 업체별, 제품별 등의 시트로 나누지 않는다. 즉, 가능하면 모든 데이터를 하나의 시트에 다 넣는다.


In [3]:
import pandas as pd
from pathlib import Path
folder = './example/pyexcel-master/data/ch07/sales_data/'

### 여러 엑셀 파일을 하나로 통합하기

In [6]:
input_folder = './example/pyexcel-master/data/ch07/sales_data/input' # 원본 데이터 폴더

raw_data_dir = Path(input_folder)
excel_files = raw_data_dir.glob('상반기_제품_판매량_*') # 폴더 내 데이터 파일 이름

total_df = pd.DataFrame()

for excel_file in excel_files:
    df = pd.read_excel(excel_file)
    # 세로 방향으로 연결하기, 순차적으로 index 증가
    total_df = total_df.append(df, ignore_index=True)

merged_excel_file = folder + 'imsi_상반기_제품_판매량_통합.xlsx'

# DataFrame 데이터를 생성한 엑셀 객체에 쓰기 (옵션지정)
total_df.to_excel(merged_excel_file, sheet_name='상반기_제품_판매량_통합', index=False)
print('생성 파일 : ', merged_excel_file)

생성 파일 :  ./example/pyexcel-master/data/ch07/sales_data/imsi_상반기_제품_판매량_통합.xlsx


### 엑셀 데이터 필터링

In [10]:
excel_file = folder + '상반기_제품_판매량_통합.xlsx'
df = pd.read_excel(excel_file)
df

Unnamed: 0,제품명,담당자,지역,1월,2월,3월,4월,5월,6월
0,스마트폰,김민영,나,110,104,110,106,106,106
1,TV,김민영,나,60,65,62,68,66,60
2,냉장고,김민영,나,44,40,47,46,47,41
3,스마트폰,박준서,다,107,100,109,117,107,112
4,TV,박준서,다,65,65,60,69,65,66
5,냉장고,박준서,다,47,43,47,45,40,49
6,스마트폰,이재정,가,118,101,104,116,100,105
7,TV,이재정,가,62,61,60,66,61,66
8,냉장고,이재정,가,45,42,41,45,41,41


In [14]:
#df[df['제품명']=='스마트폰']
#df[(df['제품명']=='스마트폰') | (df['제품명']=='TV')]
#df[df['제품명'].isin(['스마트폰'])]
df[df['제품명'].isin(['스마트폰', 'TV'])]

Unnamed: 0,제품명,담당자,지역,1월,2월,3월,4월,5월,6월
0,스마트폰,김민영,나,110,104,110,106,106,106
1,TV,김민영,나,60,65,62,68,66,60
3,스마트폰,박준서,다,107,100,109,117,107,112
4,TV,박준서,다,65,65,60,69,65,66
6,스마트폰,이재정,가,118,101,104,116,100,105
7,TV,이재정,가,62,61,60,66,61,66


### 데이터 계산
```python
DataFrame_data.sum([axis=0(default) or 1])
```
- axis=0 : 세로방향
- axis=1 : 가로방향

In [3]:
excel_file = folder + '상반기_제품_판매량_통합.xlsx'
df = pd.read_excel(excel_file)
df

Unnamed: 0,제품명,담당자,지역,1월,2월,3월,4월,5월,6월
0,스마트폰,김민영,나,110,104,110,106,106,106
1,TV,김민영,나,60,65,62,68,66,60
2,냉장고,김민영,나,44,40,47,46,47,41
3,스마트폰,박준서,다,107,100,109,117,107,112
4,TV,박준서,다,65,65,60,69,65,66
5,냉장고,박준서,다,47,43,47,45,40,49
6,스마트폰,이재정,가,118,101,104,116,100,105
7,TV,이재정,가,62,61,60,66,61,66
8,냉장고,이재정,가,45,42,41,45,41,41


In [4]:
df_sum = df.sum(axis=0) #axis=0 (세로)
df_sum

제품명    스마트폰TV냉장고스마트폰TV냉장고스마트폰TV냉장고
담당자    김민영김민영김민영박준서박준서박준서이재정이재정이재정
지역                       나나나다다다가가가
1월                             658
2월                             621
3월                             640
4월                             678
5월                             633
6월                             646
dtype: object

In [5]:
df_sum = df.sum(axis=1) #axis=1 (가로)
df_sum

0    642
1    381
2    265
3    652
4    390
5    271
6    644
7    376
8    255
dtype: int64

In [6]:
df['상반기합계'] = df_sum
df

Unnamed: 0,제품명,담당자,지역,1월,2월,3월,4월,5월,6월,상반기합계
0,스마트폰,김민영,나,110,104,110,106,106,106,642
1,TV,김민영,나,60,65,62,68,66,60,381
2,냉장고,김민영,나,44,40,47,46,47,41,265
3,스마트폰,박준서,다,107,100,109,117,107,112,652
4,TV,박준서,다,65,65,60,69,65,66,390
5,냉장고,박준서,다,47,43,47,45,40,49,271
6,스마트폰,이재정,가,118,101,104,116,100,105,644
7,TV,이재정,가,62,61,60,66,61,66,376
8,냉장고,이재정,가,45,42,41,45,41,41,255


In [10]:
df_filter = df[df['제품명']=='스마트폰']
df_filter

Unnamed: 0,제품명,담당자,지역,1월,2월,3월,4월,5월,6월,상반기합계
0,스마트폰,김민영,나,110,104,110,106,106,106,642
3,스마트폰,박준서,다,107,100,109,117,107,112,652
6,스마트폰,이재정,가,118,101,104,116,100,105,644


In [15]:
df_filter_sum = df_filter.sum() # sum(axis=0) 과 동일
df_filter_sum

제품명      스마트폰스마트폰스마트폰
담당자         김민영박준서이재정
지역                나다가
1월                335
2월                305
3월                323
4월                339
5월                313
6월                323
상반기합계            1938
dtype: object

In [16]:
# 제품명, 담당, 지역 이름 수정
df_filter_sum['제품명'] = '스마트폰'
df_filter_sum['담당자'] = '전체'
df_filter_sum['지역'] = '전체'
df_filter_sum

제품명      스마트폰
담당자        전체
지역         전체
1월        335
2월        305
3월        323
4월        339
5월        313
6월        323
상반기합계    1938
dtype: object

In [18]:
# df_filter에 합계를 추가한다.
df_filter_sum_total = df_filter.append(df_filter_sum, ignore_index=True)
df_filter_sum_total

Unnamed: 0,제품명,담당자,지역,1월,2월,3월,4월,5월,6월,상반기합계
0,스마트폰,김민영,나,110,104,110,106,106,106,642
1,스마트폰,박준서,다,107,100,109,117,107,112,652
2,스마트폰,이재정,가,118,101,104,116,100,105,644
3,스마트폰,전체,전체,335,305,323,339,313,323,1938


### 제품명을 입력하면 행방향의 Sum을 출력하는 Function

In [22]:
def product_sum(df_prod, product_name):
    df_prod['상반기합계'] = df_prod.sum(axis=1) # 행별 합계 구하고 열에 추가
    df_prod_filter = df_prod[df_prod['제품명']==product_name] # 제품명이 지정한 이름과 같은 행만 Filtering
    df_prod_filter_sum = df_prod_filter.sum() # 필터링된 행에 대해 열별 합계 구하기
    df_prod_filter_sum['제품명'] = product_name
    df_prod_filter_sum['담당자'] = '전체'
    df_prod_filter_sum['지역'] = '전체'
    # df_prod_filter 마지막 행에 df_prod_filter_sum 추가 후 새 DataFrame 데이터 생성
    df_prod_filter_sum_total = df_prod_filter.append(df_prod_filter_sum, ignore_index=True)
    return df_prod_filter_sum_total

In [23]:
excel_file = folder + '상반기_제품_판매량_통합.xlsx'
df_prod = pd.read_excel(excel_file)
for product_name in ['스마트폰', 'TV', '냉장고']:
    df_prod_sum = product_sum(df_prod, product_name)
    print(df_prod_sum)

    제품명  담당자  지역   1월   2월   3월   4월   5월   6월  상반기합계
0  스마트폰  김민영   나  110  104  110  106  106  106    642
1  스마트폰  박준서   다  107  100  109  117  107  112    652
2  스마트폰  이재정   가  118  101  104  116  100  105    644
3  스마트폰   전체  전체  335  305  323  339  313  323   1938
  제품명  담당자  지역   1월   2월   3월   4월   5월   6월  상반기합계
0  TV  김민영   나   60   65   62   68   66   60    762
1  TV  박준서   다   65   65   60   69   65   66    780
2  TV  이재정   가   62   61   60   66   61   66    752
3  TV   전체  전체  187  191  182  203  192  192   2294
   제품명  담당자  지역   1월   2월   3월   4월   5월   6월  상반기합계
0  냉장고  김민영   나   44   40   47   46   47   41    795
1  냉장고  박준서   다   47   43   47   45   40   49    813
2  냉장고  이재정   가   45   42   41   45   41   41    765
3  냉장고   전체  전체  136  125  135  136  128  131   2373


### DataFrame 데이터에서 제품별로 Worksheet 생성

In [25]:
excel_file_in = folder + '상반기_제품_판매량_통합.xlsx'
excel_file_out = folder + 'imsi_합계_상반기_제품_판매량_통합.xlsx'
pf_prod = pd.read_excel(excel_file_in)
excel_writer = pd.ExcelWriter(excel_file_out, engine='xlsxwriter')  # ExcelWriter 객체 생성
workbook = excel_writer.book  # Workbook 생성
title_format = workbook.add_format({'bold':True, 'font_size':20, 'align':'center', 'valign':'vcenter'}) # 서식 객체 생성

product_names = ['스마트폰', 'TV', '냉장고']
for product_name in product_names:
    df_prod_sum = product_sum(df_prod, product_name)
    # DataFrmae 데이터를 worksheet 로 출력
    df_prod_sum.to_excel(excel_writer, sheet_name=product_name, index=False, startrow=2)
    # worksheet의 셀에 제목 출력
    worksheet = excel_writer.sheets[product_name]
    title_string = '상반기 판매량 합계: {}'.format(product_name)
    worksheet.write('E1', title_string, title_format)
excel_writer.save()
print('출력 엑셀 파일: ', excel_file_out)

출력 엑셀 파일:  ./example/pyexcel-master/data/ch07/sales_data/imsi_합계_상반기_제품_판매량_통합.xlsx


### 여러 엑셀 파일에 적용하기

In [35]:
excel_file = folder + '/input/상반기_제품_판매량_이재정.xlsx'
df = pd.read_excel(excel_file)
df

Unnamed: 0,제품명,담당자,지역,1월,2월,3월,4월,5월,6월
0,스마트폰,이재정,가,118,101,104,116,100,105
1,TV,이재정,가,62,61,60,66,61,66
2,냉장고,이재정,가,45,42,41,45,41,41


In [36]:
df['합계'] = df.sum(axis=1)
df

Unnamed: 0,제품명,담당자,지역,1월,2월,3월,4월,5월,6월,합계
0,스마트폰,이재정,가,118,101,104,116,100,105,644
1,TV,이재정,가,62,61,60,66,61,66,376
2,냉장고,이재정,가,45,42,41,45,41,41,255


In [37]:
excel_file = folder + 'imsi_상반기_제품_판매량_이재정.xlsx'
df.to_excel(excel_file, index=False)
print('생성 파일: ', excel_file)

생성 파일:  ./example/pyexcel-master/data/ch07/sales_data/imsi_상반기_제품_판매량_이재정.xlsx


### add_sum() 함수
- 엑셀 파일을 입력하면 처리 후 지정한 출력 디덱터리에 엑셀 파일로 출력
- input : excel_file, output_dir (출력 dir)

# Path(output_dir + new_file_name)
# output_excel_file.name 문제 검토???

In [28]:
import pandas as pd
from pathlib import Path
folder = './example/pyexcel-master/data/ch07/sales_data/'

def add_sum(excel_file, output_dir):
    df = pd.read_excel(excel_file)
    df['합계'] = df.sum(axis=1)
    new_file_name = excel_file.stem + '_합계_제목_추가' + '.xlsx'

    #output_excel_file = Path(output_dir + new_file_name)
    output_excel_file = str(output_dir)+'\\'+ new_file_name
    #print (output_excel_file)
    
    excel_writer = pd.ExcelWriter(output_excel_file, engine='xlsxwriter') # ExcelWriter 객체 생성
    workbook = excel_writer.book # ExcelWriter로 부터 객채(excel_writer)에서 workbook 생성
    title_format = workbook.add_format({'bold':True, 'font_size':20, 'align':'center', 'valign':'vcenter'})
    # DataFrame 데이터를 엑셀 worksheet로 출력
    df.to_excel(excel_writer, sheet_name='Sheet1', index=False, startrow=2)
    
    # 엑셀 워크 시트의 셀에 제목 출력(서식지정)
    worksheet = excel_writer.sheets['Sheet1'] # 쓰기를 수행할 worksheet 지정
    title_string = '판매량 합계: {}'.format(df['담당자'][0]) # 제목 문자열 생성
    worksheet.write('E1', title_string, title_format) # 지정한 셀(E1)에 쓰기
    excel_writer.save()
    return output_excel_file    

In [29]:
input_dir = Path(folder + '/input')
output_dir = Path(folder + '/output')
excel_files = input_dir.glob('상반기_제품_판매량_*')
for excel_file in excel_files:
    output_excel_file = add_sum(excel_file, output_dir)
    #print('[출력파일] ', output_excel_file.name)
    print('[출력파일] ', output_excel_file)    

[출력파일]  example\pyexcel-master\data\ch07\sales_data\output\상반기_제품_판매량_김민영_합계_제목_추가.xlsx
[출력파일]  example\pyexcel-master\data\ch07\sales_data\output\상반기_제품_판매량_박준서_합계_제목_추가.xlsx
[출력파일]  example\pyexcel-master\data\ch07\sales_data\output\상반기_제품_판매량_이재정_합계_제목_추가.xlsx
