### 참고자료

openpyxl로 파이썬을 통해 엑셀제어 가능<br>
lazy하게 작업 명령을 받은 후, save 할때 한번에 실행

*[openpyxl 공식홈페이지](https://openpyxl.readthedocs.io/en/stable/)<br>
*[Tutorial](https://openpyxl.readthedocs.io/en/stable/tutorial.html#create-a-workbook)

### 기본설정

In [3]:
# 그림을 저장할 위치
import os
PROJECT_ROOT_DIR = "."
CHAPTER_ID = "RPA_XLS"
IMAGES_PATH = os.path.join(PROJECT_ROOT_DIR, "images", CHAPTER_ID)
SAMPLES_PATH = os.path.join(PROJECT_ROOT_DIR, "samples", CHAPTER_ID)
os.makedirs(IMAGES_PATH, exist_ok=True)
os.makedirs(SAMPLES_PATH, exist_ok=True)

def mkfile(file): #파일 경로 생성함수
    file = os.path.join(SAMPLES_PATH,f'{file}.xlsx')
    return file

sample_o = os.path.join(SAMPLES_PATH,'sample.xlsx')
test = os.path.join(SAMPLES_PATH,'test.xlsx')
sample_modi = os.path.join(SAMPLES_PATH,'sample_modi.xlsx')
sample_modi1 = os.path.join(SAMPLES_PATH,'sample_modi1.xlsx')

def save_fig(fig_id, tight_layout=True, fig_extension="png", resolution=300):
    path = os.path.join(IMAGES_PATH, fig_id + "." + fig_extension)
    print("그림 저장:", fig_id)
    if tight_layout:
        plt.tight_layout()
    plt.savefig(path, format=fig_extension, dpi=resolution)

# 깔끔한 그래프 출력을 위해
%matplotlib inline
import matplotlib as mpl
import matplotlib.pyplot as plt
mpl.rc('axes', labelsize=14)
mpl.rc('xtick', labelsize=12)
mpl.rc('ytick', labelsize=12)

# 불필요한 경고를 무시합니다 (사이파이 이슈 #5998 참조)
import warnings
warnings.filterwarnings(action="ignore", message="^internal gelsd")

In [2]:
# 어떤 기능이 있는지 살펴봅니다.
import openpyxl
lib_to_check = openpyxl # 알아볼 모듈명 입력
def is_public(name):
    return not (name.startswith('__') and name.endswith('__'))
def get_function(source):
    return [name for name in dir(source) if is_public(name)]
def get_functions(source):
    return [name for name in dir(source) if callable(getattr(source, name)) and is_public(name)]
print(f'Methods of class list: {get_function(lib_to_check)}', end='\n\n')
print(f'Functions of module math: {get_functions(lib_to_check.chart)}')

Methods of class list: ['DEFUSEDXML', 'LXML', 'NUMPY', 'PANDAS', 'Workbook', '_constants', 'cell', 'chart', 'chartsheet', 'comments', 'compat', 'constants', 'descriptors', 'drawing', 'formatting', 'formula', 'load_workbook', 'open', 'packaging', 'pivot', 'reader', 'styles', 'utils', 'workbook', 'worksheet', 'writer', 'xml']

Functions of module math: ['AreaChart', 'AreaChart3D', 'BarChart', 'BarChart3D', 'BubbleChart', 'DoughnutChart', 'LineChart', 'LineChart3D', 'PieChart', 'PieChart3D', 'ProjectedPieChart', 'RadarChart', 'Reference', 'ScatterChart', 'Series', 'StockChart', 'SurfaceChart', 'SurfaceChart3D']


### 기초기능

#### Sheet 생성 및 입력

In [4]:
from openpyxl import Workbook
from random import *

wb = Workbook() # 파일 생성
# ws = wb.active # 시트 생성(기본sheet에 작업 원할 때)

ws = wb.create_sheet("first", -1) # 시트 생성('이름', 위치)

# 데이터 테이블 생성
column_names = ['이름','코딩','영어','수학']
students = ['A','B','C','D','E','F','G','H']
columns = ['A','B','C','D']

for idx, column in enumerate(columns): 
    ws[f'{column}1'] = column_names[idx]
    for i in range(2,10):
        ws[f'{column}{i}'] = randint(50, 100)
        ws[f'A{i}'] = students[i-2]
            
wb.save(sample_o) # 파일 저장

wb.close()

# wb.sheetnames #시트명 확인

# 시트복사
ws_c = wb.copy_worksheet(ws)
wb.save(sample_modi) # 파일 저장
# wb.close()



#### 파일 불러오기

In [56]:
from openpyxl import load_workbook

wb = load_workbook(sample_modi)
ws = wb.active

# 입력된 값 확인
for x in range(1, ws.max_row+1):
    for y in range(1, ws.max_column+1):
        print(ws.cell(x,y).value, end=" ")
    print()
    
# [i.value for i in ws['b']] # 컬럼 별 확인
# [i.value for i in ws[1]] # 개체 별 확인
# ws['a2'].value # 셀 별 확인

# for col in ws['b:d']: # 범위 지정해서 가져오기
#     print()
#     for cell in col:
#         print(cell.value,end=' ')

# 데이터 확인하는 함수 생성
def cv_view(sheet):
    for row in sheet:
        print()
        for cell in row:
            print(cell.value, end = ' ')

# 데이터프레임으로 저장하는 함수 생성 
def cv_df(sheet):
    import pandas as pd
    dic = dict()
    for column in sheet.columns:        
        temp = []

        for idx in range(len(column)-1):
            temp.append(column[idx+1].value)

        dic[column[0].value] = temp
    return pd.DataFrame(dic)


## 셀주소 확인하기
# from openpyxl.utils.cell import coordinate_from_string

# row_range = ws[2:ws.max_row] # 2줄부터 마지막 줄까지
# for rows in row_range:
#     for cell in rows:
#         # print(cell.coordinate, end =" ") # 셀의 좌표정보
#         # print(cell.value, end =" ") # 셀값
#         print(cell.coordinate) # 셀주소 확인
# #         xy = coordinate_from_string(cell.coordinate) # 튜플로 (열,행) 저장
# #         print(xy, end = " ")
# #         print(xy[0], end = " ") # A
# #         print(xy[1], end = " ") # 1
#         # 좌표를 찍어서 작업을 할 때 용이

print()
print('전체시트 : ',wb.sheetnames) # 시트이름 확인
ws = wb['first'] # 특정 시트 선택 # 특정시트에 작업하고 싶을 때
cv_view(ws)  # 코드 확인
cv_df(ws) # df 생성

이름 코딩 영어 수학 
A 92 63 54 
B 51 68 80 
C 70 54 57 
D 63 66 59 
E 93 87 87 
F 82 97 92 
G 86 97 65 
H 93 52 82 

전체시트 :  ['first', 'Sheet', 'first Copy', '스타일', '그룹생성', '행렬추가제거', '범위이동', '함수', '차트', '셀병합', '이미지']

이름 코딩 영어 수학 
A 92 63 54 
B 51 68 80 
C 70 54 57 
D 63 66 59 
E 93 87 87 
F 82 97 92 
G 86 97 65 
H 93 52 82 

Unnamed: 0,이름,코딩,영어,수학
0,A,92,63,54
1,B,51,68,80
2,C,70,54,57
3,D,63,66,59
4,E,93,87,87
5,F,82,97,92
6,G,86,97,65
7,H,93,52,82


#### 셀서식 변경하기

In [6]:
from openpyxl import load_workbook
from openpyxl.styles import Font, Border, Side, PatternFill, Alignment
wb = load_workbook(sample_modi)
ws = wb.copy_worksheet(wb['first'])
ws.title ='스타일'

a1 = ws['A1']
b1 = ws['B1']
c1 = ws['C1']

# 너비/높이 조정
ws.column_dimensions['A'].width = 5 # 열너비 조정
ws.row_dimensions[1].height = 50 # 행높이 설정

# 폰트 스타일
a1.font = Font(color='FF0000',italic=True,bold=True) #빨간색, 이탤릭,Bold적용
b1.font = Font(color='CC33FF', name='Arial',strike=True)
c1.font = Font(color='0000FF',size=20,underline='single') #글자크기20, 밑줄적용

# 테두리
thin_border = Border(left=Side(style='thin', color='808080'),\
    right=Side(style='thin', color='808080'),top=Side(style='thin', color='808080'),\
        bottom=Side(style='thin', color='808080'))
a1.border = thin_border
b1.border = thin_border
c1.border = thin_border

# 조건부서식 : 90점 넘는 셀에대해 초록색으로 적용
for row in ws.rows:
    for cell in row:
        cell.alignment = Alignment(horizontal='center', vertical='center') # 가운데 정렬
        if cell.column ==1:
            continue
        # cell이 정수형이고 90점 이상이면
        if isinstance(cell.value, int) and cell.value > 90:
            cell.fill = PatternFill(fgColor='00FF00', fill_type='solid')
            cell.font = Font(color='FF0000')

# 틀고정
ws.freeze_panes = 'B2' # B2 기준으로 틀고정

wb.save(sample_modi)

#### 그룹생성

In [7]:
# 그룹생성
wb = load_workbook(sample_modi)
ws = wb.copy_worksheet(wb['first'])
ws.title ='그룹생성'

ws.column_dimensions.group('A','D', hidden=True)
ws.row_dimensions.group(1,10, hidden=True)
wb.save(sample_modi)

#### 행/열 추가 제거

In [8]:
from openpyxl import load_workbook
wb = load_workbook(sample_modi)
ws = wb.copy_worksheet(wb['first'])
ws.title ='행렬추가제거'
ws.insert_rows(7) # 7행 추가
ws.delete_cols(2, 1) # B부터 D열까지 제거

wb.save(sample_modi)

#### 범위 이동

In [9]:
wb = load_workbook(sample_modi)
ws = wb.copy_worksheet(wb['first'])
ws.title = '범위이동'
min_cell = ws.cell(ws.min_row,ws.min_column).coordinate
max_cell = ws.cell(ws.max_row,ws.max_column).coordinate
ws.move_range(f'{min_cell}:{max_cell}', rows=0, cols=1)
ws['B1'].value = '국어'
for i in range(2,10):
    ws[f'B{i}'] = randint(50, 100)
    
wb.save(sample_modi) # 파일 저장

wb.close()

#### 함수

In [10]:
import datetime

wb = load_workbook(sample_modi)
ws = wb.copy_worksheet(wb['first'])
ws.title ='함수'

ws.move_range(f'{min_cell}:{max_cell}', rows=1, cols=0)

cols = ['b','c','d']
ws['E1'] = datetime.datetime.today()
ws['a11'] = '과목평균'
ws['e2'] = '개인평균'
ws['e11'] = '=round(sum(b3:d10)/count(b3:d10),1)'
for col in cols:
    for row in range(3,11):

        ws[f'{col}11'] = f'=round(AVERAGE({col}3:{col}10),1)'
        ws[f'e{row}'] = f'=round(AVERAGE(b{row}:d{row}),1)'
    
wb.save(sample_modi)

wb = load_workbook(sample_modi, data_only= True)
ws = wb.copy_worksheet(wb['함수'])

wb.save(sample_modi1)

#### 차트 생성하기

In [11]:
from openpyxl import load_workbook # 파일 불러오기
from openpyxl.chart import Reference, BarChart, LineChart
wb = load_workbook(sample_modi)
ws = wb.copy_worksheet(wb['first'])
ws.title = '차트'

# 바 차트
bar_value = Reference(ws, min_row=ws.min_row, max_row=ws.max_row, min_col=ws.min_column+1,max_col=ws.max_column)
bar_chart = BarChart() # 차트 종류 설정
bar_chart.add_data(bar_value, titles_from_data=True)
ws.add_chart(bar_chart, 'F1')

# 라인 차트
line_value = Reference(ws, min_row=ws.min_row, max_row=ws.max_row, min_col=ws.min_column+1,max_col=ws.max_column)
line_chart = LineChart() # 차트 종류 설정
line_chart.add_data(line_value,titles_from_data=True)

line_chart.title = '성적표'
line_chart.style = '20'
line_chart.y_axis.title ='점수'
line_chart.x_axis.title = '이름'
ws.add_chart(line_chart, 'F15')

wb.save(sample_modi)

#### 셀병합

In [12]:
# 셀병합

wb = load_workbook(sample_modi)
ws = wb.copy_worksheet(wb['first'])
ws.title ='셀병합'

ws.merge_cells('B2:D2')
ws['B2'].value = 'merged cell'

wb.save(sample_modi)

# # 병합해제
# # B2:D2 병합되어있던 셀을 해제
# ws.unmerge_cells('B2:D2')
# wb.save(sample_modi)to_excel

#### 이미지 불러오기

In [13]:
from openpyxl import load_workbook
from openpyxl.drawing.image import Image
wb = load_workbook(sample_modi)
ws = wb.copy_worksheet(wb['first'])
ws.title ='이미지'

img = Image(os.path.join(IMAGES_PATH, '강아지_1.jpg'))

# C3위치에 img 삽입
ws.add_image(img, 'c3')
wb.save(sample_modi)

#### 과제 1. 다음의 문제를 푸시오

In [14]:
''' youtube나도코팅 참고

Quiz> 여로분은 나도대학의 컴퓨터과 교수님 입니다.
여러분이 가르치는 과목의 점수 비중은 다음과 같습니다.

- 출석 10
- 퀴즈1 10
- 퀴즈2 10
- 중간고사 20
- 기말고사 30
- 프로젝트 20
--------------
- 총합 100

마지막 수업을 모두마치고 이번학기 학생들의 최종 성적을 검토하는 과정에서
퀴즈 2문제에 오휴를 발견하여 모두 만점 처리를 하기로 하였습니다.
현재까지 작성된 최종 성적 데이터를 기준으로 아래와 같이 수정하시오

1. 퀴즈2 점수를 10으로 수정
2. H열에 총점(sum이용), I열에 성적정보 추가
- 총점 90점 이상 A, 80점 이상 B, 70점 이상 C, 나머지 D
3. 출석이 5 미만인 학생은 총점 상관없이 F

[현재까지 작성된 최종 성적 데이터]
학번, 출석, 퀴즈1, 퀴즈2, 중간고사, 기말고사, 프로젝트
1,10,8,5,14,26,12
2,7,3,7,15,24,18
3,9,5,8,8,12,4
4,7,8,7,17,21,18
5,7,8,7,16,25,15
6,3,5,8,8,17,0
7,4,9,10,16,27,18
8,6,6,6,15,19,17
9,10,10,9,19,30,19
10,9,8,8,20,25,20'''

data = '''학번,출석,퀴즈1,퀴즈2,중간고사,기말고사,프로젝트
1,10,8,5,14,26,12
2,7,3,7,15,24,18
3,9,5,8,8,12,4
4,7,8,7,17,21,18
5,7,8,7,16,25,15
6,3,5,8,8,17,0
7,4,9,10,16,27,18
8,6,6,6,15,19,17
9,10,10,9,19,30,19
10,9,8,8,20,25,20'''

openpyxl활용

In [15]:
from openpyxl import Workbook
wb = Workbook()
ws = wb.active
ws.title = '1stData'
columns = range(7)
rows = range(11)

# 데이터 입력
for row in rows:
    for col in columns:
        if col == 0 : # 인덱스 입력
            ws.cell(row+1,1).value = data.split('\n')[row].split(',')[0]
        elif row == 0 : # 컬럼 입력
            ws.cell(1,col+1).value = data.split('\n')[0].split(',')[col]
        else : # 값 입력
            ws.cell(row+1,col+1).value = int(data.split('\n')[row].split(',')[col])
        
test = mkfile('test') #파일경로 생성

# 퀴즈2 10점으로 변경
ws1 = wb.copy_worksheet(ws)
ws1.title = '1_quiz2_fix'
for row in rows[:-1]:
    ws1.cell(row+2,4).value = 10
    
#  H열에 총점(sum이용)
ws2 = wb.copy_worksheet(ws1)
ws2.title = '2_총점추가'
ws2['h1'] = '총점'


for row in rows[:-1]:
    ws2.cell(row+2,8).value = f'=sum(B{row+2}:G{row+2})'

wb.save(test)

# 3. I열에 성적정보 추가 - 총점 90점 이상 A, 80점 이상 B, 70점 이상 C, 나머지 D출석이 5 미만인 학생은 총점 상관없이 F

ws3 = wb.copy_worksheet(ws2)

ws3.title = '3_평가추가'
ws3['i1'] = '평가'

for row in rows[:-1]:
    ws2.cell(row+2,9).value = f'=if(H{row+2}>=90,"A",if(H{row+2}>=80,"B",if(H{row+2}>=70,"C","D")))'
    ws3.cell(row+2,9).value = f'=if(B{row+2}<5,"F",if(H{row+2}>=90,"A",if(H{row+2}>=80,"B",if(H{row+2}>=70,"C","D"))))'

wb.save(test)
wb.close()

판다스로 정리

In [16]:
import pandas as pd
df = data.split('\n')
dic = dict()
temp0= []
temp1= []
temp2= []
temp3= []
temp4= []
temp5= []
temp6= []

for row in df:
    for idx, col in enumerate(row.split(',')):
        if idx == 0 : temp0.append(col)
        elif idx == 1 : temp1.append(col)
        elif idx == 2 : temp2.append(col)
        elif idx == 3 : temp3.append(col)
        elif idx == 4 : temp4.append(col)
        elif idx == 5 : temp5.append(col)
        elif idx == 6 : temp6.append(col)
dic[temp0[0]]=temp0[1:]
dic[temp1[0]]=temp1[1:]
dic[temp2[0]]=temp2[1:]
dic[temp3[0]]=temp3[1:]
dic[temp4[0]]=temp4[1:]
dic[temp5[0]]=temp5[1:]
dic[temp6[0]]=temp6[1:]

df = pd.DataFrame(dic)
df        
# df = pd.DataFrame(dic)
# df

Unnamed: 0,학번,출석,퀴즈1,퀴즈2,중간고사,기말고사,프로젝트
0,1,10,8,5,14,26,12
1,2,7,3,7,15,24,18
2,3,9,5,8,8,12,4
3,4,7,8,7,17,21,18
4,5,7,8,7,16,25,15
5,6,3,5,8,8,17,0
6,7,4,9,10,16,27,18
7,8,6,6,6,15,19,17
8,9,10,10,9,19,30,19
9,10,9,8,8,20,25,20


In [17]:
# 판다스로 처리 후 저장
dic1= dict()
for i in range(len(data.split('\n')[0].split(','))):
    dic1[data.split('\n')[0].split(',')[i]] = [data.split('\n')[idx].split(',')[i] for idx in range(len(data.split('\n')))][1:]
df1 = pd.DataFrame(dic1)

# 퀴즈 점수 변경
df1.퀴즈2 = 10

# 자료형 변경 : 계산 가능하도록
df1.iloc[:,1:] = df1.iloc[:,1:].astype(int)

# 합계
df1['총점'] = df1.loc[:,'출석':].sum(axis=1)
# df1['총점'] = df1.loc[df1['학번']>0,'출석':].sum(axis=1) # 조건을 넣어서 결과값을 넣는 것 가능

# 평가추가
def assess(score):
    if score >= 90 : return 'A'
    elif score >= 80 : return 'B'    
    elif score >= 70 : return 'C'    
    elif score >= 60 : return 'D'    
    else : return 'F'

df1['평가'] = (df1['총점'].apply(lambda x: assess(x)))
test1 = mkfile('test1')
df1.to_excel(test1, encoding = 'euckr')

In [74]:
# 판다스를 파이엑셀로 작업할 경우
from openpyxl.utils.dataframe import dataframe_to_rows

wb = Workbook()
ws = wb.active

for r in dataframe_to_rows(df1, index=True, header=True):
    ws.append(r)

for cell in ws['A'] + ws[1]:
    cell.style = 'Pandas'

test1_1 = mkfile('test1_1')
wb.save(test1_1)

KeyError: <class 'pandas._libs.tslibs.nattype.NaTType'>

In [52]:
all_df = []
wb_m = Workbook()
for file in files:
    wb = load_workbook(os.path.join(SAMPLES_PATH,file))
    for sheet in wb.sheetnames:
        all_df.append(wb[sheet])
for sheet_m in all_df:
    ws = wb_m.create_sheet(sheet_m.title)
    ws = cv_df(sheet_m)
    
test2_1 = mkfile('test2_1')
wb_m.save(test2_1)

#### 과제 2. SAMPLES_PATH의 모든 시트를 열어서, 하나의 파일로 합치시오

In [86]:
# 모든 시트 모으기
import os
import pandas as pd
from openpyxl import load_workbook
from pandas import ExcelWriter

test2_1 = mkfile('test2_1') # 파일경로 생성
files = os.listdir(SAMPLES_PATH)

for file in files:
    wb = load_workbook(os.path.join(SAMPLES_PATH,file)) 
    for sheet in wb.sheetnames:
        all_df.append(wb[sheet])
writer = pd.ExcelWriter(test2_1, engine='xlsxwriter')
for sheet_m in all_df:
    cv_df(sheet_m).to_excel(writer, sheet_name = sheet_m.title)
writer.save()

In [53]:
# 1개 시트로 합치기
import pandas as pd  
import numpy as np  
import sys

files = os.listdir(SAMPLES_PATH)
excels = [pd.ExcelFile(os.path.join(SAMPLES_PATH,file)) for file in files]  
frames = [x.parse(x.sheet_names[0], header=None,index_col=None) for x in excels]  
frames[1:] = [df[1:] for df in frames[1:]]  
combined = pd.concat(frames)
test2 = mkfile('test2')
combined.to_excel(test2, header=False, index=False)