# 리더와 라이터 패키지

## OpenPyXL

In [1]:
import pandas as pd
import openpyxl
import excel
import datetime as dt

In [2]:
# 셀 값을 읽도록 워크북을 엽니다.
# 데이터를 모두 읽으면 파일은 자동으로 닫힙니다.
book = openpyxl.load_workbook("xl/stores.xlsx", data_only=True)

In [3]:
# 이름 또는 0으로 시작하는 인덱스로 워크시트 객체를 가져옵니다
sheet = book["2019"]
sheet = book.worksheets[0]

In [4]:
# 시트 이름 리스트를 가져옵니다.
book.sheetnames

['2019', '2020', '2019-2020']

In [5]:
# 시트 객체를 순회합니다
# OpenPyXL은 "name" 대신 "title"을 사용합니다
for i in book.worksheets:
    print(i.title)

2019
2020
2019-2020


In [6]:
# 크기, 즉 시트의 '사용된 영역'을 가져옵니다
sheet.max_row, sheet.max_column

(8, 6)

In [7]:
# A1 표기법과 셀 인덱스 (1에서 시작)을 써서 셀 값을 읽습니다
sheet["B6"].value
sheet.cell(row=6, column=2).value

'Boston'

In [8]:
# excel 모듈을 써서 셀 값 범위를 읽습니다
data = excel.read(book["2019"], (2, 2), (8, 6))
data[:2] # 첫 번째와 두번 째 행을 출력합니다

[['Store', 'Employees', 'Manager', 'Since', 'Flagship'],
 ['New York', 10, 'Sarah', datetime.datetime(2018, 7, 20, 0, 0), False]]

In [9]:
import openpyxl
from openpyxl.drawing.image import Image
from openpyxl.chart import BarChart, Reference
from openpyxl.styles import Font, colors
from openpyxl.styles.borders import Border, Side
from openpyxl.styles.alignment import Alignment
from openpyxl.styles.fills import PatternFill
import excel

In [10]:
# 워크북 인스턴스를 만듭니다
book = openpyxl.Workbook()

# 첫 번째 시트를 가져와 이름을 붙입니다
sheet = book.active
sheet.title = "Sheet1"

# A1 표기법과 셀 인덱스 (1에서 시작)를 시용해
# 각 셀에 기록합니다
sheet["A1"].value = "Hello 1"
sheet.cell(row=2, column=1, value="Hello 2")

# 스타일: 채우기 색깔, 정렬, 보더, 폰트
font_format = Font(color="FF0000", bold=True)
thin = Side(border_style="thin", color="FF0000")
sheet["A3"].value = "Hello 3"
sheet["A3"].font = font_format
sheet["A3"].border = Border(top=thin, left=thin,
                            right=thin, bottom=thin)
sheet["A3"].alignment = Alignment(horizontal="center")
sheet["A3"].fill = PatternFill(fgColor="FFFF00", fill_type="solid")

# 숫자 형식 지정 (엑셀의 형식 문자열을 사용합니다)
sheet["A4"].value = 3.3333
sheet["A4"].number_format ="0.00"

# 날짜 형식 
sheet["A5"].value = dt.date(2016, 10, 13)
sheet["A5"].number_format = "mm/dd/yy"

# 공식을 쓸 때는 반드시 공식의 영어 이름을
# 콤마로 구분해서 써야 합니다
sheet["A6"].value = "=SUM(A4, 2)"

# 이미지
sheet.add_image(Image("images/python.png"), "C1")

# 2차원 리스트 (excel 모듈을 쓸고 있습니다)
data = [[None, "North", "South"],
        ["Last Year", 2, 5],
        ["This Year", 3, 6]]
excel.write(sheet, data, "A10")

# 차트
chart = BarChart()
chart.type = "col"
chart.title = "Sales Per Region"
chart.x_axis.title = "Regions"
chart.y_axis.title = "Sales"
chart_data = Reference(sheet, min_row=11, min_col=1,
                       max_row=12, max_col=3)
chart_categories = Reference(sheet, min_row=10, min_col=2,
                             max_row=10, max_col=3)
# from_rows는 엑셀에서 차트를 직접 추가하는 것과
# 마찬가지 방법으로 데이터를 해석합니다
chart.add_data(chart_data, titles_from_data=True, from_rows=True)
chart.set_categories(chart_categories)
sheet.add_chart(chart, "A15")

# 워크북을 저장하면 디스크에 파일이 생성됩니다
book.save("openpyxl.xlsx")

In [11]:
book = openpyxl.Workbook()
sheet = book.active
sheet["A1"]. value = "This is a template"
book.template = True
book.save("template.xltx")

In [12]:
# stores.xlsx 파일을 읽고 셀 한의 값을 바꾼 다음
# 다른이름으로 저장합니다.
book = openpyxl.load_workbook("xl/stores.xlsx")
book["2019"]["A1"].value = "modified"
book.save("stores_edited.xlsx")

In [13]:
book = openpyxl.load_workbook("xl/macro.xlsm", keep_vba=True)
book["Sheet1"]["A1"].value = "Click the button!"
book.save("macro_openpyxl.xlsm")

## XlsxWriter

In [14]:
import datetime as dt
import xlsxwriter
import excel

In [15]:
# 워크북 인스턴스를 만듭니다
book = xlsxwriter.Workbook("xlsxwriter.xlsx")

# 시트를 추가하고 이름을 붙입니다
sheet = book.add_worksheet("Sheet1")

# A1 표기법과 셀 인덱스 (0으로 시작)를 써서 셀세 기록합니다
sheet.write("A1", "Hello 1")
sheet.write(1, 0, "Hello 2")

# 스타일: 채우기 색깔, 정렬, 보드 ,폰트
formatting = book.add_format({"font_color": "#FF0000",
                              "bg_color": "#FFFF00",
                              "bold": True, "align": "center",
                              "border": 1, "border_color": "#FF0000"})
sheet.write("A3", "Hello 3", formatting)

# 숫자 형식 지정 (엑셀의 형식 문자열을 사용합니다)
number_format = book.add_format({"num_format": "0.00"})
sheet.write("A4", 3.3333, number_format)

# 날짜 형식 (엑셀의 형식 문자열을 사용합니다)
date_format = book.add_format({"num_format": "mm/dd/yy"})
sheet.write("A5", dt.date(2016, 10, 13), date_format)

# 공식을 쓸 때는 반드시 공식의 영어 이름을
# 콤마로 구분해서 써야 합니다
sheet.write("A6", "=SUM(A4, 2)")

# 이미지
sheet.insert_image(0, 2, "images/python.png")

# 2차원 리스트 (excel 모듈을 쓰고 있습니다)
data = [[None, "North", "South"],
        ["Last Year", 2, 5],
        ["This Year", 3, 6]]
excel.write(sheet, data, "A10")

# 차트: 저장소에 있는 sales_report_xlsxwriter.py 파일을 보고
# 셀 주소 대신 인덱스를 사용하는 방법을 알아보시오
chart = book.add_chart({"type": "column"})
chart.set_title({"name": "Sales per Region"})
chart.add_series({"name": "=Sheet1!A11",
                  "categories": "=Sheet1!B10:C10",
                  "values": "=Sheet1!B11:C11"})
chart.add_series({"name": "=Sheet1!A12",
                  "categories": "=Sheet1!B10:C10",
                  "values": "=Sheet1!B12:C12"})
chart.set_x_axis({"name": "Regions"})
chart.set_y_axis({"name": "Sales"})
sheet.insert_chart("A15", chart)

# 워크북을 닫으면 디스크에 파일이 생성됩니다
book.close()

In [16]:
book = xlsxwriter.Workbook("macro_xlsxwriter.xlsm")
sheet = book.add_worksheet("Sheet1")
sheet.write("A1", "Click the button!")
book.add_vba_project("xl/vbaProject.bin")
sheet.insert_button("A3", {"macro": "Hello", "caption": "Button 1",
                           "width": 130, "height": 35})
book.close()

## pyxlsb

In [17]:
pip install pyxlsb

Note: you may need to restart the kernel to use updated packages.


In [18]:
import pyxlsb
import excel

In [19]:
# 시트를 순회합니다. pyxlab에서는 워크북과
# 시트 객체를 콘텍스트 관리자로 사용할 수 있습니다
# book.sheets는 객체가 아니라 시트 이름 리스트를 반환합니다
# 시트 객체를 얻으려면 use get_sheet()를 사용하십시오
with pyxlsb.open_workbook("xl/stores.xlsb") as book:
    for sheet_name in book.sheets:
        with book.get_sheet(sheet_name) as sheet:
            dim = sheet.dimension
            print(f"Sheet '{sheet_name}' has "
                  f"{dim.h} rows and {dim.w} cols")

Sheet '2019' has 7 rows and 5 cols
Sheet '2020' has 7 rows and 5 cols
Sheet '2019-2020' has 20 rows and 5 cols


In [20]:
# excel 모듈을 써서 셀 범위의 값을 읽습니다.
# "2019" 대신 1에서 시작하는 인덱스를 써도 됩니다
with pyxlsb.open_workbook("xl/stores.xlsb") as book:
    with book.get_sheet("2019") as sheet:
        data = excel.read(sheet, "B2")
data[:2]  # 첫 번째와 두 번째 행을 출력합니다

[['Store', 'Employees', 'Manager', 'Since', 'Flagship'],
 ['New York', 10.0, 'Sarah', 43301.0, False]]

In [21]:
from pyxlsb import convert_date
convert_date(data[1][3])

datetime.datetime(2018, 7, 20, 0, 0)

In [23]:
df = pd.read_excel("xl/stores.xlsb", engine="pyxlsb")

## xlrd, xlwt, 엑셀 유틸

In [24]:
conda install xlutils

Collecting package metadata (current_repodata.json): ...working... done
Solving environment: ...working... done

# All requested packages already installed.


Note: you may need to restart the kernel to use updated packages.


In [25]:
import xlrd
import xlwt
from xlwt.Utils import cell_to_rowcol2
import xlutils
import excel

In [26]:
# 셀 값을 읽을 워크북을 엽니다
# 데이터를 다 읽으면 파일은 자동으로 다시 닫힙니다
book = xlrd.open_workbook("xl/stores.xls")

In [27]:
# 시트 이름 리스트를 가져옵니다
book.sheet_names()

['2019', '2020', '2019-2020']

In [28]:
# 시트 객체를 순회합니다
for sheet in book.sheets():
    print(sheet.name)

2019
2020
2019-2020


In [29]:
# 이름이나 인덱스 (0으로 시작)로 시트 객체를 가져옵니다
sheet = book.sheet_by_index(0)
sheet = book.sheet_by_name("2019")

In [30]:
# 크기
sheet.nrows, sheet.ncols

(8, 6)

In [31]:
# A1 표기법과 셀 인덱스(0으로 시작)로 셀 값을 읽습니다
# *는 cell_to_rowcol2가 반환하는 튜플을 개별 인자로 분해합니다
sheet.cell(*cell_to_rowcol2("B3")).value
sheet.cell(2, 1).value

'New York'

In [32]:
# excel 모듈을 써서 셀 값 범위를 읽습니다
data = excel.read(sheet, "B2")
data[:2]  # 첫 번째와 두 번째 행을 출력합니다

[['Store', 'Employees', 'Manager', 'Since', 'Flagship'],
 ['New York', 10.0, 'Sarah', datetime.datetime(2018, 7, 20, 0, 0), False]]

In [33]:
import xlwt
from xlwt.Utils import cell_to_rowcol2
import datetime as dt
import excel

In [34]:
# 워크북 인스턴스를 만듭니다
book = xlwt.Workbook()

# 시트를 추가하고 이름을 붙입니다
sheet = book.add_sheet("Sheet1")

# A1 표기법과 셀 인덱스 (0으로 시작)를 써서 셀에 기록합니다
sheet.write(*cell_to_rowcol2("A1"), "Hello 1")
sheet.write(r=1, c=0, label="Hello 2")

# 스타일: 채우기, 색깔, 정렬, 보더, 폰트
formatting = xlwt.easyxf("font: bold on, color red;"
                         "align: horiz center;"
                         "borders: top_color red, bottom_color red,"
                                  "right_color red, left_color red,"
                                  "left thin, right thin,"
                                  "top thin, bottom thin;"
                         "pattern: pattern solid, fore_color yellow;")
sheet.write(r=2, c=0, label="Hello 3", style=formatting)

# 숫자 형식 지정 (엑셀의 형식 문자열을 사용합니다)
number_format = xlwt.easyxf(num_format_str="0.00")
sheet.write(3, 0, 3.3333, number_format)

# 날짜 형식 지정 (엑셀의 형식 문자열을 사용합니다)
date_format = xlwt.easyxf(num_format_str="mm/dd/yyyy")
sheet.write(4, 0, dt.datetime(2012, 2, 3), date_format)

# 공식을 쓸 때는 반드시 공식의 영어 이름을 
# 콤마로 구분해서 써야 합니다
sheet.write(5, 0, xlwt.Formula("SUM(A4, 2)"))

# 2차원 리스트 (excel 모듈을 쓰고 있습니다)
data = [[None, "North", "South"],
        ["Last Year", 2, 5],
        ["This Year", 3, 6]]
excel.write(sheet, data, "A10")

# 그림 (bmp 형식만 사용 가능)
sheet.insert_bitmap("images/python.bmp", 0, 2)

# 파일을 디스크에 씁니다
book.save("xlwt.xls")

In [35]:
import xlutils.copy

In [36]:
book = xlrd.open_workbook("xl/stores.xls", formatting_info=True)
book = xlutils.copy.copy(book)
book.get_sheet(0).write(0, 0, "changed!")
book.save("stores_edited.xls")

# 고급주제

## 큰 엑셀 파일 다루기

### OpenPyXL로 쓰기

In [37]:
book = openpyxl.Workbook(write_only=True)
# write_only=True를 사용하면 book.active는 작동하지 않습니다
sheet = book.create_sheet()
# 1000 * 200 셀로 구성된 시트를 만듭니다
for row in range(1000):
    sheet.append(list(range(200)))
book.save("openpyxl_optimized.xlsx")

### XlsxWriter로 쓰기

In [38]:
book = xlsxwriter.Workbook("xlsxwriter_optimized.xlsx",
                           options={"constant_memory": True})
sheet = book.add_worksheet()
# 1000 * 200 셀로 구성된 시트를 만듭니다
for row in range(1000):
    sheet.write_row(row , 0, list(range(200)))
book.close()

### xlrd로 읽기

In [39]:
with xlrd.open_workbook("xl/stores.xls", on_demand=True) as book:
    sheet = book.sheet_by_index(0)  # 첫 번째 시트만 불러옵니다

In [40]:
with xlrd.open_workbook("xl/stores.xls", on_demand=True) as book:
    with pd.ExcelFile(book, engine="xlrd") as f:
        df = pd.read_excel(f, sheet_name=0)

### OpenPyXL로 읽기

In [41]:
book = openpyxl.load_workbook("xl/big.xlsx",
                              data_only=True, read_only=True,
                              keep_links=False)
# 필요한 읽기 작업을 여기서 수행합니다
book.close()  # read_only=True를 사용했다면 꼭 필요합니다

## 데이터프레임 서식 개선

In [49]:
with pd.ExcelFile("xl/stores.xlsx", engine="openpyxl") as xlfile:
    # 데이터프레임 읽기
    df = pd.read_excel(xlfile, sheet_name="2020")

    # OpenPyXL 워크북 객체를 가져옵니다
    book = xlfile.book

    # 여기서부터는 OpenPyXL 코드입니다
    sheet = book["2019"]
    value = sheet["B3"].value  # 값 하나를 읽습니다

In [50]:
with pd.ExcelWriter("pandas_and_openpyxl.xlsx",
                    engine="openpyxl") as writer:
    df = pd.DataFrame({"col1": [1, 2, 3, 4], "col2": [5, 6, 7, 8]})
    # 데이터 프레임을 씁니다
    df.to_excel(writer, "Sheet1", startrow=4, startcol=2)

    # OpenPyXL 워크북과 시트 객체를 가져옵니다
    book = writer.book
    sheet = writer.sheets["Sheet1"]

    # 여기서부터는 OpenPyXL 코드입니다
    sheet["A1"].value = "This is a Title"  # 셀 하나에 값을 씁니다

### 데이터프레임의 인덱스와 헤더에 서식 적용

In [51]:
df = pd.DataFrame({"col1": [1, -2], "col2": [-3, 4]},
                   index=["row1", "row2"])
df.index.name = "ix"
df

Unnamed: 0_level_0,col1,col2
ix,Unnamed: 1_level_1,Unnamed: 2_level_1
row1,1,-3
row2,-2,4


In [52]:
from openpyxl.styles import PatternFill

In [53]:
with pd.ExcelWriter("formatting_openpyxl.xlsx",
                    engine="openpyxl") as writer:
    # 데이터프레임을 기본 서식으로 A1에 씁니다
    df.to_excel(writer, startrow=0, startcol=0)

    # 데이터프레임의 인덱스와 헤더에 커스텀 서식을 적용해 A6에 씁니다
    startrow, startcol = 0, 5
    # 1. 데이터프레임의 데이터 부분을 씁니다
    df.to_excel(writer, header=False, index=False,
                startrow=startrow + 1, startcol=startcol + 1)
    # 시트 객체를 가져오고 스타일 객체를 생성합니다
    sheet = writer.sheets["Sheet1"]
    style = PatternFill(fgColor="D9D9D9", fill_type="solid")

    # 2. 스타일이 적용된 열 헤더를 씁니다
    for i, col in enumerate(df.columns):
        sheet.cell(row=startrow + 1, column=i + startcol + 2,
                   value=col).fill = style

    # 3. 스타일이 적용된 인덱스를 씁니다
    index = [df.index.name if df.index.name else None] + list(df.index)
    for i, row in enumerate(index):
        sheet.cell(row=i + startrow + 1, column=startcol + 1,
                   value=row).fill = style

In [54]:
# XlsxWriter를 사용한 인덱스/헤더 서식 사용
with pd.ExcelWriter("formatting_xlsxwriter.xlsx",
                    engine="xlsxwriter") as writer:
    # 데이터 프레임을 기본 서식으로 A1에 씁니다
    df.to_excel(writer, startrow=0, startcol=0)

    # 데이터프레임의 인덱스와 헤더에 커스텀 서식을 적용해 A6에 씁니다
    startrow, startcol = 0, 5
    # 1. 데이터프레임의 데이터 부분을 씁니다
    df.to_excel(writer, header=False, index=False,
                startrow=startrow + 1, startcol=startcol + 1)
    # 워크북과 시트 객체를 가져오고 스타일 객체를 생성합니다
    book = writer.book
    sheet = writer.sheets["Sheet1"]
    style = book.add_format({"bg_color": "#D9D9D9"})

    # 2. 스타일이 적용된 열 헤더를 생성합니다
    for i, col in enumerate(df.columns):
        sheet.write(startrow, startcol + i + 1, col, style)

    # 3. 스타일이 적용된 인덱스를 씁니다
    index = [df.index.name if df.index.name else None] + list(df.index)
    for i, row in enumerate(index):
        sheet.write(startrow + i, startcol, row, style)

### 데이터프레임의 데이터 부분에 서식 적용

In [55]:
from openpyxl.styles import Alignment

In [56]:

with pd.ExcelWriter("data_format_openpyxl.xlsx",
                    engine="openpyxl") as writer:
    # 데이터 프레임을 씁니다
    df.to_excel(writer)
    
    # 워크북과 시트 객체를 가져옵니다
    book = writer.book
    sheet = writer.sheets["Sheet1"]
    
    # 각 셀에 서식을 적용합니다
    nrows, ncols = df.shape
    for row in range(nrows):
        for col in range(ncols):
            # 1을 더하는 이유는 헤더/인덱스 때문입니다
            # OpenPyXL 인덱스는 1에서 시작하므로 1을 한번 더 더합니다
            cell = sheet.cell(row=row + 2,
                              column=col + 2)
            cell.number_format = "0.000"
            cell.alignment = Alignment(horizontal="center")

In [57]:
with pd.ExcelWriter("data_format_xlsxwriter.xlsx",
                    engine="xlsxwriter") as writer:
    # 데이터프레임을 씁니다
    df.to_excel(writer)

    # 워크북과 시트 객체를 가져옵니다
    book = writer.book
    sheet = writer.sheets["Sheet1"]
    
    # 열에 서식 적용 (개별 셀에 적용은 불가능합니다)
    number_format = book.add_format({"num_format": "0.000",
                                     "align": "center"})
    sheet.set_column(first_col=1, last_col=2,
                     cell_format=number_format)


In [58]:
df.style.applymap(lambda x: "number-format: 0.000;"
                            "text-align: center")\
        .to_excel("styled.xlsx")

In [59]:
df = pd.DataFrame({"Date": [dt.date(2020, 1, 1)],
                   "Datetime": [dt.datetime(2020, 1, 1, 10)]})
with pd.ExcelWriter("date.xlsx",
                    date_format="yyyy-mm-dd",
                    datetime_format="yyyy-mm-dd hh:mm:ss") as writer:
    df.to_excel(writer)