# 파이썬 라이브러리 1

# 파일 다루기

### Excel, Word, PDF 컨트롤

## Openpyxl

In [1]:
import openpyxl

In [3]:
# 파일 만들기
wb = openpyxl.Workbook()

sheet = wb.active
sheet['A1'] = 'hello'
wb.save(r"c:/Apps/Hello.xlsx")

In [4]:
# sheet의 이름들을 가져오기
wb = openpyxl.load_workbook(r"c:/Apps/Hello.xlsx")
print(wb.sheetnames)

['Sheet']


In [5]:
# 활성화된 sheet의 이름을 가져오기
sheet = wb.active
print(sheet.title)

Sheet


In [6]:
# sheet 추가하기
sheet_last = wb.create_sheet('new')

# 맨 앞에 sheet 만들기
sheet_first = wb.create_sheet('first', 0)

In [7]:
wb.sheetnames

['first', 'Sheet', 'new']

In [9]:
# sheet 가져오기
sheet = wb['new']
sheet

<Worksheet "new">

In [10]:
# 저장
# 저장을 해야 위의 행동이 저장된다.
wb.save(r"c:/Apps/Hello.xlsx")

In [14]:
# 내용 넣기
sheet['A1'] = '안녕하세요'

# 셀의 값 확인하기
print(sheet['A1'].value)

안녕하세요


In [16]:
# row, column 사용하기
sheet.cell(row=2, column=2).value = 'Python is fun'

print(sheet['B2'].value)

wb.save(r"c:/Apps/Hello.xlsx")

Python is fun


## Pandas에서 엑셀 불러오기

In [38]:
import openpyxl
import pandas as pd

In [39]:
wb = openpyxl.load_workbook(r"c:/Apps/temp/sample.xlsx")
sheet = wb.active

In [40]:
df = pd.DataFrame(sheet.values)
df

Unnamed: 0,0,1,2
0,이름,나이,성별
1,홍길동,30,남
2,박철수,25,남
3,이혜수,33,여
4,임유리,24,여
5,김영원,43,남


In [41]:
# 헤더 수정
df.columns = df.iloc[0, :]
df = df.iloc[1:, :]

df

Unnamed: 0,이름,나이,성별
1,홍길동,30,남
2,박철수,25,남
3,이혜수,33,여
4,임유리,24,여
5,김영원,43,남


- pandas로 excel을 읽는 방법

    - pd.read_excel()

In [43]:
df = pd.read_excel(r"c:/Apps/temp/sample.xlsx")

df

Unnamed: 0,이름,나이,성별
0,홍길동,30,남
1,박철수,25,남
2,이혜수,33,여
3,임유리,24,여
4,김영원,43,남


## docx (python-docx)

In [45]:
import docx

- install

    `pip install python-docx`

In [48]:
# 도큐먼트 만들기
doc = docx.Document()
doc.save(r"c:/Apps/example.docx")

In [50]:
# 문단에 내용 넣기
para = doc.add_paragraph()
run = para.add_run('안녕하세요.')

# 글씨 굵기, 글씨 크기
run.bold = True
run.font.size = docx.shared.Pt(20)

# 저장
doc.save(r"c:/Apps/example.docx")

## PyPDF2

- 보통 PDF를 조회하는데 사용된다.

In [51]:
from PyPDF2 import PdfFileReader, PdfFileWriter

In [52]:
path = r"c:/Apps/temp/sample1.pdf"

In [55]:
# pdf 파일 열기
pdf = PdfFileReader(open(path, 'rb'))

# 파일 정보 가져오기
docInfo = pdf.getDocumentInfo()
docInfo

{'/Producer': 'FPDF 1.7', '/CreationDate': 'D:20200630103238'}

In [57]:
# pdf 파일이 몇 페이지인지 확인
pdf.getNumPages()

1

In [58]:
# 내용 출력
numPages = pdf.getNumPages()
for p in pdf.pages:
    print(p.extractText())

IDNAMECLASSMARKSEX1John DeoFour575male2Max RuinThree585male3ArnoldThree555male4Krish StarFour560male5John MikeFour560male6Alex JohnFour555male7My John RobFifth578male8AsruidFive585male9Tes QrySix578male10Big JohnFour555male


- PDF의 내용을 보는데는 좋은 모듈이 아님

- PDF 파일을 다루는데 보통 사용됨(회전, 정보조회, 등등)

#### 다른 PDF 관련 모듈

- pdftotext

- PDFMiner

    - pdf문서를 text나 html로 변경해주는 모듈
    
    - 이미지나 표 등의 다른 구성요소들까지 추출하고 싶을 때