In [1]:
import pandas as pd
import numpy as np
import random

In [2]:
# 샘플 데이터프레임 생성_1
dict1 = {'이름' : ['Mercury','Venus','Mars','Jupiter','Saturn','Uranus','Neptune']}
dict1['국어'] = random.sample(range(50,100), 7)
dict1['수학'] = random.sample(range(30,100), 7)
dict1['영어'] = random.sample(range(40,100), 7)

df1 = pd.DataFrame(dict1)
df1

Unnamed: 0,이름,국어,수학,영어
0,Mercury,59,54,90
1,Venus,92,75,92
2,Mars,70,80,64
3,Jupiter,90,85,86
4,Saturn,73,99,44
5,Uranus,75,74,78
6,Neptune,55,51,88


In [3]:
# 샘플 데이터프레임 생성_2
dict2 = {'이름' : ['Mon','Tue','Wed','Thr','Fri','Sat','Sun']}
dict2['미술'] = random.sample(range(50,100), 7)
dict2['체육'] = random.sample(range(30,100), 7)
dict2['음악'] = random.sample(range(40,100), 7)

df2 = pd.DataFrame(dict2)
df2

Unnamed: 0,이름,미술,체육,음악
0,Mon,84,64,75
1,Tue,97,67,69
2,Wed,52,36,67
3,Thr,53,58,74
4,Fri,58,63,83
5,Sat,69,55,72
6,Sun,56,65,94


In [4]:
# to_csv() : csv 파일 쓰기
df1.to_csv('sample1.csv', encoding='CP949', index=False)

In [5]:
# to_excel() : xlsx 파일 쓰기
df1.to_excel('sample1.xlsx', encoding='CP949', index=False)

In [6]:
# xlsx 파일에 시트별로 쓰기
writer = pd.ExcelWriter('sample2.xlsx', engine='xlsxwriter')
df1.to_excel(writer, encoding='CP949', index=False, sheet_name = '1page')
df2.to_excel(writer, encoding='CP949', index=False, sheet_name = '2page')
writer.save()

In [7]:
# to_pickle() : pkl 파일 쓰기
df1.to_pickle('sample1.pkl')

In [8]:
# pkl 파일 쓰기, %time 을 앞에 붙이면 실행시간 출력됨
%time df1.to_pickle('sample1.pkl')

Wall time: 968 µs


In [9]:
# json.dump() : json 파일 쓰기, dict 타입
import json
with open('sample1.json', 'w', encoding='CP949') as file:
    json.dump(dict1, file, indent='\t')

In [10]:
# read_csv() : csv 파일 읽기
df3 = pd.read_csv('sample1.csv',  # 파일경로 + 이름
                  sep = ',',                      # 구분자, 쉼표는 생략 가능, 탭이면 \t 등
                  encoding = 'CP949',   # 인코딩
                  skiprows = 1,              # 상단부터 특정 행 제외
                  names = ['idx','Korean','Math','Englist'],   # 헤더 행 추가
                  index_col = 'idx',         # 인덱스 컬럼 지정
                  na_values = ['50','99']  # 특정 값을 NaN 취급
                 )
df3

Unnamed: 0_level_0,Korean,Math,Englist
idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Mercury,59,54.0,90
Venus,92,75.0,92
Mars,70,80.0,64
Jupiter,90,85.0,86
Saturn,73,,44
Uranus,75,74.0,78
Neptune,55,51.0,88


In [None]:
# read_excel() : xlsx 파일 읽기
pd.read_excel(filename,
              sheet_name = '서울',
              header = None,
              names = ['일시','평균','최저','최고'],
              index_col = None,
              usecols = "C:F",
              dtype = {'일시':str, '평균':float, '최저':float, '최고':float},
              skiprows = 32,
              nrows = 28,
              na_values = 'nan',
              thousands = ',')

<h7>
 · sheet_name: 기본값 0. 시트의 인덱스 번호(int) 또는 시트의 이름(문자열)이 들어감. 리스트 값을 넣을 수 있음. None 설정 시 모든 시트 선택<br>
· header: 어느 행(row)에 열(column)의 이름이 있는지 지정. 기본 값은 0으로 첫 번째 줄. None 설정 시 헤더가 없는 것으로 설정되어 첫 번째 줄부터 바로 데이터로 받아옴<br>
· names: header가 None일 경우 열(column)의 이름을 지정해줌<br>
· index_col: 각 행(row)의 이름이 위치한 열(column)을 지정. 기본값은 None<br>
· usecols: 기본값은 None으로 모든 열을 다 불러옴. “A:E”, “A,C,F:H” 와 같이 원하는 열을 선택해 불러올 수 있음<br>
· dtype: 각 열의 데이터 타입을 지정 가능<br>
· skiprows: 엑셀을 읽을 때 첫줄(0)으로 부터 몇 줄을 건너뛸 지 지정<br>
· nrow: 몇 줄을 읽을 지 지정<br>
· na_values: 값이 없는 경우 어떤 str 등으로 넣을 지 지정<br>
· thousands: 돈과 같이 천단위로 쉼표(,)로 구분된 문자를 변환하기 위해 천단위의 구분자가 무엇인지 지정<br>
</h7>

In [11]:
# read_pickle() : pkl 파일 읽기
%time df5 = pd.read_pickle('sample1.pkl')
df5

Wall time: 997 µs


Unnamed: 0,이름,국어,수학,영어
0,Mercury,59,54,90
1,Venus,92,75,92
2,Mars,70,80,64
3,Jupiter,90,85,86
4,Saturn,73,99,44
5,Uranus,75,74,78
6,Neptune,55,51,88


In [12]:
# json.load() : json 파일 읽기, dict 타입
with open('sample1.json', 'r', encoding='CP949') as file:
    df6 = json.load(file)
df6

{'이름': ['Mercury', 'Venus', 'Mars', 'Jupiter', 'Saturn', 'Uranus', 'Neptune'],
 '국어': [59, 92, 70, 90, 73, 75, 55],
 '수학': [54, 75, 80, 85, 99, 74, 51],
 '영어': [90, 92, 64, 86, 44, 78, 88]}

In [13]:
# xlwing 활용하기
import xlwings as xw
wb = xw.Book('sample2.xlsx')
sht = wb.sheets['2page']
df7 = sht[sht.used_range.get_address()].options(pd.DataFrame, index=False, header=True).value
df7

Unnamed: 0,이름,미술,체육,음악
0,Mon,84.0,64.0,75.0
1,Tue,97.0,67.0,69.0
2,Wed,52.0,36.0,67.0
3,Thr,53.0,58.0,74.0
4,Fri,58.0,63.0,83.0
5,Sat,69.0,55.0,72.0
6,Sun,56.0,65.0,94.0


In [14]:
# 엑셀에서 해당 표를 B4~위치로 이동해도 used_range로 잡아냄
wb = xw.Book('sample2_modified.xlsx')
sht = wb.sheets['2page']
df8 = sht[sht.used_range.get_address()].options(pd.DataFrame, index=False, header=True).value
df8

Unnamed: 0,이름,미술,체육,음악
0,Mon,84.0,64.0,75.0
1,Tue,97.0,67.0,69.0
2,Wed,52.0,36.0,67.0
3,Thr,53.0,58.0,74.0
4,Fri,58.0,63.0,83.0
5,Sat,69.0,55.0,72.0
6,Sun,56.0,65.0,94.0


In [15]:
# 셀 하나에 불순물 섞이면 used_range 틀어짐
wb = xw.Book('sample2_modified.xlsx')
sht = wb.sheets['3page']
df9 = sht[sht.used_range.get_address()].options(pd.DataFrame, index=False, header=True).value
df9

Unnamed: 0,A,None,None.1,None.2,None.3
0,,,,,
1,,,,,
2,,이름,미술,체육,음악
3,,Mon,84.0,64.0,75.0
4,,Tue,97.0,67.0,69.0
5,,Wed,52.0,36.0,67.0
6,,Thr,53.0,58.0,74.0
7,,Fri,58.0,63.0,83.0
8,,Sat,69.0,55.0,72.0
9,,Sun,56.0,65.0,94.0


In [16]:
# 필요시 직접 범위 지정 가능
wb = xw.Book('sample2_modified.xlsx')
sht = wb.sheets['3page']
df10 = sht['$B$4:$E$11'].options(pd.DataFrame, index=False, header=True).value
df10

Unnamed: 0,이름,미술,체육,음악
0,Mon,84.0,64.0,75.0
1,Tue,97.0,67.0,69.0
2,Wed,52.0,36.0,67.0
3,Thr,53.0,58.0,74.0
4,Fri,58.0,63.0,83.0
5,Sat,69.0,55.0,72.0
6,Sun,56.0,65.0,94.0
