엑셀 파일을 다루려면 xlrd 패키지가 필요합니다. 패키지가 없을 경우 아래처럼 설치해주세요. 

    pip install xlrd

In [1]:
import xlrd

fname = 'toy.xls'
workbook = xlrd.open_workbook(fname) # 엑셀 파일 열기

In [2]:
sheet_name_list = workbook.sheet_names() # 엑셀 sheet 이름 가져오기
type(sheet_name_list)

list

In [3]:
# 이름, 혹은 index로 sheet 가져오기
sheet = workbook.sheet_by_name('배우')
print('sheet name is %s' % sheet.name)

sheet = workbook.sheet_by_index(1)
print('sheet name is %s' % sheet.name)

sheet name is 배우
sheet name is 가수


In [4]:
# sheet 사이즈 보기
print('%d rows, %d cols' % (sheet.nrows, sheet.ncols))

5 rows, 3 cols


In [5]:
# 첫 번째 row에 적힌 컬럼 이름 보기
row = sheet.row_values(rowx=0) # list 타입
print(row, '\n')

# 맨 윗 3줄 데이터 예시 보기
for rowx in range(1, 4):
    print(sheet.row_values(rowx))

['그룹', '나이', '선호도'] 

['씨스타', '적음', '좋아함']
['트와이스', '적음', '좋아함']
['엑소', '어린', '좋아함']


In [6]:
# 해당 column의 인덱스 알기
for col, column_name in enumerate(row):
    print(col, column_name)

0 그룹
1 나이
2 선호도


In [7]:
# 엑셀 col 이름으로 같이 보기
print('A = %d, Z = %d\n' % (ord('A'), ord('Z')))

def index_to_alphabet(idx, base=26):    
    codebook = [chr(c) for c in range(65, 90+1)] # [A, B, ..., Z]
    code = []
    while idx >= 0:
        code.append(codebook[idx % base])
        idx = idx // base - 1
    return ''.join(code)

print('0 is %s' % index_to_alphabet(0))
print('3 is %s' % index_to_alphabet(3))
print('25 is %s' % index_to_alphabet(25))
print('26 is %s' % index_to_alphabet(26))
print('35 is %s' % index_to_alphabet(35))
print('88 is %s\n' % index_to_alphabet(88))

# 해당 column의 인덱스 알기
for col, column_name in enumerate(row):
    print('%d (%s)\t%s' % (col, index_to_alphabet(col), column_name) )

A = 65, Z = 90

0 is A
3 is D
25 is Z
26 is AA
35 is JA
88 is KC

0 (A)	그룹
1 (B)	나이
2 (C)	선호도


In [8]:
# 한 컬럼의 값만 가져오기
col = sheet.col_values(0)
print(type(col), len(col))

<class 'list'> 5


In [9]:
# 모든 sheet의 양식이 동일한지 확인하기

head = workbook.sheet_by_index(0).row_values(0)

for sheet_id, sheet in enumerate(workbook.sheets()):
    is_same = sheet.row_values(0) == head
    print('sheet %d: %r' % (sheet_id, is_same))

    if is_same:
        continue
    
    for col, (hc, sc) in enumerate(zip(head, sheet.row_values(0))):
        if hc != sc:
            print('\t\tcol. %s: (%s) != (%s)' % (index_to_alphabet(col), hc, sc))

sheet 0: True
sheet 1: False
		col. A: (이름) != (그룹)


In [10]:
hc = list(head[0])
sc = list(workbook.sheet_by_index(1).row_values(0)[0])

for h, s in zip(hc, sc):
    print('(%s, %d), (%s, %d)' % (h, ord(h), s, ord(s)))

(이, 51060), (그, 44536)
(름, 47492), (룹, 47353)


In [11]:
# 모든 sheets로부터 각 columns의 값 누적
col_A = [] # col num = 8
col_B = [] # col num = 20
col_C = [] # col num = 21

for sheet in workbook.sheets():
    col_A.extend(sheet.col_values(0)[1:]) # Skip head
    col_B.extend(sheet.col_values(1)[1:]) # Skip head
    col_C.extend(sheet.col_values(2)[1:]) # Skip head
    
for var_name in ['col_A', 'col_B', 'col_C']:
    var = locals()[var_name]
    print('%s has %d rows, %d unique values' % (var_name, len(var), len(set(var))))

col_A has 6 rows, 6 unique values
col_B has 6 rows, 5 unique values
col_C has 6 rows, 4 unique values


In [12]:
col_A

['김고은', '강동원', '씨스타', '트와이스', '엑소', '신화']

In [13]:
col_B

[27.0, '동안', '적음', '적음', '어린', '많음']

In [14]:
col_C

['매우좋아함', '제일좋아함', '좋아함', '좋아함', '좋아함', '좋아했음']

### pandas DataFrame from excel

pandas의 DataFrame에서도 엑셀 파일을 읽을 수 있습니다. 필요하신 분은 아래의 메뉴얼을 보세요

- see more: http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_excel.html
