In [1]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

class disp(object): # 데이터프레임을 예쁘게 보여주는 함수
    template = '<div style="float: left;padding:10px;"> <b>[{0}]</b> {1}</div>'
    def __init__(self, *args):
        self.args = args
        
    def _repr_html_(self):
        return '\n'.join(self.template.format(a, eval(a)._repr_html_())
                         for a in self.args)
    
import pandas as pd

### [예제1] CSV 파일 읽기

In [2]:
# [1]

import pandas as pd
file1 = 'data/01_02_01.csv'
df1 = pd.read_csv(file1)
df1

Unnamed: 0,id,name,age
0,101,kim,19
1,102,lee,20
2,103,park,21
3,104,song,19


In [1]:
# [2]

file1 = 'data/01_02_01_ANSI.csv'
df2 = pd.read_csv(file1) # error (ANSI 인코딩으로 읽어야함)
df3 = pd.read_csv(file1, encoding='ANSI')
df3

### [예제2] read_csv() 옵션 이해 1

In [6]:
# [1]

file1 = 'data/01_02_01.csv'
df1 = pd.read_csv(file1, header = None) # header 없이 읽고 숫자열 붙임
df2 = pd.read_csv(file1, header = 2) # 세번째 행을 header로

disp('df1', 'df2')

Unnamed: 0,0,1,2
0,id,name,age
1,101,kim,19
2,102,lee,20
3,103,park,21
4,104,song,19

Unnamed: 0,102,lee,20
0,103,park,21
1,104,song,19


In [7]:
# [2]
# skiprows -> header -> nrows 순서

file1 = 'data/01_02_01.csv'
df3 = pd.read_csv(file1, skiprows=2) # 위의 두 행 skip, header = 3번째 행
df4 = pd.read_csv(file1, header=None, skiprows=3, names=['A','B','C']) # 위의 세개 행 skip, header = A, B, C
df5 = pd.read_csv(file1, header=None, skiprows=[0,2,4]) # 1, 3, 5번째 행 skip, header = 0,1,2
df6 = pd.read_csv(file1, header=None, skiprows=lambda x: x%2==0) # 짝수index행 skip, header = 0,1,2

disp('df3', 'df4', 'df5', 'df6')

Unnamed: 0,102,lee,20
0,103,park,21
1,104,song,19

Unnamed: 0,A,B,C
0,103,park,21
1,104,song,19

Unnamed: 0,0,1,2
0,101,kim,19
1,103,park,21

Unnamed: 0,0,1,2
0,101,kim,19
1,103,park,21


### [예제3] read_csv() 옵션 이해 2

In [8]:
# [1]
# skiprows -> header -> nrows 순서
# usecols : 읽어 올 컬럼을 선택적으로 지정
# index_col : 번호로 부여되는 행의 label을 대체할 컬럼 지정

file1 = 'data/01_02_01.csv'
df1 = pd.read_csv(file1, nrows = 3) # header 읽고 -> 그 다음 3개 행 읽음
df2 = pd.read_csv(file1, header = 1, skiprows = 2, nrows = 3) # 두 행 건너뜀 -> 3번째 행 header -> 나머지 3개 행 읽음
df3 = pd.read_csv(file1, usecols=['id', 'age']) # header 읽고 -> 모든 행 읽음 -> id, age 컬럼만
df4 = pd.read_csv(file1, header=None, skiprows=1, usecols=[0, 2]) # 첫 행 건너뜀 -> header : 0,1,2 -> 1,3번째 컬럼만
df5 = pd.read_csv(file1, index_col='id') # id 컬럼을 index 컬럼으로  지정
df6 = pd.read_csv(file1, index_col=['id','name']) # id, name을 index 컬럼으로 지정

disp('df1', 'df2', 'df3', 'df4', 'df5', 'df6')

Unnamed: 0,id,name,age
0,101,kim,19
1,102,lee,20
2,103,park,21

Unnamed: 0,103,park,21
0,104,song,19

Unnamed: 0,id,age
0,101,19
1,102,20
2,103,21
3,104,19

Unnamed: 0,0,2
0,101,19
1,102,20
2,103,21
3,104,19

Unnamed: 0_level_0,name,age
id,Unnamed: 1_level_1,Unnamed: 2_level_1
101,kim,19
102,lee,20
103,park,21
104,song,19

Unnamed: 0_level_0,Unnamed: 1_level_0,age
id,name,Unnamed: 2_level_1
101,kim,19
102,lee,20
103,park,21
104,song,19


### [예제4] CSV(또는 TXT) 파일로 저장하기

In [9]:
# 아래처럼 메모리 대신 파일로 남겨놓으면 메모리 절감할 수 있음

df1 = pd.read_csv('data/01_02_01.csv', nrows=2) # header 있음, 두 행만 읽음
df1.to_csv('out_data/test_out.csv', header=False, index=False) # header와 index 제거되어 저장
df2 = pd.read_csv('out_data/test_out.csv', header=None)

disp('df1', 'df2')

Unnamed: 0,id,name,age
0,101,kim,19
1,102,lee,20

Unnamed: 0,0,1,2
0,101,kim,19
1,102,lee,20


### [예제5] 엑셀 파일 읽기

In [10]:
# [1-1]

df1 = pd.read_excel('data/01_02_01.xlsx', sheet_name=0)
df2 = pd.read_excel('data/01_02_01.xlsx', sheet_name='sheet_1')

disp('df1', 'df2')

Unnamed: 0,id,names,class,age
0,101,kim,A,19
1,102,lee,A,20
2,103,park,A,21

Unnamed: 0,id,names,class,age
0,101,kim,A,19
1,102,lee,A,20
2,103,park,A,21


In [11]:
# [1-2]

df3 = pd.read_excel('data/01_02_01.xlsx', sheet_name = [1, 0])
df4 = pd.read_excel('data/01_02_01.xlsx', sheet_name = ['sheet_2','sheet_1'])
df3; df4

{1:     id names class  age
 0  201  song     B   21
 1  202   lew     B   20
 2  203    ki     B   19,
 0:     id names class  age
 0  101   kim     A   19
 1  102   lee     A   20
 2  103  park     A   21}

{'sheet_2':     id names class  age
 0  201  song     B   21
 1  202   lew     B   20
 2  203    ki     B   19,
 'sheet_1':     id names class  age
 0  101   kim     A   19
 1  102   lee     A   20
 2  103  park     A   21}

### [예제6] 엑셀파일 쓰기

In [12]:
# [1]

newfile1 = 'out_data/test1.xlsx'

df1 = pd.read_csv('data/01_02_01.csv', nrows=2)
df1.to_excel(newfile1, sheet_name='my_sheet',index=False)
df2 = pd.read_excel(newfile1)

disp('df1', 'df2')

Unnamed: 0,id,name,age
0,101,kim,19
1,102,lee,20

Unnamed: 0,id,name,age
0,101,kim,19
1,102,lee,20


In [13]:
# [2]

f = 'out_data/test2.xlsx'
with pd.ExcelWriter(f) as wr :
    df1.to_excel(wr, sheet_name="new1", index=False) # wr에 new1 시트 생성하고
    df2.to_excel(wr, sheet_name="new2", index=False) # wr에 new2 시트도 생성!

df3 = pd.read_excel(f)
df3

Unnamed: 0,id,name,age
0,101,kim,19
1,102,lee,20
