In [1]:
import pandas as pd

# 1. csv 파일 적재
- pd.read_csv()
    - 컬럼명이 존재하는 데이터
    - 컬럼명이 없는 데이터
    - 구분자 설정

In [8]:
# data/ex1.csv 읽기 (컬럼명이 존재하는 csv 파일)
data1=pd.read_csv('pandas_data/ex1.csv')
data1

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [11]:
# 컬럼명이 존재하지 않은 csv 파일
data2=pd.read_csv('pandas_data/ex2.csv',header=None)
data2

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [14]:
# 기본 구분자(,)로 저장되지 않는 경우
# tab: \t
# engine = 'python'  => os error, Encoding Error (한글)
# encoding = 'utf-8'  =>  Encoding Error (한글)
# 'cp949' =>  Encoding Error (한글)
data3=pd.read_csv('pandas_data/ex3.csv',sep='\t')
data3

Unnamed: 0,brand_id,tag
0,12,가전/디지털
1,27,가전/디지털
2,27,패션의류/잡화
3,1018,기타
4,1086,공연/전시/체험


In [16]:
# 주석이 포함되어 있는 파일 읽기
# 모든 주석기호 통일
# 파라미터1: 주석기호 지정
pd.read_csv('pandas_data/ex4.csv',comment = '#')

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [17]:
# 파라미터2: 제외할 행번호 지정
pd.read_csv('pandas_data/ex4.csv',skiprows=[0,2,3])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [18]:
# 주석이 포함된 파일 읽기
# 주석기호 다름
# 기본 sep=',' 이지만 구분자를 보고 설정 split 이랑 비슷한 개념
pd.read_csv('pandas_data/ex5.csv',skiprows=[0,2,3],sep=' ')

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


## 2. 엑셀파일 읽기
- 기본적으로 첫번째 시트에 있는 데이터를 읽어와서 데이터프레임으로 저장
- 모든 시트를 읽기 위해서는 sheetname 인자를 None으로 설정
    - 모든 시트의 데이터를 읽어서 사전 형태로 저장
    - key = 시트의 이름, value = 각 시트에 있는 데이터들을 저장한 데이터프레임
- 특정 시트만 읽기 위해서는 sheetname인자에 '시트명'설정

### ex6.xlsx 파일

In [19]:
# 첫번째 시트 읽기 : 기본동작
# 첫번째 시트의 데이터가 하나의 데이터프레임으로 적재
pd.read_excel('pandas_data/ex6.xlsx')

Unnamed: 0,a,b
0,1,2
1,5,6
2,9,10


In [20]:
# 두번째 시트 읽기: sheet_name = '시트명'
pd.read_excel('pandas_data/ex6.xlsx',sheet_name='시트2')

Unnamed: 0,c,d,message
0,3,4,hello
1,7,8,world
2,11,12,foo


In [22]:
# 모든 시트 다 읽어오기: sheet_name=None
data=pd.read_excel('pandas_data/ex6.xlsx',sheet_name=None)

In [23]:
# 사용한 엑셀 파일의 시트명을 반환
data.keys()

odict_keys(['시트1', '시트2'])

In [24]:
# 값만 변환
data.values()

odict_values([   a   b
0  1   2
1  5   6
2  9  10,     c   d message
0   3   4   hello
1   7   8   world
2  11  12     foo])

In [28]:
# 시트1, 시트2 의 데이터를 data1,data2 에 각자 저장하기
sheet1,sheet2=data.values()

In [29]:
sheet1

Unnamed: 0,a,b
0,1,2
1,5,6
2,9,10


In [30]:
sheet2

Unnamed: 0,c,d,message
0,3,4,hello
1,7,8,world
2,11,12,foo
