# 데이터 입출력

In [1]:
# 라이브러리 가져오기
import pandas as pd

## 1. csv 파일 적재

- pd.read_csv()
    - 컬럼명이 존재하는 데이터
    - 컬럼명이 없는 데이터
    - 구분자 설정

In [2]:
# data/ex1.csv 읽기 (컬럼명이 존재하는 csv 파일)
# 기본 동작 : 가장 첫번째 행을 컬럼으로 적용
data1 = pd.read_csv('data/ex1.csv')
data1

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [4]:
pd.read_csv('data/ex2.csv')

Unnamed: 0,1,2,3,4,hello
0,5,6,7,8,world
1,9,10,11,12,foo


In [3]:
# data/ex2.csv 읽기 (컬럼명이 없는 csv 파일)
data2 = pd.read_csv('data/ex2.csv', header=None)
data2

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [7]:
# data/ex3.csv 읽기
# 기본 구분자(,)로 저장되지 않는 경우
# 탭 : \t
# engine = 'python' => OS error, Encoding Error(한글)
# encoding = 'utf-8' => Encoding Error(한글)
# 'cp949' => Encoding Error(한글)
data3 = pd.read_csv('data/ex3.csv', sep='\t')
data3

Unnamed: 0,brand_id,tag
0,12,가전/디지털
1,27,가전/디지털
2,27,패션의류/잡화
3,1018,기타
4,1086,공연/전시/체험


In [10]:
# data/ex4.csv 읽기 (주석이 포함되어 있는 파일 읽기)
# 모든 주석기호가 통일
# 파라미터1 : 주석기호를 지정
pd.read_csv('data/ex4.csv', comment='#')

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [11]:
# 파라미터2 : 제외할 행번호를 지정
pd.read_csv('data/ex4.csv', skiprows=[0,2,3])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [20]:
# pd.read_csv(sep 파라미터)
'a,b,c'.split(',')

['a', 'b', 'c']

In [17]:
# data/ex5.csv 읽기 (주석이 포함되어 있는 파일 읽기)
# 서로 다른 주석기호 & 기본 구분자가 아닌경우
pd.read_csv('data/ex5.csv', skiprows=[0,2,3])

Unnamed: 0,a b c d message
0,1 2 3 4 hello
1,5 6 7 8 world
2,9 10 11 12 foo


In [16]:
pd.read_csv('data/ex5.csv',comment='#', sep=' ')

Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,a,b,c,d,message
/*,just,wanted,to,make,things,more,difficult,for,you
who,reads,CSV,files,with,computers,,anyway?,*/,
1,2,3,4,hello,,,,,
5,6,7,8,world,,,,,
9,10,11,12,foo,,,,,


## 2. 엑셀 파일 읽기
- 기본적으로 첫번째 시트에 있는 데이터를 읽어와서 데이터프레임으로 저장 
- 모든 시트를 읽기 위해서는 sheetname 인자를 None으로 설정
    - 모든 시트의 데이터를 읽어서 사전 형태로 저장
    - key = 시트의 이름, value = 각 시트에 있는 데이터들을 저장한 데이터프레임 
- 특정 시트만 읽기 위해서는 sheetname 인자에 '시트명' 설정

### ex6.xlsx 파일 
<img src="img/엑셀파일예제.jpg" alt="csv파일예제" style="width: 600px;"/>

In [21]:
# 첫번째 시트 읽기 : 기본동작
# 첫번째 시트의 데이터가 하나의 데이터프레임으로 적재
pd.read_excel('data/ex6.xlsx')

Unnamed: 0,a,b
0,1,2
1,5,6
2,9,10


In [22]:
# 두번째 시트만 읽기 : sheet_name = '시트명'
pd.read_excel('data/ex6.xlsx', sheet_name='시트2')

Unnamed: 0,c,d,message
0,3,4,hello
1,7,8,world
2,11,12,foo


In [24]:
# 모든 시트 다 읽어오기 : sheet_name = None
data = pd.read_excel('data/ex6.xlsx', sheet_name=None)

In [25]:
# 사용한 엑셀 파일의 시트명을 반환
data.keys()

odict_keys(['시트1', '시트2'])

In [26]:
# 사용한 엑셀 파일의 데이터를 반환
data.values()

odict_values([   a   b
0  1   2
1  5   6
2  9  10,     c   d message
0   3   4   hello
1   7   8   world
2  11  12     foo])

In [29]:
# 시트1, 시트2의 데이터를 data1, data2에 각각 저장하기
sheet1, sheet2 = data.values()

In [30]:
sheet1

Unnamed: 0,a,b
0,1,2
1,5,6
2,9,10
