# 데이터 입출력
### - csv, excel 파일에서 데이터 읽고 쓰기

In [4]:
import pandas as pd
from pandas import Series, DataFrame

## 1. csv 파일 읽기 - read_csv()

- 절대경로: 첫 번째 위치(최상위경로)부터 작성된 경로
- 상대경로: 현재 파일 위치부터 작성된 상대적인 경로

In [7]:
# 1) 기본 csv 파일 읽기
### data/ex1.csv 읽기 (컬럼명이 존재하는 csv 파일)
pd.read_csv('data/ex1.csv') # 상대경로

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


- 특정 구분자를 기준으로 필드들이 구분되어있는 csv형태의 파일은 모두 처리 가능
- 파일의 확장자는 상관이 없음

In [8]:
# 2) sep 인자 활용하기 
### 구분자가 다른 파일(data/ex2.txt) 읽기 (sep 인자)
pd.read_csv('data/ex2.txt', sep = ' ')

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


- 윈도우 계열의 경우 cp949로 인코딩
- 기본값: utf8

In [11]:
# 3) encoding 인자 활용하기 
### data/2020KBO야구.csv 파일 읽기
pd.read_csv('data/2020KBO야구.csv', encoding = 'cp949')

Unnamed: 0,선수명,팀명,타율,안타,홈런,연봉
0,페르난데스,두산,0.340,199,21,40000.0
1,허경민,두산,0.332,145,7,48000.0
2,오재일,두산,0.312,147,16,47000.0
3,최주환,두산,0.306,156,16,27000.0
4,박건우,두산,0.304,148,14,45000.0
...,...,...,...,...,...,...
254,김재현,SK,0.143,2,0,5600.0
255,화이트,SK,0.136,3,1,
256,채현우,SK,0.130,3,0,3000.0
257,류효승,SK,0.125,1,1,2700.0


In [12]:
# 4) header, names 인자 활용하기 (컬럼명이 파일에 포함되어 있지 않은 경우)
pd.read_csv('data/2020KBO야구_컬럼명미포함.csv', encoding = 'cp949',
           header = None)

Unnamed: 0,0,1,2,3,4,5
0,페르난데스,두산,0.340,199,21,40000.0
1,허경민,두산,0.332,145,7,48000.0
2,오재일,두산,0.312,147,16,47000.0
3,최주환,두산,0.306,156,16,27000.0
4,박건우,두산,0.304,148,14,45000.0
...,...,...,...,...,...,...
254,김재현,SK,0.143,2,0,5600.0
255,화이트,SK,0.136,3,1,
256,채현우,SK,0.130,3,0,3000.0
257,류효승,SK,0.125,1,1,2700.0


In [13]:
# 4) header, names 인자 활용하기 (컬럼명이 파일에 포함되어 있지 않은 경우)
pd.read_csv('data/2020KBO야구_컬럼명미포함.csv', encoding = 'cp949',
           names = ['선수명','팀명','타율','안타','홈런','연봉'])

Unnamed: 0,선수명,티명,타율,안타,홈런,연봉
0,페르난데스,두산,0.340,199,21,40000.0
1,허경민,두산,0.332,145,7,48000.0
2,오재일,두산,0.312,147,16,47000.0
3,최주환,두산,0.306,156,16,27000.0
4,박건우,두산,0.304,148,14,45000.0
...,...,...,...,...,...,...
254,김재현,SK,0.143,2,0,5600.0
255,화이트,SK,0.136,3,1,
256,채현우,SK,0.130,3,0,3000.0
257,류효승,SK,0.125,1,1,2700.0


In [21]:
# 5) 불필요한 줄은 제외하고 데이터 읽기 
# 5-1) skiprows를 이용하여, 특정 행을 읽지 않도록 함.
# 4) header, names 인자 활용하기 (컬럼명이 파일에 포함되어 있지 않은 경우)
pd.read_csv('data/2020KBO야구_주석포함.csv', encoding = 'cp949',
           skiprows = [0,1,2], 
           names = ['선수명','팀명','타율','안타','홈런','연봉'])

Unnamed: 0,선수명,팀명,타율,안타,홈런,연봉
0,페르난데스,두산,0.340,199,21,40000.0
1,허경민,두산,0.332,145,7,48000.0
2,오재일,두산,0.312,147,16,47000.0
3,최주환,두산,0.306,156,16,27000.0
4,박건우,두산,0.304,148,14,45000.0
...,...,...,...,...,...,...
254,김재현,SK,0.143,2,0,5600.0
255,화이트,SK,0.136,3,1,
256,채현우,SK,0.130,3,0,3000.0
257,류효승,SK,0.125,1,1,2700.0


In [24]:
# 5-2) comment 인자를 이용하여, 주석은 데이터로 읽지 않음.
pd.read_csv('data/2020KBO야구_주석포함.csv', encoding = 'cp949',
           comment = '*', 
           names = ['선수명','티명','타율','안타','홈런','연봉'])

Unnamed: 0,선수명,티명,타율,안타,홈런,연봉
0,페르난데스,두산,0.340,199,21,40000.0
1,허경민,두산,0.332,145,7,48000.0
2,오재일,두산,0.312,147,16,47000.0
3,최주환,두산,0.306,156,16,27000.0
4,박건우,두산,0.304,148,14,45000.0
...,...,...,...,...,...,...
254,김재현,SK,0.143,2,0,5600.0
255,화이트,SK,0.136,3,1,
256,채현우,SK,0.130,3,0,3000.0
257,류효승,SK,0.125,1,1,2700.0


- 비어있는 줄의 경우 기본적으로 데이터를 읽지 않도록 설정되어있음
- 비어있는 줄을 읽을 경우: skip_blank_lines = False

In [25]:
pd.read_csv('data/2020KBO야구_주석포함.csv', encoding = 'cp949',
           comment = '*', 
           names = ['선수명','티명','타율','안타','홈런','연봉'], 
           skip_blank_lines = False)

Unnamed: 0,선수명,티명,타율,안타,홈런,연봉
0,,,,,,
1,페르난데스,두산,0.340,199.0,21.0,40000.0
2,허경민,두산,0.332,145.0,7.0,48000.0
3,오재일,두산,0.312,147.0,16.0,47000.0
4,최주환,두산,0.306,156.0,16.0,27000.0
...,...,...,...,...,...,...
255,김재현,SK,0.143,2.0,0.0,5600.0
256,화이트,SK,0.136,3.0,1.0,
257,채현우,SK,0.130,3.0,0.0,3000.0
258,류효승,SK,0.125,1.0,1.0,2700.0


- 데이터를 한 번에 읽어서 데이터프레임으로 저장해 오는 것이 불가능할 수 있음
- 파일의 크기가 컴퓨터의 성능(가용 메모리 크기)보다 크면,
-  OOM(Out Of Memory) Error 발생

In [26]:
# 6) 용량이 매우 큰 파일 읽기 
# 앞에 있는 파일만 읽어올 수 있음
pd.read_csv('data/2020KBO야구.csv', encoding = 'cp949', nrows = 10)

Unnamed: 0,선수명,팀명,타율,안타,홈런,연봉
0,페르난데스,두산,0.34,199,21,40000
1,허경민,두산,0.332,145,7,48000
2,오재일,두산,0.312,147,16,47000
3,최주환,두산,0.306,156,16,27000
4,박건우,두산,0.304,148,14,45000
5,정수빈,두산,0.298,146,5,34000
6,최용제,두산,0.295,13,0,2800
7,김재호,두산,0.289,116,2,65000
8,안권수,두산,0.27,10,0,2700
9,박세혁,두산,0.269,97,4,23200


- 일반적인 read.csv()함수는 파일을 읽은 내용을 데이터프레임 형태로 반환
- chunksize인자는 텍스트파일리더라는 객체를 반환
- 변수(커서)에 담아 읽어올 수 있음

In [5]:
커서 = pd.read_csv('data/2020KBO야구.csv', encoding = 'cp949', chunksize = 10)

In [6]:
next(커서)

Unnamed: 0,선수명,팀명,타율,안타,홈런,연봉
0,페르난데스,두산,0.34,199,21,40000
1,허경민,두산,0.332,145,7,48000
2,오재일,두산,0.312,147,16,47000
3,최주환,두산,0.306,156,16,27000
4,박건우,두산,0.304,148,14,45000
5,정수빈,두산,0.298,146,5,34000
6,최용제,두산,0.295,13,0,2800
7,김재호,두산,0.289,116,2,65000
8,안권수,두산,0.27,10,0,2700
9,박세혁,두산,0.269,97,4,23200


#### 끊어서 읽어 온 데이터 저장하기
- 데이터목록 변수에 빈 리스트 할당
- 루프문에 커서를 활용할 수 있음
- next(커서)가 호출되면서 변수(data)에 저장

In [7]:
데이터목록 = []
for data in 커서:
    데이터목록.append(data)

In [8]:
데이터목록[0]

Unnamed: 0,선수명,팀명,타율,안타,홈런,연봉
10,김재환,두산,0.266,137,30,65000
11,조수행,두산,0.263,10,0,4500
12,권민석,두산,0.26,13,0,2700
13,이유찬,두산,0.258,23,0,3200
14,신성현,두산,0.25,1,0,4800
15,장승현,두산,0.25,5,0,3500
16,서예일,두산,0.24,6,0,3200
17,국해성,두산,0.233,20,3,4500
18,오재원,두산,0.232,36,5,30000
19,양찬열,두산,0.227,5,0,2700


In [36]:
# 7. 결과를 csv 파일로 저장하기 - to_csv()
data = pd.read_csv('data/2020KBO야구.csv', encoding = 'cp949')
result = data.pivot_table(index = '팀명', values = '안타', aggfunc = 'sum')

In [38]:
result.to_csv('data/팀별안타수.csv', encoding = 'cp949')

## 2. 엑셀 파일 읽기 (read_excel())

#### read_excel()
- read_csv()에서 사용하는 인자들과 유사

In [39]:
pd.read_excel('data/2020KBO야구.xlsx')

Unnamed: 0,선수명,팀명,타율,안타,홈런,연봉
0,페르난데스,두산,0.34,199,21,40000
1,허경민,두산,0.332,145,7,48000
2,오재일,두산,0.312,147,16,47000
3,최주환,두산,0.306,156,16,27000
4,박건우,두산,0.304,148,14,45000
5,정수빈,두산,0.298,146,5,34000
6,최용제,두산,0.295,13,0,2800
7,김재호,두산,0.289,116,2,65000
8,안권수,두산,0.27,10,0,2700
9,박세혁,두산,0.269,97,4,23200


- sheet_name에 숫자 대신 sheet의 이름을 넣을 수도 있음

In [42]:
pd.read_excel('data/2020KBO야구.xlsx', sheet_name = '한화')

Unnamed: 0,선수명,팀명,타율,안타,홈런,연봉
0,허관회,한화,0.5,1,0,2700
1,김현민,한화,0.4,2,0,2700
2,최승준,한화,0.333,1,0,4000
3,최재훈,한화,0.301,102,3,20000
4,이용규,한화,0.286,120,1,40000
5,하주석,한화,0.286,75,2,14000
6,김민하,한화,0.284,21,1,4500
7,박정현,한화,0.279,17,1,2700
8,정진호,한화,0.277,78,2,11300
9,이해창,한화,0.269,32,3,5500


- 2개 이상의 시트 데이터를 읽어 올 때는 사전 타입(Dict)의 데이터로 반환
- keys = sheet의 이름, value = 해당 sheet의 데이터

In [9]:
data = pd.read_excel('data/2020KBO야구.xlsx', sheet_name = ['LG','두산'])

In [45]:
type(data)

dict

In [11]:
data.keys()

dict_keys(['LG', '두산'])

In [47]:
data['LG']

Unnamed: 0,선수명,팀명,타율,안타,홈런,연봉
0,손호영,LG,0.367,11,0,2700
1,김현수,LG,0.331,181,22,130000
2,신민재,LG,0.308,8,0,5000
3,오지환,LG,0.3,158,10,60000
4,박용택,LG,0.3,65,2,80000
5,이형종,LG,0.296,85,17,20000
6,채은성,LG,0.293,122,15,32000
7,홍창기,LG,0.279,114,5,3800
8,라모스,LG,0.278,120,38,30000
9,김용의,LG,0.271,19,1,10500


- 숫자와 시트명 혼용 가능

In [50]:
pd.read_excel('data/2020KBO야구.xlsx', sheet_name = [0,'한화'])

{0:       선수명  팀명     타율   안타  홈런     연봉
 0   페르난데스  두산  0.340  199  21  40000
 1     허경민  두산  0.332  145   7  48000
 2     오재일  두산  0.312  147  16  47000
 3     최주환  두산  0.306  156  16  27000
 4     박건우  두산  0.304  148  14  45000
 5     정수빈  두산  0.298  146   5  34000
 6     최용제  두산  0.295   13   0   2800
 7     김재호  두산  0.289  116   2  65000
 8     안권수  두산  0.270   10   0   2700
 9     박세혁  두산  0.269   97   4  23200
 10    김재환  두산  0.266  137  30  65000
 11    조수행  두산  0.263   10   0   4500
 12    권민석  두산  0.260   13   0   2700
 13    이유찬  두산  0.258   23   0   3200
 14    신성현  두산  0.250    1   0   4800
 15    장승현  두산  0.250    5   0   3500
 16    서예일  두산  0.240    6   0   3200
 17    국해성  두산  0.233   20   3   4500
 18    오재원  두산  0.232   36   5  30000
 19    양찬열  두산  0.227    5   0   2700
 20    김인태  두산  0.202   17   1   5000
 21    백동훈  두산  0.188    3   0   3600
 22    정상호  두산  0.163   14   0   7000,
 '한화':     선수명  팀명     타율   안타  홈런     연봉
 0   허관회  한화  0.500    1   0   2700
 1   김

- 모든 시트의 데이터 가져올 때 sheet_name에 리스트 형태로 모두 작성하거나
- None으로 작성
- 2개 이상의 시트이므로, 사전(Dict) 형태

In [12]:
야구데이터 = pd.read_excel('data/2020KBO야구.xlsx', sheet_name = ['LG','두산'])

In [13]:
야구데이터['LG']

Unnamed: 0,선수명,팀명,타율,안타,홈런,연봉
0,손호영,LG,0.367,11,0,2700
1,김현수,LG,0.331,181,22,130000
2,신민재,LG,0.308,8,0,5000
3,오지환,LG,0.3,158,10,60000
4,박용택,LG,0.3,65,2,80000
5,이형종,LG,0.296,85,17,20000
6,채은성,LG,0.293,122,15,32000
7,홍창기,LG,0.279,114,5,3800
8,라모스,LG,0.278,120,38,30000
9,김용의,LG,0.271,19,1,10500


- 야구데이터에는 10개의 구단 데이터가 쌓여 있음
- 순서대로 10개의 변수에 각각 데이터를 저장할 수 있음

In [54]:
두산, SK, NC, LG, KT, KIA, 한화, 키움, 롯데, 삼성 = 야구데이터.values()

In [55]:
LG

Unnamed: 0,선수명,팀명,타율,안타,홈런,연봉
0,임지열,키움,1.0,1,0,2700
1,김은성,키움,0.5,2,0,2900
2,이정후,키움,0.333,181,15,39000
3,이지영,키움,0.309,81,0,30000
4,김하성,키움,0.306,163,30,55000
5,김혜성,키움,0.285,142,7,10000
6,서건창,키움,0.277,134,5,35000
7,김웅빈,키움,0.275,57,8,3700
8,변상권,키움,0.274,17,1,3700
9,임병욱,키움,0.27,10,0,8800


In [56]:
두산.to_excel('data/두산데이터.xlsx')