# 데이터 입출력
### - csv, excel 파일에서 데이터 읽고 쓰기

In [1]:
import pandas as pd
from pandas import Series, DataFrame

## 1. csv 파일 읽기 - read_csv()

In [2]:
# 1) 기본 csv 파일 읽기
### data/ex1.csv 읽기 (컬럼명이 존재하는 csv 파일)
pd.read_csv('data/ex1.csv')

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [3]:
# 2) sep 인자 활용하기 
### 구분자가 다른 파일(data/ex2.txt) 읽기 (sep 인자)

# 콤마가 아닌 공백으로 인자들이 구분되어 있는 파일
pd.read_csv('data/ex2.txt', sep = ' ')

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [5]:
# 3) encoding 인자 활용하기 
### data/2020KBO야구.csv 파일 읽기
pd.read_csv('data/2020KBO야구.csv', encoding = 'cp949')

Unnamed: 0,선수명,팀명,타율,안타,홈런,연봉
0,페르난데스,두산,0.340,199,21,40000.0
1,허경민,두산,0.332,145,7,48000.0
2,오재일,두산,0.312,147,16,47000.0
3,최주환,두산,0.306,156,16,27000.0
4,박건우,두산,0.304,148,14,45000.0
...,...,...,...,...,...,...
254,김재현,SK,0.143,2,0,5600.0
255,화이트,SK,0.136,3,1,
256,채현우,SK,0.130,3,0,3000.0
257,류효승,SK,0.125,1,1,2700.0


In [6]:
# 4) header, names 인자 활용하기 (컬럼명이 파일에 포함되어 있지 않은 경우)
pd.read_csv('data/2020KBO야구_컬럼명미포함.csv', encoding = 'cp949')

Unnamed: 0,페르난데스,두산,0.34,199,21,40000
0,허경민,두산,0.332,145,7,48000.0
1,오재일,두산,0.312,147,16,47000.0
2,최주환,두산,0.306,156,16,27000.0
3,박건우,두산,0.304,148,14,45000.0
4,정수빈,두산,0.298,146,5,34000.0
...,...,...,...,...,...,...
253,김재현,SK,0.143,2,0,5600.0
254,화이트,SK,0.136,3,1,
255,채현우,SK,0.130,3,0,3000.0
256,류효승,SK,0.125,1,1,2700.0


In [7]:
pd.read_csv('data/2020KBO야구_컬럼명미포함.csv', encoding = 'cp949', header = None) # header를 None으로 지정

Unnamed: 0,0,1,2,3,4,5
0,페르난데스,두산,0.340,199,21,40000.0
1,허경민,두산,0.332,145,7,48000.0
2,오재일,두산,0.312,147,16,47000.0
3,최주환,두산,0.306,156,16,27000.0
4,박건우,두산,0.304,148,14,45000.0
...,...,...,...,...,...,...
254,김재현,SK,0.143,2,0,5600.0
255,화이트,SK,0.136,3,1,
256,채현우,SK,0.130,3,0,3000.0
257,류효승,SK,0.125,1,1,2700.0


In [8]:
pd.read_csv('data/2020KBO야구_컬럼명미포함.csv', encoding = 'cp949', 
            names = ['선수명', '팀명', '타율', '안타', '홈런', '연봉']) # name을 직접적으로 지정

Unnamed: 0,선수명,팀명,타율,안타,홈런,연봉
0,페르난데스,두산,0.340,199,21,40000.0
1,허경민,두산,0.332,145,7,48000.0
2,오재일,두산,0.312,147,16,47000.0
3,최주환,두산,0.306,156,16,27000.0
4,박건우,두산,0.304,148,14,45000.0
...,...,...,...,...,...,...
254,김재현,SK,0.143,2,0,5600.0
255,화이트,SK,0.136,3,1,
256,채현우,SK,0.130,3,0,3000.0
257,류효승,SK,0.125,1,1,2700.0


In [11]:
# 5) 불필요한 줄은 제외하고 데이터 읽기 
# 5-1) skiprows를 이용하여, 특정 행을 읽지 않도록 함.

# 주석이나 불필요한 줄이 포함되어 있는 데이터
pd.read_csv('data/2020KBO야구_주석포함.csv', encoding = 'cp949',
           skiprows = [0,1,2], names = ['선수명', '팀명', '타율', '안타', '홈런', '연봉'])

Unnamed: 0,선수명,팀명,타율,안타,홈런,연봉
0,페르난데스,두산,0.340,199,21,40000.0
1,허경민,두산,0.332,145,7,48000.0
2,오재일,두산,0.312,147,16,47000.0
3,최주환,두산,0.306,156,16,27000.0
4,박건우,두산,0.304,148,14,45000.0
...,...,...,...,...,...,...
254,김재현,SK,0.143,2,0,5600.0
255,화이트,SK,0.136,3,1,
256,채현우,SK,0.130,3,0,3000.0
257,류효승,SK,0.125,1,1,2700.0


In [12]:
# 5-2) comment 인자를 이용하여, 주석은 데이터로 읽지 않음. (*로 시작하는 줄들은 항상 데이터에서 제외시킴)
pd.read_csv('data/2020KBO야구_주석포함.csv', encoding = 'cp949',
           comment = '*', names = ['선수명', '팀명', '타율', '안타', '홈런', '연봉'])

Unnamed: 0,선수명,팀명,타율,안타,홈런,연봉
0,페르난데스,두산,0.340,199,21,40000.0
1,허경민,두산,0.332,145,7,48000.0
2,오재일,두산,0.312,147,16,47000.0
3,최주환,두산,0.306,156,16,27000.0
4,박건우,두산,0.304,148,14,45000.0
...,...,...,...,...,...,...
254,김재현,SK,0.143,2,0,5600.0
255,화이트,SK,0.136,3,1,
256,채현우,SK,0.130,3,0,3000.0
257,류효승,SK,0.125,1,1,2700.0


비어 있는 줄은 기본값으로는 원래 읽지 않음. 그런데 비어 있는 줄을 읽게 하고 싶으면 skip_blank_lines = False를 함수안에 추가.

In [13]:
# 6) 용량이 매우 큰 파일 읽기 (파일의 크기가 컴퓨터의 성능보다 크면, Out Of Memery(OOM) Error 발생)

# 1. 데이터의 앞 부분 일부분만 읽어옴
pd.read_csv('data/2020KBO야구.csv', encoding = 'cp949', nrows = 10)

SyntaxError: invalid syntax (<ipython-input-13-9505393a997e>, line 2)

In [22]:
cursor = pd.read_csv('data/2020KBO야구.csv', encoding = 'cp949', chunksize = 10) 

In [23]:
# 2. 이렇게 한 번 실행할 때마다 chunksize만큼 뒤로 가서 여러번 끊어서 사용하는 경우
next(cursor) 

Unnamed: 0,선수명,팀명,타율,안타,홈런,연봉
0,페르난데스,두산,0.34,199,21,40000
1,허경민,두산,0.332,145,7,48000
2,오재일,두산,0.312,147,16,47000
3,최주환,두산,0.306,156,16,27000
4,박건우,두산,0.304,148,14,45000
5,정수빈,두산,0.298,146,5,34000
6,최용제,두산,0.295,13,0,2800
7,김재호,두산,0.289,116,2,65000
8,안권수,두산,0.27,10,0,2700
9,박세혁,두산,0.269,97,4,23200


In [24]:
# 커서 이용해서 쭉 읽어오게 하기
data_list = []
for data in cursor : 
    data_list.append(data)

data_list

[    선수명  팀명     타율   안타  홈런     연봉
 10  김재환  두산  0.266  137  30  65000
 11  조수행  두산  0.263   10   0   4500
 12  권민석  두산  0.260   13   0   2700
 13  이유찬  두산  0.258   23   0   3200
 14  신성현  두산  0.250    1   0   4800
 15  장승현  두산  0.250    5   0   3500
 16  서예일  두산  0.240    6   0   3200
 17  국해성  두산  0.233   20   3   4500
 18  오재원  두산  0.232   36   5  30000
 19  양찬열  두산  0.227    5   0   2700,
     선수명  팀명     타율   안타  홈런      연봉
 20  김인태  두산  0.202   17   1    5000
 21  백동훈  두산  0.188    3   0    3600
 22  정상호  두산  0.163   14   0    7000
 23  강태율  롯데  0.455    5   2    2700
 24  신용수  롯데  0.429    3   0    2900
 25  손아섭  롯데  0.352  190  11  200000
 26  오윤석  롯데  0.298   50   4    4000
 27   정훈  롯데  0.295  121  11    6400
 28  이대호  롯데  0.292  158  20  250000
 29  안치홍  롯데  0.286  118   8   29000,
     선수명  팀명     타율   안타  홈런      연봉
 30  마차도  롯데  0.280  136  12   30000
 31  전준우  롯데  0.279  157  26   50000
 32  한동희  롯데  0.278  128  17    4700
 33  이병규  롯데  0.274   45   9    5000
 34  김재유  

In [26]:
# 7. 결과를 csv 파일로 저장하기 - to_csv()
data = pd.read_csv('data/2020KBO야구.csv', encoding = 'cp949')
result = data.pivot_table(index = '팀명', values = '안타', aggfunc = 'sum')

In [27]:
result.to_csv('data/팀별안타수.csv', encoding = 'cp949') #팀별안타수라는 파일이 생성되며 그 안에 내용이 저장됨

## 2. 엑셀 파일 읽기 (read_excel())

In [None]:
# read_excel()은 read_csv()에서 제공하는 인자들과 흡사

In [28]:
# sheet가 여러 개가 있는 경우
pd.read_excel('data/2020KBO야구.xlsx') # sheet_name = 0 이 기본값. 첫번째 시트를 읽어오는게 디폴트.

Unnamed: 0,선수명,팀명,타율,안타,홈런,연봉
0,페르난데스,두산,0.34,199,21,40000
1,허경민,두산,0.332,145,7,48000
2,오재일,두산,0.312,147,16,47000
3,최주환,두산,0.306,156,16,27000
4,박건우,두산,0.304,148,14,45000
5,정수빈,두산,0.298,146,5,34000
6,최용제,두산,0.295,13,0,2800
7,김재호,두산,0.289,116,2,65000
8,안권수,두산,0.27,10,0,2700
9,박세혁,두산,0.269,97,4,23200


In [30]:
pd.read_excel('data/2020KBO야구.xlsx', sheet_name = '두산') # 해당하는 시트의 이름이나 인덱스 번호를 적음

Unnamed: 0,선수명,팀명,타율,안타,홈런,연봉
0,페르난데스,두산,0.34,199,21,40000
1,허경민,두산,0.332,145,7,48000
2,오재일,두산,0.312,147,16,47000
3,최주환,두산,0.306,156,16,27000
4,박건우,두산,0.304,148,14,45000
5,정수빈,두산,0.298,146,5,34000
6,최용제,두산,0.295,13,0,2800
7,김재호,두산,0.289,116,2,65000
8,안권수,두산,0.27,10,0,2700
9,박세혁,두산,0.269,97,4,23200


In [32]:
data = pd.read_excel('data/2020KBO야구.xlsx', sheet_name = ['LG', '두산']) # 두 개 이상의 시트도 읽어올 수 있음
# 두 가지 이상의 시트를 읽어오는 경우 사전 타입으로 읽어오게 됨. 

# type(data) 는 dictionary임.

#그래서 두산이나 엘지의 데이터를 가져오고 싶으면
data['LG'] # or data['두산'] 이런식으로 적으면 각 시트의 데이터를 불러올 수 있음

Unnamed: 0,선수명,팀명,타율,안타,홈런,연봉
0,손호영,LG,0.367,11,0,2700
1,김현수,LG,0.331,181,22,130000
2,신민재,LG,0.308,8,0,5000
3,오지환,LG,0.3,158,10,60000
4,박용택,LG,0.3,65,2,80000
5,이형종,LG,0.296,85,17,20000
6,채은성,LG,0.293,122,15,32000
7,홍창기,LG,0.279,114,5,3800
8,라모스,LG,0.278,120,38,30000
9,김용의,LG,0.271,19,1,10500


In [34]:
# 전체 시트를 읽어오는 경우 (이 또한 사전 타입의 형식으로 받아옴)
data2 = pd.read_excel('data/2020KBO야구.xlsx', sheet_name = None)

In [35]:
# 그리고 만약에 data['한화'] 이런식으로 매번 각 시트를 불러오기 귀찮다면 변수에 저장해놓으면 됨.
두산, SK, NC, LG, KT, KIA, 한화, 키움, 롯데, 삼성 = data2.values()

In [36]:
키움

Unnamed: 0,선수명,팀명,타율,안타,홈런,연봉
0,임지열,키움,1.0,1,0,2700
1,김은성,키움,0.5,2,0,2900
2,이정후,키움,0.333,181,15,39000
3,이지영,키움,0.309,81,0,30000
4,김하성,키움,0.306,163,30,55000
5,김혜성,키움,0.285,142,7,10000
6,서건창,키움,0.277,134,5,35000
7,김웅빈,키움,0.275,57,8,3700
8,변상권,키움,0.274,17,1,3700
9,임병욱,키움,0.27,10,0,8800


In [37]:
두산.to_excel('data/두산데이터.xlsx') #두산데이터라는 파일이 생성되며 그 안에 내용이 저장됨