# 데이터 입출력
### - csv, excel 파일에서 데이터 읽고 쓰기

In [1]:
import pandas as pd
from pandas import Series, DataFrame

## 1. csv 파일 읽기 - `read_csv()`

### `pandas.read_csv()`

#### Parameters: 
1. __sep__ : _str, default ','_
<br> : 구분자 => 일반적으로 csv 파일은 ',', txt파일은 ' '(공백)


2. __encoding__ : _str, optional_
<br> ex) encoding = 'utf8', encoding = 'cp949'


3. __header__ : _int, list of int, None, default 'infer'_
<br> ex) 0, [0, 1](Multi Index), None


4. __dtype__ : _Type name or dict of column -> type, optional_


5. __names__ : _array-like(list, tuple), optional_
<br> : header = None일 때, column index 이름 지정


6. __skiprows__ : _list-like, int, or callable, optional_
<br> : 특정 line 제외하고 읽어오기
<br>Line numbers to skip (0-indexed) or number of lines to skip (int) at the start of the file.


7. __chunksize__ : _int, optional_


8. __delimiter__ : _str, default None_
<br> sep 대신 사용 가능


9. __nrows__ : _int, optional_
<br> : 최상위 n개의 row만 불러오기


10. __thousands__ : _str, optional_
<br> Thousands separator ex) 2510 -> 2,510


11. __comment__ : _str, optional_
<br> 특정 문자로 시작하는 line은 주석으로 간주하고 읽어오지 않음


12. __index_col__ : _int, str, sequence of int/str, or False, optional, default None_
<br> : 특정 column(s)을 row index로 지정


13. __na_values__ : _scalar, str, list-like, or dict, optional_
<br> : 사용자 정의 missing values(결측값) 표시기호 설정

### <span style = background-color:yellow>제 기준 path은 '../data/~'라서 path가 다를 수 있음!!</span>

In [2]:
# 1) 기본 csv 파일 읽기
### data/ex1.csv 읽기 (컬럼명이 존재하는 csv 파일)
#comma second value => csv
pd.read_csv('../data/ex1.csv')

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [3]:
# 2) sep 인자 활용하기 
### 구분자가 다른 파일(data/ex2.txt) 읽기 (sep 인자)
pd.read_csv('../data/ex2.txt', sep=' ')
#.csv, .txt 등 데이터 형식(확장자) 상관X

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [4]:
# 3) encoding 인자 활용하기 _> unicode error
### data/2020KBO야구.csv 파일 읽기
pd.read_csv('../data/2020KBO야구.csv', encoding='cp949')
#한글 전용 인코딩 cp949

Unnamed: 0,선수명,팀명,타율,안타,홈런,연봉
0,페르난데스,두산,0.340,199,21,40000.0
1,허경민,두산,0.332,145,7,48000.0
2,오재일,두산,0.312,147,16,47000.0
3,최주환,두산,0.306,156,16,27000.0
4,박건우,두산,0.304,148,14,45000.0
...,...,...,...,...,...,...
254,김재현,SK,0.143,2,0,5600.0
255,화이트,SK,0.136,3,1,
256,채현우,SK,0.130,3,0,3000.0
257,류효승,SK,0.125,1,1,2700.0


In [5]:
# 4) header, names 인자 활용하기 (컬럼명이 파일에 포함되어 있지 않은 경우)
#자동적으로 첫 번째 행의 데이터를 header로 인식하기 때문에 (header=[0])
#column name이 없으면 header=None 지정해주기
pd.read_csv('../data/2020KBO야구_컬럼명미포함.csv', encoding='cp949', header=None)

Unnamed: 0,0,1,2,3,4,5
0,페르난데스,두산,0.340,199,21,40000.0
1,허경민,두산,0.332,145,7,48000.0
2,오재일,두산,0.312,147,16,47000.0
3,최주환,두산,0.306,156,16,27000.0
4,박건우,두산,0.304,148,14,45000.0
...,...,...,...,...,...,...
254,김재현,SK,0.143,2,0,5600.0
255,화이트,SK,0.136,3,1,
256,채현우,SK,0.130,3,0,3000.0
257,류효승,SK,0.125,1,1,2700.0


In [6]:
#파일 불러올 때 컬럼명 지정해주기
pd.read_csv('../data/2020KBO야구_컬럼명미포함.csv', encoding='cp949', 
            names=['선수명', '팀명', '타율', '안타', '홈런', '연봉'])
#column name 지정할 때 개수 꼭 맞추기

Unnamed: 0,선수명,팀명,타율,안타,홈런,연봉
0,페르난데스,두산,0.340,199,21,40000.0
1,허경민,두산,0.332,145,7,48000.0
2,오재일,두산,0.312,147,16,47000.0
3,최주환,두산,0.306,156,16,27000.0
4,박건우,두산,0.304,148,14,45000.0
...,...,...,...,...,...,...
254,김재현,SK,0.143,2,0,5600.0
255,화이트,SK,0.136,3,1,
256,채현우,SK,0.130,3,0,3000.0
257,류효승,SK,0.125,1,1,2700.0


In [7]:
#계층 색인일 경우 header = [0, 1] 이런 식으로 여러 개 지정 가능
pd.read_csv('../data/2020KBO야구_컬럼명미포함.csv', encoding='cp949', header= [0, 1])

Unnamed: 0_level_0,페르난데스,두산,0.34,199,21,40000
Unnamed: 0_level_1,허경민,두산,0.332,145,7,48000
0,오재일,두산,0.312,147,16,47000.0
1,최주환,두산,0.306,156,16,27000.0
2,박건우,두산,0.304,148,14,45000.0
3,정수빈,두산,0.298,146,5,34000.0
4,최용제,두산,0.295,13,0,2800.0
...,...,...,...,...,...,...
252,김재현,SK,0.143,2,0,5600.0
253,화이트,SK,0.136,3,1,
254,채현우,SK,0.130,3,0,3000.0
255,류효승,SK,0.125,1,1,2700.0


In [8]:
# 5) 불필요한 줄은 제외하고 데이터 읽기 
# 5-1) skiprows를 이용하여, 특정 행을 읽지 않도록 함.
#skiprows=[0, 1, 2] 위의 3개 데이터 skip
pd.read_csv('../data/2020KBO야구_주석포함.csv', encoding='cp949', skiprows = [0, 1, 2],
           names=['선수명', '팀명', '타율', '안타', '홈런', '연봉'])

Unnamed: 0,선수명,팀명,타율,안타,홈런,연봉
0,페르난데스,두산,0.340,199,21,40000.0
1,허경민,두산,0.332,145,7,48000.0
2,오재일,두산,0.312,147,16,47000.0
3,최주환,두산,0.306,156,16,27000.0
4,박건우,두산,0.304,148,14,45000.0
...,...,...,...,...,...,...
254,김재현,SK,0.143,2,0,5600.0
255,화이트,SK,0.136,3,1,
256,채현우,SK,0.130,3,0,3000.0
257,류효승,SK,0.125,1,1,2700.0


In [9]:
# 5-2) comment 인자를 이용하여, 주석은 데이터로 읽지 않음.
#특정 문자로 시작하는 구문은 읽지 않음
pd.read_csv('../data/2020KBO야구_주석포함.csv', encoding='cp949', comment='*',
           names=['선수명', '팀명', '타율', '안타', '홈런', '연봉'])

Unnamed: 0,선수명,팀명,타율,안타,홈런,연봉
0,페르난데스,두산,0.340,199,21,40000.0
1,허경민,두산,0.332,145,7,48000.0
2,오재일,두산,0.312,147,16,47000.0
3,최주환,두산,0.306,156,16,27000.0
4,박건우,두산,0.304,148,14,45000.0
...,...,...,...,...,...,...
254,김재현,SK,0.143,2,0,5600.0
255,화이트,SK,0.136,3,1,
256,채현우,SK,0.130,3,0,3000.0
257,류효승,SK,0.125,1,1,2700.0


#### read_csv는 비어있는 데이터(빈 줄)은 자동으로 skip

In [10]:
# 6) 용량이 매우 큰 파일 읽기 
#nrows : 읽고자하는 행의 개수
pd.read_csv('../data/2020KBO야구.csv', encoding='cp949', nrows=30)

Unnamed: 0,선수명,팀명,타율,안타,홈런,연봉
0,페르난데스,두산,0.34,199,21,40000
1,허경민,두산,0.332,145,7,48000
2,오재일,두산,0.312,147,16,47000
3,최주환,두산,0.306,156,16,27000
4,박건우,두산,0.304,148,14,45000
5,정수빈,두산,0.298,146,5,34000
6,최용제,두산,0.295,13,0,2800
7,김재호,두산,0.289,116,2,65000
8,안권수,두산,0.27,10,0,2700
9,박세혁,두산,0.269,97,4,23200


In [11]:
#chunck 데이터의 묶음이라고 생각하면 됨.
#chunksize=10 10개 단위로 끊어서 가져오기
pd.read_csv('../data/2020KBO야구.csv', encoding='cp949', chunksize=10)
#10개 단위로 끊어서 읽어올 준비된 객체를 return함

<pandas.io.parsers.readers.TextFileReader at 0x29c0e572310>

In [12]:
cursor = pd.read_csv('../data/2020KBO야구.csv', encoding='cp949', chunksize=10)
cursor

<pandas.io.parsers.readers.TextFileReader at 0x29c0e572370>

In [13]:
#10줄 읽어옴
#한 번 더 실행하면, 그 다음 10줄 읽어옴
next(cursor)

Unnamed: 0,선수명,팀명,타율,안타,홈런,연봉
0,페르난데스,두산,0.34,199,21,40000
1,허경민,두산,0.332,145,7,48000
2,오재일,두산,0.312,147,16,47000
3,최주환,두산,0.306,156,16,27000
4,박건우,두산,0.304,148,14,45000
5,정수빈,두산,0.298,146,5,34000
6,최용제,두산,0.295,13,0,2800
7,김재호,두산,0.289,116,2,65000
8,안권수,두산,0.27,10,0,2700
9,박세혁,두산,0.269,97,4,23200


In [14]:
for data in cursor:
    print(data.연봉.mean())

12410.0
51060.0
23460.0
11000.0
29560.0
5450.0
18380.0
30530.0
7080.0
16370.0
13000.0
13440.0
32610.0
11800.0
5990.0
34310.0
6360.0
36650.0
17960.0
33080.0
25530.0
7510.0
28340.0
11650.0
21000.0


## 2. csv파일로 저장 - `to_csv()`

### `pandas.read_csv()`

#### Parameters: 
1. __sep__ : _str, default ','_


2. __encoding__ : _str, optional_


3. __header__ : _bool or list of str, default True_


In [15]:
# 7. 결과를 csv 파일로 저장하기 - to_csv()
df = pd.read_csv('../data/2020KBO야구.csv', encoding='cp949')
df

Unnamed: 0,선수명,팀명,타율,안타,홈런,연봉
0,페르난데스,두산,0.340,199,21,40000.0
1,허경민,두산,0.332,145,7,48000.0
2,오재일,두산,0.312,147,16,47000.0
3,최주환,두산,0.306,156,16,27000.0
4,박건우,두산,0.304,148,14,45000.0
...,...,...,...,...,...,...
254,김재현,SK,0.143,2,0,5600.0
255,화이트,SK,0.136,3,1,
256,채현우,SK,0.130,3,0,3000.0
257,류효승,SK,0.125,1,1,2700.0


In [16]:
#팀별 평균 연봉(예습)
팀별연봉 = df.pivot_table(index='팀명', values='연봉', aggfunc='sum')
팀별연봉

Unnamed: 0_level_0,연봉
팀명,Unnamed: 1_level_1
KIA,500700.0
KT,402900.0
LG,566200.0
NC,635200.0
SK,570800.0
두산,474400.0
롯데,757100.0
삼성,438100.0
키움,525000.0
한화,467600.0


In [17]:
팀별연봉.to_csv('../data/팀별연봉.csv')

__Q)__
<br>엑셀파일 안에 10개 단위로 끊어서 
처음부터가 아니고, 20~30까지, 50~ 60까지 이렇게 띄엄띄엄 불러올 수 있나요?


안됨

__Q)__
<br>next(cursor)를 사용하다가, 커서의 위치를 초기화 하려면 
<br>`cursor=pd.read_csv('data/2020KBO야구.csv',encoding='cp949',chunksize=10)`
<br>이렇게 다시 지정하는 방법 외에 다른 초기화 방법이 있나요?


특별히 다른 방법이 있지 않은 것 같음

## 3. 엑셀 파일 읽기 - `read_excel()`

In [18]:
pd.read_excel('../data/2020KBO야구.xlsx')
#첫 번째 sheet만 읽어옴

Unnamed: 0,선수명,팀명,타율,안타,홈런,연봉
0,페르난데스,두산,0.34,199,21,40000
1,허경민,두산,0.332,145,7,48000
2,오재일,두산,0.312,147,16,47000
3,최주환,두산,0.306,156,16,27000
4,박건우,두산,0.304,148,14,45000
5,정수빈,두산,0.298,146,5,34000
6,최용제,두산,0.295,13,0,2800
7,김재호,두산,0.289,116,2,65000
8,안권수,두산,0.27,10,0,2700
9,박세혁,두산,0.269,97,4,23200


In [19]:
#sheet_name 원하는 시트를 읽어올 수 있음
pd.read_excel('../data/2020KBO야구.xlsx', sheet_name='삼성')

Unnamed: 0,선수명,팀명,타율,안타,홈런,연봉
0,김호재,삼성,0.322,38,1,4000
1,김동엽,삼성,0.312,129,20,13500
2,구자욱,삼성,0.307,137,15,28000
3,강한울,삼성,0.305,32,1,12000
4,김상수,삼성,0.304,123,5,25000
5,최영진,삼성,0.297,30,1,8000
6,박해민,삼성,0.29,142,11,30000
7,강민호,삼성,0.287,102,19,125000
8,김성윤,삼성,0.286,2,0,2900
9,이성곤,삼성,0.281,39,5,3500


In [20]:
data2 = pd.read_excel('../data/2020KBO야구.xlsx', sheet_name=['삼성', 'LG'])
data2
#dictionary 타입으로 return

{'삼성':      선수명  팀명     타율   안타  홈런      연봉
 0    김호재  삼성  0.322   38   1    4000
 1    김동엽  삼성  0.312  129  20   13500
 2    구자욱  삼성  0.307  137  15   28000
 3    강한울  삼성  0.305   32   1   12000
 4    김상수  삼성  0.304  123   5   25000
 5    최영진  삼성  0.297   30   1    8000
 6    박해민  삼성  0.290  142  11   30000
 7    강민호  삼성  0.287  102  19  125000
 8    김성윤  삼성  0.286    2   0    2900
 9    이성곤  삼성  0.281   39   5    3500
 10  살라디노  삼성  0.280   37   6   70000
 11   송준석  삼성  0.277   13   1    4000
 12   이원석  삼성  0.268  108  13   30000
 13   박승규  삼성  0.258   47   1    3200
 14   김헌곤  삼성  0.248   63   3   19000
 15   김지찬  삼성  0.232   59   1    2700
 16   이학주  삼성  0.228   47   4    9000
 17   김응민  삼성  0.224   17   0    3200
 18   김도환  삼성  0.220    9   0    5000
 19   박찬도  삼성  0.219   21   1    5000
 20    팔카  삼성  0.209   41   8   10000
 21   박계범  삼성  0.195   32   3    5500
 22   이성규  삼성  0.181   39  10    4300
 23   김민수  삼성  0.174    4   0    4300
 24   김재현  삼성  0.143    2   0    5500
 25   

In [21]:
data2['삼성'] #dictionary 타입이므로, key값으로 조회 가능

Unnamed: 0,선수명,팀명,타율,안타,홈런,연봉
0,김호재,삼성,0.322,38,1,4000
1,김동엽,삼성,0.312,129,20,13500
2,구자욱,삼성,0.307,137,15,28000
3,강한울,삼성,0.305,32,1,12000
4,김상수,삼성,0.304,123,5,25000
5,최영진,삼성,0.297,30,1,8000
6,박해민,삼성,0.29,142,11,30000
7,강민호,삼성,0.287,102,19,125000
8,김성윤,삼성,0.286,2,0,2900
9,이성곤,삼성,0.281,39,5,3500


In [22]:
#모든 sheet 읽어오기 : sheet_name = None
pd.read_excel('../data/2020KBO야구.xlsx', sheet_name=None)

{'두산':       선수명  팀명     타율   안타  홈런     연봉
 0   페르난데스  두산  0.340  199  21  40000
 1     허경민  두산  0.332  145   7  48000
 2     오재일  두산  0.312  147  16  47000
 3     최주환  두산  0.306  156  16  27000
 4     박건우  두산  0.304  148  14  45000
 5     정수빈  두산  0.298  146   5  34000
 6     최용제  두산  0.295   13   0   2800
 7     김재호  두산  0.289  116   2  65000
 8     안권수  두산  0.270   10   0   2700
 9     박세혁  두산  0.269   97   4  23200
 10    김재환  두산  0.266  137  30  65000
 11    조수행  두산  0.263   10   0   4500
 12    권민석  두산  0.260   13   0   2700
 13    이유찬  두산  0.258   23   0   3200
 14    신성현  두산  0.250    1   0   4800
 15    장승현  두산  0.250    5   0   3500
 16    서예일  두산  0.240    6   0   3200
 17    국해성  두산  0.233   20   3   4500
 18    오재원  두산  0.232   36   5  30000
 19    양찬열  두산  0.227    5   0   2700
 20    김인태  두산  0.202   17   1   5000
 21    백동훈  두산  0.188    3   0   3600
 22    정상호  두산  0.163   14   0   7000,
 'SK':     선수명  팀명     타율   안타  홈런        연봉
 0   김경호  SK  0.286   30   0    2900