#### pandas 파일 파싱함수
#### read_csv : 데이터 구분자는 쉼표(,)를 기본으로 한다.
#### read_table : 데이터 구분자는 탭(\t)을 기본으로 한다.

In [7]:
#쉼표로 구분된 작은 규모의 csv 파일 예, type은 윈도우 사용자
!type 수업자료\examples\ex1.csv  

a,b,c,d,message
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo


In [10]:
import pandas as pd
#이 파일은 쉼표로 구분되어 있기때문에 read_csv를 사용해서 DataFrame으로 읽어 온다.
df = pd.read_csv('수업자료/examples/ex1.csv')
df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [14]:
# read_table에 구분자를 쉽표로 지정해서 읽어올 수도 있다. 
pd.read_table('수업자료/examples/ex1.csv',sep=',')

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [15]:
!type 수업자료\examples\ex2.csv

1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo


In [16]:
pd.read_csv('수업자료\examples\ex2.csv')

Unnamed: 0,1,2,3,4,hello
0,5,6,7,8,world
1,9,10,11,12,foo


In [17]:
# header=None 
# 첫 번째 행이 데이터로 처리되고, 컬럼 columns이름이 자동으로 생성되지 않고 숫자형 인덱스가 할당됩니다.
pd.read_csv('수업자료\examples\ex2.csv', header=None)

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [18]:
# 직접 컬럼 이름을 지정 column
pd.read_csv('수업자료\examples\ex2.csv',
           names = ['a','b','c','d','message'])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [19]:
# index 할당은 index_col이고 column은 names
names = ['a','b','c','d','message']
pd.read_csv('수업자료\examples\ex2.csv',
           names = names , index_col = 'message')

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


# index 할당은 index_col이고  column은 names


In [20]:
#계층적 색인을
!type 수업자료\examples\csv_mindex.csv

key1,key2,value1,value2
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


In [21]:
pd.read_csv('수업자료\examples\csv_mindex.csv')

Unnamed: 0,key1,key2,value1,value2
0,one,a,1,2
1,one,b,3,4
2,one,c,5,6
3,one,d,7,8
4,two,a,9,10
5,two,b,11,12
6,two,c,13,14
7,two,d,15,16


In [68]:
# 계층적 색인을 지정하고 싶으면 컬럼 번호나 이름의 리스트를 넘긴다.
parsed = pd.read_csv('수업자료\examples\csv_mindex.csv',
           index_col=['key1','key2'])
parsed

Unnamed: 0_level_0,Unnamed: 1_level_0,value1,value2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


In [69]:
parsed.loc['one']

Unnamed: 0_level_0,value1,value2
key2,Unnamed: 1_level_1,Unnamed: 2_level_1
a,1,2
b,3,4
c,5,6
d,7,8


In [70]:
parsed.loc['one'].iloc[0]

value1    1
value2    2
Name: a, dtype: int64

#### 가끔 고정된 구분자 없이 공백이나 다른 패턴으로 필드를 구분해 놓은 경우가 있다. 

In [24]:
list(open('수업자료/examples/ex3.txt'))

['            A         B         C\n',
 'aaa -0.264438 -1.026059 -0.619500\n',
 'bbb  0.927272  0.302904 -0.032399\n',
 'ccc -0.264273 -0.386314 -0.217601\n',
 'ddd -0.871858 -0.348382  1.100491\n']

In [27]:
#이 파일은 여러개의 공백 문자로 구분되므로, 이를 표현하할 수 있는 정규 표현식 \s+를 사용해서 처리 
#첫번째 row가 다른 row보다 컬럼하나가 적기때문에 read_table은 첫 번쩨 컬럼이DataGrame의 색인이 되어야 한다고 추론하다.
# \s+ : 공백 문자와 매치 [\t\n\r\f\v], + : 1개 이상의 문자를 포함

# 자동으로 값하나 적은게 컬럼이 되네요

result = pd.read_table('수업자료/examples/ex3.txt', sep='\s+') 
result

Unnamed: 0,A,B,C
aaa,-0.264438,-1.026059,-0.6195
bbb,0.927272,0.302904,-0.032399
ccc,-0.264273,-0.386314,-0.217601
ddd,-0.871858,-0.348382,1.100491


In [29]:
!type 수업자료\examples\ex4.csv
# 주석처리가 되어있는 파일.

# hey!
a,b,c,d,message
# just wanted to make things more difficult for you
# who reads CSV files with computers, anyway?
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo


In [33]:
pd.read_csv('수업자료/examples/ex4.csv',skiprows=[0,2,3]) 

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [34]:
pd.read_csv('수업자료/examples/ex4.csv',skiprows=[0,2,3],index_col='message') 

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


In [35]:
!type 수업자료\examples\ex5.csv
# Na 누락되거나 비어있는 값이 들어있다.

something,a,b,c,d,message
one,1,2,3,4,NA
two,5,6,,8,world
three,9,10,11,12,foo


In [38]:
result = pd.read_csv('수업자료/examples/ex5.csv')
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [40]:
result.isnull()
# 해당 값이 null이면 True, 아니면 False로 할당

Unnamed: 0,something,a,b,c,d,message
0,False,False,False,False,False,True
1,False,False,False,True,False,False
2,False,False,False,False,False,False


In [43]:
#컬럼마다 다른 NA문자를 사전값으로 넘겨서 처리할 수도 있다.
sentinels = {'message': ['foo','NA'], 'something':['two']} 
#message 컬럼에서 'foo'와 'NA'를, something 컬럼에서 'two'를 NaN으로 처리

pd.read_csv('수업자료/examples/ex5.csv', na_values=sentinels)

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,,5,6,,8,world
2,three,9,10,11.0,12,



### 아래의 pd.read_csv 함수에 사용된 각 인자들의 의미를 찾아보시오
### data = pd.read_csv('test.csv', header=1, usecols='A:G', skipfooter=4)

header=1: 이 매개변수는 열 이름(헤더)이 시작되는 행의 인덱스를 지정합니다. 여기서는 1로 설정되어 있으므로 두 번째 행부터 열 이름으로 처리됩니다. 첫 번째 행은 데이터로 처리됩니다.
  
usecols='A:G': 이 매개변수는 읽어올 열의 범위를 지정합니다. 여기서는 'A'부터 'G'까지의 열을 읽어옵니다.
  
skipfooter=4: 이 매개변수는 파일의 끝부분에서 무시할 행의 수를 지정합니다. 여기서는 파일의 끝에서 4개의 행을 무시합니다.

   
즉, 위의 pd.read_csv() 함수는 'test.csv' 파일을 읽어와서 두 번째 행부터 열 이름으로 사용하고, 'A'부터 'G'까지의 열을 읽어오며, 파일의 끝에서 4개의 행을 무시합니다.

## skiprows skipfooter nrows
skiprows= [0,2,4] : 0행 2행 4행을 무시한다.
skiprows = 4 : 처음 4개는 무시한다.
skipfooter=4 : 끝에서 4번째는 무시한다.


nrows= 4 : 처음 4개만 가져온다.

### 텍스트 파일을 조금씩 읽어오기 
#### 매우 큰 파일을 처리할 때, 인자를 제대로 주었는지 알아보기 위해 파일의 일부만을 일어보거나, 여러개의 파일중 몇개만 읽어서 확인하고자 할때 사용한다. 

In [49]:
# 상위 10개의 행과 하단의 요약 정보만 출력
pd.options.display.max_rows=10

result = pd.read_csv('수업자료/examples/ex6.csv')
result

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.501840,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q
...,...,...,...,...,...
9995,2.311896,-0.417070,-1.409599,-0.515821,L
9996,-0.479893,-0.650419,0.745152,-0.646038,E
9997,0.523331,0.787112,0.486066,1.093156,K
9998,-0.362559,0.598894,-1.843201,0.887292,G


In [50]:
pd.read_csv('수업자료/examples/ex6.csv', nrows=4)

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.50184,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R


In [52]:
#파일을 여러조각으로 나누어 읽고 싶다면, chunksize 옵션으로 row의 갯수를 지정
chunker = pd.read_csv('수업자료/examples/ex6.csv', chunksize=1000)
chunker

<pandas.io.parsers.readers.TextFileReader at 0x17f37745a80>

In [53]:
#ex6.csv파일을 chunker사이즈로 읽어 순회하며 'key'row에 있는 값을 세어보는 예
tot = pd.Series([])
    
for piece in chunker:
    tot = tot.add(piece['key'].value_counts(), fill_value=0)
tot = tot.sort_values(ascending=False)
tot[:10]

  tot = pd.Series([])


E    368.0
X    364.0
L    346.0
O    343.0
Q    340.0
M    338.0
J    337.0
F    335.0
K    334.0
H    330.0
dtype: float64

In [54]:
data = pd.read_csv('수업자료/examples/ex5.csv')

data

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [64]:
data.to_csv('수업자료/examples/out.csv')
 #to_csv : csv로 변환 !!! 
    
    #이 밑으로는 read_csv대신 to_csv로 하는듯하다.

In [56]:
!type 수업자료\examples\out.csv

,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [58]:
#다른 구분자도 가능 : 쉼표 대신 |를 구분자로 사용한 예
import sys

data.to_csv(sys.stdout, sep='|')
#콘솔에서 확인할 수 있도록 실제 파일에 기록하지 않고 stdout에 결과를 기록 

|something|a|b|c|d|message
0|one|1|2|3.0|4|
1|two|5|6||8|world
2|three|9|10|11.0|12|foo


In [61]:
data.to_csv(sys.stdout, na_rep='NULL')
#누락된 값nan을 nulㅣ이란 글자로 바꿔준다.

,something,a,b,c,d,message
0,one,1,2,3.0,4,NULL
1,two,5,6,NULL,8,world
2,three,9,10,11.0,12,foo


In [65]:
#row와 col 이름 없이 출력

data.to_csv(sys.stdout, index=False, header=False)

one,1,2,3.0,4,
two,5,6,,8,world
three,9,10,11.0,12,foo


In [66]:
#row와 col의 일부만 기록할 수 있다. 
data.to_csv(sys.stdout, index=False, columns=['a', 'b', 'c'])

a,b,c
1,2,3.0
5,6,
9,10,11.0
