In [2]:
''' Pandas 파일 파싱 함수

    read_csv (쉼표로 구분된 파일)
    read_table ('\t'로 구분된 파일)
    read_fwf
    read_clipboard (클립보드에 있는 데이터를 읽어오는 read_table 함수, 표를 읽어올 때 유용하다)
    read_excel
    read_hdf
    read_html
    read_json
    read_msgpack
    read_pickle
    read_sas
    read_sql
    read_stata
    read_feather
'''

# 위 함수들은 텍스트 데이터를 DataFrame으로 읽어오기 위한 함수
'''
    옵션들:
    
    index : 반환하는 DataFrame에서 하나 이상의 컬럼을 색인으로 지정할 수 있다.
    
    자료형 추론과 데이터 변환 : 사용자 정의 값 변환과 비어 있는 값을 위한 사용자 리스트를 포함한다.
    
    날짜 분석 : 여러 컬럼에 걸쳐 있는 날짜와 시간 정보를 하나의 컬럼에 조합해서 결과에 반영한다.
    
    반복 : 여러 개의 파일에 걸쳐 있는 자료를 반복적으로 읽어올 수 있다.
    
    정제되지 않은 데이터 처리 : Row나 꼬리말, 주석 건너뛰기 또는 천 단위마다 쉼표로 구분된 숫자 같은 사소한 것들의 처리를 해준다.
    
'''

'\n    옵션들:\n    \n    index : 반환하는 DataFrame에서 하나 이상의 컬럼을 색인으로 지정할 수 있다.\n    \n    자료형 추론과 데이터 변환 : 사용자 정의 값 변환과 비어 있는 값을 위한 사용자 리스트를 포함한다.\n    \n    날짜 분석 : 여러 컬럼에 걸쳐 있는 날짜와 시간 정보를 하나의 컬럼에 조합해서 결과에 반영한다.\n    \n    반복 : 여러 개의 파일에 걸쳐 있는 자료를 반복적으로 읽어올 수 있다.\n    \n    정제되지 않은 데이터 처리 : Row나 꼬리말, 주석 건너뛰기 또는 천 단위마다 쉼표로 구분된 숫자 같은 사소한 것들의 처리를 해준다.\n    \n'

In [3]:
import pandas as pd
!cat examples/ex1.csv

a,b,c,d,message
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo

In [4]:
df = pd.read_csv('examples/ex1.csv')

In [5]:
df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [6]:
pd.read_table('examples/ex1.csv',sep=',')

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [7]:
pd.read_csv('examples/ex1.csv',names=['aa','bb','cc','dd','messages']) # 컬럼 이름 지정 가능

Unnamed: 0,aa,bb,cc,dd,messages
0,a,b,c,d,message
1,1,2,3,4,hello
2,5,6,7,8,world
3,9,10,11,12,foo


In [8]:
pd.read_csv('examples/ex1.csv', skiprows[0,1,2])

NameError: name 'skiprows' is not defined

In [9]:
result=pd.read_csv('examples/ex1.csv', index_col='message',na_values=['NULL'])

In [10]:
result

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


In [11]:
sentinels={'message':['foo','NA'], 'something':['two']}
pd.read_csv('examples/ex1.csv', na_values=sentinels)

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,


In [12]:
'''
    read_csv 와 read_table 함수 인자
    
    path : 파일 위치
    sep 또는 delimiter : 필드를 구분하기 위해 사용할 연속된 문자나 정규 표현식
    header : 컬럼 이름으로 사용할 로우 번호 (None으로 지정 가능)
    index_col : 계층적 index를 지정할 경우 리스트를 넘길 수 있다.
    names : 컬럼 이름으로 사용할 리스트
    skiprows : 무시할 행 수 또는 무시할 로우 번호가 담긴 리스트
    na_values : NA값으로 처리할 값들의 목록
    comment : 주석으로 분류되어 파싱하지 않을 문자 혹은 문자열
    parse_dates : 날짜를 datetime으로 변환할지 여부 [1,2,3] 을 넘기면 각각의 컬럼을 변환, 
                  [[1,3]] 을 넘기면 1,3번 컬럼을 조합해서 하나의 datetime으로 변환
    keep_date_col : 여러 컬럼은 datetime으로 변환 했을 경우 컬럼을 남겨둘지 여부
    converters : 변환 시 컬럼에 적용할 함수를 지정
    dayfirst : 모호한 날짜 형식일 경우 국제 형식으로 간주
    date_paerser : 날짜 변환 시 사용할 함수
    nrows : 파일의 첫 일부만 읽어올 때 처음 몇 줄을 읽을 것인지 지정
    iterator : 파일을 조금씩 읽을 때 사용하도록 TextParser 객체 반환
    chunksize : TextParser 객체에서 사용할 한 번에 읽을 파일의 크기
    skip_footer : 파일의 끝에서 무시할 라인 수
    verbose : 파싱 결과에 대한 정보를 출력 , 누락된 값이 있다면 컬럼 번호를 출력
    encoding : 유니코드 인코딩 종류를 지정
    squeeze : 컬럼이 하나 뿐이면 Series 객체 반환
    thousands : 숫자를 천 단위로 끊을 때 사용할 ',' 나 '.' 같은 구분자
    '''

"\n    read_csv 와 read_table 함수 인자\n    \n    path : 파일 위치\n    sep 또는 delimiter : 필드를 구분하기 위해 사용할 연속된 문자나 정규 표현식\n    header : 컬럼 이름으로 사용할 로우 번호 (None으로 지정 가능)\n    index_col : 계층적 index를 지정할 경우 리스트를 넘길 수 있다.\n    names : 컬럼 이름으로 사용할 리스트\n    skiprows : 무시할 행 수 또는 무시할 로우 번호가 담긴 리스트\n    na_values : NA값으로 처리할 값들의 목록\n    comment : 주석으로 분류되어 파싱하지 않을 문자 혹은 문자열\n    parse_dates : 날짜를 datetime으로 변환할지 여부 [1,2,3] 을 넘기면 각각의 컬럼을 변환, \n                  [[1,3]] 을 넘기면 1,3번 컬럼을 조합해서 하나의 datetime으로 변환\n    keep_date_col : 여러 컬럼은 datetime으로 변환 했을 경우 컬럼을 남겨둘지 여부\n    converters : 변환 시 컬럼에 적용할 함수를 지정\n    dayfirst : 모호한 날짜 형식일 경우 국제 형식으로 간주\n    date_paerser : 날짜 변환 시 사용할 함수\n    nrows : 파일의 첫 일부만 읽어올 때 처음 몇 줄을 읽을 것인지 지정\n    iterator : 파일을 조금씩 읽을 때 사용하도록 TextParser 객체 반환\n    chunksize : TextParser 객체에서 사용할 한 번에 읽을 파일의 크기\n    skip_footer : 파일의 끝에서 무시할 라인 수\n    verbose : 파싱 결과에 대한 정보를 출력 , 누락된 값이 있다면 컬럼 번호를 출력\n    encoding : 유니코드 인코딩 종류를 지정\n    squeeze : 컬럼이 하나 뿐이면 Series 객체 반환\n    thousands : 숫

In [13]:
pd.options.display.max_rows=10

In [14]:
# 텍스트 파일 조금씩 읽어오기

result=pd.read_csv('examples/ex1.csv',nrows=10)
result

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [15]:
chunker=pd.read_csv('examples/ex1.csv',chunksize=10)

for piece in chunker:
    print(piece)

   a   b   c   d message
0  1   2   3   4   hello
1  5   6   7   8   world
2  9  10  11  12     foo


In [16]:
# 데이터를 텍스트 형식으로 기록하기

In [17]:
data=pd.read_csv('examples/ex1.csv')
data

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [18]:
data.to_csv('examples/out.csv')

In [19]:
import sys
data.to_csv(sys.stdout,sep='|',na_rep='NULL',index=False, header=None)

1|2|3|4|hello
5|6|7|8|world
9|10|11|12|foo


In [20]:
# 구분자 형식 다루기

In [21]:
# 잘못된 라인이 포함되어 있는 데이터를 전달받는 경우
# 구분자가 한 글자인 파일은 파이썬 내장 csv 모듈 사용 가능
import csv
f=open('examples/ex1.csv')
reader=csv.reader(f)
for line in reader:
    print(line)

['a', 'b', 'c', 'd', 'message']
['1', '2', '3', '4', 'hello']
['5', '6', '7', '8', 'world']
['9', '10', '11', '12', 'foo']


In [22]:
with open('examples/ex1.csv') as f:
    lines=list(csv.reader(f))
header, values=lines[0],lines[1:] # 헤더와 데이터 구분

data_dict={h: v for h,v in zip(header,zip(*values))} # 로우를 컬럼으로 전치해주는 zip(*values)를 이용해서 데이터 컬럼 사전 만들기
data_dict
# 다양한 구분자, 문자열을 둘러싸는 방법, 개행 문자 같은 것들은 csv.Dialect를 상속받아 새로운 클래스를 정의해서 해결할 수 있다.
class my_dialect(csv.Dialect):
    lineterminator='\n'
    delimiter=';'
    quotechar='"'
    quoting=csv.QUOTE_MINIMAL
    
reader=csv.reader(f,dialect=my_dialect)

ValueError: I/O operation on closed file.

In [23]:
reader=csv.reader(f,delimiter='|') # 키워드로 csv 파일의 특징을 지정해서 전달해도 된다.

ValueError: I/O operation on closed file.

In [24]:
'''
    csv 관련 옵션
    
    delimiter : 구분자, 기본값은 ','
    lineterminator : 파일을 저장할 때 사용할 개행 문자. 기본값은 '\r\n'
    quotechar : 각 필드에서 값을 둘러싸고 있는 문자. 기본값은 '"'
    quoting : 값을 읽거나 쓸 때 둘러쌀 컨벤션
    skipinitialspace : 구분자 뒤에 있는 공백 문자를 무시할지 여부
    doublequote : 값을 둘러싸는 문자가 필드 내에 존재할 경우 처리 여부
    escapechar : quoting이 csv.QUOTE_NONE 일 때 값에 구분자와 같은 문자가 있을 경우 구별할 수 있도록 해주는 이스케이프 문자
'''

'\n    csv 관련 옵션\n    \n    delimiter : 구분자, 기본값은 \',\'\n    lineterminator : 파일을 저장할 때 사용할 개행 문자. 기본값은 \'\r\n\'\n    quotechar : 각 필드에서 값을 둘러싸고 있는 문자. 기본값은 \'"\'\n    quoting : 값을 읽거나 쓸 때 둘러쌀 컨벤션\n    skipinitialspace : 구분자 뒤에 있는 공백 문자를 무시할지 여부\n    doublequote : 값을 둘러싸는 문자가 필드 내에 존재할 경우 처리 여부\n    escapechar : quoting이 csv.QUOTE_NONE 일 때 값에 구분자와 같은 문자가 있을 경우 구별할 수 있도록 해주는 이스케이프 문자\n'

In [25]:
# JSON 데이터 (JavaScript Object Notation) : 웹 브라우저와 다른 애플리케이션이 http 요청으로 데이터를 보낼 때 사용하는 표준 파일 형식
# csv 같은 표 형식의 텍스트보다 좀 더 유연한 데이터 형식이다.
obj="""
{"name":"Wes",
 "places_lived": ["United States", "Spain", "Germany"],
 "pet": null,
 "siblings": [{"name": "Scott", "age": 30, "pets": ["Zeus", "Zuko"]},
              {"name": "Katie", "age": 38,
               "pets": ["Sixes", "Stache", "Cisco"]}]
}
"""

In [26]:
import json # JSON 문자열을 파이썬 형태로 변환하기 위해서는 json.loads를 사용한다.

In [27]:
result=json.loads(obj)
result

{'name': 'Wes',
 'places_lived': ['United States', 'Spain', 'Germany'],
 'pet': None,
 'siblings': [{'name': 'Scott', 'age': 30, 'pets': ['Zeus', 'Zuko']},
  {'name': 'Katie', 'age': 38, 'pets': ['Sixes', 'Stache', 'Cisco']}]}

In [28]:
asjson=json.dumps(result) # dumps는 파이썬 객체를 json 형태로 변환한다.

In [29]:
siblings=pd.DataFrame(result['siblings'], columns=['name','age'])
siblings

Unnamed: 0,name,age
0,Scott,30
1,Katie,38
