# 입력과 출력

### 1. 데이터 입력

In [1]:
import pandas as pd                               # pandas 패키지 불러오기
import os                                         # os 패키지 불러오기

In [2]:
os.getcwd()

'C:\\PyWorkspaces\\Python_Basic'

In [3]:
data_path = './data'                              # Data 경로
os.chdir(data_path)                               # 작업 디렉토리 변경

In [4]:
os.getcwd()

'C:\\PyWorkspaces\\Python_Basic\\data'

In [5]:
df = pd.read_csv('ex1.csv')                       # 데이터 불러오기

In [6]:
df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [7]:
pd.read_table('ex1.csv', sep=',')                 # 데이터 불러오기

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [8]:
df.dtypes                                         # 불러온 데이터프레임 변수들의 유형 확인 가능

a           int64
b           int64
c           int64
d           int64
message    object
dtype: object

#### 1.1 칼럼명이 없는 파일 불러오기

##### 1.1.1 칼럼명 자동 지정1

칼럼명 부재를 선언한 경우

In [9]:
pd.read_csv('ex2.csv', header=None) 

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


##### 1.1.2 칼럼명 자동 지정2

    - 칼럼명 부재를 선언하지 않은 경우

In [10]:
pd.read_csv('ex2.csv') 

Unnamed: 0,1,2,3,4,hello
0,5,6,7,8,world
1,9,10,11,12,foo


##### 1.1.3 칼럼명 수동 지정

    - 칼럼명을 선언한 경우

In [11]:
pd.read_csv('ex2.csv', names=['a','b','c','d','message'])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


#### 1.2 칼럼의 색인 지정

원본 데이터

In [12]:
pd.read_csv('ex2.csv', names=['a','b','c','d','message'])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


##### 1.2.1 단일 칼럼명 색인 지정

In [13]:
# Message 칼럼을 색인으로 지정
pd.read_csv('ex2.csv', names=['a','b','c','d','message'], index_col='message')

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


##### 1.2.2 계측적 색인 지정

In [14]:
pd.read_csv('csv_mindex.csv', index_col=['key1', 'key2'])

Unnamed: 0_level_0,Unnamed: 1_level_0,value1,value2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


#### 1.3 결측값 처리

원본 데이터

In [15]:
result = pd.read_csv('ex5.csv')
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


##### 1.3.1 특정 값에 대한 결측값 처리

In [16]:
result = pd.read_csv('ex5.csv', na_values=4)
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,,
1,two,5,6,,8.0,world
2,three,9,10,11.0,12.0,foo


In [17]:
sentinels = {'message':['foo', 'NA'], 'something':['two']}
pd.read_csv('ex5.csv', na_values=sentinels)

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,,5,6,,8,world
2,three,9,10,11.0,12,


<span style="color:red">message 칼럼의 'foo'와 'NA'값을 결측치로 판정</span>

<span style="color:red">something 칼럼의 'two'값을 결측치로 판정</span>

#### 1.4 txt파일 불러오기

In [18]:
list(open('ex3.txt'))

['            A         B         C\n',
 'aaa -0.264438 -1.026059 -0.619500\n',
 'bbb  0.927272  0.302904 -0.032399\n',
 'ccc -0.264273 -0.386314 -0.217601\n',
 'ddd -0.871858 -0.348382  1.100491\n']

<span style="color:red">고정된 구분자 없이 공백이나 다른 패턴으로 필드를 구분해 놓은 경우, read_table의 구분자로 정규표현식(\s+)을 사용하여 처리</span>

In [19]:
result = pd.read_table('ex3.txt', sep='\s+')
result

Unnamed: 0,A,B,C
aaa,-0.264438,-1.026059,-0.6195
bbb,0.927272,0.302904,-0.032399
ccc,-0.264273,-0.386314,-0.217601
ddd,-0.871858,-0.348382,1.100491


### 2. 데이터 출력

#### 2.1 pandas 패키지를 이용한 데이터 출력

In [22]:
data = pd.read_csv('ex5.csv')
print(data)
data.to_csv('out.csv')

  something  a   b     c   d message
0       one  1   2   3.0   4     NaN
1       two  5   6   NaN   8   world
2     three  9  10  11.0  12     foo


In [21]:
pd.read_csv('out.csv')

Unnamed: 0.1,Unnamed: 0,something,a,b,c,d,message
0,0,one,1,2,3.0,4,
1,1,two,5,6,,8,world
2,2,three,9,10,11.0,12,foo


<span style="color:red">to_csv 메서드를 이용하면 쉼표로 구분된 형식으로 데이터를 파일로 쓸 수 있음</span>

In [23]:
import sys
data.to_csv(sys.stdout, na_rep='NULL')

,something,a,b,c,d,message
0,one,1,2,3.0,4,NULL
1,two,5,6,NULL,8,world
2,three,9,10,11.0,12,foo


<span style="color:red">결과에서 누락된 값은 비어있는 문자열로 나타나는데, 이를 원하는 값(NULL)으로 지정할 수 있음</span>

In [25]:
data.to_csv(sys.stdout, index=False, columns=['a','b','c']) 

a,b,c
1,2,3.0
5,6,
9,10,11.0


<span style="color:red">칼람의 일부분만을 기록하거나 순서를 직접 지정 할 수 있음.</span>

<span style="color:red">현재 a,b,c에 해당하는 칼럼만 출력</span>

Series에서도 to_csv 메서드 사용 가능

In [24]:
import numpy as np

dates = pd.date_range('1/1/2000', periods=7)
ts = pd.Series(np.arange(7), index=dates)
ts.to_csv('tseries.csv')
pd.read_csv('tseries.csv')

Unnamed: 0.1,Unnamed: 0,0
0,2000-01-01,0
1,2000-01-02,1
2,2000-01-03,2
3,2000-01-04,3
4,2000-01-05,4
5,2000-01-06,5
6,2000-01-07,6


#### 2.2 print 문

In [25]:
# 기본 사용법
a = 123
print(a)
a = "python"
print(a)
a = [1, 2, 3]
print(a)

123
python
[1, 2, 3]


In [26]:
# 큰따옴표(")로 둘러싸인 문자열은 + 연산과 동일
print("life" "is" "too short")
print("life"+"is"+"too short")

lifeistoo short
lifeistoo short


In [27]:
# 문자열 띄어쓰기는 콤마로 함
print("life", "is", "too short")

life is too short


In [28]:
# 한 줄에 결과값 출력
for i in range(10):
    print(i, end=' ')

0 1 2 3 4 5 6 7 8 9 