# 입력과 출력

## 1. 데이터 입력

In [1]:
import pandas as pd                               # pandas 패키지 불러오기
import os                                         # os 패키지 불러오기

In [2]:
os.getcwd()

'/home/dongha0718/KNOU_Machine_Learning/chap1'

In [3]:
data_path = './data'                              # Data 경로
os.chdir(data_path)                               # 작업 디렉토리 변경

In [4]:
os.getcwd()

'/home/dongha0718/KNOU_Machine_Learning/chap1/data'

In [5]:
df1 = pd.read_csv('ex1.csv')                       # 데이터 불러오기 (read_csv 사용)

In [6]:
df1

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [7]:
pd.read_table('ex1.csv', sep=',')                 # 데이터 불러오기 (read_table 사용)

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [8]:
df1.dtypes                                         # 불러온 데이터프레임 변수들의 유형 확인 가능

a           int64
b           int64
c           int64
d           int64
message    object
dtype: object

* Read csv from URL

### 1.1 칼럼명이 없는 파일 불러오기

#### 1.1.1 칼럼명 자동 지정1

    - 칼럼명 부재를 선언한 경우(header=None)

In [9]:
pd.read_csv('ex2.csv', header=None) 

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


#### 1.1.2 칼럼명 자동 지정2

    - 칼럼명 부재를 선언하지 않은 경우

In [10]:
pd.read_csv('ex2.csv') 

Unnamed: 0,1,2,3,4,hello
0,5,6,7,8,world
1,9,10,11,12,foo


#### 1.1.3 칼럼명 수동 지정

    - 칼럼명을 선언한 경우

In [11]:
pd.read_csv('ex2.csv', names=['a','b','c','d','message'])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


### 1.2 엑셀파일 불러오기

xls, xlsx 등의 확장자를 갖는 데이터를 불러올 수 있다.

In [22]:
#!pip install openpyxl xlrd



In [17]:
xls_filename = "ex1.xlsx"
pd.read_excel(xls_filename, sheet_name = "Sheet1", engine='openpyxl')

Unnamed: 0.1,Unnamed: 0,a,b,c,d,message
0,0,1,2,3,4,hello
1,1,5,6,7,8,world
2,2,9,10,11,12,foo


### 1.3 결측값 처리

원본 데이터

In [18]:
result = pd.read_csv('ex3.csv')
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


#### 1.3.1 특정 값에 대한 결측값 처리

In [20]:
result = pd.read_csv('ex3.csv', na_values=4)
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,,
1,two,5,6,,8.0,world
2,three,9,10,11.0,12.0,foo


In [18]:
sentinels = {'message':['foo', 'NA'], 'something':['two']}
pd.read_csv('ex3.csv', na_values=sentinels)

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,,5,6,,8,world
2,three,9,10,11.0,12,


<span style="color:black">message 칼럼의 'foo'와 'NA'값을 결측치로 판정</span>

<span style="color:black">something 칼럼의 'two'값을 결측치로 판정</span>

## 2. 데이터 출력

### 2.1 pandas 패키지를 이용한 데이터 출력

'out.csv'의 이름으로 파일 저장하기.

In [31]:
data = pd.read_csv('ex1.csv')
data.to_csv('out.csv')

In [33]:
data

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [32]:
pd.read_csv('out.csv')

Unnamed: 0.1,Unnamed: 0,a,b,c,d,message
0,0,1,2,3,4,hello
1,1,5,6,7,8,world
2,2,9,10,11,12,foo


<span style="color:black">index 없이 저장하려면 index=False를 입력하면 된다.</span>

In [27]:
data.to_csv('out2.csv', index=False)

pd.read_csv('out2.csv')

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


<span style="color:black">칼럼의 일부분만을 기록하거나 순서를 직접 지정 할 수 있음.</span>

<span style="color:black">현재 a,b,c에 해당하는 칼럼만 출력</span>

In [30]:
data.to_csv('out3.csv',index=False, columns=['b','a','c']) 

pd.read_csv('out3.csv')

Unnamed: 0,b,a,c
0,2,1,3
1,6,5,7
2,10,9,11
