# Ch3 -3. read_csv and to_csv

open 함수보다 더 많이 쓰이는 함수. 판다스의 내장함수로, csv파일 같은 테이블 형태의 데이터를 불러오는 데 효과적이다.  
이전에는 read_table 같은 함수도 있었다고 한다.

```
pd.read_csv(filepath, sep, header, index_col, usecols, parse_dates, nrows)
```  
filepath : 파일 경로 및 이름  
sep : 구분자 (default: ',')  
header :  헤더의 위치. None을 입력하면 컬럼명이 0, 1, 2 등으로 자동 부여된다. (default: 'infer' ; 맨 위의 행)  
index_col : 인덱스 위치 (default: None)  
usecols : 사용할 컬럼 목록 및 위치 목록(데이터가 큰 경우, 각 컬럼별로 처리가 필요할 때에 주로 사용)  
nrows : 불러올 행의 개수(데이터가 큰 경우에 주로 사용)  


## 경로 설정

In [1]:
import os
import pandas as pd
os.chdir(r"/Users/Angela/Desktop/과속대학쿠쿠루/1. 데이터 핸들링/데이터")

## 데이터 불러오기

### csv 데이터 불러오기

In [2]:
df = pd.read_csv("data_reading.csv")
df.head()

Unnamed: 0,Col1,Col2,Col3,Col4,Col5
0,0.188888,0.161053,0.150413,0.82477,0.111833
1,0.827719,0.161363,0.400331,0.398196,0.770696
2,0.84466,0.100998,0.995176,0.615525,0.878389
3,0.913895,0.036169,0.23784,0.187628,0.534308
4,0.322443,0.95501,0.340765,0.649311,0.35454


### tsv 데이터 불러오기

자료구조가 txt처럼 다르다 하더라도, 구분자를 안다면 데려올 수 있다.  

구분자가 tab인 경우 \t를 구분자로 쓴다.  

In [3]:
df = pd.read_csv("data_reading_tap.txt", sep = "\t")
df.head()

Unnamed: 0,Col1,Col2,Col3,Col4,Col5
0,0.188888,0.161053,0.150413,0.82477,0.111833
1,0.827719,0.161363,0.400331,0.398196,0.770696
2,0.84466,0.100998,0.995176,0.615525,0.878389
3,0.913895,0.036169,0.23784,0.187628,0.534308
4,0.322443,0.95501,0.340765,0.649311,0.35454


### 헤더가 없는 데이터 불러오기

헤더가 없는 경우 첫 번째 행이 자연스럽게 헤더로 설정이 된다. 이때 헤더가 없다고 얘기하여 None으로 설정하여 불러올 수 있다.  


In [4]:
# header를 설정하지 않은 경우 

df = pd.read_csv("data_reading_without_header.csv")
df.head()

Unnamed: 0,0.188888091,0.161052929,0.15041277,0.824770215,0.111832872
0,0.827719,0.161363,0.400331,0.398196,0.770696
1,0.84466,0.100998,0.995176,0.615525,0.878389
2,0.913895,0.036169,0.23784,0.187628,0.534308
3,0.322443,0.95501,0.340765,0.649311,0.35454
4,0.330625,0.672039,0.109381,0.075682,0.916931


In [5]:
df = pd.read_csv("data_reading_without_header.csv", header = None)
df.head()

Unnamed: 0,0,1,2,3,4
0,0.188888,0.161053,0.150413,0.82477,0.111833
1,0.827719,0.161363,0.400331,0.398196,0.770696
2,0.84466,0.100998,0.995176,0.615525,0.878389
3,0.913895,0.036169,0.23784,0.187628,0.534308
4,0.322443,0.95501,0.340765,0.649311,0.35454


## df.columns = [] : 컬럼명 변경하기

In [7]:
df.columns = ['X1', 'X2', 'X3', 'X4', 'X5']
df.head() # 컬럼명 바꾸기

Unnamed: 0,X1,X2,X3,X4,X5
0,0.188888,0.161053,0.150413,0.82477,0.111833
1,0.827719,0.161363,0.400331,0.398196,0.770696
2,0.84466,0.100998,0.995176,0.615525,0.878389
3,0.913895,0.036169,0.23784,0.187628,0.534308
4,0.322443,0.95501,0.340765,0.649311,0.35454


## 큰 규모의 데이터 불러오기

센서데이터나 로그데이터 같은 시계열 데이터를 불러올 때 자주 사용한다.  

usecols 로 해당 위치(순서)에 있는 컬럼만 불러오도록 한다.  
index_col 로 인덱스를 미리 정해준다. 대신 해당 컬럼을 사용할 때 usecols에 반드시 포함되어 있어야 한다.  
nrows 로 1000개 데이터만 확인해 보도록 한다. 


In [6]:
df = pd.read_csv("large_data_with_ID.csv", 
                 usecols = [0, 1, 5, 10], # ['ID', 'X1', 'X5', 'X10']으로 불러와도 무방
                 index_col = 'ID', # usecols을 사용하는 경우, index_col을 반드시 포함시켜야 함
                 nrows = 1000)

df.head()

Unnamed: 0_level_0,X1,X5,X10
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
ID1,21,3,60
ID2,0,69,98
ID3,75,69,49
ID4,66,86,22
ID5,33,57,59


세 개의 컬럼처럼 보이지만 실제로 불러온 것은 네 개의 컬럼인 것이다.

In [7]:
df.shape

(1000, 3)

# to_csv를 이용한 데이터 저장하기

판다스의 to_csv는 테이블 형태의 데이터를 저장하는 데 효과적인 함수이다.  

확장자는 어떤 것이든 상관없이 잘 저장이 된다.  

```
df.to_csv(filepath, sep, index)
```  
filepath : 파일 경로 및 이름  
sep : 구분자 (default: ',')  
index : 인덱스를 파일에 저장할 지 여부 (bool)  

In [8]:
df = pd.DataFrame({"A":[1,2,3], "B":[4,5,6]}, 
                  index = ['a', 'b', 'c'])

df

Unnamed: 0,A,B
a,1,4
b,2,5
c,3,6


In [None]:
# df.to_csv("to_csv를 이용한 데이터 저장_인덱스미포함.csv", sep = ",", index = False)

In [None]:
# df.to_csv("to_csv를 이용한 데이터 저장_인덱스포함.csv", sep = ",", index = True)