# Loading Data in Python

0. Manually loading a file.
1. Using `np.loadtxt`
2. Using `np.genfromtxt`
3. Using `pd.read_csv`
4. Using `pickle`

In [1]:
import numpy as np
import pickle
import pandas as pd
filename = "load.csv"

파일을 수동으로 로드하는 일은 절대 하지 마십시오. 사용자 본인의 정신 건강을 위해서입니다.

In [2]:
cols = None
data = []
with open(filename) as f:
    for line in f.readlines():
        vals = line.replace("\n", "").split(",")
        if cols is None:
            cols = vals
        else:
            data.append([float(x) for x in vals])
d0 = pd.DataFrame(data, columns=cols)
print(d0.dtypes)
d0.head()

A    float64
B    float64
C    float64
D    float64
E    float64
dtype: object


Unnamed: 0,A,B,C,D,E
0,1.276,21.4,63.957,216.204,528.0
1,1.002,21.95,61.697,204.484,514.0
2,1.114,22.454,63.522,205.608,514.0
3,1.133,22.494,61.59,206.565,501.0
4,0.845,21.654,63.729,201.289,532.0


### np.loadtxt

간단한 데이터 배열과 **최소한의 포맷팅(형식 지정)** 에 좋습니다. 예를 들어, np.savetxt를 사용하여 저장된 데이터와 같은 경우입니다.

원본 데이터의 첫 행이 column(A, B, C, D, E)으로, 데이터가 float으로 일치하지 않아서 타입을 통일시키기위해 행 하나를 skiprows 합니다.

In [18]:
d1 = np.loadtxt(filename, skiprows=1, delimiter=",")
print(type(d1))
print(d1.dtype)
print(d1[:5, :]) # 행을 0부터 4까지 모든 column을 출력

<class 'numpy.ndarray'>
float64
[[  1.276  21.4    63.957 216.204 528.   ]
 [  1.002  21.95   61.697 204.484 514.   ]
 [  1.114  22.454  63.522 205.608 514.   ]
 [  1.133  22.494  61.59  206.565 501.   ]
 [  0.845  21.654  63.729 201.289 532.   ]]


### np.genfromtxt

loadtxt보다 훨씬 뛰어난 구문 분석(parsing) 기능을 가진 더 유연한 버전입니다. 다양한 타입(type), 이름이 지정된 열(named columns) 등을 지원합니다.

원본 데이터의 첫 행, column(A, B, C, D, E)을 "dtpye=None"으로 두어, numpy가 알아서 판단하도록 합니다.

In [19]:
d2 = np.genfromtxt(filename, delimiter=",", names=True, dtype=None)
print(type(d2))
print(d2.dtype)
print(d2[:5])

<class 'numpy.ndarray'>
[('A', '<f8'), ('B', '<f8'), ('C', '<f8'), ('D', '<f8'), ('E', '<i8')]
[(1.276, 21.4  , 63.957, 216.204, 528)
 (1.002, 21.95 , 61.697, 204.484, 514)
 (1.114, 22.454, 63.522, 205.608, 514)
 (1.133, 22.494, 61.59 , 206.565, 501)
 (0.845, 21.654, 63.729, 201.289, 532)]


### pandas.read_csv

단연코 가장 훌륭하고 유연한 CSV/txt 파일 리더입니다. 매우, 매우 강력히 추천합니다. 제 말을 믿지 못하겠다면, pandas.read_csv 문서에서 구문 분석할 수 있는 터무니없이 많은 수의 인수를 직접 확인해 보세요.

In [5]:
d3 = pd.read_csv(filename)
print(d3.dtypes)
d3.head()

A    float64
B    float64
C    float64
D    float64
E      int64
dtype: object


Unnamed: 0,A,B,C,D,E
0,1.276,21.4,63.957,216.204,528
1,1.002,21.95,61.697,204.484,514
2,1.114,22.454,63.522,205.608,514
3,1.133,22.494,61.59,206.565,501
4,0.845,21.654,63.729,201.289,532


### pickle

데이터나 객체가 깔끔한 2차원 배열이 아니어서 사람이 읽을 수 있는(human readable) 형식으로 저장하기 더 어려울 때 사용합니다. 참고로, 만약 단순히 모두 같은 타입으로 이루어진 3차원, 4차원... ND 배열이 있다면, **np.save**를 사용할 수도 있습니다. 이것은 임의의 넘파이 배열을 바이너리 형식으로 저장합니다. 저장 속도가 매우 빠르고, 로드하는 속도도 매우 빠르며, 파일 크기도 작습니다.

Pickle은 더 복잡한 모든 것을 위한 것입니다. **딕셔너리, 배열은 물론 객체(objects)**까지도 저장할 수 있습니다.

In [6]:
with open("load_pickle.pickle", "rb") as f:
    d4 = pickle.load(f)
print(d4.dtypes)
d4.head()

A    float64
B    float64
C    float64
D    float64
E      int32
dtype: object


Unnamed: 0,A,B,C,D,E
0,1.276405,21.400157,63.957476,216.204466,528
1,1.002272,21.950088,61.697286,204.483906,514
2,1.114404,22.454274,63.522075,205.608375,514
3,1.133367,22.494079,61.589683,206.565339,501
4,0.844701,21.653619,63.728872,201.289175,532
