# Loading Data in Python

0. Manually loading a file
1. Using np.loadtxt
2. Using np.genfromtxt
3. Using np.pd.read_csv
4. Using pickle

In [2]:
# Load Package
import numpy as np
import pandas as pd
import pickle

## Manually loading a file

In [3]:
filename = "load.csv"

In [6]:
cols = None
data = []
with open(filename) as f:
    for line in f.readlines():
        vals = line.replace("\n","").split(",")
        if cols is None:
            cols = vals
        else:
            data.append([float(x) for x in vals])

d0 = pd.DataFrame(data, columns=cols)
print(d0.dtypes)
d0.head()

A    float64
B    float64
C    float64
D    float64
E    float64
dtype: object


Unnamed: 0,A,B,C,D,E
0,1.276,21.4,63.957,216.204,528.0
1,1.002,21.95,61.697,204.484,514.0
2,1.114,22.454,63.522,205.608,514.0
3,1.133,22.494,61.59,206.565,501.0
4,0.845,21.654,63.729,201.289,532.0


## np.loadtxt

In [9]:
d1 = np.loadtxt("load.csv", skiprows=1, delimiter=",")
print(d1.dtype)
print(d1[:5,:])
# 2차원 배열(array)

float64
[[  1.276  21.4    63.957 216.204 528.   ]
 [  1.002  21.95   61.697 204.484 514.   ]
 [  1.114  22.454  63.522 205.608 514.   ]
 [  1.133  22.494  61.59  206.565 501.   ]
 [  0.845  21.654  63.729 201.289 532.   ]]


## np.genfromtxt

In [11]:
d2 = np.genfromtxt("load.csv", delimiter=",", names=True, dtype=None)
print(d2.dtype)
print(d2[:5])

[('A', '<f8'), ('B', '<f8'), ('C', '<f8'), ('D', '<f8'), ('E', '<i8')]
[(1.276, 21.4  , 63.957, 216.204, 528)
 (1.002, 21.95 , 61.697, 204.484, 514)
 (1.114, 22.454, 63.522, 205.608, 514)
 (1.133, 22.494, 61.59 , 206.565, 501)
 (0.845, 21.654, 63.729, 201.289, 532)]


## pd.read_csv

In [12]:
d3 = pd.read_csv(filename)
print(d3.dtypes)
d3.head()

A    float64
B    float64
C    float64
D    float64
E      int64
dtype: object


Unnamed: 0,A,B,C,D,E
0,1.276,21.4,63.957,216.204,528
1,1.002,21.95,61.697,204.484,514
2,1.114,22.454,63.522,205.608,514
3,1.133,22.494,61.59,206.565,501
4,0.845,21.654,63.729,201.289,532


## pickle

### Pickle이란 무엇인가?
Pickle은 Python에서 객체를 직렬화(Serialization)하거나 역직렬화(Deserialization)하여 파일로 저장하거나 다시 불러오는 데 사용하는 표준 라이브러리입니다. 직렬화는 Python 객체를 바이트 스트림으로 변환하는 과정이며, 역직렬화는 이를 다시 Python 객체로 복원하는 과정입니다.

### Pickle의 주요 특징
1. 객체 저장 및 복원: Python의 거의 모든 데이터 구조(예: 리스트, 딕셔너리, 클래스 인스턴스 등)를 변환 없이 그대로 저장하고 복원할 수 있습니다.
2. 바이너리 형식: 데이터를 바이너리 형태로 저장하므로 텍스트 파일보다 읽기 및 쓰기 속도가 빠릅니다.
3. Python 전용: Pickle은 Python에서만 사용 가능하며 다른 언어와의 호환성은 없습니다.

### Pickle의 장점
- 유연성: Python 객체를 그대로 저장하고 복원할 수 있어 JSON이나 CSV로 표현하기 어려운 구조도 처리 가능합니다.
- 속도: 데이터를 바이너리로 저장하기 때문에 텍스트 기반 형식보다 읽기/쓰기 속도가 빠릅니다.
- 간단한 사용법: Python 표준 라이브러리에 포함되어 추가 설치가 필요 없으며, 직관적인 API를 제공합니다.

In [15]:
with open("load_pickle.pickle", "rb") as f:
    d4 = pickle.load(f)
print(d4.dtypes)
d4.head()

A    float64
B    float64
C    float64
D    float64
E      int32
dtype: object


Unnamed: 0,A,B,C,D,E
0,1.276405,21.400157,63.957476,216.204466,528
1,1.002272,21.950088,61.697286,204.483906,514
2,1.114404,22.454274,63.522075,205.608375,514
3,1.133367,22.494079,61.589683,206.565339,501
4,0.844701,21.653619,63.728872,201.289175,532
