- 기본 로딩
- pyarrow 활용한 로딩
- python data(list, dict) 로딩

## 1. 기본 로딩

In [1]:
import pandas as pd

df = pd.read_csv('data.csv')

### 폴더에 있는 모든 파일 로딩

glob과 functools.partial을 활용한다.

partial은 추가 args를 받을 수 있어서 활용한다.

In [5]:
import pandas as pd
import glob

pdf = pd.concat([pd.read_csv(f) for f in glob.glob("data/*.csv")])

## 2. pyarrow를 활용하여 빠르게 로딩

https://yahwang.github.io/posts/83

In [None]:
# pip install pyarrow
from pyarrow import csv

df_from_pyarrow = csv.read_csv('data.csv').to_pandas()

타입을 지정하여 로딩

In [None]:
convert_opts = csv.ConvertOptions(
    column_types={
        "COLLECT_DATE": pa.string(),
        "AP_MAC": pa.string(),
        "AGE_GROUP": pa.int8(),
        "GENDER": pa.string(),
    }
)

df = csv.read_csv( "./data/data.csv", convert_options=convert_opts ).to_pandas()

### 폴더에 있는 모든 파일 로딩

In [None]:
import pandas as pd
from pyarrow import csv

import glob

pdf = pd.concat([csv.read_csv(f).to_pandas() for f in glob.glob("data/*.csv")])

## 3. Python data를 데이터프레임으로 로딩

![](https://pbpython.com/images/pandas-dataframe-shadow.png)

## 4. Option을 활용한 로딩

- dtypes : 컬럼의 타입을 지정
- parse_dates : datetime 타입으로 지정할 컬럼명
- date_parser : datetime 포맷을 지정 ( 지정하지 않으면 infer )
- usecols : 불러올 컬럼만 지정

In [None]:
df = pd.read_csv('data.csv', dtypes=data_types)

In [1]:
import numpy as np

In [None]:
data_types={'col1':pd.Int8Dtype(), 'col2':np.float32, 'col3': pd.StringDtype(),
           'col4': pd.CategoricalDtype(["M", "F"])}b

df = pd.read_csv(
    "./data/log_data.csv",
    usecols=[
        "latitude",
        "longitude",
        "name"
    ],
    parse_dates=["register_at"],
    date_parser=lambda col: pd.to_datetime(
        col, format="%Y-%m-%d %H:%M:%S").tz_localize("Asia/Seoul"),
    dtypes=data_types
)

참고 : Nullable integer data type

Integer 타입으로 지정할 컬럼에 이미 NaN값이 존재하는 경우, np.int8 또는 'int8'로 지정하면 오류가 나온다.

Pandas에서는 이런 데이터들을 지정하기 위해 extension type 형태를 지정했다.

https://pandas.pydata.org/pandas-docs/stable/user_guide/integer_na.html

In [11]:
import pandas as pd

# ERROR
# arr = pd.array([1, 2, pd.NA], dtype='int8')

arr = pd.array([1, 2, pd.NA], dtype=pd.Int8Dtype())