In [1]:
import pandas as pd
import numpy as np

PyArrow는 Apache Arrow의 Python 바인딩으로, 대량의 데이터를 효율적이고 고속으로 처리하기 위한 도구입니다. PyArrow는 메모리 내 데이터 구조와 이를 디스크에 저장하는 방법을 제공하며, 다양한 데이터 유형을 처리하고 다른 시스템과의 상호 운용성을 제공합니다.

PyArrow의 주요 기능은 다음과 같습니다:

1. 데이터 변환: PyArrow는 Pandas, NumPy, Python의 내장 데이터 구조와의 상호 변환을 제공합니다. 이를 통해 데이터를 효율적으로 전송하고 다른 시스템과의 상호 운용성을 개선할 수 있습니다.

2. 메모리 내 데이터 구조: PyArrow는 메모리 내에서 데이터를 저장하고 조작하기 위한 다양한 데이터 구조를 제공합니다. 예를 들어, `Array`는 메모리 내에서 컬럼 기반 데이터를 저장하고, `Table`은 여러 컬럼을 포함하는 테이블 형식의 데이터를 나타냅니다.

3. 파일 형식: PyArrow는 Arrow 형식으로 데이터를 디스크에 저장하는 기능을 제공합니다. Arrow 형식은 데이터를 압축하고 직렬화하여 효율적인 I/O 및 데이터 교환을 가능하게 합니다. PyArrow는 Parquet, CSV, JSON 등의 다양한 파일 형식을 지원합니다.

4. 분산 처리: PyArrow는 Apache Arrow와 함께 사용하여 분산 시스템과의 통합을 지원합니다. 예를 들어, PySpark와 함께 사용하여 대규모 데이터 처리를 수행할 수 있습니다.

5. 확장성: PyArrow는 다양한 플랫폼과 언어에서 사용할 수 있으며, 다른 프로그래밍 언어와의 상호 운용성을 제공합니다. 또한, PyArrow는 다른 데이터 처리 도구 및 라이브러리와 통합하여 사용할 수 있습니다.

이러한 기능들을 통해 PyArrow는 대용량 데이터 처리 작업을 효율적이고 고속으로 수행할 수 있게 해주며, 다른 시스템과의 상호 운용성을 향상시킵니다.

Apache Arrow는 대규모 데이터 처리를 위한 열 지향 메모리 포맷입니다. Arrow는 다양한 프로그래밍 언어에서 사용할 수 있는 공통 데이터 모델과 효율적인 데이터 구조를 제공하여 데이터 공유 및 교환을 용이하게 합니다.

Apache Arrow의 주요 특징은 다음과 같습니다:

1. 효율적인 메모리 사용: Arrow는 컬럼 기반 메모리 레이아웃을 사용하여 데이터를 저장합니다. 이는 데이터 압축, 직렬화, 병렬 처리 등을 효율적으로 수행할 수 있도록 합니다. 또한, Arrow는 다양한 데이터 유형을 지원하며, 메모리에서 데이터를 조작하고 처리하는 데 최적화되어 있습니다.

2. 상호 운용성: Arrow는 다양한 프로그래밍 언어에서 사용할 수 있는 공통 데이터 모델을 제공합니다. 이를 통해 데이터를 메모리에 저장하고 다른 시스템 및 언어 간에 효율적으로 공유할 수 있습니다. Arrow는 C++, Java, Python, R, JavaScript 등 다양한 언어에서 사용할 수 있습니다.

3. 빠른 데이터 교환: Arrow는 데이터를 메모리에 저장하고 직렬화하여 다른 시스템 간에 효율적으로 교환할 수 있도록 합니다. 이를 통해 데이터 전송 속도를 향상시키고 데이터 처리 작업을 가속화할 수 있습니다. Arrow는 다양한 파일 형식 (예: Parquet, CSV, JSON) 및 분산 시스템 (예: Apache Spark)과 통합될 수 있습니다.

4. 확장성: Arrow는 대규모 데이터 처리 작업을 위해 설계되었으며, 다양한 플랫폼과 환경에서 사용할 수 있습니다. Arrow는 메모리 내 데이터 구조, 파일 형식, 분산 시스템과의 통합 등 다양한 기능을 제공하여 다양한 데이터 처리 요구에 대응할 수 있습니다.

Apache Arrow는 데이터 엔지니어링 및 데이터 과학 분야에서 널리 사용되는 도구로, 대용량 데이터 처리 및 상호 운용성을 위한 효율적인 솔루션을 제공합니다.

<https://www.sqler.com/board_CSharp/1102709>

Apache Arrow Tutorial for Beginners - Tutorial And Example 
<https://www.tutorialandexample.com/apache-arrow-tutorial>

Serialization, Zero-Copy, <https://realsalmon.tistory.com/21>😵‍💫

In [2]:
# Data Structure Integration: pyarrow.ChunkedArray,  ...[pyarrow] dtypes, 
ser = pd.Series([-1.5, 0.2, None], dtype="float32[pyarrow]")

In [3]:
ser

0    -1.5
1     0.2
2    <NA>
dtype: float[pyarrow]

In [4]:
idx = pd.Index([True, None], dtype="bool[pyarrow]")
idx

Index([True, <NA>], dtype='bool[pyarrow]')

In [5]:
df = pd.DataFrame([[1, 2], [3, 4]], dtype="uint64[pyarrow]")
df

Unnamed: 0,0,1
0,1,2
1,3,4


In [6]:
import pyarrow as pa

data = list("abc")
ser_sd = pd.Series(data, dtype = "string[pyarrow]")
ser_ad = pd.Series(data, dtype=pd.ArrowDtype(pa.string()))
ser_sd.dtype == ser_ad.dtype


False

In [7]:
ser_sd.str.contains("a")

0     True
1    False
2    False
dtype: boolean

In [8]:
ser_ad.str.contains("a")

0     True
1    False
2    False
dtype: bool[pyarrow]

In [9]:
import pyarrow as pa
list_str_type = pa.list_(pa.string())
ser = pd.Series([["hello"], ["there"]], dtype=pd.ArrowDtype(list_str_type))
ser

0    ['hello']
1    ['there']
dtype: list<item: string>[pyarrow]

In [10]:
from datetime import time
idx = pd.Index([time(12, 30), None], dtype= pd.ArrowDtype(pa.time64("us")))
idx

Index([12:30:00, <NA>], dtype='time64[us][pyarrow]')

In [11]:
from decimal import Decimal
decimal_type = pd.ArrowDtype(pa.decimal128(3, scale=2))
data = [[Decimal("3.19"), None], [None, Decimal("-1.23")]]
df = pd.DataFrame(data, dtype=decimal_type)
df

Unnamed: 0,0,1
0,3.19,
1,,-1.23


In [12]:
pa_array = pa.array(
    [{"1":"2"}, {"10":"20"}, None],
    type = pa.map_(pa.string(), pa.string()),
)

ser = pd.Series(pd.arrays.ArrowExtensionArray(pa_array))
ser

0      [('1', '2')]
1    [('10', '20')]
2              <NA>
dtype: map<string, string>[pyarrow]

In [13]:
ser = pd.Series([1, 2, None], dtype="uint8[pyarrow]")
pa.array(ser)

<pyarrow.lib.UInt8Array object at 0x7f7c1566cf40>
[
  1,
  2,
  null
]

In [14]:
idx = pd.Index(ser)
pa.array(idx)

<pyarrow.lib.UInt8Array object at 0x7f7c1566c5e0>
[
  1,
  2,
  null
]

In [15]:
# to convert a pyarrow.Table to a DataFrame, 
# you can call the pyarrow.Table.to_pandas() method with types_mapper=pd.ArrowDtype.

table = pa.table([pa.array([1, 2, 3], type=pa.int64())], names=["a"])
df = table.to_pandas(types_mapper=pd.ArrowDtype)
df


Unnamed: 0,a
0,1
1,2
2,3


In [16]:
df.dtypes

a    int64[pyarrow]
dtype: object

In [None]:
# PyArrow Operations
# <기본 정의/주요 아이디어>: "PyArrow 데이터 구조 통합은 pandas의 ExtensionArray 인터페이스를 통해 구현되며, 
# 따라서 이 인터페이스가 pandas API 내에 통합된 경우 지원되는 기능이 존재합니다."
# pandas의  ExtensionArray Interface  + pandas API

In [17]:
import pyarrow as pa
ser = pd.Series([-1.545, 0.211, None], dtype="float32[pyarrow]")
ser.mean()

-0.6669999808073044

In [18]:
ser + ser

0    -3.09
1    0.422
2     <NA>
dtype: float[pyarrow]

In [19]:
ser > (ser +1)

0    False
1    False
2     <NA>
dtype: bool[pyarrow]

In [20]:
ser.dropna()

0   -1.545
1    0.211
dtype: float[pyarrow]

In [21]:
ser.isna()

0    False
1    False
2     True
dtype: bool

In [22]:
ser.fillna(0)

0   -1.545
1    0.211
2    0.000
dtype: float[pyarrow]

* 'Types with parameters` must be constructed with ArrowDtype()   ㊙️

In [23]:
pd.ArrowDtype(pa.timestamp("s", tz="America/New York"))

timestamp[s, tz=America/New York][pyarrow]

In [24]:
pd.ArrowDtype(pa.list_(pa.int64()))

list<item: int64>[pyarrow]

In [27]:
from datetime import datetime
pa_type = pd.ArrowDtype(pa.timestamp("ns"))
# ser_dt = pd.Series([datetime(2023, 01, 01), None], dtype = pa_type)
# leading zeros in decimal integer literals are not permitted

ser_dt = pd.Series([datetime(2023, 1, 1), None], dtype = pa_type)
ser_dt.dt.strftime("%Y-%m")


0    2023-01
1       <NA>
dtype: string[pyarrow]

In [None]:
# I/O Reading
# read_csv(), read_json(), read_orc(), read_feather() only for now.

In [32]:
# engine, dytpe_backend parameters
import io
# data = io.StringIO("""a, b, c
#                    1, 2.5, True
#                    3, 4.5, False
#                   """)
#작동하지 않음   😵‍💫

# data = io.StringIO("""a, b, c
#                    1, 2.5, True
#                    3, 4.5, False
# """)
# 작동


data = io.StringIO("""a,b,c
   1,2.5,True
   3,4.5,False
""")
# 작동

df = pd.read_csv(data, engine="pyarrow")
df

Unnamed: 0,a,b,c
0,1,2.5,True
1,3,4.5,False


In [33]:

import io

data = io.StringIO("""a,b,c,d,e,f,g,h,i
    1,2.5,True,a,,,,,
    3,4.5,False,b,6,7.5,True,a,
""")
                   
df_pyarrow = pd.read_csv(data, dtype_backend="pyarrow")
df_pyarrow.dtypes

a     int64[pyarrow]
b    double[pyarrow]
c      bool[pyarrow]
d    string[pyarrow]
e     int64[pyarrow]
f    double[pyarrow]
g      bool[pyarrow]
h    string[pyarrow]
i      null[pyarrow]
dtype: object