<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/4/47/Apache_Parquet_logo.svg/330px-Apache_Parquet_logo.svg.png">


## Apache Parquet

* 효율적인 데이터 저장 및 검색을 위해 설계된 오픈 소스, 열 지향 데이터 파일 형식
* 복잡한 데이터를 대량으로 처리하기 위해 향상된 성능과 함께 효율적인 데이터 압축 및 인코딩 체계를 제공
* Parquet은 Java, C++, Python 등을 포함한 여러 언어를 지원

* Twitter 와 Cloudera 의 협업으로 만들어졌습니다.
* Hadoop 창시자인 더그커팅의 trevni 열 저장 형식을 개선하기 위해 설계 되었습니다.
* 열의 값은 물리적으로 인접한 메모리 위치에 저장됩니다.
* 열 단위 압축은 효율적이고 저장 공간을 절약합니다.
* 열 값이 동일한 데이터 타입이기 때문에 압축에 유리합니다.
* 특정 열 값을 가져오는 쿼리는 전체 행 데이터를 읽을 필요가 없으므로 성능이 향상됩니다.
* 각 열에 다른 인코딩 기술을 적용할 수 있습니다.


* 열 스토리지, 필요한 데이터만 읽기
* 효율적인 바이너리 패킹
* 압축 알고리즘 및 인코딩 선택
* 데이터를 파일로 분할하여 병렬 처리 가능
* 논리 유형의 범위
* 메타데이터에 저장된 통계를 통해 불필요한 청크를 건너뛸 수 있습니다.
* 디렉토리 구조를 사용한 데이터 분할


* [Apache Parquet - Wikipedia](https://en.wikipedia.org/wiki/Apache_Parquet)

* [Development update: High speed Apache Parquet in Python with Apache Arrow - Wes McKinney](https://wesmckinney.com/blog/python-parquet-update/)


<img src="https://wesmckinney.com/images/parquet_benchmarks.png">

## 설치


<img src="https://i.imgur.com/x7pzfCP.jpg">

* <font color="red"> anaconda prompt 를 열어서 설치해 주세요. 터미널에 (base) 가상환경 표시가 보이는지 확인해 주세요.</font>


* 윈도우
    * <font color="red">관리자 권한</font>으로 아나콘다를 설치하셨다면 다음의 방법으로 anaconda prompt 를 열어 주세요.
    <img src="https://i.imgur.com/GhoLwsd.png">
* 맥
    * terminal 프로그램을 열어 설치해 주세요. 


* [fastparquet — fastparquet documentation](https://fastparquet.readthedocs.io/en/latest/index.html)
* [Installing PyArrow — Apache Arrow](https://arrow.apache.org/docs/python/install.html)

In [12]:
# Notes
# -----
# This function requires either the `fastparquet
# <https://pypi.org/project/fastparquet>`_ or `pyarrow
# <https://arrow.apache.org/docs/python/>`_ library.
!conda update --all
# !pip install fastparquet
# !pip install pyarrow

# conda install -c conda-forge fastparquet
# conda install -c conda-forge pyarrow

usage: conda [-h] [-V] command ...
conda: error: unrecognized arguments: --ally


## 판다스 불러오기

In [1]:
import pandas as pd

## to_parquet 동작확인
* fastparquet와 pyarrow를 설치했음에도 로컬 PC에서 아래 코드가 동작하지 않는다면 colab 으로 실습해 주세요.
* fastparquet와 pyarrow는 관련된 라이브러리 버전의존성 이슈가 있어서 버전이 맞지 않으면 동작하지 않을 수 있습니다.

In [9]:
df = pd.DataFrame(data={'col1': [1, 2], 'col2': [3, 4]})
df.to_parquet('df.parquet.gzip', compression='gzip')

AttributeError: module 'fastparquet.parquet_thrift' has no attribute 'Type'

## 간단한 데이터프레임 만들기

In [None]:
# data/nhis_drug_sample_2020_3.csv


In [None]:
# to_parquet, compression='gzip'
# to_csv 로 저장하기
file_path_parquet = 'df.parquet.gzip'
file_path_csv  = 'df.csv'




In [None]:
# os.stat("파일명").st_size 로 파일 사이즈 불러오기
# csv 파일과 parquet.gzip 파일 사이즈 확인하기
# file_path_parquet
# file_path_csv


## 파일 크기 
* [파일 크기 - 위키백과, 우리 모두의 백과사전](https://ko.wikipedia.org/wiki/%ED%8C%8C%EC%9D%BC_%ED%81%AC%EA%B8%B0)

|    | 이름       | 기호   |   2진 측정값 |   10진 측정값 | 바이트 수                         | 같은 값      |
|---:|:-----------|:-------|-------------:|--------------:|:----------------------------------|:-------------|
|  0 | 킬로바이트 | KB     |          2^10 |           10^3 | 1,024                             | 1,024 바이트 |
|  1 | 메가바이트 | MB     |          2^20 |           10^6 | 1,048,576                         | 1,024KB      |
|  2 | 기가바이트 | GB     |          2^30 |           10^9 | 1,073,741,824                     | 1,024MB      |
|  3 | 테라바이트 | TB     |          2^40 |          10^12 | 1,099,511,627,776                 | 1,024GB      |
|  4 | 페타바이트 | PB     |          2^50 |          10^15 | 1,125,899,906,842,624             | 1,024TB      |
|  5 | 엑사바이트 | EB     |          2^60 |          10^18 | 1,152,921,504,606,846,976         | 1,024PB      |
|  6 | 제타바이트 | ZB     |          2^70 |          10^21 | 1,180,591,620,717,411,303,424     | 1,024EB      |
|  7 | 요타바이트 | YB     |          2^80 |          10^24 | 1,208,925,819,614,629,174,706,176 | 1,024ZB      |

In [None]:
# 파일 사이즈 bytes 로 표기하기
def convert_bytes(num):
    """
    1024 보다 크면 숫자를 나누고 아니면 숫자와 단위를 표시하도록
    for문을 돌면서 값을 1024로 나누고 
    값이 1024 보다 작다면 단위와 함께 num 을 반횐
    """
#     for file_size in ['bytes', 'KB', 'MB', 'GB', 'TB']:


def file_size(file_path):
    """
    파일이 있다면 convert_bytes 함수를 통해 크기를 구함
    """
    if os.path.isfile(file_path):
        file_info = os.stat(file_path)
        return convert_bytes(file_info.st_size)


file_size(file_path_parquet), file_size(file_path_csv), file_size("")

## 파일 저장하고 사이즈 비교하는 함수 만들기

In [None]:
def compare_csv_parquet(df):
    """
    데이터프레임을 csv 와 parquet형식으로 저장하하고 각 파일 사이즈를 dict 형태로 반환
    """
    

In [None]:
# 데이터프레임 로드해서 compare_csv_parquet 함수 확인하기
df = pd.read_csv("data/seoul-covid19-2021-12-18.csv")


## csv, parquet.gzip 파일 로드 후 info 실행 시간 비교

In [None]:
%time 

In [None]:
%time 

## PySpark Koalas 소개
* [Migrating from Koalas to pandas API on Spark — PySpark documentation](https://spark.apache.org/docs/latest/api/python/migration_guide/koalas_to_pyspark.html#)

* [10 minutes to Koalas — Koalas 1.8.2 documentation](https://koalas.readthedocs.io/en/latest/getting_started/10min.html)

* [Migrating from Koalas to pandas API on Spark — PySpark 3.2.1 documentation](https://spark.apache.org/docs/latest/api/python/migration_guide/koalas_to_pyspark.html#)

* [pandas 코드로 대규모 클러스터에서 더 빠르게 빅데이터를 분석 해보자 - Koalas - 박현우 - PyCon Korea 2020 - YouTube](https://www.youtube.com/watch?v=Y9kdUq_qIa8)