# File Formats



## Feather

Для легких данных рекомендуется использовать [Feather](https://github.com/wesm/feather). Это быстрое, совместимое хранилище кадров данных, которое поставляется с привязками для Python и R.

Feather также использует спецификацию столбцовой памяти Apache Arrow для представления двоичных данных на диске. Это делает операции чтения и записи очень быстрыми.

## Parquet file format

[Формат Parquet] (https://github.com/apache/parquet-format) — это обычное хранилище двоичных данных, используемое, в частности, в сфере Hadoop/big-data. Это дает несколько преимуществ, связанных с обработкой больших данных:

Проект Apache Parquet предоставляет стандартизированный формат хранения столбцов с открытым исходным кодом для использования в системах анализа данных. Первоначально он был создан для использования в Apache Hadoop с такими системами, как Apache Drill, Apache Hive, Apache Impala и Apache Spark, приняв его в качестве общего стандарта для высокопроизводительного ввода-вывода данных.



## Hierarchical Data Format

[HDF] (https://en.wikipedia.org/wiki/Hierarchical_Data_Format) — это формат данных с самоописанием.
позволяя приложению интерпретировать структуру и
содержимое файла без внешней информации.
Один файл HDF может содержать набор связанных объектов.
к которым можно получить доступ как к группе или как к отдельным объектам.

In [1]:
import feather
import pandas as pd
import numpy as np
arr = np.random.randn(500000) # 10% nulls
arr[::10] = np.nan
df = pd.DataFrame({'column_{0}'.format(i): arr for i in range(10)})
df.shape

(500000, 10)

In [2]:
%time df.to_csv('test.csv')

CPU times: user 7.75 s, sys: 200 ms, total: 7.95 s
Wall time: 7.97 s


In [None]:
%rm test.h5

rm: test.h5: No such file or directory


In [3]:
%time df.to_hdf("test.h5", key="test")

CPU times: user 57.9 ms, sys: 67.4 ms, total: 125 ms
Wall time: 245 ms


In [4]:
%time df.to_parquet('test.parquet')

CPU times: user 345 ms, sys: 79.5 ms, total: 425 ms
Wall time: 545 ms


In [5]:
%time df.to_feather('test.feather')

CPU times: user 273 ms, sys: 42.1 ms, total: 315 ms
Wall time: 194 ms


In [6]:
df.head()

Unnamed: 0,column_0,column_1,column_2,column_3,column_4,column_5,column_6,column_7,column_8,column_9
0,,,,,,,,,,
1,1.324064,1.324064,1.324064,1.324064,1.324064,1.324064,1.324064,1.324064,1.324064,1.324064
2,-1.59934,-1.59934,-1.59934,-1.59934,-1.59934,-1.59934,-1.59934,-1.59934,-1.59934,-1.59934
3,-1.534603,-1.534603,-1.534603,-1.534603,-1.534603,-1.534603,-1.534603,-1.534603,-1.534603,-1.534603
4,0.314239,0.314239,0.314239,0.314239,0.314239,0.314239,0.314239,0.314239,0.314239,0.314239


In [7]:
%%bash
du -sh test.*

88M	test.csv
36M	test.feather
42M	test.h5
38M	test.parquet


In [8]:
%%time
df = pd.read_csv("test.csv")
len(df)

CPU times: user 1.38 s, sys: 57.9 ms, total: 1.44 s
Wall time: 2.3 s


500000

In [9]:
%%time
df = pd.read_hdf("test.h5")
len(df)

CPU times: user 46.1 ms, sys: 29.6 ms, total: 75.7 ms
Wall time: 76.3 ms


500000

In [10]:
%%time
df = pd.read_parquet("test.parquet")
len(df)

CPU times: user 72.3 ms, sys: 114 ms, total: 186 ms
Wall time: 162 ms


500000

In [11]:
%%time
df = pd.read_feather("test.feather")
len(df)

CPU times: user 14.5 ms, sys: 71 ms, total: 85.5 ms
Wall time: 62.9 ms


500000

In [None]:
# Теперь мы создаем новый большой фрейм данных со столбцом строк.

In [12]:
!pip install lorem

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting lorem
  Downloading lorem-0.1.1-py3-none-any.whl (5.0 kB)
Installing collected packages: lorem
Successfully installed lorem-0.1.1


In [13]:
import numpy as np
import pandas as pd
from lorem import sentence

words = np.array(sentence().strip().lower().replace(".", " ").split())

np.random.seed(0)  
n = 1000000
df = pd.DataFrame(np.c_[np.random.randn(n, 5),
                  np.random.randint(0,10,(n, 2)),
                  np.random.randint(0,1,(n, 2)),
np.array([np.random.choice(words) for i in range(n)])] , 
columns=list('ABCDEFGHIJ'))

df["A"][::10] = np.nan
len(df)


1000000

In [14]:
df.head()

Unnamed: 0,A,B,C,D,E,F,G,H,I,J
0,,0.4001572083672233,0.9787379841057392,2.240893199201458,1.8675579901499677,0,4,0,0,velit
1,-0.977277879876411,0.9500884175255894,-0.1513572082976979,-0.1032188517935578,0.4105985019383723,5,5,0,0,velit
2,0.144043571160878,1.454273506962975,0.7610377251469934,0.1216750164928284,0.4438632327454256,6,1,0,0,dolor
3,0.3336743273742668,1.494079073157606,-0.2051582637658008,0.3130677016509013,-0.8540957393017248,0,5,0,0,eius
4,-2.5529898158340787,0.6536185954403606,0.8644361988595057,-0.7421650204064419,2.269754623987608,6,7,0,0,quiquia


In [15]:
%%time
df.to_csv('test.csv', index=False)

CPU times: user 6.39 s, sys: 257 ms, total: 6.65 s
Wall time: 7.05 s


In [16]:
%%time
df.to_hdf('test.h5', key="test", mode="w")

your performance may suffer as PyTables will pickle object types that it cannot
map directly to c-types [inferred_type->mixed,key->block0_values] [items->Index(['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J'], dtype='object')]

  encoding=encoding,


CPU times: user 3.52 s, sys: 237 ms, total: 3.75 s
Wall time: 5.13 s


In [17]:
%%time
df.to_feather('test.feather')

CPU times: user 1.21 s, sys: 258 ms, total: 1.47 s
Wall time: 1.26 s


In [18]:
%%time
df.to_parquet('test.parquet')

CPU times: user 1.59 s, sys: 221 ms, total: 1.81 s
Wall time: 1.83 s


In [19]:
%%time 
df = pd.read_csv("test.csv")
len(df)

CPU times: user 1.3 s, sys: 445 ms, total: 1.75 s
Wall time: 1.76 s


1000000

In [20]:
%%time 
df = pd.read_hdf("test.h5")
len(df)

CPU times: user 1.83 s, sys: 1.33 s, total: 3.17 s
Wall time: 3.17 s


1000000

In [21]:
%%time 
df = pd.read_feather('test.feather')
len(df)

CPU times: user 1.33 s, sys: 667 ms, total: 2 s
Wall time: 1.87 s


1000000

In [22]:
%%time 
df = pd.read_parquet('test.parquet')
len(df)


CPU times: user 1.89 s, sys: 452 ms, total: 2.35 s
Wall time: 1.98 s


1000000

In [23]:
df.J.nunique()

7

In [None]:
df.head(10)

Unnamed: 0,A,B,C,D,E,F,G,H,I,J
0,,0.4001572083672233,0.9787379841057392,2.240893199201458,1.8675579901499677,0,4,0,0,dolorem
1,-0.977277879876411,0.9500884175255894,-0.1513572082976979,-0.1032188517935578,0.4105985019383723,5,5,0,0,dolorem
2,0.144043571160878,1.454273506962975,0.7610377251469934,0.1216750164928284,0.4438632327454256,6,1,0,0,eius
3,0.3336743273742668,1.494079073157606,-0.2051582637658008,0.3130677016509013,-0.8540957393017248,0,5,0,0,numquam
4,-2.5529898158340787,0.6536185954403606,0.8644361988595057,-0.7421650204064419,2.269754623987608,6,7,0,0,sed
5,-1.4543656745987648,0.045758517301446,-0.1871838500258336,1.5327792143584575,1.469358769900285,6,0,0,0,labore
6,0.1549474256969163,0.3781625196021735,-0.8877857476301128,-1.980796468223927,-0.3479121493261526,8,0,0,0,voluptatem
7,0.15634896910398,1.2302906807277207,1.2023798487844113,-0.3873268174079523,-0.3023027505753355,5,5,0,0,sed
8,-1.0485529650670926,-1.4200179371789752,-1.7062701906250126,1.9507753952317897,-0.5096521817516535,7,5,0,0,eius
9,-0.4380743016111864,-1.2527953600499262,0.7774903558319101,-1.6138978475579515,-0.2127402802139687,2,0,0,0,voluptatem


In [24]:
df['J'] = pd.Categorical(df.J)

In [25]:
%time df.to_feather('test.feather')


CPU times: user 947 ms, sys: 215 ms, total: 1.16 s
Wall time: 948 ms


In [26]:
%time df.to_parquet('test.parquet')

CPU times: user 1.27 s, sys: 167 ms, total: 1.44 s
Wall time: 1.48 s


In [27]:
%%time 
df = pd.read_feather('test.feather')
len(df)

CPU times: user 1.36 s, sys: 526 ms, total: 1.89 s
Wall time: 1.81 s


1000000

In [28]:
%%time 
df = pd.read_parquet('test.parquet')
len(df)

CPU times: user 1.97 s, sys: 466 ms, total: 2.43 s
Wall time: 2.4 s


1000000

- Формат Parquet предназначен для долговременного хранения, тогда как Arrow больше предназначен для краткосрочного или эфемерного хранения, так как объем файлов больше.
- Запись Parquet обычно дороже, чем Feather, поскольку в нем больше уровней кодирования и сжатия.
- Feather представляет собой немодифицированную необработанную столбчатую память Arrow. Возможно, в будущем мы добавим в Feather простое сжатие.
- Из-за кодирования словаря, кодирования RLE и сжатия страниц данных файлы Parquet часто будут намного меньше, чем файлы Feather.
— Parquet — это стандартный формат хранения аналитики, поддерживаемый Spark. Поэтому, если вы занимаетесь аналитикой, Parquet — хороший вариант в качестве эталонного формата хранения для запросов из нескольких систем.

[исходный stackoverflow] (https://stackoverflow.com/questions/48083405/what-are-the-differences-between-feather-and-parquet)

## Apache Arrow

[Arrow](https://arrow.apache.org/docs/python/) — это уровень столбцовой аналитики в памяти, предназначенный для ускорения работы с большими данными.
Он содержит набор канонических представлений в памяти
иерархические данные вместе с несколькими языковыми привязками
для манипуляций со структурой. Arrow предлагает унифицированный способ
использовать одно и то же представление данных между языками, и это, безусловно, будет
следующий стандарт для хранения фреймов данных на всех языках.

- [R package](https://cran.r-project.org/web/packages/arrow/index.html)
- [Julia package](https://github.com/JuliaData/Arrow.jl)
- [GitHub project](https://github.com/apache/arrow)

![](https://github.com/pnavaro/big-data/blob/master/notebooks/images/arrow_ecosystem.png?raw=1)

Apache Arrow — идеальный транспортный уровень в памяти для данных, которые считываются или записываются с помощью файлов Parquet. [PyArrow] (https://arrow.apache.org/docs/python/) включает привязки Python для чтения и записи файлов Parquet с пандами.

- столбцовое хранилище, читайте только интересующие данные
- эффективная бинарная упаковка
- выбор алгоритмов сжатия и кодирования
- разбивать данные на файлы, что позволяет выполнять параллельную обработку
- диапазон логических типов
- статистика, хранящаяся в метаданных, позволяет пропускать ненужные куски
- разбиение данных с использованием структуры каталогов

![arrow](https://github.com/pnavaro/big-data/blob/master/notebooks/images/arrow.png?raw=1)

- https://arrow.apache.org/docs/python/csv.html
- https://arrow.apache.org/docs/python/feather.html
- https://arrow.apache.org/docs/python/parquet.html

Example:

```py
import pyarrow as pa
import pyarrow.parquet as pq
import pandas as pd
import numpy as np
arr = np.random.randn(500000) # 10% nulls
arr[::10] = np.nan
df = pd.DataFrame({'column_{0}'.format(i): arr for i in range(10)})

hdfs = pa.hdfs.connect()
table = pa.Table.from_pandas(df)
pq.write_to_dataset(table, root_path="test", filesystem=hdfs)
hdfs.ls("test")

```

In [30]:
import pyarrow as pa
import pyarrow.parquet as pq
import pandas as pd
import numpy as np
arr = np.random.randn(500000) # 10% nulls
arr[::10] = np.nan
df = pd.DataFrame({'column_{0}'.format(i): arr for i in range(10)})

hdfs = pa.hdfs.connect()
table = pa.Table.from_pandas(df)
pq.write_to_dataset(table, root_path="test", filesystem=hdfs)
hdfs.ls("test")

  if __name__ == '__main__':


FileNotFoundError: ignored

### Read CSV from HDFS

Put the file test.csv on hdfs system 

```python
from pyarrow import csv
with hdfs.open("/data/nycflights/1999.csv", "rb") as f:
 df = pd.read_csv(f, nrows = 10)
print(df.head())
```

### Read Parquet File from HDFS with pandas

```python
import pandas as pd
wikipedia = pd.read_parquet("hdfs://svmass2.mass.uhb.fr:54310/data/pagecounts-parquet/part-00007-8575060f-6b57-45ea-bf1d-cd77b6141f70.snappy.parquet", engine=’pyarrow’)
print(wikipedia.head())
```
### Read Parquet File with pyarrow

```py
table = pq.read_table("example.parquet")
```

### Writing a parquet file from Apache Arrow
```py
pq.write_table(table, "example.parquet")
```

### Check metadata
```py
parquet_file = pq.ParquetFile("example.parquet")
print(parquet_file.metadata)
```

### See schema
```py
print(parquet_file.schema)
```

### Connect to the Hadoop file system

```py
hdfs = pa.hdfs.connect()

# copy to local
with hdfs.open("user.txt", "rb") as f:
    f.download("user.text")

# write parquet file on hdfs
with open("example.parquet", "rb") as f:
    pa.HadoopFileSystem.upload(hdfs, "example.parquet", f)

# List files
for f in hdfs.ls("/user/navaro_p"):
    print(f)

# create a small dataframe and write it to hadoop file system
small_df = pd.DataFrame(np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]), columns=['a', 'b', 'c'])
table = pa.Table.from_pandas(small_df)
pq.write_table(table, "small_df.parquet", filesystem=hdfs)


# Read files from Hadoop with pandas
with hdfs.open("/data/irmar.csv") as f:
    df = pd.read_csv(f)

print(df.head())

# Read parquet file from Hadoop with pandas
server = "hdfs://svmass2.mass.uhb.fr:54310"
path = "data/pagecounts-parquet/part-00007-8575060f-6b57-45ea-bf1d-cd77b6141f70.snappy.parquet"
pagecount = pd.read_parquet(os.path.join(server, path), engine="pyarrow")
print(pagecount.head())

# Read parquet file from Hadoop with pyarrow
table = pq.read_table(os.path.join(server,path))
print(table.schema)
df = table.to_pandas()
print(df.head())
```