<img src="https://arrow.apache.org/img/arrow-logo_horizontal_black-txt_white-bg.png" height=150/>

Pyarrow впервые был представлен в 2017 году как библиотека для проекта Apache Arrow. Цель состояла в том, чтобы обеспечить эффективный и последовательный способ работы с большими наборами данных, как в памяти, так и на диске. Pyarrow позволяет легко и эффективно обмениваться данными между инструментами и языками обработки данных, что делает его важным инструментом для всех, кто занимается наукой о данных.

[ссылка на офф сайт](https://arrow.apache.org/docs/python/index.html)

In [189]:
import pandas as pd
import numpy as np


In [7]:
pd.__version__

'2.0.1'

In [113]:
def initData(size, type = 'np'):
  cows = np.random.choice(["Зорька","Мурка","Розочка","Пятнышко"], size = size)
  milk = np.random.randint(0,100, size = size)
  df = pd.DataFrame(data = np.array([cows,milk]).T,
                    columns=['cows','milk']
                    )
  if type == 'arr':
    # df.cows = df.cows.astype('string[pyarrow]')
    df.milk = df.milk.astype('int32[pyarrow]')
  else:  
    df.milk = df.milk.astype(int)
  return df  

In [None]:
pd.Series([1,2,3,4])

In [None]:
pd.Series(['1','2','3','4'])

In [None]:
pd.Series([1,2,3,4], dtype='int64[pyarrow]')

In [None]:
pd.Series(['1','2','3','4'], dtype='string[pyarrow]')

In [None]:
df= initData(500_000)
df.info()
 
df = initData(500_000,'arr')
df.info()

### 1. Работа с NaN значениями

In [None]:
df= initData(500_000)
df.iloc[0,1] = None
df.info()

In [117]:
df.head(3)

Unnamed: 0,cows,milk
0,Розочка,
1,Пятнышко,7.0
2,Розочка,62.0


In [None]:
df= initData(500_000,'arr')
df.iloc[0,1] = None
df.info()

In [119]:
df.head(3)

Unnamed: 0,cows,milk
0,Пятнышко,
1,Мурка,42.0
2,Пятнышко,37.0


### 2. Скорость

#### арифмитические действия

In [None]:
# Numpy backend
df= initData(500_000)
%timeit df.milk.mean()

In [None]:
# PyArrow backend
df= initData(500_000,'arr')
%timeit df.milk.mean()

#### Строковые поползновения

In [None]:
# Numpy backend
df= initData(500_000)
%timeit df.cows.str.startswith('З')

In [None]:
# PyArrow backend
df= initData(500_000,'arr')
%timeit df.cows.str.startswith('З')

### 3. Интероперабельность

Тип данных Arrow используется не только в Pandas

* R
* Spark
* Polars
* Dask


### 4. Типы данных

In [None]:
our_date = pd.Series([True, False,True,False]).info()

In [None]:
our_date = pd.Series([True, False,True,False], dtype='bool[pyarrow]').info()

In [124]:
from datetime import date

In [None]:
our_date = pd.Series([date(2023,2,22),date(2023,2,22),date(2023,2,22),date(2023,2,22)], dtype ='datetime64[ns]').info()

In [None]:
our_date = pd.Series([date(2023,2,22),date(2023,2,22),date(2023,2,22),date(2023,2,22)], dtype='date32[pyarrow]').info()

[Документация по pyarrow](https://pandas.pydata.org/docs/dev/reference/arrays.html#pyarrow)

In [None]:
import pyarrow as pa
import pandas as pd

# Create a Pandas DataFrame
df = pd.DataFrame({'col1': [1, 2, 3], 'col2': ['a', 'b', 'c']})

# Convert the Pandas DataFrame to a PyArrow Table
table = pa.Table.from_pandas(df)

# Print the PyArrow Table
print(table)