# 式の結合

In [1]:
import os

import polars as pl

## 定数定義

In [2]:
DATA_PAR_PATH = os.path.join('..','..','data')
INPUT_CSV_PATH_FRUIT = os.path.join(DATA_PAR_PATH,'fruit.csv')

## メソッドチェーン

In [3]:
fruit = pl.read_csv(INPUT_CSV_PATH_FRUIT)
fruit.filter(pl.col('is_round') & (pl.col('weight') > 1000))

name,weight,color,is_round,origin
str,i64,str,bool,str
"""Cantaloupe""",2500,"""orange""",True,"""Africa"""
"""Watermelon""",5000,"""green""",True,"""Africa"""


## インライン演算子とメソッド

In [4]:
(
    pl.DataFrame({
        'i': [6.0, 0.0, 2.0, 2.5],
        'j': [7, 1, 2, 3]
    })
    .with_columns(
        (pl.col('i') * pl.col('j')).alias('*'),
        pl.col('i').mul(pl.col('j')).alias('Expr.mul()')
    )
)

i,j,*,Expr.mul()
f64,i64,f64,f64
6.0,7,42.0,42.0
0.0,1,0.0,0.0
2.0,2,4.0,4.0
2.5,3,7.5,7.5


インライン演算子の方がpythonに近い記法になるので見やすい。でもメソッドでも対して見やすさは同じかも（慣れの問題）

### 算術演算

In [5]:
fruit.select(
    pl.col('name'),
    (pl.col('weight') / 1000)
)

name,weight
str,f64
"""Avocado""",0.2
"""Banana""",0.12
"""Blueberry""",0.001
"""Cantaloupe""",2.5
"""Cranberry""",0.002
"""Elderberry""",0.001
"""Orange""",0.13
"""Papaya""",1.0
"""Peach""",0.15
"""Watermelon""",5.0


In [6]:
pl.Config(float_precision=2, tbl_cell_numeric_alignment='RIGHT')

(
    pl.DataFrame({
        'i': [0.0, 2.0, 2.0, -2.0, -2.0],
        'j': [1.0, 2.0, 3.0, 4.0, -5.0]
    })
    .with_columns(
        (pl.col('i') + pl.col('j')).alias('i + j'),
        (pl.col('i') - pl.col('j')).alias('i - j'),
        (pl.col('i') * pl.col('j')).alias('i * j'),
        (pl.col('i') / pl.col('j')).alias('i / j'),
        (pl.col('i') // pl.col('j')).alias('i // j'),
        (pl.col('i') ** pl.col('j')).alias('i ** j'),
        (pl.col('j') % 2).alias('i % 2'),
        pl.col('i').dot(pl.col('j')).alias('i ・ j')
    )
)

i,j,i + j,i - j,i * j,i / j,i // j,i ** j,i % 2,i ・ j
f64,f64,f64,f64,f64,f64,f64,f64,f64,f64
0.0,1.0,1.0,-1.0,0.0,0.0,0.0,0.0,1.0,12.0
2.0,2.0,4.0,0.0,4.0,1.0,1.0,4.0,0.0,12.0
2.0,3.0,5.0,-1.0,6.0,0.67,0.0,8.0,1.0,12.0
-2.0,4.0,2.0,-6.0,-8.0,-0.5,-1.0,16.0,0.0,12.0
-2.0,-5.0,-7.0,3.0,10.0,0.4,0.0,-0.03,1.0,12.0


### 比較演算

In [7]:
pl.select(pl.lit('a') > pl.lit('b'))

literal
bool
False


In [8]:
(
    fruit.select(
        pl.col('name'),
        pl.col('weight')
    )
    .filter(pl.col('weight') >= 1000)
)

name,weight
str,i64
"""Cantaloupe""",2500
"""Papaya""",1000
"""Watermelon""",5000


In [9]:
x = 4
pl.select((pl.lit(3) < pl.lit(x)) & (pl.lit(x) < pl.lit(5)))

literal
bool
True


通常、pythonだと`3 < x < 10`といった具合に比較演算を3つでできたりするが、polarsではそれはできない。  
それぞれの比較演算を実施してあげる必要がある

In [10]:
pl.select(pl.lit(x).is_between(3, 5)).item()

True

`.item()`で、テーブルの中の要素のみを抽出している

In [11]:
(
    pl.DataFrame({
        'a': [-273.15, 0.0, 42.0, 100.0],
        'b': [1.4142, 2.7183, 42.0, 3.1415]
    })
    .with_columns(
        (pl.col('a') == pl.col('b')).alias('a == b'),
        (pl.col('a') <= pl.col('b')).alias('a <= b'),
        (pl.all() > 0).name.suffix(' > 0'),
        ((pl.col('b') - pl.lit(2).sqrt()).abs() < 1e-3).alias('b = √2'),
        ((1 < pl.col('b')) & (pl.col('b') < 3)).alias('1 < b < 3')
    )
)

a,b,a == b,a <= b,a > 0,b > 0,b = √2,1 < b < 3
f64,f64,bool,bool,bool,bool,bool,bool
-273.15,1.41,False,True,False,True,True,True
0.0,2.72,False,True,False,True,False,True
42.0,42.0,True,True,True,True,False,False
100.0,3.14,False,False,True,True,False,False


In [12]:
pl.select(
    bool_num=pl.lit(True) > 0,
    time_time=pl.time(23, 58) > pl.time(0, 0),
    datetime_date=pl.datetime(1969, 7, 21, 2, 56) < pl.date(1976, 7, 20),
    str_num=pl.lit('5') < pl.lit(3).cast(pl.String),
    datetime_time=pl.datetime(1999, 1, 1).dt.time() != pl.time(0, 0)
).transpose(include_header=True,
            header_name='comparison',
            column_names=['allowed'])

comparison,allowed
str,bool
"""bool_num""",True
"""time_time""",True
"""datetime_date""",True
"""str_num""",False
"""datetime_time""",False


strとintの比較ができないのは素直に受け入れられるが、datetimeとdateも比較できないのか。言われてみればそうかもしれないけれど、頑張ったらできそうじゃない？  
あ、だめだ。時間情報と日付の比較ってどうやるの？って話か

### ブール演算

In [13]:
x = 7
p = pl.lit(3) < pl.lit(x)
q = pl.lit(x) < pl.lit(5)
pl.select(p & q).item()  # True & False

False

In [14]:
(
    pl.DataFrame({
        'p': [True, True, False, False],
        'q': [True, False, True, False]
    })
    .with_columns(
        (pl.col('p') & pl.col('q')).alias('p & q'),
        (pl.col('p') | pl.col('q')).alias('p | q'),
        (~pl.col('p')).alias('-p'),
        (pl.col('p') ^ pl.col('q')).alias('p ^ q'),
        (~(pl.col('p') & pl.col('q'))).alias('p ↑ q'),  # NAND
        ((pl.col('p').or_(pl.col('q'))).not_()).alias('p ↓ q') # NOR
    )
)

p,q,p & q,p | q,-p,p ^ q,p ↑ q,p ↓ q
bool,bool,bool,bool,bool,bool,bool,bool
True,True,True,True,False,False,False,False
True,False,False,True,False,True,True,False
False,True,False,True,True,True,True,False
False,False,False,False,True,False,True,True


NORを計算する時に、今回の例はメソッドを使用しているが、NANDのようにインライン演算子を使っても表現できる。  
可読性って点だとインライン演算子の方がとっつきやすい気がする

### ビット演算

In [15]:
pl.select(pl.lit(10) | pl.lit(34)).item()

42

In [16]:
bits = (
    pl.DataFrame({
        'x': [1, 1, 0, 0, 7, 10],
        'y': [1, 0, 1, 0, 2, 34]
    }, schema={'x': pl.UInt8, 'y': pl.UInt8})
    .with_columns(
        (pl.col('x') & pl.col('y')).alias('x & y'),
        (pl.col('x') | pl.col('y')).alias('x | y'),
        (~pl.col('x')).alias('-x'),
        (pl.col('x') ^ pl.col('y')).alias('x ^ y')
    )
)

bits

x,y,x & y,x | y,-x,x ^ y
u8,u8,u8,u8,u8,u8
1,1,1,1,254,0
1,0,0,1,254,1
0,1,0,1,255,1
0,0,0,0,255,0
7,2,2,7,248,5
10,34,2,42,245,40


### 関数の使用

In [17]:
scientists = pl.DataFrame({
    'first_name': ['George', 'Grace', 'John', 'Kurt', 'Ada'],
    'last_name': ['Boole', 'Hopper', 'Tukey', 'Gödel', 'Lovelace'],
    'country': ['England', 'United States', 'United States',
    'Austria-Hungary', 'England']
})

scientists

first_name,last_name,country
str,str,str
"""George""","""Boole""","""England"""
"""Grace""","""Hopper""","""United States"""
"""John""","""Tukey""","""United States"""
"""Kurt""","""Gödel""","""Austria-Hungary"""
"""Ada""","""Lovelace""","""England"""


In [18]:
scientists.select(
    pl.concat_list(pl.col('^*_name$')).alias('concat_list'),
    pl.struct(pl.all()).alias('struct')
)

concat_list,struct
list[str],struct[3]
"[""George"", ""Boole""]","{""George"",""Boole"",""England""}"
"[""Grace"", ""Hopper""]","{""Grace"",""Hopper"",""United States""}"
"[""John"", ""Tukey""]","{""John"",""Tukey"",""United States""}"
"[""Kurt"", ""Gödel""]","{""Kurt"",""Gödel"",""Austria-Hungary""}"
"[""Ada"", ""Lovelace""]","{""Ada"",""Lovelace"",""England""}"


In [19]:
prefs = pl.DataFrame({
    'id': [1, 7, 42, 101, 999],
    'has_pet': [True, False, True, False, True],
    'likes_travel': [False, False, False, False, True],
    'likes_movies': [True, False, True, False, True],
    'likes_books': [False, False, True, True, True]
}).with_columns(
    pl.all_horizontal(pl.exclude('id')).alias('all'),
    pl.any_horizontal(pl.exclude('id')).alias('any')
)

prefs

id,has_pet,likes_travel,likes_movies,likes_books,all,any
i64,bool,bool,bool,bool,bool,bool
1,True,False,True,False,False,True
7,False,False,False,False,False,False
42,True,False,True,True,False,True
101,False,False,False,True,False,True
999,True,True,True,True,True,True


In [20]:
prefs.select(
    pl.sum_horizontal(pl.all()).alias('sum'),
    pl.max_horizontal(pl.all()).alias('max'),
    pl.min_horizontal(pl.all()).alias('min')
)

sum,max,min
i64,i64,i64
4,1,0
7,7,0
46,42,0
103,101,0
1005,999,1


列方向だけじゃなくて、行方向に対しても合計値や最小値/最大値を算出できるのか

In [21]:
prefs.select(
    pl.col('id'),
    pl.when(pl.all_horizontal(pl.col('^likes_.*$')))
    .then(pl.lit('Likes everything'))
    .when(pl.any_horizontal(pl.col('^likes_.*$')))
    .then(pl.lit('Like somthing'))
    .otherwise(pl.lit('Likes nothing'))
    .alias('likes_what')
)

id,likes_what
i64,str
1,"""Like somthing"""
7,"""Likes nothing"""
42,"""Like somthing"""
101,"""Like somthing"""
999,"""Likes everything"""


条件式を複数混ぜたりしたいときに便利な記法だね。  
これを使わずとも、もうちょいやり方ないのかな？