In [1]:
import polars as pl

In [2]:
x = pl.Series([1, 2, 3, 4, 5])
x

1
2
3
4
5


In [4]:
x = pl.Series("col1", [1,2,3])
x

col1
i64
1
2
3


In [9]:
y = pl.Series(
    "col1" : [1,2,3],
    "col2" : [10, 20, 30],
    "col3" : ["a", "b", "c"]
)
y

SyntaxError: invalid syntax (ipython-input-9-2788862188.py, line 2)

このエラーは**`pl.Series`と`pl.DataFrame`を混同している**ために発生しています。

**エラーの原因：**

1. **`pl.Series`は1つの列（1次元データ）しか作成できません**
2. **複数の列を持つデータを作成するには`pl.DataFrame`を使う必要があります**
3. **辞書記法（`:`）はDataFrameの構文です**

In [12]:
col1 = pl.Series("col1", [1,2,3])
col2 = pl.Series("col2", [10, 20, 30])
col3 = pl.Series("col3", ["a", "b", "c"])

(shape: (3,)
 Series: 'col1' [i64]
 [
 	1
 	2
 	3
 ],
 shape: (3,)
 Series: 'col2' [i64]
 [
 	10
 	20
 	30
 ],
 shape: (3,)
 Series: 'col3' [str]
 [
 	"a"
 	"b"
 	"c"
 ])

: は辞書の「キーと値を区切る記号」です
{} が辞書記法（辞書リテラル）です

In [13]:
y = pl.DataFrame({
    "col1" : [1,2,3],
    "col2" : [10,20,30],
    "col3" : ["a","b","c"]
})
y

col1,col2,col3
i64,i64,str
1,10,"""a"""
2,20,"""b"""
3,30,"""c"""


# DataFrameって、numpyやpandasにもありますよね？Polarsだけではないのでしょうか？

その通りです！**DataFrame**は複数のライブラリで使われている共通概念です。

**DataFrameがある主要なライブラリ：**

1. **pandas** - 最も有名
   ```python
   import pandas as pd
   df = pd.DataFrame({"col1": [1,2,3], "col2": [4,5,6]})
   ```

2. **Polars** - 高速で新しい
   ```python
   import polars as pl
   df = pl.DataFrame({"col1": [1,2,3], "col2": [4,5,6]})
   ```

3. **PySpark** - 分散処理用
   ```python
   from pyspark.sql import SparkSession
   df = spark.createDataFrame(data, schema)
   ```

4. **Dask** - 並列処理用
   ```python
   import dask.dataframe as dd
   df = dd.from_pandas(pandas_df, npartitions=2)
   ```

**numpyについて：**
- **numpy自体にはDataFrameはありません**
- numpyは多次元配列（`ndarray`）を扱います
- ただし、pandasのDataFrameの内部ではnumpyの配列が使われています

**共通点：**
- すべて「行と列を持つ表形式データ」を表現
- 似たような操作（フィルタリング、集計など）が可能

**違い：**
- 性能、メモリ効率、対応する機能などが異なる
- pandas（汎用）、Polars（高速）、Spark（分散）など、それぞれ特色があります

DataFrameは「表形式データを扱うための標準的な概念」として、多くのライブラリで採用されているんです！

In [14]:
df = pl.DataFrame({
    "col1" : [1,2,3],
    "col2" : [10,20,30],
    "col3" : ["a","b","c"]
})

expr = pl.col("col1").pow(2) + pl.col("col2")
df.select(expr)

col1
i64
11
24
39


In [15]:
df = pl.DataFrame({
    "col1" : [1,2,3],
    "col2" : [10,20,30],
    "col3" : ["a","b","c"]
})

expr = pl.col("col1").pow(2) + pl.col("col2")
df.with_columns(expr)

col1,col2,col3
i64,i64,str
11,10,"""a"""
24,20,"""b"""
39,30,"""c"""


In [16]:
df = pl.DataFrame({
    "col1" : [1,2,3],
    "col2" : [10,20,30],
    "col3" : ["a","b","c"]
})

expr = pl.col("col1").pow(2) + pl.col("col2")
df.with_columns(col4=expr)

col1,col2,col3,col4
i64,i64,str,i64
1,10,"""a""",11
2,20,"""b""",24
3,30,"""c""",39
