# Chapter 1: PythonとPolarsの基礎


Polarsの読み方は「ポーラーズ」

PolarsはPythonの表計算ライブラリです。
表計算ライブラリではPandasが有名ですが、PolarsはPandasの使い勝手の良さはそのままに、処理を高速化させています。

ここでは、PandasとPolarsでそれぞれ同じ処理を行うプログラムを実行し、その実行スピードを比べてみましょう。

perf-illustration.842c8328_2dRYyE.svg

## Google ColabでのPython環境設定(Pandas, Polarsのインストール)


### ステップ1: Google Colabの利用開始
1. 教材のipynbファイルをダウンロードします。
2. Googleアカウントにログインします。
3. ドライブの任意の場所に、教材のipynbファイルをアップロードします。
4. ipynbファイルをダブルクリックして開き、各セルをShift+Enterで実行していきます。

### ステップ2: ライブラリのインストール
Google Colabには多くの一般的なPythonライブラリが事前にインストールされていますが、PandasやPolarsなど特定のライブラリは手動でインストールする必要があります。以下はそれらのライブラリをインストールする方法です。

In [6]:
# Pandasのインストール（通常は事前にインストールされていますが、最新版を使用する場合）
!pip install pandas

# Polasのインストール
!pip install polars




これらのコマンドをGoogle Colabのセルに入力し、実行することでライブラリがインストールされます。

### ステップ3: ライブラリのインポートと確認
インストールしたライブラリが正しく機能するか確認するために、以下のようにインポートしてバージョンを確認します。

In [7]:
# Pandasのインポートとバージョン確認
import pandas as pd
print(pd.__version__)

# Polarsのバージョン確認
import polars as pl
print(pl.__version__)

1.5.3
0.20.2


これらのステップを実行することで、Google Colab上でPythonの基本的な環境設定が完了し、PandasとPolarsの使用準備が整います。次に、Pythonの基本文法の学習やPandasとPolarsの利用方法に進むことができます。

## Pythonの基本



### 1. 変数と型



In [6]:
a = 10      # 整数
b = 3.14    # 浮動小数点数
c = 'hello' # 文字列（string)
d = True    # 二値（bool）

print(a, b, c, d)
print(type(a), type(b), type(c), type(d))

10 3.14 hello True
<class 'int'> <class 'float'> <class 'str'> <class 'bool'>


### 2. 制御文



In [1]:
for i in range(5):
    if i % 2 == 0:
        print(f'{i} is even')
    else:
        print(f'{i} is odd')

0 is even
1 is odd
2 is even
3 is odd
4 is even


### 3. 関数とクラス

In [4]:
def add(a, b):
    return a + b

def sub(a, b):
    return a - b

print(add(10, 20))
print(sub(10, 20))

30
-10


In [5]:
class Calculator:
    def __init__(self, x, y):
        self.x = x
        self.y = y
    def add(self):
        return self.x + self.y
    def sub(self):
        return self.x - self.y

calc = Calculator(10, 20)
print(calc.add())
print(calc.sub())

30
-10


In [6]:
# 必要なライブラリをインポート
import numpy as np
import pandas as pd
import polars as pl

In [12]:
# サンプルデータを自動で生成する
np.random.rand(100)
data = np.random.randint(0, 100, size=(100000000, 2))
columns = ['A', 'B']

In [13]:
# pandasでデータフレーム作成
df = pd.DataFrame(data, columns=columns)

# 生成したサンプルデータからランダムに3行を表示して確認する
print("ランダムに3行表示")
print(df.sample(3))

# 分析結果（サンプルデータの・・・データ数、平均、標準偏差、最小値、最大値など）を表示する
print("\n\n分析結果")
print(df.describe())

ランダムに3行表示
           A   B
88866337  90  78
36461436  47  96
92222537  71  89


分析結果
                  A             B
count  1.000000e+08  1.000000e+08
mean   4.950051e+01  4.950465e+01
std    2.886635e+01  2.886615e+01
min    0.000000e+00  0.000000e+00
25%    2.400000e+01  2.500000e+01
50%    5.000000e+01  5.000000e+01
75%    7.400000e+01  7.500000e+01
max    9.900000e+01  9.900000e+01


In [14]:
# PolarsでDataFrameを生成。（NumPy配列から作成する）
df = pl.DataFrame({columns[0]: data[:, 0], columns[1]: data[:, 1]})

# 生成したサンプルデータからランダムに3行を表示して確認する
print("ランダムに3行表示")
print(df.sample(3))

# 分析結果（サンプルデータのデータ数、平均、標準偏差、最小値、最大値など）を表示する
print("\n\n分析結果")
print(df.describe())

ランダムに3行表示
shape: (3, 2)
┌─────┬─────┐
│ A   ┆ B   │
│ --- ┆ --- │
│ i64 ┆ i64 │
╞═════╪═════╡
│ 22  ┆ 74  │
│ 97  ┆ 23  │
│ 74  ┆ 32  │
└─────┴─────┘


分析結果
shape: (9, 3)
┌────────────┬───────────┬───────────┐
│ describe   ┆ A         ┆ B         │
│ ---        ┆ ---       ┆ ---       │
│ str        ┆ f64       ┆ f64       │
╞════════════╪═══════════╪═══════════╡
│ count      ┆ 1e8       ┆ 1e8       │
│ null_count ┆ 0.0       ┆ 0.0       │
│ mean       ┆ 49.500512 ┆ 49.504653 │
│ std        ┆ 28.86635  ┆ 28.866148 │
│ min        ┆ 0.0       ┆ 0.0       │
│ 25%        ┆ 24.0      ┆ 25.0      │
│ 50%        ┆ 50.0      ┆ 50.0      │
│ 75%        ┆ 74.0      ┆ 75.0      │
│ max        ┆ 99.0      ┆ 99.0      │
└────────────┴───────────┴───────────┘


1億行×2列のデータに対する単純なデータ分析で
*   pandas:15秒
*   polars:9秒

となりました。