In [1]:
import pandas as pd
# 1次元のデータセットを作成
ser = pd.Series([1, 2, 3, 4, 5])
# 2次元のデータセットを作成
df = pd.DataFrame([[10, "a", True],
                   [20, "b", False],
                   [30, "c", False],
                   [40, "d", True]])

## サイズの確認

In [2]:
import numpy as np

# arangeは100は含まれない
df = pd.DataFrame(np.arange(100).reshape((25, 4)))
df.shape

(25, 4)

In [None]:
df = pd.DataFrame(np.arange(6).reshape((3, 2)))
df.index = ["01", "02", "03"]
df.columns = ["A", "B"]

named_df = pd.DataFrame(np.arange(6).reshape((3, 2)),
                        columns=["A列", "B列"],
                        index=["1行目", "2行目", "3行目"])

pd.DataFrame({"A列": [0, 2, 4], "B列": [1, 3, 5]})

Unnamed: 0,A,B
1,0,1
2,2,3
3,4,5


[1:3] → インデックス1から3まで → インデックス1,2

# データの前処理

In [1]:
import numpy as np
import pandas as pd
# サンプルのデータセットを作成
df = pd.DataFrame(
    {
        "A": [1, np.nan, 3, 4, 5],
        "B": [6, 7, 8, np.nan, 10],
        "C": [11, 12, 13, 14, 15]
    }
)
df

Unnamed: 0,A,B,C
0,1.0,6.0,11
1,,7.0,12
2,3.0,8.0,13
3,4.0,,14
4,5.0,10.0,15


## 欠損値の削除

In [None]:
df.dropna() # 欠損値を削除
df.dropna(axis=1) # 列方向で欠損値を削除
df.dropna(axis=0) # 行方向で欠損値を削除

Unnamed: 0,A,B,C
0,1.0,6.0,11
2,3.0,8.0,13
4,5.0,10.0,15


## 欠損値の補完

In [None]:
df.ffill() # 前の値を繰り返す
df.bfill() # 次の値を繰り返す
df.fillna() # 指定された値で埋める
df.fillna(method="median") # 中央値で埋める
df.fillna(method="mode") # 最頻値で埋める
df.fillna(df.mean()) # 平均値で埋める
df.fillna(method="mean") # 平均値で埋める

## 時系列データ

In [None]:
rng = np.random.default_rng(123)
dates = pd.date_range(start="2025-04-01", 
                      end="2025-04-30")
df = pd.DataFrame(
            rng.integers(1, 31, size=365), 
            index=dates, 
            columns=["乱数値"])
# 月ごとの平均値を計算 → ME=monthend
df.groupby(pd.Grouper(freq="ME")).mean()
# 月ごとの平均値を計算 → ME=monthend
# resample で月ごとのデータを取得
df.loc[:, "乱数値"].resample("ME").mean()
df

ValueError: Shape of passed values is (365, 1), indices imply (30, 1)