# 文字列・時間型操作

ここでは、`pandas` を使った文字列データや時間データの取り扱いについて学びます。

In [None]:
import pandas as pd
from pandas import DataFrame, Series

## 文字列操作

時には、欲しい値が文字列の一部に入っている場合があります。
以下は、サービスの評価を 1 ~ 5 段階で評価してもらった顧客満足度データを表しています。
サービス評価のデータは、尺度の数値とカテゴリー名がくっついたものになっています。
データとしては何を示しているか分かりやすいですが、満足度の平均値を計算するには数値を取り出す必要があります。

In [None]:
data = DataFrame({
    '顧客ID': [101, 102, 103, 104, 105],
    'サービス評価': ['1.とても悪かった', '2.悪かった', '3.普通', '4.良かった', '5.とても良かった'],
}) # アンケートデータの例（尺度の数値と尺度のカテゴリー名がくっついている）
data

`Series` の `str` アクセッサーを使うと、文字列に対する高度な操作が可能です。
`str` アクセッサーは、`Series` オブジェクトに対して `.str` をつけることで、使用可能になります。
`data` が `Series` オブジェクトとすると、`data.str.<method>` で文字列操作のメソッドが使えます。

文字列操作の機能を使う前に、まずはデータのパターンを読み解きます。
サービス評価の値は、`数値.カテゴリー名` というパターンで表記されています。
したがって、いくつかの方策が考えられるはずです。

1. ドット `.` で文字列をリストに分割し、`0` 番目の要素を取り出す
2. 1 桁の数値しかないので、最初の文字だけを切り出す
3. 文字列の先頭から、数値の部分だけを取り出す
4. 数値以外の文字を空文字 `""` にする

ここでは、最初の方法でやってみます。
文字列のメソッドと同じように、`pandas` でも [`split`](https://pandas.pydata.org/docs/reference/api/pandas.Series.str.split.html) メソッドでデータの文字列を分割できます。
デフォルトだと、文字列を区切り文字で分割したリストの `Series` が返ってきます。

In [None]:
data["サービス評価"].str.split(".")  # . で文字列を分割

`str` アクセッサーを使って、`i` 番目の要素を取り出すことができます。
最初の要素を取り出すには、`str[0]` です。
次のように組み合わせることで、求めていた数値が取り出せました。

In [None]:
data["サービス評価"].str.split(".").str[0]

ちなみに、他の方法でやる場合は以下の方法で可能です。

2. `str[0]` で最初の文字をとる
3. `extract` メソッドでパターンにマッチする要素 (数値) を取り出す
4. `replace` メソッドでパターンにマッチする要素 (数値以外) を空文字 `""` にする

また、ここでは深く触れませんが、パターンを示すには正規表現 (regular expression) というものを用いることで、より広い範囲のパターンを示すことができます。
例えば、正規表現では任意の数値を `\d` で示せます。
`extract(r"(\d))` とすると、先頭に数値がある場合に、それを取り出します。

なお、この例のように少ないパターンしかない場合ならば、通常の `replace` メソッドを使うのも手です。
また、平均値などの計算をしたい場合には、数値型に変換することを忘れずに。

##### やってみよう

- `replace` メソッドを用いて、「サービス評価」カラムの値を数値に変換してください。

## パターンマッチング

パターンマッチングとは、特定の数値・文字列のパターンを検出するものです。
また、`和歌山県和歌山市` という文字列から、`県` の前の文字列 (`和歌山`) を抽出することもできます。

例えば次のような商品の `Series` があるとします。

In [None]:
products = Series([
  "ポテトサラダ",
  "じゃがいも",
  "カルビー ポテトチップス うすしお味",
  "湖池屋 ポテトチップス のり塩味",
  "海藻サラダ",
])
products

パターンを検出するメソッドは、`fullmatch`, `match`, `contains` などがあります。
これらは、指定したパターンに一致している文字列の時は `True`、そうでないときは `False` を返します。
メソッドによって、若干の差異があります。

- fullmatch: 指定したパターンと文字列が完全に一致した場合のみ `True` を返す
- match: 指定したパターンと先頭の文字列が一致した場合に `True` を返す
- contains: 指定したパターンを文字列が含む場合に `True` を返す

先ほどのデータを使って実際に試してみます。
まずは、ポテトという文字列とマッチさせます。

In [None]:
products.str.fullmatch("ポテト")

In [None]:
products.str.match("ポテト")

In [None]:
products.str.contains("ポテト")

`fullmatch` では、ポテトという商品名はないため、全てが `False` になっています。

`match` ではポテトサラダは先頭に「ポテト」の文字列があるため `True` になっていますが、ポテトチップスはその前にブランド名があるため `False` が返っています。

`contains` はポテトチップスも `True` を返します。

また、この結果を用いてマッチしたデータを取得できます。

In [None]:
products[products.str.contains("ポテト")]

##### やってみよう

以下の市区町村名のデータをパターンマッチを使って分析してください。

- 和歌山県の市区町村だけをマッチさせてください
- 兵庫県神戸市以外の市区町村をマッチさせてください
- 大阪府、京都府以外の市区町村をマッチさせてください

In [None]:
cities = Series([
    "和歌山県和歌山市",
    "和歌山県田辺市",
    "和歌山県橋本市",
    "大阪府大阪市",
    "大阪府堺市",
    "京都府京都市",
    "兵庫県神戸市",
    "兵庫県姫路市",
    "兵庫県西宮市",
    "三重県津市"
])

## 日付・時間型データの操作

売上や株価のデータなど、データに時間の情報が含まれることがあります。
この情報を扱うには、時間のデータ型 `datetime64` を用いるのが便利です。

通常は時間の情報の文字列は単純に `object` 型として扱われます。
これを `datetime64` に変換する必要があります。

In [None]:
sales_data = DataFrame({
    '顧客ID': [1, 2, 1, 3, 2],
    '購入日時': ['2023-01-01 10:00', '2023-01-05 15:30',
                 '2023-02-01 11:00', '2023-02-05 18:00',
                 '2023-03-01 09:30'],
    '購入金額': [1000, 1500, 2000, 2500, 3000]
})
sales_data["購入日時"]  # object 型

時間データ型への変換は、`cast` メソッドではなく、`to_datetime` 関数を用います。

In [None]:
sales_data["購入日時"] = pd.to_datetime(sales_data["購入日時"])  # datetime64 型に変換
sales_data["購入日時"]

時間データ型に関する操作は `dt` アクセッサーを使います。
例えば、`datetime` 型のように年、月、日などの情報を取り出すことができます。

In [None]:
# datetime の復習
from datetime import datetime 
dt = datetime(2025, 5, 1, 13, 35, 6)
print(f"年: {dt.year}")
print(f"月: {dt.month}")
print(f"日: {dt.day}")

In [None]:
sales_data["購入日時"].dt.year  # 年を取得

In [None]:
sales_data["購入日時"].dt.day_of_week  # 曜日の数字

曜日の数字は、月曜 (0) から始まり、日曜 (6) で終わります。

https://pandas.pydata.org/docs/reference/api/pandas.Series.dt.day_of_week.html

また、[`resample`](https://pandas.pydata.org/docs/reference/api/pandas.Series.resample.html) メソッドを使うと、指定した時間の単位でデータを集計してくれます。
`groupby` の時間版だと思ってください。

例えば、日次平均、年次平均を計算することが可能です。
`resample` メソッドでは、集計する期間を指定します。
`"M"` は月単位を表し、`"Y"` は年単位を表します。
index が時間ではない場合、`on` キーワードで集計に用いる時間のカラム名を指定します。

`resample` で集計した後に、集計メソッドを適用します。

In [None]:
sales_data

In [None]:
sales_data.resample("ME", on = "購入日時")["購入金額"].mean() # 月次平均

In [None]:
sales_data.resample("YE", on="購入日時")["購入金額"].mean()  # 年次平均

`resample` は `groupby` に似ていますが、異なる部分もあります。

例えば、`sale_data` を `resample` で日毎の集計をすると、2023年1月2日や1月3日など、データにはない、間の日付を含んだものが返されます。

一方で、`groupby` ではデータにあるもののみで集計されます。

In [None]:
sales_data.resample("D", on = "購入日時")["購入金額"].mean().head()

##### やってみよう

- `groupby` で日毎の集計をしてみましょう

さらに、`"5Min"` とすれば 5 分毎に集計するなど、柔軟な指定が可能です。
詳しくは、`pandas` のドキュメントを読んでください。

- https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html