In [6]:
import pandas as pd
import datetime as dt
pd.set_option('display.max_rows', 500)

# CSVファイル読み込み
log_orig_df = pd.read_csv("★本番_MVPふう-log-20240131111510.csv", dtype={'text': str}, parse_dates=['timestamp'])
log_orig_df['timestamp'] = log_orig_df['timestamp'].dt.tz_localize(None)
# timestampでソート
log_orig_df = log_orig_df.fillna('').sort_values(by="timestamp")

# 必要な列だけ抽出
log_df = log_orig_df[['room_id', 'sender_type', 'text', 'sender_name', 'scenario_name', 'type', 'action_type', 'timestamp']].copy()
log_df.loc[:, 'timestamp_str'] = log_df['timestamp'].copy().dt.strftime('%Y-%m-%d %H:%M:%S')
log_df = log_df.reindex(columns=['timestamp_str', 'room_id', 'sender_type', 'text', 'sender_name', 'scenario_name', 'type', 'action_type', 'timestamp'])

# 先頭200行
log_df.head(200)

Unnamed: 0,timestamp_str,room_id,sender_type,text,sender_name,scenario_name,type,action_type,timestamp
0,2024-01-15 19:38:24,8zMUjC,log,@チャット情報\nchannelUUID=ba416712-4bc3-4616-b3bc-2...,log,スタート,log,ログ出力,2024-01-15 19:38:24.632289
1,2024-01-15 19:38:24,8zMUjC,bot,はじめまして！\nメッセージは届いてる？,MVP_ふう_v0.0.1,s01_オープニング実証実験,text,テキスト発言,2024-01-15 19:38:24.698429
2,2024-01-15 19:38:25,8zMUjC,bot,選択肢を選んでください,MVP_ふう_v0.0.1,s01_オープニング実証実験,choose,選択肢確認,2024-01-15 19:38:25.787738
3,2024-01-15 19:38:29,8zMUjC,client,うん,Guest,s01_オープニング実証実験,text,選択肢から選択,2024-01-15 19:38:29.349058
4,2024-01-15 19:38:30,8zMUjC,log,,log,s01_オープニング実証実験,log,ログ出力,2024-01-15 19:38:30.810538
5,2024-01-15 19:38:30,8zMUjC,bot,良かった！\n今回は私と会話するプログラムに参加してくれてありがとう😊,MVP_ふう_v0.0.1,s01_オープニング実証実験,text,テキスト発言,2024-01-15 19:38:30.828637
6,2024-01-15 19:38:31,8zMUjC,bot,このプログラムに参加してもらう上で、\n\n①個人情報を入力しないこと\n③私は開発中のAI...,MVP_ふう_v0.0.1,s01_オープニング実証実験,text,テキスト発言,2024-01-15 19:38:31.684787
7,2024-01-15 19:38:32,8zMUjC,bot,選択肢を選んでください,MVP_ふう_v0.0.1,s01_オープニング実証実験,choose,選択肢確認,2024-01-15 19:38:32.692254
8,2024-01-15 19:38:35,8zMUjC,client,うん,Guest,s01_オープニング実証実験,text,選択肢から選択,2024-01-15 19:38:35.182567
9,2024-01-15 19:38:38,8zMUjC,bot,私は「共感型AIチャット」だよ。これからよろしくね！,MVP_ふう_v0.0.1,s01_オープニング実証実験,text,テキスト発言,2024-01-15 19:38:38.500033


### 抽出ノウハウ
#### ユーザーを絞る
```python
log_df[log_df['room_id'] == '8zMUjC']
```

#### ソート
```python
log_df.sort_values(by="timestamp")
```

#### 日毎のユーザー発言数
```python
log_df[log_df['sender_name'] == 'Guest'].groupby(pd.Grouper(key="timestamp", freq="1D")).size()
```

#### 日毎のユーザー発言数(resample)
```python
tmp = log_df[log_df['sender_name'] == 'Guest']
tmp.set_index('timestamp', inplace=True)
tmp.resample('D').size()
```

#### 特定の言葉を含む発言を検索
```python
log_df[log_df['text'].str.contains('私は')]
```

#### 特定の言葉から始まる発言を検索
```python
log_df[log_df['text'].str.startswith('私は')]
```

#### 指定期間のユーザーごとの発言数
```python
tmp = log_df[log_df['sender_name'] == 'Guest'][['timestamp', 'room_id']]
start = dt.datetime(2024,1,17)
end = dt.datetime(2024,1,27)
print(f"\n\n{start} ～ {end}")
tmp[(tmp['timestamp'] >= start) & (tmp['timestamp'] < end)].groupby('room_id').count().rename(columns={'timestamp': 'count'}).sort_values('count', ascending=False)
```

#### 指定期間の発言回数の購入回数
```python
tmp = log_df[(log_df['sender_name'] == 'log') & (log_df['text'].str.startswith('■購入:'))][['timestamp', 'room_id', 'text']]

start = dt.datetime(2024,1,22)
end = dt.datetime(2024,1,27)

def purchase_item(text):
    return text.split('-')[-1]

tmp = tmp[(tmp['timestamp'] >= start) & (tmp['timestamp'] < end)]
tmp["回数"] = tmp['text'].apply(purchase_item)
tmp
```

### 出力
#### Excelで出力
```python
log_df.to_excel('test.xlsx',  index=False, headerTruee)
```