<a href="https://colab.research.google.com/github/ymuto0302/RW2025/blob/main/intro_pandas_eda.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pandasを用いた探索的データ解析の例

In [None]:
# データ可視化において日本語を表示したいため，japanize_matplotlib をインストール
!pip install japanize_matplotlib

### パッケージのインポート

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import japanize_matplotlib
from datetime import datetime, timedelta

### データの読み込み
一般的にデータはファイルから，またはデータベースから読み込まれるが，ここでは Python コードを用いてダミーデータを作成する。

In [10]:
# サンプルデータの生成
def build_sample_data():
    np.random.seed(42)
    dates = pd.date_range('2024-01-01', periods=365, freq='D')
    products = ['商品A', '商品B', '商品C', '商品D']
    regions = ['東京', '大阪', '名古屋', '福岡']

    # ランダムな売上データを作成
    data = []
    for _ in range(365):
        data.append({
            '日付': np.random.choice(dates),
            '商品': np.random.choice(products),
            '地域': np.random.choice(regions),
            '売上金額': np.random.randint(1000, 50000),
            '販売数量': np.random.randint(1, 20)
        })

    return data

# データの取得
data = build_sample_data()

# Pandas DataFrame へ変換
df = pd.DataFrame(data)

# 日付列を正しく設定
df['日付'] = pd.to_datetime(df['日付'])
df['月'] = df['日付'].dt.month

### データの一部を観察

In [11]:
# データの先頭５件を表示
df.head()

Unnamed: 0,日付,商品,地域,売上金額,販売数量,月
0,2024-04-12,商品D,東京,39158,11,4
1,2024-03-12,商品A,東京,7265,19,3
2,2024-08-02,商品C,名古屋,48191,4,8
3,2024-12-25,商品D,名古屋,2685,2,12
4,2024-12-09,商品D,大阪,3433,1,12


### データの統計情報を得る

In [None]:
# 基本的な統計情報
df.describe()

### グループ集計

In [None]:
# グループ集計の例
print("\n=== 地域別月次売上 ===")
monthly_region = df.groupby(['地域', '月'])['売上金額'].sum().unstack(fill_value=0)
monthly_region

### データの可視化

In [None]:
# データ可視化
plt.figure(figsize=(12, 4))

# 月別売上推移
plt.subplot(1, 2, 1)
monthly_sales = df.groupby('月')['売上金額'].sum()
plt.plot(monthly_sales.index, monthly_sales.values, marker='o')
plt.title('月別売上推移')
plt.xlabel('月')
plt.ylabel('売上金額')

# 地域別売上比較
plt.subplot(1, 2, 2)
region_sales = df.groupby('地域')['売上金額'].sum()
plt.bar(region_sales.index, region_sales.values)
plt.title('地域別売上')
plt.xticks(rotation=45)

plt.tight_layout()
plt.show()