# Matplotlib & Pandas グラフ作成教材（結合版・オールインワン）
このノートは、**基礎編（Matplotlib）** と **実データ編（Pandas×CSV/Excel）** を1冊にまとめた結合版です。
学習順序は、
1) 手入力のリスト → 2) 関数 + append → 3) NumPy ベクトル化 → 4) CSV/Excelを読み込み → 5) 集計・可視化 → 6) 欠損処理 → 7) 仕上げ、の流れです。


## 目次
- 基礎編
  - 0. 準備
  - ステップ1：手入力のリスト
  - ステップ2：関数 + append
  - ステップ3：NumPy ベクトル化
  - 発展：サブプロットと注釈
- 実データ編
  - ステップA：DataFrameの基礎
  - ステップB：CSV読込（売上）
  - ステップC：Excel読込（センサー）
  - ステップD：欠損値とクリーニング
  - ステップE：仕上げのカスタマイズ
- まとめ


---
# 基礎編：Matplotlib でグラフ作成
## 0. 準備（ライブラリの読み込みと表示設定）
Matplotlib / NumPy / Pandas を読み込み、スタイルや日本語表示のための基本設定を行います。

In [None]:
import math
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# 描画スタイル（任意で変更可）
plt.style.use('seaborn-v0_8-whitegrid')

# 日本語フォントの設定（環境により変更/無効化してください）
from matplotlib import rcParams
rcParams['font.family'] = rcParams.get('font.family', ['sans-serif'])
rcParams['font.sans-serif'] = ['Noto Sans CJK JP', 'IPAexGothic', 'Hiragino Sans', 'Yu Gothic', 'Meiryo', 'DejaVu Sans']
rcParams['axes.unicode_minus'] = False  # マイナス記号の文字化け対策

print('pandas:', pd.__version__)
print('Matplotlib:', plt.matplotlib.__version__)
print('NumPy:', np.__version__)


## ステップ1：手入力のリストからグラフを作る
最も基本的な方法として、**手で作ったリスト**からグラフ（折れ線、散布図、棒グラフ）を描画します。

In [None]:
# 手入力のデータ
x = [0, 1, 2, 3, 4, 5]
y = [0, 1, 4, 9, 16, 25]  # y = x^2

fig, axes = plt.subplots(1, 3, figsize=(13, 3.5))

# 折れ線グラフ
axes[0].plot(x, y, marker='o', color='#2a9d8f')
axes[0].set_title('折れ線グラフ（y = x^2）')
axes[0].set_xlabel('x')
axes[0].set_ylabel('y')

# 散布図
axes[1].scatter(x, y, color='#e76f51')
axes[1].set_title('散布図（y = x^2）')
axes[1].set_xlabel('x')
axes[1].set_ylabel('y')

# 棒グラフ
axes[2].bar(x, y, color='#457b9d')
axes[2].set_title('棒グラフ（y = x^2）')
axes[2].set_xlabel('x')
axes[2].set_ylabel('y')

fig.suptitle('ステップ1：手入力リストから描画', fontsize=14)
plt.tight_layout()
plt.show()


### 練習（ステップ1）
1. `y` を `x^3`（立方）に変更して、3種類のグラフをもう一度描いてみましょう。
2. それぞれのグラフで、`color` や `marker`、`linewidth` を変更して見た目を調整してみましょう。

## ステップ2：関数を使ってリストに値を追加（append）
次に、**与えられた関数**を使って `for` ループで値を計算し、`append` でリストに追加していきます。
- 例として 
  - `f(x) = sin(x)`
  - `g(x) = sin(x) + 0.3 * x`
  の2つを比べて描画します。

In [None]:
# 関数の定義
def f(x):
    return math.sin(x)

def g(x):
    return math.sin(x) + 0.3 * x

# x を 0 から 10 まで 0.2 刻みで生成し、リストに追加
x2, y_f, y_g = [], [], []
cur = 0.0
while cur <= 10.0 + 1e-9:  # 誤差吸収
    x2.append(cur)
    y_f.append(f(cur))
    y_g.append(g(cur))
    cur += 0.2

plt.figure(figsize=(6,4))
plt.plot(x2, y_f, label='f(x)=sin(x)', color='#264653')
plt.plot(x2, y_g, label='g(x)=sin(x)+0.3x', color='#e9c46a')
plt.title('ステップ2：関数 + append でデータ生成')
plt.xlabel('x')
plt.ylabel('値')
plt.legend()
plt.tight_layout()
plt.show()


### 練習（ステップ2）
1. `g(x)` を `sin(x) + 0.1 * x^2` に変えてみましょう。曲線の形はどう変わりますか？
2. 刻み幅を `0.1`（より細かく）や `0.5`（より粗く）に変えて、曲線の滑らかさを比較しましょう。

## ステップ3：NumPy でベクトル化（for ループなし）
最後は、**NumPy** を用いて **for ループを使わず** に配列を一括生成して描きます。
ベクトル化により、コードが短くなり、大規模データでも高速になります。

In [None]:
# np.arange で 0 から 10 まで 0.01 刻みの配列を作成
x3 = np.arange(0, 10.0 + 1e-12, 0.01)
y3_f = np.sin(x3)
y3_g = np.sin(x3) + 0.3 * x3

plt.figure(figsize=(6,4))
plt.plot(x3, y3_f, label='f(x)=sin(x)', color='#2a9d8f')
plt.plot(x3, y3_g, label='g(x)=sin(x)+0.3x', color='#f4a261')
plt.title('ステップ3：NumPyでベクトル化して描画')
plt.xlabel('x')
plt.ylabel('値')
plt.legend()
plt.tight_layout()
plt.show()


### 練習（ステップ3）
1. `np.linspace(開始, 終了, 点数)` を使って同様の配列を作ってみましょう。`arange` との差は？
2. ベクトル化を活かし、`y = e^{-x/3} * sin(3x)` のような**減衰 + 振動**の曲線を描いてみましょう。
3. 2 本の曲線の差（`y3_g - y3_f`）を新たに描き、どの x で差が大きくなるか観察しましょう。

## 発展：サブプロットと注釈
複数のサブプロット配置や注釈（アノテーション）も Matplotlib の得意分野です。

In [None]:
fig, axs = plt.subplots(2, 2, figsize=(10, 6), sharex=True)
x = np.linspace(0, 2*np.pi, 200)
axs[0,0].plot(x, np.sin(x), color='#3a86ff'); axs[0,0].set_title('sin(x)')
axs[0,1].plot(x, np.cos(x), color='#ff006e'); axs[0,1].set_title('cos(x)')
axs[1,0].plot(x, np.tan(x), color='#8338ec'); axs[1,0].set_title('tan(x)'); axs[1,0].set_ylim(-3,3)
y = np.exp(-x/2)*np.sin(3*x)
axs[1,1].plot(x, y, color='#fb5607'); axs[1,1].set_title('e^{-x/2} sin(3x)')

# 注釈の例
peak_x = x[np.argmax(y)]
peak_y = y.max()
axs[1,1].annotate('ピーク', xy=(peak_x, peak_y), xytext=(peak_x+0.5, peak_y+0.2),
                 arrowprops=dict(arrowstyle='->', color='gray'))

for ax in axs.flat:
    ax.set_xlabel('x'); ax.set_ylabel('y')
fig.suptitle('発展：複数サブプロットと注釈', fontsize=14)
plt.tight_layout()
plt.show()


---
# 実データ編：Pandas × Matplotlib でCSV/Excelを可視化
この章では、PandasのDataFrameを使い、**CSV/Excelの読み込み→加工→可視化**の流れを学びます。
サンプルファイルが無い場合、次のセルで自動生成します（授業用の合成データ）。

In [None]:
# サンプルCSV/Excelの存在確認。無ければ合成データを生成して保存
import os
from datetime import datetime, timedelta
np.random.seed(42)

if not os.path.exists('sales_sample.csv') or not os.path.exists('sensor_sample.xlsx'):
    # 売上CSV
    dates = pd.date_range('2024-01-01', periods=90, freq='D')
    categories = ['A食品', 'B飲料', 'C雑貨']
    rows = []
    for d in dates:
        for c in categories:
            base = {'A食品': 120, 'B飲料': 80, 'C雑貨': 60}[c]
            season = 10*np.sin(2*np.pi*(d.dayofyear/365.0))
            noise = np.random.normal(0, 15)
            qty = max(0, int(base + season + noise))
            price = {'A食品': 250, 'B飲料': 180, 'C雑貨': 500}[c]
            rows.append({'日付': d, 'カテゴリ': c, '数量': qty, '単価': price, '金額': qty*price})
    sales_df = pd.DataFrame(rows)
    sales_df.to_csv('sales_sample.csv', index=False, encoding='utf-8')

    # センサーExcel
    t0 = datetime(2024, 2, 1)
    times = [t0 + timedelta(minutes=15*i) for i in range(24*4*5)]
    sensor_rows = []
    for t in times:
        temp = 18 + 6*np.sin(2*np.pi*(t.hour/24)) + np.random.normal(0, 0.8)
        hum = 55 + 12*np.cos(2*np.pi*(t.hour/24)) + np.random.normal(0, 2.0)
        if np.random.rand() < 0.02:
            temp = np.nan
        if np.random.rand() < 0.02:
            hum = np.nan
        sensor_rows.append({'時刻': t, '温度(℃)': round(temp,2), '湿度(%)': round(hum,2)})
    sensor_df = pd.DataFrame(sensor_rows)
    sensor_df.to_excel('sensor_sample.xlsx', index=False, engine='openpyxl')

print('OK: サンプルファイルの用意ができました')


## ステップA：DataFrameの基礎（手作りデータ）
辞書から `DataFrame` を作成し、`DataFrame.plot` と Matplotlibの違いを確認します。

In [None]:
df = pd.DataFrame({
    '月': ['1月','2月','3月','4月','5月','6月'],
    '売上A': [12, 14, 11, 18, 17, 20],
    '売上B': [9, 10, 13, 15, 16, 19]
})
df

# DataFrame.plot（ラッパー）
ax = df.set_index('月').plot(kind='bar', figsize=(6,4), color=['#2a9d8f','#e76f51'])
ax.set_title('カテゴリ別売上（手作りデータ）'); ax.set_xlabel('月'); ax.set_ylabel('金額')
plt.tight_layout(); plt.show()

# Matplotlib 直接
x = np.arange(len(df))
width = 0.35
fig, ax = plt.subplots(figsize=(6,4))
ax.bar(x - width/2, df['売上A'], width, label='売上A', color='#457b9d')
ax.bar(x + width/2, df['売上B'], width, label='売上B', color='#f4a261')
ax.set_xticks(x); ax.set_xticklabels(df['月'])
ax.set_title('カテゴリ別売上（Matplotlib）'); ax.set_xlabel('月'); ax.set_ylabel('金額')
ax.legend(); plt.tight_layout(); plt.show()


### 練習（A）
- 折れ線（`kind='line'`）に変えて、凡例や色を調整してみましょう。
- `df.describe()` を実行して、基本統計量を確認しましょう。

## ステップB：CSVを読み込んで可視化（売上データ）
`sales_sample.csv` を読み込み、カテゴリ別の日次・月次の売上を可視化します。自分のCSVを使う場合はパスを差し替えてください。

In [None]:
# CSV読み込み（日本語列名、日付パース）
sales = pd.read_csv('sales_sample.csv', encoding='utf-8', parse_dates=['日付'])
sales.head()


In [None]:
# 日別売上の折れ線（カテゴリ別）
daily = sales.groupby(['日付','カテゴリ'], as_index=False)['金額'].sum()
pivot = daily.pivot(index='日付', columns='カテゴリ', values='金額')
ax = pivot.plot(figsize=(7,4), title='日別売上（カテゴリ別）', ylabel='金額')
plt.tight_layout(); plt.show()

# 月別合計の棒グラフ
monthly = sales.groupby([sales['日付'].dt.to_period('M'),'カテゴリ'])['金額'].sum().reset_index()
monthly['月'] = monthly['日付'].astype(str)
ax = monthly.pivot(index='月', columns='カテゴリ', values='金額').plot(kind='bar', figsize=(8,4), title='月別売上合計')
ax.set_xlabel('月'); ax.set_ylabel('金額'); plt.tight_layout(); plt.show()

# 7日移動平均で滑らかに
ma7 = pivot.rolling(window=7, min_periods=1).mean()
ax = ma7.plot(figsize=(7,4), title='日別売上（7日移動平均）', ylabel='金額')
plt.tight_layout(); plt.show()


### 練習（B）
- `数量` を使った分析（例：平均単価 = 金額/数量）を追加してグラフ化しましょう。
- 曜日別の売上を `sales['日付'].dt.day_name()` で集計して、棒グラフにしてみましょう。

## ステップC：Excelを読み込んで可視化（センサー時系列）
`sensor_sample.xlsx` を `engine='openpyxl'` で読み込み、時系列の折れ線・散布・分布を確認します。

In [None]:
sensor = pd.read_excel('sensor_sample.xlsx', engine='openpyxl', parse_dates=['時刻'])
sensor.head()


In [None]:
# 時系列折れ線（温度・湿度）
fig, ax = plt.subplots(2, 1, figsize=(8,6), sharex=True)
ax[0].plot(sensor['時刻'], sensor['温度(℃)'], color='#3a86ff'); ax[0].set_title('温度(℃)（15分刻み）'); ax[0].set_ylabel('温度(℃)')
ax[1].plot(sensor['時刻'], sensor['湿度(%)'], color='#ff006e'); ax[1].set_title('湿度(%)（15分刻み）'); ax[1].set_xlabel('時刻'); ax[1].set_ylabel('湿度(%)')
plt.tight_layout(); plt.show()

# 1時間平均にリサンプリング
sensor_idx = sensor.set_index('時刻')
hourly = sensor_idx.resample('1H').mean()
ax = hourly.plot(figsize=(8,4), title='温度・湿度（1時間平均）')
ax.set_xlabel('時刻'); ax.set_ylabel('値'); plt.tight_layout(); plt.show()

# 散布図（温度 vs 湿度）
plt.figure(figsize=(6,4))
plt.scatter(sensor['温度(℃)'], sensor['湿度(%)'], alpha=0.5, color='#8338ec')
plt.title('温度 vs 湿度（散布図）'); plt.xlabel('温度(℃)'); plt.ylabel('湿度(%)')
plt.tight_layout(); plt.show()

# 分布の確認（ヒストグラム）
sensor[['温度(℃)','湿度(%)']].hist(figsize=(8,3), bins=20)
plt.suptitle('温度/湿度の分布'); plt.tight_layout(); plt.show()


### 練習（C）
- 24時間移動平均（`rolling('24H')`）を使って、日次のトレンドを平滑化してみましょう。
- 温度と湿度の関係を回帰直線で近似（`np.polyfit`）して、散布図上に線を重ねてみましょう。

## ステップD：欠損値とクリーニング
欠損（NaN）を含むデータでの処理例。用途に応じて `dropna` / `fillna` / `interpolate` を選びます。

In [None]:
missing_rate = sensor.isna().mean()*100
print('欠損率(%):
', missing_rate)

# 線形補間で欠損を埋める
sensor_clean = sensor.set_index('時刻').interpolate(method='time').reset_index()
fig, ax = plt.subplots(1,2, figsize=(10,3))
ax[0].plot(sensor['時刻'], sensor['温度(℃)'], color='#3a86ff'); ax[0].set_title('温度(補間前)')
ax[1].plot(sensor_clean['時刻'], sensor_clean['温度(℃)'], color='#3a86ff'); ax[1].set_title('温度(補間後)')
for a in ax: a.set_xlabel('時刻'); a.set_ylabel('温度(℃)')
plt.tight_layout(); plt.show()


### 練習（D）
- `fillna(method='ffill')` と `bfill` を試し、補間との違いを比較しましょう。
- 欠損が多い行を除外してから、再度リサンプリング・可視化してみましょう。

## ステップE：仕上げのカスタマイズ
凡例位置、線幅、色、注釈、保存（`plt.savefig`）など、仕上げに役立つ設定。

In [None]:
fig, ax = plt.subplots(figsize=(7,4))
ax.plot(hourly.index, hourly['温度(℃)'], label='温度(℃)', color='#1f77b4', linewidth=2)
ax.set_title('仕上げ例：注釈と画像保存'); ax.set_xlabel('時刻'); ax.set_ylabel('温度(℃)')
# ピークに注釈
pk_idx = hourly['温度(℃)'].idxmax(); pk_val = hourly['温度(℃)'].max()
ax.annotate('ピーク', xy=(pk_idx, pk_val), xytext=(pk_idx, pk_val+1),
            arrowprops=dict(arrowstyle='->', color='gray'))
ax.legend(loc='upper left')
plt.tight_layout()
# 画像として保存
plt.savefig('sensor_hourly_temperature.png', dpi=150)
plt.show()
print('保存ファイル: sensor_hourly_temperature.png')


---
# まとめ
- **基礎編**：手入力→関数→NumPyベクトル化の流れで、Matplotlibの基本を習得
- **実データ編**：`read_csv`/`read_excel`、`groupby`/`pivot`/`resample`、補間・保存まで一通り経験

次は、**自分の実データ**（売上、在庫、アクセスログ、センサーなど）に置き換えて同じ処理を試してみましょう。
