In [None]:
# !pip install japanize-matplotlib

クラスの身長データ例

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import japanize_matplotlib


# クラスの身長データ例 （cm）
heights = [165, 172, 168, 170, 175, 163, 169, 167, 173, 166]

# 基本的な統計量の計算
mean_height = np.mean(heights)  # 平均
max_height = np.max(heights)  # 最大値
min_height = np.min(heights)  # 最小値
range_height = max_height - min_height  # 範囲（最大と最小の差）

print(f"平均身長：{mean_height:.1f}cm")
print(f"最大身長：{max_height}cm")
print(f"最小身長：{min_height}cm")
print(f"身長の範囲：{range_height}cm")

# ヒストグラムで分布を可視化
plt.figure(figsize=(10, 6))
plt.hist(heights, bins=5, edgecolor="black")
plt.title("クラスの身長分布")
plt.xlabel("身長 (cm)")
plt.ylabel("人数")
plt.grid(True, alpha=0.3)
plt.show()

テストの点数データ分析

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import japanize_matplotlib


# 数学テストの点数 (0 から 100 までの整数を、ランダムに 100 個生成)
math_scores = np.random.randint(0, 100, 100)

# 基本統計量の計算
mean_score = np.mean(math_scores)  # 平均点
median_score = np.median(math_scores)  # 中央値
std_score = np.std(math_scores)  # 標準偏差
min_score = np.min(math_scores)  # 最低点
max_score = np.max(math_scores)  # 最高点

print(f"平均点：{mean_score:.1f}")
print(f"中央値：{median_score}")
print(f"標準偏差：{std_score:.1f}")
print(f"最低点：{min_score}")
print(f"最高点：{max_score}")

# ヒストグラムの作成
plt.figure(figsize=(10, 6))
plt.hist(math_scores, bins=10, color="skyblue", edgecolor="black")
# 平均点を示す垂直線を追加
plt.axvline(mean_score, color="red", linestyle="dashed", linewidth=1, label=f"平均点：{mean_score:.1f}")
plt.title("数学テストの点数分布")
plt.xlabel("点数")
plt.ylabel("人数")
# 凡例を表示
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

テストの点数データ

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import japanize_matplotlib


# 100 個のランダムなテスト点数データを生成 （正規分布に従う）
np.random.seed(42)
# 平均 85, 標準偏差 7 の正規分布から生成し, 60 〜 100 の範囲に制限
scores = np.random.normal(85, 7, 100).clip(60, 100).round().astype(int)

mean_score = np.mean(scores)  # 平均値
median_score = np.median(scores)  # 中央値
# 最頻値を計算
values, counts = np.unique(scores, return_counts=True)
mode_score = values[np.argmax(counts)]

print(f"平均点：{mean_score:.1f}")
print(f"中央値：{median_score}")
print(f"最頻値：{mode_score}")

# ヒストグラムの作成
plt.figure(figsize=(12, 7))
plt.hist(scores, bins=range(60, 101, 5), edgecolor="black", alpha=0.7)

# 3 つの代表値を垂直線で表示
plt.axvline(mean_score, color="red", linestyle="--", linewidth=2, label=f"平均値: {mean_score:.1f}")
plt.axvline(median_score, color="green", linestyle="-.", linewidth=2, label=f"中央値: {median_score}")
plt.axvline(mode_score, color="blue", linestyle=":", linewidth=2, label=f"最頻値: {mode_score}")

plt.title("100 人のテスト点数の分布と 3 つの代表値")
plt.xlabel("点数")
plt.ylabel("人数")
plt.legend()
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

箱ひげ図の作成

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import japanize_matplotlib


# テストの点数データ
test_scores = [65, 70, 75, 78, 80, 82, 85, 88, 90, 92, 95]

# 箱ひげ図の作成
plt.figure(figsize=(10, 6))
plt.boxplot(test_scores, vert=False, patch_artist=True, boxprops=dict(facecolor="lightblue"))

# 四分位数を計算して表示
q1 = np.percentile(test_scores, 25)
q2 = np.percentile(test_scores, 50)
q3 = np.percentile(test_scores, 75)
iqr = q3 - q1

print(f"第1四分位数（Q1）：{q1}")
print(f"中央値（Q2）：{q2}")
print(f"第3四分位数（Q3）：{q3}")
print(f"四分位範囲（IQR）：{iqr}")

# 箱ひげ図に統計情報を追加
plt.title("テスト点数の箱ひげ図")
plt.xlabel("点数")
plt.yticks([1], ["テスト点数"])  # y軸のラベル

# 四分位数の位置に垂直線を追加
plt.axvline(q1, color="green", linestyle="--", alpha=0.5)
plt.axvline(q2, color="red", linestyle="--", alpha=0.5)
plt.axvline(q3, color="blue", linestyle="--", alpha=0.5)

# 統計情報をテキストで表示
plt.text(q1, 1.2, f"Q1: {q1}", color="green", ha="center")
plt.text(q2, 1.2, f"Q2: {q2}", color="red", ha="center")
plt.text(q3, 1.2, f"Q3: {q3}", color="blue", ha="center")
plt.text((q1 + q3) / 2, 1.3, f"四分位範囲: {iqr}", ha="center", bbox=dict(facecolor="white", alpha=0.5))

plt.grid(True, axis="x")
plt.tight_layout()
plt.show()

外れ値の検出

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import japanize_matplotlib


# テストの点数データ （外れ値: 55 を含む）
test_scores = [55, 70, 75, 78, 80, 82, 85, 88, 90, 92, 95, 98]

# 箱ひげ図の作成（外れ値も表示）
plt.figure(figsize=(10, 6))
plt.boxplot(test_scores, vert=False, patch_artist=True, boxprops=dict(facecolor="lightblue"))

# 四分位数の計算
q1 = np.percentile(test_scores, 25)
q2 = np.percentile(test_scores, 50)
q3 = np.percentile(test_scores, 75)
iqr = q3 - q1

# 外れ値の基準
lower_bound = q1 - 1.5 * iqr
upper_bound = q3 + 1.5 * iqr

# 外れ値を検出
outliers = [x for x in test_scores if x < lower_bound or x > upper_bound]

print(f"第1四分位数（Q1）：{q1}")
print(f"中央値（Q2）：{q2}")
print(f"第3四分位数（Q3）：{q3}")
print(f"四分位範囲（IQR）：{iqr}")
print(f"外れ値の基準：{lower_bound} 未満 または {upper_bound} 超過")
print(f"検出された外れ値：{outliers}")

# グラフに外れ値の基準線を追加
plt.axvline(lower_bound, color="red", linestyle=":", label=f"外れ値の基準 ({lower_bound:.1f}, {upper_bound:.1f})")
plt.axvline(upper_bound, color="red", linestyle=":")

plt.title("テスト点数の分布と外れ値の検出")
plt.xlabel("点数")
plt.yticks([1], ["テスト点数"])
plt.legend()
plt.grid(True, axis="x")
plt.tight_layout()
plt.show()

テストの点数データ

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import japanize_matplotlib


# 2 つのクラスの点数データ
class_a = [82, 85, 88, 84, 87, 83, 86, 85, 84, 86]  # ばらつきが小さい
class_b = [65, 95, 75, 90, 85, 70, 95, 65, 80, 85]  # ばらつきが大きい


# 分析関数の定義
def analyze_scores(scores, class_name):
    mean = np.mean(scores)  # 平均
    var = np.var(scores)  # 分散
    std = np.std(scores)  # 標準偏差

    print(f"\n{class_name}の分析:")
    print(f"平均点：{mean:.1f}")
    print(f"分散：{var:.1f}")
    print(f"標準偏差：{std:.1f}")

    return mean, std


# 2 つのクラスを分析
mean_a, std_a = analyze_scores(class_a, "クラスA")
mean_b, std_b = analyze_scores(class_b, "クラスB")

# ヒストグラムで比較
plt.figure(figsize=(12, 5))

# クラス A のヒストグラム
plt.subplot(1, 2, 1)
plt.hist(class_a, bins=5, edgecolor="black", alpha=0.7)
plt.title("クラスAの点数分布（ばらつき小）")
plt.xlabel("点数")
plt.ylabel("人数")
plt.xlim(60, 100)
plt.axvline(mean_a, color="red", linestyle="--", label=f"平均: {mean_a:.1f}")
plt.axvline(mean_a + std_a, color="green", linestyle=":", label=f"標準偏差: {std_a:.1f}")
plt.axvline(mean_a - std_a, color="green", linestyle=":")
plt.legend()

# クラス B のヒストグラム
plt.subplot(1, 2, 2)
plt.hist(class_b, bins=5, edgecolor="black", alpha=0.7)
plt.title("クラスBの点数分布（ばらつき大）")
plt.xlabel("点数")
plt.xlim(60, 100)
plt.axvline(mean_b, color="red", linestyle="--", label=f"平均: {mean_b:.1f}")
plt.axvline(mean_b + std_b, color="green", linestyle=":", label=f"標準偏差: {std_b:.1f}")
plt.axvline(mean_b - std_b, color="green", linestyle=":")
plt.legend()

plt.tight_layout()
plt.show()

様々な相関パターン

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import japanize_matplotlib


# 乱数の種を固定 （再現性のため）
np.random.seed(42)

# 4 つの異なるパターンのデータを生成
n = 50  # データ点の数

# 1. 強い正の相関
x1 = np.linspace(0, 10, n)
y1 = 2 * x1 + 5 + np.random.normal(0, 1, n)

# 2. 強い負の相関
x2 = np.linspace(0, 10, n)
y2 = 20 - 1.5 * x2 + np.random.normal(0, 1, n)

# 3. 相関なし
x3 = np.linspace(0, 10, n)
y3 = np.random.normal(10, 3, n)

# 4. 非線形の関係
x4 = np.linspace(0, 10, n)
y4 = 2 * (x4 - 5) ** 2 + np.random.normal(0, 3, n)

# 4つのサブプロットを作成
plt.figure(figsize=(12, 10))

# 強い正の相関
plt.subplot(2, 2, 1)
plt.scatter(x1, y1, color="blue", alpha=0.7)
plt.title("強い正の相関")
plt.xlabel("x")
plt.ylabel("y")
plt.grid(True, alpha=0.3)

# 強い負の相関
plt.subplot(2, 2, 2)
plt.scatter(x2, y2, color="red", alpha=0.7)
plt.title("強い負の相関")
plt.xlabel("x")
plt.ylabel("y")
plt.grid(True, alpha=0.3)

# 相関なし
plt.subplot(2, 2, 3)
plt.scatter(x3, y3, color="green", alpha=0.7)
plt.title("相関なし")
plt.xlabel("x")
plt.ylabel("y")
plt.grid(True, alpha=0.3)

# 非線形の関係
plt.subplot(2, 2, 4)
plt.scatter(x4, y4, color="purple", alpha=0.7)
plt.title("非線形の関係")
plt.xlabel("x")
plt.ylabel("y")
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()