# 高校数学とJulia言語 Day 3

- 城北中学校・高等学校　中学3年・高校1年
- 夏期講習会III 2025/8/24~2025/8/28
- 担当：清水団

## 本日のテーマ：データの可視化と統計処理

今日は実際のデータを使って、散布図やヒストグラムを作成し、データの特徴を分析してみましょう！


## データサイエンスと統計学

現代社会では、あらゆる分野でデータが重要な役割を果たしています。

### データサイエンスの応用例
- **スポーツ分析**：選手のパフォーマンス向上
- **医療**：病気の早期発見、治療効果の分析
- **経済**：株価予測、市場分析
- **教育**：学習効果の測定、個別指導の最適化
- **環境**：気候変動の分析、環境保護施策の効果測定

### 統計学の基本概念
- **記述統計**：データの特徴を数値で要約（平均、分散、標準偏差など）
- **推測統計**：サンプルから全体の傾向を推定
- **相関分析**：変数間の関係性を調べる
- **回帰分析**：一つの変数から他の変数を予測


## 必要なパッケージの準備

データ分析に必要なパッケージをインストールして読み込みましょう。


In [None]:
# パッケージのインストール（初回のみ実行）
import Pkg
Pkg.add(["Statistics", "StatsBase", "Distributions", "Random"])

[32m[1m   Resolving[22m[39m package versions...
[32m[1m  No Changes[22m[39m to `~/.julia/environments/v1.11/Project.toml`
[32m[1m  No Changes[22m[39m to `~/.julia/environments/v1.11/Manifest.toml`


In [None]:
# パッケージの読み込み
using Plots
using Statistics       # 統計関数（mean, std など）
using StatsBase        # 統計分析（cor, cov など）
using Distributions    # 確率分布
using Random           # 乱数生成
using CSV, DataFrames  # データの読み込み・処理

# 乱数のシードを設定（結果を再現可能にする）
Random.seed!(42)


println("パッケージの読み込み完了！")

パッケージの読み込み完了！


## 基本的な統計量を計算してみよう

まずは簡単なデータで統計の基本を学びましょう。


In [2]:
# サンプルデータ：あるクラスの数学のテストの点数
test_scores = [85, 92, 78, 88, 95, 82, 90, 87, 83, 91, 76, 89, 94, 80, 86]

println("数学のテストの点数：", test_scores)
println("データの個数：", length(test_scores))

数学のテストの点数：[85, 92, 78, 88, 95, 82, 90, 87, 83, 91, 76, 89, 94, 80, 86]
データの個数：15


In [3]:
# 基本統計量の計算
println("=== 基本統計量 ===")
println("平均値：", round(mean(test_scores), digits=2))
println("中央値：", median(test_scores))
println("最頻値：", mode(test_scores))
println("")
println("最大値：", maximum(test_scores))
println("最小値：", minimum(test_scores))
println("範囲：", maximum(test_scores) - minimum(test_scores))
println("")
println("分散：", round(var(test_scores), digits=2))
println("標準偏差：", round(std(test_scores), digits=2))
println("")
println("第1四分位数：", quantile(test_scores, 0.25))
println("第3四分位数：", quantile(test_scores, 0.75))
println("四分位範囲：", quantile(test_scores, 0.75) - quantile(test_scores, 0.25))

=== 基本統計量 ===
平均値：86.4
中央値：87.0
最頻値：85

最大値：95
最小値：76
範囲：19

分散：32.83
標準偏差：5.73

第1四分位数：82.5
第3四分位数：90.5
四分位範囲：8.0


## ヒストグラムでデータの分布を見てみよう

ヒストグラムは、データの分布を視覚的に表現する重要なグラフです。


In [None]:
# 基本的なヒストグラム
histogram(test_scores, bins=5, 
         title="数学テストの点数分布", 
         xlabel="点数", 
         ylabel="人数",
         color=:skyblue,
         linewidth=2,
         alpha=0.7,
         label="ヒストグラム")

# 平均値の線を追加
vline!([mean(test_scores)], linewidth=3, color=:red, label="平均値")

# 中央値の線を追加
vline!([median(test_scores)], linewidth=3, color=:green, label="中央値", linestyle=:dash)

In [None]:
# より大きなデータセットでの例
# 正規分布に従うランダムなデータを生成
large_data = randn(1000) * 10 .+ 50  # 平均50、標準偏差10の正規分布

histogram(large_data, bins=30, 
         title="正規分布のヒストグラム (n=1000)", 
         xlabel="値", 
         ylabel="度数",
         color=:lightgreen,
         alpha=0.7,
         normalize=true,  # 確率密度として表示
         label="データ")

# 理論的な正規分布曲線を重ねる
x_range = 20:0.1:80
normal_curve = pdf.(Normal(mean(large_data), std(large_data)), x_range)
plot!(x_range, normal_curve, linewidth=3, color=:red, label="理論的正規分布")

## 散布図で関係性を探ってみよう

散布図は、2つの変数の関係を視覚的に表現するのに最適なグラフです。


In [None]:
# 学習時間と成績の関係を調べるデータ
study_hours = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 2, 3, 4, 5, 6, 7, 8, 9, 1, 10]
exam_scores = [45, 55, 60, 68, 75, 80, 85, 88, 92, 95, 50, 58, 65, 72, 78, 83, 87, 90, 48, 93]


# 相関係数を計算
correlation = cor(study_hours, exam_scores)
println("学習時間と成績の相関係数：", round(correlation, digits=3))

# 散布図の作成
scatter(study_hours, exam_scores, 
        title="学習時間と試験成績の関係", 
        xlabel="学習時間 (時間)", 
        ylabel="試験成績 (点)",
        color=:blue,
        markersize=4,
        alpha=0.7,
        label="データ点")


In [None]:
# 回帰直線を追加
# 最小二乗法で回帰直線の係数を求める
n = length(study_hours)
x_mean = mean(study_hours)
y_mean = mean(exam_scores)

# 回帰直線の傾き
slope = sum((study_hours .- x_mean) .* (exam_scores .- y_mean)) / sum((study_hours .- x_mean).^2)
# 回帰直線の切片
intercept = y_mean - slope * x_mean

println("回帰直線の方程式：y = ", round(slope, digits=2), "x + ", round(intercept, digits=2))

# 散布図と回帰直線を描画
scatter(study_hours, exam_scores, 
        title="学習時間と試験成績の関係（回帰直線付き）", 
        xlabel="学習時間 (時間)", 
        ylabel="試験成績 (点)",
        color=:blue,
        markersize=4,
        alpha=0.7,
        label="データ点")

# 回帰直線を追加
x_line = 0:0.1:10
y_line = slope .* x_line .+ intercept
plot!(x_line, y_line, color=:red, linewidth=3, label="回帰直線")

## 複数の変数を同時に分析してみよう

実際のデータ分析では、複数の変数を同時に考慮することが重要です。


In [None]:
# 学生の学習データ（サンプル）
students = DataFrame(
    name = ["A", "B", "C", "D", "E", "F", "G", "H", "I", "J", "K", "L", "M", "N", "O"],
    study_hours = [2, 4, 6, 8, 3, 5, 7, 9, 1, 10, 4, 6, 8, 2, 5],
    sleep_hours = [6, 7, 8, 7, 5, 8, 6, 8, 4, 9, 7, 8, 7, 6, 7],
    math_score = [50, 70, 80, 90, 60, 75, 85, 95, 40, 98, 68, 78, 88, 55, 72],
    english_score = [45, 65, 75, 85, 55, 70, 80, 90, 35, 92, 63, 73, 83, 50, 68]
)

println("学生データ：")
println(students)

In [None]:
# 相関行列の計算
using StatsBase

# 数値データのみを取得
numeric_data = students[:, [:study_hours, :sleep_hours, :math_score, :english_score]]

# 相関行列を計算
correlation_matrix = cor(Matrix(numeric_data))

println("相関行列：")
println("         学習時間  睡眠時間  数学    英語")
variable_names = ["学習時間", "睡眠時間", "数学    ", "英語    "]
for i in 1:4
    print(variable_names[i], "  ")
    for j in 1:4
        print(lpad(round(correlation_matrix[i,j], digits=3), 6), "  ")
    end
    println()
end

In [None]:
# 複数の散布図を一度に表示
p1 = scatter(students.study_hours, students.math_score, 
            title="学習時間 vs 数学成績", 
            xlabel="学習時間", ylabel="数学成績",
            color=:blue, alpha=0.7)

p2 = scatter(students.sleep_hours, students.math_score, 
            title="睡眠時間 vs 数学成績", 
            xlabel="睡眠時間", ylabel="数学成績",
            color=:green, alpha=0.7)

p3 = scatter(students.math_score, students.english_score, 
            title="数学成績 vs 英語成績", 
            xlabel="数学成績", ylabel="英語成績",
            color=:red, alpha=0.7)

p4 = scatter(students.study_hours, students.english_score, 
            title="学習時間 vs 英語成績", 
            xlabel="学習時間", ylabel="英語成績",
            color=:purple, alpha=0.7)

# 2x2のグリッドで表示
plot(p1, p2, p3, p4, layout=(2,2), size=(800, 600))

## 様々な確率分布を探ってみよう

統計学では、データの背後にある確率分布を理解することが重要です。


In [None]:
# 正規分布の例
x = -4:0.1:4

# 異なるパラメータの正規分布
normal1 = pdf.(Normal(0, 1), x)      # 標準正規分布
normal2 = pdf.(Normal(0, 0.5), x)    # 標準偏差0.5
normal3 = pdf.(Normal(1, 1), x)      # 平均1、標準偏差1

plot(x, normal1, linewidth=3, label="N(0,1)", color=:blue)
plot!(x, normal2, linewidth=3, label="N(0,0.5)", color=:red)
plot!(x, normal3, linewidth=3, label="N(1,1)", color=:green)

title!("正規分布の比較")
xlabel!("x")
ylabel!("確率密度")

In [None]:
# 異なる分布からサンプルを生成してヒストグラムを作成
Random.seed!(42)

# 各分布から1000個のサンプルを生成
normal_samples = rand(Normal(0, 1), 1000)
uniform_samples = rand(Uniform(-2, 2), 1000)
exponential_samples = rand(Exponential(1), 1000)

# ヒストグラムを作成
p1 = histogram(normal_samples, bins=30, title="正規分布", 
               alpha=0.7, color=:blue, normalize=true)

p2 = histogram(uniform_samples, bins=30, title="一様分布", 
               alpha=0.7, color=:red, normalize=true)

p3 = histogram(exponential_samples, bins=30, title="指数分布", 
               alpha=0.7, color=:green, normalize=true)

# 空のプロット（レイアウト調整用）
p4 = plot([], [], title="")

plot(p1, p2, p3, p4, layout=(2,2), size=(800, 600))

## 実際のデータ分析例：気温と売上の関係

アイスクリーム店の売上データを分析してみましょう。


In [None]:
# アイスクリーム店のデータ（架空）
Random.seed!(123)

# 30日間のデータ
days = 1:30
temperatures = 15 .+ 10 * rand(30) .+ 3 * sin.(days / 5)  # 15-35℃の気温
# 売上は気温に比例 + ランダム要素
sales = 2000 .+ 100 * temperatures .+ 500 * randn(30)

# データフレームを作成
ice_cream_data = DataFrame(
    day = days,
    temperature = round.(temperatures, digits=1),
    sales = round.(Int, max.(0, sales))  # 売上は負にならないよう調整
)

println("アイスクリーム店のデータ（最初の10日）：")
println(ice_cream_data[1:10, :])

println("\n基本統計量：")
println("平均気温：", round(mean(ice_cream_data.temperature), digits=1), "℃")
println("平均売上：", round(Int, mean(ice_cream_data.sales)), "円")
println("気温と売上の相関：", round(cor(ice_cream_data.temperature, ice_cream_data.sales), digits=3))

In [None]:
# 時系列プロット
p1 = plot(ice_cream_data.day, ice_cream_data.temperature, 
         title="日別気温の変化", xlabel="日", ylabel="気温 (℃)",
         color=:red, linewidth=2, marker=:circle)

p2 = plot(ice_cream_data.day, ice_cream_data.sales, 
         title="日別売上の変化", xlabel="日", ylabel="売上 (円)",
         color=:blue, linewidth=2, marker=:circle)

# 散布図
p3 = scatter(ice_cream_data.temperature, ice_cream_data.sales, 
            title="気温と売上の関係", xlabel="気温 (℃)", ylabel="売上 (円)",
            color=:green, markersize=5, alpha=0.7)

# 回帰直線を追加
temp_range = minimum(ice_cream_data.temperature):0.1:maximum(ice_cream_data.temperature)
correlation = cor(ice_cream_data.temperature, ice_cream_data.sales)
temp_mean = mean(ice_cream_data.temperature)
sales_mean = mean(ice_cream_data.sales)
temp_std = std(ice_cream_data.temperature)
sales_std = std(ice_cream_data.sales)

slope = correlation * sales_std / temp_std
intercept = sales_mean - slope * temp_mean

regression_line = slope .* temp_range .+ intercept
plot!(p3, temp_range, regression_line, color=:red, linewidth=3, label="回帰直線")

# 売上のヒストグラム
p4 = histogram(ice_cream_data.sales, bins=8, title="売上の分布", 
               xlabel="売上 (円)", ylabel="度数",
               color=:orange, alpha=0.7)

plot(p1, p2, p3, p4, layout=(2,2), size=(800, 600))

## Day 3 の演習問題

以下の問題に取り組んで、データ分析の技術を身につけましょう。

### 問題1: 基本統計量の計算

以下のデータは、ある高校の生徒20人の身長（cm）です：

```
heights = [165, 170, 168, 172, 160, 175, 169, 171, 167, 173, 
           162, 174, 166, 168, 170, 169, 171, 164, 172, 167]
```

1. 平均身長、中央値、標準偏差を計算してください
2. ヒストグラムを作成して、データの分布を可視化してください
3. 平均値と中央値の線をヒストグラムに追加してください

### 問題2: 相関分析

以下のデータは、10人の生徒の数学と物理の成績です：

```
math_scores = [85, 90, 78, 92, 88, 75, 95, 82, 87, 91]
physics_scores = [80, 88, 75, 90, 85, 70, 92, 78, 84, 89]
```

1. 数学と物理の成績の相関係数を計算してください
2. 散布図を作成して、2つの科目の関係を可視化してください
3. 回帰直線を追加して、回帰式を求めてください
4. 相関の強さについて考察してください

### 問題3: データの分布比較

以下の2つのクラスのテスト結果を比較してください：

```
class_a = [75, 80, 85, 78, 82, 88, 76, 84, 79, 87, 81, 83, 86, 77, 89]
class_b = [70, 85, 90, 72, 88, 92, 74, 86, 73, 91, 89, 87, 94, 75, 93]
```

1. 両クラスの基本統計量（平均、中央値、標準偏差）を比較してください
2. 両クラスのヒストグラムを並べて表示してください
3. どちらのクラスの成績が良いか、また分布の特徴について考察してください

### 問題4: 自由課題

身近なデータを考えて、以下の分析を行ってください：

1. 興味のある2つの変数のデータを作成（例：勉強時間と成績、運動時間と体重、睡眠時間と集中力など）
2. 散布図を作成して関係性を調べる
3. 相関係数を計算して関係の強さを評価
4. 結果について考察を書く

**ヒント**: 現実的なデータを作るために、ランダムな要素も含めて考えてみましょう。


## 解答欄

以下のセルに解答を記入してください。


### 問題1の解答：基本統計量の計算

In [None]:
# 問題1: 身長データの統計分析
heights = [165, 170, 168, 172, 160, 175, 169, 171, 167, 173, 
           162, 174, 166, 168, 170, 169, 171, 164, 172, 167]

# ここに解答を書いてください


### 問題2の解答：相関分析

In [None]:
# 問題2: 数学と物理の成績の相関分析
math_scores = [85, 90, 78, 92, 88, 75, 95, 82, 87, 91]
physics_scores = [80, 88, 75, 90, 85, 70, 92, 78, 84, 89]

# ここに解答を書いてください


### 問題3の解答：データの分布比較

In [None]:
# 問題3: 2つのクラスのテスト結果比較
class_a = [75, 80, 85, 78, 82, 88, 76, 84, 79, 87, 81, 83, 86, 77, 89]
class_b = [70, 85, 90, 72, 88, 92, 74, 86, 73, 91, 89, 87, 94, 75, 93]

# ここに解答を書いてください


### 問題4の解答：自由課題

In [None]:
# 問題4: 自由課題
# 自分で考えたデータで分析してみよう

# ここに解答を書いてください


## 発展的な内容：機械学習の入門

時間に余裕がある人は、簡単な機械学習も試してみましょう。


In [None]:
# 線形回帰による予測
# 学習時間から成績を予測するモデル

# 訓練データ
train_hours = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
train_scores = [30, 40, 50, 60, 70, 75, 80, 85, 90, 95]

# 線形回帰の係数を計算
n = length(train_hours)
x_mean = mean(train_hours)
y_mean = mean(train_scores)

slope = sum((train_hours .- x_mean) .* (train_scores .- y_mean)) / sum((train_hours .- x_mean).^2)
intercept = y_mean - slope * x_mean

println("予測モデル：成績 = ", round(slope, digits=2), " × 学習時間 + ", round(intercept, digits=2))

# 予測関数
predict_score(hours) = slope * hours + intercept

# 新しいデータで予測
test_hours = [3.5, 6.5, 8.5]
println("\n予測結果：")
for h in test_hours
    predicted = predict_score(h)
    println("学習時間 ", h, " 時間 → 予測成績 ", round(predicted, digits=1), " 点")
end

# 可視化
scatter(train_hours, train_scores, 
        title="学習時間と成績の予測モデル", 
        xlabel="学習時間 (時間)", ylabel="成績 (点)",
        color=:blue, markersize=8, label="訓練データ")

# 回帰直線
x_line = 0:0.1:10
y_line = predict_score.(x_line)
plot!(x_line, y_line, color=:red, linewidth=3, label="予測モデル")

# 予測点
scatter!(test_hours, predict_score.(test_hours), 
         color=:green, markersize=10, marker=:star, label="予測結果")

## まとめ

今日は以下のことを学びました：

### 統計の基本
- 基本統計量（平均、中央値、標準偏差など）の計算
- データの分布を表すヒストグラムの作成
- 相関係数による変数間の関係性の定量化

### データの可視化
- 散布図による2変数の関係性の可視化
- 回帰直線による傾向の把握
- 複数のグラフを組み合わせた総合的な分析

### 確率分布
- 正規分布、一様分布、指数分布の特徴
- 理論的分布と実際のデータの比較

### 実践的な分析
- 実際のデータを想定した分析手法
- 時系列データの可視化
- 複数の視点からのデータ理解

### データサイエンスの重要性

現代社会では、データに基づいた意思決定が重要になっています。今日学んだ技術は：

- **学習効果の測定**：勉強方法の効果を数値で評価
- **スポーツ分析**：選手のパフォーマンス向上
- **ビジネス**：売上予測、顧客分析
- **研究**：実験結果の統計的検証

などの様々な分野で応用できます。

### 次回予告

Day 5では、確率とシミュレーションをJuliaで扱います。

### 提出について

このノートブックに解答を記入し、保存してからGoogle Classroomに提出してください。特に問題4の自由課題では、創意工夫を凝らした分析を期待しています！

### 参考資料

- Julia Statistics Documentation: https://docs.julialang.org/en/v1/stdlib/Statistics/
- StatsBase.jl: https://github.com/JuliaStats/StatsBase.jl
- Plots.jl: https://docs.juliaplots.org/latest/
