# NumPyで日本の花火大会データを分析しよう！（一次元配列編）

## はじめに

こんにちは！このページでは、NumPyの一次元配列について、日本の花火大会データを例に詳しく説明します。NumPyは、数値計算に特化した強力なライブラリで、大量のデータを効率的に処理することができます。花火大会の来場者数データを使って、NumPyの一次元配列の使い方を学んでいきましょう。

## NumPyのインポートと配列の作成

まず、NumPyライブラリをインポートし、配列を作成します。


In [21]:
import numpy as np

# 2022年の主要花火大会の来場者数（単位：万人）
fireworks_visitors = np.array([80, 95, 70, 110, 130, 85, 100, 75, 120, 90])
print("花火大会の来場者数：")
print(fireworks_visitors)


花火大会の来場者数：
[ 80  95  70 110 130  85 100  75 120  90]


ここでは、`np.array()`関数を使って、リストからNumPy配列を作成しています。この配列は、10個の花火大会の来場者数（単位：万人）を表しています。`np.array()`は、与えられたリストの要素を保持したまま、NumPyの配列に変換します。

## 配列の作成方法いろいろ

NumPyでは、様々な方法で配列を作成できます。


In [22]:
# ゼロで初期化された配列（新規イベントの来場者数予測用）
new_events = np.zeros(5)
print("新規イベントの初期予測：", new_events)

# 1で初期化された配列（チケット販売状況、1は完売）
ticket_status = np.ones(10)
print("チケット販売状況：", ticket_status)

# 特定の値で初期化された配列（花火の打ち上げ数、単位：千発）
fireworks_count = np.full(5, 20)
print("各大会の花火打ち上げ数：", fireworks_count)

# 等間隔の数列（花火大会の開始時刻、18時から30分おき）
start_times = np.arange(18, 21, 0.5)
print("花火大会の開始時刻：", start_times)

# 指定した範囲を等分割した配列（花火大会の満足度調査、0-5点）
satisfaction_scores = np.linspace(0, 5, 6)
print("満足度スコア：", satisfaction_scores)


新規イベントの初期予測： [0. 0. 0. 0. 0.]
チケット販売状況： [1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
各大会の花火打ち上げ数： [20 20 20 20 20]
花火大会の開始時刻： [18.  18.5 19.  19.5 20.  20.5]
満足度スコア： [0. 1. 2. 3. 4. 5.]


- `np.zeros(5)`: 5個の要素を持つ、すべての要素が0の配列を作成します。
- `np.ones(10)`: 10個の要素を持つ、すべての要素が1の配列を作成します。
- `np.full(5, 20)`: 5個の要素を持つ、すべての要素が20の配列を作成します。
- `np.arange(18, 21, 0.5)`: 18から21未満まで、0.5刻みの等間隔の数列を作成します。
- `np.linspace(0, 5, 6)`: 0から5までを6等分した配列を作成します。

これらの関数を使うことで、様々な初期値や特定のパターンを持つ配列を簡単に作成できます。

## 配列の基本操作と属性

NumPy配列の基本的な操作と属性を見ていきます。


In [23]:
# 配列の要素数（花火大会の数）
print("花火大会の数：", fireworks_visitors.size)

# 配列の次元
print("配列の次元：", fireworks_visitors.ndim)

# 配列の形状
print("配列の形状：", fireworks_visitors.shape)

# データの型
print("データの型：", fireworks_visitors.dtype)

# 最大来場者数とそのインデックス
print("最大の来場者数：", np.max(fireworks_visitors), "万人")
print("最大来場者数の大会インデックス：", np.argmax(fireworks_visitors))

# 最小来場者数とそのインデックス
print("最小の来場者数：", np.min(fireworks_visitors), "万人")
print("最小来場者数の大会インデックス：", np.argmin(fireworks_visitors))

# 平均来場者数
print("平均来場者数：", np.mean(fireworks_visitors), "万人")

# 中央値
print("中央値：", np.median(fireworks_visitors), "万人")

# 標準偏差
print("標準偏差：", np.std(fireworks_visitors), "万人")


花火大会の数： 10
配列の次元： 1
配列の形状： (10,)
データの型： int64
最大の来場者数： 130 万人
最大来場者数の大会インデックス： 4
最小の来場者数： 70 万人
最小来場者数の大会インデックス： 2
平均来場者数： 95.5 万人
中央値： 92.5 万人
標準偏差： 18.634645153584223 万人


- `size`: 配列の要素数を返します。
- `ndim`: 配列の次元数を返します。
- `shape`: 配列の形状（各次元のサイズ）をタプルで返します。
- `dtype`: 配列の要素のデータ型を返します。
- `np.max()`: 配列の最大値を返します。
- `np.argmax()`: 最大値のインデックスを返します。
- `np.min()`: 配列の最小値を返します。
- `np.argmin()`: 最小値のインデックスを返します。
- `np.mean()`: 配列の平均値を計算します。
- `np.median()`: 配列の中央値を計算します。
- `np.std()`: 配列の標準偏差を計算します。

これらの操作により、データの基本的な特徴を簡単に把握することができます。

## ブールインデックス

条件に基づいて配列の要素を選択する方法を説明します。


In [24]:
# 100万人以上の大規模花火大会を選択
large_events = fireworks_visitors[fireworks_visitors >= 100]
print("100万人以上の大規模花火大会の来場者数：", large_events)

# 80万人未満の小規模花火大会を選択
small_events = fireworks_visitors[fireworks_visitors < 80]
print("80万人未満の小規模花火大会の来場者数：", small_events)

# 条件に合う要素のインデックスを取得（中規模：80-100万人）
medium_indices = np.where((fireworks_visitors >= 80) & (fireworks_visitors < 100))
print("中規模（80-100万人）の花火大会のインデックス：", medium_indices)


100万人以上の大規模花火大会の来場者数： [110 130 100 120]
80万人未満の小規模花火大会の来場者数： [70 75]
中規模（80-100万人）の花火大会のインデックス： (array([0, 1, 5, 9]),)


ブールインデックスは、条件式を使って配列の要素を選択する方法です。条件を満たす要素のみを新しい配列として取り出すことができます。`np.where()`関数は、条件を満たす要素のインデックスを返します。

## ユニバーサル関数と配列の変形

NumPyのユニバーサル関数と配列の変形方法を紹介します。


In [25]:
# 来場者数の対数を取る（スケールの調整）
log_visitors = np.log(fireworks_visitors)
print("来場者数の対数：", log_visitors)

# 来場者数を正規化する（0-1の範囲に収める）
normalized_visitors = (fireworks_visitors - np.min(fireworks_visitors)) / (np.max(fireworks_visitors) - np.min(fireworks_visitors))
print("正規化された来場者数：", normalized_visitors)

# 来場者数を降順にソート
sorted_visitors = np.sort(fireworks_visitors)[::-1]
print("降順にソートされた来場者数：", sorted_visitors)

# 来場者数をシャッフル（ランダムサンプリング用）
shuffled_visitors = np.random.permutation(fireworks_visitors)
print("シャッフルされた来場者数：", shuffled_visitors)


来場者数の対数： [4.38202663 4.55387689 4.24849524 4.70048037 4.86753445 4.44265126
 4.60517019 4.31748811 4.78749174 4.49980967]
正規化された来場者数： [0.16666667 0.41666667 0.         0.66666667 1.         0.25
 0.5        0.08333333 0.83333333 0.33333333]
降順にソートされた来場者数： [130 120 110 100  95  90  85  80  75  70]
シャッフルされた来場者数： [110  95  85 120  90  70 130  80  75 100]


- `np.log()`: 要素ごとに自然対数を計算します。
- 正規化：最小値を0、最大値を1にスケーリングします。
- `np.sort()`: 配列を昇順にソートします。`[::-1]`で降順にしています。
- `np.random.permutation()`: 配列の要素をランダムに並べ替えます。

これらの関数を使うことで、データの変換や並べ替えを簡単に行うことができます。

## 実用的な計算例

花火大会のデータを使って、実用的な計算例を示します。


In [26]:
# 全花火大会の総来場者数
total_visitors = np.sum(fireworks_visitors)
print("総来場者数：", total_visitors, "万人")

# 来場者数の増加率（前の大会との比較）
growth_rate = np.diff(fireworks_visitors) / fireworks_visitors[:-1] * 100
print("各大会の来場者数増加率（%）：", growth_rate)

# 来場者数の移動平均（3大会ごと）
moving_average = np.convolve(fireworks_visitors, np.ones(3), 'valid') / 3
print("来場者数の移動平均（3大会ごと）：", moving_average)

# 上位3つの花火大会を選択
top_3 = np.partition(fireworks_visitors, -3)[-3:]
print("上位3つの花火大会の来場者数：", top_3)


総来場者数： 955 万人
各大会の来場者数増加率（%）： [ 18.75       -26.31578947  57.14285714  18.18181818 -34.61538462
  17.64705882 -25.          60.         -25.        ]
来場者数の移動平均（3大会ごと）： [ 81.66666667  91.66666667 103.33333333 108.33333333 105.
  86.66666667  98.33333333  95.        ]
上位3つの花火大会の来場者数： [110 120 130]


- `np.sum()`: 配列の要素の合計を計算します。
- `np.diff()`: 隣接する要素の差を計算します。
- `np.convolve()`: 移動平均を計算します。
- `np.partition()`: 配列の一部を部分的にソートします。

これらの関数を組み合わせることで、より複雑な分析や計算を行うことができます。

## まとめ

このページでは、NumPyの一次元配列について、日本の花火大会データを例に詳しく説明しました。配列の作成方法、基本的な操作と属性、ブールインデックス、ユニバーサル関数、配列の変形など、様々な機能を紹介しました。

これらの操作を使いこなすことで、花火大会の来場者数データを効率的に処理し、分析することができます。例えば、大規模イベントの特定、来場者数の傾向分析、データの正規化による比較など、様々な分析が可能になります。

NumPyの一次元配列は、データ分析の基礎となる重要な概念です。これらの基本を身につけることで、より複雑なデータ分析や、多次元配列を使った高度な分析にも取り組めるようになります。

日常生活でも、イベントの参加者数分析、季節ごとの温度変化の調査、趣味の活動記録の管理など、様々な場面でNumPyの力を活かすことができます。ぜひ、自分の興味のあるデータを使って、NumPyの機能を試してみてください。データを通じて新しい発見をする楽しさを味わえるはずです。

問題1
あなたは、1週間の歩数を記録しています。以下のデータを使って、NumPyを用いて歩数の分析を行ってください。

1. 1週間の歩数データをNumPy配列として作成してください。
2. 1週間の平均歩数を計算してください。
3. 最も歩数が多かった日と最も少なかった日の歩数を表示してください。
4. 10000歩以上歩いた日数を計算してください。
5. 歩数データを昇順にソートして表示してください。


解答例(Pythonコード):


In [27]:
import numpy as np

# 1週間の歩数データ
steps = np.array([8500, 10200, 9800, 7600, 11500, 9300, 12000])

# 1. データの表示
print("1週間の歩数データ:")
print(steps)

# 2. 平均歩数の計算
average_steps = np.mean(steps)
print(f"\n1週間の平均歩数: {average_steps:.0f}歩")

# 3. 最大と最小の歩数
max_steps = np.max(steps)
min_steps = np.min(steps)
print(f"最も歩数が多かった日: {max_steps}歩")
print(f"最も歩数が少なかった日: {min_steps}歩")

# 4. 10000歩以上歩いた日数
days_over_10000 = np.sum(steps >= 10000)
print(f"\n10000歩以上歩いた日数: {days_over_10000}日")

# 5. 歩数データを昇順にソート
sorted_steps = np.sort(steps)
print("\n昇順にソートした歩数データ:")
print(sorted_steps)


1週間の歩数データ:
[ 8500 10200  9800  7600 11500  9300 12000]

1週間の平均歩数: 9843歩
最も歩数が多かった日: 12000歩
最も歩数が少なかった日: 7600歩

10000歩以上歩いた日数: 3日

昇順にソートした歩数データ:
[ 7600  8500  9300  9800 10200 11500 12000]


解説:
この問題では、NumPyを使って1週間の歩数データを分析しています。

1. `np.array()`を使って、歩数データをNumPy配列として作成しています。

2. `np.mean()`関数を使って、配列の平均値を計算しています。これにより、1週間の平均歩数を簡単に求めることができます。

3. `np.max()`と`np.min()`関数を使って、それぞれ最大値と最小値を求めています。これにより、最も歩数が多かった日と少なかった日の歩数を簡単に取得できます。

4. `np.sum()`関数と条件式を組み合わせて、10000歩以上歩いた日数を計算しています。`steps >= 10000`は、各要素が10000以上かどうかを判定し、True/Falseの配列を返します。`np.sum()`はTrue値の数をカウントします。

5. `np.sort()`関数を使って、歩数データを昇順にソートしています。これにより、歩数の分布を視覚的に確認することができます。

このように、NumPyを使うことで、データの基本的な統計処理や操作を簡単に行うことができます。


問題2
あなたは、友達と5回カラオケに行き、それぞれの回で歌った曲数を記録しました。以下のデータを使って、NumPyを用いて曲数の分析を行ってください。

1. 5回分の歌った曲数データをNumPy配列として作成してください。
2. 全てのカラオケで歌った合計曲数を計算してください。
3. 1回あたりの平均曲数を計算してください。
4. 最も多く歌った回と最も少なく歌った回の曲数を表示してください。
5. 10曲以上歌った回数を計算してください。
6. 各回の曲数の差分（前回との差）を計算して表示してください。


解答例(Pythonコード):


In [28]:
import numpy as np

# 5回分の歌った曲数データ
songs = np.array([8, 12, 9, 15, 7])

# 1. データの表示
print("5回分の歌った曲数データ:")
print(songs)

# 2. 合計曲数の計算
total_songs = np.sum(songs)
print(f"\n全てのカラオケで歌った合計曲数: {total_songs}曲")

# 3. 平均曲数の計算
average_songs = np.mean(songs)
print(f"1回あたりの平均曲数: {average_songs:.1f}曲")

# 4. 最大と最小の曲数
max_songs = np.max(songs)
min_songs = np.min(songs)
print(f"最も多く歌った回の曲数: {max_songs}曲")
print(f"最も少なく歌った回の曲数: {min_songs}曲")

# 5. 10曲以上歌った回数
times_over_10 = np.sum(songs >= 10)
print(f"\n10曲以上歌った回数: {times_over_10}回")

# 6. 各回の曲数の差分
diff_songs = np.diff(songs)
print("\n各回の曲数の差分:")
print(diff_songs)


5回分の歌った曲数データ:
[ 8 12  9 15  7]

全てのカラオケで歌った合計曲数: 51曲
1回あたりの平均曲数: 10.2曲
最も多く歌った回の曲数: 15曲
最も少なく歌った回の曲数: 7曲

10曲以上歌った回数: 2回

各回の曲数の差分:
[ 4 -3  6 -8]


解説:
この問題では、NumPyを使ってカラオケで歌った曲数のデータを分析しています。

1. `np.array()`を使って、曲数データをNumPy配列として作成しています。

2. `np.sum()`関数を使って、配列の要素の合計を計算しています。これにより、全てのカラオケで歌った合計曲数を簡単に求めることができます。

3. `np.mean()`関数を使って、配列の平均値を計算しています。これにより、1回あたりの平均曲数を求めることができます。

4. `np.max()`と`np.min()`関数を使って、それぞれ最大値と最小値を求めています。これにより、最も多く歌った回と最も少なく歌った回の曲数を簡単に取得できます。

5. `np.sum()`関数と条件式を組み合わせて、10曲以上歌った回数を計算しています。`songs >= 10`は、各要素が10以上かどうかを判定し、True/Falseの配列を返します。`np.sum()`はTrue値の数をカウントします。

6. `np.diff()`関数を使って、配列の隣接する要素間の差分を計算しています。これにより、各回の曲数の変化を簡単に把握することができます。

このように、NumPyを使うことで、カラオケの曲数データの基本的な統計処理や変化の分析を簡単に行うことができます。これらの分析結果を使って、カラオケの傾向や自分の歌唱パターンなどを理解することができます。