

# NumPyで日本の観光データを分析しよう！（一次元配列編）

## はじめに

こんにちは！このページでは、NumPyの一次元配列について詳しく説明します。NumPyは数値計算に特化したPythonライブラリで、大量のデータを効率的に処理できます。日本の観光データを例に、NumPyの一次元配列の使い方を学んでいきましょう。

## NumPyのインポートと基本的な配列の作成

まず、NumPyライブラリをインポートし、基本的な配列を作成します。


In [1]:
import numpy as np

# 東京の月別観光客数（単位：万人）
tokyo_tourists = np.array([150, 130, 200, 180, 210, 190, 240, 260, 220, 170, 160, 180])
print("東京の月別観光客数：")
print(tokyo_tourists)


東京の月別観光客数：
[150 130 200 180 210 190 240 260 220 170 160 180]



ここでは、`np.array()`関数を使って、リストからNumPy配列を作成しています。この配列は東京の1月から12月までの月別観光客数を表しています。NumPy配列は通常のPythonリストよりも効率的にデータを扱えます。

## 様々な配列の作成方法

NumPyでは、異なる方法で配列を作成できます。これらの方法は、データ分析や科学計算で頻繁に使用されます。

### ゼロで初期化された配列


In [2]:
zero_array = np.zeros(5)
print("ゼロで初期化された配列:", zero_array)


ゼロで初期化された配列: [0. 0. 0. 0. 0.]



`np.zeros()`関数は、指定した数の要素を持つ配列を作成し、全ての要素を0で初期化します。これは、データの初期化や、後でデータを埋めるための空の配列を作成する際に便利です。

### 1で初期化された配列


In [3]:
one_array = np.ones(5)
print("1で初期化された配列:", one_array)


1で初期化された配列: [1. 1. 1. 1. 1.]


`np.ones()`関数は、全ての要素が1の配列を作成します。これは、乗算の単位元として使ったり、マスク配列として使ったりする場合に便利です。

### 特定の値で初期化された配列


In [4]:
value_array = np.full(5, 7)
print("7で初期化された配列:", value_array)


7で初期化された配列: [7 7 7 7 7]


`np.full()`関数は、指定した値（この場合は7）で初期化された配列を作成します。特定の値で配列を初期化したい場合に使用します。

### 等間隔の数列


In [5]:
range_array = np.arange(0, 10, 2)
print("0から10未満までの偶数配列:", range_array)


0から10未満までの偶数配列: [0 2 4 6 8]


`np.arange()`関数は、指定した範囲と間隔で数列を作成します。この例では、0から10未満までの偶数を生成しています。これは、インデックスやx軸の値を生成する際によく使用されます。

### 指定した範囲を等分割した配列


In [6]:
linspace_array = np.linspace(0, 1, 5)
print("0から1までを5等分した配列:", linspace_array)


0から1までを5等分した配列: [0.   0.25 0.5  0.75 1.  ]


`np.linspace()`関数は、指定した範囲を等間隔に分割した配列を作成します。この例では、0から1までの範囲を5等分しています。これは、グラフの軸を等間隔に分割したり、補間のためのポイントを生成したりする際に便利です。

## 配列の基本的な属性

NumPy配列には、様々な属性があります。これらの属性を使うことで、配列の特性を簡単に把握できます。


In [7]:
print("月の数：", tokyo_tourists.size)
print("配列の次元：", tokyo_tourists.ndim)
print("配列の形状：", tokyo_tourists.shape)
print("データの型：", tokyo_tourists.dtype)


月の数： 12
配列の次元： 1
配列の形状： (12,)
データの型： int64


- `size`属性は配列の要素数を返します。この場合、12ヶ月分のデータなので12が返されます。
- `ndim`属性は配列の次元数を返します。一次元配列なので1が返されます。
- `shape`属性は配列の形状をタプルで返します。一次元配列の場合、要素数のみが含まれます。
- `dtype`属性はデータの型を返します。整数や浮動小数点数など、配列内のデータ型を知ることができます。

これらの属性を使うことで、配列の基本的な情報を簡単に取得でき、データの特性を把握したり、後続の処理を適切に設計したりするのに役立ちます。

## 基本的な統計量の計算

NumPyを使って、簡単に統計量を計算できます。これらの統計量は、データの特徴を理解する上で非常に重要です。

### 最大値と最小値


In [8]:
print("最大の観光客数：", np.max(tokyo_tourists), "万人")
print("最小の観光客数：", np.min(tokyo_tourists), "万人")
print("最大値のインデックス：", np.argmax(tokyo_tourists))
print("最小値のインデックス：", np.argmin(tokyo_tourists))


最大の観光客数： 260 万人
最小の観光客数： 130 万人
最大値のインデックス： 7
最小値のインデックス： 1


`np.max()`と`np.min()`関数は、それぞれ配列の最大値と最小値を返します。これにより、観光客数のピークと最も少ない月を簡単に特定できます。
`np.argmax()`と`np.argmin()`関数は、最大値と最小値のインデックスを返します。これにより、どの月が最も観光客が多いか（または少ないか）を知ることができます。

### 平均値と中央値


In [9]:
print("平均観光客数：", np.mean(tokyo_tourists), "万人")
print("中央値：", np.median(tokyo_tourists), "万人")


平均観光客数： 190.83333333333334 万人
中央値： 185.0 万人


`np.mean()`関数は平均値を、`np.median()`関数は中央値を計算します。平均値は全体の傾向を、中央値は外れ値の影響を受けにくい代表値を示します。これらを比較することで、データの分布の特徴を把握できます。

### 標準偏差


In [10]:
print("標準偏差：", np.std(tokyo_tourists), "万人")


標準偏差： 35.93010189551683 万人


`np.std()`関数は標準偏差を計算します。標準偏差は、データのばらつきを示す指標です。これにより、観光客数の変動の大きさを数値化できます。

## ブールインデックス

ブールインデックスを使用すると、条件に基づいて配列の要素を選択できます。これは、特定の条件を満たすデータだけを抽出する際に非常に便利です。


In [15]:
high_season = tokyo_tourists[tokyo_tourists >= 200]
print("200万人以上の月の観光客数：", high_season)

low_season = tokyo_tourists[tokyo_tourists < 150]
print("150万人未満の月の観光客数：", low_season)

# 条件に合う要素のインデックスを取得
summer_indices = np.where((tokyo_tourists >= 200) & (tokyo_tourists <= 250))
print("200-250万人の月のインデックス：", summer_indices)


200万人以上の月の観光客数： [200 210 240 260 220]
150万人未満の月の観光客数： [130]
200-250万人の月のインデックス： (array([2, 4, 6, 8]),)


ブールインデックスでは、条件式を角括弧内に記述することで、その条件を満たす要素だけを抽出できます。
`np.where()`関数は、条件を満たす要素のインデックスを返します。これにより、特定の条件を満たす月を特定できます。

## 配列の変形とソート

配列を変形したりソートしたりする操作は、データの分析や可視化の準備段階で頻繁に使用されます。

### 降順ソート


In [12]:
sorted_tourists = np.sort(tokyo_tourists)[::-1]
print("降順にソートされた観光客数：", sorted_tourists)


降順にソートされた観光客数： [260 240 220 210 200 190 180 180 170 160 150 130]


`np.sort()`関数でソートし、`[::-1]`でリバースすることで、降順にソートできます。これにより、観光客数の多い順に並べ替えることができます。

### 配列のシャッフル


In [13]:
shuffled_tourists = np.random.permutation(tokyo_tourists)
print("シャッフルされた観光客数：", shuffled_tourists)


シャッフルされた観光客数： [150 170 260 190 160 240 180 130 220 200 180 210]


`np.random.permutation()`関数を使うと、配列の要素をランダムに並べ替えることができます。これは、データのランダムサンプリングや、機械学習のデータセット作成時などに使用されます。

## ユニバーサル関数

NumPyのユニバーサル関数は、配列全体に対して要素ごとに適用される関数です。これらの関数を使うと、複雑な計算も簡単に行えます。


In [14]:
# 観光客数の対数を取る
log_tourists = np.log(tokyo_tourists)
print("観光客数の対数：", log_tourists)

# 観光客数を正規化する（0-1の範囲に収める）
normalized_tourists = (tokyo_tourists - np.min(tokyo_tourists)) / (np.max(tokyo_tourists) - np.min(tokyo_tourists))
print("正規化された観光客数：", normalized_tourists)

# 観光客数の増加率（前月比）
growth_rate = np.diff(tokyo_tourists) / tokyo_tourists[:-1] * 100
print("月ごとの観光客数増加率（%）：", growth_rate)

# 観光客数の累積和
cumulative_tourists = np.cumsum(tokyo_tourists)
print("累積観光客数：", cumulative_tourists)


観光客数の対数： [5.01063529 4.86753445 5.29831737 5.19295685 5.34710753 5.24702407
 5.48063892 5.56068163 5.39362755 5.13579844 5.07517382 5.19295685]
正規化された観光客数： [0.15384615 0.         0.53846154 0.38461538 0.61538462 0.46153846
 0.84615385 1.         0.69230769 0.30769231 0.23076923 0.38461538]
月ごとの観光客数増加率（%）： [-13.33333333  53.84615385 -10.          16.66666667  -9.52380952
  26.31578947   8.33333333 -15.38461538 -22.72727273  -5.88235294
  12.5       ]
累積観光客数： [ 150  280  480  660  870 1060 1300 1560 1780 1950 2110 2290]


これらの関数を使うことで、データの変換、正規化、増加率の計算、累積和の計算などを簡単に行うことができます。

## まとめ

このページでは、NumPyの一次元配列の基本的な操作方法を詳しく説明しました。配列の作成、属性の取得、統計量の計算、条件による要素の選択、配列の変形、ユニバーサル関数の使用など、様々な機能を紹介しました。

これらの操作を使いこなすことで、観光データなどの数値データを効率的に処理し、分析することができます。例えば：

1. 観光客数のピークシーズンと閑散期の特定
2. 年間の観光客数の傾向分析
3. 特定の条件（例：200万人以上）を満たす月の抽出
4. 観光客数の増加率や累積数の計算

など、様々な分析が可能になります。

NumPyの一次元配列は、データ分析の基礎となる重要な概念です。これらの基本を身につけることで、より複雑なデータ分析や、多次元配列を使った高度な分析にも取り組めるようになります。

日常生活でも、家計簿の分析、運動記録の管理、趣味の統計など、様々な場面でNumPyの力を活かすことができます。ぜひ、自分の興味のあるデータを使って、NumPyの機能を試してみてください。データを通じて新しい発見をする楽しさを味わえるはずです。