# プログラミング体験ワークショップ 📊

私たちの身の回りには、データがあふれています。スマートフォンでのメッセージのやり取り、お気に入りの音楽ストリーミング、スマートウォッチが記録する心拍数や歩数、スーパーでの購入履歴、そしてテレビで見る天気予報やニュースの統計情報まで、すべてがデータです。データサイエンスとは、このような大量のデータから、統計学やプログラミングなどの技術を使って、役立つ知識や洞察を引き出す学問分野のことです。データを分析し、未来を予測したり、意思決定に役立てたりする、現代社会でとても重要なスキルです。

データの可視化は、データサイエンスの基礎的かつ重要な技術です。数字の羅列だけでは分かりにくいデータも、グラフで表せられれば、その裏に隠された意味や背景を理解しやすくなります。たとえば、次のような疑問を抱いたとします。

 - 私の一日の生活パターンって、時間帯でどんな特徴があるのかな？
 - 世界で一番人口が多い国はどこだろう？
 - 日本の人口って、昔と比べてどう変わったんだろう？

棒グラフや円グラフを作成できれば、これらの疑問を解決することができます。また、ここで得られた知見に基づいて別のデータを引用して解析すれば、さらに理解を深めることにもつながります。


本日は、このデータの可視化を実現するプログラミングを体験してみましょう。

## 今日の目標
- Pythonでデータを可視化（見える化）してみよう
- 実際の統計データを使って自分だけのグラフを作成しよう



---
## 📊 Step 1: まずはシンプルなグラフから始めよう

あなたの一週間の勉強時間を例に、グラフを作ってみましょう。

### 📅 データ例：一週間の勉強時間

| 月曜日 | 火曜日 | 水曜日 | 木曜日 | 金曜日 |
|-------|-------|-------|-------|-------|
| 5時間  | 8時間  | 6時間  | 9時間  | 4時間  |

このデータを使って、**折れ線グラフ**を作成してみましょう！

こちらは折れ線グラフを作成するコードです。試しに実行してみましょう。

In [None]:
##############
# おまじない #
##############
# pythonでグラフを書くための道具を読み込む
import matplotlib.pyplot as plt


##############
# データ入力 #
##############
# 曜日（x軸）を入力する
x = ['Mon.', 'Tue.', 'Wed.', 'Thu.', 'Fri.']
# 勉強時間（y軸）を入力する
y = [5, 8, 6, 9, 4]


##############
# グラフ設定 #
##############
# 折れ線グラフを作成する
plt.plot(x, y)


##############
# グラフ描画 #
##############
# グラフの名前をつける
plt.title('Weekly study time')
# x軸の名前をつける
plt.xlabel('Day')
# y軸の名前をつける
plt.ylabel('Time [h]')
# グリッド線（罫線）を引く
plt.grid(True)
# グラフを表示する
plt.show()

こちらのコードでは、


1.   グラフをつくるための道具を読み込み
2.   データ入力
3.   表示するグラフを設定
4.   グラフ描画情報（タイトルや軸の名前）を設定


で構成されています。



データ入力についてもう少し詳しく見てみましょう。勉強時間のデータは以下の形式で入力しています。


```
#####################################
# 📊 データを入力しよう
#####################################
# 曜日（横軸）
days = ['Mon.', 'Tue.', 'Wed.', 'Thu.', 'Fri.']
# 勉強時間（縦軸）
study_hours = [5, 8, 6, 9, 4]
```

daysという部分に曜日を、study_hoursという部分に勉強時間をそれぞれ入力できます。カンマでそれぞれ区切られていて、左から順番に1,2,3,...という番号（インデックス）が与えられています。そのため，一番目が月曜日のデータを，二番目が火曜日のデータをそれぞれ表します。

---
## Step1: 課題

こちらは、折れ線グラフを見やすく加工したコードです。それでは、study_hoursの[5, 8, 6, 9, 4]の数字を、あなたの実際の勉強時間に合わせて変更してみましょう。たとえば、月曜日に3時間、木曜日に7時間勉強した場合は、study_hoursの一番目と四番目の数字を3と7に書き換えましょう。

In [None]:
#####################################
# 🔧 必要なツールを準備しよう
#####################################
import matplotlib.pyplot as plt

#####################################
# 📊 データを入力しよう
#####################################
# 曜日（横軸）
days = ['Mon.', 'Tue.', 'Wed.', 'Thu.', 'Fri.']

# 勉強時間（縦軸）
# 🌟ここを書き換えましょう
study_hours = [5, 8, 6, 9, 4]

#####################################
# 🎨 グラフを作成
#####################################
plt.figure(figsize=(10, 6))  # グラフのサイズを設定
plt.plot(days, study_hours, marker='o', linewidth=2, markersize=12, color='#4CAF50')

# 🏷️ グラフに情報を追加
plt.title('Weekly study time', fontsize=20, fontweight='bold', pad=20)
plt.xlabel('Day', fontsize=20)
plt.ylabel('Time [h]', fontsize=20)
plt.grid(True, alpha=0.3)  # 薄いグリッド線

# 📊 各点に数値を表示
for i, hours in enumerate(study_hours):
    plt.annotate(f'{hours}h', (days[i], hours), textcoords="offset points",
                xytext=(0,20), ha='center', fontsize=20, fontweight='bold')

plt.tight_layout()  # レイアウトを整える
plt.show()

#####################################
# 🎶 おまけ～データ分析～
#####################################
# sum(study_hours)でstudy_hoursの値をすべて加算する
print(f"💡 一週間の合計勉強時間: {sum(study_hours)}時間")
# len(study_hours)でデータを入力した数を取得する
print(f"📊 平均勉強時間: {sum(study_hours)/len(study_hours):.1f}時間")

---
## 🔄 Step2: グラフの種類を変えてみよう

同じデータでも、グラフの形式が変わると見え方が変わります。たとえば、折れ線グラフは勉強時間の推移が一目瞭然です。それでは、勉強時間の長さをもっとわかりやすくしたいとします。このとき有効なグラフとして、**棒グラフ**が挙げられます。こちらは棒グラフを作成するコードです。

In [None]:
##############
# おまじない #
##############

# pythonでグラフを書くための道具を読み込む
import matplotlib.pyplot as plt


##############
# データ入力 #
##############

# 曜日（x軸）を入力する
x = ['Mon.', 'Tue.', 'Wed.', 'Thu.', 'Fri.']
# 勉強時間（y軸）を入力する
y = [5, 8, 6, 9, 4]


##############
# グラフ設定 #
##############

# 棒グラフを作成する（"plt.plot"から"plt.bar"に変わった）
plt.bar(x, y)


##############
# グラフ描画 #
##############

# グラフの名前をつける
plt.title('Weekly study time')
# x軸の名前をつける
plt.xlabel('Day')
# y軸の名前をつける
plt.ylabel('Time [h]')
# グリッド線（罫線）を引く
plt.grid(True)
# グラフを表示する
plt.show()

先ほどのコードの```plt.plot(x, y)```を```plt.bar(x, y)```に変えただけで、折れ線グラフを棒グラフに変更できました。このようにpythonでは、同じデータでも描画方法の部分だけを変更するだけで簡単にグラフを切り替えられます。実際に、棒グラフを見やすくしたコードはこちらです。

In [None]:
#####################################
# 🔧 必要なツールを準備しよう
#####################################
import matplotlib.pyplot as plt


#####################################
# 📊 データを入力しよう（先ほどと同じ）
#####################################
# 曜日（横軸）
days = ['Mon.', 'Tue.', 'Wed.', 'Thu.', 'Fri.']
# 勉強時間（縦軸）
study_hours = [5, 8, 6, 9, 4]


#####################################
# 🎨 グラフを作成（plt.plot → plt.bar に変更するだけ！）
#####################################
plt.figure(figsize=(10, 6))

# 🌟 ここが変わりました
bars = plt.bar(days, study_hours, color=['#FF6B6B', '#4ECDC4', '#45B7D1', '#96CEB4', '#FFEAA7'])

# 🏷️ グラフ情報
plt.title('Weekly study time', fontsize=20, fontweight='bold', pad=20)
plt.xlabel('Day', fontsize=20)
plt.ylabel('Time [h]', fontsize=20)
plt.grid(axis='y', alpha=0.3)  # 横線のみグリッド


# 📊 棒の上に数値を表示
for i, (day, hours) in enumerate(zip(days, study_hours)):
    plt.text(day, hours + 0.1, f'{hours}h', ha='center', va='bottom',
             fontsize=20, fontweight='bold')

plt.tight_layout()
plt.show()

#####################################
# 🎶 おまけ～データ分析～
#####################################
# max(study_hours)で　最大値を取得
# study_hours.index(max(study_hours))で　最大値のインデックスを取得
# days[study_hours.index(max(study_hours))]で　最大値のインデックスに該当するdaysの値を取得
max_day = days[study_hours.index(max(study_hours))]
min_day = days[study_hours.index(min(study_hours))]
print(f"🏆 最も勉強した日: {max_day} ({max(study_hours)} h)")
print(f"😴 最も勉強が少なかった日: {min_day} ({min(study_hours)} h)")

では今度は、一週間のうち各曜日の勉強時間の割合を知りたいとします。このとき、有効なグラフとして、**円グラフ**が挙げられます。こちらは円グラフを作成するコードです。

In [None]:
##############
# おまじない #
##############
# pythonでグラフを書くための道具を読み込む
import matplotlib.pyplot as plt


##############
# データ入力 #
##############
# 曜日（x軸）を入力する
x = ['Mon.', 'Tue.', 'Wed.', 'Thu.', 'Fri.']
# 勉強時間（y軸）を入力する
y = [5, 8, 6, 9, 4]


##############
# グラフ設定 #
##############
# 円グラフを作成する（"plt.plot(x, y)"から"plt.pie(y, labels=x)"に変わった）
plt.pie(y, labels=x)


##############
# グラフ描画 #
##############
# グラフの名前をつける
plt.title('Weekly study time')
# グラフを表示する
plt.show()

先ほどのコードの```plt.plot(x, y)```を```plt.pie(y, labels=x)```に変えただけで、折れ線グラフを円グラフに変更できました。火曜日と木曜日に多く勉強していたことがわかります。こちらの内容をさらに見やすくしたコードはこちらです。

In [None]:
#####################################
# 🔧 必要なツールを準備しよう
#####################################
import matplotlib.pyplot as plt


#####################################
# 📊 データを入力しよう（先ほどと同じ）
#####################################
# 曜日（横軸）
days = ['Mon.', 'Tue.', 'Wed.', 'Thu.', 'Fri.']
# 勉強時間（縦軸）
study_hours = [5, 8, 6, 9, 4]

#####################################
# 🎨 グラフを作成（plt.plot → plt.pie に変更するだけ！）
#####################################
plt.figure(figsize=(10, 8))
colors = ['#FF6B6B', '#4ECDC4', '#45B7D1', '#96CEB4', '#FFEAA7']

wedges, texts, autotexts = plt.pie(study_hours, labels=days, colors=colors,
                                  autopct='%1.1f%%',
                                  startangle=90, textprops={'fontsize': 12})

# 🏷️ タイトル
plt.title('Weekly study time', fontsize=16, fontweight='bold', pad=20)

# 📊 凡例を追加
plt.legend(wedges, [f'{day}: {hour} h' for day, hour in zip(days, study_hours)],
          loc="center left", bbox_to_anchor=(1, 0, 0.5, 1))

plt.axis('equal')  # 円を正円にする
plt.tight_layout()
plt.show()

---
## Step2: 課題

こちらは、勉強時間を表す棒グラフを睡眠時間のグラフ表示用に書き換えたものです。それでは、sleep_hoursの[5, 8, 6, 9, 4]の数字を、あなたの実際の睡眠時間に合わせて変更してみましょう。さらに、グラフのタイトルも変更してみましょう。ただし日本語を表示できないため、英語で表記してください。

In [None]:
#####################################
# 🔧 必要なツールを準備しよう
#####################################
import matplotlib.pyplot as plt


#####################################
# 📊 データを入力しよう
#####################################
# 曜日（横軸）
days = ['Mon.', 'Tue.', 'Wed.', 'Thu.', 'Fri.']
# 勉強時間（縦軸）🌟 ここに入力しましょう
sleep_hours = [5, 8, 6, 9, 4]


#####################################
# 🎨 グラフを作成
#####################################
plt.figure(figsize=(10, 6))
bars = plt.bar(days, study_hours, color=['#FF6B6B', '#4ECDC4', '#45B7D1', '#96CEB4', '#FFEAA7'])

# 🏷️ グラフ情報
plt.title('Weekly study time', fontsize=20, fontweight='bold', pad=20) #🌟 ここを変更しましょう
plt.xlabel('Day', fontsize=20)
plt.ylabel('Time [h]', fontsize=20)
plt.grid(axis='y', alpha=0.3)  # 横線のみグリッド


# 📊 棒の上に数値を表示
for i, (day, hours) in enumerate(zip(days, study_hours)):
    plt.text(day, hours + 0.1, f'{hours}h', ha='center', va='bottom',
             fontsize=20, fontweight='bold')

plt.tight_layout()
plt.show()

#####################################
# 🎶 おまけ～データ分析～
#####################################
max_day = days[study_hours.index(max(study_hours))]
print(f"💤 最もよく寝た日: {max_day} ({max(study_hours)} h)")

---

## 🌍 Step 3: 実際のデータでグラフを作成しよう

今度は、**実際の統計データ**を使ってグラフを作ってみましょう。今回は、Gapminder Foundation提供の世界各国の社会・経済・健康に関するデータを使います。こちらの統計データの内訳は以下の通りです。

### 📋 データの内容

| 項目名 | 説明 |
| --- | --- |
| `country`   | 国名 |
| `continent` | 所属大陸 |
| `year`      | 年（1952～2007、5年おき） |
| `lifeExp`   | 平均寿命 |
| `pop`       | 総人口 |
| `gdpPercap` | 1人当たりGDP（ドル）|

2007年の人口データを読み込んで、上位10位まで国の人口を棒グラフで表示しえみましょう。

In [None]:
##############
# おまじない #
##############

# データを読み込むための道具を読み込む
import pandas as pd
# pythonでグラフを書くための道具を読み込む
import matplotlib.pyplot as plt
# Gapminderの統計データを読み込む
df = pd.read_csv('https://raw.githubusercontent.com/plotly/datasets/master/gapminderDataFiveYear.csv')


##############
# データ入力 #
##############

# 2007年の人口データで 上位10番目までのデータだけ取り出す
df_year = df[df['year'] == 2007].sort_values(by='pop', ascending=False).head(10)
# 国名（x軸）を設定する
x = df_year['country']
# 人口（y軸）を設定する
y =  df_year['pop'] / 1e6


##############
# グラフ設定 #
##############

# 棒グラフを作成する
plt.bar(x,y)


##############
# グラフ描画 #
##############

# グラフの名前を設定する
plt.title('Country population in 2007')
# y軸の名前を設定する
plt.ylabel('Population [million]')
# 90度回転させた状態でx軸を表記する
plt.xticks(rotation=90)
# 横方向に罫線を引く
plt.grid(axis='y')
# グラフを表示する
plt.show()

一位が中国、二位がインド、三位がアメリカであることが示されました。また、上位二つの人口がほかの国よりも３倍以上であることも分かります。

こちらのデータの読み込み方法について少しだけ説明します．

```
df_year = df[df['year'] == 2007].sort_values(by='pop', ascending=False).head(10)
```

まず，```df['year']```では，項目名"year"に関するデータを取り出しています．
このとき，```df['year'] == 2007```で，2007年に取り出す範囲を限定しています．
これを```df['year'] == 2002```とすれば，2002年のデータを取り出せます．

つづいて，```sort_values(by='pop', ascending=False)```では，大きい順に国ごとのデータを取り出します．このとき，```.head(10)```で取り出す個数をしています．そのため，上位20か国の人口を表示したいときは，```sort_values(by='pop', ascending=False).head(20)```と変更します．

こちらのグラフを見やすくコードはこちらです。

In [None]:
#####################################
# 🔧 必要なツールを準備しよう
#####################################
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

#####################################
# 📊 世界の統計データを読み込もう
#####################################
# 外部サーバからデータを取得
df = pd.read_csv('https://raw.githubusercontent.com/plotly/datasets/master/gapminderDataFiveYear.csv')
# 📈 2007年の人口データで上位10カ国を抽出
df_2007 = df[df['year'] == 2007].sort_values(by='pop', ascending=False).head(10)


#####################################
# 🎨 グラフを作成
#####################################
# グラフの大木を設定
plt.figure(figsize=(12, 8))
# 色を設定
colors = plt.cm.Set3(np.linspace(0, 1, 10))

# 棒グラフを作成
bars = plt.bar(df_2007['country'], df_2007['pop'] / 1e6, color=colors)

# 🏷️ グラフの装飾
plt.title('World population in 2007', fontsize=20, fontweight='bold', pad=20)
plt.xlabel('Country', fontsize=20)
plt.ylabel('Population [million]', fontsize=20)
plt.xticks(rotation=45, ha='right')  # 国名を斜めに表示
plt.grid(axis='y', alpha=0.3)

# 📊 各棒に人口を表示
for i, (country, pop) in enumerate(zip(df_2007['country'], df_2007['pop'])):
    plt.text(i, pop/1e6 + 20, f'{pop/1e6:.0f}M', ha='center', va='bottom',
             fontsize=20, fontweight='bold')

plt.tight_layout()
plt.show()

#####################################
# 🎶 おまけ～データ分析～
#####################################
# 📈 トップ3を発表
print("\n🏆 人口ランキング TOP3:")
for i, (_, row) in enumerate(df_2007.head(3).iterrows()):
    medal = ['🥇', '🥈', '🥉'][i]
    print(f"{medal} {i+1}位: {row['country']} - {row['pop']/1e6:.0f}百万人")

では今度は，1952年から2007年までの日本の人口を調べてみましょう。
人口の推移を確認したいので、今回は折れ線グラフを作成します。

先ほどのデータは世界全体の2007年のデータだけしか扱わないため、日本の歴代の人口データを取得するように書き換えましょう。```df_country = df[df['country'] == 'Japan']```とすれば，日本のデータだけ取り出します．もし，```df_country = df[df['country'] == 'Canada']```に変更すれば，カナダの人口データに切り替えられます．

こちらは、日本の人口推移を表す折れ線グラフです。

In [None]:
#####################################
# 🔧 必要なツールを準備しよう
#####################################
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

#####################################
# 📊 世界の統計データを読み込もう
#####################################
# 外部サーバからデータを取得
df = pd.read_csv('https://raw.githubusercontent.com/plotly/datasets/master/gapminderDataFiveYear.csv')
df_japan = df[df['country'] == 'Japan'] #🌟 ここが変わりました


#####################################
# 🎨 グラフを作成
#####################################
plt.figure(figsize=(12, 8))

# 折れ線グラフ　🌟 ここが変わりました
plt.plot(df_japan['year'], df_japan['pop'] / 1e6,
         marker='o', linewidth=3, markersize=8, color='#e74c3c')

# 🏷️ グラフの装飾
plt.title('Population in Japan (1952-2007)', fontsize=20, fontweight='bold', pad=20)
plt.xlabel('Year', fontsize=20)
plt.ylabel('Population [million]', fontsize=20)
plt.grid(True, alpha=0.3)

# 📊 各点に数値を表示
for year, pop in zip(df_japan['year'], df_japan['pop']):
    plt.annotate(f'{pop/1e6:.0f}M', (year, pop/1e6),
                textcoords="offset points", xytext=(0,20),
                ha='center', fontsize=15)

# 🎯 特別なポイントをハイライト
max_pop_year = df_japan.loc[df_japan['pop'].idxmax(), 'year']
max_pop_value = df_japan['pop'].max() / 1e6
plt.scatter(max_pop_year, max_pop_value, color='gold', s=200, zorder=5)
plt.annotate(f'{max_pop_year} / \n{max_pop_value:.0f} million',
            (max_pop_year, max_pop_value),
            xytext=(30, 30), textcoords='offset points',
            bbox=dict(boxstyle='round,pad=0.5', fc='yellow', alpha=0.7),
            arrowprops=dict(arrowstyle='->', connectionstyle='arc3,rad=0'))

plt.tight_layout()
plt.show()


#####################################
# 🎶 おまけ～データ分析～
#####################################
growth_rate = ((df_japan['pop'].iloc[-1] - df_japan['pop'].iloc[0]) / df_japan['pop'].iloc[0]) * 100
print(f"📈 1952年から2007年の人口増加率: {growth_rate:.1f}%")
print(f"🏁 2007年の日本の人口: {df_japan['pop'].iloc[-1]/1e6:.1f}百万人")

1980年ごろまでは一定の増加率を記録していますが、それ以降は鈍化していることがわかります。データをグラフに書き起こすことができれば、数字だけではわかりにくい内容も直感的な理解ができるようになります。

データサイエンスでは、「データを解析する」「データを表示する」という処理だけでなく、「データの中身を理解する」ことも求められます。たとえば、先ほどのグラフで人口の増加が鈍化した原因は何でしょうか。「婚姻数の減少と出生率の低下」と考えた人は、婚姻数と出生数のグラフを作成してその傾向を確認してみましょう。「高度経済成長期における医療技術の発展」と考えた人は、平均寿命や医療費のグラフを作成してみましょう。ほかにも、ライフスタイルの変化や経済に関する書籍を参考にその仮定を裏付けてみるのもよい案です。

是非とも、目的とするのではなく技術として、プログラミングを扱えるようになりましょう。

---
## Step3: 課題

**カナダ**の人口推移を表す**折れ線グラフ**を作成してみましょう．そして、日本のグラフと比較して同じ部分と異なる部分を調べてみましょう。そして、その原因が何か、どうすれば検証できるか考えてみましょう。

### 💡 変更点
1. 国名を「Japan」から「Canada」に変更
2. タイトルを修正

In [None]:
#####################################
# 🔧 必要なツールを準備しよう
#####################################
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

#####################################
# 📊 世界の統計データを読み込もう
#####################################
# 外部サーバからデータを取得
df = pd.read_csv('https://raw.githubusercontent.com/plotly/datasets/master/gapminderDataFiveYear.csv')
df_canada = df[df['country'] == 'Japan'] #🌟 ここが変わります


#####################################
# 🎨 グラフを作成
#####################################
plt.figure(figsize=(12, 8))

# 折れ線グラフ
plt.plot(df_canada['year'], df_canada['pop'] / 1e6,
         marker='o', linewidth=3, markersize=8, color='#e74c3c')

# 🏷️ グラフの装飾
plt.title('Population in Japan (1952-2007)', fontsize=20, fontweight='bold', pad=20) #🌟 ここが変わります
plt.xlabel('Year', fontsize=20)
plt.ylabel('Population [million]', fontsize=20)
plt.grid(True, alpha=0.3)

# 📊 各点に数値を表示
for year, pop in zip(df_canada['year'], df_canada['pop']):
    plt.annotate(f'{pop/1e6:.0f}M', (year, pop/1e6),
                textcoords="offset points", xytext=(0,20),
                ha='center', fontsize=15)

# 🎯 特別なポイントをハイライト
max_pop_year = df_canada.loc[df_canada['pop'].idxmax(), 'year']
max_pop_value = df_canada['pop'].max() / 1e6
plt.scatter(max_pop_year, max_pop_value, color='gold', s=200, zorder=5)
plt.annotate(f'{max_pop_year} / \n{max_pop_value:.0f} million',
            (max_pop_year, max_pop_value),
            xytext=(30, 30), textcoords='offset points',
            bbox=dict(boxstyle='round,pad=0.5', fc='yellow', alpha=0.7),
            arrowprops=dict(arrowstyle='->', connectionstyle='arc3,rad=0'))

plt.tight_layout()
plt.show()


#####################################
# 🎶 おまけ～データ分析～
#####################################
growth_rate = ((df_canada['pop'].iloc[-1] - df_canada['pop'].iloc[0]) / df_canada['pop'].iloc[0]) * 100
print(f"📈 1952年から2007年の人口増加率: {growth_rate:.1f}%")
print(f"🏁 2007年のカナダの人口: {df_canada['pop'].iloc[-1]/1e6:.1f}百万人")

---

## 🚀 おまけ1: 複数国の比較グラフを作ろう

ここからは、興味がある学生向けの発展課題です！
こちらは、日本、アメリカ、中国の人口推移を**一つのグラフ**で比較するコードです。

①```countries```を変更して、ほかの国のデータも参照してみましょう。そして、一億人程度の国と比較して、日本の人口推移と比較してみましょう。

②```country_data['pop'] / 1e6```を```gdpPercap```に変更して、一人当たりのGDPの推移を表示してみましょう。

In [None]:
#####################################
# 🔧 必要なツールを準備しよう
#####################################
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

#####################################
# 📊 世界の統計データを読み込もう
#####################################
# 外部サーバからデータを取得
df = pd.read_csv('https://raw.githubusercontent.com/plotly/datasets/master/gapminderDataFiveYear.csv')

# 🌏 複数国データの抽出
countries = ['Japan', 'United States', 'China'] #🌟 ここが変わります①
colors = ['#e74c3c', '#3498db', '#f39c12']  # 日本:赤、米国:青、中国:オレンジ
markers = ['o', 's', '^']  # 異なるマーカー


#####################################
# 🎨 グラフを作成
#####################################
plt.figure(figsize=(14, 8))

# 各国のデータをプロット
for i, country in enumerate(countries):
    country_data = df[df['country'] == country]
    plt.plot(country_data['year'], country_data['pop'] / 1e6, #🌟 ここが変わります②
             marker=markers[i], linewidth=3, markersize=8,
             color=colors[i], label=country, alpha=0.8)

# 🏷️ グラフの装飾
plt.title('Population (1952-2007)',
          fontsize=20, fontweight='bold', pad=20)
plt.xlabel('Year', fontsize=20)
plt.ylabel('Population [million]', fontsize=20)
plt.legend(fontsize=20, loc='upper left')
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

#####################################
# 🎶 おまけ～データ分析～
#####################################
print("データに収録されている国一覧")
print(df['country'].unique())

## 🚀 おまけ2: 散布図を作ろう

国の豊かさと健康の関係について調べてみましょう。今回は、**1人当たりGDP**(GDP Per Capita)と**平均寿命**(Life Expectancy)を評価軸として扱います。これらの分布を分かりやすく表記するグラフとして散布図が挙げられます。散布図では、異なるデータをx軸とy軸として点を描画して、国同士の対応関係を相対的に可視化できます。

こちらのコードでは、x軸に一人当たりのGDPを、y軸に平均寿命を与えた分布図を作成します。今回、大陸別に色を変更しています。また、その人口に応じて、点の大きさを変更しています。さらに、いくつかの国をピックアップして表示しています。


In [None]:
#####################################
# 🔧 必要なツールを準備しよう
#####################################
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

#####################################
# 📊 世界の統計データを読み込もう
#####################################
# 外部サーバからデータを取得
df = pd.read_csv('https://raw.githubusercontent.com/plotly/datasets/master/gapminderDataFiveYear.csv')

#####################################
# 🎨 グラフを作成
#####################################
# 📊 2007年のデータで散布図作成
df_scatter = df[df['year'] == 2007]

# 大陸別の色分け
continent_colors = {
    'Asia': '#e74c3c',
    'Europe': '#3498db',
    'Africa': '#f39c12',
    'Americas': '#2ecc71',
    'Oceania': '#9b59b6'
}

# グラフの大きさ
plt.figure(figsize=(14, 10))

# 大陸別に散布図をプロット
for continent in df_scatter['continent'].unique():
    continent_data = df_scatter[df_scatter['continent'] == continent]
    plt.scatter(continent_data['gdpPercap'], continent_data['lifeExp'],
               s=2*continent_data['pop']/1e6,  # 人口サイズで円の大きさを決定
               c=continent_colors[continent],
               alpha=0.6, label=continent, edgecolors='black', linewidth=0.5)

# 🏷️ グラフの装飾
plt.title('GDP Per Capita vs. Life Expectancy in 2007',
          fontsize=20, fontweight='bold', pad=20)
plt.xlabel('GDP Per Capita [USD]', fontsize=20)
plt.ylabel('Life Expectancy [Years]', fontsize=20)
plt.legend(title='Continent', fontsize=20)
plt.grid(True, alpha=0.3)

# 📍 興味深い国をハイライト
highlight_countries = ['Japan', 'United States', 'Norway', 'Chad', 'Afghanistan']
for country in highlight_countries:
    if country in df_scatter['country'].values:
        country_data = df_scatter[df_scatter['country'] == country].iloc[0]
        plt.annotate(country,
                     (country_data['gdpPercap'], country_data['lifeExp']),
                     xytext=(5, 5), textcoords='offset points',
                     fontsize=15, fontweight='bold',
                     bbox=dict(boxstyle='round,pad=0.3', fc='white', alpha=0.8))

plt.tight_layout()
plt.show()


#####################################
# 🎶 おまけ～データ分析～
#####################################
# 📊 相関関係の分析
correlation = df_scatter['gdpPercap'].corr(df_scatter['lifeExp'])
print(f"📈 GDPと平均寿命の相関係数: {correlation:.3f}")
# 💡 相関係数が1に近いほど強い正の相関があることを意味する（x軸の値が大きくなるほどyの値も大きくなる）

それでは、年代別に比較してみましょう。```plt.subplots(2, 2)```とすることで、2×2で複数の画像を描画できます。

①```years = [1957, 1972, 1987, 2002] ```を変更して、ほかの年代の分布図も表示してみましょう。そして、それらの結果からわかることを考察してみましょう。また、表示可能な年代リストは```print(df['year'].unique())```で確認できます。

In [None]:
#####################################
# 🔧 必要なツールを準備しよう
#####################################
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

#####################################
# 📊 世界の統計データを読み込もう
#####################################
# 外部サーバからデータを取得
df = pd.read_csv('https://raw.githubusercontent.com/plotly/datasets/master/gapminderDataFiveYear.csv')

#####################################
# 🎨 グラフを作成
#####################################
# 📅 表示する年を選択
years = [1957, 1972, 1987, 2002] #🌟 ここが変わります②

# 🎨 2x2のサブプロットを作成
fig, axes = plt.subplots(2, 2, figsize=(16, 12))
axes = axes.flatten()

for i, year in enumerate(years):
    # その年のデータを抽出
    df_year = df[df['year'] == year]

    # 大陸別にプロット
    for continent in df_year['continent'].unique():
        continent_data = df_year[df_year['continent'] == continent]
        axes[i].scatter(continent_data['gdpPercap'], continent_data['lifeExp'],
                       s=continent_data['pop']/1e6,
                       c=continent_colors.get(continent, 'gray'),
                       alpha=0.6, label=continent if i == 0 else "",
                       edgecolors='black', linewidth=0.5)

    # 各サブプロットの装飾
    axes[i].set_title(f'{year}', fontsize=14, fontweight='bold')
    axes[i].set_xlabel('GDP Per Capita [USD]', fontsize=10)
    axes[i].set_ylabel('Life Expectancy [Years]', fontsize=10)
    axes[i].grid(True, alpha=0.3)
    axes[i].set_xlim(0, 50000)
    axes[i].set_ylim(30, 85)

# 全体のタイトルと凡例
fig.suptitle('GDP Per Capita vs. Life Expectancy',
             fontsize=18, fontweight='bold', y=0.98)
axes[0].legend(bbox_to_anchor=(1.05, 1), loc='upper left')

plt.tight_layout()
plt.show()


#####################################
# 🎶 おまけ～データ分析～
#####################################
print("データに収録されている国一覧")
print(df['year'].unique())


こちらの内容を応用すれば、アニメーションを作成します。今回は、画像の切り替えに適した動画ファイルであるGIFアニメーションを扱います。

まず、グラフをそれぞれ作成して画像ファイルとして保存します。そして、```imageio.mimsave('gdp_vs_lifeExp.gif', images, duration=1000, loop=0)```で、一秒（1000 ms）ごとに画像を切り替えてアニメーションを作成します。最後に、作成した画像を削除します。

グラフに動きがつくことで、時間経過に伴うデータの推移がより分かりやすくなりました。

In [None]:
#####################################
# 🔧 必要なツールを準備しよう
#####################################
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import imageio.v2 as imageio
import os
from IPython.display import Image, display

#####################################
# 📊 世界の統計データを読み込もう
#####################################
# 外部サーバからデータを取得
df = pd.read_csv('https://raw.githubusercontent.com/plotly/datasets/master/gapminderDataFiveYear.csv')

#####################################
# 🎨 グラフを作成
#####################################
# 📅 表示する年を選択
years = sorted(df['year'].unique()) # 🌟 全ての年を表示

# 大陸別の色分け
continent_colors = {
'Asia':'red',
'Europe':'green',
'Africa':'blue',
'Americas':'yellow',
'Oceania':'purple'
}

# グラフの大きさ
images = []
filename_pattern = 'temp_plot_{}.png'

# 年代別にグラフを作成
for i, year in enumerate(years):
    # その年のデータを抽出
    df_year = df[(df['year'] == year)].copy() # 警告回避のためcopy()

    # 描画設定
    fig, ax = plt.subplots(figsize=(10, 6))

    # 大陸別にプロット
    for continent in df_year['continent'].unique():
        continent_data = df_year[(df_year['continent'] == continent)]
        ax.scatter(continent_data['gdpPercap'], continent_data['lifeExp'],
                  s=continent_data['pop']/1e6,
                  c=continent_colors.get(continent, 'gray'),
                  alpha=0.6, label=continent if year == years[-1] else "",
                  edgecolors='black', linewidth=0.5)

    # 各サブプロットの装飾
    ax.set_title(f'{year}', fontsize=14, fontweight='bold')
    ax.set_xlabel('GDP Per Capita [USD]', fontsize=10)
    ax.set_ylabel('Life Expectancy [Years]', fontsize=10)
    ax.grid(True, alpha=0.3)
    ax.set_xlim(0, 50000)
    ax.set_ylim(20, 90) # y軸の範囲を調整

    plt.tight_layout()

    # 画像ファイル名を生成して保存
    filename = filename_pattern.format(year)
    plt.savefig(filename)
    images.append(imageio.imread(filename))
    plt.close()

#####################################
# 📹 GIFアニメーションを作成
#####################################
# GIFの作成
imageio.mimsave('gdp_vs_lifeExp.gif', images, duration=1000, loop=0)

# GIFを表示
display(Image(filename='gdp_vs_lifeExp.gif'))

# 一時ファイルを削除
for year in years:
    filename = filename_pattern.format(year)
    os.remove(filename)

## 🚀 おまけ3: オリジナルダッシュボードを作りましょう

これまでの技術を組み合わせると、一つのコードで多角的に国別の統計データを比較できるダッシュボードを作成できます。今回は、世界の統計データを差使いました。ほかにも、自由に利用できるオープンデータは公開されています。たとえば、[e-GOVデータポータル](https://data.e-gov.go.jp/info/ja)では、日本の行政機関が保有するオープンデータのカタログを掲載しています。また、[奈良県オープンデータカタログサイト](https://www.pref.nara.jp/44954.htm)では奈良県に関するオープンデータがまとめられています。今日学んだ技術を活用して、ぜひとも自分で可視化してみましょう。

In [None]:
#####################################
# 🔧 必要なツールを準備しよう
#####################################
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

#####################################
# 📊 世界の統計データを読み込もう
#####################################
# 外部サーバからデータを取得
df = pd.read_csv('https://raw.githubusercontent.com/plotly/datasets/master/gapminderDataFiveYear.csv')

# 🌟 ここを変更して、お気に入りの国を設定しよう！
favorite_countries = ['Japan', 'Singapore', 'United States']
target_year = 2007

# 📊 ダッシュボード作成
fig = plt.figure(figsize=(12, 20))

# レイアウト: 2x2 のサブプロット
ax1 = plt.subplot(3, 2, 1)  # 人口比較
ax2 = plt.subplot(3, 2, 2)  # GDP比較
ax3 = plt.subplot(3, 2, 3)  # 平均寿命比較
ax4 = plt.subplot(3, 2, 4)  # 人口推移
ax5 = plt.subplot(3, 2, 5)  # 平均寿命比較
ax6 = plt.subplot(3, 2, 6)  # 人口推移

colors = ['#e74c3c', '#3498db', '#2ecc71', '#f39c12']

# 📊 グラフ1: 人口比較（棒グラフ）
pop_data = []
for country in favorite_countries:
    pop = df[(df['country'] == country) & (df['year'] == target_year)]['pop'].iloc[0]
    pop_data.append(pop / 1e6)

bars1 = ax1.bar(favorite_countries, pop_data, color=colors)
ax1.set_title(f'Population ({target_year})', fontweight='bold')
ax1.set_ylabel('Population [million]')
ax1.tick_params(axis='x', rotation=45)
for i, v in enumerate(pop_data):
    ax1.text(i, v + max(pop_data)*0.01, f'{v:.0f} M', ha='center', fontweight='bold')

# 📊 グラフ2: GDP比較（棒グラフ）
gdp_data = []
for country in favorite_countries:
    gdp = df[(df['country'] == country) & (df['year'] == target_year)]['gdpPercap'].iloc[0]
    gdp_data.append(gdp)

bars2 = ax2.bar(favorite_countries, gdp_data, color=colors)
ax2.set_title(f'GDP Per Capita ({target_year})', fontweight='bold')
ax2.set_ylabel('GDP Per Capita [USD]')
ax2.tick_params(axis='x', rotation=45)
for i, v in enumerate(gdp_data):
    ax2.text(i, v + max(gdp_data)*0.01, f'${v:,.0f}', ha='center', fontweight='bold')

# 📊 グラフ3: 平均寿命比較（棒グラフ）
life_data = []
for country in favorite_countries:
    life = df[(df['country'] == country) & (df['year'] == target_year)]['lifeExp'].iloc[0]
    life_data.append(life)

bars3 = ax3.bar(favorite_countries, life_data, color=colors)
ax3.set_title(f'Life Expectancy ({target_year})', fontweight='bold')
ax3.set_ylabel('Life Expectancy [years]')
ax3.tick_params(axis='x', rotation=45)
for i, v in enumerate(life_data):
    ax3.text(i, v + max(life_data)*0.01, f'{v:.1f} years', ha='center', fontweight='bold')

# 📊 グラフ4: 人口推移（折れ線グラフ）
for i, country in enumerate(favorite_countries):
    country_data = df[df['country'] == country]
    ax4.plot(country_data['year'], country_data['pop'] / 1e6,
             marker='o', linewidth=2, markersize=6,
             color=colors[i], label=country)

ax4.set_title('Population (1952-2007)', fontweight='bold')
ax4.set_xlabel('Year')
ax4.set_ylabel('Population [million]')
ax4.legend()
ax4.grid(True, alpha=0.3)

# 📊 グラフ5: 人口推移（折れ線グラフ）
for i, country in enumerate(favorite_countries):
    country_data = df[df['country'] == country]
    ax5.plot(country_data['year'], country_data['gdpPercap'],
             marker='o', linewidth=2, markersize=6,
             color=colors[i], label=country)

ax5.set_title('GDP Per Capita (1952-2007)', fontweight='bold')
ax5.set_xlabel('Year')
ax5.set_ylabel('GDP Per Capita [USD]')
ax5.legend()
ax5.grid(True, alpha=0.3)

# 📊 グラフ6: 人口推移（折れ線グラフ）
for i, country in enumerate(favorite_countries):
    country_data = df[df['country'] == country]
    ax6.plot(country_data['year'], country_data['lifeExp'],
             marker='o', linewidth=2, markersize=6,
             color=colors[i], label=country)

ax6.set_title('Life Expectancy (1952-2007)', fontweight='bold')
ax6.set_xlabel('Year')
ax6.set_ylabel('Life Expectancy [years]')
ax6.legend()
ax6.grid(True, alpha=0.3)

# 全体のタイトル
fig.suptitle(f'Dashboard: {" vs ".join(favorite_countries)}',
             fontsize=20, fontweight='bold', y=1.0)

plt.tight_layout()
plt.show()


