# 🌍🔋 EDAチュートリアル: 世界のエネルギーと排出データの探索 🔍🌱

---

このノートブックでは、世界のエネルギー消費と温室効果ガス排出データを深く掘り下げ、グローバルな傾向、地域の格差、再生可能エネルギーの影響の増大を強調する洞察を探ります。一連のデータビジュアライゼーションと分析を通じて、以下のトピックを調査します:

- **エネルギー消費が多い国と再生可能エネルギーのリーダー** 🌍🔋
- **地域ごとの温室効果ガス排出の傾向** 🏭🌱
- **世界のエネルギー需要の予測** 📊👥

エネルギー使用のダイナミクスと持続可能な未来への影響を理解するためのこの探索に参加してください！ 🌱

# データセットのダウンロード

このチュートリアルでは、グローバルなエネルギーと排出データを調査することで、EDA技術を実演します。以下のリンクからKaggleの[Our World in Dataによるエネルギー消費データセット](https://www.kaggle.com/datasets/whisperingkahuna/energy-consumption-dataset-by-our-world-in-data/code)をダウンロードしてください。このチュートリアルでは、`owid-energy-data.csv`ファイルを使用します。

このノートブックからデータセットをDatabricksワークスペースにインポートするには:

1. 左側のフォルダーアイコンをクリックしてワークスペースサイドパネルを開きます。
2. CSVファイル`owid-energy-data.csv`をパネルにドラッグアンドドロップします。あるいは、ケバブメニューをクリックして**インポート**を選択し、ファイルを選択します。
3. **インポート**をクリックします。ファイルがワークスペースに表示されるはずです。

データセットのファイルパスに注意してください。このノートブックで使用する必要があります。ファイル名を右クリックして、**URL/パスをコピー > フルパス**を選択すると、ファイルパスをクリップボードにコピーできます。

# データのロード

In [0]:
import numpy as np 
import pandas as pd # データ処理、CSVファイルの入出力（例：pd.read_csv）
df=pd.read_csv('/Workspace/Users/takaaki.yayoi@databricks.com/20250507_databricks_eda/owid-energy-data.csv') # 最後のステップでコピーしたデータのフルパスにここを置き換えてください

# データを理解する

データセットの基本を理解することは、データサイエンスプロジェクトにおいて重要です。これは、データの構造、種類、および品質に慣れることを含みます。

Databricksでは、`display(df)`コマンドを使用してデータセットを表示できます。データセットが10,000行を超えるため、このコマンドは切り捨てられたデータセットを返します。各列の左側には、列のデータ型が表示されます。

In [0]:
display(df)

## pandasを使用してデータの洞察を得る
データセットを効果的に理解するために、以下のpandasコマンドを使用します：

- `df.shape`コマンドはDataFrameの寸法を返し、行と列の数をすばやく把握できます。
- `df.dtypes`コマンドは各列のデータ型を提供し、扱っているデータの種類を理解するのに役立ちます。結果テーブルでも各列のデータ型を確認できます。
- `df.describe()`コマンドは、平均、標準偏差、パーセンタイルなどの数値列に関する記述統計を生成し、パターンの特定、異常の検出、データの分布の理解に役立ちます。また、行と列の数も教えてくれます。

In [0]:
df.shape # データフレームの行数と列数を返します

In [0]:
df.dtypes # 各列とそのデータ型のリストを返します

In [0]:
# データセットの要約統計量を返します
df.describe()

## データプロファイルを生成する

Databricksノートブックには、組み込みのデータプロファイリング機能が含まれています。Databricksの`display`関数を使用してDataFrameを表示する際に、データプロファイルを生成できます。

以下のコードを実行し、出力の**Table**の横にある **+ -> データプロファイル** をクリックします。これにより、データフレーム内のデータのプロファイルを生成する新しいコマンドが自動的に実行されます。プロファイルには、数値、文字列、および日付列の要約統計と、各列の値分布のヒストグラムが含まれます。このコマンドは、テーブルに表示される部分（切り捨てられることがあります）ではなく、データフレームまたはSQLクエリ結果の全体データセットをプロファイルします。

In [0]:
# データフレームを表示し、次に「+ -> データプロファイル」をクリックしてデータプロファイルを生成します
display(df)

Databricks data profile. Run in Databricks to view.

# データのクリーンアップ

データのクリーンアップは、データセットが正確で一貫性があり、意味のある分析に準備が整っていることを確認するためのEDAの重要なステップです。このプロセスには、データを分析に適した状態にするためのいくつかの重要なタスクが含まれます。

- 重複データの特定と削除。
- 欠損値の処理。特定の値で置き換えるか、影響を受ける行を削除することが含まれます。
- データ型の標準化（例：文字列を`datetime`に変換）を通じて一貫性を確保する。作業しやすい形式にデータを変換することも考慮します。

このクリーンアップフェーズは、データの品質と信頼性を向上させ、より正確で洞察に満ちた分析を可能にします。

## ヒント: アシスタントにデータクリーンアップのコード生成を依頼してみてください

Databricksアシスタントを使用してコードを生成することができます。新しいコードセルを作成し、「生成」リンクをクリックするか、右上のアシスタントアイコンを使用してアシスタントを開きます。アシスタントにクエリを入力します。例えば、アシスタントにデータを説明するように依頼します。

例えば、次のプロンプトを使用してデータクリーンアップのコードを迅速に生成してみてください:
- dfに重複する列や行が含まれているか確認します。重複を表示し、削除します。
- 日付列の形式は何ですか？ 'YYYY-MM-DD' に変更します。
- XXX列は使用しないので、削除します。

In [0]:
# 重複する行をチェック
duplicate_rows = df.duplicated().sum()

# 重複する列をチェック
duplicate_columns = df.columns[df.columns.duplicated()].tolist()

# 重複を表示
print("重複する行の数:", duplicate_rows)
print("重複する列:", duplicate_columns)

# 重複する行を削除
df = df.drop_duplicates()

# 重複する列を削除
df = df.loc[:, ~df.columns.duplicated()]

## （オプション）アシスタントに重複データの削除を依頼する

In [0]:
# アシスタントを開くには、このセルの右上にあるピンクのダイヤモンドアイコンをクリックし、重複データをチェックするように依頼します。
# 例えば、次のプロンプトを入力します: "dfに重複する列や行が含まれているか確認してください。重複を表示してください。その後、重複を削除してください。"
# アシスタントは次のようなコードを生成します。

'''
# 重複する行をチェック
duplicate_rows = df.duplicated().sum()

# 重複する列をチェック
duplicate_columns = df.columns[df.columns.duplicated()].tolist()

# 重複を表示
print("重複する行の数:", duplicate_rows)
print("重複する列:", duplicate_columns)

# 重複する行を削除
df = df.drop_duplicates()

# 重複する列を削除
df = df.loc[:, ~df.columns.duplicated()]
'''

# 左上の「提案を実行」をクリックしてコードを実行し、結果を確認できます。
# 提案が気に入ったら「承諾」をクリックすると、そのセルのコードが置き換えられます。気に入らなければ「拒否」をクリックして再試行できます。

## 重複データの削除

In [0]:
# 重複する行をチェック
duplicate_rows = df.duplicated().sum()

# 重複する列をチェック
duplicate_columns = df.columns[df.columns.duplicated()].tolist()

# 重複を表示
print("重複する行の数:", duplicate_rows)
print("重複する列:", duplicate_columns)

# 重複する行を削除
df = df.drop_duplicates()

# 重複する列を削除
df = df.loc[:, ~df.columns.duplicated()]

## null値または欠損値の処理

In [0]:
# すべてのNaN（Not a Number）値を0に置換
df = df.fillna(0)
display(df.head())

## 日付の再フォーマット

In [0]:
# 'year'列が正しいデータ型（年の整数）に変換されていることを確認
df['year'] = pd.to_datetime(df['year'], format='%Y', errors='coerce').dt.year

# 変更を確認
df.year.dtype

# Databricksノートブックの出力テーブルを使用してデータを探索する

Databricksは、出力テーブルを使用してデータを探索するための組み込み機能を提供しています。

新しいセルで、display(df)を使用してデータセットをテーブルとして表示します。

出力テーブルからは以下のことができます：

- **特定の文字列や値を検索する。** テーブルの右上にある検索アイコンをクリックし、検索内容を入力します。
- **特定の条件でフィルタリングする。** 組み込みのテーブルフィルタを使用して、特定の条件で列をフィルタリングできます。
  
  **ヒント:** フィルタを生成するためにアシスタントを使用します。フィルタアイコンをクリックし、希望するフィルタ条件を入力します。

  <img src="https://docs.databricks.com/_static/images/notebooks/eda-table-filter.gif"/>

- **データセットを使用して可視化を作成する。** 出力テーブルの上部で、**+ > Visualization**をクリックして可視化エディタを開きます。

  以下の画像は、複数の折れ線グラフを追加して、さまざまな再生可能エネルギー源の消費を時系列で表示する方法を示しています。

  <img src="https://docs.databricks.com/_static/images/notebooks/eda-visualization-editor.png"/>

In [0]:
display(df)

Databricks visualization. Run in Databricks to view.

# Pythonライブラリを使用してデータを探索および可視化する

可視化を通じたデータの探索は、EDAの基本的な側面です。可視化は、数値分析だけではすぐには明らかにならないデータ内のパターン、トレンド、および関係を明らかにするのに役立ちます。散布図、棒グラフ、折れ線グラフ、ヒストグラムなどの一般的な可視化手法には、PlotlyやMatplotlibなどのライブラリを使用します。これらの視覚的ツールを使用することで、データサイエンティストは異常値を特定し、データの分布を理解し、変数間の相関関係を観察できます。例えば、散布図は外れ値を強調し、時系列プロットはトレンドや季節性を明らかにすることができます。

## ユニークな国の配列を作成する

In [0]:
# ユニークな国を取得
unique_countries = df['country'].unique()
unique_countries

**洞察**: これにより、国の列には、世界、高所得国、アジア、アメリカ合衆国など、必ずしも直接比較できないさまざまなエンティティが含まれていることがわかります。データを地域別にフィルタリングする方が有用かもしれません。

## 主要10カ国の排出量の傾向をチャート化 (2000 - 2022)

In [0]:
import plotly.express as px

# データを2000年から2022年までの年にフィルタリング
filtered_data = df[(df['year'] >= 2000) & (df['year'] <= 2022)]

# フィルタリングされたデータで排出量が最も多い上位10か国を取得
top_countries = filtered_data.groupby('country')['greenhouse_gas_emissions'].sum().nlargest(10).index

# これらの上位国のデータをフィルタリング
top_countries_data = filtered_data[filtered_data['country'].isin(top_countries)]

# これらの国の排出量の傾向をプロット
fig = px.line(top_countries_data, x='year', y='greenhouse_gas_emissions', color='country', 
              title="Greenhouse Gas Emissions Trends for Top 10 Countries (2000 - 2022)")
fig.show()

**洞察**: このチャートから、2000年から2022年にかけて全体的な温室効果ガス排出量が増加傾向にあることがわかります。ただし、いくつかの国では排出量が比較的安定しており、その期間中にわずかに減少していることが見受けられます。

## 棒グラフ: 地域別の排出量をフィルタリングしてチャート化

In [0]:
# 地域エンティティを除外
regions = ['Africa', 'Asia', 'Europe', 'North America', 'South America', 'Oceania']

# 各地域の総排出量を計算
regional_emissions = df[df['country'].isin(regions)].groupby('country')['greenhouse_gas_emissions'].sum()

# 比較をプロット
fig = px.bar(regional_emissions, title="Greenhouse Gas Emissions by Region")
fig.show()

**洞察**: このチャートから、アジアが最も多くの温室効果ガスを排出している地域であることがわかります。オセアニア、南アメリカ、アフリカは最も少ない温室効果ガスを排出しています。

## 主要な再生可能エネルギーリーダー10カ国の再生可能エネルギーシェアの成長を計算してグラフ化 (2000-2022)

In [0]:
# 再生可能エネルギーのシェアを計算し、新しい列「renewable_share」として保存
df['renewable_share'] = df['renewables_consumption'] / df['primary_energy_consumption']

# 各国の平均再生可能エネルギーシェアでランク付け
renewable_ranking = df.groupby('country')['renewable_share'].mean().sort_values(ascending=False)

# 再生可能エネルギーシェアで上位の国をフィルタリング
leading_renewable_countries = renewable_ranking.head(10).index
leading_renewable_data = df[df['country'].isin(leading_renewable_countries)]

# データを2000年から2022年までの年にフィルタリング
leading_renewable_data_filter = leading_renewable_data[(leading_renewable_data['year'] >= 2000) & (leading_renewable_data['year'] <= 2022)]

# 上位の再生可能エネルギー国の再生可能エネルギーシェアの成長をプロット
fig = px.line(leading_renewable_data_filter, x='year', y='renewable_share', color='country', 
              title="Renewable Energy Share Growth Over Time for Leading Countries")
fig.show()

**洞察**: ノルウェーとアイスランドは再生可能エネルギーの分野で世界をリードしており、消費の半分以上が再生可能エネルギーから来ています。アイスランドとスウェーデンは再生可能エネルギーシェアの最大の成長を遂げました。すべての国で時折の減少と増加が見られ、再生可能エネルギーシェアが直線的に成長していないことがわかります。興味深いことに、中部アフリカは2010年代初頭に減少を見せましたが、2020年に回復しました。

## 散布図: 主要な排出国10カ国における再生可能エネルギーが排出量に与える影響を示す

In [0]:
# 上位の排出国を選択し、再生可能エネルギーシェアと排出量を計算
top_emitters = df.groupby('country')['greenhouse_gas_emissions'].sum().nlargest(10).index
top_emitters_data = df[df['country'].isin(top_emitters)]

# 再生可能エネルギーシェアと温室効果ガス排出量の関係をプロット
fig = px.scatter(top_emitters_data, x='renewable_share', y='greenhouse_gas_emissions', 
                 color='country', title="上位排出国における再生可能エネルギーの排出量への影響")
fig.show()

**洞察**: 国が再生可能エネルギーを多く使用するほど、温室効果ガスの排出量も増加し、総エネルギー消費量が再生可能エネルギー消費量よりも速く増加します。北アメリカは例外で、再生可能エネルギーの割合が増加するにつれて温室効果ガスの排出量は年間を通じて比較的一定のままでした。

## モデルが予測した世界のエネルギー消費量

In [0]:
import pandas as pd
from statsmodels.tsa.arima.model import ARIMA
import matplotlib.pyplot as plt

# 年ごとの世界の一次エネルギー消費量を集計
global_energy = df[df['country'] == 'World'].groupby('year')['primary_energy_consumption'].sum()

# 予測のためのARIMAモデルを構築
model = ARIMA(global_energy, order=(1, 1, 1))
model_fit = model.fit()
forecast = model_fit.forecast(steps=10)  # 10年間の予測

# 過去のエネルギー消費量と予測値をプロット
plt.plot(global_energy, label='Historical')
plt.plot(range(global_energy.index[-1] + 1, global_energy.index[-1] + 11), forecast, label='Forecast')
plt.xlabel("Year")
plt.ylabel("Primary Energy Consumption")
plt.title("Projected Global Energy Consumption")
plt.legend()
plt.show()

**洞察**: このモデルは、世界のエネルギー消費量が今後も増加し続けると予測しています。

# 次のステップ

データセットに対して初期の探索的データ分析を行ったので、次のステップを試してみてください：

- このノートブックのAppendixセクションで追加のEDA可視化例を参照してください。
- このチュートリアルを進める際にエラーが発生した場合は、組み込みのデバッガーを使用してコードをステップ実行してみてください。ノートブックのデバッグ方法については、以下を参照してください ([AWS](https://docs.databricks.com/aws/ja/notebooks/debugger) | [Azure](https://learn.microsoft.com/ja-jp/azure/databricks/notebooks/debugger) | [GCP](https://docs.databricks.com/gcp/ja/notebooks/debugger))。
- ノートブックをチームと共有して、分析内容を理解してもらいましょう。付与する権限に応じて、チームメンバーが分析を進めるためのコードを開発したり、さらなる調査のためのコメントや提案を追加したりすることができます。ノートブックの共有方法については、以下を参照してください ([AWS](https://docs.databricks.com/aws/ja/notebooks/notebooks-collaborate#%E3%83%8E%E3%83%BC%E3%83%88%E3%83%96%E3%83%83%E3%82%AF%E3%81%AE%E5%85%B1%E6%9C%89) | [Azure](https://learn.microsoft.com/ja-jp/azure/databricks/notebooks/notebooks-collaborate#share-a-notebook) | [GCP](https://docs.databricks.com/gcp/ja/notebooks/notebooks-collaborate#%E3%83%8E%E3%83%BC%E3%83%88%E3%83%96%E3%83%83%E3%82%AF%E3%81%AE%E5%85%B1%E6%9C%89))。
- 分析が完了したら、主要な可視化を含むノートブックダッシュボードを作成して、ステークホルダーと共有しましょう ([AWS](https://docs.databricks.com/aws/ja/notebooks/dashboards) | [Azure](https://learn.microsoft.com/ja-jp/azure/databricks/notebooks/dashboards) | [GCP](https://docs.databricks.com/gcp/ja/notebooks/dashboards))。または、AI/BIダッシュボードを作成して共有することもできます ([AWS](https://docs.databricks.com/aws/ja/dashboards) | [Azure](https://learn.microsoft.com/ja-jp/azure/databricks/dashboards/) | [GCP](https://docs.databricks.com/gcp/ja/dashboards))。

# 付録: EDA可視化の追加例

## エネルギー消費量が多い上位20か国をランク付け

In [0]:
# 国ごとにグループ化し、一次エネルギー消費量の合計を計算
energy_ranking = df.groupby('country')['primary_energy_consumption'].sum().sort_values(ascending=False)

# エネルギー消費量が多い上位20か国を表示
display(energy_ranking.head(20))

**洞察**: 出力には国ではない地理的地域が含まれています。代わりに、このチュートリアルの他の可視化で行うように、地域ごとにデータをフィルタリングすることができます。しかし、この出力は依然として有用な洞察を提供します。例えば、アメリカ合衆国は欧州連合全体よりも多くのエネルギーを消費しました。

## 再生可能エネルギーの上位20か国をランク付け

In [0]:
# 再生可能エネルギーの割合を計算し、新しい列「renewable_share」として保存
df['renewable_share'] = df['renewables_consumption'] / df['primary_energy_consumption']

# 国ごとにグループ化し、平均再生可能エネルギー割合でランク付け
renewable_ranking = df.groupby('country')['renewable_share'].mean().sort_values(ascending=False)

# 再生可能エネルギーで上位20か国
display(renewable_ranking.head(20))

**洞察**: この分析から、ノルウェーとアイスランドが再生可能エネルギーの消費において世界をリードしており、消費の半分以上が再生可能エネルギーから来ていることがわかります。

## 所得別の一人当たり消費量のチャート

In [0]:
# 所得グループでフィルタリング
income_groups = ['Low-income countries', 'High-income countries', 'Upper-middle-income countries']

# 各グループの一人当たりエネルギー消費量を計算
df['energy_per_capita'] = df['primary_energy_consumption'] / df['population']

# 国ごとにグループ化し、各所得グループの平均一人当たりエネルギー消費量を計算
income_group_comparison = df[df['country'].isin(income_groups)].groupby('country')['energy_per_capita'].mean()

# 比較をプロット
fig = px.bar(income_group_comparison, title="Energy Consumption per Capita by Income Group")
fig.show()

**洞察**: エネルギー消費は高所得国で高く、低所得国でははるかに低い。

## 地域別の一人当たりエネルギー消費量の計算とチャート

In [0]:
# 地域を定義し、各地域の一人当たりの総エネルギー消費量を計算
regions = ['Africa', 'Asia', 'Europe', 'North America', 'South America', 'Oceania']
df['energy_per_capita'] = df['primary_energy_consumption'] / df['population']
regional_energy = df[df['country'].isin(regions)].groupby('country')['energy_per_capita'].mean()

# 地域ごとの一人当たりのエネルギー消費量をプロット
fig = px.bar(regional_energy, title="Energy Consumption per Capita by Region")
fig.show()

**洞察**: 北アメリカは一人当たりのエネルギー消費量が最も多い。アフリカとアジアは一人当たりのエネルギー消費量が最も少ない。アジアは温室効果ガスの排出量が最も多いにもかかわらず、一人当たりのエネルギー消費量は最も低い。この相関関係はさらに調査する価値があるかもしれない。

## 時間経過による世界の一人当たりエネルギー消費量のプロット

In [0]:
# 一人当たりのエネルギー消費量を計算
df['energy_per_capita'] = df['primary_energy_consumption'] / df['population']
# 世界全体の一人当たりエネルギー消費量を時系列でプロット
global_energy_per_capita = df[df['country'] == 'World']
global_energy_per_capita_filtered = global_energy_per_capita[(global_energy_per_capita['year'] >= 1966) & (global_energy_per_capita['year'] <= 2022)]

fig = px.line(global_energy_per_capita_filtered, x='year', y='energy_per_capita', 
              title="Global Energy Consumption per Capita Over Time")
fig.show()

**洞察**: 一般的に、一人当たりのエネルギー消費量は時間とともに増加する傾向があります。60年代と70年代、および2000年代初頭に大きな増加が見られます。

## 散布図: エネルギー消費量の増加 vs. GDPの増加

In [0]:
# エネルギー消費量とGDPの前年比成長率を計算
df['energy_growth'] = df.groupby('country')['primary_energy_consumption'].pct_change()
df['gdp_growth'] = df.groupby('country')['gdp'].pct_change()

# 無限大とNaNの値を除外
df.replace([np.inf, -np.inf], np.nan, inplace=True)
df.dropna(subset=['energy_growth', 'gdp_growth'], inplace=True)

# エネルギー消費量の成長率とGDPの成長率をプロット
fig = px.scatter(df, x='energy_growth', y='gdp_growth', color='country',
                 title="Energy Consumption Growth vs. GDP Growth")
fig.show()

**洞察**: 興味深い外れ値がいくつかあります。
- クウェートは、エネルギー消費の小さな増加で大きなGDP成長を遂げました。
- オマーンと赤道ギニアは、GDPの小さな成長でエネルギー消費の大きな成長を見せました。

これらの外れ値をさらに調査し、これらの国で何が起こっていたのかを理解することは興味深いでしょう。

## 散布図: 人口増加 vs. エネルギー消費増加

In [0]:
# 人口成長率を計算
df['population_growth'] = df.groupby('country')['population'].pct_change()

# 無限大とNaNの値を除外
df.dropna(subset=['population_growth', 'energy_growth'], inplace=True)

# 人口成長率とエネルギー消費量の成長率をプロット
fig = px.scatter(df, x='population_growth', y='energy_growth', color='country',
                 title="Population Growth vs. Energy Consumption Growth")
fig.show()

**洞察**: 一般的に、人口増加はエネルギー消費に大きな影響を与えません。しかし、赤道ギニアとオマーンは、比較的小さな人口増加でエネルギー消費が大幅に増加した年がありました。

## 主要経済国のエネルギー強度の推移をプロット

In [0]:
# GDPが最も高い5カ国を取得
top_economies = df.groupby('country')['gdp'].sum().nlargest(5).index

# エネルギー強度を計算（GDPあたりの一次エネルギー消費量）
df['energy_intensity'] = df['primary_energy_consumption'] / df['gdp']

# 主要経済国のエネルギー強度の平均を時系列で計算
intensity_ranking = df[df['country'].isin(top_economies)].groupby(['year', 'country'])['energy_intensity'].mean().reset_index()

# 主要経済国のエネルギー強度の推移をプロット
fig = px.line(intensity_ranking, x='year', y='energy_intensity', color='country', 
              title="Energy Intensity Over Time for Top Economies")
fig.show()

**洞察**: 一般的に、主要経済国のエネルギー強度は時間とともに低下しました。世界全体のデータは約2015年以前は欠落しています。