# EDA: Materials Project データ探索

取得したデータの基本統計と可視化

In [None]:
import json
import pandas as pd
import matplotlib.pyplot as plt
from pymatgen.core import Structure

# データ読み込み
with open('../data/raw/mp_battery_materials.json', 'r') as f:
    data = json.load(f) 

print(f"取得件数: {len(data)}")
df = pd.DataFrame(data)
df.head()

In [None]:
# 基本統計
df.describe()

In [None]:
# energy_above_hull の分布
plt.figure(figsize=(10, 5))
plt.hist(df['energy_above_hull'], bins=50, edgecolor='black')
plt.xlabel('Energy Above Hull (eV/atom)')
plt.ylabel('Count')
plt.title('Stability Distribution')
plt.axvline(0.1, color='r', linestyle='--', label='Threshold (0.1 eV)')
plt.legend()
plt.show()

In [None]:
# 元素組成の分布
from collections import Counter

all_elements = []
for formula in df['formula']:
    # 簡易的な元素抽出（正確にはpymatgen使用）
    import re
    elements = re.findall(r'[A-Z][a-z]?', formula)
    all_elements.extend(elements)

element_counts = Counter(all_elements)
top_elements = element_counts.most_common(15)

plt.figure(figsize=(12, 6))
plt.bar([e[0] for e in top_elements], [e[1] for e in top_elements])
plt.xlabel('Element')
plt.ylabel('Count')
plt.title('Top 15 Elements in Dataset')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()