In [None]:
# 必要なライブラリのインポート
import pandas as pd
import numpy as np
from sklearn.datasets import load_iris
from sqlalchemy import create_engine, text
import psycopg2
import os

# データベース接続URL
DATABASE_URL = os.environ.get('DATABASE_URL', 'postgresql://user:password@postgres:5432/mlapp')
print(f"Database URL: {DATABASE_URL}")

In [None]:
# Irisデータセットの読み込み
iris = load_iris()
df = pd.DataFrame(
    data=iris.data,
    columns=iris.feature_names
)
df['target'] = iris.target
df['target_name'] = pd.Categorical.from_codes(iris.target, iris.target_names)

# カラム名を英語に統一（PostgreSQL用）
df.columns = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'target', 'target_name']

print(f"データセットの形状: {df.shape}")
print("\n最初の5行:")
df.head()

In [None]:
# データの確認
print("データの統計情報:")
print(df.describe())

print("\nターゲットの分布:")
print(df['target_name'].value_counts())

# 可視化
import matplotlib.pyplot as plt
import seaborn as sns

fig, axes = plt.subplots(2, 2, figsize=(12, 10))
features = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width']

for idx, feature in enumerate(features):
    ax = axes[idx // 2, idx % 2]
    for target in df['target'].unique():
        subset = df[df['target'] == target]
        ax.hist(subset[feature], alpha=0.5, label=iris.target_names[target])
    ax.set_xlabel(feature)
    ax.set_ylabel('Frequency')
    ax.legend()
    ax.set_title(f'Distribution of {feature}')

plt.tight_layout()
plt.show()

In [None]:
# PostgreSQLへの接続とテーブル作成
engine = create_engine(DATABASE_URL)

# 既存のテーブルを削除（存在する場合）
with engine.connect() as conn:
    conn.execute(text("DROP TABLE IF EXISTS iris_data CASCADE"))
    conn.execute(text("DROP TABLE IF EXISTS predictions CASCADE"))
    conn.commit()

print("既存のテーブルを削除しました")

# Irisデータをデータベースに保存
df.to_sql('iris_data', engine, index=False, if_exists='replace')
print(f"iris_dataテーブルに{len(df)}行のデータを保存しました")

In [None]:
# 予測結果を保存するテーブルの作成
with engine.connect() as conn:
    create_predictions_table = """
    CREATE TABLE IF NOT EXISTS predictions (
        id SERIAL PRIMARY KEY,
        sepal_length FLOAT NOT NULL,
        sepal_width FLOAT NOT NULL,
        petal_length FLOAT NOT NULL,
        petal_width FLOAT NOT NULL,
        prediction INTEGER NOT NULL,
        prediction_name VARCHAR(50),
        confidence FLOAT,
        created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP
    );
    """
    conn.execute(text(create_predictions_table))
    conn.commit()
    print("predictionsテーブルを作成しました")

In [None]:
# データの確認
# 保存されたデータを読み込んで確認
df_from_db = pd.read_sql('SELECT * FROM iris_data LIMIT 10', engine)
print("データベースから読み込んだデータ:")
df_from_db

In [None]:
# テーブル情報の確認
with engine.connect() as conn:
    # テーブル一覧
    tables = pd.read_sql("""
        SELECT table_name 
        FROM information_schema.tables 
        WHERE table_schema = 'public'
    """, conn)
    print("作成されたテーブル:")
    print(tables)
    
    # iris_dataテーブルの構造
    columns = pd.read_sql("""
        SELECT column_name, data_type, character_maximum_length
        FROM information_schema.columns
        WHERE table_name = 'iris_data'
    """, conn)
    print("\niris_dataテーブルの構造:")
    print(columns)