# 以下の点を重視したコードテスト問題例
- PythonとSQLのスキル：必須スキルとして明記されているため、これらの言語を使った問題が中心となります。
- データ処理・分析能力：商品データプラットフォームであるため、Pandasを使ったデータ加工や、SQLによるデータ抽出・集計能力は不可欠です。
- 機械学習の基礎と応用：機械学習担当として、基本的なアルゴリズムの理解やライブラリの利用、AI/Gen AIを活用したソリューション設計の素養を測ります。
- 問題解決・設計能力：「高レベルの問題を分解し解決策を設計する能力」「自律的に問題を解決するための技術的設計力」を評価できるような、実務に近いシナリオを設定します。
- 顧客志向とカスタマイズ：「顧客課題解決」「ソフトウェアを顧客のニーズに合わせてカスタマイズ構築する」といった点を意識した問題設定をします。
- GCPの利用経験（間接的に）：BigQueryを意識したSQLや、Cloud Functionsで動作するようなPython関数を想定した問題を取り入れます。

# 問題1: 商品データの基本的なクレンジング (Python + Pandas)

- シナリオ:
顧客から提供された商品データ（CSV形式を想定）には、価格が文字列で記録されていたり、欠損値が含まれていたりします。これらのデータを分析可能な状態に整形する関数を作成してください。

- 課題:
与えられたPandas DataFrameに対し、以下の処理を行う関数 clean_product_data(df) を実装してください。
price 列が文字列（例: "1,200円"）で格納されている場合、数値型（intまたはfloat）に変換する。通貨記号やカンマは除去する。変換できない値は欠損値(NaN)とする。
stock_quantity 列の欠損値を0で補完する。
product_name 列の文字列の先頭と末尾の不要な空白を削除する。
期待されるスキル: Pandas DataFrame操作、データ型変換、欠損値処理、文字列操作。

- 入力例 (DataFrame):
```python
product_id product_name      price  stock_quantity
0          A01   Product A   "1,200円"           10.0
1          A02   Product B        NaN           20.0
2          A03    Product C     "800円"            NaN
3          A04  Product D       "Invalid"         5.0
Use code with caution.
```

- 出力例 (DataFrame):
```python
product_id product_name  price  stock_quantity
0          A01    Product A   1200.0            10.0
1          A02    Product B      NaN            20.0
2          A03    Product C    800.0             0.0
3          A04    Product D      NaN             5.0
```

## 回答

# 問題2: 商品カテゴリのルールベース分類 (Python)

- シナリオ:
商品名に含まれるキーワードに基づいて、商品をカテゴリ分類するシンプルなロジックを実装します。これは、機械学習モデルを導入する前の初期段階のプロトタイピングや、特定の顧客向けカスタマイズを想定しています。

- 課題:
商品名（文字列）とカテゴリ判定ルール（キーワードとカテゴリ名の辞書）を受け取り、商品が属するカテゴリ名を返す関数 classify_product_by_name(product_name, category_rules) を実装してください。複数のルールに合致する場合は、最初に見つかったカテゴリを返します。どのルールにも合致しない場合は "その他" を返します。
期待されるスキル: Pythonの基本的なデータ構造（文字列、辞書、リスト）、ループ、条件分岐、関数設計。

- 入力例:
  - product_name = "高品質ワイヤレスイヤホン Bluetooth 5.0"
  - category_rules = {"イヤホン": "オーディオ機器", "テレビ": "家電", "Bluetooth": "アクセサリ"}

- 出力例: "オーディオ機器" (「イヤホン」が「Bluetooth」より先にルール内で定義されている場合)


## 回答

# 問題3: 特定条件での売上データ集計 (SQL)

- シナリオ:
商品データベースから、特定の条件を満たす売上データを集計し、レポートを作成する必要があります。

- 課題:
以下の2つのテーブルがあるとします。
  - products (product_id INT, product_name VARCHAR, category VARCHAR, unit_price INT)
  - sales (sale_id INT, product_id INT, quantity INT, sale_date DATE)

2024年1月以降に、「家電」カテゴリの商品で、かつ販売単価（unit_price）が10,000円以上の商品の総売上金額（unit_price * quantity）を月別に集計するSQLクエリを作成してください。結果は、月(YYYY-MM形式)、総売上金額の2列で、総売上金額の降順で表示してください。

- 期待されるスキル: SQL (JOIN, WHERE, GROUP BY, 集計関数, 日付関数, ORDER BY)。BigQuery等での実行を想定した標準SQL。

## 回答

# 問題4: カスタムAPIエンドポイントのロジック (Python)

- シナリオ:
顧客の既存システムと連携するため、特定の商品情報を取得する専用APIのエンドポイントロジックを開発します。

- 課題:
商品IDのリストを受け取り、各商品IDに対応する商品名と在庫数を返す関数 get_product_details_batch(product_ids, product_database) を実装してください。product_database は商品IDをキーとし、商品情報（商品名、在庫数などを含む辞書）を値とする辞書とします。存在しない商品IDがリストに含まれていた場合は、その商品IDに対応する情報として {"error": "Not Found"} を含めてください。
期待されるスキル: Pythonの辞書操作、リスト操作、エラーハンドリング、API設計の基本的な考え方。

- 入力例:
  - product_ids = ["P001", "P002", "P999"]
  - product_database = {"P001": {"name": "Laptop Pro", "stock": 10}, "P002": {"name": "Wireless Mouse", "stock": 150}}

- 出力例 (リスト):
```python
[
    {"product_id": "P001", "name": "Laptop Pro", "stock": 10},
    {"product_id": "P002", "name": "Wireless Mouse", "stock": 150},
    {"product_id": "P999", "error": "Not Found"}
]
```

## 回答

# 問題5: 商品レビューデータの感情分析 (簡易版・機械学習ライブラリ利用) (Python)

- シナリオ:
収集した商品レビューテキストから、ポジティブかネガティブかを判定する簡易的な感情分析機能を実装します。ここでは、既存の学習済みモデルやシンプルな特徴量エンジニアリングと分類器を利用することを想定します。

- 課題:
レビューテキスト（文字列）を受け取り、その感情（"positive", "negative", "neutral"のいずれか）を返す関数 analyze_sentiment(review_text) を実装してください。
実装方法のヒント：
  - 簡単な方法として、ポジティブな単語リストとネガティブな単語リストを用意し、テキストに含まれる単語数で判定する。
  - （発展）scikit-learn の TfidfVectorizer と LogisticRegression (または NaiveBayesなど) を用いて、少量の学習データ（問題で提供されても良いし、自分で仮定しても良い）で学習させたモデルで予測する。(この場合、学習部分は省略し、学習済みモデルを使う前提でも可)

- 期待されるスキル: Python文字列処理、基本的な機械学習の概念、(発展) scikit-learn等のライブラリ利用。
- 備考: この問題では、精度よりも実装の考え方やライブラリの基本的な使い方を見ます。

## 回答

# 問題6: データ不整合の検出 (Python + Pandas)

- シナリオ:
複数のソースから収集した商品データには、同一商品であるにも関わらず、価格やカテゴリが異なる場合があります。このようなデータの不整合を検出する処理を実装します。

- 課題:
商品データを含むPandas DataFrame（product_id, source_name, price, category 列を持つ）を受け取り、同一 product_id で price または category が異なるレコードのペアを検出する関数 find_inconsistent_data(df) を実装してください。結果は、不整合のある product_id とその詳細情報を含むDataFrameで返してください。
期待されるスキル: Pandasのグルーピング、比較演算、データフィルタリング、重複データの扱い。

- 入力例 (DataFrame):
```python
product_id source_name  price category
0        P10      SourceA  100.0    Elec
1        P10      SourceB  100.0    Elec
2        P20      SourceA  200.0    Book
3        P20      SourceB  210.0    Book  # price mismatch
4        P30      SourceA  300.0    Home
5        P30      SourceB  300.0    Garden # category mismatch (assuming Home != Garden)
Use code with caution.
```

- 出力例 (DataFrame - 一例):
```python
product_id source_name_A price_A category_A source_name_B price_B category_B
0        P20         SourceA   200.0       Book         SourceB   210.0       Book
1        P30         SourceA   300.0       Home         SourceB   300.0     Garden
Use code with caution.
```
(出力形式は、不整合がわかる形であれば柔軟に評価)

## 回答

# 問題7: Gen AIを活用した商品推薦理由の生成 (Python)

- シナリオ:
顧客が閲覧している商品に対し、AIが推薦する別の商品について、なぜその商品を推薦するのかの理由をGen AI (LLM) を用いて生成する機能をプロトタイピングします。

- 課題:
閲覧中の商品情報（辞書）と推薦商品情報（辞書）を受け取り、LLMに渡すための適切なプロンプト文字列を生成する関数 generate_recommendation_prompt(current_product, recommended_product) を実装してください。プロンプトには、両商品の特徴を含め、推薦理由を自然な文章で生成するよう指示する内容を含めてください。
（実際のLLM APIコールは不要で、プロンプト文字列を返すだけでOKです）

- 期待されるスキル: プロンプトエンジニアリングの基本的な考え方、Pythonでの文字列操作・フォーマット、AI活用への理解。

- 入力例:
  - current_product = {"name": "高性能一眼レフカメラ", "features": ["高画質センサー", "高速連写", "4K動画"]}
  - recommended_product = {"name": "大容量SDカード 128GB", "features": ["高速転送", "4K動画対応", "耐久性"]}

- 出力例 (プロンプト文字列の一例):
"ユーザーは「高性能一眼レフカメラ」(特徴: 高画質センサー, 高速連写, 4K動画) を見ています。
このユーザーに「大容量SDカード 128GB」(特徴: 高速転送, 4K動画対応, 耐久性) を推薦する理由を、
カメラの性能を活かすために役立つ点を強調して、自然な日本語で説明してください。"

## 回答

# 問題8: 商品データ更新の差分検出 (SQL)

- シナリオ:
日次で更新される商品マスタデータがあります。前日のデータと比較して、価格が変更された商品、新たに追加された商品、取り扱いが終了した商品を特定する必要があります。

- 課題:
products_today と products_yesterday という同じスキーマ（product_id VARCHAR, product_name VARCHAR, price INT）の2つのテーブルがあるとします。
以下の情報を取得するSQLクエリをそれぞれ作成してください（BigQuery等での実行を想定した標準SQL）。
  - 価格が変更された商品 (product_id, old_price, new_price)
  - 新たに追加された商品 (product_id, product_name, price)
  - 取り扱いが終了した商品 (product_id)

- 期待されるスキル: SQL (LEFT JOIN, RIGHT JOIN, FULL OUTER JOIN, WHERE句でのNULL比較、サブクエリまたはCTE)。

## 回答

# 問題9: ワークフロー自動化のためのタスク実行クラス (Python)

- シナリオ:
顧客ごとに異なるデータ処理ステップを組み合わせたワークフローを自動化します。各ステップはタスクとして定義され、実行順序や依存関係を持ちます。

- 課題:
基本的なタスク実行を表す Task 基底クラスと、それを継承した具体的なタスククラス（例: DataValidationTask、DataTransformationTask）を設計し、簡単な実行フロー（例: バリデーションタスクの後に変換タスクを実行）をシミュレートするコードを書いてください。
  - Task クラスは execute() メソッドを持つ。
  - 各タスクは成功/失敗のステータスを持つ。
  - 後続のタスクは、先行タスクの成功を条件に実行される。

- 期待されるスキル: Pythonのクラス設計（継承、メソッド）、基本的な制御フロー、オブジェクト指向プログラミングの基礎。
- 備考: 複雑なワークフローエンジンではなく、基本的なクラス構造と実行ロジックの設計力を見ます。

## 回答

# 問題10: 商品属性の類似度計算 (Python)

- シナリオ:
類似商品を推薦するために、商品属性ベクトル間の類似度を計算する必要があります。

- 課題:
2つの商品属性ベクトル（数値のリストまたはNumPy配列）を受け取り、それらのコサイン類似度を計算する関数 calculate_cosine_similarity(vector1, vector2) を実装してください。
NumPyを使わずに実装しても、NumPyを使って実装しても構いません。

- 期待されるスキル: 数学的な概念（コサイン類似度）の理解と実装、Pythonのリスト操作、(オプション) NumPyの利用。
- コサイン類似度の定義: A・B / (||A|| * ||B||) (AとBのドット積を、それぞれのベクトルのL2ノルムの積で割ったもの)

## 回答