# 練習問題

ここでは、 **本書の学習内容の定着** を目的とした練習問題とその解答・解説を掲載します。
解答・解説に関してはトグルで隠してありますので、学習に役立ててください。
なお、問題の性質上、本書で取り上げた処理と重複することがあります。
ご了承ください。

## 準備

以下のように、ライブラリのインポートと変数の定義が完了していることを前提とします。

In [4]:
# 必要なライブラリのインポート
import pandas as pd
from pathlib import Path

# データ格納ディレクトリのパス
DIR_IN = Path("../../../data/cm/input")

# ファイル名の定義
FN_CE = "cm_ce.csv"
FN_CC_CRT = "cm_cc_crt.csv"

## 問題1：データの読み込みと欠損値の確認

まず、マンガ各話データ`cm_ce.csv`を読み込み、データフレーム`df_ce`として格納してください。
その後、このデータフレームに含まれる欠損値の合計数を列ごとに集計し、表示してください。

In [5]:
# cm_ce.csvの読み込み
df_ce = pd.read_csv(DIR_IN / FN_CE)

# 欠損値の合計数を集計
df_ce.isna().sum()

ceid                       0
cename                 26815
ccid                       9
miid                       0
page_start                 0
page_end                   0
pages                      0
page_start_position        0
two_colored                0
four_colored               0
miname                     0
mcid                       0
mcname                     0
date                       0
price                     38
ccname                     9
dtype: int64

```{admonition} 解説
:class: dropdown

基礎分析の第一歩は、データの状態を正しく把握することです。
特に欠損値（`NaN`）は、後続の分析や可視化においてエラーの原因となったり、集計結果を歪める要因になります。
3.3節の基礎分析でも確認したように、このデータセットでは`cename`（各話サブタイトル）や`price`（価格）に欠損が含まれていることがわかります。
```

## 問題2：雑誌ごとの平均ページ数の比較

`df_ce`を用いて、マンガ雑誌（`mcname`）ごとの1話あたりの平均ページ数（`pages`） を算出してください。
結果は数値が見やすいように、平均ページ数の多い順にソートして表示しましょう。

In [3]:
# mcnameごとにpagesの平均を算出し、降順にソート
df_ce.groupby("mcname")["pages"].mean().sort_values(ascending=False)

mcname
週刊少年ジャンプ      19.199578
週刊少年マガジン      18.799555
週刊少年チャンピオン    18.076886
週刊少年サンデー      18.066296
Name: pages, dtype: float64

```{admonition} 解説
:class: dropdown

「データの全体像の把握」から一歩踏み込み、カテゴリごとの特徴（この場合は雑誌ごとの傾向）を深掘りする設問です。
出力結果を見ると、雑誌によって1話あたりの平均ページ数に若干の違いがあることがわかります。
これは編集方針の違いや、4コマ漫画などの掲載比率の違いが反映されている可能性があります。
こうした定量的な違いを把握しておくことは、Visual Discoveryにおける重要な気づきとなります
```

## 問題3：巻頭カラー作品の傾向分析

マンガ雑誌において、巻頭（雑誌の最初の方）に掲載される作品ほど、人気や注目度が高い可能性があります。
`df_ce`の`page_start_position`列を利用して、掲載位置が雑誌全体の先頭5%以内（0.05以下）にある各話データを抽出してください。
さらに、抽出したデータの中で4色カラー（`four_colored`が`True`）である各話の割合を算出しましょう。

In [4]:
# 掲載位置が先頭5%以内のデータを抽出
df_top_position = df_ce[df_ce["page_start_position"] <= 0.05]

# その中で4色カラーである作品数をカウント
df_top_position["four_colored"].mean()

0.810580793559517

```{admonition} 解説
:class: dropdown

本章で定義した独自指標`page_start_position`を活用する問題です。
`page_start_position`は0に近いほど巻頭、1に近いほど巻末を表します。
この分析により、「巻頭付近の作品はカラーページであることが多い」という仮説を検証するための定量的なデータが得られます。
基礎分析では、このようにドメイン知識（「巻頭はカラーが多いはずだ」）とデータを結びつけて検証することが求められます。
```