# 定性的評価（可視化）

## データ可視化のためのライブラリ

### pandas DataFrameの `plot()`

In [None]:
import pandas as pd

df = pd.read_parquet("data/penguins.parquet")

# ペンギンのくちばしの長さ（横軸）とひれの長さ（縦軸）の散布図
df.plot(
    x="Culmen_Length",
    y="Flipper_Length",
    kind="scatter",
)

### Matplotlibを使ったグラフ描画

In [None]:
import matplotlib.pyplot as plt

# 準備（subplotsコンストラクターを呼び出してAxesクラスのインスタンスを生成）
_, ax = plt.subplots()

# くちばしの長さ（横軸）とひれの長さ（縦軸）の散布図
ax.scatter(
    x=df.loc[:, "Culmen_Length"],
    y=df.loc[:, "Flipper_Length"],
)
plt.show()

### Plotlyを使ったグラフ描画

In [None]:
# 準備（Plotly Expressをインポート）
import plotly.express as px

# くちばしの長さ（横軸）とひれの長さ（縦軸）の散布図
px.scatter(
    df,
    x="Culmen_Length",
    y="Flipper_Length",
)
# 業務連絡：このセルの出力のグラフは削除して、画像を貼り付けているスクリーンショットを残す。

## グラフの種類

### 散布図

In [None]:
# くちばしの長さ（横軸）とひれの長さ（縦軸）の散布図
px.scatter(
    df,
    x="Culmen_Length",
    y="Flipper_Length",
)

In [None]:
px.scatter(
    df,
    x="Culmen_Length",
    y="Flipper_Length",
    color="Species",
    color_discrete_sequence=px.colors.qualitative.Dark2,
    symbol="Species",
)

### 折れ線グラフ

#### 平均体重の計算

In [None]:
df_avg_weight_year = (
    df.assign(year=df.loc[:, "Date_Egg"].dt.to_period("Y"))
    .groupby(["Species", "year"], as_index=False)["Body_Mass"]
    .mean()
)
df_avg_weight_year

#### 折れ線グラフの描画

In [None]:
fig_line = px.line(
    df_avg_weight_year.assign(
        year=lambda x: x.loc[:, "year"].dt.to_timestamp()
    ),
    x="year",
    y="Body_Mass",
    color="Species",
    color_discrete_sequence=px.colors.qualitative.Dark2,
    line_dash="Species",
)

fig_line.update_yaxes(rangemode="tozero")  # 縦軸の最小値を0にする。
fig_line.update_xaxes(
    tickformat="%Y", dtick="M12"
)  # 目盛に年だけを表示し、間隔を12ヶ月に設定。
fig_line.show()

### 棒グラフ

#### 平均体重の計算

In [None]:
df_avg_weight_island = df.groupby(["Species", "Island"], as_index=False)[
    "Body_Mass"
].mean()
df_avg_weight_island

#### 棒グラフの描画

In [None]:
px.bar(
    df_avg_weight_island,
    x="Species",
    y="Body_Mass",
    color="Island",
    color_discrete_sequence=px.colors.qualitative.Dark2,
    pattern_shape="Island",
    barmode="group",
)

### ヒストグラム

In [None]:
px.histogram(
    df,
    x="Body_Mass",
    color="Species",
    color_discrete_sequence=px.colors.qualitative.Dark2,
    pattern_shape="Species",
    opacity=0.7,
    barmode="overlay",
)

In [None]:
# 種ごとのヒストグラムを横に並べる。
fig_col = px.histogram(
    df,
    x="Body_Mass",
    facet_col="Species",
)

In [None]:
import re

pattern = re.compile(r"(?<=Species=)[^\s]+")  # 「Species=」に続く空白を含まない文字列にマッチ。
fig_col.for_each_annotation(
    lambda a: a.update(text=re.search(pattern, a.text)[0])
)
fig_col.show()

In [None]:
import plotly.graph_objects as go

fig_col_notshared = go.Figure(fig_col)  # もとのオブジェクトをコピー。

fig_col_notshared.update_xaxes(matches=None)
fig_col_notshared.update_yaxes(matches=None)
fig_col_notshared.for_each_yaxis(lambda y: y.update(showticklabels=True))
fig_col_notshared.show()

In [None]:
fig_row = px.histogram(
    df,
    x="Body_Mass",
    facet_row="Species",
)
fig_row.for_each_annotation(
    lambda a: a.update(text=re.search(pattern, a.text)[0])
)
fig_row.update_xaxes(matches=None)
fig_row.update_yaxes(matches=None)
fig_row.for_each_xaxis(lambda x: x.update(showticklabels=True))
fig_row.show()

### 箱ひげ図

In [None]:
px.box(df, x="Species", y="Body_Mass")