## 4.1 データ確認

In [None]:
# 日本語化ライブラリ導入
!pip install japanize-matplotlib | tail -n 1

In [None]:
# 共通事前処理

# 余分なワーニングを非表示にする
import warnings
warnings.filterwarnings('ignore')

# 必要ライブラリのimport
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# matplotlib日本語化対応
import japanize_matplotlib

# データフレーム表示用関数
from IPython.display import display

# 表示オプション調整
# numpyの浮動小数点の表示精度
np.set_printoptions(suppress=True, precision=4)

# pandasでの浮動小数点の表示精度
pd.options.display.float_format = '{:.4f}'.format

# データフレームですべての項目を表示
pd.set_option("display.max_columns",None)

# グラフのデフォルトフォント指定
plt.rcParams["font.size"] = 14

# 乱数の種
random_seed = 123

### 4.1.1 数値的・統計的に分析する方法

#### タイタニック・データセットの読み込み

#### タイタニック・データセットの各項目

**生存**(survival) : (0=死亡、1=生存)     
**等室** (pclass) : (1=1等船室 2=2等船室 3=3等船室)  
**性別** (sex) :  (male=男性、female=女性)  
**年齢** (age)  
**兄弟配偶者数** (sibsp) : 同乗している兄弟と配偶者の数   
**両親子供数** (parch) : 同乗している両親と子供の数  
**料金** (fare)  
**乗船港コード**(embarked) :    
(C=Cherbourg、Q=Queenstown、S=Southampton)   
**等室名** (class) : (First=一等船室 Second=二等船室 Third=三等船室)  
**男女子供** (who) : (man=男　women=女　child=子供)  
**成人男子** (adult_male):  True / False  
**デッキ** (deck):  船室番号の頭文字 (A - G)  
**乗船港** (embark_town) : Southampton/Cherbourg/Queenstown  
**生存可否** (alive): yes / no   
**独身** (alone): True / False  



In [None]:
# 追加ライブラリのimport
import seaborn as sns

# サンプルデータの読み込み
df_titanic = sns.load_dataset("titanic")

# 項目名の日本語化
columns_t = ['生存', '等室', '性別', '年齢', '兄弟配偶者数',
             '両親子供数', '料金', '乗船港コード', '等室名',
             '男女子供', '成人男子', 'デッキ', '乗船港', '生存可否', '独身']
df_titanic.columns = columns_t

# データの内容
display(df_titanic.head())

#### 項目ごとの欠損値を調べる

In [None]:
print(df_titanic.isnull().sum())

#### 特定の項目の項目値をそれぞれの個数を調べる

In [None]:
# 項目「乗船港」の項目値ごとの個数
print(df_titanic['乗船港'].value_counts())
print()

# 項目「生存可否」の項目値ごとの個数
print(df_titanic['生存可否'].value_counts())

#### 統計情報を調べる

In [None]:
display(df_titanic.describe())

#### グループごとの集計 (集約関数)

In [None]:
# pandas 2.0で動かなくなる問題の対応としてコード修正
display(df_titanic.groupby('性別').mean(numeric_only=True))

#### グラフ表示 (数値項目)

In [None]:
# 分析対象項目のグラフ表示 (数値項目の場合)

# 数値項目の定義
columns_n = ['生存', '等室', '年齢', '兄弟配偶者数', '両親子供数', '料金']

# グラフ描画領域の調整
plt.rcParams['figure.figsize'] = (10, 10)

# データフレームの数値項目でヒストグラム表示
df_titanic[columns_n].hist()
plt.show()

#### グラフ表示 (非数値項目)

In [None]:
# 分析対象項目のグラフ表示 (非数値項目の場合)

# グラフ化対象列の定義
columns_c = ['性別', '乗船港', '等室名', '成人男子']

# グラフ描画領域の調整
plt.rcParams['figure.figsize'] = (8, 8)

# ループ処理で、ヒストグラムの表示
for i, name in enumerate(columns_c):
    ax = plt.subplot(2, 2, i+1)
    df_titanic[name].value_counts().plot(kind='bar', title=name, ax=ax)

# レイアウトの調整
plt.tight_layout()
plt.show()

### 4.1.2 視覚的に分析・確認する方法

#### アイリス・データセットの読み込み

#### アイリス・データセットの各項目

**がく片長**(sepal_length)  
**がく片幅**(sepal_width)  
**花弁長**(petal_length)  
**花弁幅**(petal_width)  
  
**種別**(species):  versicolor/setosa/virginica

In [None]:
# 追加ライブラリのimport
import seaborn as sns

# サンプルデータの読み込み
df_iris = sns.load_dataset("iris")

# 項目名の日本語化
columns_i = ['がく片長', 'がく片幅', '花弁長', '花弁幅', '種別']
df_iris.columns = columns_i

# データの内容
display(df_iris.head())

#### 散布図表示

In [None]:
# 散布図表示 matplotlib版

# グラフ描画領域の調整
plt.figure(figsize=(6,6))

# 散布図の表示
plt.scatter(df_iris['がく片幅'], df_iris['花弁長'])

# ラベル表示
# sepal がく petal 花弁
plt.xlabel('がく片幅')
plt.ylabel('花弁長')
plt.show()

In [None]:
# 散布図表示  seaborn版(1)

plt.figure(figsize=(6,6))
sns.scatterplot(x='がく片幅', y='花弁長', hue='種別', s=70,
    data=df_iris)
plt.show()

In [None]:
# 全散布図同時表示

sns.pairplot(df_iris, hue="種別")
plt.show()

In [None]:
# 散布図表示  seaborn版(2)

# seaborn 0.12.2で動かない問題への対応でコード修正
sns.jointplot(x='がく片幅',y='花弁長',data=df_iris, kind='scatter')
plt.show()

In [None]:
# 箱ひげ図表示 matplotlib版

# グラフ描画領域の調整
plt.figure(figsize=(6,6))

# 箱ひげ図の描画
df_iris.boxplot(patch_artist=True)
plt.show()

In [None]:
# melt関数によるデータの事前加工
w = pd.melt(df_iris, id_vars=['種別'])

# 加工結果の確認
display(w.head())

In [None]:
# seabornによる箱ひげ図表示

# hueパラメータを追加し、花の種類で箱ひげ図を書き分ける
plt.figure(figsize=(8,8))
sns.boxplot(x="variable", y="value", data=w, hue='種別')
plt.show()

### バージョン確認

In [None]:
!pip install watermark | tail -n 1
%load_ext watermark
%watermark --iversions