 ## 3.3 データ確認・加工　演習問題解答例

### 共通処理

In [None]:
# 日本語化ライブラリ導入
!pip install japanize-matplotlib | tail -n 1



In [None]:
# ライブラリのimport

# NumPy用ライブラリ
import numpy as np

# Matplotlib中のpyplotライブラリのインポート
import matplotlib.pyplot as plt

# matplotlib日本語化対応ライブラリのインポート
import japanize_matplotlib

# pandas用ライブラリ
import pandas as pd

# データフレーム表示用関数
from IPython.display import display

In [None]:
# 表示オプション調整

# NumPy表示形式の設定
np.set_printoptions(
    suppress=True, precision=4, floatmode='fixed'
)

# グラフのデフォルトフォント指定
plt.rcParams["font.size"] = 14

# サイズ設定
plt.rcParams['figure.figsize'] = (6, 6)

# 方眼表示ON
plt.rcParams['axes.grid'] = True


# データフレームでの表示精度
pd.options.display.float_format = '{:.4f}'.format

# データフレームですべての項目を表示
pd.set_option("display.max_columns", None)

### CSVファイル読み込み

In [None]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/bridges/bridges.data.version1'

# 列名定義
columns = [
 'ID', 'RIVER', 'LOCATION', 'ERECTED', 'PURPOSE',
 'LENGTH', 'LANES', 'CLEAR-G', 'T-OR-D', 'MATERIAL',
 'SPAN', 'REL-L', 'TYPE'
]

# データ読み込み
df1 = pd.read_csv(
    url, header=None,
    names=columns, na_values='?',
    index_col='ID')
display(df1.head())

Unnamed: 0_level_0,RIVER,LOCATION,ERECTED,PURPOSE,LENGTH,LANES,CLEAR-G,T-OR-D,MATERIAL,SPAN,REL-L,TYPE
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
E1,M,3.0,1818,HIGHWAY,,2.0,N,THROUGH,WOOD,SHORT,S,WOOD
E2,A,25.0,1819,HIGHWAY,1037.0,2.0,N,THROUGH,WOOD,SHORT,S,WOOD
E3,A,39.0,1829,AQUEDUCT,,1.0,N,THROUGH,WOOD,,S,WOOD
E5,A,29.0,1837,HIGHWAY,1000.0,2.0,N,THROUGH,WOOD,SHORT,S,WOOD
E6,M,23.0,1838,HIGHWAY,,2.0,N,THROUGH,WOOD,,S,WOOD


### 項目名変更

In [None]:
# 差し替え用項目名リスト
cols_jp = [
    '川コード', '位置', '竣工年', '目的', '長さ', '車線数', '垂直クリアランス',
    '道路位置', '建築資材', '長さ区分', '相対長', '橋種別'
]

# 加工用の別データフレームの用意
df2 = df1.copy()

# 列名の差し替え
df2.columns = cols_jp

# 結果確認
display(df2.head())

Unnamed: 0_level_0,川コード,位置,竣工年,目的,長さ,車線数,垂直クリアランス,道路位置,建築資材,長さ区分,相対長,橋種別
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
E1,M,3.0,1818,HIGHWAY,,2.0,N,THROUGH,WOOD,SHORT,S,WOOD
E2,A,25.0,1819,HIGHWAY,1037.0,2.0,N,THROUGH,WOOD,SHORT,S,WOOD
E3,A,39.0,1829,AQUEDUCT,,1.0,N,THROUGH,WOOD,,S,WOOD
E5,A,29.0,1837,HIGHWAY,1000.0,2.0,N,THROUGH,WOOD,SHORT,S,WOOD
E6,M,23.0,1838,HIGHWAY,,2.0,N,THROUGH,WOOD,,S,WOOD




### 欠損値除去


In [None]:
# 項目「位置」に欠損値がある行を削除する
df3 = df2.copy()
df3 = df3.dropna(subset=['位置'])
df3.isnull().sum()

川コード         0
位置           0
竣工年          0
目的           0
長さ          27
車線数         15
垂直クリアランス     2
道路位置         5
建築資材         2
長さ区分        16
相対長          5
橋種別          2
dtype: int64

### データ型変換

In [None]:
# 「位置」のデータ型を整数型に直す
df3['位置'] = df3['位置'].astype('int')
print(df3.dtypes)
display(df3.head(2))

川コード         object
位置            int64
竣工年           int64
目的           object
長さ          float64
車線数         float64
垂直クリアランス     object
道路位置         object
建築資材         object
長さ区分         object
相対長          object
橋種別          object
dtype: object


Unnamed: 0_level_0,川コード,位置,竣工年,目的,長さ,車線数,垂直クリアランス,道路位置,建築資材,長さ区分,相対長,橋種別
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
E1,M,3,1818,HIGHWAY,,2.0,N,THROUGH,WOOD,SHORT,S,WOOD
E2,A,25,1819,HIGHWAY,1037.0,2.0,N,THROUGH,WOOD,SHORT,S,WOOD


### 演習問題

ここまで加工したデータフレームdf3について、更に次の処理をして下さい。  
(1) 「車線数」の欠損値を取り除きます。  
(2) 「車線数」のデータ型を整数型に変換します。


In [None]:
# (1) 「車線数」の欠損値を取り除く
# データフレームコピー
df4 = df3.copy()

# 車線の欠損値除去
# 3.3.3項　コード3.3.5参照
df4 = df4.dropna(subset=['車線数'])

# 結果確認
df4.isnull().sum()

川コード         0
位置           0
竣工年          0
目的           0
長さ          20
車線数          0
垂直クリアランス     1
道路位置         2
建築資材         0
長さ区分        10
相対長          5
橋種別          0
dtype: int64

In [None]:
# (2)　「車線数」のデータ型を整数型に変換する
# データフレームコピー
df5 = df4.copy()

# データ型の変換
# 3.3.4項 コード3.3.6参照
df5['車線数'] = df5['車線数'].astype('int')

# 結果確認
print(df5.dtypes)
df5.head(2)

川コード         object
位置            int64
竣工年           int64
目的           object
長さ          float64
車線数           int64
垂直クリアランス     object
道路位置         object
建築資材         object
長さ区分         object
相対長          object
橋種別          object
dtype: object


Unnamed: 0_level_0,川コード,位置,竣工年,目的,長さ,車線数,垂直クリアランス,道路位置,建築資材,長さ区分,相対長,橋種別
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
E1,M,3,1818,HIGHWAY,,2,N,THROUGH,WOOD,SHORT,S,WOOD
E2,A,25,1819,HIGHWAY,1037.0,2,N,THROUGH,WOOD,SHORT,S,WOOD
