<img src='slides/4.png'>

In [None]:
import pandas as pd
import numpy as np

# ファイルの内容を確認
# - %pycat が使用できない場合は %pfile, %cat 等を試してください
%pycat data/14_1_cleansing.csv

In [None]:
# DataFrameに読み込み
df = pd.read_csv('data/14_1_cleansing.csv', sep=';')

# 確認
df

In [None]:
# 各列のデータ型を確認
df.info()

In [None]:
# 'カンマ付'列の1行目
df['カンマ付'].iloc[0]

In [None]:
# 非数値（文字列）のため、数値との計算の対象にはならず、エラーになる
df['カンマ付'].iloc[0] + 1

In [None]:
# 'カンマ付'の型の確認
type(df['カンマ付'].iloc[0])

引用符、カンマ付、16進数の各列は、それぞれに応じた処理を行う

In [None]:
# 引用符列は左右の端にある ' を除去した後に、int型に変換
df['引用符'] = df['引用符'].str.strip("'").astype(int)

# カンマ付列は , を除去した後に、int型に変換
df['カンマ付'] = df['カンマ付'].str.replace(',', '').astype(int)

# 16進数列は16進数を指定して型変換
df['16進数'] = df['16進数'].apply(lambda x: int(x, 16))

# 確認
df

In [None]:
# 各列のデータ型を確認
df.info()

引用符、カンマ付、16進数の列は、数値 int64 型に変換

非数値列は、数値と非数値が混ざっているため、数値のみと非数値のみに分離し、それぞれの列を作成する

- どう扱うかは、その後の処理依存

In [None]:
# 非数値列の数値化できないデータは NaN に変換した数値のみ列を追加
# - NaNはint型で表現できないため、列はfloat型になってしまう
df['数値のみ'] = pd.to_numeric(df['非数値'], errors='coerce')

# 数値のみ列で NaN の行について、非数値列の値を取り出して、非数値のみ列に追加
df['非数値のみ'] = df[np.isnan(df['数値のみ'])].loc[:, '非数値']

# 確認
df

In [None]:
# 各列のデータ型を確認
df.info()

In [None]:
# 非数値列が必要無いならば削除
df = df.drop('非数値', axis=1)

# 確認
df