## データのクレンジング

→欠損値や間違いなどを含んだデータを取り扱いやすいようにする処理のこと。

## データの重複のチェック

df.duplicated()はdfの中で重複した行に対してTrueを返すので、重複行のみを取り出すことができる。

df[df.duplicated(keep=False)]は重複している行をすべて含むdfを返す。詳しくは別セルで説明。

## 重複行の削除

変数=df.drop_duplicate()で重複行を削除することができる。
keepを指定しなければ重複行の最初の行を残して、残りの行を削除することができる。
また、削除すると番号が不連続になるのでreset_index()で0からの連番に振りなおす。

df = df.drop_duplicates().reset_index(drop=True)

drop=Trueをつけるとindexの列を生成しないようになる。

## 欠損値の確認

NaN(np.nan)は欠損値を示す特別な値。型はfloat。
NaNはnp.nan,'NaN',Noneとの比較(==や!=)ができないので注意

### 列ごとの欠損値の数を取得する

df.isna().sum()を用いる。
isna(),isnull()は同じものなのでどちらを用いても可能。

### 欠損値を1つでも含む行を表示する

df.isna().any(axis=1)を用いる。
axisを0にすれば列でも同じことができる。

## 欠損値を埋める

変数=df.fillna(埋める値やSeriesなど) 指定した値で埋める
変数=df.fillna(method='bfill')1つ先の非欠損値で埋める 
変数=df.fillna(method='ffill')1つ前の非欠損値で埋める 

列ごとに欠損値を埋めることもできる。
df['埋める列']=df.['埋める列'].fillna(埋める値)

## 欠損値を削除する

変数=df.dropna() 1つでも欠損値を含む行を削除
変数=df.dropna(how='all') すべての値が欠損値の行を削除
変数=df.dropna(axis=1) 1つでも欠損値を含む列を削除

## 型を設定

df['列名']=df['列名'].astype('型')で型を変換することができる

## 表記ゆれ等への対応

変数=df['列名'].replace()で要素の値を置換することができる

df['列名']=df['列名'].replace(古い値,新しい値)  
df['列名']=df['列名'].replace([古い値1,古い値2],新しい値)  
df['列名']=df['列名'].replace({古い値1:新しい値1,古い値2:新しい値2})  

型を変えるときに警告が発生する可能性がある。その時はastypeを使い適切に対処すること

## (発展)条件による数値の変換

mapメソッドを用いることによって条件を用いて変換することができる。

## クレンジング済データの保存

データフレームをcsvファイルとして保存するにはto_csvを使う。

df.to_csv('出力csvファイル名',index=True/False,encoding=出力ファイルのエンコード,....)
index列をTrueにするとindex列が追加される。
read_csvの時と同様にsepを指定することもできる。
columns=['列名1','列名2',...]でその列だけ出力できる

In [2]:
# keepパラメータについて

# keepパラメータの選択肢
# keep='first' (デフォルト)

# 最初に出現した行を保持し、それ以降の重複行をTrueとマーク
# 最も一般的な使用方法
# 重複したデータが、最初の1つだけ必要な時

# keep='last'

# 最後に出現した行を保持し、それより前の重複行をTrueとマーク

# keep=False

# すべての重複行（最初の出現も含む）をTrueとマーク
# 重複したデータをすべて特定したい場合に便利

# 具体例

import pandas as pd

df = pd.DataFrame({
    'A': [1, 2, 2, 3, 2],
    'B': ['x', 'y', 'y', 'z', 'y']
})

print("元のデータ:")
print(df)
#    A  B
# 0  1  x
# 1  2  y
# 2  2  y  # 重複
# 3  3  z
# 4  2  y  # 重複

print("\nkeep='first':")
print(df.duplicated(keep='first'))
# 0    False
# 1    False
# 2    True   # 1行目の重複
# 4    True   # 1行目の重複

print("\nkeep='last':")
print(df.duplicated(keep='last'))
# 0    False
# 1    True   # 4行目の重複
# 2    True   # 4行目の重複
# 3    False
# 4    False

print("\nkeep=False:")
print(df.duplicated(keep=False))
# 0    False
# 1    True   # すべての重複行
# 2    True   # すべての重複行
# 3    False
# 4    True   # すべての重複行


元のデータ:
   A  B
0  1  x
1  2  y
2  2  y
3  3  z
4  2  y

keep='first':
0    False
1    False
2     True
3    False
4     True
dtype: bool

keep='last':
0    False
1     True
2     True
3    False
4    False
dtype: bool

keep=False:
0    False
1     True
2     True
3    False
4     True
dtype: bool
