In [2]:
import pandas as pd

### 重複値の確認

- レコード(行)単位で同一の値が保存されたデータ(レコード)

In [3]:
df = pd.DataFrame({'key1':['a', 'b', 'b', 'c', 'c'],
                  'key2':['x', 's', 's', 'x', 'y']})
df

Unnamed: 0,key1,key2
0,a,x
1,b,s
2,b,s
3,c,x
4,c,y


In [4]:
# Rowを基準に重複値を確認
# df.duplicated()
# 重複値に対する処理:keep='first'
# 重複値の中で最後の値を重複値と表示
df.duplicated()

0    False
1    False
2     True
3    False
4    False
dtype: bool

In [5]:
# 重複値があれば、基本的には最初の値が元本であり、その後に出るのが重複値だ。
# しかし、keep = 'last' を入力すると、逆に最後に出る値だけが原本値だ。
df.duplicated(keep='last')

0    False
1     True
2    False
3    False
4    False
dtype: bool

In [6]:
#すべての重複をTrueで処理
# keep=False
df.duplicated(keep=False)

0    False
1     True
2     True
3    False
4    False
dtype: bool

In [7]:
df2 = pd.DataFrame({'key1':['a', 'b', 'b', 'c', 'c'],
                   'key2':['x', 's', 's', 'x', 'y'],
                   'col':[1, 2, 3, 4, 5]})
df2

Unnamed: 0,key1,key2,col
0,a,x,1
1,b,s,2
2,b,s,3
3,c,x,4
4,c,y,5


In [8]:
# 全体Coilumnを対象に重複値を確認
# すべてのロウに重複値がない。
df2.duplicated()

0    False
1    False
2    False
3    False
4    False
dtype: bool

In [9]:
df2[['key1', 'key2']].duplicated()

0    False
1    False
2     True
3    False
4    False
dtype: bool

In [10]:
df2.duplicated(['key1', 'key2'])

0    False
1    False
2     True
3    False
4    False
dtype: bool

In [11]:
df2[['key1']].duplicated(keep=False)

0    False
1     True
2     True
3     True
4     True
dtype: bool

In [12]:
df2.duplicated('key2', keep='first')

0    False
1    False
2     True
3     True
4    False
dtype: bool

## 重複値の削除

- df.drop_duplicates()

In [13]:
df2.drop_duplicates()

Unnamed: 0,key1,key2,col
0,a,x,1
1,b,s,2
2,b,s,3
3,c,x,4
4,c,y,5


In [16]:
df2['key1'].duplicated()

0    False
1    False
2     True
3    False
4     True
Name: key1, dtype: bool

In [17]:
# key1のColumnの重複値を削除
# 基本動作: keep = 'first' => 最後にある重複値が削除
df2['key1'].drop_duplicates()

0    a
1    b
3    c
Name: key1, dtype: object

In [18]:
# 最後の値を保持 => keep = 'last' => 先出の重複値が削除
df2['key1'].drop_duplicates(keep='last')

0    a
2    b
4    c
Name: key1, dtype: object

In [19]:
# 重複資料をすべて削除する
df2['key1'].drop_duplicates(keep=False)

0    a
Name: key1, dtype: object

## 欠測値の形式統一と置換

In [20]:
s1 = pd.Series([1, -999, 2, -999, 100, 3, -1000])
s1

0       1
1    -999
2       2
3    -999
4     100
5       3
6   -1000
dtype: int64

In [21]:
import numpy as np

In [22]:
# 欠測値の生成
np.nan

nan

In [23]:
# Pandasで認識する欠測値に変形
# Series.replace(old, new)
# -999 -> NaN
s1.replace(-999, np.nan)

0       1.0
1       NaN
2       2.0
3       NaN
4     100.0
5       3.0
6   -1000.0
dtype: float64

In [24]:
# 複数の値に対して欠測値に変形:リストの中に値を入れる。
s1.replace([-999, -1000], np.nan)

0      1.0
1      NaN
2      2.0
3      NaN
4    100.0
5      3.0
6      NaN
dtype: float64

In [25]:
# 複数の値に対して異なる値に変形 : Dictionary
s1.replace({-999:np.nan, -1000:0})

0      1.0
1      NaN
2      2.0
3      NaN
4    100.0
5      3.0
6      0.0
dtype: float64

## 帆走型データ

#### 1.連続型データをカテゴリー型データに変更

- 例示) 年齢:15、22、67、45、55... ->お年や年齢(誘導変数):10台、20代、30代...
- pd.cut(data, bins|scalar, labels)
    - 与えられた区間または個数に応じてグループを生成する。
    - 数は区間を均等な長さに分ける。
- pd.qcut(data, bins|scalar)
    - 与えられた区間または個数に応じてグループを生成する。
    - 区間は0以上1未満
    - 数は適当な大きさのグループを生成する長さに分ける。

In [29]:
sample = [1, 3, 22, 45, 6, 17, 8, 11, 2, 30, 9]

In [30]:
#1) 区間を指定して範囲を生成する。
# 1区間:0超過10以下:(0、10]
# 2区間:10超過20以下:(10、20]
# 3区間:20超過の30以下:(20、30]
# 4区間::30以上40以下:(30、40]
# 5区間:40超過50以下:(40、50]
bins = [0, 10, 20, 30, 40, 50]

In [31]:
# cut () 返却値 (属性) : codes (範疇に分類された結果) , categories (分類された範囲/区間)
cut1 = pd.cut(sample, bins)

In [32]:
cut1

[(0, 10], (0, 10], (20, 30], (40, 50], (0, 10], ..., (0, 10], (10, 20], (0, 10], (20, 30], (0, 10]]
Length: 11
Categories (5, interval[int64]): [(0, 10] < (10, 20] < (20, 30] < (30, 40] < (40, 50]]

In [33]:
cut1.codes

array([0, 0, 2, 4, 0, 1, 0, 1, 0, 2, 0], dtype=int8)

In [34]:
cut1.categories

IntervalIndex([(0, 10], (10, 20], (20, 30], (30, 40], (40, 50]],
              closed='right',
              dtype='interval[int64]')

In [36]:
# 範疇別の数
pd.value_counts(cut1)

(0, 10]     6
(20, 30]    2
(10, 20]    2
(40, 50]    1
(30, 40]    0
dtype: int64

In [37]:
cut2 = pd.cut(sample, bins, labels=['어린이', '10대', '20대', '30대', '40대'])
cut2

[어린이, 어린이, 20대, 40대, 어린이, ..., 어린이, 10대, 어린이, 20대, 어린이]
Length: 11
Categories (5, object): [어린이 < 10대 < 20대 < 30대 < 40대]

In [38]:
cut2.codes

array([0, 0, 2, 4, 0, 1, 0, 1, 0, 2, 0], dtype=int8)

In [39]:
cut2.categories

Index(['어린이', '10대', '20대', '30대', '40대'], dtype='object')

In [40]:
d = np.random.rand(20)
d

array([0.85683968, 0.22980851, 0.33707125, 0.1308636 , 0.06277942,
       0.72648478, 0.65512663, 0.41198845, 0.73104786, 0.53665098,
       0.95035778, 0.69090603, 0.85943219, 0.52036377, 0.82930199,
       0.15619718, 0.909494  , 0.96011033, 0.96700893, 0.15969692])

In [41]:
# 범위 지정 없이 그냥 4개의 범주로만 분류
cut3 = pd.cut(d, 4)

In [43]:
# もし範囲を表すパラメータに整数を入れたら区間本数を整数本数に分けるようにという意味
# この場合、範囲は最大限属する要素の本数を基準に均等に配る。
# 範囲自体は不均等に(A区間は広くB区間は狭く)分けられることがあるので注意!
cut3

[(0.317, 0.543], (0.0914, 0.317], (0.0914, 0.317], (0.0914, 0.317], (0.768, 0.993], ..., (0.317, 0.543], (0.317, 0.543], (0.0914, 0.317], (0.543, 0.768], (0.0914, 0.317]]
Length: 20
Categories (4, interval[float64]): [(0.0914, 0.317] < (0.317, 0.543] < (0.543, 0.768] < (0.768, 0.993]]

In [44]:
cut3.codes

array([1, 0, 0, 0, 3, 1, 2, 2, 3, 0, 1, 2, 0, 3, 2, 1, 1, 0, 2, 0],
      dtype=int8)

In [42]:
cut3.categories

IntervalIndex([(0.0619, 0.289], (0.289, 0.515], (0.515, 0.741], (0.741, 0.967]],
              closed='right',
              dtype='interval[float64]')

In [43]:
pd.value_counts(cut3)

(0.741, 0.967]     7
(0.515, 0.741]     6
(0.0619, 0.289]    5
(0.289, 0.515]     2
dtype: int64

In [44]:
# 同一のデータをnpqcut()に変更
cut4 = pd.qcut(d, 4)

In [45]:
cut4

[(0.673, 0.857], (0.061799999999999994, 0.31], (0.31, 0.673], (0.061799999999999994, 0.31], (0.061799999999999994, 0.31], ..., (0.061799999999999994, 0.31], (0.857, 0.967], (0.857, 0.967], (0.857, 0.967], (0.061799999999999994, 0.31]]
Length: 20
Categories (4, interval[float64]): [(0.061799999999999994, 0.31] < (0.31, 0.673] < (0.673, 0.857] < (0.857, 0.967]]

In [47]:
cut4.categories

IntervalIndex([(0.061799999999999994, 0.31], (0.31, 0.673], (0.673, 0.857], (0.857, 0.967]],
              closed='right',
              dtype='interval[float64]')

In [48]:
pd.value_counts(cut4)

(0.857, 0.967]                  5
(0.673, 0.857]                  5
(0.31, 0.673]                   5
(0.061799999999999994, 0.31]    5
dtype: int64