In [1]:
# pandas 라이브러리 가져오기
import pandas as pd

### 중복값 확인

- 레코드(행) 단위로 동일한 값이 저장된 데이터(레코드)

In [2]:
# 5행 2열 데이터프레임
# 모든 데이터가 범주형인 값으로 사용
# 동일한 데이터가 있도록 중복 적용
df = pd.DataFrame({'key1':['a', 'b', 'b', 'c', 'c'],
                  'key2':['x', 's', 's', 'x', 'y']})
df

Unnamed: 0,key1,key2
0,a,x
1,b,s
2,b,s
3,c,x
4,c,y


In [3]:
# 로우 기준으로 중복값 확인 (key1, key2 각각의 값이 기준이 아님)
# df.duplicated()
# 중복값에 대한 처리 : keep = 'first' (0번 인덱스부터 비교)
# 중복값 중 마지막 값을 중복값으로 표시
df.duplicated()

0    False
1    False
2     True
3    False
4    False
dtype: bool

In [4]:
# 중복값이 있느명 기본적으로는 첫 번째 값이 원본이고 이후 나오는 것이 중복값
# 그러나 keep = 'last'를 입력하면 반대로 마지막에 나오는 값만 원본값 (마지막 인덱스부터 비교)
df.duplicated(keep='last')

0    False
1     True
2    False
3    False
4    False
dtype: bool

In [5]:
# 모든 중복을 True로 변경
# keep = False
df.duplicated(keep=False)

0    False
1     True
2     True
3    False
4    False
dtype: bool

In [6]:
# 1, 2, 3, 4, 5를 데이터프레임으로 가지는 컬럼을 포함하는 데이터프레임
df2 = pd.DataFrame({'key1':['a', 'b', 'b', 'c', 'c'],
                   'key2':['x', 's', 's', 'x', 'y'],
                   'col':[1, 2, 3, 4, 5]})
df2

Unnamed: 0,key1,key2,col
0,a,x,1
1,b,s,2
2,b,s,3
3,c,x,4
4,c,y,5


In [7]:
# 전체 컬럼을 대상으로 중복값 확인하기
# 모든 로우에 중복값 허용
df2.duplicated()

0    False
1    False
2    False
3    False
4    False
dtype: bool

In [8]:
# 특정 컬럼만을 기준으로 중복값 확인하기1
df2[['key1', 'key2']].duplicated()

0    False
1    False
2     True
3    False
4    False
dtype: bool

In [9]:
# 특정 컬럼만을 기준으로 중복값 확인하기2
df2.duplicated(['key1', 'key2'])

0    False
1    False
2     True
3    False
4    False
dtype: bool

In [10]:
# key1을 대상으로 중복값을 확인. 단, 중복 요소는 전부 True로 출력
df2.duplicated(['key1'], keep=False)

0    False
1     True
2     True
3     True
4     True
dtype: bool

In [11]:
df2.duplicated(['key1'])

0    False
1    False
2     True
3    False
4     True
dtype: bool

In [15]:
# key2을 대상으로 중복값을 확인. 단, 중복 요소는 마지막만 True로 출력
df2.duplicated(['key2'], keep='first')

0    False
1    False
2     True
3     True
4    False
dtype: bool

In [14]:
df2.duplicated(['key2'])

0    False
1    False
2     True
3     True
4    False
dtype: bool

### 중복값 삭제

- df.drop_duplicates()

In [16]:
# 전체 데이터에 대해서 중복값 삭제하기
df2.drop_duplicates() # 로우 기준이라서 중복이 없기 때문에 삭제 x

Unnamed: 0,key1,key2,col
0,a,x,1
1,b,s,2
2,b,s,3
3,c,x,4
4,c,y,5


In [17]:
df2['key1'].duplicated()

0    False
1    False
2     True
3    False
4     True
Name: key1, dtype: bool

In [18]:
# key1컬럼의 중복값 삭제
# 기본 동작 : keep = 'first' => 마지막에 있는 중복값이 삭제
df2['key1'].drop_duplicates()

0    a
1    b
3    c
Name: key1, dtype: object

In [19]:
# 마지막 값을 유지 -> keep = 'last' => 먼저 나온 중복값이 삭제
df2['key1'].drop_duplicates(keep='last')

0    a
2    b
4    c
Name: key1, dtype: object

In [20]:
# 중복자료 전체 삭제
df2['key1'].drop_duplicates(keep=False)

0    a
Name: key1, dtype: object

In [25]:
# fancy 인덱싱을 이용해서 key1컬럼의 중복값을 first로 삭제한 결과로 남은 로우를 전체 컬럼으로 출력해주세요
key1_drop = df2['key1'].drop_duplicates(keep='first').index
#df2['col'] = key1_drop
df2.loc[key1_drop]


Unnamed: 0,key1,key2,col
0,a,x,a
1,b,s,
3,c,x,


### 결측값 형식 통일/치환

In [28]:
# 누락데이터가 있는 숫자 값 데이터 생성
# 결측치를 숫자로 표현 : -999, -1000
s1 = pd.Series([1, -999, 2, -999, 100, 3, -1000])
s1

0       1
1    -999
2       2
3    -999
4     100
5       3
6   -1000
dtype: int64

In [29]:
import numpy as np

In [30]:
# 결측값 생성
np.nan

nan

In [32]:
# Pandas에서 인식하는 결측값으로 변형
# Series.replace(old. new)
# -999 -> NaN
#s1.replace(-999, np.nan)
s1.replace(-999, np.nan).isnull()

0    False
1     True
2    False
3     True
4    False
5    False
6    False
dtype: bool

In [33]:
s1.replace(-999, np.nan)

0       1.0
1       NaN
2       2.0
3       NaN
4     100.0
5       3.0
6   -1000.0
dtype: float64

In [34]:
# 여러 개의 값에 대해 결측치로 변환 : 리스트
s1.replace([-999, -1000], np.nan)

0      1.0
1      NaN
2      2.0
3      NaN
4    100.0
5      3.0
6      NaN
dtype: float64

In [35]:
# 여러 개의 값에 대해서 서로 다른 값으로 변형 : 딕셔너리
s1.replace({-999:np.nan, -1000:0})

0      1.0
1      NaN
2      2.0
3      NaN
4    100.0
5      3.0
6      0.0
dtype: float64

### 범주형 데이터

#### 1. 연속형 데이터를 범주형 데이터로 변경

- 예시) 나이 : 15, 22, 67, 45, 55 ... -> 나이대/연령대(유도변수) : 10대, 20대, 30대 ...
- pd.cut(data, bins|scalar, labels)
    - 주어진 구간 또는 개수에 따라 그룹 생성
    - 개수는 구간을 균등한 길이로 나눔
- pd.qcut(data, bins|scalar)
    - 주어진 구간 또는 개수에 따라 그룹 생성
    - 구간은 0 이상 1 미만
    - 개수는 적당한 크기의 그룹을 생성하는 길이로 나눔

In [36]:
# 샘플 데이터 생성
sample = [1, 3, 22, 45, 6, 17, 8, 11, 2, 30, 9]

In [37]:
# 1) 구간을 지정해서 범주 생성
# 1구간 : 0초과 10이하 : (9, 10]
# 2구간 : 10초과 20이하 : (10, 20]
# 3구간 : 20초과 30이하 : (20, 30]
# 4구간 : 30초과 40이하 : (30, 40]
# 5구간 : 40초과 50이하 : (40, 50]
bins = [0, 10, 20, 30, 40, 50]

In [38]:
# cut() 반환값(속성) :codes(범주로 분류된 결과), categories(분류된 범위/구간)
cut1 = pd.cut(sample, bins)

In [39]:
cut1
#[1, 3, 22, 45, 6, 17, 8, 11, 2, 30, 9]

[(0, 10], (0, 10], (20, 30], (40, 50], (0, 10], ..., (0, 10], (10, 20], (0, 10], (20, 30], (0, 10]]
Length: 11
Categories (5, interval[int64]): [(0, 10] < (10, 20] < (20, 30] < (30, 40] < (40, 50]]

In [40]:
# 분류된 범주
cut1.codes

array([0, 0, 2, 4, 0, 1, 0, 1, 0, 2, 0], dtype=int8)

In [41]:
# 범주별 개수
pd.value_counts(cut1)

(0, 10]     6
(20, 30]    2
(10, 20]    2
(40, 50]    1
(30, 40]    0
dtype: int64

In [42]:
# 분류 범주형 성정
# 범주명 개수 = bins 아이템 개수 -1
# pd.cut(data, bins, label)
cut2 = pd.cut(sample, bins, labels=['어린이', '10대', '20대', '30대', '40대'])
cut2

[어린이, 어린이, 20대, 40대, 어린이, ..., 어린이, 10대, 어린이, 20대, 어린이]
Length: 11
Categories (5, object): [어린이 < 10대 < 20대 < 30대 < 40대]

In [43]:
# 분류된 범주
cut2.codes

array([0, 0, 2, 4, 0, 1, 0, 1, 0, 2, 0], dtype=int8)

In [44]:
# 분류된 범위/구간 -> 라벨 설정시 라벨명으로 조회됨
cut2.categories

Index(['어린이', '10대', '20대', '30대', '40대'], dtype='object')

In [45]:
# 0과 1사이의 난수 20개 생성
d = np.random.rand(20)
d

array([0.8414076 , 0.51874596, 0.27663006, 0.02139416, 0.73005986,
       0.02937903, 0.10965832, 0.04463125, 0.62042952, 0.64275842,
       0.27800567, 0.92790328, 0.46754505, 0.74481075, 0.25007657,
       0.28180843, 0.23541634, 0.07596735, 0.34165228, 0.91043166])

In [46]:
# 범위 지정없이 그냥 4개의 범주로만 분류
# 그냥 정수를 두 번째 파라미터로 주면 동등한 범위의 구간으로 나눈다
# 이 경우는 구간별 배정된 요소 개수는 천차만별이다.
cut3 = pd.cut(d, 4)

In [47]:
cut3

[(0.701, 0.928], (0.475, 0.701], (0.248, 0.475], (0.0205, 0.248], (0.701, 0.928], ..., (0.248, 0.475], (0.0205, 0.248], (0.0205, 0.248], (0.248, 0.475], (0.701, 0.928]]
Length: 20
Categories (4, interval[float64]): [(0.0205, 0.248] < (0.248, 0.475] < (0.475, 0.701] < (0.701, 0.928]]

In [49]:
# 분류된 범주
cut3.codes

array([3, 2, 1, 0, 3, 0, 0, 0, 2, 2, 1, 3, 1, 3, 1, 1, 0, 0, 1, 3],
      dtype=int8)

In [50]:
# 분류된 범위/구간
cut3.categories

IntervalIndex([(0.0205, 0.248], (0.248, 0.475], (0.475, 0.701], (0.701, 0.928]],
              closed='right',
              dtype='interval[float64]')

In [51]:
# 범주별 개수
pd.value_counts(cut3)

(0.248, 0.475]     6
(0.0205, 0.248]    6
(0.701, 0.928]     5
(0.475, 0.701]     3
dtype: int64

In [52]:
# 동일한 데이터를 np.qcut()으로 변경
cut4 = pd.qcut(d, 4)

In [53]:
cut4

[(0.665, 0.928], (0.312, 0.665], (0.204, 0.312], (0.020399999999999998, 0.204], (0.665, 0.928], ..., (0.204, 0.312], (0.204, 0.312], (0.020399999999999998, 0.204], (0.312, 0.665], (0.665, 0.928]]
Length: 20
Categories (4, interval[float64]): [(0.020399999999999998, 0.204] < (0.204, 0.312] < (0.312, 0.665] < (0.665, 0.928]]

In [54]:
# 분류된 범위 / 구간
cut4.categories

IntervalIndex([(0.020399999999999998, 0.204], (0.204, 0.312], (0.312, 0.665], (0.665, 0.928]],
              closed='right',
              dtype='interval[float64]')

In [55]:
# 범주별 개수
pd.value_counts(cut4)

(0.665, 0.928]                   5
(0.312, 0.665]                   5
(0.204, 0.312]                   5
(0.020399999999999998, 0.204]    5
dtype: int64