In [1]:
import pandas as pd
import numpy as np

## 중복값 확인
- 레코드(행)단위로 동일한 값이 저장된 데이터(레코드)

In [5]:
# 5행 2열 데이터프레임
# 모든 데이터가 범주형인 값으로 사용
# 동일한 레코드가 있도록 중복 적용
df=pd.DataFrame({'key1':list('abcbb'),'key2':list('xxyzz')})
df

Unnamed: 0,key1,key2
0,a,x
1,b,x
2,c,y
3,b,z
4,b,z


In [9]:
# 로우 기준으로 중복값 확인
# df.duplicated(keep='first')
df.duplicated()

0    False
1    False
2    False
3    False
4     True
dtype: bool

In [11]:
# 모든 중복값에 대해 True
# keep = False
df.duplicated(keep=False).sum()

2

In [12]:
# 1,2,3,4,5
df['key3']=[1,2,3,4,5]

In [13]:
df

Unnamed: 0,key1,key2,key3
0,a,x,1
1,b,x,2
2,c,y,3
3,b,z,4
4,b,z,5


In [14]:
df.duplicated(keep=False)

0    False
1    False
2    False
3    False
4    False
dtype: bool

In [15]:
# 특정 컬럼들 기준으로 중복값 확인1
df[['key1','key2']].duplicated()

0    False
1    False
2    False
3    False
4     True
dtype: bool

In [17]:
df.duplicated(['key1','key2'])

0    False
1    False
2    False
3    False
4     True
dtype: bool

In [22]:
# 하나의 컬럼 기준으로 중복값 확인하기1
df['key1'][df['key1'].duplicated(keep=False)]

1    b
3    b
4    b
Name: key1, dtype: object

In [23]:
df['key1'].value_counts()

b    3
c    1
a    1
Name: key1, dtype: int64

In [24]:
# 하나의 컬럼 기준으로 중복값 확인하기2
# keep='first'(default)/'last'
df.duplicated('key1',keep=False)

0    False
1     True
2    False
3     True
4     True
dtype: bool

## 중복값 삭제
- df.drop_duplicates()

In [27]:
df

Unnamed: 0,key1,key2,key3
0,a,x,1
1,b,x,2
2,c,y,3
3,b,z,4
4,b,z,5


In [26]:
# keep="first"
# 전체 데이터에 대해서 중복값 삭제하기
df[['key1','key2']].drop_duplicates()

Unnamed: 0,key1,key2
0,a,x
1,b,x
2,c,y
3,b,z


In [28]:
# key1 컬럼의 중복값 삭제
# 기본동작: 첫 중복값을 유지하고 나머지는 삭제
df['key1'].drop_duplicates()

0    a
1    b
2    c
Name: key1, dtype: object

In [29]:
# 모든 중복 삭제
# 중복이 없는 데이터 확인
df['key1'].drop_duplicates(keep=False)

0    a
2    c
Name: key1, dtype: object

## 결측값 형식 통일 / 치환

In [32]:
# 누락데이터가 있는 숫자 값 데이터 생성
# 결측치를 숫자로 표현: -9999 , -10000
s1=pd.Series([1,2,-9999,3,4,-9999,5,-9999])
s1

0       1
1       2
2   -9999
3       3
4       4
5   -9999
6       5
7   -9999
dtype: int64

In [33]:
# 결측치 값 생성
np.nan

nan

In [34]:
# pandas 에서 인식하는 결측치로 변형
# -9999 => np.nan
s1.replace(-9999,np.nan,inplace=True)

In [35]:
s1

0    1.0
1    2.0
2    NaN
3    3.0
4    4.0
5    NaN
6    5.0
7    NaN
dtype: float64

In [36]:
s2=pd.Series([1,2,-999,3,4,-9999,5,-10000])

In [37]:
# 여러 개의 값에 대해 결측치로 변형: 리스트
s2.replace([-999,-9999,-10000],np.nan,inplace=True)

In [38]:
s2

0    1.0
1    2.0
2    NaN
3    3.0
4    4.0
5    NaN
6    5.0
7    NaN
dtype: float64

In [39]:
# 여러개의 값에 대해 결측치로 변형2: 딕셔너리
s2.replace({-999:np.nan,-9999:np.nan,-10000:np.nan},inplace=True)

In [40]:
s2

0    1.0
1    2.0
2    NaN
3    3.0
4    4.0
5    NaN
6    5.0
7    NaN
dtype: float64

## 범주형 데이터
### 1. 연속형 데이터를 범주형 데이터로 변경
- 예시) 나이: 15,22,67,45,55...->나이대/연령대(유도변수):10대,20대...
- pd.cut(data,bins|scalar,labels)
    - 주어진 구간 또는 개수에 따라 그룹 생성
    - 개수는 구간을 균등한 길이로 나눔
    - 동등한 구간
- pd.qcut(data,bins|scalar)
    - 주어진 구간 도는 개수에 따라 그룹 생성
    - 구간은 0이상 1미만
    - 개수는 적당한 크기의 그룹을 생성하는 길이로 나눔
    - 동등한 개수

In [41]:
# 샘플 데이터 생성
sample=np.random.randint(20,size=20)
sample

array([ 6, 19, 17,  4,  5,  2, 17,  8, 12,  3,  0,  8, 16, 18, 14,  6,  3,
       19,  6,  0])

In [55]:
# pd.cut()
# 구간: bins=[5,10,15,20]
# 구간을 지정해서 범주 생성
# 0초과 5미만 : (0:5]
# 5초과10이하 : (5:10]
# 10초과15이하 : (10:15]
# 15초과 20미만 : (15:20]
bins=[0,5,10,15,20]

In [56]:
pd.cut(sample,bins)

[(5, 10], (15, 20], (15, 20], (0, 5], (0, 5], ..., (5, 10], (0, 5], (15, 20], (5, 10], NaN]
Length: 20
Categories (4, interval[int64]): [(0, 5] < (5, 10] < (10, 15] < (15, 20]]

In [57]:
result1=pd.cut(sample,bins)

In [58]:
# 분류된 범주 : codes
result1.codes

array([ 1,  3,  3,  0,  0,  0,  3,  1,  2,  0, -1,  1,  3,  3,  2,  1,  0,
        3,  1, -1], dtype=int8)

In [59]:
# 분류된 범위/구간
result1.categories

IntervalIndex([(0, 5], (5, 10], (10, 15], (15, 20]]
              closed='right',
              dtype='interval[int64]')

In [60]:
# 범주별 개수
result1.value_counts()

(0, 5]      5
(5, 10]     5
(10, 15]    2
(15, 20]    6
dtype: int64

In [61]:
pd.value_counts(result1)

(15, 20]    6
(5, 10]     5
(0, 5]      5
(10, 15]    2
dtype: int64

In [62]:
# 분류 범주명 설정
# labels
# 범주명 개수 = len(bins)-1
result2=pd.cut(sample,bins,labels=list('ABCD'))
result2.codes

array([ 1,  3,  3,  0,  0,  0,  3,  1,  2,  0, -1,  1,  3,  3,  2,  1,  0,
        3,  1, -1], dtype=int8)

In [63]:
result2.categories

Index(['A', 'B', 'C', 'D'], dtype='object')

In [64]:
result2.value_counts()

A    5
B    5
C    2
D    6
dtype: int64

In [65]:
# 최종 분류하려는 범주의 개수가 정해져 있고
# 범주 간의 간격이 동일한 경우
result3=pd.cut(sample,4)

In [70]:
result3.value_counts()

(-0.019, 4.75]    6
(4.75, 9.5]       6
(9.5, 14.25]      2
(14.25, 19.0]     6
dtype: int64

In [71]:
# pd.qcut()
result4=pd.qcut(sample,4)

In [73]:
result4.categories

IntervalIndex([(-0.001, 3.75], (3.75, 7.0], (7.0, 16.25], (16.25, 19.0]]
              closed='right',
              dtype='interval[float64]')

In [75]:
result4.value_counts()

(-0.001, 3.75]    5
(3.75, 7.0]       5
(7.0, 16.25]      5
(16.25, 19.0]     5
dtype: int64

### 2. sklearn 라이브러리를 이용한 범주형 데이터 생성
- LabelEncoder(): 문자형 범주를 숫자형 변주로 변환
    - fit_transform(): 범주형 데이터로 변환해서 반환
    - inverse_transform(): 변환된 결과를 원래 데이터로 복구
- OneHotEncoder(): 범주형 데이터를 원핫인코딩을 적용하여 모델 입력값으로 사용할수 있게 반환
    - fit_transform()
    - invers_transform()

In [77]:
from sklearn.preprocessing import LabelEncoder,OneHotEncoder

In [79]:
# 샘플데이터 생성
# 3*4
# 컬럼 : color, size1,size2,label_name
data=[['green','M','10','label1'],
     ['red','XL','label2'],
     ['black','L','label3'],
     ]
df=pd.DataFrame(data,columns=['color','size1','size2','label_name'])
df

Unnamed: 0,color,size1,size2,label_name
0,green,M,10,label1
1,red,XL,label2,
2,black,L,label3,


In [80]:
# LabelEncoder
encoder=LabelEncoder()

In [81]:
# fit
encoder.fit(df['color'])

LabelEncoder()

In [82]:
# fit 결과
encoder.classes_

array(['black', 'green', 'red'], dtype=object)

In [83]:
# fit() 실행한 객체에 대해 변환된 결과를 반환
encoder.transform(df['color'])

array([1, 2, 0])

In [86]:
y=encoder.fit_transform(df['size1'])

In [87]:
# ㅇ원본 데이터로 복구
encoder.inverse_transform(y)

array(['M', 'XL', 'L'], dtype=object)

In [88]:
# OneHotEncoder
OHE=OneHotEncoder()

In [91]:
# fit_transform()
tmp=OHE.fit_transform(df['size1'].values.reshape(-1,1)).toarray()

In [92]:
pd.DataFrame(tmp)

Unnamed: 0,0,1,2
0,0.0,1.0,0.0
1,0.0,0.0,1.0
2,1.0,0.0,0.0
