# 7장, 데이터 정리 (cleaning)

In [2]:
!pip install -Uqq numpy pandas

In [3]:
import numpy as np
import pandas as pd

## 7.1 누락된 데이터 처리

누락된 데이터 필터링
누락된 데이터 채우기



## 7.2 데이터 변환

### 중복 제거
### 함수 또는 매핑을 사용하여 데이터 변환
### 값 바꾸기
### 축 인덱스 이름 바꾸기
### 이산화 및 비닝
### 이상치 감지 및 필터링


### 순열 및 무작위 샘플링


In [3]:
df = pd.DataFrame(np.arange(5 * 7).reshape((5, 7)))
df

Unnamed: 0,0,1,2,3,4,5,6
0,0,1,2,3,4,5,6
1,7,8,9,10,11,12,13
2,14,15,16,17,18,19,20
3,21,22,23,24,25,26,27
4,28,29,30,31,32,33,34


### 지표/더미 변수 계산



## 7.3 확장 데이터 유형




## 7.4 문자열 조작

Python 내장 문자열 객체 메서드
정규 표현식
판다스의 문자열 함수



## 7.5 범주형 데이터

### 배경 및 동기

In [None]:
fruits = pd.Series(['apple', 'orange', 'apple', 'apple'] * 2)
fruits

# 숫자가 아니라면 타입은 모두 object 이다.  dtype=object

0     apple
1    orange
2     apple
3     apple
4     apple
5    orange
6     apple
7     apple
dtype: object

In [None]:
pd.unique(fruits)

array(['apple', 'orange'], dtype=object)

In [10]:
#pd.value_counts(fruits) # deprecated
fruits.value_counts()

apple     6
orange    2
Name: count, dtype: int64

### 판다스의 범주형 확장 유형

In [28]:
N = len(fruits)
print(N)

rng = np.random.default_rng(seed=12345)
print(rng)

df = pd.DataFrame({'fruit': fruits,
                   'basket_id': np.arange(N),
                   'count': rng.integers(3, 15, size=N),
                   'weight': rng.uniform(0, 4, size=N)},
                  columns=['basket_id', 'fruit', 'count', 'weight'])
df

8
Generator(PCG64)


Unnamed: 0,basket_id,fruit,count,weight
0,0,apple,11,1.564438
1,1,orange,5,1.331256
2,2,apple,12,2.393235
3,3,apple,6,0.746937
4,4,apple,5,2.691024
5,5,orange,12,3.767211
6,6,apple,10,0.992983
7,7,apple,11,3.795525


In [38]:
print(df['fruit'])

# 이 Series 의 타입을 굳이 얘기하자면 여전히 object 이다.
# Name: fruit, dtype: object

print(df.fruit.dtype) # object
df['fruit'].dtype # dtype('O')  # 아마도 Object 를 의미하는 게 아닐까..

0     apple
1    orange
2     apple
3     apple
4     apple
5    orange
6     apple
7     apple
Name: fruit, dtype: object
object


dtype('O')

In [37]:
df['fruit'].describe()

count         8
unique        2
top       apple
freq          6
Name: fruit, dtype: object

In [None]:
print(type(df.fruit.array)) # ... NumpyExtensionArray
df.fruit.array

<class 'pandas.core.arrays.numpy_.NumpyExtensionArray'>


<NumpyExtensionArray>
['apple', 'orange', 'apple', 'apple', 'apple', 'orange', 'apple', 'apple']
Length: 8, dtype: object

In [None]:
# astype() 은 지정한 타입으로 변환하는 일종의 캐스팅 이다.

fruit_cat = df['fruit'].astype('category')

print(type(fruit_cat)) # pd.Series
fruit_cat
# 맨 아래 라인에, 타입을 보여준다. 즉, 타입이 바뀌었음을 확인할 수 있다.
# Name: fruit, dtype: category

<class 'pandas.core.series.Series'>


0     apple
1    orange
2     apple
3     apple
4     apple
5    orange
6     apple
7     apple
Name: fruit, dtype: category
Categories (2, object): ['apple', 'orange']

In [41]:
c = fruit_cat.array
print(type(c))  # pandas.core.arrays.categorical.Categorical
c

# 원래는 NumpyExtension 뭐 이런 클래스였는데, Categorical 로 바뀌었음.

<class 'pandas.core.arrays.categorical.Categorical'>


['apple', 'orange', 'apple', 'apple', 'apple', 'orange', 'apple', 'apple']
Categories (2, object): ['apple', 'orange']

In [None]:
# 두 개의 중요한 속성: categories 와 codes

print(type(c.categories))  # pandas.core.indexes.base.Index
c.categories

<class 'pandas.core.indexes.base.Index'>


Index(['apple', 'orange'], dtype='object')

In [None]:
print(type(c.codes))  # np.ndarray, dtype=int?
c.codes

<class 'numpy.ndarray'>


array([0, 1, 0, 0, 0, 1, 0, 0], dtype=int8)

In [25]:
# 코드와 범주 간의 매핑

dict(enumerate(c.categories))

{0: 'apple', 1: 'orange'}

In [None]:
# 이제 특정 열을, 지금까지 알아본 범주형으로 전환할 수 있다.
df['fruit'] = df['fruit'].astype('category')
df

# 사실 표시되는 내용 만으로는 뭐가 달라졌는지 눈치채긴 어렵다.
# 범주형으로 바뀌어도 표시할 때 code 로 표시하는 것은 아니니까..

Unnamed: 0,basket_id,fruit,count,weight
0,0,apple,11,1.564438
1,1,orange,5,1.331256
2,2,apple,12,2.393235
3,3,apple,6,0.746937
4,4,apple,5,2.691024
5,5,orange,12,3.767211
6,6,apple,10,0.992983
7,7,apple,11,3.795525


In [None]:
df.fruit
# 이렇게 직접 컬럼을 표시해 봐야 타입이 범주형 인지를 알 수 있다.  (dtype: category)

0     apple
1    orange
2     apple
3     apple
4     apple
5    orange
6     apple
7     apple
Name: fruit, dtype: category
Categories (2, object): ['apple', 'orange']

In [None]:
# 범주형 인코딩의 여러 방법들.

# 1. 직접 Categorical 생성자를 사용.
my_categories = pd.Categorical(['foo', 'bar', 'baz', 'foo', 'bar'])
print(my_categories)
print(my_categories.codes) # 이 코드는 내부적으로 결정됨.

['foo', 'bar', 'baz', 'foo', 'bar']
Categories (3, object): ['bar', 'baz', 'foo']
[2 0 1 2 0]


In [None]:
# 코드 할당에 특정한 순서가 있는가??? 알파벳 순서 같기도 하고..
dict(enumerate(my_categories.categories)) # {0: 'bar', 1: 'baz', 2: 'foo'}

{0: 'bar', 1: 'baz', 2: 'foo'}

In [None]:
categories = ['foo', 'bar', 'baz']

codes = [0, 1, 2, 0, 0, 1]

# 이렇게 직접 categories 를 지정하면 리스트 순서대로 코드가 부여되고 있음.
my_cats_2 = pd.Categorical.from_codes(codes, categories)
my_cats_2

['foo', 'bar', 'baz', 'foo', 'foo', 'bar']
Categories (3, object): ['foo', 'bar', 'baz']

In [53]:
dict(enumerate(my_cats_2.categories))  # {0: 'foo', 1: 'bar', 2: 'baz'}

{0: 'foo', 1: 'bar', 2: 'baz'}

In [49]:
# 순서에 따라 바뀌나??
codes = [1, 2, 0, 1, 1, 2]

my_cats_2 = pd.Categorical.from_codes(codes, categories)
my_cats_2

['bar', 'baz', 'foo', 'bar', 'bar', 'baz']
Categories (3, object): ['foo', 'bar', 'baz']

In [None]:
ordered_cat = pd.Categorical.from_codes(codes, categories, ordered=True)
ordered_cat
# 표시 되는 형태로부터 이게 ordered 임을 알 수 있다.
# Categories (3, object): ['foo' < 'bar' < 'baz']

['bar', 'baz', 'foo', 'bar', 'bar', 'baz']
Categories (3, object): ['foo' < 'bar' < 'baz']

In [None]:
# 순서 없는 인스턴스를 순서 있는 타입으로..
my_cats_2.as_ordered()

['bar', 'baz', 'foo', 'bar', 'bar', 'baz']
Categories (3, object): ['foo' < 'bar' < 'baz']

### Categorical 를 사용한 계산


In [57]:
rng = np.random.default_rng(seed=12345)

draws = rng.standard_normal(1000)

draws[:5]
# array([-1.4238,  1.2637, -0.8707, -0.2592, -0.0753])

array([-1.42382504,  1.26372846, -0.87066174, -0.25917323, -0.07534331])

In [None]:
# 비닝
bins = pd.qcut(draws, 4)
# 모든 요소를 4개의 범주로 구분한다. 여기서 범주 (인덱스)는 숫자의 범위가 된다.
# 인덱스가 출력 용으로는 그다지 적합하지 않다.
bins


[(-3.121, -0.675], (0.687, 3.211], (-3.121, -0.675], (-0.675, 0.0134], (-0.675, 0.0134], ..., (0.0134, 0.687], (0.0134, 0.687], (-0.675, 0.0134], (0.0134, 0.687], (-0.675, 0.0134]]
Length: 1000
Categories (4, interval[float64, right]): [(-3.121, -0.675] < (-0.675, 0.0134] < (0.0134, 0.687] < (0.687, 3.211]]

In [60]:
# 그래서 레이블을 지정하는 것이 좋다.
bins = pd.qcut(draws, 4, labels=['Q1', 'Q2', 'Q3', 'Q4'])
bins

['Q1', 'Q4', 'Q1', 'Q2', 'Q2', ..., 'Q3', 'Q3', 'Q2', 'Q3', 'Q2']
Length: 1000
Categories (4, object): ['Q1' < 'Q2' < 'Q3' < 'Q4']

In [None]:
bins.codes[:10]  # 다 표시하면 1000개나 되니까 일부만 출력해 보자.

# codes 는 대부분 dtype=int8 인 것 같다. 범주 수가 127 을 넘지 않으면 그렇게 되는 듯.

array([0, 3, 0, 1, 1, 0, 0, 2, 2, 0], dtype=int8)

In [70]:
# 128 이상으로 만들어 볼까?
c = pd.Categorical([ f'a{i:03}' for i in range(1,130) ])
c.codes[:5], c.codes[-5:]

# 역시나 codes 의 dtype 이 int16 이 되었음.


(array([0, 1, 2, 3, 4], dtype=int16),
 array([124, 125, 126, 127, 128], dtype=int16))

In [None]:
bins = pd.Series(bins, name='quartile')

# 아래 코드는 솔직히 말해 잘 모르기도 하고, 이해하는데 시간이 많이 들 거 같아서 패스!
results = (pd.Series(draws)
            .groupby(bins)
            .agg(['count', 'min', 'max'])
            .reset_index())

In [71]:
pd.Series(draws).groupby(bins)

  pd.Series(draws).groupby(bins)


<pandas.core.groupby.generic.SeriesGroupBy object at 0x11f558100>

### Categorical 을 이용하여 성능 향상

In [72]:
# 요약하자면..
#  1회성 변환 (object -> categorical) 비용을 들여서, 그 이후의 많은 계산에서의 성능의 혜택을 본다는 것임.
#  메모리 사용량 또한 대폭 줄어듬. (당연한 얘기지만..)


### 범주형 메소드

In [None]:
s = pd.Series(['a', 'b', 'c', 'd'] * 2)

cat_s = s.astype('category')
print(type(cat_s))  # pd.Series
cat_s               # dtype: category

<class 'pandas.core.series.Series'>


0    a
1    b
2    c
3    d
4    a
5    b
6    c
7    d
dtype: category
Categories (4, object): ['a', 'b', 'c', 'd']

In [77]:
#  # pandas.core.arrays.categorical.Categorical
print(type(cat_s.array))
cat_s.array


<class 'pandas.core.arrays.categorical.Categorical'>


['a', 'b', 'c', 'd', 'a', 'b', 'c', 'd']
Categories (4, object): ['a', 'b', 'c', 'd']

In [None]:
# 접근자.
print(type(cat_s.cat))
cat_s.cat

# .array 를 이용해 내부의 Categorical 에 직접 접근할 수 있는데도
# 굳이 이렇게 .cat 이라는 Accessor 가 필요한 이유는???

<class 'pandas.core.arrays.categorical.CategoricalAccessor'>


<pandas.core.arrays.categorical.CategoricalAccessor object at 0x11f496e20>

In [79]:
# .cat:  접근자 (accessor) 프로퍼티. 이것을 통해 여러 메소드에 접근 가능.
#
cat_s.cat.codes[:3]  # .code 는 메소드는 아니고 프로퍼티 이지만.

0    0
1    1
2    2
dtype: int8

In [None]:
cat_s.cat.categories # 이것의 타입은 Index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [None]:
cat_s.categ

In [None]:
# 범주 확장
cat_s2 = cat_s.cat.