# Chapter 12 고급 pandas

## 12.1 Categorical 데이터

- 이 절에서는 pandas의 Categorical형을 활용하여 pandas 메모리 사용량을 줄이고 성능을 개선할 수 있는 방법을 소개함.  
- 통계와 머신러닝에서 범주형 데이터를 활용하기 위한 도구들도 함께 소개.

### 12.1.1 개발 배경과 동기

- 하나의 컬럼 내 특정 값이 반복되어 존재하는 경우는 흔하다.  
- 우리는 이미 배열 내에서 유일한 값을 추출하거나 특정 값이 얼마나 많이 존재하는지 확인할 수 있는 unique와 value_counts 같은 메서드를 공부했음.

In [2]:
import numpy as np; import pandas as pd

values = pd.Series(['apple', 'orange', 'apple', 'apple'] * 2)
values

0     apple
1    orange
2     apple
3     apple
4     apple
5    orange
6     apple
7     apple
dtype: object

In [8]:
values.unique()

array(['apple', 'orange'], dtype=object)

In [6]:
values.value_counts()

apple     6
orange    2
dtype: int64

> 데이터웨어하우스, 분석 컴퓨팅 외 여러 다양한 데이터 시스템은 중복되는 데이터를 얼마나 효율적으로 저장하고 계산할 수 있는가를 중점으로 개발되었다.  
> 데이터웨어하우스의 경우 구별되는 값을 담고 있는 `차원 테이블`과 그 테이블을 참조하는 정수키를 사용하는 것이 일반적이다.

In [9]:
values = pd.Series([0, 1, 0, 0] * 2)
dim = pd.Series(['apple', 'orange'])

> take 메서드를 사용하면 Series 내에 저장된 원래 문자열을 구할 수 있다.

In [10]:
dim.take(values)

0     apple
1    orange
0     apple
0     apple
0     apple
1    orange
0     apple
0     apple
dtype: object

> 여기서 정수로 표현된 값은 `범주형` 또는 `사전형 표기법`이라고 한다.  
> 별개의 값을 담고 있는 배열은 `범주, 사전` 또는 `단계 데이터`라고 부른다.  
> 범주형 표기법을 사용하면 분석 작업에 있어서 엄청난 성능 향상을 얻을 수 있다.  
> 범주 코드를 변경하지 않은 채로 범주형 데이터를 변형하는 것도 가능하다.
> 비교적 적은 연산으로 수행할 수 있는 변형의 예는 다음과 같다.
> - 범주형 데이터의 이름 변경하기
> - 기존 범주형 데이터의 순서를 바꾸지 않고 새로운 범주 추가하기

### 12.1.2 pandas의 Categorical

> pandas에는 정수 기반의 범주형 데이터를 표현 (또는 `인코딩`)할 수 있는 Categorical 형이라고 하는 특수한 데이터형이 존재한다.

In [17]:
fruits = ['apple', 'orange', 'apple', 'apple'] * 2
N = len(fruits)
df = pd.DataFrame({'fruit' : fruits,
                   'basket_id' : np.arange(N),
                   'count' : np.random.randint(3, 15, size = N),
                   'weight' : np.random.uniform(0, 4, size = N)},
                   columns = ['basket_id', 'fruit', 'count', 'weight'])
df

Unnamed: 0,basket_id,fruit,count,weight
0,0,apple,6,0.014001
1,1,orange,10,0.766656
2,2,apple,4,0.054967
3,3,apple,10,2.944163
4,4,apple,7,0.798413
5,5,orange,11,1.983021
6,6,apple,13,3.921766
7,7,apple,7,0.370441


> df['fruit']는 파이썬 문자열 객체의 배열로, 아래 방법으로 쉽게 범주형 데이터로 변경할 수 있다.  

In [20]:
fruit_cat = df['fruit'].astype('category')
fruit_cat

0     apple
1    orange
2     apple
3     apple
4     apple
5    orange
6     apple
7     apple
Name: fruit, dtype: category
Categories (2, object): ['apple', 'orange']

> fruit_cat의 값은 NumPy 배열이 아니라 pandas.Categorical의 인스턴스다.

In [22]:
c = fruit_cat.values
type(c)

pandas.core.arrays.categorical.Categorical

> Categorical 객체는 categories와 codes 속성을 가진다.

In [26]:
c.categories

Index(['apple', 'orange'], dtype='object')

In [27]:
c.codes

array([0, 1, 0, 0, 0, 1, 0, 0], dtype=int8)

> 변경 완료된 값을 대입함으로써 DataFrame의 컬럼을 범주형으로 변경할 수 있다.

In [29]:
df['fruit'] = df['fruit'].astype('category')
df.fruit

0     apple
1    orange
2     apple
3     apple
4     apple
5    orange
6     apple
7     apple
Name: fruit, dtype: category
Categories (2, object): ['apple', 'orange']

> 파이썬 열거형에서 pandas.Categorical 형을 직접 생성하는 것도 가능하다.

In [32]:
my_categories = pd.Categorical(['foo', 'bar', 'baz', 'foo', 'bar'])
my_categories

['foo', 'bar', 'baz', 'foo', 'bar']
Categories (3, object): ['bar', 'baz', 'foo']

> 기존에 정의된 범주와 범주 코드가 잇다면 from_codes 함수를 이용해서 범주형 데이터를 생성하는 것도 가능하다.

In [36]:
categories = ['foo', 'bar', 'baz']
codes = [0, 1, 2, 0, 0, 1]
my_cats_2 = pd.Categorical.from_codes(codes, categories)
my_cats_2

['foo', 'bar', 'baz', 'foo', 'foo', 'bar']
Categories (3, object): ['foo', 'bar', 'baz']

> 범주형으로 변경하는 경우 명시적으로 지정하지 않는 한 특정 순서를 보장하지 않는다.  
> 따라서 categories 배열은 입력 데이터의 순서에 따라 다른 순서로 나타날 수 있다.  
> from_codes를 사용하거나 다른 범주형 데이터 생성자를 이용하는 경우 순서를 지정할 수 있다.


In [39]:
ordered_cat = pd.Categorical.from_codes(codes, categories,
                                        ordered = True)
ordered_cat

['foo', 'bar', 'baz', 'foo', 'foo', 'bar']
Categories (3, object): ['foo' < 'bar' < 'baz']

> 순서가 없는 범주형 인스턴스는 as_ordered 메서드를 이용해 순서를 가지도록 만들 수 있다.

In [40]:
my_cats_2.as_ordered()

['foo', 'bar', 'baz', 'foo', 'foo', 'bar']
Categories (3, object): ['foo' < 'bar' < 'baz']

### 12.1.3 Categorical 연산

- pandas에서 Categorical은 문자열 배열처럼 인코딩되지 않은 자료형을 사용하는 방식과 거의 유사하게 사용할 수 있다.  
- groupby 같은 일부 pandas 함수는 범주형 데이터에 사용할 때 더 나은 성능을 보여준다.  
- ordered 플래그를 활용하는 함수들도 마찬가지다.

> 임의의 숫자 데이터를 pandas.qcut 함수로 구분해보자. 그렇게 하면 pandas.Categorical 객체를 반환한다.

In [41]:
np.random.seed(12345)

draws = np.random.rand(1000)

draws[:5]

array([0.92961609, 0.31637555, 0.18391881, 0.20456028, 0.56772503])