In [1]:
import pandas as pd

In [2]:
drinks = pd.read_csv('http://bit.ly/drinksbycountry')

In [3]:
drinks.head()

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continent
0,Afghanistan,0,0,0,0.0,Asia
1,Albania,89,132,54,4.9,Europe
2,Algeria,25,0,14,0.7,Africa
3,Andorra,245,138,312,12.4,Europe
4,Angola,217,57,45,5.9,Africa


In [6]:
drinks.info()
# 메모리가 9.1+KB인 것에 주목한다
# 여기서 object는 String이고, pandas는 단순히 래퍼이다.
# 실제로 object의 실제 크기를 보지는 않고, 최소치만 명시한 것이다.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 193 entries, 0 to 192
Data columns (total 6 columns):
country                         193 non-null object
beer_servings                   193 non-null int64
spirit_servings                 193 non-null int64
wine_servings                   193 non-null int64
total_litres_of_pure_alcohol    193 non-null float64
continent                       193 non-null object
dtypes: float64(1), int64(3), object(2)
memory usage: 9.1+ KB


In [7]:
drinks.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 193 entries, 0 to 192
Data columns (total 6 columns):
country                         193 non-null object
beer_servings                   193 non-null int64
spirit_servings                 193 non-null int64
wine_servings                   193 non-null int64
total_litres_of_pure_alcohol    193 non-null float64
continent                       193 non-null object
dtypes: float64(1), int64(3), object(2)
memory usage: 25.9 KB


In [10]:
# 특정 시리즈(로우나 컬럼)의 사이즈는?
drinks.memory_usage(deep=True)
# 단위는 byte

Index                              72
country                         10272
beer_servings                    1544
spirit_servings                  1544
wine_servings                    1544
total_litres_of_pure_alcohol     1544
continent                       10016
dtype: int64

In [14]:
drinks.memory_usage(deep=True).sum()

26536

In [18]:
sorted(drinks.continent.unique())

['Africa', 'Asia', 'Europe', 'North America', 'Oceania', 'South America']

In [19]:
drinks.continent.head()

0      Asia
1    Europe
2    Africa
3    Europe
4    Africa
Name: continent, dtype: object

In [20]:
# 시리즈에 포함된 문자열을 딕셔너리로 바꿀 수 있다면, 사이즈를 더 줄일 수 있을 것이다
# 이럴 때 카테고리 타입이 유용하다

In [21]:
drinks['continent'] = drinks.continent.astype('category')

In [24]:
drinks.dtypes
# continent가 category 타입으로 바뀌었다

country                           object
beer_servings                      int64
spirit_servings                    int64
wine_servings                      int64
total_litres_of_pure_alcohol     float64
continent                       category
dtype: object

In [26]:
drinks.continent.head()

# dtype이 category로 바뀌었다
# 실제로 저장될 땐, 딕셔너리 형태로 저장된다

0      Asia
1    Europe
2    Africa
3    Europe
4    Africa
Name: continent, dtype: category
Categories (6, object): [Africa, Asia, Europe, North America, Oceania, South America]

In [29]:
# 카테고리 메서드를 사용할 땐, cat 속성을 사용한다
drinks.continent.cat.codes.head()

0    1
1    2
2    0
3    2
4    0
dtype: int8

In [31]:
drinks.memory_usage(deep=True)
# continent 사이즈가 크게 줄었다

Index                              72
country                         10272
beer_servings                    1544
spirit_servings                  1544
wine_servings                    1544
total_litres_of_pure_alcohol     1544
continent                         512
dtype: int64

In [36]:
# country 값도 변경해보자
drinks['country'] = drinks.country.astype('category')

In [38]:
drinks.memory_usage(deep=True)

# country의 사이즈는 더 커졌다
# 시리즈의 값 중에 중복되는 값이 없었기 때문이다.

Index                              72
country                         10658
beer_servings                    1544
spirit_servings                  1544
wine_servings                    1544
total_litres_of_pure_alcohol     1544
continent                         512
dtype: int64

In [40]:
drinks.country.cat.categories

Index([u'Afghanistan', u'Albania', u'Algeria', u'Andorra', u'Angola',
       u'Antigua & Barbuda', u'Argentina', u'Armenia', u'Australia',
       u'Austria',
       ...
       u'United Arab Emirates', u'United Kingdom', u'Uruguay', u'Uzbekistan',
       u'Vanuatu', u'Venezuela', u'Vietnam', u'Yemen', u'Zambia', u'Zimbabwe'],
      dtype='object', length=193)

In [42]:
# 시리즈의 값이 몇 개의 데이터로 중복된다면 카테고리를 사용하는 것이 좋다
# 사이즈가 줄어들 뿐 아니라, 연산 속도도 빨라진다 (인티저 연산이기 때문)

In [62]:
df = pd.DataFrame({'ID':[100, 101, 102, 103], 'quality':['good', 'very good', 'good', 'excellent']})

In [63]:
df

Unnamed: 0,ID,quality
0,100,good
1,101,very good
2,102,good
3,103,excellent


In [64]:
df.sort_values('quality')

Unnamed: 0,ID,quality
3,103,excellent
0,100,good
2,102,good
1,101,very good


In [65]:
# 카테고리를 정의한 순서대로 정렬하고 싶다면?
# 타입을 변경할 때, 카테고리를 명시하고 ordered 값을 준다
df['quality'] = df.quality.astype('category', categories=['good', 'very good', 'excellent'], ordered=True)

In [71]:
df.quality

# 카테고리에 순서가 정해진 것을 볼 수 있다

0         good
1    very good
2         good
3    excellent
Name: quality, dtype: category
Categories (3, object): [good < very good < excellent]

In [72]:
# 카테고리 순으로 정렬할 수 있고,
df.sort_values('quality')

Unnamed: 0,ID,quality
0,100,good
2,102,good
1,101,very good
3,103,excellent


In [73]:
# 카테고리로 비교 연산을 할 수도 있다
df.loc[df.quality > 'good', :]

Unnamed: 0,ID,quality
1,101,very good
3,103,excellent
