## Prerequisites

In [2]:
import pandas as pd

In [6]:
data = [
    {'분류': 'IT회사', '회사명': '네이버', '직군': '디자이너', '이름': '김성훈', '연봉': 5000, '연차': 3},
    {'분류': 'IT회사', '회사명': '네이버', '직군': '개발자', '이름': '양세민', '연봉': 6000, '연차': 5},
    {'분류': 'IT회사', '회사명': '카카오', '직군': '개발자', '이름': '최양미', '연봉': 6000, '연차': 5},
    {'분류': 'IT회사', '회사명': 'SK플래닛', '직군': '디자이너', '이름': '남성필', '연봉': 5500, '연차': 4},
    {'분류': '금융회사', '회사명': 'KB금융', '직군': '개발자', '이름': '강민우', '연봉': 4500, '연차': 2},
]

data = pd.DataFrame(data)
data = data[["분류", "회사명", "직군", "이름", "연봉", "연차"]]
data = data.set_index("이름")

data

Unnamed: 0_level_0,분류,회사명,직군,연봉,연차
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
김성훈,IT회사,네이버,디자이너,5000,3
양세민,IT회사,네이버,개발자,6000,5
최양미,IT회사,카카오,개발자,6000,5
남성필,IT회사,SK플래닛,디자이너,5500,4
강민우,금융회사,KB금융,개발자,4500,2


### Group By

[groupby](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.groupby.html)는 데이터프레임의 특정 컬럼(내지는 컬럼들)을 그룹화합니다. groupby의 특징은, groupby 자신만으로는 아무런 결과가 나오지 않습니다. groupby를 한 이후의 행동(ex: sum, mean, diff, etc)에 따라 결과가 다르게 나옵니다.

그러므로 groupby를 이해하는 가장 좋은 방법은, groupby만이 아닌 groupby와 연관되는 다른 기능들을 통채로 외워서 사용하는 것입니다. (groupby-sum, groupby-mean, etc)

In [7]:
# '분류' 컬럼으로 그룹화
group_category = data.groupby('분류')
group_category

<pandas.core.groupby.DataFrameGroupBy object at 0x11010b048>

In [8]:
group_category.keys

'분류'

In [16]:
# data['분류']
# data.groupby('분류').nunique()
# data['분류'].value_counts()

In [17]:
# '분류' 컬럼의 값을 기준으로 그룹화
# 현재 분류 컬럼에는 1) IT회사, 2) 금융회사 이렇게 두 개의 값이 있음
group_category.groups

{'IT회사': Index(['김성훈', '양세민', '최양미', '남성필'], dtype='object', name='이름'),
 '금융회사': Index(['강민우'], dtype='object', name='이름')}

In [18]:
# 간단한 통계정보
group_category.describe()

Unnamed: 0_level_0,연봉,연봉,연봉,연봉,연봉,연봉,연봉,연봉,연차,연차,연차,연차,연차,연차,연차,연차
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
분류,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
IT회사,4.0,5625.0,478.713554,5000.0,5375.0,5750.0,6000.0,6000.0,4.0,4.25,0.957427,3.0,3.75,4.5,5.0,5.0
금융회사,1.0,4500.0,,4500.0,4500.0,4500.0,4500.0,4500.0,1.0,2.0,,2.0,2.0,2.0,2.0,2.0


In [19]:
# 특정 컬럼의 통계정보
group_category["연봉"].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
분류,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
IT회사,4.0,5625.0,478.713554,5000.0,5375.0,5750.0,6000.0,6000.0
금융회사,1.0,4500.0,,4500.0,4500.0,4500.0,4500.0,4500.0


In [20]:
group_category["연차"].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
분류,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
IT회사,4.0,4.25,0.957427,3.0,3.75,4.5,5.0,5.0
금융회사,1.0,2.0,,2.0,2.0,2.0,2.0,2.0


In [21]:
# 전체 통계 정보가 아닌 일부(ex: mean, sum)만 보는 것도 가능
group_category.mean()

Unnamed: 0_level_0,연봉,연차
분류,Unnamed: 1_level_1,Unnamed: 2_level_1
IT회사,5625.0,4.25
금융회사,4500.0,2.0


In [22]:
group_category.sum()

Unnamed: 0_level_0,연봉,연차
분류,Unnamed: 1_level_1,Unnamed: 2_level_1
IT회사,22500,17
금융회사,4500,2


In [23]:
# 그룹화는 한 컬럼이 아닌 여러 컬럼도 가능.
# 나머지 기능들은 이전과 거의 동일

group_company = data.groupby(['분류', '회사명'])
group_company

<pandas.core.groupby.DataFrameGroupBy object at 0x1102a1c18>

In [24]:
group_company.keys

['분류', '회사명']

In [25]:
group_company.groups

{('IT회사', 'SK플래닛'): Index(['남성필'], dtype='object', name='이름'),
 ('IT회사', '네이버'): Index(['김성훈', '양세민'], dtype='object', name='이름'),
 ('IT회사', '카카오'): Index(['최양미'], dtype='object', name='이름'),
 ('금융회사', 'KB금융'): Index(['강민우'], dtype='object', name='이름')}

In [26]:
group_company.describe()

Unnamed: 0_level_0,Unnamed: 1_level_0,연봉,연봉,연봉,연봉,연봉,연봉,연봉,연봉,연차,연차,연차,연차,연차,연차,연차,연차
Unnamed: 0_level_1,Unnamed: 1_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
분류,회사명,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2
IT회사,SK플래닛,1.0,5500.0,,5500.0,5500.0,5500.0,5500.0,5500.0,1.0,4.0,,4.0,4.0,4.0,4.0,4.0
IT회사,네이버,2.0,5500.0,707.106781,5000.0,5250.0,5500.0,5750.0,6000.0,2.0,4.0,1.414214,3.0,3.5,4.0,4.5,5.0
IT회사,카카오,1.0,6000.0,,6000.0,6000.0,6000.0,6000.0,6000.0,1.0,5.0,,5.0,5.0,5.0,5.0,5.0
금융회사,KB금융,1.0,4500.0,,4500.0,4500.0,4500.0,4500.0,4500.0,1.0,2.0,,2.0,2.0,2.0,2.0,2.0


In [27]:
group_company["연봉"].describe()

Unnamed: 0_level_0,Unnamed: 1_level_0,count,mean,std,min,25%,50%,75%,max
분류,회사명,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
IT회사,SK플래닛,1.0,5500.0,,5500.0,5500.0,5500.0,5500.0,5500.0
IT회사,네이버,2.0,5500.0,707.106781,5000.0,5250.0,5500.0,5750.0,6000.0
IT회사,카카오,1.0,6000.0,,6000.0,6000.0,6000.0,6000.0,6000.0
금융회사,KB금융,1.0,4500.0,,4500.0,4500.0,4500.0,4500.0,4500.0


In [28]:
group_company.mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,연봉,연차
분류,회사명,Unnamed: 2_level_1,Unnamed: 3_level_1
IT회사,SK플래닛,5500,4
IT회사,네이버,5500,4
IT회사,카카오,6000,5
금융회사,KB금융,4500,2


In [29]:
group_company.sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,연봉,연차
분류,회사명,Unnamed: 2_level_1,Unnamed: 3_level_1
IT회사,SK플래닛,5500,4
IT회사,네이버,11000,8
IT회사,카카오,6000,5
금융회사,KB금융,4500,2


### Crosstabs

[crosstab](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.crosstab.html)은 판다스를 활용한 통계분석에서 굉장히 요긴하게 쓰이는 기능 중 하나입니다. X축과 Y축에 Series(내지는 여러 개의 Series)을 지정하면 두 축의 값에 동시에 해당하는 데이터의 갯수를 셉니다.

In [30]:
# 분류와 직군으로 crosstab
# 이 경우 1) IT회사 / 금융회사, 3) 개발자 / 디자이너에 해당하는 사람의 총 인원수가 나옴

pd.crosstab(data['분류'], data['직군'])

직군,개발자,디자이너
분류,Unnamed: 1_level_1,Unnamed: 2_level_1
IT회사,2,2
금융회사,1,0


In [17]:
# margin 옵션으로 X축과 Y축의 누적합을 줄 수 있습니다.
pd.crosstab(data['분류'], data['직군'], margins=True)

직군,개발자,디자이너,All
분류,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
IT회사,2,2,4
금융회사,1,0,1
All,3,2,5


In [18]:
# X축과 Y축에 여러 개의 Series를 집어넣을 수도 있습니다.
pd.crosstab([data['분류'], data['회사명']], data['직군'])

Unnamed: 0_level_0,직군,개발자,디자이너
분류,회사명,Unnamed: 2_level_1,Unnamed: 3_level_1
IT회사,SK플래닛,0,1
IT회사,네이버,1,1
IT회사,카카오,1,0
금융회사,KB금융,1,0


In [19]:
# apply를 활용하여 누적합이 아닌 평균(mean)을 계산하는 것도 가능합니다.
tab = pd.crosstab([data['분류']], data['직군'])
tab = tab.apply(lambda r: r.mean() / r.sum(), axis=1)
tab

분류
IT회사    0.5
금융회사    0.5
dtype: float64

### pivot_table

[pivot_table](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.pivot_table.html)은 우리가 엑셀에서 자주 사용하는 pivot table과 거의 유사합니다. 데이터를 넣고 가로(values)와 세로(index)에 컬럼을 지정하면, index와 values에 모두 일치하는 값들의 누적 합(sum)이나 평균(mean) 등을 계산해줍니다.

In [20]:
# 분류 컬럼을 기준으로 연봉과 연차의 평균(mean)을 구합니다.
pd.pivot_table(data, index="분류")

Unnamed: 0_level_0,연봉,연차
분류,Unnamed: 1_level_1,Unnamed: 2_level_1
IT회사,5625.0,4.25
금융회사,4500.0,2.0


In [21]:
# 여러 개의 컬럼을 index로 넣을 수도 있습니다.
pd.pivot_table(data, index=["분류", "회사명"])

Unnamed: 0_level_0,Unnamed: 1_level_0,연봉,연차
분류,회사명,Unnamed: 2_level_1,Unnamed: 3_level_1
IT회사,SK플래닛,5500,4
IT회사,네이버,5500,4
IT회사,카카오,6000,5
금융회사,KB금융,4500,2


In [22]:
# values도 전부 볼 필요 없이 특정 컬럼만 지정 가능합니다.
pd.pivot_table(data, index=["분류", "회사명"], values="연봉")

Unnamed: 0_level_0,Unnamed: 1_level_0,연봉
분류,회사명,Unnamed: 2_level_1
IT회사,SK플래닛,5500
IT회사,네이버,5500
IT회사,카카오,6000
금융회사,KB금융,4500


In [23]:
# mean도 가능하지만 sum도 할 수 있습니다.
pd.pivot_table(data, index=["분류", "회사명"], values="연봉", aggfunc=[np.mean, np.sum])

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,sum
Unnamed: 0_level_1,Unnamed: 1_level_1,연봉,연봉
분류,회사명,Unnamed: 2_level_2,Unnamed: 3_level_2
IT회사,SK플래닛,5500,5500
IT회사,네이버,5500,11000
IT회사,카카오,6000,6000
금융회사,KB금융,4500,4500


In [24]:
# crosstab과 유사하게 all 옵션도 넣을 수 있습니다.
pd.pivot_table(data, index=["분류", "회사명"], values="연봉", aggfunc=[np.mean, np.sum], margins=True)

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,sum
Unnamed: 0_level_1,Unnamed: 1_level_1,연봉,연봉
분류,회사명,Unnamed: 2_level_2,Unnamed: 3_level_2
IT회사,SK플래닛,5500.0,5500.0
IT회사,네이버,5500.0,11000.0
IT회사,카카오,6000.0,6000.0
금융회사,KB금융,4500.0,4500.0
All,,5400.0,27000.0


### Categoricals

판다스의 category는 object(문자열)과 큰 차이가 없습니다. 하지만 강력한 장점이 하나 있는데, object를 category로 바꾸면 pandas로 수학 연산을 할 때 속도가 매우 빨라집니다.

In [25]:
# 데이터를 강제로 늘립니다.
data = pd.concat([data.copy() for _ in range(10000)])

print(data.dtypes)
print(data.shape)
data.head()

분류     object
회사명    object
직군     object
연봉      int64
연차      int64
dtype: object
(50000, 5)


Unnamed: 0_level_0,분류,회사명,직군,연봉,연차
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
김성훈,IT회사,네이버,디자이너,5000,3
양세민,IT회사,네이버,개발자,6000,5
최양미,IT회사,카카오,개발자,6000,5
남성필,IT회사,SK플래닛,디자이너,5500,4
강민우,금융회사,KB금융,개발자,4500,2


In [26]:
# 해당 데이터로 수학 연산을 하면 다소 느립니다.
%timeit data.groupby('분류')['연봉'].mean()

3.51 ms ± 456 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [27]:
# 이 데이터는 category로 바꿀 수 있습니다.
data['분류'] = data['분류'].astype('category')

print(data.dtypes)
data.head()

분류     category
회사명      object
직군       object
연봉        int64
연차        int64
dtype: object


Unnamed: 0_level_0,분류,회사명,직군,연봉,연차
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
김성훈,IT회사,네이버,디자이너,5000,3
양세민,IT회사,네이버,개발자,6000,5
최양미,IT회사,카카오,개발자,6000,5
남성필,IT회사,SK플래닛,디자이너,5500,4
강민우,금융회사,KB금융,개발자,4500,2


In [28]:
data['분류'].cat.categories

Index(['IT회사', '금융회사'], dtype='object')

In [29]:
data['분류'].cat.codes.head()

이름
김성훈    0
양세민    0
최양미    0
남성필    0
강민우    1
dtype: int8

In [30]:
# 이 경우 속도가 매우 빨라집니다.
%timeit data.groupby('분류')['연봉'].mean()

1.29 ms ± 191 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


### tqdm

[tqdm](https://github.com/noamraph/tqdm)은 사실 아주 중요한 기능은 아닙니다. 하지만 판다스로 대용량 데이터를 처리할 때 알아두면 좋은 패키지 중 하나입니다. apply에 시간이 오래 걸릴 때 tqdm을 활용하면 진행 상황을 확인할 수 있습니다.

In [40]:
# tqdm는 판다스의 공식 기능이 아니기 때문에, pip로 설치해줘야 합니다.
# 아나콘다로 파이썬을 설치하신 분들은 pip가 아닌 아나콘다 네비게이터(Anaconda Navigator) -> 좌측의 Environment 탭에서 tqdm을 설치해주세요.
!pip install tqdm

In [1]:
# 마찬가지로 faker도 설치합니다
!pip install faker

[33mYou are using pip version 9.0.1, however version 10.0.0 is available.
You should consider upgrading via the 'pip install --upgrade pip' command.[0m


In [41]:
from faker import Faker

# 가짜 정보를 generate합니다.
def generate_fake_information():
    faker = Faker()

    return {
        'name': faker.name(),
        'message': faker.text()
    }

generate_fake_information()

{'message': 'Until process break participant partner meeting fear. City however Democrat people identify herself. All theory thing wrong.',
 'name': 'Maria Roth'}

In [42]:
import pandas as pd
from tqdm import tqdm

# 가짜 정보 100개를 만듭니다. 이 경우 매우 느리기 때문에 tqdm을 사용하면 진행 상황을 파악할 수 있습니다.
data = [generate_fake_information() for _ in tqdm(range(1000))]
data = pd.DataFrame(data)

data = pd.concat([data.copy() for _ in range(1000)])

print(data.shape)
data.head()

100%|██████████| 1000/1000 [00:28<00:00, 35.58it/s]


(1000000, 2)


Unnamed: 0,message,name
0,Size many husband including involve card. News...,Curtis Mills
1,Part friend put lot current they you. Manageme...,Ryan Bailey
2,Career stuff upon should drop hit. Old they ga...,Ellen Morse
3,Into still share personal owner product minute...,Nicole Serrano
4,Simple movement important low treatment. Plant...,Tracy Gutierrez


In [43]:
data["message"].apply(lambda message: len(message)).head()

0    138
1    143
2    169
3    130
4    165
Name: message, dtype: int64

In [44]:
# pandas apply에 적용할 때는 그냥 apply가 아닌 progress_apply를 사용해야 합니다.
tqdm.pandas(desc="measuring...")
data["message"].progress_apply(lambda message: len(message)).head()

measuring...: 100%|██████████| 1000000/1000000 [00:01<00:00, 564453.53it/s]


0    138
1    143
2    169
3    130
4    165
Name: message, dtype: int64

## 병렬 처리

판다스는 기본적으로 병렬처리가 지원되지 않습니다. 그러므로 대용량 데이터를 병렬처리 하고 싶다면 별도의 기능을 사용해야 하는데, 이 때 가장 쉽게 사용할 수 있는 기능이 파이썬의 multiprocessing 기능입니다.

In [45]:
from multiprocessing import Pool

# 데이터를 몇 조각을 낼지 지정합니다. 12라는 것은 12조각을 내서 병렬처리하겠다는 의미입니다.
num_partitions = 12

# 병렬처리에 사용할 core를 몇 개 사용할지 지정합니다.
num_cores = 4


# 병렬처리 코드입니다. 이 코드를 언제나 복사해서 사용하시면 됩니다.
def parallelize_dataframe(original_dataframe, function):
    # 데이터를 num_partitions 에서 지정한 갯수만큼 쪼갭니다.
    splitted_dataframe = np.array_split(original_dataframe, num_partitions)

    # 병럴처리를 위한 pool을 세팅합니다. pool의 갯수는 num_cores로 지정합니다.
    pool = Pool(num_cores)

    # map으로 인자로 받은 기능(function)을 병렬로 실행한 뒤 하나로 합칩니다.
    dataframe = pd.concat(pool.map(function, splitted_dataframe))

    # 작업이 끝날 때 까지 대기합니다.
    pool.close()
    pool.join()

    return dataframe


In [46]:
# 임의로 시간이 오래 걸리는 함수를 하나 작성하겠습니다.
def slow(message):
    _ = [message.lower() for _ in range(100)]

    return message.lower()

In [47]:
# 일반 apply로 할 떄는 속도가 느린 편에 속합니다.
%time data["new_message"] = data["message"].apply(slow)

data.head()

CPU times: user 24 s, sys: 339 ms, total: 24.3 s
Wall time: 24.7 s


Unnamed: 0,message,name,new_message
0,Size many husband including involve card. News...,Curtis Mills,size many husband including involve card. news...
1,Part friend put lot current they you. Manageme...,Ryan Bailey,part friend put lot current they you. manageme...
2,Career stuff upon should drop hit. Old they ga...,Ellen Morse,career stuff upon should drop hit. old they ga...
3,Into still share personal owner product minute...,Nicole Serrano,into still share personal owner product minute...
4,Simple movement important low treatment. Plant...,Tracy Gutierrez,simple movement important low treatment. plant...


In [38]:
def parallel_slow(data):
    data["new_message"] = data["message"].apply(slow)

    return data

# parallelize_dataframe를 사용할 때 속도가 조금 더 빠릅니다.
%time parallelize_dataframe(data, parallel_slow)

data.head()

CPU times: user 2.04 s, sys: 2 s, total: 4.04 s
Wall time: 20.7 s


Unnamed: 0,message,name,reversed_message
0,Second vote administration international world...,Angela Walters,second vote administration international world...
1,Subject join nothing course. Black late painti...,Matthew Wilkinson,subject join nothing course. black late painti...
2,Hit hundred under know life crime beat. Usuall...,Edwin Huynh,hit hundred under know life crime beat. usuall...
3,Which court alone factor away high. Quite agai...,Kevin Grant,which court alone factor away high. quite agai...
4,South size perhaps try easy doctor. Too busine...,Carly Young,south size perhaps try easy doctor. too busine...
