# Aggregation and Grouping

* Một phần thiết yếu của phân tích dữ liệu lớn là tóm tắt hiệu quả: tính toán các tổng hợp như sum (), mean (), median (), min () và max (), trong đó một số duy nhất cung cấp thông tin chi tiết về bản chất của một tập dữ liệu. Trong phần này, chúng ta sẽ khám phá các tổng hợp trong Pandas, từ các phép toán đơn giản tương tự như những gì chúng ta đã thấy trên mảng NumPy, đến các phép toán phức tạp hơn dựa trên khái niệm nhóm.

Để thuận tiện, chúng ta sẽ sử dụng cùng một chức năng ma thuật hiển thị mà chúng ta đã thấy trong các phần trước:

In [1]:
import numpy as np
import pandas as pd

class display(object):
    """Display HTML representation of multiple objects"""
    template = """<div style="float: left; padding: 10px;">
    <p style='font-family:"Courier New", Courier, monospace'>{0}</p>{1}
    </div>"""
    def __init__(self, *args):
        self.args = args
        
    def _repr_html_(self):
        return '\n'.join(self.template.format(a, eval(a)._repr_html_())
                         for a in self.args)
    
    def __repr__(self):
        return '\n\n'.join(a + '\n' + repr(eval(a))
                           for a in self.args)

# Planets Data

* Ở đây chúng ta sẽ sử dụng tập dữ liệu Planets, có sẵn thông qua gói Seaborn (xem Visualization With Seaborn). Nó cung cấp thông tin về các hành tinh mà các nhà thiên văn học đã phát hiện ra xung quanh các ngôi sao khác (gọi tắt là ngoại hành tinh hay ngoại hành tinh). Nó có thể được tải xuống bằng một lệnh Seaborn đơn giản:

In [2]:
import seaborn as sns
planets = sns.load_dataset('planets')
planets.shape

(1035, 6)

In [3]:
planets.head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


* Điều này có một số chi tiết về hơn 1.000 hành tinh ngoài hệ mặt trời được phát hiện cho đến năm 2014.

In [4]:
planets.isnull().sum()

method              0
number              0
orbital_period     43
mass              522
distance          227
year                0
dtype: int64

In [5]:
planets.dropna().describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
number,498.0,1.73494,1.17572,1.0,1.0,1.0,2.0,6.0
orbital_period,498.0,835.778671,1469.128259,1.3283,38.27225,357.0,999.6,17337.5
mass,498.0,2.50932,3.636274,0.0036,0.2125,1.245,2.8675,25.0
distance,498.0,52.068213,46.596041,1.35,24.4975,39.94,59.3325,354.0
year,498.0,2007.37751,4.167284,1989.0,2005.0,2009.0,2011.0,2014.0


![image.png](attachment:image.png)

# GroupBy: Split, Apply, Combine

* Các tổng hợp đơn giản có thể cung cấp cho bạn một hương vị của tập dữ liệu của mình, nhưng thường thì chúng tôi muốn tổng hợp có điều kiện trên một số nhãn hoặc chỉ mục: điều này được thực hiện trong cái gọi là hoạt động theo nhóm. Tên "group by" xuất phát từ một lệnh trong ngôn ngữ cơ sở dữ liệu SQL, nhưng có lẽ sáng tỏ hơn khi nghĩ về nó theo các thuật ngữ đầu tiên được đặt ra bởi Hadley Wickham ở Rstats nổi tiếng: tách, áp dụng, kết hợp.

## Split, apply, combine

![image.png](attachment:image.png)

Điều này làm rõ những gì nhóm đạt được:

* Bước split bao gồm việc chia nhỏ và nhóm một DataFrame tùy thuộc vào giá trị của khóa được chỉ định.

* Bước apply liên quan đến việc tính toán một số chức năng, thường là tổng hợp, chuyển đổi hoặc lọc, trong các nhóm riêng lẻ.

* Bước conbine kết hợp các kết quả của các hoạt động này thành một mảng đầu ra.

Mặc dù điều này chắc chắn có thể được thực hiện theo cách thủ công bằng cách sử dụng một số kết hợp của các lệnh che, tổng hợp và hợp nhất đã đề cập trước đó, nhưng một nhận thức quan trọng là các phần tách trung gian không cần phải được khởi tạo một cách rõ ràng. Thay vào đó, GroupBy có thể (thường) làm điều này trong một lần chuyển dữ liệu, cập nhật tổng, trung bình, đếm, tối thiểu hoặc tổng hợp khác cho từng nhóm trong quá trình thực hiện. Sức mạnh của GroupBy là nó tóm tắt các bước sau: người dùng không cần phải nghĩ về cách tính toán được thực hiện ẩn, mà là suy nghĩ về toàn bộ hoạt động.

In [6]:
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'data': range(6)}, columns=['key', 'data'])
df

Unnamed: 0,key,data
0,A,0
1,B,1
2,C,2
3,A,3
4,B,4
5,C,5


* The most basic split-apply-combine operation can be computed with the groupby() method of DataFrames, passing the name of the desired key column:

In [7]:
df.groupby('key')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000023B6A9BBA30>

Lưu ý rằng những gì được trả về không phải là một tập hợp DataFrames, mà là một đối tượng DataFrameGroupBy. Đối tượng này là nơi điều kỳ diệu: bạn có thể coi nó như một dạng xem đặc biệt của DataFrame, được sẵn sàng để đào sâu vào các nhóm nhưng không tính toán thực tế cho đến khi áp dụng tổng hợp. Cách tiếp cận "đánh giá lười biếng" này có nghĩa là các tổng hợp chung có thể được thực hiện rất hiệu quả theo cách gần như minh bạch đối với người dùng.

Để tạo ra kết quả, chúng ta có thể áp dụng tổng hợp cho đối tượng DataFrameGroupBy này, đối tượng này sẽ thực hiện các bước áp dụng / kết hợp thích hợp để tạo ra kết quả mong muốn:

In [8]:
df.groupby('key').sum()

Unnamed: 0_level_0,data
key,Unnamed: 1_level_1
A,3
B,5
C,7


## The GroupBy object

### Column indexing

In [9]:
planets.groupby('method')['orbital_period'].median()

method
Astrometry                         631.180000
Eclipse Timing Variations         4343.500000
Imaging                          27500.000000
Microlensing                      3300.000000
Orbital Brightness Modulation        0.342887
Pulsar Timing                       66.541900
Pulsation Timing Variations       1170.000000
Radial Velocity                    360.200000
Transit                              5.714932
Transit Timing Variations           57.011000
Name: orbital_period, dtype: float64

### Iteration over groups

In [10]:
for (method, group) in planets.groupby('method'):
    print("{0:30s} shape={1}".format(method, group.shape))

Astrometry                     shape=(2, 6)
Eclipse Timing Variations      shape=(9, 6)
Imaging                        shape=(38, 6)
Microlensing                   shape=(23, 6)
Orbital Brightness Modulation  shape=(3, 6)
Pulsar Timing                  shape=(5, 6)
Pulsation Timing Variations    shape=(1, 6)
Radial Velocity                shape=(553, 6)
Transit                        shape=(397, 6)
Transit Timing Variations      shape=(4, 6)


### Dispatch methods

* Thông qua một số phép thuật lớp Python, bất kỳ phương thức nào không được thực hiện một cách rõ ràng bởi đối tượng GroupBy sẽ được chuyển qua và được gọi trên các nhóm, cho dù chúng là đối tượng DataFrame hay Series. Ví dụ: bạn có thể sử dụng phương thức description () của DataFrames để thực hiện một tập hợp các tập hợp mô tả từng nhóm trong dữ liệu:

In [13]:
planets.groupby('method')['year'].describe().unstack()

       method                       
count  Astrometry                          2.0
       Eclipse Timing Variations           9.0
       Imaging                            38.0
       Microlensing                       23.0
       Orbital Brightness Modulation       3.0
                                         ...  
max    Pulsar Timing                    2011.0
       Pulsation Timing Variations      2007.0
       Radial Velocity                  2014.0
       Transit                          2014.0
       Transit Timing Variations        2014.0
Length: 80, dtype: float64

## Aggregate, filter, transform, apply

* Cuộc thảo luận trước đó tập trung vào tổng hợp cho hoạt động kết hợp, nhưng có nhiều tùy chọn hơn. Đặc biệt, các đối tượng GroupBy có các phương thức aggregate(), filter(), transform(), and apply() để triển khai hiệu quả nhiều hoạt động hữu ích trước khi kết hợp dữ liệu được nhóm lại.

Với mục đích của các phần phụ sau, chúng tôi sẽ sử dụng DataFrame này:

In [14]:
rng = np.random.RandomState(0)
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'data1': range(6),
                   'data2': rng.randint(0, 10, 6)},
                   columns = ['key', 'data1', 'data2'])
df

Unnamed: 0,key,data1,data2
0,A,0,5
1,B,1,0
2,C,2,3
3,A,3,3
4,B,4,7
5,C,5,9


### Aggregation (tổng hợp)

* Bây giờ chúng ta đã quen thuộc với các tổng hợp GroupBy với sum(), median(), và các phương thức tương tự, nhưng phương thức aggregation() cho phép linh hoạt hơn nữa. Nó có thể lấy một chuỗi, một hàm hoặc một danh sách của chúng và tính toán tất cả các tổng hợp cùng một lúc. Dưới đây là một ví dụ nhanh kết hợp tất cả những điều này:

In [16]:
df.groupby('key').aggregate([min, np.median, max])

Unnamed: 0_level_0,data1,data1,data1,data2,data2,data2
Unnamed: 0_level_1,min,median,max,min,median,max
key,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
A,0,1.5,3,3,4.0,5
B,1,2.5,4,0,3.5,7
C,2,3.5,5,3,6.0,9


* Một mẫu hữu ích khác là chuyển tên cột ánh xạ từ điển cho các thao tác được áp dụng trên cột đó:

In [17]:
df.groupby('key').aggregate({'data1': 'min',
                             'data2': 'max'})

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,0,5
B,1,7
C,2,9


### Filtering

* Thao tác lọc cho phép bạn loại bỏ dữ liệu dựa trên các thuộc tính của nhóm. Ví dụ: chúng tôi có thể muốn giữ tất cả các nhóm trong đó độ lệch chuẩn lớn hơn một số giá trị tới hạn:

In [18]:
def filter_func(x):
    return x['data2'].std() > 4

display('df', "df.groupby('key').std()", "df.groupby('key').filter(filter_func)")

Unnamed: 0,key,data1,data2
0,A,0,5
1,B,1,0
2,C,2,3
3,A,3,3
4,B,4,7
5,C,5,9

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,2.12132,1.414214
B,2.12132,4.949747
C,2.12132,4.242641

Unnamed: 0,key,data1,data2
1,B,1,0
2,C,2,3
4,B,4,7
5,C,5,9


* Hàm bộ lọc sẽ trả về một giá trị Boolean chỉ định xem nhóm có vượt qua bộ lọc hay không. Ở đây vì nhóm A không có độ lệch chuẩn lớn hơn 4 nên nó bị loại khỏi kết quả.

### Transformation

* Trong khi việc tổng hợp phải trả về một phiên bản đã giảm của dữ liệu, thì phép chuyển đổi có thể trả về một số phiên bản đã biến đổi của dữ liệu đầy đủ để tổng hợp lại. Đối với một phép biến đổi như vậy, đầu ra có cùng hình dạng với đầu vào. Một ví dụ phổ biến là căn giữa dữ liệu bằng cách trừ đi giá trị trung bình theo nhóm:

In [19]:
df.groupby('key').transform(lambda x: x - x.mean())

Unnamed: 0,data1,data2
0,-1.5,1.0
1,-1.5,-3.5
2,-1.5,-3.0
3,1.5,-1.0
4,1.5,3.5
5,1.5,3.0


## The apply() method

* Phương thức apply () cho phép bạn áp dụng một hàm tùy ý cho các kết quả nhóm. Hàm phải nhận một DataFrame và trả về một đối tượng Pandas (ví dụ: DataFrame, Series) hoặc một đại lượng vô hướng; hoạt động kết hợp sẽ được điều chỉnh cho phù hợp với loại đầu ra được trả về.

Ví dụ: đây là một apply () chuẩn hóa cột đầu tiên bằng tổng của cột thứ hai:

In [20]:
def norm_by_data2(x):
    # x is a DataFrame of group values
    x['data1'] /= x['data2'].sum()
    return x

display('df', "df.groupby('key').apply(norm_by_data2)")

Unnamed: 0,key,data1,data2
0,A,0,5
1,B,1,0
2,C,2,3
3,A,3,3
4,B,4,7
5,C,5,9

Unnamed: 0,key,data1,data2
0,A,0.0,5
1,B,0.142857,0
2,C,0.166667,3
3,A,0.375,3
4,B,0.571429,7
5,C,0.416667,9


* apply () trong GroupBy khá linh hoạt: tiêu chí duy nhất là hàm nhận DataFrame và trả về một đối tượng Pandas hoặc vô hướng; những gì bạn làm ở giữa là tùy thuộc vào bạn!