## Groupby
Pandas의 groupby 기능은 데이터를 분할, 적용, 결합하는 과정을 통해 데이터 집계, 변환, 필터링 작업을 효율적으로 수행할 수 있게 해줍니다. 이 기능은 SQL의 GROUP BY 문과 유사하며, 복잡한 데이터 분석 작업을 간단하게 만들어 줍니다.

In [1]:
import pandas as pd

df = pd.read_csv("Data/gapminder.tsv", sep = '\t')
df

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
1,Afghanistan,Asia,1957,30.332,9240934,820.853030
2,Afghanistan,Asia,1962,31.997,10267083,853.100710
3,Afghanistan,Asia,1967,34.020,11537966,836.197138
4,Afghanistan,Asia,1972,36.088,13079460,739.981106
...,...,...,...,...,...,...
1699,Zimbabwe,Africa,1987,62.351,9216418,706.157306
1700,Zimbabwe,Africa,1992,60.377,10704340,693.420786
1701,Zimbabwe,Africa,1997,46.809,11404948,792.449960
1702,Zimbabwe,Africa,2002,39.989,11926563,672.038623


### 1. 주요 함수들
* mean(): 그룹별 평균 값을 계산합니다.
* sum(): 그룹별 합계를 계산합니다.
* size(): 각 그룹의 크기(행의 개수)를 계산합니다.
* count(): 각 그룹의 non-NA/null 값의 개수를 계산합니다.
* min(), max(): 각 그룹의 최소값과 최대값을 계산합니다.
* describe(): 각 그룹에 대한 기술통계를 요약하여 보여줍니다.

### 2. agg 함수
Pandas의 agg 함수는 집계(aggregation)를 위해 사용되며, 매우 유연하고 강력한 기능을 제공합니다. agg 함수는 하나 이상의 집계 연산을 데이터에 적용할 수 있게 하며, 이를 통해 데이터의 요약 통계를 쉽게 얻을 수 있습니다. groupby와 함께 사용될 때 특히 유용하며, 다양한 방식으로 집계를 커스텀할 수 있습니다.

In [3]:
df.groupby("year")[['lifeExp', 'pop']].mean()

Unnamed: 0_level_0,lifeExp,pop
year,Unnamed: 1_level_1,Unnamed: 2_level_1
1952,49.05762,16950400.0
1957,51.507401,18763410.0
1962,53.609249,20421010.0
1967,55.67829,22658300.0
1972,57.647386,25189980.0
1977,59.570157,27676380.0
1982,61.533197,30207300.0
1987,63.212613,33038570.0
1992,64.160338,35990920.0
1997,65.014676,38839470.0


In [5]:
df.groupby("year").agg({"lifeExp" : "mean", "pop" : 'max',
                        "gdpPercap" : ['mean', 'median']})

Unnamed: 0_level_0,lifeExp,pop,gdpPercap,gdpPercap
Unnamed: 0_level_1,mean,max,mean,median
year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1952,49.05762,556263527,3725.276046,1968.528344
1957,51.507401,637408000,4299.408345,2173.220291
1962,53.609249,665770000,4725.812342,2335.439533
1967,55.67829,754550000,5483.653047,2678.33474
1972,57.647386,862030000,6770.082815,3339.129407
1977,59.570157,943455000,7313.166421,3798.609244
1982,61.533197,1000281000,7518.901673,4216.228428
1987,63.212613,1084035000,7900.920218,4280.300366
1992,64.160338,1164970000,8158.608521,4386.085502
1997,65.014676,1230075000,9090.175363,4781.825478


In [7]:
df.groupby("year")[['lifeExp', 'pop', 'gdpPercap']].agg(['mean', 'median'])

Unnamed: 0_level_0,lifeExp,lifeExp,pop,pop,gdpPercap,gdpPercap
Unnamed: 0_level_1,mean,median,mean,median,mean,median
year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
1952,49.05762,45.1355,16950400.0,3943953.0,3725.276046,1968.528344
1957,51.507401,48.3605,18763410.0,4282942.0,4299.408345,2173.220291
1962,53.609249,50.881,20421010.0,4686039.5,4725.812342,2335.439533
1967,55.67829,53.825,22658300.0,5170175.5,5483.653047,2678.33474
1972,57.647386,56.53,25189980.0,5877996.5,6770.082815,3339.129407
1977,59.570157,59.672,27676380.0,6404036.5,7313.166421,3798.609244
1982,61.533197,62.4415,30207300.0,7007320.0,7518.901673,4216.228428
1987,63.212613,65.834,33038570.0,7774861.5,7900.920218,4280.300366
1992,64.160338,67.703,35990920.0,8688686.5,8158.608521,4386.085502
1997,65.014676,69.394,38839470.0,9735063.5,9090.175363,4781.825478


In [8]:
def test(x):
    return x.max() - x.min()

### 3. filter 함수
Pandas의 filter 함수는 DataFrame이나 Series에서 특정 조건을 만족하는 데이터를 선택하기 위해 사용됩니다. 하지만 groupby 객체와 함께 사용될 때, filter는 그룹화된 데이터에 대해 조건에 따라 필터링을 수행하고, 특정 기준을 만족하는 그룹만을 반환합니다. 이 방식은 특정 조건에 따라 전체 데이터 세트에서 일부 그룹을 제외시키고자 할 때 유용합니다.

In [13]:
# 기대수명의 평균이 50이상인 대륙만 필터링
df.groupby("continent").filter(lambda x : x['lifeExp'].mean() > 70)

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
12,Albania,Europe,1952,55.230,1282697,1601.056136
13,Albania,Europe,1957,59.280,1476505,1942.284244
14,Albania,Europe,1962,64.820,1728137,2312.888958
15,Albania,Europe,1967,66.220,1984060,2760.196931
16,Albania,Europe,1972,67.690,2263554,3313.422188
...,...,...,...,...,...,...
1603,United Kingdom,Europe,1987,75.007,56981620,21664.787670
1604,United Kingdom,Europe,1992,76.420,57866349,22705.092540
1605,United Kingdom,Europe,1997,77.218,58808266,26074.531360
1606,United Kingdom,Europe,2002,78.471,59912431,29478.999190


### 4. transform 함수
Pandas의 transform 함수는 데이터프레임이나 시리즈의 각 요소에 함수를 적용하고, 그 결과를 같은 형태로 반환하는데 사용됩니다. transform은 특히 groupby 객체와 함께 사용될 때 유용하며, 각 그룹에 대해 데이터 변환을 수행한 후 원본 배열과 같은 크기의 결과를 반환합니다. 이는 그룹별로 요약된 값을 각 데이터 포인트에 적용해야 할 때 매우 편리합니다.

In [15]:
# 대륙별로 기대수명의 최대값과 최소값을 뺀 범위

def test(x):
    return x.max() - x.min()

df.groupby("continent")['lifeExp'].transform(test)

0       53.802
1       53.802
2       53.802
3       53.802
4       53.802
         ...  
1699    52.843
1700    52.843
1701    52.843
1702    52.843
1703    52.843
Name: lifeExp, Length: 1704, dtype: float64

### 5. idxmax 함수
idxmax() 함수는 Pandas의 Series나 DataFrame 객체에서 값이 최대인 항목의 인덱스를 반환합니다. 이 함수는 수치 데이터를 다룰 때 유용하며, 최댓값을 가지는 요소의 위치를 찾고자 할 때 사용됩니다. idxmax()는 기본적으로 열 방향(axis=0)으로 동작하며, 행 방향(axis=1)으로의 작동도 가능합니다. 반대인 idxmin() 함수도 있습니다.

In [17]:
# 각 년도별로 기대수명이 가장 높았던 나라는 어디일까?

idx = df.groupby("year")['lifeExp'].idxmax() # index max : 최대값이 있는 위치
df.iloc[idx]

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
1140,Norway,Europe,1952,72.67,3327728,10095.42172
685,Iceland,Europe,1957,73.47,165110,9244.001412
686,Iceland,Europe,1962,73.68,182053,10350.15906
1467,Sweden,Europe,1967,74.16,7867931,15258.29697
1468,Sweden,Europe,1972,74.72,8122293,17832.02464
689,Iceland,Europe,1977,76.11,221823,19654.96247
798,Japan,Asia,1982,77.11,118454974,19384.10571
799,Japan,Asia,1987,78.67,122091325,22375.94189
800,Japan,Asia,1992,79.36,124329269,26824.89511
801,Japan,Asia,1997,80.69,125956499,28816.58499


### 연습문제

In [19]:
data = {
    'Company': ['Google', 'Google', 'Microsoft', 'Microsoft', 'Facebook', 'Facebook', 'Apple', 'Apple'],
    'Person': ['Sam', 'Charlie', 'Amy', 'Vanessa', 'Carl', 'Sarah', 'John', 'Emma'],
    'Sales': [200, 120, 340, 124, 243, 350, 300, 320],
    'Country': ['USA', 'USA', 'USA', 'Canada', 'Canada', 'USA', 'USA', 'Canada']
}

df = pd.DataFrame(data)
df

Unnamed: 0,Company,Person,Sales,Country
0,Google,Sam,200,USA
1,Google,Charlie,120,USA
2,Microsoft,Amy,340,USA
3,Microsoft,Vanessa,124,Canada
4,Facebook,Carl,243,Canada
5,Facebook,Sarah,350,USA
6,Apple,John,300,USA
7,Apple,Emma,320,Canada


1. 회사별로 매출(Sales)의 총합을 계산하세요.

In [20]:
df.groupby("Company")['Sales'].sum()

Company
Apple        620
Facebook     593
Google       320
Microsoft    464
Name: Sales, dtype: int64

2. 국가(Country)별로 몇 명의 직원(Person)이 있는지 계산하세요.

In [22]:
df.groupby("Country")['Person'].nunique()

Country
Canada    3
USA       5
Name: Person, dtype: int64

3. 각 회사에서 가장 높은 매출(Sales)을 기록한 사람(Person)의 이름과 해당 매출액을 출력하세요.

In [24]:
idx = df.groupby("Company")['Sales'].idxmax()
df.iloc[idx]

Unnamed: 0,Company,Person,Sales,Country
7,Apple,Emma,320,Canada
5,Facebook,Sarah,350,USA
0,Google,Sam,200,USA
2,Microsoft,Amy,340,USA


4. 회사별로 평균 매출(Sales)보다 높은 매출을 기록한 모든 기록을 필터링하세요.

In [26]:
a = df.groupby("Company")['Sales'].transform(lambda x : x > x.mean())
df[a]

Unnamed: 0,Company,Person,Sales,Country
0,Google,Sam,200,USA
2,Microsoft,Amy,340,USA
5,Facebook,Sarah,350,USA
7,Apple,Emma,320,Canada


5. 모든 회사의 매출(Sales) 중앙값을 계산하세요.

In [27]:
df.groupby("Company")['Sales'].median()

Company
Apple        310.0
Facebook     296.5
Google       160.0
Microsoft    232.0
Name: Sales, dtype: float64

6. 회사별로 매출(Sales)의 최소값과 최대값의 차이(범위)를 계산하세요.

In [28]:
def test(x):
    return x.max() - x.min()

df.groupby("Company")['Sales'].agg(test)

Company
Apple         20
Facebook     107
Google        80
Microsoft    216
Name: Sales, dtype: int64

7. 국가별로 각 회사의 평균 매출(Sales)을 계산하세요.

In [29]:
df.groupby(["Country", "Company"])['Sales'].mean()

Country  Company  
Canada   Apple        320.0
         Facebook     243.0
         Microsoft    124.0
USA      Apple        300.0
         Facebook     350.0
         Google       160.0
         Microsoft    340.0
Name: Sales, dtype: float64

8. 'USA' 국가에서 각 회사의 매출(Sales) 총합을 계산하세요.

In [32]:
df[df['Country'] == 'USA'].groupby("Company")['Sales'].sum()

Company
Apple        300
Facebook     350
Google       320
Microsoft    340
Name: Sales, dtype: int64

9. 각 회사별로 매출(Sales)을 기준으로 내림차순 정렬하세요. (단일 회사 내에서의 정렬)

In [34]:
df.sort_values(['Company', 'Sales'], ascending = [True, False])

Unnamed: 0,Company,Person,Sales,Country
7,Apple,Emma,320,Canada
6,Apple,John,300,USA
5,Facebook,Sarah,350,USA
4,Facebook,Carl,243,Canada
0,Google,Sam,200,USA
1,Google,Charlie,120,USA
2,Microsoft,Amy,340,USA
3,Microsoft,Vanessa,124,Canada


10. 모든 회사의 매출(Sales) 평균을 계산하고, 이 평균을 초과하는 매출을 기록한 회사와 직원, 매출액을 출력하세요.

In [36]:
a = df['Sales'].mean()
df[df['Sales'] > a]

Unnamed: 0,Company,Person,Sales,Country
2,Microsoft,Amy,340,USA
5,Facebook,Sarah,350,USA
6,Apple,John,300,USA
7,Apple,Emma,320,Canada
