## 기초 통계 계산하기

이전까지 데이터 추출방법을 알아보았다. 이번에는 추출한 데이터로 몇 가지 기초 통계를 계산해보자. 

In [2]:
import pandas as pd
df = pd.read_csv('data/gapminder.csv', sep='\t')

In [3]:
print(df)

          country continent  year  lifeExp       pop   gdpPercap
0     Afghanistan      Asia  1952   28.801   8425333  779.445314
1     Afghanistan      Asia  1957   30.332   9240934  820.853030
2     Afghanistan      Asia  1962   31.997  10267083  853.100710
3     Afghanistan      Asia  1967   34.020  11537966  836.197138
4     Afghanistan      Asia  1972   36.088  13079460  739.981106
...           ...       ...   ...      ...       ...         ...
1699     Zimbabwe    Africa  1987   62.351   9216418  706.157306
1700     Zimbabwe    Africa  1992   60.377  10704340  693.420786
1701     Zimbabwe    Africa  1997   46.809  11404948  792.449960
1702     Zimbabwe    Africa  2002   39.989  11926563  672.038623
1703     Zimbabwe    Africa  2007   43.487  12311143  469.709298

[1704 rows x 6 columns]


각 열은 국가, 대륙, 연도, 기대수명, 인구, 1인당 국내 총생산을나타낸다. 그러면 다음과 같은 질문을 생각해볼 수 있다.

- 연도별 평균 기대 수명은?
- 기대 수명, 인구, GDP의 평균은?
- 데이터를 대륙별로 나누어 통계를 계산하면?
- 대륙별 국가 개수는?

이런 질문의 답을 구할 수 있는 데이터 활용 방법을 알아보자.

### 그룹화한 데이터의 평균 구하기
## 1개 열 그룹화하기

답을 구하려면 그룹화한 계산을 수행해야 한다. 즉, 평균이나 빈도를 구할 때 데이터의 일부를 선택하여 게산한다. 그룹화한 계산은 분할-적용-결합 과정으로 생각할 수 있다. 먼저 데이터를 여러 부분으로 분할한 다음, 분할한 각 부분에 선택한 함수나 연산을 적용하고 마지막으로 각 결과를 하나의 데이터프레임으로 결합한다.

데이터프레임의 `groupby()` 메서드를 사용하면 데이터를 그룹화할 수 있으며 그룹화한 데이터를 대상으로 계산을 수행할 수 있다.

1. 먼저 앞에서 언급한 첫 번째 질문인 연도별 평균 기대 수명을 알아보자. 다음 순서에 따라 질문의 답을 구한다.
    1. 데이터를 연도별로 그룹화한다.
    2. lifeExp 열을 선택한다.
    3. 평균을 계산한다.

이 과정은 코드 한 줄로 수행할 수 있다.

In [4]:
print(df.groupby('year')['lifeExp'].mean())

year
1952    49.057620
1957    51.507401
1962    53.609249
1967    55.678290
1972    57.647386
1977    59.570157
1982    61.533197
1987    63.212613
1992    64.160338
1997    65.014676
2002    65.694923
2007    67.007423
Name: lifeExp, dtype: float64


In [5]:
print(df.groupby('year')['lifeExp'].mean())

year
1952    49.057620
1957    51.507401
1962    53.609249
1967    55.678290
1972    57.647386
1977    59.570157
1982    61.533197
1987    63.212613
1992    64.160338
1997    65.014676
2002    65.694923
2007    67.007423
Name: lifeExp, dtype: float64


In [6]:
print(df.groupby('year')['gdpPercap'].mean())

year
1952     3725.276046
1957     4299.408345
1962     4725.812342
1967     5483.653047
1972     6770.082815
1977     7313.166421
1982     7518.901673
1987     7900.920218
1992     8158.608521
1997     9090.175363
2002     9917.848365
2007    11680.071820
Name: gdpPercap, dtype: float64


In [7]:
df.groupby('country')['pop'].mean()

country
Afghanistan           1.582372e+07
Albania               2.580249e+06
Algeria               1.987541e+07
Angola                7.309390e+06
Argentina             2.860224e+07
                          ...     
Vietnam               5.456857e+07
West Bank and Gaza    1.848606e+06
Yemen, Rep.           1.084319e+07
Zambia                6.353805e+06
Zimbabwe              7.641966e+06
Name: pop, Length: 142, dtype: float64

### 2개 이상의 열 그룹화하기

두 개 이상의 변수로 데이터를 그룹화하고 싶다면 열 데이터를 추출할 때와 마찬가지로 리스트를 사용하여 열을 지정한다.

1. 리스트를 사용하여 그룹화할 열을 지정한다.

In [10]:
multi_group_var = df.groupby(['year', 'continent'])[['lifeExp', 'gdpPercap']].mean()

2. 처음 10개 행을 보면 다음과 같다.

In [11]:
print(multi_group_var)

                  lifeExp     gdpPercap
year continent                         
1952 Africa     39.135500   1252.572466
     Americas   53.279840   4079.062552
     Asia       46.314394   5195.484004
     Europe     64.408500   5661.057435
     Oceania    69.255000  10298.085650
1957 Africa     41.266346   1385.236062
     Americas   55.960280   4616.043733
     Asia       49.318544   5787.732940
     Europe     66.703067   6963.012816
     Oceania    70.295000  11598.522455
1962 Africa     43.319442   1598.078825
     Americas   58.398760   4901.541870
     Asia       51.563223   5729.369625
     Europe     68.539233   8365.486814
     Oceania    71.085000  12696.452430
1967 Africa     45.334538   2050.363801
     Americas   60.410920   5668.253496
     Asia       54.663640   5971.173374
     Europe     69.737600  10143.823757
     Oceania    71.310000  14495.021790
1972 Africa     47.450942   2339.615674
     Americas   62.394920   6491.334139
     Asia       57.319269   8187.468699


출력 결과를 보면 연도와 대륙별로 데이터를 그룹화했으며 연도에 따른 대륙별 기대 수명과 GDP 평균을 확인할 수 있다. 지금까지 살펴본 출력 결과와 양식이 조금 다르다. year, continent, lifeExp, gpdPercap 열 이름이 서로 다른 줄에 출력되었다. 또한 year와 continent 열이 계층 구조를 이룬다.  

3. 기존 데이터프레임 구조와 같이 계층 구조를 없애고 데이터프레임을 평탄화하고 싶다면 `reset_index()` 메서드를 사용한다.

In [13]:
flat = multi_group_var.reset_index()
print(flat)

    year continent    lifeExp     gdpPercap
0   1952    Africa  39.135500   1252.572466
1   1952  Americas  53.279840   4079.062552
2   1952      Asia  46.314394   5195.484004
3   1952    Europe  64.408500   5661.057435
4   1952   Oceania  69.255000  10298.085650
5   1957    Africa  41.266346   1385.236062
6   1957  Americas  55.960280   4616.043733
7   1957      Asia  49.318544   5787.732940
8   1957    Europe  66.703067   6963.012816
9   1957   Oceania  70.295000  11598.522455
10  1962    Africa  43.319442   1598.078825
11  1962  Americas  58.398760   4901.541870
12  1962      Asia  51.563223   5729.369625
13  1962    Europe  68.539233   8365.486814
14  1962   Oceania  71.085000  12696.452430
15  1967    Africa  45.334538   2050.363801
16  1967  Americas  60.410920   5668.253496
17  1967      Asia  54.663640   5971.173374
18  1967    Europe  69.737600  10143.823757
19  1967   Oceania  71.310000  14495.021790
20  1972    Africa  47.450942   2339.615674
21  1972  Americas  62.394920   

### 그룹화한 데이터 개수 세기

데이터 분석에서 평균만큼 개수를 구하는 일이 많다. 이번에는 그룹화한 데이터의 개수가 몇 개인지를 알아보자. 통계에서는 이를 빈도수라 부른다.

1. 리시즈의 `nunique()` 메서드는 중복을 제외한 개수를 구한다. 예를 들어 continent 별 country 개수는 다음과 같이 구한다.

In [None]:
print(df.groupby('continent')['country'].nunique())