# 05 - 판다스 데이터프레임 집계

## 4.데이터프레임 집계

- 상세 데이터가 아닌 집계된 데이터에 대한 분석을 자주 요구하니 익숙해져야 할 내용입니다.
- sum(), mean(), max(), min(), count() 메소드를 사용해 지정한 열 또는 열들을 기준으로 집계합니다.
- 평균을 구하는 메소드가 avg()가 아닌 mean() 임을 주의하기 바랍니다.

In [1]:
# 라이브러리 불러오기
import pandas as pd

* Attrition 데이터 불러오기

**[Attrition 데이터 셋 정보]**

|	구분	|	변수 명	|	내용	|	type	|	비고	|
|	----	|	----	|	----	|	----	|	----	|
|	**Target**	|	**Attrition**	|	이직여부, Yes , No	|	범주	| 1- 이직, 0- 잔류		|
|	feature	|	Age	|	나이	|	숫자	|		|
|	feature	|	DistanceFromHome	|	집-직장 거리	|	숫자	|	마일	|
|	feature	|	EmployNumber	|	사번	|	숫자	| 	|
|	feature	|	Gender	|	성별	|	범주	| Male, Female		|
|	feature	|	JobSatisfaction	|	직무 만족도	|	범주	|	1 Low, 2 Medium, 3 High, 4 Very High	|
|	feature	|	MaritalStatus	|	결혼상태	|	범주	| Single, Married, Divorced		|
|	feature	|	MonthlyIncome	|	월급	|	숫자	| 달러	|
|	feature	|	OverTime	|	야근여부	|	범주	|	Yes, No	|
|	feature	|	PercentSalaryHike	|	전년대비 급여인상율	|	숫자	|	%	|
|	feature	|	TotalWorkingYears	|	총 경력 연수	|	숫자	|		|

In [2]:
# 데이터 읽어오기
path = 'https://raw.githubusercontent.com/DA4BAM/dataset/master/Attrition_simple2.CSV'
data = pd.read_csv(path)  

# 상위 5개 확인
data.head(5)

Unnamed: 0,Attrition,Age,DistanceFromHome,EmployeeNumber,Gender,JobSatisfaction,MaritalStatus,MonthlyIncome,OverTime,PercentSalaryHike,TotalWorkingYears
0,0,33,7,817,Male,3,Married,11691,No,11,14
1,0,35,18,1412,Male,4,Single,9362,No,11,10
2,0,42,6,1911,Male,1,Married,13348,No,13,18
3,0,46,2,1204,Female,1,Married,17048,No,23,28
4,1,22,4,593,Male,3,Single,3894,No,16,4


### 4.1 열 하나 집계

- 우선 특정 열의 값 합은 다음과 같이 구할 수 있습니다.

In [3]:
# MonthlyIncome 합계
data['MonthlyIncome'].sum()

7798045

In [4]:
# MonthlyIncome, TotalWorkingYears 각각의 평균
data[['MonthlyIncome', 'TotalWorkingYears']].mean()

MonthlyIncome        6520.104515
TotalWorkingYears      11.330268
dtype: float64

**1) 집계하기**

- 만일 day 별로 합을 구하고자 한다면 다음과 같이 합니다.
- 아래 결과 값 네 개를 더하면 전체 합이 됩니다.
- **as_index=True**를 설정(기본값)하면 집계 기준이 되는 열이 인덱스 열이 됩니다.
- 집계 결과가 data 열만 가지니 **시리즈**가 됩니다.

In [7]:
# MaritalStatus 별 Age 평균 --> 시리즈
data.groupby('MaritalStatus', as_index=True)['Age'].mean()
#data.groupby('MaritalStatus', as_index=False)['Age'].mean()
# as_index => 값을 인덱스로 쓸건지

MaritalStatus
Divorced    37.522727
Married     37.704380
Single      35.460938
Name: Age, dtype: float64

In [8]:
data.groupby('MaritalStatus', as_index=False)['Age'].mean() # 값으로 들어가고 보통 이렇게 많이 씀

Unnamed: 0,MaritalStatus,Age
0,Divorced,37.522727
1,Married,37.70438
2,Single,35.460938


- **[['data']].sum()**과 같이 하면 열이 여럿이라는 의미여서 결과가 **데이터프레임**이 됩니다.

In [None]:
# MaritalStatus 별 Age 평균 --> 데이터프레임
data.groupby('MaritalStatus', as_index=True)[['Age']].mean()

- **as_index=False**를 설정하면 행 번호를 기반으로 한 정수 값이 인덱스로 설정됩니다.

In [None]:
# MaritalStatus 별 Age 평균 --> 데이터프레임
data.groupby('MaritalStatus', as_index=False)[['Age']].mean()

**2) 데이터프레임으로 선언**

- 집계 결과를 새로운 데이터프레임으로 선언하여 사용하는 경우가 많습니다.
- 집계된 결과를 반복해서 사용하거나, 분석 대상이 되는 경우 데이터프레임으로 선언함이 유익합니다.

In [9]:
data_mean = data.groupby('MaritalStatus', as_index=False)[['Age']].mean()

# 확인
data_mean

Unnamed: 0,MaritalStatus,Age
0,Divorced,37.522727
1,Married,37.70438
2,Single,35.460938


### 4.2 여러 열 집계

- 여러 열에 대한 집계를 같이 할 수 있습니다.
- **[ ['feature1', 'feature2'] ].sum()** 형태와 같이 집계 대상 열을 리스트로 지정합니다.

In [10]:
data_mean = data.groupby('MaritalStatus', as_index=False)[['Age','MonthlyIncome']].mean()

# 확인
data_mean

Unnamed: 0,MaritalStatus,Age,MonthlyIncome
0,Divorced,37.522727,6707.018939
1,Married,37.70438,6880.144161
2,Single,35.460938,5877.794271


- sum() 메소드 앞에 아무 열도 지정하지 않으면 **기준열 이외의 모든 열에 대한 집계**가 수행됩니다.

In [None]:
data_sum = data.groupby('MaritalStatus', as_index=False).sum()

# 확인
data_sum

- **by=['feature1', 'feature2']** 과 같이 집계 기준 열을 여럿 설정할 수도 있습니다.

In [None]:
# 'MaritalStatus', 'Gender'별 나머지 열들 평균 조회
data_sum = data.groupby(['MaritalStatus', 'Gender'], as_index=False)[['Age','MonthlyIncome']].mean()

# 확인
data_sum

### 4.3 여러 함수로 한꺼번에 집계

* df.groupby(  )**.agg(['함수1','함수2', ...])**

In [None]:
data_agg = data.groupby('MaritalStatus', as_index=False)[['MonthlyIncome']].agg(['min','max','mean'])
# 확인
data_agg

<img src='https://raw.githubusercontent.com/jangrae/img/master/practice_01.png' width=120 align="left"/>

[문1] 데이터를 불러와 데이터프레임으로 저장합니다.

- 파일 경로 : https://raw.githubusercontent.com/DA4BAM/dataset/master/airquality_simple.csv

**[airquality_simple 데이터 셋 정보]**

- Ozone : 오존농도
- Solar.R: 태양복사열
- Wind: 풍속
- Temp: 기온
- Month: 월
- Day: 일

In [11]:
# 데이터 읽어오기
temp = pd.read_csv('https://raw.githubusercontent.com/DA4BAM/dataset/master/airquality_simple.csv')  

# 상위 5개 확인
temp.head(5)

Unnamed: 0,Ozone,Solar.R,Wind,Temp,Month,Day
0,41,190.0,7.4,67,5,1
1,36,118.0,8.0,72,5,2
2,12,149.0,12.6,74,5,3
3,18,313.0,11.5,62,5,4
4,19,,14.3,56,5,5


[문2] 월별 Ozone, Wind, Temp 평균을 구해 봅시다.

In [12]:
temp.groupby('Month', as_index=False)[['Ozone', 'Wind', 'Temp']].mean()

Unnamed: 0,Month,Ozone,Wind,Temp
0,5,22.677419,11.622581,65.548387
1,6,40.133333,10.266667,79.1
2,7,56.870968,8.941935,83.903226
3,8,59.0,8.793548,83.967742
4,9,31.166667,10.18,76.9


[문3] 월별 Ozone, Wind, Temp에 대해 최대, 최소, 평균, 표준편차 값을 구해 봅시다.

In [19]:
temp.groupby('Month', as_index=False)[['Ozone', 'Wind', 'Temp']].agg(['max', 'min', 'mean', 'std'])

Unnamed: 0_level_0,Ozone,Ozone,Ozone,Ozone,Wind,Wind,Wind,Wind,Temp,Temp,Temp,Temp
Unnamed: 0_level_1,max,min,mean,std,max,min,mean,std,max,min,mean,std
Month,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
5,115,1,22.677419,20.416312,20.1,5.7,11.622581,3.53145,81,56,65.548387,6.85487
6,71,12,40.133333,18.339205,20.7,1.7,10.266667,3.769234,93,65,79.1,6.598589
7,135,7,56.870968,29.393584,14.9,4.1,8.941935,3.035981,92,73,83.903226,4.315513
8,168,9,59.0,37.704111,15.5,2.3,8.793548,3.22593,97,72,83.967742,6.585256
9,96,7,31.166667,23.772025,16.6,2.8,10.18,3.461254,93,63,76.9,8.355671


### 4.3 종합실습

1) pandas 라이브러리를 pd 별칭을 주어 불러오세요.

In [2]:
# 라이브러리 불러오기
import pandas as pd

2) read_csv() 함수를 사용해 다음 경로의 파일을 불러와 **titanic** 데이터프레임을 만드세요.

- 파일 경로: 'https://raw.githubusercontent.com/DA4BAM/dataset/master/titanic_simple.csv'

**[titanic_simple 데이터 셋 정보]**

- PassengerId : 승객번호
- Survived : 생존여부(1:생존, 0:사망)
- Pclass : 객실등급(1:1등급, 2:2등급, 3:3등급)
- Name : 승객이름
- Sex : 성별(male, female)
- Age : 나이
- Fare : 운임($)
- Embarked : 승선지역(Southhampton, Cherbourg, Queenstown)

In [3]:
# 파일 읽어오기
titanic = pd.read_csv('https://raw.githubusercontent.com/DA4BAM/dataset/master/titanic_simple.csv')

3) Fare의 중앙값을 확인해 봅시다.

In [6]:
titanic['Fare'].median()

14.4542

4) 승선지역(Embarked)별 평균 운임(Fare)을 구해 봅시다.

In [7]:
titanic.groupby('Embarked', as_index=False)[['Fare']].mean()

Unnamed: 0,Embarked,Fare
0,Cherbourg,59.954144
1,Queenstown,13.27603
2,Southhampton,27.079812


5) 승선지역(Embarked)별, 성별(Sex)별 평균 운임(Fare)과 평균 나이(Age)를 tmp에 저장하고 조회하시오.

In [8]:
tmp = titanic.groupby(by=['Embarked', 'Sex'])[['Fare', 'Age']].mean()
tmp

Unnamed: 0_level_0,Unnamed: 1_level_0,Fare,Age
Embarked,Sex,Unnamed: 2_level_1,Unnamed: 3_level_1
Cherbourg,female,75.169805,28.344262
Cherbourg,male,48.262109,32.998841
Queenstown,female,12.634958,24.291667
Queenstown,male,13.838922,30.9375
Southhampton,female,38.740929,27.771505
Southhampton,male,21.711996,30.29144


6) 5번의 결과로 부터 파악할 수 있는 내용은 무엇인가요?

In [9]:
# 'Cherbourg'에서 승선한 사람들의 평균 운임비가 가장 높으며 그 중, 여성의 운임비의 평균이 가장 높다. => 'Cherbourg'는 상대적으로 종착지에서 제일 먼 곳
# 'Queenstown'에서 승선한 여성의 운임비 평균이 가장 낮으며 나이 평균도 가장 적다. => 가장 가까운 곳
# 남자나이가 여자보다 높음

7) 객실등급(Pclass)별, 생존여부(Survived)별 나이(Age), 운임(Fare)의 최대, 최소, 평균, 표준편차를 tmp에 저장하고 조회하시오.

In [10]:
tmp = titanic.groupby(by=['Pclass', 'Survived'], as_index=False)[['Age', 'Fare']].agg(['max', 'min', 'mean', 'std'])
tmp

Unnamed: 0_level_0,Unnamed: 1_level_0,Age,Age,Age,Age,Fare,Fare,Fare,Fare
Unnamed: 0_level_1,Unnamed: 1_level_1,max,min,mean,std,max,min,mean,std
Pclass,Survived,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
1,0,71.0,2.0,43.695312,15.284243,263.0,0.0,64.684008,60.662089
1,1,80.0,0.92,35.368197,13.760017,512.3292,25.9292,95.608029,85.28682
2,0,70.0,16.0,33.544444,12.151581,73.5,0.0,19.412328,15.307175
2,1,62.0,0.67,25.901566,14.837787,65.0,10.5,22.0557,10.853502
3,0,74.0,1.0,26.555556,12.334882,69.55,0.0,13.669364,12.118338
3,1,63.0,0.42,20.646118,11.995047,56.4958,0.0,13.694887,10.692993


In [11]:
# 살아남은 사람들의 운임비 평균이 더 높다. => 좀 더 생존에 유리한 좌석이었을 확률이 높다.
# 1등선의 살아남은 사람들의 평균 연령이 가장 높다.
#생존한 사람들의 운임비 평균이 더 높다 => 좀 더 생존에 유리한 좌석이었을 확률이 높음

In [4]:
# 집계 각 열마다 함수를 따로 조회도 가능
titanic.groupby('Embarked').agg({'Age':'mean', 'Fare':'max'})

Unnamed: 0_level_0,Age,Fare
Embarked,Unnamed: 1_level_1,Unnamed: 2_level_1
Cherbourg,30.814769,512.3292
Queenstown,28.089286,90.0
Southhampton,29.445397,263.0


** 인덱스 조회 **

In [13]:
print(tmp.reset_index())
print(tmp)

  Pclass Survived   Age                                   Fare           \
                    max    min       mean        std       max      min   
0      1        0  71.0   2.00  43.695312  15.284243  263.0000   0.0000   
1      1        1  80.0   0.92  35.368197  13.760017  512.3292  25.9292   
2      2        0  70.0  16.00  33.544444  12.151581   73.5000   0.0000   
3      2        1  62.0   0.67  25.901566  14.837787   65.0000  10.5000   
4      3        0  74.0   1.00  26.555556  12.334882   69.5500   0.0000   
5      3        1  63.0   0.42  20.646118  11.995047   56.4958   0.0000   

                         
        mean        std  
0  64.684008  60.662089  
1  95.608029  85.286820  
2  19.412328  15.307175  
3  22.055700  10.853502  
4  13.669364  12.118338  
5  13.694887  10.692993  
                  Age                                   Fare           \
                  max    min       mean        std       max      min   
Pclass Survived                              

In [14]:
display(tmp.reset_index(inplace=True)) #inplace=True : 인덱스 리셋한거 적용
display(tmp)

None

Unnamed: 0_level_0,Pclass,Survived,Age,Age,Age,Age,Fare,Fare,Fare,Fare
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,max,min,mean,std,max,min,mean,std
0,1,0,71.0,2.0,43.695312,15.284243,263.0,0.0,64.684008,60.662089
1,1,1,80.0,0.92,35.368197,13.760017,512.3292,25.9292,95.608029,85.28682
2,2,0,70.0,16.0,33.544444,12.151581,73.5,0.0,19.412328,15.307175
3,2,1,62.0,0.67,25.901566,14.837787,65.0,10.5,22.0557,10.853502
4,3,0,74.0,1.0,26.555556,12.334882,69.55,0.0,13.669364,12.118338
5,3,1,63.0,0.42,20.646118,11.995047,56.4958,0.0,13.694887,10.692993


In [16]:
# column to index : 인덱스를 칼럼으로 다시 고정
tmp.set_index(['Pclass','Survived'], inplace=True)

In [17]:
tmp

Unnamed: 0_level_0,Unnamed: 1_level_0,Age,Age,Age,Age,Fare,Fare,Fare,Fare
Unnamed: 0_level_1,Unnamed: 1_level_1,max,min,mean,std,max,min,mean,std
Pclass,Survived,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
1,0,71.0,2.0,43.695312,15.284243,263.0,0.0,64.684008,60.662089
1,1,80.0,0.92,35.368197,13.760017,512.3292,25.9292,95.608029,85.28682
2,0,70.0,16.0,33.544444,12.151581,73.5,0.0,19.412328,15.307175
2,1,62.0,0.67,25.901566,14.837787,65.0,10.5,22.0557,10.853502
3,0,74.0,1.0,26.555556,12.334882,69.55,0.0,13.669364,12.118338
3,1,63.0,0.42,20.646118,11.995047,56.4958,0.0,13.694887,10.692993
