# 05 - 판다스 데이터프레임 집계

## 4.데이터프레임 집계

- 상세 데이터가 아닌 집계된 데이터에 대한 분석을 자주 요구하니 익숙해져야 할 내용입니다.
- sum(), mean(), max(), min(), count() 메소드를 사용해 지정한 열 또는 열들을 기준으로 집계합니다.
- 평균을 구하는 메소드가 avg()가 아닌 mean() 임을 주의하기 바랍니다.

In [None]:
# 라이브러리 불러오기
import pandas as pd

* Attrition 데이터 불러오기

**[Attrition 데이터 셋 정보]**

|	구분	|	변수 명	|	내용	|	type	|	비고	|
|	----	|	----	|	----	|	----	|	----	|
|	**Target**	|	**Attrition**	|	이직여부, Yes , No	|	범주	| 1- 이직, 0- 잔류		|
|	feature	|	Age	|	나이	|	숫자	|		|
|	feature	|	DistanceFromHome	|	집-직장 거리	|	숫자	|	마일	|
|	feature	|	EmployNumber	|	사번	|	숫자	| 	|
|	feature	|	Gender	|	성별	|	범주	| Male, Female		|
|	feature	|	JobSatisfaction	|	직무 만족도	|	범주	|	1 Low, 2 Medium, 3 High, 4 Very High	|
|	feature	|	MaritalStatus	|	결혼상태	|	범주	| Single, Married, Divorced		|
|	feature	|	MonthlyIncome	|	월급	|	숫자	| 달러	|
|	feature	|	OverTime	|	야근여부	|	범주	|	Yes, No	|
|	feature	|	PercentSalaryHike	|	전년대비 급여인상율	|	숫자	|	%	|
|	feature	|	TotalWorkingYears	|	총 경력 연수	|	숫자	|		|

In [None]:
# 데이터 읽어오기
path = 'https://raw.githubusercontent.com/DA4BAM/dataset/master/Attrition_simple2.CSV'
data = pd.read_csv(path)  

# 상위 5개 확인
data.head(5)

### 4.1 열 하나 집계

- 우선 특정 열의 값 합은 다음과 같이 구할 수 있습니다.

In [None]:
# MonthlyIncome 합계
data['MonthlyIncome'].sum()

In [None]:
# MonthlyIncome, TotalWorkingYears 각각의 평균
data[['MonthlyIncome', 'TotalWorkingYears']].mean()

**1) 집계하기**

- 만일 day 별로 합을 구하고자 한다면 다음과 같이 합니다.
- 아래 결과 값 네 개를 더하면 전체 합이 됩니다.
- **as_index=True**를 설정(기본값)하면 집계 기준이 되는 열이 인덱스 열이 됩니다.
- 집계 결과가 data 열만 가지니 **시리즈**가 됩니다.

In [None]:
# MaritalStatus 별 Age 평균 --> 시리즈
data.groupby('MaritalStatus', as_index=True)['Age'].mean()

- **[['data']].sum()**과 같이 하면 열이 여럿이라는 의미여서 결과가 **데이터프레임**이 됩니다.

In [None]:
# MaritalStatus 별 Age 평균 --> 데이터프레임
data.groupby('MaritalStatus', as_index=True)[['Age']].mean()

- **as_index=False**를 설정하면 행 번호를 기반으로 한 정수 값이 인덱스로 설정됩니다.

In [None]:
# MaritalStatus 별 Age 평균 --> 데이터프레임
data.groupby('MaritalStatus', as_index=False)[['Age']].mean()

**2) 데이터프레임으로 선언**

- 집계 결과를 새로운 데이터프레임으로 선언하여 사용하는 경우가 많습니다.
- 집계된 결과를 반복해서 사용하거나, 분석 대상이 되는 경우 데이터프레임으로 선언함이 유익합니다.

In [None]:
data_mean = data.groupby('MaritalStatus', as_index=False)[['Age']].mean()

# 확인
data_mean

### 4.2 여러 열 집계

- 여러 열에 대한 집계를 같이 할 수 있습니다.
- **[ ['feature1', 'feature2'] ].sum()** 형태와 같이 집계 대상 열을 리스트로 지정합니다.

In [None]:
data_mean = data.groupby('MaritalStatus', as_index=False)[['Age','MonthlyIncome']].mean()

# 확인
data_mean

- sum() 메소드 앞에 아무 열도 지정하지 않으면 **기준열 이외의 모든 열에 대한 집계**가 수행됩니다.

In [None]:
data_sum = data.groupby('MaritalStatus', as_index=False).sum()

# 확인
data_sum

- **by=['feature1', 'feature2']** 과 같이 집계 기준 열을 여럿 설정할 수도 있습니다.

In [None]:
# 'MaritalStatus', 'Gender'별 나머지 열들 평균 조회
data_sum = data.groupby(['MaritalStatus', 'Gender'], as_index=False)[['Age','MonthlyIncome']].mean()

# 확인
data_sum

### 4.3 여러 함수로 한꺼번에 집계

* df.groupby(  )**.agg(['함수1','함수2', ...])**

In [None]:
data_agg = data.groupby('MaritalStatus', as_index=False)[['MonthlyIncome']].agg(['min','max','mean'])
# 확인
data_agg

<img src='https://raw.githubusercontent.com/jangrae/img/master/practice_01.png' width=120 align="left"/>

[문1] 데이터를 불러와 데이터프레임으로 저장합니다.

- 파일 경로 : https://raw.githubusercontent.com/DA4BAM/dataset/master/airquality_simple.csv

**[airquality_simple 데이터 셋 정보]**

- Ozone : 오존농도
- Solar.R: 태양복사열
- Wind: 풍속
- Temp: 기온
- Month: 월
- Day: 일

In [None]:
# 데이터 읽어오기
temp = pd.read_csv('https://raw.githubusercontent.com/DA4BAM/dataset/master/airquality_simple.csv')  

# 상위 5개 확인
temp.head(5)

[문2] 월별 Ozone, Wind, Temp 평균을 구해 봅시다.

[문3] 월별 Ozone, Wind, Temp에 대해 최대, 최소, 평균, 표준편차 값을 구해 봅시다.

### 4.3 종합실습

1) pandas 라이브러리를 pd 별칭을 주어 불러오세요.

In [None]:
# 라이브러리 불러오기
import pandas as pd

2) read_csv() 함수를 사용해 다음 경로의 파일을 불러와 **titanic** 데이터프레임을 만드세요.

- 파일 경로: 'https://raw.githubusercontent.com/DA4BAM/dataset/master/titanic_simple.csv'

**[titanic_simple 데이터 셋 정보]**

- PassengerId : 승객번호
- Survived : 생존여부(1:생존, 0:사망)
- Pclass : 객실등급(1:1등급, 2:2등급, 3:3등급)
- Name : 승객이름
- Sex : 성별(male, female)
- Age : 나이
- Fare : 운임($)
- Embarked : 승선지역(Southhampton, Cherbourg, Queenstown)

In [None]:
# 파일 읽어오기
titanic = pd.read_csv('https://raw.githubusercontent.com/DA4BAM/dataset/master/titanic_simple.csv')

3) Fare의 중앙값을 확인해 봅시다.

4) 승선지역(Embarked)별 평균 운임(Fare)을 구해 봅시다.

5) 승선지역(Embarked)별, 성별(Sex)별 평균 운임(Fare)과 평균 나이(Age)를 tmp에 저장하고 조회하시오.

6) 5번의 결과로 부터 파악할 수 있는 내용은 무엇인가요?

7) 객실등급(Pclass)별, 생존여부(Survived)별 나이(Age), 운임(Fare)의 최대, 최소, 평균, 표준편차를 tmp에 저장하고 조회하시오.