# Pandas
### 데이터프레임 조회 및 집계

#### **1. 데이터프레임**

**(1) 데이터프레임(DataFrame)과 시리즈(Series)**
- 데이터프레임(DataFrame) : 2차원 구조
- 시리즈(Series) : 1차원 구조
* 데이터프레임에서 열 하나를 따로 떼어내면 시리즈이다


**(2) 특정 열 조회**
- **df.loc[ : , [열 이름1, 열 이름2,...]]**  
    -> 조회할 열 이름을 리스트로 지정한다
    -> 열 부분은 생략할 수 있지만 행 부분을 생략할 수는 없다
- 일반적으로 df[[열 이름1, 열 이름2,...]] 형태로 사용한다 
- 조회할 열이 하나면 리스트 형태가 아니어도 된다

**(3) 조건으로 조회 .loc**
- **df.loc[조건]**
    -> 조건을 지정해 조건에 만족하는 데이터만 조회
1) 단일 조건 조회
2) 여러 조건 조회 <br>
    - []안에 조건을 여러개 연결할 때 and와 or 대신 &와 |를 사용해야 
    - 각 조건들은 (조건1) & (조건2) 형태로 괄호로 묶어야 한다


**(4) isin(), between()**
1. **isin([값1, 값2,..., 값n])**: 값1 또는 값2 또는...값 n인 데이터만 조회<br>
    -> 리스트 형태로 입력한다<br>
2. **between(값1, 값2)**: 값1 ~ 값2까지 범위안의 데이터만 조회<br>
    -> inclusive = 'both' (기본값)<br>
    ->'left', 'right', 'neither'

**(5) 조건을 만족하는 행의 일부 열 조회**<br>
**df.loc[조건, ['열 이름1', '열 이름2',...]]** 형태로 조회할 열을 리스트로 지정<br>
==> 2차원, 데이터프레임형태로 조회

**(6) 데이터프레임 집계**
- sum(), mean(), max(), min(), count() 메소드를 사용해 지정한 열 또는 열들을 기준으로 집계한다<br>
- 평균을 구하는 메소드 : mean() 사용 -> avg()가 아니다

**(7) 열 하나 집계**
- 우선 특정 열의 값 합

**(8) groupby()**<br>
**dataframe.groupby('집계기준변수', as_index=)['집계대상변수'].집계함수**<br>

집계기준 변수 : ~별 에 해당되는 변수 혹은 리스트, 범주형 변수(ex. 월 별, 지역 별 등)<br>
집계대상 변수 : 집계함수로 집계할 변수 혹은 리스트(ex. 점수 합계)<br>

as_index=True <br>
    -> 집계기준변수를 인덱스로 사용(데이터프레임에서 인덱스는 보통 행 번호를 의미)<br>
    -> 설정(기본값)하면 집계 기준이 되는 열이 인덱스 열이 된다

* [['data']].sum()과 같이 하면 열이 여럿이라는 의미여서 결과가 데이터프레임이 된다


as_index=False<br>
    -> 집계기준변수를 인덱스가 아닌 열로 사용<br>
    -> 행 번호를 기반으로 한 정수 값이 인덱스로 설정된다

**(9) 데이터프레임으로 선언**<br>
예) student별 score 합계 조회 <br>
-> score_sum = score.groupby('student', as_index=False)['score'].sum()
- 집계 결과를 새로운 데이터프레임으로 선언
- 집계된 결과를 반복해서 사용하거나, 분석 대상이 되는 경우 데이터프레임으로 선언하는 것이 편리하다

**(10) 여러 열 집계**
**1. 집계 대상 열을 리스트로 지정**<br>
[ ['feature1', 'feature2'] ].sum() 형태와 같이 집계 대상 열을 리스트로 지정<br>

예) student별 score, level 합계 조회<br>
score_sum = score.groupby('student', as_index=False)**[['score','test']]**.sum()<br>
 -> sum() 앞에 아무 열도 지정하지 않으면 기준열 이외의 모든 열에 대한 집계가 수행된다

**2. 집계 기준 열을 여러개 설정**<br>
['feature1', 'feature2'] 과 같이 집계 기준 열을 여러개 설정할 수 있다

예) student + subject 별 score, level 합계 조회 <br>
score.groupby(**['student','subject']**, as_index=False)[['score','level']].sum()


**(11) 여러 함수로 한꺼번에 집계 .agg**<br>
df.groupby( )**.agg(['함수1','함수2', ...])**

예) student별 score 합계, 평균, 최댓값, 최솟값 <br>
score.groupby('student')['score']**.agg(['sum', 'mean', 'max', 'min'])**
- 열 하나에 대해 합계, 평균 등의 집계를 한번에 수행할 수 있다
- agg() 메소드에 원하는 집계함수들을 리스트 형태로 지정한다



예) student별 score, level 합계, 평균<br>
score.groupby('student')[['score', 'level']].agg(['sum', 'mean'])

예) student별 score 평균, level 합계<br>
score.groupby('student', as_index=False).agg({'score':'mean', 'level':'sum'})


In [1]:
 # 라이브러리 불러오기
import pandas as pd

In [2]:
# 데이터 읽어오기
path = './student_marks.csv'
data = pd.read_csv(path)  

# 상위 5개 확인
data.head(5)

Unnamed: 0,Student_ID,Test_1,Test_2,Test_3,Test_4,Test_5,Test_6,Test_7,Test_8,Test_9,Test_10,Test_11,Test_12
0,22000,78,87,91,91,88,98,94,100,100,100,100,93
1,22001,79,71,81,72,73,68,59,69,59,60,61,67
2,22002,66,65,70,74,78,86,87,96,88,82,90,86
3,22003,60,58,54,61,54,57,64,62,72,63,72,76
4,22004,99,95,96,93,97,89,92,98,91,98,95,88


In [3]:
data.columns

Index(['Student_ID', 'Test_1', 'Test_2', 'Test_3', 'Test_4', 'Test_5',
       'Test_6', 'Test_7', 'Test_8', 'Test_9', 'Test_10', 'Test_11',
       'Test_12'],
      dtype='object')

In [4]:
# Student_ID 열 조회 : 시리즈로 조회
data['Student_ID']

0     22000
1     22001
2     22002
3     22003
4     22004
5     22005
6     22006
7     22007
8     22008
9     22009
10    22010
11    22011
12    22012
13    22013
14    22014
15    22015
16    22016
17    22017
18    22018
19    22019
20    22020
21    22021
22    22022
23    22023
24    22024
25    22025
26    22026
27    22027
28    22028
29    22029
30    22030
31    22031
32    22032
33    22033
34    22034
35    22035
36    22036
37    22037
38    22038
39    22039
40    22040
41    22041
42    22042
43    22043
44    22044
45    22045
46    22046
47    22047
48    22048
49    22049
50    22050
51    22051
52    22052
53    22053
54    22054
55    22055
Name: Student_ID, dtype: int64

In [5]:
# Student_ID 열 조회2 : 시리즈로 조회
data.Student_ID

0     22000
1     22001
2     22002
3     22003
4     22004
5     22005
6     22006
7     22007
8     22008
9     22009
10    22010
11    22011
12    22012
13    22013
14    22014
15    22015
16    22016
17    22017
18    22018
19    22019
20    22020
21    22021
22    22022
23    22023
24    22024
25    22025
26    22026
27    22027
28    22028
29    22029
30    22030
31    22031
32    22032
33    22033
34    22034
35    22035
36    22036
37    22037
38    22038
39    22039
40    22040
41    22041
42    22042
43    22043
44    22044
45    22045
46    22046
47    22047
48    22048
49    22049
50    22050
51    22051
52    22052
53    22053
54    22054
55    22055
Name: Student_ID, dtype: int64

In [6]:
# Student_ID, Test1 열 조회 : 데이터프레임으로 조회
data[['Student_ID', 'Test_1']]

Unnamed: 0,Student_ID,Test_1
0,22000,78
1,22001,79
2,22002,66
3,22003,60
4,22004,99
5,22005,41
6,22006,47
7,22007,84
8,22008,74
9,22009,87


In [7]:
# 조건으로 조회 ---------------------
# 1) 단일 조건 조회 Test_1에서 100점을 맞은 사람
data['Test_1'] == 100


0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13    False
14    False
15    False
16    False
17    False
18    False
19    False
20    False
21    False
22    False
23    False
24    False
25    False
26    False
27    False
28    False
29    False
30    False
31    False
32    False
33    False
34    False
35    False
36    False
37    False
38    False
39    False
40     True
41    False
42    False
43    False
44    False
45    False
46    False
47    False
48    False
49    False
50    False
51    False
52    False
53    False
54    False
55    False
Name: Test_1, dtype: bool

In [8]:
# Test_1 열 값이 100인 행 조회
data.loc[data['Test_1'] == 100]

Unnamed: 0,Student_ID,Test_1,Test_2,Test_3,Test_4,Test_5,Test_6,Test_7,Test_8,Test_9,Test_10,Test_11,Test_12
40,22040,100,93,92,86,84,76,82,74,79,72,79,85


In [9]:
# 2) 여러 조건 조회
# and로 여러 조건 연결
data.loc[(data['Test_2'] == 100) & (data['Test_3'] > 90)]

Unnamed: 0,Student_ID,Test_1,Test_2,Test_3,Test_4,Test_5,Test_6,Test_7,Test_8,Test_9,Test_10,Test_11,Test_12
32,22032,95,100,94,100,98,99,100,90,80,84,75,80
42,22042,98,100,100,93,94,92,100,100,98,94,97,100
53,22053,92,100,100,100,100,100,92,87,94,100,94,98


In [10]:
# or 조건 : |
data.loc[(data['Test_2'] == 100) | (data['Test_3'] > 90)]

Unnamed: 0,Student_ID,Test_1,Test_2,Test_3,Test_4,Test_5,Test_6,Test_7,Test_8,Test_9,Test_10,Test_11,Test_12
0,22000,78,87,91,91,88,98,94,100,100,100,100,93
4,22004,99,95,96,93,97,89,92,98,91,98,95,88
12,22012,81,83,93,88,89,90,99,99,95,85,75,84
31,22031,84,93,97,89,86,95,100,100,100,99,100,100
32,22032,95,100,94,100,98,99,100,90,80,84,75,80
36,22036,95,89,91,84,89,94,85,91,100,100,100,92
40,22040,100,93,92,86,84,76,82,74,79,72,79,85
42,22042,98,100,100,93,94,92,100,100,98,94,97,100
44,22044,96,92,94,100,99,95,98,92,84,84,84,91
53,22053,92,100,100,100,100,100,92,87,94,100,94,98


In [11]:
# isin(), between()
# isin([값1, 값2,..., 값n]): 값1 또는 값2 또는...값n인 데이터만 조회

# 값 나열 -> Test_3에서 65점 또는 78점인 학생들만 조회
data.loc[data['Test_3'].isin([65,78])]
#data.loc[(data['Test_3'] == 65) | (data['Test_3'] == 78)] 와 같음

Unnamed: 0,Student_ID,Test_1,Test_2,Test_3,Test_4,Test_5,Test_6,Test_7,Test_8,Test_9,Test_10,Test_11,Test_12
11,22011,91,84,78,74,76,80,80,73,75,71,79,70
14,22014,63,67,65,74,80,86,95,96,92,83,75,81


In [12]:
# 범위 지정 : between(값1, 값2): 값1 ~ 값2까지 범위안의 데이터만 조회
data.loc[data['Test_3'].between(65, 78)]

# data.loc[(data['Test_3'] >= 65) & (data['Test_3'] <= 78)]와 같음

Unnamed: 0,Student_ID,Test_1,Test_2,Test_3,Test_4,Test_5,Test_6,Test_7,Test_8,Test_9,Test_10,Test_11,Test_12
2,22002,66,65,70,74,78,86,87,96,88,82,90,86
7,22007,84,74,70,68,58,59,56,56,64,70,67,59
9,22009,87,81,73,74,71,63,53,45,39,43,46,38
11,22011,91,84,78,74,76,80,80,73,75,71,79,70
14,22014,63,67,65,74,80,86,95,96,92,83,75,81
16,22016,83,78,71,71,77,72,66,75,66,61,61,66
18,22018,71,67,76,74,64,61,57,64,61,51,51,58
26,22026,92,84,74,83,93,83,75,82,81,73,70,73
27,22027,63,70,74,65,64,55,61,58,48,46,46,51
28,22028,78,77,69,76,78,74,67,69,78,68,65,68


In [13]:
# 조건에 맞는 하나의 열 조회
data.loc[data['Test_4'] == 100, ['Student_ID']]

Unnamed: 0,Student_ID
32,22032
44,22044
53,22053


In [14]:
# 조건에 맞는 여러 열 조회
data.loc[data['Test_5'] >= 50, ['Student_ID', 'Test_1', 'Test_2']]

Unnamed: 0,Student_ID,Test_1,Test_2
0,22000,78,87
1,22001,79,71
2,22002,66,65
3,22003,60,58
4,22004,99,95
6,22006,47,50
7,22007,84,74
8,22008,74,64
9,22009,87,81
11,22011,91,84


In [15]:
# (1) 열 하나 집계 - Test_2 점수 합계
data['Test_2'].sum()

3875

In [16]:
# Test_7, Test_8에서 학생들 점수의 각각의 평균
data[['Test_7', 'Test_8']].mean()

Test_7    66.160714
Test_8    65.303571
dtype: float64

In [17]:
# Student_ID 별 학생들 Test_1 점수 평균 --> 시리즈로 나타내기
data.groupby('Student_ID', as_index=True)['Test_1'].mean()

Student_ID
22000     78.0
22001     79.0
22002     66.0
22003     60.0
22004     99.0
22005     41.0
22006     47.0
22007     84.0
22008     74.0
22009     87.0
22010     40.0
22011     91.0
22012     81.0
22013     52.0
22014     63.0
22015     76.0
22016     83.0
22017     55.0
22018     71.0
22019     62.0
22020     44.0
22021     50.0
22022     57.0
22023     59.0
22024     84.0
22025     74.0
22026     92.0
22027     63.0
22028     78.0
22029     55.0
22030     54.0
22031     84.0
22032     95.0
22033     64.0
22034     76.0
22035     78.0
22036     95.0
22037     99.0
22038     82.0
22039     65.0
22040    100.0
22041     78.0
22042     98.0
22043     58.0
22044     96.0
22045     86.0
22046     48.0
22047     56.0
22048     42.0
22049     64.0
22050     50.0
22051     70.0
22052     63.0
22053     92.0
22054     64.0
22055     60.0
Name: Test_1, dtype: float64

In [18]:
# Student_ID 별 학생들 Test_1 점수 평균 -->데이터프레임
data.groupby('Student_ID', as_index=True)[['Test_1']].mean()
# as_index=False를 설정하면 행 번호를 기반으로 한 정수 값이 인덱스로 설정된다
#data.groupby('Student_ID', as_index=False)[['Test_1']].mean()

Unnamed: 0_level_0,Test_1
Student_ID,Unnamed: 1_level_1
22000,78.0
22001,79.0
22002,66.0
22003,60.0
22004,99.0
22005,41.0
22006,47.0
22007,84.0
22008,74.0
22009,87.0


In [19]:
# 여러 열 집계하기
data.groupby('Student_ID', as_index=False)[['Test_1','Test_2','Test_3','Test_4']].mean()

Unnamed: 0,Student_ID,Test_1,Test_2,Test_3,Test_4
0,22000,78.0,87.0,91.0,91.0
1,22001,79.0,71.0,81.0,72.0
2,22002,66.0,65.0,70.0,74.0
3,22003,60.0,58.0,54.0,61.0
4,22004,99.0,95.0,96.0,93.0
5,22005,41.0,36.0,35.0,28.0
6,22006,47.0,50.0,47.0,57.0
7,22007,84.0,74.0,70.0,68.0
8,22008,74.0,64.0,58.0,57.0
9,22009,87.0,81.0,73.0,74.0


In [20]:
#sum() 메소드 앞에 아무 열도 지정하지 않으면 기준열 이외의 모든 열에 대한 집계가 수행
data.groupby('Student_ID', as_index=False).sum()

Unnamed: 0,Student_ID,Test_1,Test_2,Test_3,Test_4,Test_5,Test_6,Test_7,Test_8,Test_9,Test_10,Test_11,Test_12
0,22000,78,87,91,91,88,98,94,100,100,100,100,93
1,22001,79,71,81,72,73,68,59,69,59,60,61,67
2,22002,66,65,70,74,78,86,87,96,88,82,90,86
3,22003,60,58,54,61,54,57,64,62,72,63,72,76
4,22004,99,95,96,93,97,89,92,98,91,98,95,88
5,22005,41,36,35,28,35,36,27,26,19,22,27,31
6,22006,47,50,47,57,62,64,71,75,85,87,85,89
7,22007,84,74,70,68,58,59,56,56,64,70,67,59
8,22008,74,64,58,57,53,51,47,45,42,43,34,24
9,22009,87,81,73,74,71,63,53,45,39,43,46,38


In [21]:
# by=['feature1', 'feature2'] 과 같이 집계 기준 열을 여럿 설정
# 'Student_ID', 'Test_1'별 나머지 열들 평균 조회
data_sum = data.groupby(['Student_ID', 'Test_1'], as_index=False)[['Test_10', 'Test_11', 'Test_12']].mean()

# 확인
data_sum


Unnamed: 0,Student_ID,Test_1,Test_10,Test_11,Test_12
0,22000,78,100.0,100.0,93.0
1,22001,79,60.0,61.0,67.0
2,22002,66,82.0,90.0,86.0
3,22003,60,63.0,72.0,76.0
4,22004,99,98.0,95.0,88.0
5,22005,41,22.0,27.0,31.0
6,22006,47,87.0,85.0,89.0
7,22007,84,70.0,67.0,59.0
8,22008,74,43.0,34.0,24.0
9,22009,87,43.0,46.0,38.0


In [22]:
#  여러 함수로 한꺼번에 집계 .agg
data_agg = data.groupby('Student_ID', as_index=False)[['Test_1']].agg(['min','max','mean'])
# 확인
data_agg

Unnamed: 0_level_0,Test_1,Test_1,Test_1
Unnamed: 0_level_1,min,max,mean
Student_ID,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
22000,78,78,78.0
22001,79,79,79.0
22002,66,66,66.0
22003,60,60,60.0
22004,99,99,99.0
22005,41,41,41.0
22006,47,47,47.0
22007,84,84,84.0
22008,74,74,74.0
22009,87,87,87.0
