# 05. Pandas

In [2]:
import pandas as pd
import numpy as np

### 조건 필터링

In [3]:
data = {
    '이름' : ['홍길동', '김철수', '이영희', '박민수'],
    '점수' : [90, 70, 95, 95],
    '반' : [2, 1, 1, 2]
}

df = pd.DataFrame(data)
df

#     이름	점수	반
# 0	홍길동	90	    2
# 1	김철수	70	    1
# 2	이영희	95	    1
# 3	박민수	95	    2

Unnamed: 0,이름,점수,반
0,홍길동,90,2
1,김철수,70,1
2,이영희,95,1
3,박민수,95,2


In [4]:
mask = df['점수'] >= 80
filtered = df[mask]
filtered

# 	이름	점수	반
# 0	홍길동	90	    2
# 2	이영희	95	    1
# 3	박민수	95	    2

Unnamed: 0,이름,점수,반
0,홍길동,90,2
2,이영희,95,1
3,박민수,95,2


In [5]:
# 여러 조건 결합 : 각 조건은 반드시 괄호로 묶어야 함
# and : &
# or : |
# not : ~

# & 예시
df[(df['반'] == 1) & (df['점수'] >= 80)]
#     이름	점수	반
# 2	이영희	95	    1

# | 예시
df[(df['반'] == 2) | (df['점수'] >= 90)]
#     이름	점수	반
# 0	홍길동	90	    2
# 2	이영희	95	    1
# 3	박민수	95	    2

# ~ 예시
df
df[ ~ (df['점수'] >= 80)]
#     이름	점수	반
# 1	김철수	70	    1

Unnamed: 0,이름,점수,반
1,김철수,70,1


In [6]:
# isin()
# 여러 값 중에 하나에 해당하는지 여부를 판단할 때 사용

# ex. 이름이 홍길동 이거나, 박민수 이거나 한 경우
mask = (df['이름'] == "홍길동") | (df['이름'] == "박민수")
df[mask]
#     이름	점수	반
# 0	홍길동	90	    2
# 3	박민수	95	    2

mask = df["이름"].isin(["홍길동", "박민수"])
df[mask]
#     이름	점수	반
# 0	홍길동	90	    2
# 3	박민수	95	    2

mask2 = ~df["이름"].isin(["홍길동", "박민수"])
df[mask2]
#     이름	점수	반
# 1	김철수	70	    1
# 2	이영희	95	    1

Unnamed: 0,이름,점수,반
1,김철수,70,1
2,이영희,95,1


In [7]:
# reset_index()
# 조건 필터링, 행 삭제 등을 통해 인덱스가 변경됐을 시 사용
# reset_index()를 사용 -> 인덱스 초기화

mask = (df['반'] == 2) | (df['점수'] >= 90)
df2 = df[mask]
print(df2)
#     이름  점수  반
# 0  홍길동  90   2
# 2  이영희  95   1
# 3  박민수  95   2

# 인덱스 리셋
df2 = df2.reset_index()
print(df2)
#    index   이름  점수  반
# 0      0  홍길동  90    2
# 1      2  이영희  95    1
# 2      3  박민수  95    2

# 기존 인덱스 삭제
df2 = df2.reset_index(drop=True)
print(df2)
#     이름  점수  반
# 0  홍길동  90   2
# 1  이영희  95   1
# 2  박민수  95   2

    이름  점수  반
0  홍길동  90  2
2  이영희  95  1
3  박민수  95  2
   index   이름  점수  반
0      0  홍길동  90  2
1      2  이영희  95  1
2      3  박민수  95  2
   index   이름  점수  반
0      0  홍길동  90  2
1      2  이영희  95  1
2      3  박민수  95  2


In [8]:
# 실습1. 조건 필터링 연습(1)
# 사용 데이터
df = pd.DataFrame({
'이름': ['민준', '서연', '지후', '서준', '지민'],
'점수': [78, 92, 85, 60, 88],
'반': [1, 2, 1, 2, 1]
})
# 1. 점수(score)가 80 점 이상인 학생만 추출하세요.
mask1 = df[df['점수'] >= 80]
print("문제 1. \n", mask1)
# 2. 1반(반==1) 학생들 중, 점수가85점 이상인 학생만 추출하세요.
mask2 = df[(df['반'] == 1) & (df['점수'] >= 85)]
print("\n문제 2. \n", mask2)

문제 1. 
    이름  점수  반
1  서연  92  2
2  지후  85  1
4  지민  88  1

문제 2. 
    이름  점수  반
2  지후  85  1
4  지민  88  1


In [9]:
# 실습1. 조건 필터링 연습(2)
# 사용 데이터
df = pd.DataFrame({
'이름': ['민준', '서연', '지후', '서준', '지민'],
'점수': [78, 92, 85, 60, 88],
'반': [1, 2, 1, 2, 1]
})
# 3. 이름이 '서연' 또는 '지민'인 학생만 추출하세요.
mask3 = df[df['이름'].isin(['서연', '지민'])]
print("문제 3. \n", mask3)

# 4. 문제 3에서 추출한 결과에서 인덱스를 0부터 재정렬하여 출력하세요
mask3 = mask3.reset_index()
print("\n문제 4. \n", mask3)

문제 3. 
    이름  점수  반
1  서연  92  2
4  지민  88  1

문제 4. 
    index  이름  점수  반
0      1  서연  92  2
1      4  지민  88  1


In [10]:
# 실습1. 조건 필터링 연습(3)
# 사용 데이터
df = pd.DataFrame({
'이름': ['민준', '서연', '지후', '서준', '지민'],
'점수': [78, 92, 85, 60, 88],
'반': [1, 2, 1, 2, 1]
})
# 5. 점수가 80점 미만이거나 2반인 학생만 추출하세요.
mask4 = df[(df['점수'] < 80) | (df['반'] == 2)]
print("문제 5. \n", mask4)
# 6. 문제 5의 결과에서 '점수' 컬럼이 70점 이상인 학생만 다시 추출하고, 인덱스를 재정렬하여 출력하세요.
mask5 = mask4[mask4['점수'] >= 70]
print("\n문제 6. \n", mask5.reset_index(drop=True))

문제 5. 
    이름  점수  반
0  민준  78  1
1  서연  92  2
3  서준  60  2

문제 6. 
    이름  점수  반
0  민준  78  1
1  서연  92  2


### 열 추가 / 수정 / 삭제

In [11]:
# 열 추가 및 수정
# df["컬럼명"] = "값" or "연산"
# 컬럼이 존재하면 수정 / 없으면 추가

df = pd.DataFrame({
    '이름' : ['김철수', '이영희', '박민수'],
    '국어' : [90, 80, 70],
    '영어' : [85, 78, 92]
})
df

# 	이름	국어	영어
# 0	김철수	90	    85
# 1	이영희	80	    78
# 2	박민수	70	    92


Unnamed: 0,이름,국어,영어
0,김철수,90,85
1,이영희,80,78
2,박민수,70,92


In [12]:
# 같은 값을 한번에 추가
df["반"] = '1반'
df
# 	이름	국어	영어	 반
# 0	김철수	90	    85	    1반
# 1	이영희	80	    78	    1반
# 2	박민수	70	    92	    1반

Unnamed: 0,이름,국어,영어,반
0,김철수,90,85,1반
1,이영희,80,78,1반
2,박민수,70,92,1반


In [13]:
# 조건문을 통한 추가
df['국어_합격여부'] = df["국어"] >= 80
df
# 	이름	국어	영어	반	국어_합격여부
# 0	김철수	90	    85	   1반	    True
# 1	이영희	80	    78	   1반	    True
# 2	박민수	70	    92	   1반	    False

Unnamed: 0,이름,국어,영어,반,국어_합격여부
0,김철수,90,85,1반,True
1,이영희,80,78,1반,True
2,박민수,70,92,1반,False


In [14]:
# 리스트 / 시리즈를 통한 열 추가
df["학번"] = [101, 102, 103]
df
# 	이름	국어	영어	반	국어_합격여부	학번
# 0	김철수	90	    85	    1반	    True	    101
# 1	이영희	80	    78	    1반	    True	    102
# 2	박민수	70	    92	    1반	    False	    103

Unnamed: 0,이름,국어,영어,반,국어_합격여부,학번
0,김철수,90,85,1반,True,101
1,이영희,80,78,1반,True,102
2,박민수,70,92,1반,False,103


In [15]:
# 시리즈의 연산 결과로 새 열 추가
df['총점'] = df["국어"] + df["영어"]
df
#     이름	국어	영어	반	국어_합격여부	학번	총점
# 0	김철수	90	    85	   1반	    True	   101	   175
# 1	이영희	80	    78	   1반	    True	   102	   158
# 2	박민수	70	    92	   1반	    False	   103	   162

Unnamed: 0,이름,국어,영어,반,국어_합격여부,학번,총점
0,김철수,90,85,1반,True,101,175
1,이영희,80,78,1반,True,102,158
2,박민수,70,92,1반,False,103,162


In [16]:
# 기존 값 한번에 변경
df["영어"] = 100
df
#     이름	국어	영어	반	국어_합격여부	학번	총점
# 0	김철수	90	    100	   1반	    True	   101	   175
# 1	이영희	80	    100	   1반	    True	   102	   158
# 2	박민수	70	    100	   1반	    False	   103	   162

Unnamed: 0,이름,국어,영어,반,국어_합격여부,학번,총점
0,김철수,90,100,1반,True,101,175
1,이영희,80,100,1반,True,102,158
2,박민수,70,100,1반,False,103,162


In [17]:
# 새로운 컬럼 추가 시, 행의 개수가 맞지 않으면, 에러가 발생함
# df["새로운 열"] = [100, 200, 300, 400]          # ValueError  Traceback (most recent call last)

In [18]:
# 열 삭제 : drop
# 단일 열 삭제

df2 = df.drop("반", axis=1)
df2
#     이름	국어	영어	국어_합격여부	학번	총점
# 0	김철수	90	    100	    True	        101 	175
# 1	이영희	80	    100	    True	        102	    158
# 2	박민수	70	    100	    False	        103	    162

Unnamed: 0,이름,국어,영어,국어_합격여부,학번,총점
0,김철수,90,100,True,101,175
1,이영희,80,100,True,102,158
2,박민수,70,100,False,103,162


In [19]:
# 여러 열 삭제
df3 = df2.drop(["총점", "국어_합격여부"], axis=1)
df3

#     이름	국어	영어	학번
# 0	김철수	90	    100	    101
# 1	이영희	80	    100	    102
# 2	박민수	70	    100	    103

Unnamed: 0,이름,국어,영어,학번
0,김철수,90,100,101
1,이영희,80,100,102
2,박민수,70,100,103


In [20]:
# 원본에서삭제
# df.drop("반", axis=1, inplace=True)
# df

#     이름	국어	영어	국어_합격여부	학번	총점
# 0	김철수	90	    100	        True	   101	   175
# 1	이영희	80	    100	        True	   102	   158
# 2	박민수	70	    100	        False	   103	   162

In [21]:
# 기타 삭제 방법
deleted = df.pop("영어")
deleted
print(df)

#     이름  국어  국어_합격여부   학번   총점
# 0  김철수  90     True          101  175
# 1  이영희  80     True          102  158
# 2  박민수  70    False          103  162

    이름  국어   반  국어_합격여부   학번   총점
0  김철수  90  1반     True  101  175
1  이영희  80  1반     True  102  158
2  박민수  70  1반    False  103  162


### 행 추가 / 수정 / 삭제

In [22]:
df = pd.DataFrame({
    '이름' : ['김철수', '이영희'],
    '나이' : [23, 25]
})
df

# 	이름	나이
# 0	김철수	23
# 1	이영희	25

Unnamed: 0,이름,나이
0,김철수,23
1,이영희,25


In [23]:
# 행 추가 : concat
# 새 행을 추가하기
new_row = pd.DataFrame([{'이름' : '박민수', '나이' : 30}])
df = pd.concat([df, new_row], ignore_index=True)
df

#   이름	 나이
# 0	김철수	23
# 1	이영희	25
# 2	박민수	30
# 3	박민수	30


# 인덱스 재정렬
# ignore_index=True : 인덱스 재정렬

Unnamed: 0,이름,나이
0,김철수,23
1,이영희,25
2,박민수,30


In [24]:
# 여러 행 추가하기
new_rows = pd.DataFrame([{'이름' : '김정현', '나이' : 28},
                         {"이름" : "최은진", "나이" : 27},
                         {"이름" : "김재연", "나이" : 26}])
df = pd.concat([df, new_rows], ignore_index=True)
df

# 	이름	나이
# 0	김철수	23
# 1	이영희	25
# 2	박민수	30
# 3	박민수	30
# 4	김정현	28
# 5	최은진	27
# 6	김재연	26

Unnamed: 0,이름,나이
0,김철수,23
1,이영희,25
2,박민수,30
3,김정현,28
4,최은진,27
5,김재연,26


In [25]:
# 행 수정
# locm iloc를 활용
df.loc[1]
# 이름    이영희
# 나이     25
# Name: 1, dtype: object

df.loc[1] = ["김영희", 34]
df

# 	이름	나이
# 0	김철수	23
# 1	김영희	34 # 해당 사항 변경
# 2	박민수	30
# 3	박민수	30
# 4	김정현	28
# 5	최은진	27
# 6	김재연	26
# 7	김정현	28
# 8	최은진	27
# 9	김재연	2

Unnamed: 0,이름,나이
0,김철수,23
1,김영희,34
2,박민수,30
3,김정현,28
4,최은진,27
5,김재연,26


In [26]:
df.loc[0, "나이"] = 18
df

#     이름	나이
# 0	김철수	18      # 해당 컬럼만 변경
# 1	김영희	34
# 2	박민수	30
# 3	박민수	30
# 4	김정현	28
# 5	최은진	27
# 6	김재연	26
# 7	김정현	28
# 8	최은진	27
# 9	김재연	26

df.loc[1:3, "나이"] = 15
df
# 0	김철수	18
# 1	김영희	15
# 2	박민수	15
# 3	박민수	15

Unnamed: 0,이름,나이
0,김철수,18
1,김영희,15
2,박민수,15
3,김정현,15
4,최은진,27
5,김재연,26


In [27]:
df.loc[1:2, ["이름", "나이"]] = [["x", 20], ["y", 10]]
df

# 	이름	나이
# 0	김철수	18
# 1	x	    20
# 2	y	    10
# 3	박민수	15
# 4	김정현	28

Unnamed: 0,이름,나이
0,김철수,18
1,x,20
2,y,10
3,김정현,15
4,최은진,27
5,김재연,26


In [28]:
# 행 삭제 : drop
# axis 기본값 : 0 => 행 삭제
df2 = df.drop(1).reset_index(drop=True)
df2

# 	이름	나이
# 0	김철수	18
# 1	    y	10
# 2	박민수	15

Unnamed: 0,이름,나이
0,김철수,18
1,y,10
2,김정현,15
3,최은진,27
4,김재연,26


In [29]:
# 여러 행 삭제
df3 = df.drop([0, 2])
df3
# 	이름	나이
# 1	    x	20
# 3	박민수	15
# 4	김정현	28
# 5	최은진	27
# 6	김재연	26
# 7	김정현	28
# 8	최은진	27
# 9	김재연	26

Unnamed: 0,이름,나이
1,x,20
3,김정현,15
4,최은진,27
5,김재연,26


In [30]:
# 실습2. 행 / 열 추가·수정·삭제(1)
# 사용 데이터
df = pd.DataFrame({
'이름': ['김철수', '이영희', '박민수'],
'국어': [90, 80, 70]
})
# 1. '수학' 점수 [95, 100, 88]을 새 열로 추가하세요.
df["수학"] = [96, 100, 85]
print("문제 1. \n", df)
# 2. 1번 문제의 DataFrame에서 '이름' 열을 삭제하세요.
print("\n문제2. \n", df.drop("이름", axis = 1))

문제 1. 
     이름  국어   수학
0  김철수  90   96
1  이영희  80  100
2  박민수  70   85

문제2. 
    국어   수학
0  90   96
1  80  100
2  70   85


In [31]:
# 실습2. 행 / 열 추가·수정·삭제(2)
# 사용 데이터
df = pd.DataFrame({
'제품': ['A', 'B'],
'가격': [1000, 2000 ]
})
# 3. 제품 'C',가격 1500 인 새 행을 추가하세요.
new_row = pd.DataFrame([{'제품' : 'C', '가격' : 1500}])
df = pd.concat([df, new_row], ignore_index=True)
print("문제 3 \n", df)
# 4. 3번 문제의 DataFrame에서 첫 번째 행 (제품'A')을 삭제하세요.
df1 = df.drop(0).reset_index(drop=True)
print("\n문제4.\n", df1)

문제 3 
   제품    가격
0  A  1000
1  B  2000
2  C  1500

문제4.
   제품    가격
0  B  2000
1  C  1500


In [32]:
# 실습2. 행 / 열 추가·수정·삭제(3)
# 사용 데이터
df = pd.DataFrame({
'과목': ['국어', '영어', '수학'],
'점수': [85, 90, 78]
})
# 5. '점수'가 80 미만인 행을 모두 삭제하세요.
df = df[df["점수"] >= 80]
print("문제 5.\n", df)
# 6. '학년' 열 (값은모두1)을 추가하세요.
df["학년"] = 1
print("\n문제 6.\n", df)

문제 5.
    과목  점수
0  국어  85
1  영어  90

문제 6.
    과목  점수  학년
0  국어  85   1
1  영어  90   1


In [33]:
# 실습2. 행  /열 추가·수정·삭제(4)
# 사용 데이터
df = pd.DataFrame({
'이름': ['A', 'B'],
'나이': [20, 22]
})
# 7. 이름이 'C',나이가 25, 키가 NaN(결측값)인 새 행을 추가하세요.
# (단, '키'라는새 열이자동으로추가되어야함)
new_row1 = pd.DataFrame([{"이름" : 'C', '나이' : 25, '키' : np.nan}])
df = pd.concat([df, new_row1], ignore_index=True)
print("문제 7.")
df

문제 7.


Unnamed: 0,이름,나이,키
0,A,20,
1,B,22,
2,C,25,


In [34]:
# 실습2. 행 / 열 추가·수정·삭제(5)
# 사용 데이터
df = pd.DataFrame({
'부서': ['영업', '기획', '개발', '디자인'],
'인원': [3, 2, 5, 1]
})
# 8. 인원이 2명 이하인 행을 모두 삭제하고,
df = df[df["인원"] > 2].reset_index(drop=True)
print("문제 8.\n", df)
# 9. '평가' 열을 새로 추가해 모든 값을 '미정'으로 채우세요
df["평가"] = "미정"
print("\n문제 9.")
df

문제 8.
    부서  인원
0  영업   3
1  개발   5

문제 9.


Unnamed: 0,부서,인원,평가
0,영업,3,미정
1,개발,5,미정


### 정렬
- 값 기준 정렬 : sort_values
- 인덱스 기준 정렬 : sort_inex

In [35]:
data = {
    '이름' : ['홍길동', '김철수', '이영희', '박민수'],
    '점수' : [90, 70, 95, 95],
    '반' : [2, 1, 1, 2]
}

df = pd.DataFrame(data)
df

Unnamed: 0,이름,점수,반
0,홍길동,90,2
1,김철수,70,1
2,이영희,95,1
3,박민수,95,2


In [36]:
# 값 기준으로 정렬 : sort_values()
# 오름차순 정렬
df2 = df.sort_values("점수").reset_index(drop=True)
df2


#     이름	점수	반
# 0	김철수	 70	    1
# 1	홍길동	 90	    2
# 2	이영희	 95	    1
# 3	박민수	 95	    2

Unnamed: 0,이름,점수,반
0,김철수,70,1
1,홍길동,90,2
2,이영희,95,1
3,박민수,95,2


In [37]:
# 내림차순 정렬
# ascending = False
df3 = df.sort_values("점수",ascending=False).reset_index(drop=True)
df3

# 	이름	점수	반
# 0	박민수	95	    2
# 1	이영희	95	    1
# 2	홍길동	90	    2
# 3	김철수	70	    1

Unnamed: 0,이름,점수,반
0,박민수,95,2
1,이영희,95,1
2,홍길동,90,2
3,김철수,70,1


In [38]:
# 여러 기준으로 정렬
df4 = df.sort_values(["반", "점수"], ascending=[True, False]).reset_index(drop=True)
df4
# 	이름	점수	반      # 반을 기준으로 오름차순, 점수 기준으로 내림차순
# 0	이영희	 95	    1
# 1	김철수	 70	    1
# 2	박민수	 95	    2
# 3	홍길동	 90	    2

Unnamed: 0,이름,점수,반
0,이영희,95,1
1,김철수,70,1
2,박민수,95,2
3,홍길동,90,2


In [39]:
# 원본 변경
df.sort_values(["반", "점수"], ascending=[True, False], inplace=True)
df1= df.reset_index(drop=True)
df1
#     이름	점수	반
# 0	이영희	 95	    1
# 1	김철수	 70	    1
# 2	박민수	 95	    2
# 3	홍길동	 90	    2

Unnamed: 0,이름,점수,반
0,이영희,95,1
1,김철수,70,1
2,박민수,95,2
3,홍길동,90,2


In [40]:
# 인덱스 기준으로 정렬 : sort_index()
df_shuffled = df.sample(frac=1, random_state=42)
df_shuffled

# 행 인덱스 기준으로 정렬
df5 = df_shuffled.sort_index() # 기본값 오름차순
df5

#     이름	점수	반
# 0	홍길동	 90	    2
# 1	김철수	 70	    1
# 2	이영희	 95	    1
# 3	박민수	 95	    2

# 열 이름 기준 정렬(알파벳순)
df6 = df.sort_index(axis=1)
df6

# 	반	이름	점수
# 2	1	이영희	95
# 1	1	김철수	70
# 3	2	박민수	95
# 0	2	홍길동	90

Unnamed: 0,반,이름,점수
2,1,이영희,95
1,1,김철수,70
3,2,박민수,95
0,2,홍길동,90


In [41]:
# 실습3. 정렬(1)
# 사용 데이터
df = pd.DataFrame({
'name': ['Alice', 'Bob', 'Charlie', 'David'],
'score': [88, 95, 70, 100]
})
# 1. 주어진 DataFrame에서, score컬럼 기준으로 오름차순 정렬한 결과를 출력하세요.
df_sorted_score = df.sort_values("score")
print("문제 1.\n",df_sorted_score)
# 2. score 컬럼 기준 내림차순으로 정렬한 후, 정렬된 인덱스를 무시하고 0부터 재정렬한 결과를 출력하세요.
df_sorted_score1 = df.sort_values("score", ascending=False, ignore_index=True)
print("\n문제 2.\n", df_sorted_score1)

문제 1.
       name  score
2  Charlie     70
0    Alice     88
1      Bob     95
3    David    100

문제 2.
       name  score
0    David    100
1      Bob     95
2    Alice     88
3  Charlie     70


In [42]:
# 실습3. 정렬(2)
# 사용 데이터
df = pd.DataFrame({
'이름': ['가', '나', '다', '라', '마'],
'반': [2, 1, 1, 2, 1],
'점수': [90, 85, 80, 95, 85]
})
# 3. 주어진 DataFrame에서,반(class) 기준 오름차순, 같은 반 내에서는 점수(score) 기준 내림차순으로 정렬한 결과를 출력하세요.
df1 = df.sort_values(["반", "점수"], ascending=[True, False]).reset_index(drop=True)
print("문제 3.\n", df1)
# 4. 열(컬럼) 이름을 알파벳순으로 정렬해서 출력하세요.
df2 = df1.sort_index(axis=1)
print("\n문제 4.\n",df2)

문제 3.
   이름  반  점수
0  나  1  85
1  마  1  85
2  다  1  80
3  라  2  95
4  가  2  90

문제 4.
    반 이름  점수
0  1  나  85
1  1  마  85
2  1  다  80
3  2  라  95
4  2  가  90


In [43]:
# 실습3. 정렬(3)
# 사용 데이터
df = pd.DataFrame({
'value': [10, 20, 30, 40]
}, index=[3, 1, 4, 2])
# 5. 인덱스 기준으로 오름차순 정렬한 결과를 출력하세요.
df1 = df.sort_index()
print("문제 5.\n", df1)
# 6. 인덱스 기준 내림차순 정렬, value 컬럼 기준 오름차순 정렬 두 가지 정렬 결과를 각각 출력하세요.
df2 = df.sort_index(ascending=False).reset_index(drop=True)
df3 = df.sort_values('value').reset_index(drop=True)
print("\n문제 6-1 인덱스 기준 내림차순\n", df2)
print("\n문제 6-2 value기준 오름차순\n", df3)

문제 5.
    value
1     20
2     40
3     10
4     30

문제 6-1 인덱스 기준 내림차순
    value
0     30
1     10
2     40
3     20

문제 6-2 value기준 오름차순
    value
0     10
1     20
2     30
3     40


### groupby와 집계

In [44]:
df = pd.DataFrame({
    'team': ['A', 'A', 'B', 'B', 'B', 'C'],
    'name': ['Kim', 'Lee', 'Park', 'Choi', 'Jung', 'Han'],
    'score': [90, 85, 80, 70, 95, 88]
})
df

# 	team	name	score
# 0	 A	    Kim	     90
# 1	 A	    Lee      85
# 2	 B	    Park	 80
# 3	 B	    Choi	 70
# 4	 B	    Jung	 95
# 5	 C	    Han	     88

Unnamed: 0,team,name,score
0,A,Kim,90
1,A,Lee,85
2,B,Park,80
3,B,Choi,70
4,B,Jung,95
5,C,Han,88


In [45]:
# 단일 컬럼 기준 그룹화
grouped = df.groupby("team")

# 집계함수 적용
# 총합
result_sum = grouped["score"].sum()
print(result_sum)
# team
# A    175
# B    245
# C     88
# Name: score, dtype: int64

# 평균
result_mean = grouped["score"].mean()
print(result_mean)
# team
# A    87.500000
# B    81.666667
# C    88.000000
# Name: score, dtype: float64

# 개수
result_count = grouped["score"].count()
print(result_count)
# team
# A    2
# B    3
# C    1
# Name: score, dtype: int64

team
A    175
B    245
C     88
Name: score, dtype: int64
team
A    87.500000
B    81.666667
C    88.000000
Name: score, dtype: float64
team
A    2
B    3
C    1
Name: score, dtype: int64


In [46]:
# 여러 컬럼 기준 그룹화
df2 = pd.DataFrame({
    'team': ['A', 'A', 'B', 'B', 'B', 'C'],
    'gender': ['M', 'F', 'F', 'M', 'M', 'F'],
    'score': [90, 85, 80, 70, 95, 88],
    'age' : [21, 22, 23, 25, 20, 27]
})
df2

# 	team	gender	score	age
# 0	  A	      M	      90	21
# 1	  A	      F	      85	22
# 2	  B	      F	      80	23
# 3	  B	      M	      70	25
# 4	  B	      M 	  95	20
# 5	  C	      F	      88	27

Unnamed: 0,team,gender,score,age
0,A,M,90,21
1,A,F,85,22
2,B,F,80,23
3,B,M,70,25
4,B,M,95,20
5,C,F,88,27


In [47]:
# 여러 컬럼 기준 그룹화
result = df2.groupby(["team", "gender"])["score"].mean()
result

# team  gender
# A     F         85.0
#       M         90.0
# B     F         80.0
#       M         82.5
# C     F         88.0
# Name: score, dtype: float64

team  gender
A     F         85.0
      M         90.0
B     F         80.0
      M         82.5
C     F         88.0
Name: score, dtype: float64

In [48]:
# as_index = False 옵션
# 그룹라벨이 인덱스로 설정됨

result = df2.groupby("team", as_index=False)["score"].sum()
result

#     team	    score
# 0	    A       175
# 1	    B	    245
# 2	    C	    88

Unnamed: 0,team,score
0,A,175
1,B,245
2,C,88


In [49]:
# 여러 집계 함수를 한번에 적용 : agg()
result = df2.groupby("team", as_index=False)["score"].agg(['sum', 'mean', 'count'])
result


#   team	sum	    mean	        count
# 0	A	    175	    87.500000	    2
# 1	B	    245	    81.666667	    3
# 2	C	    88	    88.000000	    1

Unnamed: 0,team,sum,mean,count
0,A,175,87.5,2
1,B,245,81.666667,3
2,C,88,88.0,1


In [50]:
# 그룹별로 여러 컬럼에 다른 집계 함수 적용
result = df2.groupby("team").agg({
    "score" : "mean",
    "age" : "max",
})
result

# 	    score	    age
# team		
# A	    87.500000	22
# B	    81.666667	25
# C	    88.000000	27

Unnamed: 0_level_0,score,age
team,Unnamed: 1_level_1,Unnamed: 2_level_1
A,87.5,22
B,81.666667,25
C,88.0,27


In [51]:
# 실습4 . groupby 연습문제(1)
# 1. 각 학년 (grade)별 평균 국어 점수(kor)를 구하세요.
df = pd.DataFrame({
'grade': [1, 2, 1, 2, 1, 3],
'name': ['Kim', 'Lee', 'Park', 'Choi', 'Jung', 'Han'],
'kor': [85, 78, 90, 92, 80, 75]
})
result = df.groupby('grade', as_index=False)['kor'].mean()
print("문제 1.")
result

문제 1.


Unnamed: 0,grade,kor
0,1,85.0
1,2,85.0
2,3,75.0


In [52]:
# 실습4 . groupby 연습문제(2)
# 2. 아래 DataFrame에서 반(class)별, 과목(subject)별로 시험에 응시한 학생수(count)와 평
# 균 점수(avg)를 구하세요.
df = pd.DataFrame({
'class': [1, 1, 1, 2, 2, 2],
'subject': ['Math', 'Math', 'Eng', 'Math', 'Eng', 'Eng'],
'score': [80, 90, 85, 70, 95, 90]
})

result_class = df.groupby('class',as_index=False)["score"].agg(["count", "mean"])
print("문제 2-1 반별\n",result_class)
result_subject = df.groupby('subject', as_index=False)["score"].agg(["count", "mean"])
print("\n문제 2-2 과목별\n",result_subject)

문제 2-1 반별
    class  count  mean
0      1      3  85.0
1      2      3  85.0

문제 2-2 과목별
   subject  count  mean
0     Eng      3  90.0
1    Math      3  80.0


In [53]:
# 실습4 . groupby 연습문제(3)
# 3. 아래 DataFrame에서 지역 (region)별 판매자 (seller)별로 판매액(sales)의 합계와 최대값을 구하세요.
df = pd.DataFrame({
'region': ['Seoul', 'Seoul', 'Busan', 'Busan', 'Daegu'],
'seller': ['A', 'B', 'A', 'B', 'A'],
'sales': [100, 200 , 150, 120, 130]
})
result_reg = df.groupby('region', as_index=False)["sales"].agg(['sum', 'max'])
print("문제 3-1 지역별\n", result_reg)
result_sel = df.groupby('seller', as_index=False)["sales"].agg(['sum', 'max'])
print("\n문제 3-2 판배자별\n", result_sel)
result_1 = df.groupby(['region', 'seller'])['sales'].agg('sum', 'max')
result_1

문제 3-1 지역별
   region  sum  max
0  Busan  270  150
1  Daegu  130  130
2  Seoul  300  200

문제 3-2 판배자별
   seller  sum  max
0      A  380  150
1      B  320  200


region  seller
Busan   A         150
        B         120
Daegu   A         130
Seoul   A         100
        B         200
Name: sales, dtype: int64

In [57]:
# 실습4 . groupby 연습문제(4)
# 4. 아래 DataFrame에서 팀 (team)별, 포지션 (position)별로 결측치(NaN)를 포함한 점수 (score)의 평균을구하세요.
df = pd.DataFrame({
'team': ['A', 'A', 'B', 'B', 'A', 'B'],
'position': ['FW', 'DF', 'FW', 'DF', 'DF', 'FW'],
'score': [3, 2, None,1, 4, 2]
})

result_team = df.groupby('team', as_index=False)["score"].mean()
print("문제 4-1 팀별\n", result_team)
result_pos = df.groupby('position', as_index=False)["score"].mean()
print("\n문제 4-2 포지션별\n", result_pos)
result_2 = df.groupby(['team', 'position'])['score'].mean()
result_2

문제 4-1 팀별
   team  score
0    A    3.0
1    B    1.5

문제 4-2 포지션별
   position     score
0       DF  2.333333
1       FW  2.500000


team  position
A     DF          3.0
      FW          3.0
B     DF          1.0
      FW          2.0
Name: score, dtype: float64

In [55]:
# 실습4 . groupby 연습문제(5)
# 5. 아래 DataFrame에서 부서(dept)별로 성별(gender)별 인원 수와, 총 연봉(salary) 합계를 구하세요.
import pandas as pd

df = pd.DataFrame({
    'dept': ['HR', 'HR', 'IT', 'IT', 'Sales', 'Sales'],
    'gender': ['M', 'F', 'F', 'M', 'F', 'F'],
    'salary': [3500 , 3200 , 4000 , 4200 , 3000 , 3100]
})

result_dept = df.groupby(['dept', 'gender'], as_index=False)['salary'].agg(['count', 'sum'])

print("문제 5. \n", result_dept)


문제 5. 
     dept gender  count   sum
0     HR      F      1  3200
1     HR      M      1  3500
2     IT      F      1  4000
3     IT      M      1  4200
4  Sales      F      2  6100
