## 05. Pandas

In [1]:
import pandas as pd
import numpy as np

### 조건 필터링

In [None]:
data = {
    "이름": ["홍길동", "김철수", "이영희", "박민수"],
    "점수": [90, 70, 95, 95],
    "반": [2, 1, 1, 2]
}

df = pd.DataFrame(data)
df

Unnamed: 0,이름,점수,반
0,홍길동,90,2
1,김철수,70,1
2,이영희,95,1
3,박민수,95,2


In [3]:
mask = df["점수"] >= 80
filtered = df[mask]
filtered

Unnamed: 0,이름,점수,반
0,홍길동,90,2
2,이영희,95,1
3,박민수,95,2


In [5]:
# 여러 조건 결합
    # and : &
    # or : |
    # not : ~

In [6]:
# & 예시
df[(df["반"] == 1) & (df["점수"] >= 80)]

Unnamed: 0,이름,점수,반
2,이영희,95,1


In [8]:
# | 예시
df[(df["반"] == 2) | (df["점수"] >= 90)]

Unnamed: 0,이름,점수,반
0,홍길동,90,2
2,이영희,95,1
3,박민수,95,2


In [12]:
# ~ 예시
df[~ (df["점수"] >= 80)]

Unnamed: 0,이름,점수,반
1,김철수,70,1


In [13]:
# isin()
    # 여러 값 중에 하나에 해당하는지 여부를 판단할 때 사용

# ex) 이름이 홍길동 이거나 박민수 이거나 한 경우
mask = (df["이름"] == "홍길동") | (df["이름"] == "박민수")
df[mask]

Unnamed: 0,이름,점수,반
0,홍길동,90,2
3,박민수,95,2


In [26]:
mask = df["이름"].isin(["홍길동", "박민수"])
df[mask]

mask2 = ~ df["이름"].isin(["홍길동", "박민수"])
df[mask2]

Unnamed: 0,이름,점수,반
1,김철수,70,1
2,이영희,95,1


In [34]:
# reset_index: 조건 필터링, 행 식제 등을 통해 인덱스가 변경됐을 시
# reset_index를 사용 > 인덱스가 초기화

mask = (df["반"] == 2) | (df["점수"] >= 90)
df2 = df[mask]
df2

# 인덱스 리셋
# df2 = df2.reset_index()

# 기존 인덱스 삭제
df2 = df2.reset_index(drop = True)
df2

Unnamed: 0,이름,점수,반
0,홍길동,90,2
1,이영희,95,1
2,박민수,95,2


In [41]:
# 실습1
df1 = pd.DataFrame({
    "이름": ["민준", "서연", "지후", "서준", "지민"],
    "점수": [78, 92, 85, 60, 88],
    "반": [1, 2, 1, 2, 1]
})

In [42]:
# 1. 점수(score)r가 80점 이상인 학생만 추출하세요.
mask1 = df1["점수"] >= 80
df1[mask1]

Unnamed: 0,이름,점수,반
1,서연,92,2
2,지후,85,1
4,지민,88,1


In [37]:
# 2. 1반 학생들 중, 점수가 85점 이상인 학생만 추출하세요.
mask2 = (df1["반"] == 1) & (df1["점수"] >= 85)
df1[mask2]

Unnamed: 0,이름,점수,반
2,지후,85,1
4,지민,88,1


In [38]:
# 3. 이름이 "서연" 또는 "지민"인 학생만 추출하세요.
mask3 = (df1["이름"] == "서연") | (df1["이름"] == "지민")
df1[mask3]

Unnamed: 0,이름,점수,반
1,서연,92,2
4,지민,88,1


In [51]:
# 4. 문제3에서 추출한 결과에서 인덱스를 0부터 재정렬하여 출력하세요.
df4 = df1[mask3]
df4 = df4.reset_index(drop = True)
df4

Unnamed: 0,이름,점수,반
0,서연,92,2
1,지민,88,1


In [46]:
# 5. 점수가 80점 미만이거나 2반인 학생만 추출하세요.
mask5 = (df1["점수"] < 80) | (df1["반"] == 2)
df1[mask5]

Unnamed: 0,이름,점수,반
0,민준,78,1
1,서연,92,2
3,서준,60,2


In [49]:
# 6. 문제5의 결과에서 "점수" 칼럼이 70점 이상인 학생만 다시 추출하고, 인덱스를 재정렬 하여 출력하세요.
mask6 = mask5 & (df1["점수"] >= 70)
df1[mask6]

Unnamed: 0,이름,점수,반
0,민준,78,1
1,서연,92,2


## 열 추가 / 수정 / 삭제

In [52]:
# 열 추가 및 수정
# df["컬럼명"] = "값"
# 컬럼이 존재하면 수정 / 없으면 추가

df = pd.DataFrame({
    "이름": ["김철수", "이영희", "박민수"],
    "국어": [90, 80, 70],
    "영어": [85, 78, 92]
})
df

Unnamed: 0,이름,국어,영어
0,김철수,90,85
1,이영희,80,78
2,박민수,70,92


In [53]:
# 같은 값을 한번에 추가
df["반"] = "1반"
df

Unnamed: 0,이름,국어,영어,반
0,김철수,90,85,1반
1,이영희,80,78,1반
2,박민수,70,92,1반


In [54]:
# 조건문을 통한 추가
df["국어_합격여부"] = df["국어"] >= 80
df

Unnamed: 0,이름,국어,영어,반,국어_합격여부
0,김철수,90,85,1반,True
1,이영희,80,78,1반,True
2,박민수,70,92,1반,False


In [55]:
# 리스트 / 시리즈를 통한 열 추가
df["학번"] = [101, 102, 103]
df

Unnamed: 0,이름,국어,영어,반,국어_합격여부,학번
0,김철수,90,85,1반,True,101
1,이영희,80,78,1반,True,102
2,박민수,70,92,1반,False,103


In [56]:
# 시리즈의 연산 결과로 새 열 추가
df["총점"] = df["국어"] + df["영어"]
df

Unnamed: 0,이름,국어,영어,반,국어_합격여부,학번,총점
0,김철수,90,85,1반,True,101,175
1,이영희,80,78,1반,True,102,158
2,박민수,70,92,1반,False,103,162


In [57]:
# 기존 값을 한번에 변경
df["영어"] = 100
df


Unnamed: 0,이름,국어,영어,반,국어_합격여부,학번,총점
0,김철수,90,100,1반,True,101,175
1,이영희,80,100,1반,True,102,158
2,박민수,70,100,1반,False,103,162


In [59]:
# 새로운 컬럼  추가 시, 행의 개수가 맞지 않으면 에러 발생

# 열 삭제: drop
# 단일 열 삭제
df2 = df.drop("반", axis = 1)
df2

Unnamed: 0,이름,국어,영어,국어_합격여부,학번,총점
0,김철수,90,100,True,101,175
1,이영희,80,100,True,102,158
2,박민수,70,100,False,103,162


In [61]:
# 여러 열 삭제
df3 = df2.drop(["총점", "국어_합격여부"], axis = 1)
df3

Unnamed: 0,이름,국어,영어,학번
0,김철수,90,100,101
1,이영희,80,100,102
2,박민수,70,100,103


In [63]:
# 원본에서 삭제
df.drop("반", axis = 1, inplace = True)
df

Unnamed: 0,이름,국어,영어,국어_합격여부,학번,총점
0,김철수,90,100,True,101,175
1,이영희,80,100,True,102,158
2,박민수,70,100,False,103,162


In [64]:
# 기타 삭제 방법(1)
del df["국어"]
df

Unnamed: 0,이름,영어,국어_합격여부,학번,총점
0,김철수,100,True,101,175
1,이영희,100,True,102,158
2,박민수,100,False,103,162


In [65]:
# 기타 삭제 방법(2)
deleted = df.pop("영어")
deleted

0    100
1    100
2    100
Name: 영어, dtype: int64

## 행 추가 / 수정 / 삭제

In [66]:
df = pd.DataFrame({
    "이름": ["김철수", "이영희"],
    "나이": [23, 25]
})
df

Unnamed: 0,이름,나이
0,김철수,23
1,이영희,25


In [None]:
# 행 추가: concat
# 새 행을 추가하기
new_row = pd.DataFrame([{"이름": "장원영", "나이": 21}])
# df = pd.concat([df, new_row])

# 인덱스 재정렬
df = pd.concat([df, new_row], ignore_index = True)
df

Unnamed: 0,이름,나이
0,김철수,23
1,이영희,25
2,장원영,21
3,장원영,21
4,장원영,21


In [70]:
# 여러 행 추가하기
new_rows = pd.DataFrame([{"이름": "안유진", "나이": 22},
                         {"이름": "윈터", "나이": 24}])

df = pd.concat([df, new_rows], ignore_index = True)
df

Unnamed: 0,이름,나이
0,김철수,23
1,이영희,25
2,장원영,21
3,장원영,21
4,장원영,21
5,안유진,22
6,윈터,24


In [71]:
# 행 수정
# loc, iloc 을 활용
df.loc[1] = ["김영희", 34]
df

Unnamed: 0,이름,나이
0,김철수,23
1,김영희,34
2,장원영,21
3,장원영,21
4,장원영,21
5,안유진,22
6,윈터,24


In [72]:
df.loc[0, "나이"] = 18
df

Unnamed: 0,이름,나이
0,김철수,18
1,김영희,34
2,장원영,21
3,장원영,21
4,장원영,21
5,안유진,22
6,윈터,24


In [74]:
df.loc[1:2, ["이름", "나이"]] = [["X", 20], ["Y", 18]]
df

Unnamed: 0,이름,나이
0,김철수,18
1,X,20
2,Y,18
3,장원영,21
4,장원영,21
5,안유진,22
6,윈터,24


In [76]:
df.loc[3, ["이름", "나이"]] = ["Z", 19]
df

Unnamed: 0,이름,나이
0,김철수,18
1,X,20
2,Y,18
3,Z,19
4,장원영,21
5,안유진,22
6,윈터,24


In [77]:
# 행 삭제: drop
# axis 기본값 0 > 행 삭제
df2 = df.drop(1).reset_index(drop = True)
df2

Unnamed: 0,이름,나이
0,김철수,18
1,Y,18
2,Z,19
3,장원영,21
4,안유진,22
5,윈터,24


In [81]:
# 여러 행 삭제
df3 = df.drop([0, 2]).reset_index(drop = True)
df3

Unnamed: 0,이름,나이
0,X,20
1,Z,19
2,장원영,21
3,안유진,22
4,윈터,24


In [82]:
# 실습2

df = pd.DataFrame({
    "이름": ["김철수", "이영희", "박민수"],
    "국어": [90, 80, 70]
})

df

Unnamed: 0,이름,국어
0,김철수,90
1,이영희,80
2,박민수,70


In [None]:
# 1. "수학"점수 [95, 100, 88]을 새 열로 추가하세요.
df["수학"] = [95, 100, 88]
df

Unnamed: 0,이름,국어,수학
0,김철수,90,95
1,이영희,80,100
2,박민수,70,88


In [84]:
# 2. 1번 문제의 DataFrame에서 "이름"열을 삭제하세요.
del df["이름"]
df

Unnamed: 0,국어,수학
0,90,95
1,80,100
2,70,88


In [85]:
df = pd.DataFrame({
    "제품": ["A", "B"],
    "가격": [1000, 2000]
})

df

Unnamed: 0,제품,가격
0,A,1000
1,B,2000


In [89]:
# 3. 제품 "C" 가격 1500인 새 행을 추가하세요.
new_row = pd.DataFrame([{"제품": "C", "가격": 1500}])
df3 = pd.concat([df, new_row], ignore_index = True)
df3

Unnamed: 0,제품,가격
0,A,1000
1,B,2000
2,C,1500


In [91]:
# 4. 3번 문제의 DataFrame에서 첫 번째 행(제품 "A")을 삭제하세요.
df4 = df3.drop([0]).reset_index(drop = True)
df4

Unnamed: 0,제품,가격
0,B,2000
1,C,1500


In [92]:
df = pd.DataFrame({
    "과목": ["국어", "영어", "수학"],
    "점수": [85, 90, 78]
})
df

Unnamed: 0,과목,점수
0,국어,85
1,영어,90
2,수학,78


In [93]:
# 5. "점수"가 80 미만인 행을 모두 삭제하세요.
df5 = df.drop([2]).reset_index(drop = True)
df5

Unnamed: 0,과목,점수
0,국어,85
1,영어,90


In [94]:
# 6. "학년" 열(값은 모두 1)을 추가하세요.
df["학년"] = 1
df

Unnamed: 0,과목,점수,학년
0,국어,85,1
1,영어,90,1
2,수학,78,1


In [119]:
df = pd.DataFrame({
    "이름": ["A", "B"],
    "나이": [20, 22]
})

df

Unnamed: 0,이름,나이
0,A,20
1,B,22


In [120]:
# 7. 이름이 "C", 나이가 25 키가 NaN(결측값)인 새 행을 추가하세요.
import numpy as np
new_row = pd.DataFrame([{
    "이름": "C", "나이": 25, "키": np.nan
}])

df7 = pd.concat([df, new_row], ignore_index = True)
df7

Unnamed: 0,이름,나이,키
0,A,20,
1,B,22,
2,C,25,


In [141]:
df = pd.DataFrame({
    "부서": ["영업", "기획", "개발", "디자인"],
    "인원": [3, 2, 5, 1]
})

df

Unnamed: 0,부서,인원
0,영업,3
1,기획,2
2,개발,5
3,디자인,1


In [142]:
# 8. 인원이 2명이하인 행을 모두 삭제하고, 
df8 = df[(df["인원"] > 2)].reset_index(drop = True)
df8

Unnamed: 0,부서,인원
0,영업,3
1,개발,5


In [117]:
# 9. "평가"열을 새로 추가해 모든 값을 "미정"으로 채우세요.
df["평가"] = "미정"
df

Unnamed: 0,부서,인원,평가
0,영업,3,미정
1,기획,2,미정
2,개발,5,미정
3,디자인,1,미정


In [146]:
data = {
    "이름": ["홍길동", "김철수", "이영희", "박민수"],
    "점수": [90, 70, 85, 95],
    "반": [2, 1, 1, 2]
}

df = pd.DataFrame(data)
df

Unnamed: 0,이름,점수,반
0,홍길동,90,2
1,김철수,70,1
2,이영희,85,1
3,박민수,95,2


In [147]:
# 오름차순 정렬
df2 = df.sort_values("점수").reset_index(drop = True)
df2

Unnamed: 0,이름,점수,반
0,김철수,70,1
1,이영희,85,1
2,홍길동,90,2
3,박민수,95,2


In [148]:
# 내림차순 정렬: ascending = False
df3 = df.sort_values("점수", ascending = False).reset_index(drop = True)
df3

Unnamed: 0,이름,점수,반
0,박민수,95,2
1,홍길동,90,2
2,이영희,85,1
3,김철수,70,1


In [149]:
# 여러 기준으로 정렬
df4 = df.sort_values(["반", "점수"], ascending = [True, False]).reset_index(drop = True)
df4

Unnamed: 0,이름,점수,반
0,이영희,85,1
1,김철수,70,1
2,박민수,95,2
3,홍길동,90,2


In [150]:
# 원본 변경
df.sort_values(["반", "점수"], ascending = [True, False], inplace = True)
df2 = df.reset_index(drop = True)
df2

Unnamed: 0,이름,점수,반
0,이영희,85,1
1,김철수,70,1
2,박민수,95,2
3,홍길동,90,2


In [153]:
# 인덱스 기준 정렬: sort_index
df_shuffled = df.sample(frac = 1, random_state = 42)
df_shuffled

# 행 인덱스 기준으로 정렬
df5 = df_shuffled.sort_index() # 오름차순
df5

# 열 이름 기준 정렬 (알파벳순)
df6 = df.sort_index(axis = 1)
df6

Unnamed: 0,반,이름,점수
2,1,이영희,85
1,1,김철수,70
3,2,박민수,95
0,2,홍길동,90


In [158]:
# 실습3

df1 = pd.DataFrame({
    "name": ["Alice", "Bob", "Charlie", "David"],
    "score": [88, 95, 70, 100]
})

df1

Unnamed: 0,name,score
0,Alice,88
1,Bob,95
2,Charlie,70
3,David,100


In [160]:
# 1. 주어진 DataFrame에서, Score 컬럼 기준으로 오름차순 정렬한 결과를 출력하세요.
df1_1 = df1.sort_values("score").reset_index(drop = True)
df1_1

Unnamed: 0,name,score
0,Charlie,70
1,Alice,88
2,Bob,95
3,David,100


In [163]:
# 2. score 컬럼 기준 내림차순으로 정렬한 후, 정렬된 인덱스를 무시하고 0부터 재정렬한 결과를 출력하세요.
df1_2 = df1.sort_values("score", ascending = False).reset_index(drop = True)
df1_2

Unnamed: 0,name,score
0,David,100
1,Bob,95
2,Alice,88
3,Charlie,70


In [165]:
df2 = pd.DataFrame({
    "이름": ["가", "나", "다", "라", "마"],
    "반": [2, 1, 1, 2, 1],
    "점수": [90, 85, 80, 95, 85]
})

df2

Unnamed: 0,이름,반,점수
0,가,2,90
1,나,1,85
2,다,1,80
3,라,2,95
4,마,1,85


In [172]:
# 3. 주어진 DataFrame에서 반(class) 기준 오름차순, 같은 반 내에서는 점수(score) 기준 
# 내림차순으로 정렬한 결과를 출력하세요.

df2_1 = df2.sort_values(["반", "점수"], ascending = [True, False]).reset_index(drop = True)
df2_1

Unnamed: 0,이름,반,점수
0,나,1,85
1,마,1,85
2,다,1,80
3,라,2,95
4,가,2,90


In [193]:
# 4. 열(컬럼) 이름을 알파벳 순으로 정렬해서 출력하세요.
df2_2 = df2_1.sort_index(axis = 1)
df2_2

Unnamed: 0,반,이름,점수
0,1,나,85
1,1,마,85
2,1,다,80
3,2,라,95
4,2,가,90


In [179]:
df3 = pd.DataFrame({"value": [10, 20, 30, 40]}, index = [3, 1, 4, 2])
df3

Unnamed: 0,value
3,10
1,20
4,30
2,40


In [180]:
# 5. 인덱스 기준으로 오름차순 정렬한 결과를 출력하세요.
df3_1 = df3.sort_index()
df3_1

Unnamed: 0,value
1,20
2,40
3,10
4,30


In [184]:
# 6-1. 인덱스 기준 내림차순 정렬, value 컬럼 기준 오름차순 정렬 두 가지 정렬 결과를 각각 출력하세요.
df3_2 = df3.sort_index(ascending = False)
df3_2

Unnamed: 0,value
4,30
3,10
2,40
1,20


In [192]:
# 6-2
df3_3 = df3.sort_values("value", ascending = True)
df3_3

Unnamed: 0,value
3,10
1,20
4,30
2,40


## groupby

In [196]:
df = pd.DataFrame({
    'team': ['A', 'A', 'B', 'B', 'B', 'C'],
    'name': ['Kim', 'Lee', 'Park', 'Choi', 'Jung', 'Han'],
    'score': [90, 85, 80, 70, 95, 88]
})
df

Unnamed: 0,team,name,score
0,A,Kim,90
1,A,Lee,85
2,B,Park,80
3,B,Choi,70
4,B,Jung,95
5,C,Han,88


In [199]:
# 단일 컬럼 기준 그룹화
grouped = df.groupby("team")

# 집계함수 적용
result_sum = grouped["score"].sum()
print(result_sum)

# 평균
result_mean = grouped["score"].mean()
print(result_mean)

# 개수
result_count = grouped["score"].count()
print(result_count)

team
A    175
B    245
C     88
Name: score, dtype: int64
team
A    87.500000
B    81.666667
C    88.000000
Name: score, dtype: float64
team
A    2
B    3
C    1
Name: score, dtype: int64


In [200]:
df2 = pd.DataFrame({
    'team': ['A', 'A', 'B', 'B', 'B', 'C'],
    'gender': ['M', 'F', 'F', 'M', 'M', 'F'],
    'score': [90, 85, 80, 70, 95, 88],
    'age' : [21, 22, 23, 25, 20, 27]
})
df2

Unnamed: 0,team,gender,score,age
0,A,M,90,21
1,A,F,85,22
2,B,F,80,23
3,B,M,70,25
4,B,M,95,20
5,C,F,88,27


In [202]:
# 여러 컬럼 기준 그룹화
result = df2.groupby(["team", "gender"])["score"].mean()
result

team  gender
A     F         85.0
      M         90.0
B     F         80.0
      M         82.5
C     F         88.0
Name: score, dtype: float64

In [203]:
# as_indec = False 옵션
# 그룹 라벨이 인덱스로 설정됨
result = df2.groupby("team", as_index = False)["score"].sum()
result

Unnamed: 0,team,score
0,A,175
1,B,245
2,C,88


In [204]:
# 여러 집계 함수를 한번에 적용: agg()
result = df2.groupby("team", as_index = False)["score"].agg(["sum", "mean", "count"])
result

Unnamed: 0,team,sum,mean,count
0,A,175,87.5,2
1,B,245,81.666667,3
2,C,88,88.0,1


In [205]:
# 그룹별로 여러 칼럽에 다른 집계 함수 적용
result = df2.groupby("team").agg({
    "score":"mean",
    "age":"max"
})
result

Unnamed: 0_level_0,score,age
team,Unnamed: 1_level_1,Unnamed: 2_level_1
A,87.5,22
B,81.666667,25
C,88.0,27


In [206]:
# 실습4

# 1. 각 학년(grade) 별 평균 국어 점수(kor)를 구하세요.
df1 = pd.DataFrame({
    "grade": [1, 2, 1, 2, 1, 3],
    "name": ["Kim", "Lee", "Park", "Choi", "Jung", "Han"],
    "kor": [85, 78, 90, 92, 80, 75]
})

result_df1 = df1.groupby("grade", as_index = False)["kor"].mean()
result_df1

Unnamed: 0,grade,kor
0,1,85.0
1,2,85.0
2,3,75.0


In [216]:
# 2. 아래 DataFrame에서 반(class)별, 과목(subject)별로 시험에 응시한 학생 수(count)와 평균 점수(avg)를 구하세요.
df2 = pd.DataFrame({
    "class": [1, 1, 1, 2, 2, 2],
    "subject": ["Math", "Math", "Eng", "Math", "Eng", "Eng"],
    "score": [80, 90, 85, 70, 95, 90]
})

result_df2 = df2.groupby(["class", "subject"], as_index = False)["score"].agg(["count", "mean"])
result_df2

Unnamed: 0,class,subject,count,mean
0,1,Eng,1,85.0
1,1,Math,2,85.0
2,2,Eng,2,92.5
3,2,Math,1,70.0


In [209]:
# 3. 아래 DataFrame에서 지역(region)별 판매자(seller)별로 판매액(sales)의 합계와 최대값을 구하세요.
df3 = pd.DataFrame({
    "region": ["Seoul", "Seoul", "Busan", "Busan", "Daegu"],
    "seller": ["A", "B", "A", "B", "A"],
    "sales": [100, 200, 150, 120, 130]
})

result_df3 = df3.groupby(["region", "seller"], as_index = False)["sales"].agg(["sum", "max"])
result_df3

Unnamed: 0,region,seller,sum,max
0,Busan,A,150,150
1,Busan,B,120,120
2,Daegu,A,130,130
3,Seoul,A,100,100
4,Seoul,B,200,200


In [213]:
# 4. 아래 DataFrame에서 팀(team)별, 포지션(position)별로 결측치(NaN)를 포함한 점수(score)의 평균을 구하세요.
df4 = pd.DataFrame({
    "team": ["A", "A", "B", "B", "A", "B"],
    "position": ["FW", "DF", "FW", "DF", "DF", "FW"],
    "score": [3, 2, None, 1, 4, 2]
})

result_df4 = df4.groupby(["team", "position"], as_index = False)["score"].mean()
result_df4

Unnamed: 0,team,position,score
0,A,DF,3.0
1,A,FW,3.0
2,B,DF,1.0
3,B,FW,2.0


In [3]:
# 5. 아래 DataFrame에서 부서(dept) 별로 성별(gender)별 인원 수와 총 연봉(salary) 합계를 구하세요.
df5 = pd.DataFrame({
    "dept": ["HR", "HR", "IT", "IT", "Sales", "Sales"],
    "gender": ["M", "F", "F", "M", "F", "F"],
    "salary": [3500, 3200, 4000, 4200, 3000, 3100]
})

result_df5 = df5.groupby(["dept", "gender"], as_index = False)["salary"].agg(["count", "sum"])
result_df5

Unnamed: 0,dept,gender,count,sum
0,HR,F,1,3200
1,HR,M,1,3500
2,IT,F,1,4000
3,IT,M,1,4200
4,Sales,F,2,6100
