## 05. Pandas

In [1]:
import pandas as pd

### 조건 필터링

In [3]:
data = {
    '이름' : ['홍길동', '김철수', '이영희', '박민수'],
    '점수' : [90, 70, 85, 95],
    '반' : [2, 1, 1, 2]
}

df = pd.DataFrame(data)
print(df)

    이름  점수  반
0  홍길동  90  2
1  김철수  70  1
2  이영희  85  1
3  박민수  95  2


In [4]:
mask = df["점수"] >= 80
filtered = df[mask]
print(filtered)

    이름  점수  반
0  홍길동  90  2
2  이영희  85  1
3  박민수  95  2


In [10]:
# 여러 조건 결합
# and: &
# or: |
# not: ~

# & 예시
df[(df["반"] == 1) & (df["점수"] >= 80)]

# | 예시
df[(df["반"] == 2) | (df["점수"] >= 90)]

# ~ 예시
df[~(df["점수"] >= 80)]
 

Unnamed: 0,이름,점수,반
1,김철수,70,1


In [13]:
# isin()
# 여러 값 중에 하나에 해당하는지 여부를 판단할 때 사용

# ex. 이름이 홍길동이나 박민수일 경우
# mask = (df["이름"] == "홍길동") | (df["이름"] == "박민수")
# df[mask]

mask = df["이름"].isin(["홍길동", "박민수"])
df[mask]

mask2 = ~df["이름"].isin(["홍길동", "박민수"])
df[mask2]

Unnamed: 0,이름,점수,반
1,김철수,70,1
2,이영희,85,1


In [16]:
# reset_index
# 조건 필터링, 행 삭제 등을 통해 인덱스가 변경됐을 시에 사용
# reset_index를 사용 -> 인덱스가 초기화

mask =(df["반"] == 2) | (df["점수"] >= 90)
df2 = df[mask]
print(df2)

# 인덱스 리셋
# df2 = df2.reset_index()
# print(df2)

# 기존 인덱스 삭제
df2 = df2.reset_index(drop = True)
print(df2)

    이름  점수  반
0  홍길동  90  2
3  박민수  95  2
    이름  점수  반
0  홍길동  90  2
1  박민수  95  2


In [17]:
# 실습 1
df = pd.DataFrame({
'이름': ['민준', '서연', '지후', '서준', '지민'],
'점수': [78, 92, 85, 60, 88],
'반': [1, 2, 1, 2, 1]
})

In [18]:
# 실습 1-1. 점수가 80점 이상인 학생
df[df["점수"] >= 80]

Unnamed: 0,이름,점수,반
1,서연,92,2
2,지후,85,1
4,지민,88,1


In [20]:
# 실습 1-2. 1반 학생들 중, 점수가 85점 이상이 학생
df[(df["반"] == 1) & (df["점수"] >= 85)]

Unnamed: 0,이름,점수,반
2,지후,85,1
4,지민,88,1


In [26]:
# 실습 1-3. 이름이 '서연' 또는 '지민'인 학생
mask = df["이름"].isin(["서연", "지민"])
dff = df[mask]
print(dff)

   이름  점수  반
1  서연  92  2
4  지민  88  1


In [27]:
# 실습 1-4. 실습 1-3의 결과에서 인덱스 재정렬
df2 = dff.reset_index(drop = True)
print(df2)

   이름  점수  반
0  서연  92  2
1  지민  88  1


In [29]:
# 실습 1-5. 점수가 80 미만이거나 2반인 학생
df3 = df[(df["반"] == 2) | (df["점수"] < 80)]
print(df3)

   이름  점수  반
0  민준  78  1
1  서연  92  2
3  서준  60  2


In [35]:
# 실습 1-6. 실습 1-5의 결과에서 70점 이상인 학생 추출 후 인덱스 재정렬
df4 = df3[df3["점수"] >= 70]
dfff = df4.reset_index(drop = True)
print(dfff)

   이름  점수  반
0  민준  78  1
1  서연  92  2


### 열 추가/수정/삭제

In [36]:
# 열 추가 및 수정
# df["컬럼명"] = "값"
# 컬럼이 존재하면 수정/ 없으면 추가
df = pd.DataFrame({
    '이름': ['김철수', '이영희', '박민수'],
    '국어': [90, 80, 70],
    '영어': [85, 78, 92]
})
df

Unnamed: 0,이름,국어,영어
0,김철수,90,85
1,이영희,80,78
2,박민수,70,92


In [None]:
# 같은 값을 한 번에 추가
df["반"] = '1반'
df

Unnamed: 0,이름,국어,영어,반
0,김철수,90,85,1반
1,이영희,80,78,1반
2,박민수,70,92,1반


In [39]:
# 조건문을 통한 추가
df["국어_합격여부"] = df["국어"] >= 80
df

Unnamed: 0,이름,국어,영어,반,국어_합격여부
0,김철수,90,85,1반,True
1,이영희,80,78,1반,True
2,박민수,70,92,1반,False


In [41]:
# 리스트/시리즈를 통한 열 추가
df["학번"] = [101, 102, 103]
df

Unnamed: 0,이름,국어,영어,반,국어_합격여부,학번
0,김철수,90,85,1반,True,101
1,이영희,80,78,1반,True,102
2,박민수,70,92,1반,False,103


In [42]:
# 시리즈의 연산 결과로 새 열 추가
df["총점"] = df["국어"] + df["영어"]
df

Unnamed: 0,이름,국어,영어,반,국어_합격여부,학번,총점
0,김철수,90,85,1반,True,101,175
1,이영희,80,78,1반,True,102,158
2,박민수,70,92,1반,False,103,162


In [43]:
# 기존 값을 한 번에 변경
df["영어"] = 100
df

Unnamed: 0,이름,국어,영어,반,국어_합격여부,학번,총점
0,김철수,90,100,1반,True,101,175
1,이영희,80,100,1반,True,102,158
2,박민수,70,100,1반,False,103,162


In [None]:
# 새로운 컬럼 추가 시, 행의 개수가 맞지 않으면 에러 발생
# df["새로운 열"] = [1, 2] # eror

In [48]:
# 열 삭제:drop
# 단일 열 삭제
df2 = df.drop("반", axis = 1)
df2

Unnamed: 0,이름,국어,영어,국어_합격여부,학번,총점
0,김철수,90,100,True,101,175
1,이영희,80,100,True,102,158
2,박민수,70,100,False,103,162


In [49]:
# 여러 열 삭제
df3 = df2.drop(["총점", "국어_합격여부"], axis = 1)
df3

Unnamed: 0,이름,국어,영어,학번
0,김철수,90,100,101
1,이영희,80,100,102
2,박민수,70,100,103


In [51]:
# 원본에서 삭제
df.drop("반", axis = 1, inplace = True)
df

Unnamed: 0,이름,국어,영어,국어_합격여부,학번,총점
0,김철수,90,100,True,101,175
1,이영희,80,100,True,102,158
2,박민수,70,100,False,103,162


In [52]:
# 기타 삭제 방법 (1)
del df["국어"]
df

Unnamed: 0,이름,영어,국어_합격여부,학번,총점
0,김철수,100,True,101,175
1,이영희,100,True,102,158
2,박민수,100,False,103,162


In [59]:
# 기타 삭제 방법 (2)
# deleted = df.pop("영어")
# deleted
df

Unnamed: 0,이름,국어_합격여부,학번,총점
0,김철수,True,101,175
1,이영희,True,102,158
2,박민수,False,103,162


### 행 추가/수정/삭제

In [60]:
df = pd.DataFrame({
    '이름': ["김철수", "이영희"],
    '나이': [23, 25]
})
df

Unnamed: 0,이름,나이
0,김철수,23
1,이영희,25


In [None]:
# 행 추가: concat()
# 새 행을 추가하기
new_row = pd.DataFrame([{'이름': '박민수', '나이': 30}])
# df = pd.concat([df, new_row])

# 인덱스 재정렬
df = pd.concat([df, new_row], ignore_index = True)
df

Unnamed: 0,이름,나이
0,김철수,23
1,이영희,25
2,박민수,30
3,박민수,30
4,박민수,30


In [66]:
# 여러 행 추가하기
new_rows = pd.DataFrame([{'이름': '동윤이', '나이': 26},
                         {'이름': '빠니보틀', '나이': 37}])

df = pd.concat([df, new_rows], ignore_index = True)
df

Unnamed: 0,이름,나이
0,김철수,23
1,이영희,25
2,박민수,30
3,박민수,30
4,박민수,30
5,동윤이,26
6,빠니보틀,37
7,동윤이,26
8,빠니보틀,37


In [68]:
# 행 수정
# loc, iloc를 활용
df.loc[1] = ["김영희", 34]
df

Unnamed: 0,이름,나이
0,김철수,23
1,김영희,34
2,박민수,30
3,박민수,30
4,박민수,30
5,동윤이,26
6,빠니보틀,37
7,동윤이,26
8,빠니보틀,37


In [None]:
df.loc[0, "나이"] = 18
df

Unnamed: 0,이름,나이
0,김철수,18
1,김영희,34
2,박민수,30
3,박민수,30
4,박민수,30
5,동윤이,26
6,빠니보틀,37
7,동윤이,26
8,빠니보틀,37


In [72]:
df.loc[1:2, ["이름", "나이"]] = [["X", 20], ["Y", 10]]
df

Unnamed: 0,이름,나이
0,김철수,18
1,X,20
2,Y,10
3,박민수,30
4,박민수,30
5,동윤이,26
6,빠니보틀,37
7,동윤이,26
8,빠니보틀,37


In [None]:
# 행 삭제: drop
# axis 기본값은 0 -> 행 삭제
df2 = df.drop(1).reset_index(drop = True)
df2

Unnamed: 0,이름,나이
0,김철수,18
1,Y,10
2,박민수,30
3,박민수,30
4,동윤이,26
5,빠니보틀,37
6,동윤이,26
7,빠니보틀,37


In [74]:
# 여러 행 삭제
df3 = df.drop([0, 2])
df3

Unnamed: 0,이름,나이
1,X,20
3,박민수,30
4,박민수,30
5,동윤이,26
6,빠니보틀,37
7,동윤이,26
8,빠니보틀,37


In [None]:
# 실습 2-1~2
df = pd.DataFrame({
'이름': ['김철수', '이영희', '박민수'],
'국어': [90, 80, 70]
})

In [None]:
# 실습 2-1. 수학점수 열 추가

df["수학"] = [95, 100, 88]
df

Unnamed: 0,이름,국어,수학
0,김철수,90,95
1,이영희,80,100
2,박민수,70,88


In [None]:
# 실습 2-2. 2-1에서 '이름'열 삭제
df2 = df.drop("이름", axis = 1)
df2

Unnamed: 0,국어,수학
0,90,95
1,80,100
2,70,88


In [78]:
# 실습 2-3~4
df = pd.DataFrame({
'제품': ['A', 'B'],
'가격': [1000, 2000 ]
})

In [79]:
# 실습 2-3. 제품 행 추가
new_row = pd.DataFrame([{'제품': 'C', '가격': 1500}])
df = pd.concat([df, new_row], ignore_index = True)
df

Unnamed: 0,제품,가격
0,A,1000
1,B,2000
2,C,1500


In [81]:
# 실습 2-4. 3번 문제의 결과에서 첫 번째 행 삭제
df2 = df.drop(0).reset_index(drop = True)
df2

Unnamed: 0,제품,가격
0,B,2000
1,C,1500


In [82]:
# 실습 2-5~6
df = pd.DataFrame({
'과목': ['국어', '영어', '수학'],
'점수': [85, 90, 78]
})

In [89]:
# 실습 2-5. 점수가 80 미만인 행 삭제

mask = df[df["점수"] < 80].index

df2 = df.drop(mask).reset_index(drop = True)
df2

Unnamed: 0,과목,점수
0,국어,85
1,영어,90


In [91]:
# 실습 2-6 학년 열 추가
df2["학년"] = '1'
df2

Unnamed: 0,과목,점수,학년
0,국어,85,1
1,영어,90,1


In [2]:
# 실습 2-7. C/25/NaN 행 추가
import numpy as np

df = pd.DataFrame({
'이름': ['A', 'B'],
'나이': [20, 22]
})
new_row = pd.DataFrame([{'이름': 'C', '나이': 25, '키': np.nan}])
df = pd.concat([df, new_row], ignore_index = True)
df


Unnamed: 0,이름,나이,키
0,A,20,
1,B,22,
2,C,25,


In [3]:
# 실습 2-8~9
df = pd.DataFrame({
'부서': ['영업', '기획', '개발', '디자인'],
'인원': [3, 2, 5, 1]
})

In [4]:
# 실습 2-8. 인원이 2명 이하인 행 삭제
mask = df[df["인원"] <= 2].index

df2 = df.drop(mask).reset_index(drop = True)
df2

Unnamed: 0,부서,인원
0,영업,3
1,개발,5


In [5]:
# 실습 2-9. 평가 열을 새로 추가하고 모든 값을 '미정'으로 채우기

df2["평가"] = "미정"
df2

Unnamed: 0,부서,인원,평가
0,영업,3,미정
1,개발,5,미정


### 정렬
- 값 기준 정렬: sort_values
- 인덱스 기준 정렬: sort_index

In [6]:
data = {
    '이름' : ['홍길동', '김철수', '이영희', '박민수'],
    '점수' : [90, 70, 85, 95],
    '반' : [2, 1, 1, 2]
}
df = pd.DataFrame(data)

In [7]:
# 오름차순 정렬
df2 = df.sort_values("점수").reset_index(drop = True)
df2

Unnamed: 0,이름,점수,반
0,김철수,70,1
1,이영희,85,1
2,홍길동,90,2
3,박민수,95,2


In [8]:
# 내림차순 정렬
# ascending = False
df3 = df.sort_values("점수", ascending = False).reset_index(drop = True)
df3

Unnamed: 0,이름,점수,반
0,박민수,95,2
1,홍길동,90,2
2,이영희,85,1
3,김철수,70,1


In [9]:
# 여러 기준으로 정렬
df4 = df.sort_values(["반", "점수"], ascending=[True, False]).reset_index(drop = True)
df4

Unnamed: 0,이름,점수,반
0,이영희,85,1
1,김철수,70,1
2,박민수,95,2
3,홍길동,90,2


In [10]:
# 원본 변경
df.sort_values(["반", "점수"], ascending = [True, False], inplace = True)
df2 = df.reset_index(drop = True)
df2

Unnamed: 0,이름,점수,반
0,이영희,85,1
1,김철수,70,1
2,박민수,95,2
3,홍길동,90,2


In [11]:
# 인덱스 기준 정렬: sort_index
df_shuffled = df.sample(frac =1, random_state = 42)
df_shuffled

# 행 인덱스 기준으로 정렬
df5 = df_shuffled.sort_index() # 오름차순
df5

# 열 이름 기준 정렬(알파벳 순)
df6 = df.sort_index(axis = 1)
df6

Unnamed: 0,반,이름,점수
2,1,이영희,85
1,1,김철수,70
3,2,박민수,95
0,2,홍길동,90


In [12]:
# 실습 3-1~2
df = pd.DataFrame({
'name': ['Alice', 'Bob', 'Charlie', 'David'],
'score': [88, 95, 70, 100]
})

In [13]:
# 실습 3-1. score 열 기준 오름차순 정렬
df2 = df.sort_values("score")
df2

Unnamed: 0,name,score
2,Charlie,70
0,Alice,88
1,Bob,95
3,David,100


In [14]:
# 실습 3-2. score 열 기준 내림차순 정렬 후, 인덱스 재정렬
df3 = df2.reset_index(drop = False)
df3

Unnamed: 0,index,name,score
0,2,Charlie,70
1,0,Alice,88
2,1,Bob,95
3,3,David,100


In [15]:
# 실습 3-3~4
df = pd.DataFrame({
'이름': ['가', '나', '다', '라', '마'],
'반': [2, 1, 1, 2, 1],
'점수': [90, 85, 80, 95, 85]
})

In [16]:
# 실습 3-3. class기준 오름차순, 같은반 내에선 score기준 내림차순
df.sort_values(["반", "점수"], ascending = [True, False], inplace = True)
df

Unnamed: 0,이름,반,점수
1,나,1,85
4,마,1,85
2,다,1,80
3,라,2,95
0,가,2,90


In [17]:
# 실습 3-4. 열 이름을 알파벳순으로 정렬
df2 = df.sort_index(axis = 1).reset_index(drop = True)
df2

Unnamed: 0,반,이름,점수
0,1,나,85
1,1,마,85
2,1,다,80
3,2,라,95
4,2,가,90


In [18]:
# 실습 3-5~6

df = pd.DataFrame({
'value': [10, 20, 30, 40]
}, index=[3, 1, 4, 2])

In [19]:
# 실습 3-5. 인덱스 기준 오름차순 정렬
df2 = df.sort_index(axis = 0)
df2

Unnamed: 0,value
1,20
2,40
3,10
4,30


In [20]:
# 실습 3-6. 인덱스 기준 내림차순 정렬, value 열 기준 오름차순 정렬 각각 출력
df3 = df.sort_index(axis = 0, ascending = False)
print(df3)
df4 = df.sort_values("value", axis = 0, ascending = True)
print(df4)

   value
4     30
3     10
2     40
1     20
   value
3     10
1     20
4     30
2     40


### groupby

In [21]:
df = pd.DataFrame({
    'team': ['A', 'A', 'B', 'B', 'B', 'C'],
    'name': ['Kim', 'Lee', 'Park', 'Choi', 'Jung', 'Han'],
    'score': [90, 85, 80, 70, 95, 88]
})
df

Unnamed: 0,team,name,score
0,A,Kim,90
1,A,Lee,85
2,B,Park,80
3,B,Choi,70
4,B,Jung,95
5,C,Han,88


In [22]:
# 단일 컬럼 기준 그룹화
grouped = df.groupby("team")

# 집계함수 적용
result_sum = grouped["score"].sum()
print(result_sum)

# 평균
result_mean = grouped["score"].mean()
print(result_mean)

# 개수
result_count = grouped["score"].count()
print(result_count)

team
A    175
B    245
C     88
Name: score, dtype: int64
team
A    87.500000
B    81.666667
C    88.000000
Name: score, dtype: float64
team
A    2
B    3
C    1
Name: score, dtype: int64


In [23]:
df2 = pd.DataFrame({
    'team': ['A', 'A', 'B', 'B', 'B', 'C'],
    'gender': ['M', 'F', 'F', 'M', 'M', 'F'],
    'score': [90, 85, 80, 70, 95, 88],
    'age' : [21, 22, 23, 25, 20, 27]
})
df

Unnamed: 0,team,name,score
0,A,Kim,90
1,A,Lee,85
2,B,Park,80
3,B,Choi,70
4,B,Jung,95
5,C,Han,88


In [24]:
# 여러 컬럼 기준 그룹화
result = df2.groupby(["team", "gender"])["score"].mean()
print(result)  

team  gender
A     F         85.0
      M         90.0
B     F         80.0
      M         82.5
C     F         88.0
Name: score, dtype: float64


In [25]:
# as_index = False 옵션
# 그룹라벨이 인덱스로 설정됨
result = df2.groupby("team", as_index=False)["score"].sum()
print(result)

  team  score
0    A    175
1    B    245
2    C     88


In [26]:
# 여러 집계 함수를 한 번에 적용: agg()
result = df2.groupby("team", as_index=False)["score"].agg(['sum', 'mean', 'count'])
print(result)

  team  sum       mean  count
0    A  175  87.500000      2
1    B  245  81.666667      3
2    C   88  88.000000      1


In [27]:
# 그룹별로 여러 컬럼에 다른 집계 함수 적용
result = df2.groupby("team").agg({
    "score": "mean",
    "age": "max"
})
print(result)

          score  age
team                
A     87.500000   22
B     81.666667   25
C     88.000000   27


In [28]:
# 실습 4-1. 각 학년별 평균 국어 점수
df = pd.DataFrame({
'grade': [1, 2, 1, 2, 1, 3],
'name': ['Kim', 'Lee', 'Park', 'Choi', 'Jung', 'Han'],
'kor': [85, 78, 90, 92, 80, 75]
})

avg_kor = df.groupby('grade')
print(avg_kor["kor"].mean())


grade
1    85.0
2    85.0
3    75.0
Name: kor, dtype: float64


In [29]:
# 실습 4-2. 아래 DataFrame에서 반(class)별, 과목(subject)별로 시험에 응시한 학생수(count)와 평균 점수(avg)를 구하세요.
df = pd.DataFrame({
'class': [1, 1, 1, 2, 2, 2],
'subject': ['Math', 'Math', 'Eng', 'Math', 'Eng', 'Eng'],
'score': [80, 90, 85, 70, 95, 90]
})

result = df.groupby(["class", "subject"])["score"].agg(['mean', 'count'])
print(result)

               mean  count
class subject             
1     Eng      85.0      1
      Math     85.0      2
2     Eng      92.5      2
      Math     70.0      1


In [30]:
# 실습 4-3. 아래 DataFrame에서 지역(region)별 판매자(seller)별로 판매액(sales)의 합계와 최대값을 구하세요.
df = pd.DataFrame({
'region': ['Seoul', 'Seoul', 'Busan', 'Busan', 'Daegu'],
'seller': ['A', 'B', 'A', 'B', 'A'],
'sales': [100, 200 , 150, 120, 130]
})

result = df.groupby(["region", "seller"])["sales"].agg(['sum', 'max'])
print(result)

               sum  max
region seller          
Busan  A       150  150
       B       120  120
Daegu  A       130  130
Seoul  A       100  100
       B       200  200


In [31]:
# 실습 4-4. 아래 DataFrame에서 팀(team)별, 포지션(position)별로 결측치(NaN)를 포함한 점수(score)의 평균을 구하세요.
df = pd.DataFrame({
'team': ['A', 'A', 'B', 'B', 'A', 'B'],
'position': ['FW', 'DF', 'FW', 'DF', 'DF', 'FW'],
'score': [3, 2, None,1, 4, 2]
})

df2 = df.fillna(0) # 결측치를 0으로 변환

result = df2.groupby(["team", "position"])["score"].mean()
print(result)

team  position
A     DF          3.0
      FW          3.0
B     DF          1.0
      FW          1.0
Name: score, dtype: float64


In [32]:
# 실습 4-5. 아래 DataFrame에서 부서(dept)별로 성별(gender)별 인원수와, 총 연봉(salary) 합계를 구하세요.
df = pd.DataFrame({
'dept': ['HR', 'HR', 'IT', 'IT', 'Sales', 'Sales'],
'gender': ['M', 'F', 'F', 'M', 'F', 'F'],
'salary': [3500 , 3200 , 4000 , 4200 , 3000 , 3100]
})

result = df.groupby(["dept", "gender"])["salary"].agg(["count", "sum"])
print(result)

              count   sum
dept  gender             
HR    F           1  3200
      M           1  3500
IT    F           1  4000
      M           1  4200
Sales F           2  6100
