In [85]:
import numpy as np
import pandas as pd
pd.options.display.max_rows = 20
pd.options.display.max_colwidth = 80
pd.options.display.max_columns = 20
np.random.seed(12345)
import matplotlib.pyplot as plt
plt.rc("figure", figsize=(10, 6))
np.set_printoptions(precision=4, suppress=True)

# 8장 데이터 준비하기 : 조인, 병합, 변형
## 8.1. pandas.merge() 병합
  * 특정 열을 기준으로 두 데이터프레임을 병합하며, 이때 기준이 되는 열을 지정하여 조인을 수행
  * 종류에는 내부 조인(inner join), 외부 조인(outer join), 왼쪽 조인(left join), 오른쪽 조인(right join) 등 

## 1. One-to-One merge
* 동작 원리:
  * 두 개의 데이터프레임을 병합할 때 기준이 되는 열을 선택-  이 열은 두 데이터프레임 모두에 존재해야 함
  * 데이터프레임을 병합할 때, 지정된 열을 기준으로 한 쌍의 행을 찾아서 이를 병합.
     - 예를 들어, 첫 번째 데이터프레임의 특정 행에서 지정된 열의 값이 "A"이고, 두 번째 데이터프레임에서도 이와 동일한 열에 대해 값 "A"를 가지는 행이 존재한다면, 이 두 행을 하나로 합친다.
  * 결과적으로, 병합된 데이터프레임에서 각 행은 하나의 행과 하나의 행이 매칭된 결과이므로, 이러한 방식을 "one-to-one" merge라고 함.

In [86]:
#  데이터프레임 생성 중간고사 공부하기 다할줄알아야함
import pandas as pd
data1 = {"col1":["a","b","c"], "col2":[1,2,3]}
data2 = {"col1":["a","b","d"], "col3":[10,20,30]}

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

print(df1, "\n\n", df2)

  col1  col2
0    a     1
1    b     2
2    c     3 

   col1  col3
0    a    10
1    b    20
2    d    30


### 1) 매개변수 : on 동작방식 이해해야한다
* 합칠 때 기준이 되는 열을 지정
* 이 열은 두 데이터프레임에 모두 존재
* 공통된 열이 1개인 경우 on 생략 가능

In [87]:
# ex
pd.merge(df1, df2, on = "col1")  # ex2 pd.merge(df1, df2)

Unnamed: 0,col1,col2,col3
0,a,1,10
1,b,2,20


In [88]:
import pandas as pd

data1 = {'name':['철수','영희','민수'],
         'score':[75,88,92]}
df1 = pd.DataFrame(data1)

data2 = {'name':['영희','철수','지영','다현'],
         'attendence_rate':[90,80,95,85]}
df2 = pd.DataFrame(data2)

df3 = pd.merge(df1,df2)
print(df1,'\n\n',df2,'\n\n',df3)

  name  score
0   철수     75
1   영희     88
2   민수     92 

   name  attendence_rate
0   영희               90
1   철수               80
2   지영               95
3   다현               85 

   name  score  attendence_rate
0   철수     75               80
1   영희     88               90


In [89]:
import pandas as pd
left = pd.DataFrame({'key':['K0','K1','K2'],
                     'A':['A0','A1','A2']})
right = pd.DataFrame({'key':['K0','K1','K2'],
                      'B':['B0','B1','B2']})

result = pd.merge(left,right,on='key')
print(left,'\n\n',right,'\n\n',result)

  key   A
0  K0  A0
1  K1  A1
2  K2  A2 

   key   B
0  K0  B0
1  K1  B1
2  K2  B2 

   key   A   B
0  K0  A0  B0
1  K1  A1  B1
2  K2  A2  B2


### 2) 매개변수 : how = "inner"
* 기본값은 inner인 경우 how 생략가능
* how='inner' (기본값): 양쪽 데이터프레임에 모두 존재하는 행에 대해서만 병합. 이 경우, 교집합에 해당하는 행만 남게됨.
* 내부 조인은 두 데이터프레임에서 공통된 값이 존재하는 행만을 남기는 조인 방식

In [90]:
#ex
print(df1,"\n\n",df2)
pd.merge(df1, df2, how="inner") # pd.merge(df1, df2,  on = "col1", how = "inner")

  name  score
0   철수     75
1   영희     88
2   민수     92 

   name  attendence_rate
0   영희               90
1   철수               80
2   지영               95
3   다현               85


Unnamed: 0,name,score,attendence_rate
0,철수,75,80
1,영희,88,90


### 3) 매개변수 : how = "left"
* 두 데이터프레임에 공통된 열이 존재해야 한다.
* 동작원리:
  * 왼쪽 데이터프레임을 기준으로 한다. 즉, 왼쪽 데이터프레임의 모든 행을 유지한다.
  * 왼쪽 데이터프레임의 각 행에 대해 오른쪽 데이터프레임에서 동일한 값을 가지는 행을 찾는다. 이를 위해 두 데이터프레임에서 지정된 열을 비교한다.
  * 만약 오른쪽 데이터프레임에서 해당 값을 가진 행이 없다면, 누락된 값 (NaN)으로 대체한다.

In [91]:
# ex
print(df1, "\n\n", df2)
pd.merge(df1, df2, how = "left") #pd.merge(df1, df2, on = "col1", how = "left")

  name  score
0   철수     75
1   영희     88
2   민수     92 

   name  attendence_rate
0   영희               90
1   철수               80
2   지영               95
3   다현               85


Unnamed: 0,name,score,attendence_rate
0,철수,75,80.0
1,영희,88,90.0
2,민수,92,


## 4) 매개변수 : how = "right"
* 두 데이터프레임에 공통된 열이 존재해야 한다.
* 동작원리
  * 오른쪽 데이터프레임을 기준으로 모든 행을 유지한다..
  * 오른쪽 데이터프레임의 각 행에 대해 왼쪽 데이터프레임에서 동일한 값을 가지는 행을 찾는다. 이를 위해 두 데이터프레임에서 지정된 열을 비교한다.
  * 만약 왼쪽 데이터프레임에서 해당 값을 가진 행이 없다면, 누락된 값 (NaN)으로 대체

In [92]:
# ex how="right"
#이런거 코딩하는 문제 중간고사 실행결과가 일치하는지 확인하며 공부하기
print(df1, "\n\n", df2)
pd.merge(df1, df2, how="right") #pd.merge(df1, df2, on = "col1", how="right")

  name  score
0   철수     75
1   영희     88
2   민수     92 

   name  attendence_rate
0   영희               90
1   철수               80
2   지영               95
3   다현               85


Unnamed: 0,name,score,attendence_rate
0,영희,88.0,90
1,철수,75.0,80
2,지영,,95
3,다현,,85


### 5) 매개변수 : how = "outer" 외부조인 합집합
#두가지 프레임이 나오고 실행결과를 보여주고 프로그램을 작성하시오 문제
* 동작원리
  * 왼쪽 데이터프레임과 오른쪽 데이터프레임의 모든 행을 포함
  * 두 데이터프레임의 공통된 값을 기준으로 행을 병합. 만약 두 데이터프레임에 공통된 값이 없다면, 누락된 값 (NaN)으로 대체

In [93]:
#ex
print(df1,"\n\n", df2)
pd.merge(df1, df2, how="outer") # pd.merge(df1, df2, on = "col1", how="outer")

  name  score
0   철수     75
1   영희     88
2   민수     92 

   name  attendence_rate
0   영희               90
1   철수               80
2   지영               95
3   다현               85


Unnamed: 0,name,score,attendence_rate
0,다현,,85.0
1,민수,92.0,
2,영희,88.0,90.0
3,지영,,95.0
4,철수,75.0,80.0


### 6) 매개변수 : left_on과 right_on 
# 동일한 열이 없을때 merge할 기준열을 정해준다 left_on과 right_on 
* 기본적으로, merge() 함수는 동일한 이름의 열을 기준으로 조인함. 하지만 경우에 따라 왼쪽 데이터프레임과 오른쪽 데이터프레임에 동일한 이름의 열이 없는 경우에는 left_on과 right_on을 사용하여 다른 열을 기준으로 조인할 수 있다.
* 동작 원리
  * left_on: 왼쪽 데이터프레임에서 조인할 열을 지정. 이 열은 왼쪽 데이터프레임에 존재해야 함
  * right_on: 오른쪽 데이터프레임에서 조인할 열을 지정. 이 열은 오른쪽 데이터프레임에 존재해야 함
  * left_on과 right_on에 지정된 열의 값이 일치하는 행을 찾아서 조인함.

In [94]:
import pandas as pd

data1 = {'col1':['a','b','c'],
         'col2':[1,2,3]}
df1 = pd.DataFrame(data1)
print(df1)

data2 = {'col3': ['a','b','f'],
         'col4': [10,20,30]}
df2 = pd.DataFrame(data2)
print(df2)

df3 = pd.merge(df1,df2, left_on='col1', right_on='col3', how='outer')
print(df3)

  col1  col2
0    a     1
1    b     2
2    c     3
  col3  col4
0    a    10
1    b    20
2    f    30
  col1  col2 col3  col4
0    a   1.0    a  10.0
1    b   2.0    b  20.0
2    c   3.0  NaN   NaN
3  NaN   NaN    f  30.0


In [137]:
# ex
import pandas as pd

# 첫 번째 데이터프레임 생성
data1 = {'key': [1, 2, 3],
         'value': ['A', 'B', 'C']}
df1 = pd.DataFrame(data1)

# 두 번째 데이터프레임 생성
data2 = {'id': [1, 2, 3],
         'category': ['X', 'Y', 'Z']}
df2 = pd.DataFrame(data2)

# df1과 df2를 'key'와 'id' 열을 기준으로 조인하여 merged_df 생성
merged_df = pd.merge(df1, df2, left_on='key', right_on='id', how="inner")
#merged_df = pd.merge(df1, df2, left_on='key', right_on='id) inner 생략가능

# 결과 출력
print(df1,'\n\n',df2,'\n\n',merged_df)


   key value
0    1     A
1    2     B
2    3     C 

    id category
0   1        X
1   2        Y
2   3        Z 

    key value  id category
0    1     A   1        X
1    2     B   2        Y
2    3     C   3        Z


### 7) 매개변수 : left_index과 right_index 행이 기준
* 인덱스를 기준으로 조인할 때는 기본적으로 인덱스 값이 일치하는 행끼리 조인을 수행.
* 동일한 이름의 열이 존재할 경우에는 첫 번째 데이터프레임의 열 이름에는 _x 접미사, 두 번째 데이터프레임의 열 이름에는 _y 접미사가 붙는다
* 동작 원리
  * left_index: 왼쪽 데이터프레임의 인덱스를 기준으로 조인함. 기본값은 False이며, True로 설정하면 왼쪽 데이터프레임의 인덱스를 기준으로 조인.
  * right_index: 오른쪽 데이터프레임의 인덱스를 기준으로 조인. 기본값은 False이며, True로 설정하면 오른쪽 데이터프레임의 인덱스를 기준으로 조인.
  * 만약 left_index와 right_index 둘 다 True로 설정되어 있다면, 각각의 데이터프레임의 인덱스를 기준으로 조인

In [96]:
data1 = {"col1":["a","b","c"], "col2":[1,2,3]}
data2 = {"col1":["a","b","d"], "col3":[10,20,30]}
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)
print(df1, "\n\n", df2)

# ex1
pd.merge(df1, df2, right_index = True, left_index = True)

  col1  col2
0    a     1
1    b     2
2    c     3 

   col1  col3
0    a    10
1    b    20
2    d    30


Unnamed: 0,col1_x,col2,col1_y,col3
0,a,1,a,10
1,b,2,b,20
2,c,3,d,30


## 2. many-to-One merge
    * 한쪽 데이터프레임의 특정 열에 중복된 여러 행의 값이 있고, 다른쪽 데이터프레임의 해당 값과 일치하는 경우을 표현
    * 동작 원리
        * 기준이 되는 데이터프레임을 선택. 일반적으로는 행의 개수가 많은 쪽을 기준으로 선택
        * 기준이 되는 데이터프레임의 중복된 값을 가진 열을 기준으로 다른 데이터프레임과 조인
        * 기준이 되는 데이터프레임의 중복된 값에 해당하는 행들이 다른 데이터프레임의 해당 값을 가진 행과 조인    

### [문제] 고객 정보와 주문 정보를 포함하는 두 개의 데이터프레임이 있다고 가정. 
* 여러 주문이 하나의 고객에 의해 생성된다면, 이는 many-to-one 조인에 해당. 
* 이 경우, 고객 정보 데이터프레임의 고객 ID 열과 주문 정보 데이터프레임의 고객 ID 열을 기준으로 조인하여, 
* 각 주문이 해당하는 고객의 정보와 함께 표시

In [97]:
import pandas as pd

# 첫 번째 데이터프레임 생성 (many)
data1 = {'customer_id': [1, 2, 3, 4, 4],
         'customer_name': ['경수', '철수', '영수', '강수', '강수']}
df1 = pd.DataFrame(data1)

# 두 번째 데이터프레임 생성 (one)
data2 = {'customer_id': [1, 2, 3, 4],
         'order_id': [101, 102, 103, 104]}
df2 = pd.DataFrame(data2)

# many-to-one 조인 수행
## df1은 많은(many) 쪽이고, df2는 하나(one) 쪽
## on='customer_id'는 조인할 열을 지정하고, 
## how='left'는 왼쪽 데이터프레임(df2)을 기준으로 조인
##최종적으로는 많은(many) 쪽인 df1의 정보가 유지되면서 하나(one) 쪽인 df2의 정보가 추가
#왼쪽에 many에 해당하는 데이터프레임 작성하기
merged_df = pd.merge(df1, df2, on='customer_id', how='left')

# 결과 출력
print(df1,'\n\n',df2,'\n\n',merged_df)

   customer_id customer_name
0            1            경수
1            2            철수
2            3            영수
3            4            강수
4            4            강수 

    customer_id  order_id
0            1       101
1            2       102
2            3       103
3            4       104 

    customer_id customer_name  order_id
0            1            경수       101
1            2            철수       102
2            3            영수       103
3            4            강수       104
4            4            강수       104


### [예제]     

In [98]:
# many-to-one : 병합의 기준 열 : key
df1 = pd.DataFrame({"key": ["b", "b", "a", "c", "a", "a", "b"],
                    "data1": pd.Series(range(7), dtype="Int64")})

df2 = pd.DataFrame({"key": ["a", "b", "d"],
                    "data2": pd.Series(range(3), dtype="Int64")})

print(df1, "\n\n", df2)

#how 생략가능 공통된 행만 포함 공통되지 않은 행은 나타나지 않는다
pd.merge(df1, df2, on="key", how="inner")
# pd.merge(df1, df2, on="key", how="outer")


  key  data1
0   b      0
1   b      1
2   a      2
3   c      3
4   a      4
5   a      5
6   b      6 

   key  data2
0   a      0
1   b      1
2   d      2


Unnamed: 0,key,data1,data2
0,b,0,1
1,b,1,1
2,a,2,0
3,a,4,0
4,a,5,0
5,b,6,1


In [99]:
#ex : 두 데이터프레임에 공통된 열 이름이 없는 경우
#데이터프레임과 실행결과가 주어지면 데이터 프레임 생성코드와 merge하는 부분 넣어주기
df3 = pd.DataFrame({"lkey": ["b", "b", "a", "c", "a", "a", "b"],
                    "data1": pd.Series(range(7), dtype="Int64")})
df4 = pd.DataFrame({"rkey": ["a", "b", "d"],
                    "data2": pd.Series(range(3), dtype="Int64")})
print(df3, "\n\n", df4)

# ex1
pd.merge(df3, df4, left_on="lkey", right_on="rkey") # pd.merge(df3, df4, left_on="lkey", right_on="rkey", how="inner")
# ex2
pd.merge(df3, df4, left_on="lkey", right_on="rkey", how = "outer")
# ex3
print(df3,"\n\n", df4)

pd.merge(df3, df4, left_on="lkey", right_on="rkey", how = "left")

  lkey  data1
0    b      0
1    b      1
2    a      2
3    c      3
4    a      4
5    a      5
6    b      6 

   rkey  data2
0    a      0
1    b      1
2    d      2
  lkey  data1
0    b      0
1    b      1
2    a      2
3    c      3
4    a      4
5    a      5
6    b      6 

   rkey  data2
0    a      0
1    b      1
2    d      2


Unnamed: 0,lkey,data1,rkey,data2
0,b,0,b,1.0
1,b,1,b,1.0
2,a,2,a,0.0
3,c,3,,
4,a,4,a,0.0
5,a,5,a,0.0
6,b,6,b,1.0


In [100]:
# ex4
print(df3,"\n\n", df4)

pd.merge(df3, df4, left_on="lkey", right_on="rkey", how = "right")

  lkey  data1
0    b      0
1    b      1
2    a      2
3    c      3
4    a      4
5    a      5
6    b      6 

   rkey  data2
0    a      0
1    b      1
2    d      2


Unnamed: 0,lkey,data1,rkey,data2
0,a,2.0,a,0
1,a,4.0,a,0
2,a,5.0,a,0
3,b,0.0,b,1
4,b,1.0,b,1
5,b,6.0,b,1
6,,,d,2


In [101]:
# ex4 : 색인 병합하기
# 인덱스를 기준으로 조인하므로 on 매개변수를 사용하지 않음
# 결과적으로, 두 데이터프레임의 인덱스가 일치하는 행끼리 조인. 만약 일치하는 인덱스가 없는 경우 해당 행은 제외.
print(df3,"\n\n", df4)
pd.merge(df3, df4, left_index = True, right_index = True)
#pd.merge(df3, df4, left_index = True, right_index = True,how='inner')

  lkey  data1
0    b      0
1    b      1
2    a      2
3    c      3
4    a      4
5    a      5
6    b      6 

   rkey  data2
0    a      0
1    b      1
2    d      2


Unnamed: 0,lkey,data1,rkey,data2
0,b,0,a,0
1,b,1,b,1
2,a,2,d,2


## 3. many-to-many merge
    * many-to-many merge는 두 데이터프레임 사이의 많은(many) 대 많은(many) 관계를 가정할 때 사용
    * 이는 각 데이터프레임의 조인 키에 중복된 값이 있는 경우를 의미. 
    #on how 모두 사용가능하다
    * 동작 원리
        * 각 데이터프레임에서 조인할 열에 중복된 값이 있는 경우, 중복된 값들을 복제한다.
        * 이 중복된 값들을 기반으로 조인을 수행. 각 조합은 가능한 모든 조합에 대해 생성된다.
    * 두 데이터프레임에 공통된 열 이름이 있는 경우 곱집합을 생성

### [문제] 학생과 각 학생이 수강한 과목에 대한 정보를 포함하는 두 개의 데이터프레임이 있다고 가정
* 한 명의 학생이 여러 개의 과목을 수강하고, 여러 명의 학생이 동일한 과목을 수강할 수 있다
* 이 경우, 학생과 과목 사이에는 many-to-many 관계가 있다.
* 결과적으로, 모든 가능한 학생-과목 조합에 대한 새로운 행이 생성.

In [102]:
import pandas as pd

# 첫 번째 데이터프레임 생성: 학생과 수강한 과목
data1 = {'student_id': [1, 1, 2, 2, 3],
         'subject': ['Python', 'AI', 'Python', 'BigData', 'AI']}
df1 = pd.DataFrame(data1)

# 두 번째 데이터프레임 생성: 과목과 해당 교수
data2 = {'subject': ['Python', 'AI', 'BigData', 'ML'],
         'professor': ['Dr. Choi', 'Dr. Park', 'Dr. Lee', 'Dr. Kim']}
df2 = pd.DataFrame(data2)

# many-to-many merge 수행
merged_df = pd.merge(df1, df2, on='subject')

# 결과 출력
print(df1, "\n\n",df2)
print()
print(merged_df)

   student_id  subject
0           1   Python
1           1       AI
2           2   Python
3           2  BigData
4           3       AI 

    subject professor
0   Python  Dr. Choi
1       AI  Dr. Park
2  BigData   Dr. Lee
3       ML   Dr. Kim

   student_id  subject professor
0           1   Python  Dr. Choi
1           1       AI  Dr. Park
2           2   Python  Dr. Choi
3           2  BigData   Dr. Lee
4           3       AI  Dr. Park


### [예제]

In [103]:
# ex1
df1 = pd.DataFrame({"key": ["b", "b", "a", "c", "a", "b"],
                    "data1": pd.Series(range(6), dtype="Int64")})
df2 = pd.DataFrame({"key": ["a", "b", "a", "b", "d"],
                    "data2": pd.Series(range(5), dtype="Int64")})
print(df1,"\n\n", df2)

pd.merge(df1, df2, on="key", how="left")

#왼쪽 데이터프레임인 df1의 모든 행이 유지되고, df2의 해당 값을 가진 행이 있는 경우에는 해당 값을 추가로 포함.
#만약 df2에서 일치하는 값이 여러 개인 경우에는 조합된 결과가 포함. 
#만약 df2에서 일치하는 값이 없는 경우에는 누락된 값 (NaN)으로 채워짐
# b 갯수 3,2 결과 b갯수 3*2 d가 없다

  key  data1
0   b      0
1   b      1
2   a      2
3   c      3
4   a      4
5   b      5 

   key  data2
0   a      0
1   b      1
2   a      2
3   b      3
4   d      4


Unnamed: 0,key,data1,data2
0,b,0,1.0
1,b,0,3.0
2,b,1,1.0
3,b,1,3.0
4,a,2,0.0
5,a,2,2.0
6,c,3,
7,a,4,0.0
8,a,4,2.0
9,b,5,1.0


In [104]:
#ex 2
print(df1,"\n\n", df2)

pd.merge(df1, df2, on="key", how="inner")
#c가 없어진다

  key  data1
0   b      0
1   b      1
2   a      2
3   c      3
4   a      4
5   b      5 

   key  data2
0   a      0
1   b      1
2   a      2
3   b      3
4   d      4


Unnamed: 0,key,data1,data2
0,b,0,1
1,b,0,3
2,b,1,1
3,b,1,3
4,a,2,0
5,a,2,2
6,a,4,0
7,a,4,2
8,b,5,1
9,b,5,3


In [105]:
#ex 3
print(df1,"\n\n", df2)

pd.merge(df1, df2, on="key", how="outer")
#c,d추가된다

  key  data1
0   b      0
1   b      1
2   a      2
3   c      3
4   a      4
5   b      5 

   key  data2
0   a      0
1   b      1
2   a      2
3   b      3
4   d      4


Unnamed: 0,key,data1,data2
0,a,2.0,0.0
1,a,2.0,2.0
2,a,4.0,0.0
3,a,4.0,2.0
4,b,0.0,1.0
5,b,0.0,3.0
6,b,1.0,1.0
7,b,1.0,3.0
8,b,5.0,1.0
9,b,5.0,3.0


In [106]:
#ex 4
print(df1,"\n\n", df2)

pd.merge(df1, df2, on="key", how="right")
# a 2*2 b 2*3 c는 안나온다

  key  data1
0   b      0
1   b      1
2   a      2
3   c      3
4   a      4
5   b      5 

   key  data2
0   a      0
1   b      1
2   a      2
3   b      3
4   d      4


Unnamed: 0,key,data1,data2
0,a,2.0,0
1,a,4.0,0
2,b,0.0,1
3,b,1.0,1
4,b,5.0,1
5,a,2.0,2
6,a,4.0,2
7,b,0.0,3
8,b,1.0,3
9,b,5.0,3


# 8.2. concat 함수를 사용한 두 데이터프레임 이어 붙이기
* 여러 개의 객체를 리스트에 담아서 pandas.concat 함수에 전달
* 수직 결합: 두 개 이상의 데이터프레임을 동일한 열을 기준으로 아래로 연결하는 것을 의미
    * 이는 axis=0을 사용하여 수행
* 수평 결합: 두 개 이상의 데이터프레임을 동일한 행을 기준으로 옆으로 연결하는 것을 의미합니다.
  * 이는 axis=1을 사용하여 수행
* pandas.concat()은 수직 및 수평 결합을 수행하는 반면, pandas.merge()는 열을 기준으로 병합을 수행

### [문제]

In [107]:
# ex1
df1 = pd.DataFrame({"A":["a0","a1","a2"],
                    "B": ["b0","b1","b2"],
                    "C":["c0", "c1","c2"]})

df2 = pd.DataFrame({"A":["a4","a5","a6"],
                    "B": ["b4","b5","b6"],
                    "C":["c4", "c5","c6"]})

print(df1,"\n\n", df2)

    A   B   C
0  a0  b0  c0
1  a1  b1  c1
2  a2  b2  c2 

     A   B   C
0  a4  b4  c4
1  a5  b5  c5
2  a6  b6  c6


## 1) axis 매개변수- 수직 방향 이어붙이기
* pandas.concat(axis=0)

In [108]:
#ex1 -반드시 리스트에 담아서 사용 2개 이상 가능
dataframe_list = [df1, df2]
pd.concat(dataframe_list, axis="index") #pd.concat(dataframe_list)
# 인덱스 재설정
df = pd.concat(dataframe_list, ignore_index=True)
df

Unnamed: 0,A,B,C
0,a0,b0,c0
1,a1,b1,c1
2,a2,b2,c2
3,a4,b4,c4
4,a5,b5,c5
5,a6,b6,c6


In [109]:
# ex1
df1 = pd.DataFrame({"A":["a0","a1","a2"],
                    "B": ["b0","b1","b2"],
                    "C":["c0", "c1","c2"]})

df2 = pd.DataFrame({"A":["a4","a5","a6"],
                    "B": ["b4","b5","b6"],
                    "C":["c4", "c5","c6"]})

print(df1,"\n\n", df2)

pd.concat([df1,df2],axis='index',ignore_index=True)

    A   B   C
0  a0  b0  c0
1  a1  b1  c1
2  a2  b2  c2 

     A   B   C
0  a4  b4  c4
1  a5  b5  c5
2  a6  b6  c6


Unnamed: 0,A,B,C
0,a0,b0,c0
1,a1,b1,c1
2,a2,b2,c2
3,a4,b4,c4
4,a5,b5,c5
5,a6,b6,c6


In [110]:
import pandas as pd
df1 = pd.DataFrame({'A':['A0','A1','A2'],
                    'B':['B0','B1','B2']})
df2 = pd.DataFrame({'A':['A3','A4','A5'],
                    'B':['B3','B4','B5']})
result = pd.concat([df1,df2],ignore_index=True)
print(result)

    A   B
0  A0  B0
1  A1  B1
2  A2  B2
3  A3  B3
4  A4  B4
5  A5  B5


In [111]:
import pandas as pd
data1 = {'names':['철수','영희','민수'],
         'score':[75,88,92]}
df1=pd.DataFrame(data1)

data2={'names':['지영','다현'],
       'score':[68,95]}
df2=pd.DataFrame(data2)

dataframe_list = [df1,df2]
df3 = pd.concat(dataframe_list,axis='index',ignore_index=True)
print(df3)


  names  score
0    철수     75
1    영희     88
2    민수     92
3    지영     68
4    다현     95


In [112]:
# ex 2:  테이터프레임 df1에  시리즈을 수직(행)으로 이어붙이기 - 예상문제 꼭 이해하기
## 1. 시리즈 생성
s1 = pd.Series(['n1', 'n2', 'n3'])
print(s1)
## 2. 데이터프레임에 시리즈 추가
pd.concat([df, s1], axis=0)

0    n1
1    n2
2    n3
dtype: object


Unnamed: 0,A,B,C,0
0,a0,b0,c0,
1,a1,b1,c1,
2,a2,b2,c2,
3,a4,b4,c4,
4,a5,b5,c5,
5,a6,b6,c6,
0,,,,n1
1,,,,n2
2,,,,n3


In [113]:
## 3. 시리즈을 데이터프레임으로 변환
row_s1 = pd.DataFrame(data=[['n1', 'n2', 'n3']], columns=['A', 'B', 'C'])
print(row_s1)
pd.concat([df, row_s1])

## 4. 기존 인덱스는 무시하고 새로운 인덱스 설정하기
pd.concat([df, row_s1], ignore_index = True)


    A   B   C
0  n1  n2  n3


Unnamed: 0,A,B,C
0,a0,b0,c0
1,a1,b1,c1
2,a2,b2,c2
3,a4,b4,c4
4,a5,b5,c5
5,a6,b6,c6
6,n1,n2,n3


In [114]:
#25
import pandas as pd

df = pd.DataFrame({'학생':['철수','영희','민수'],
                   '성적':[80,75,90]})
new_student_scores=pd.Series(['지영',85])
print(new_student_scores)
# new_student_scores = pd.Series(['지영',85],index=['학생','성적'])
row =pd.DataFrame(data=[['지영',85]],columns=['학생','성적'])
print(row)
# pd.concat([df,row],ignore_index=True)
pd.merge(df,row,how='outer')

0    지영
1    85
dtype: object
   학생  성적
0  지영  85


Unnamed: 0,학생,성적
0,민수,90
1,영희,75
2,지영,85
3,철수,80


In [115]:
#25
import pandas as pd

df = pd.DataFrame({'학생':['철수','영희','민수'],
                   '성적':[80,75,90]})
new_student_scores=pd.Series(['지영',85])
# new_student_scores = pd.Series(['지영',85],index=['학생','성적'])
row =pd.DataFrame(data=[['지영',85]],columns=['학생','성적'])
# print(row)
pd.merge(df,new_student_scores,how='outer')

ValueError: Cannot merge a Series without a name

In [None]:
# 25번 문제
# 다음은 학생들의 성적을 담은 데이터프레임 df와 추가적인 학생의 성적을 담은 시리즈 new_student_scores가 있다.

# 25-1 문제(코딩문제)
# concat() 함수를 사용하여 데이터프레임 df와 시리즈 new_student_scores를 수직으로 결합한 후 결과를 출력하는 프로그램을 작성하시오.
 
import pandas as pd

df = pd.DataFrame({'학생': ['철수', '영희', '민수'], '성적': [80, 75, 90]})

data = pd.Series([85], index=['지영'])
print(data)
new_student_scores = pd.DataFrame({'학생': data.index, '성적': data.values})  # Series를 데이터프레임으로 변환하여 출력
print(new_student_scores)
result = pd.concat([df, new_student_scores], ignore_index=True)  # concat은 밑에 행에 추가만(이름 순x)
print(df, '\n\n', new_student_scores, '\n\n', result)

In [None]:
# 25번 문제
# 다음은 학생들의 성적을 담은 데이터프레임 df와 추가적인 학생의 성적을 담은 시리즈 new_student_scores가 있다.

# 25-2 문제(코딩문제)
# merge() 함수를 사용하여 데이터프레임 df와 시리즈 new_student_scores를 병합한 후 결과를 출력하는 프로그램을 작성하시오.

import pandas as pd

df = pd.DataFrame({'학생': ['철수', '영희', '민수'], '성적': [80, 75, 90]})
data = pd.Series([85], index= ['지영'])

new_student_scores = pd.DataFrame({'학생': data.index, '성적': data.values})

result = pd.merge(df, new_student_scores, how='outer') # merge는 이름 순서대로 병합
print(result)

## 2)  axis 매개변수- 수평(열) 방향 이어붙이기
* pandas.concat( axis = "columns")
* axis의 기본값은 0( 또는 "index") 이므로 매개변수를 따로 지정하지 않으면 데이터를 기본값인 수직방향으로 덧붙여 연결함
* axis를 1 또는 "columns"로 설정하면 수평(열) 방향으로 연결

In [None]:
#ex - 데이터프레임을 열 방향으로 연결하고 인덱스가 같은 행끼리 연결 - 인덱스가 다른 데이터는 결측값으로 표시
print(df1, "\n\n", df2) # 인덱스가 같은 데이터 열 방향 연결하기
pd.concat([df1, df2], axis = "columns")

In [None]:
#26
import pandas as pd

df1 = pd.DataFrame({'A':[1,2,3],
                    'B':[4,5,6]},
                    index=['X','Y','Z'])

df2 = pd.DataFrame({'C':[7,8,9],
                    'D':[10,11,12]},
                  index=['X','Y','Z'])

s = pd.Series([13,14,15],index=['X','Y','Z'])
s.name = 'E'
# print(df1)
# print(df2)
print(s)

result1 = pd.concat([df1,df2,s],axis='columns')
print(result1)

df3 = pd.merge(df1,df2,left_index=True, right_index=True,how='inner')
# s =pd.DataFrame(s)
result = pd.merge(df3,s,left_index=True, right_index=True,how='inner')
print(result)

In [None]:
import pandas as pd

df1=pd.DataFrame({'A':[1,2,3],
                  'B':[4,5,6]},
                  index=['X','Y','Z'])

df2=pd.DataFrame({'C':[7,8,9],
                  'D':[10,11,12]},
                  index=['X','Y','Z'])

s=pd.Series([13,14,15],index=['X','Y','Z'],name='E')

# pd.concat([df1,df2,s],axis='columns')
pd.merge(df1,df2,left_index=True,right_index=True)
# pd.merge(df3,s,left_index=True,right_index=True)

## 3) join 매개변수 -  행방향으로 연결하기
* join = "outer" 
* concat의 매개변수 join의 기본값은 outer
* 연결할 데이터프레임 객체 사이의 모든열을 유지

In [None]:
# ex : 열 이름이 각기 다른 데이터프레임 생성
## 컬럼 이름 변경하기
df2.columns = ['E','F', 'G']
print(df1, "\n\n", df2)

In [116]:
df2_concat = pd.concat([df1, df2], join = "outer")

df2_concat

Unnamed: 0,names,score
0,철수,75
1,영희,88
2,민수,92
0,지영,68
1,다현,95


## 4) join 매개변수 -  수직(행)방향으로 연결하기
* join = "inner"
* 연결할 데이터프레임 객체 사이 공통인 열만 유지 

In [117]:
#ex
df1 = pd.DataFrame({"A":["a0","a1","a2"],
                    "B": ["b0","b1","b2"],
                    "C":["c0", "c1","c2"]})

df2 = pd.DataFrame({"A":["a4","a5","a6"],
                    "B": ["b4","b5","b6"],
                    "C":["c4", "c5","c6"]})
pd.concat([df1, df2], join = "inner", ignore_index=True) # pd.concat([df1, df3], join = "inner", axis="index", ignore_index=True) 


Unnamed: 0,A,B,C
0,a0,b0,c0
1,a1,b1,c1
2,a2,b2,c2
3,a4,b4,c4
4,a5,b5,c5
5,a6,b6,c6


### [문제] 인덱스가 다른 데이터프레임의 열 방향 연결하기 - x

In [118]:
df1.index =  [0,1,2]
df2.index = [4,5,6]
print(df1, "\n\n", df2)

    A   B   C
0  a0  b0  c0
1  a1  b1  c1
2  a2  b2  c2 

     A   B   C
4  a4  b4  c4
5  a5  b5  c5
6  a6  b6  c6


In [119]:
#ex - join = "inner" - 인덱스가 공통인 데이터만 연결
pd.concat([df1, df2], axis = "columns", join = "inner")


Unnamed: 0,A,B,C,A.1,B.1,C.1


### [문제]
* pandas.concat()을 사용하여 수직 결합 수행
* pandas.concat()을 사용하여 수평 결합 수행
* pandas.merge()를 사용하여 열을 기준으로 내부 병합 수행
* pandas.merge()를 사용하여 열을 기준으로 외부 병합 수행

In [120]:
import pandas as pd

# 데이터프레임 생성
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                    'B': ['B0', 'B1', 'B2']})

df2 = pd.DataFrame({'A': ['A3', 'A4', 'A5'],
                    'B': ['B3', 'B4', 'B5']})

print(df1,"\n\n",df2,"\n")
# pandas.concat()을 사용하여 수직 결합
result_concat_vertical = pd.concat([df1, df2], axis=0)
print("수직 결합:")
print(result_concat_vertical)
print()

# pandas.concat()을 사용하여 수평 결합 수행
result_concat_horizontal = pd.concat([df1, df2], axis=1)
print("수평결합:")
print(result_concat_horizontal)
print()

# pandas.merge()를 사용하여 열을 기준으로 병합(inner join) 수행
#공통된 값이 없엇 결과가 nan
result_merge_inner = pd.merge(df1,df2, on='A', how='inner')
print("내부 조인:")
print(result_merge_inner)
print()

# pandas.merge()를 사용하여 열을 기준으로 병합(outer join) 수행
result_merge_outer = pd.merge(df1,df2, on='A', how='outer')
print("외부 조인:")
print(result_merge_outer)
print()


    A   B
0  A0  B0
1  A1  B1
2  A2  B2 

     A   B
0  A3  B3
1  A4  B4
2  A5  B5 

수직 결합:
    A   B
0  A0  B0
1  A1  B1
2  A2  B2
0  A3  B3
1  A4  B4
2  A5  B5

수평결합:
    A   B   A   B
0  A0  B0  A3  B3
1  A1  B1  A4  B4
2  A2  B2  A5  B5

내부 조인:
Empty DataFrame
Columns: [A, B_x, B_y]
Index: []

외부 조인:
    A  B_x  B_y
0  A0   B0  NaN
1  A1   B1  NaN
2  A2   B2  NaN
3  A3  NaN   B3
4  A4  NaN   B4
5  A5  NaN   B5



## [예제] - 시리즈 연결(p.360)

In [121]:
# 데이터 셋
import pandas as pd
s1 = pd.Series([0, 1], index=["a", "b"], dtype="Int64", name="s1")
s2 = pd.Series([2, 3, 4], index=["c", "d", "e"], dtype="Int64", name = "s2")
s3 = pd.Series([5, 6], index=["f", "g"], dtype="Int64", name = "s3")

print(s1, "\n\n", s2, "\n\n", s3)

a    0
b    1
Name: s1, dtype: Int64 

 c    2
d    3
e    4
Name: s2, dtype: Int64 

 f    5
g    6
Name: s3, dtype: Int64


In [122]:
# ex1 수직 방향으로 이어 붙이기  ----> 결과는 Series 반환
result = pd.concat([s1, s2, s3], axis="index") #result = pd.concat([s1, s2, s3]) 
result

a    0
b    1
c    2
d    3
e    4
f    5
g    6
dtype: Int64

In [123]:
# ex2 수평 방향으로 이어 붙이기  ----> 결과는 DataFrame 반환
s4= pd.concat([s1, s2, s3], axis="columns") #일치하지 않은 인덱스의 값은 결측 처리 
s4

Unnamed: 0,s1,s2,s3
a,0.0,,
b,1.0,,
c,,2.0,
d,,3.0,
e,,4.0,
f,,,5.0
g,,,6.0


In [124]:
# ex3  열 방향으로 이어 붙이기 ---> 결과는 DataFrame 반환
result = pd.concat([s1, s2, s3], axis="columns", join="outer") #일치하지 않은 인덱스의 값은 결측 처리 
result # 겹치는 축이 없으므로외부 조인으로 합집합을 얻음


Unnamed: 0,s1,s2,s3
a,0.0,,
b,1.0,,
c,,2.0,
d,,3.0,
e,,4.0,
f,,,5.0
g,,,6.0


In [125]:
# ex4
print(s1, "\n\n", s4)
result = pd.concat([s1,s4], axis="columns", join="inner") # 겹치는 축이 있으므로 내부 조인으로 교집합을 얻음
result

a    0
b    1
Name: s1, dtype: Int64 

      s1    s2    s3
a     0  <NA>  <NA>
b     1  <NA>  <NA>
c  <NA>     2  <NA>
d  <NA>     3  <NA>
e  <NA>     4  <NA>
f  <NA>  <NA>     5
g  <NA>  <NA>     6


Unnamed: 0,s1,s1.1,s2,s3
a,0,0,,
b,1,1,,


In [126]:
s1= pd.Series([0,1],index=['a','b'],dtype='Int64',name='s1')
s2= pd.Series([2,3,4],index=['c','d','e'],dtype='Int64',name='s2')
s1= pd.Series([5,6],index=['f','g'],dtype='Int64',name='s1')
pd.cconcat([s1,s4],axis='columns',join='inner')

AttributeError: module 'pandas' has no attribute 'cconcat'

## [예제] - 데이터프레임 연결(p.363) - x

In [None]:
import numpy as np
import pandas as pd
df1 = pd.DataFrame(np.arange(6).reshape(3, 2), index=["a", "b", "c"],
                   columns=["one", "two"])
df2 = pd.DataFrame(5 + np.arange(4).reshape(2, 2), index=["a", "c"],
                   columns=["three", "four"])
print(df1, "\n\n", df2)

In [None]:
# ex1 - 열 방향으로 합치고 데이터프레임의 컬럼 식볋하기 위해 계층 색인 만들기
## 첫 번째 계층은 이어 붙인 각 DataFrame 객체를 구분하는 용도로 사용
pd.concat([df1, df2], axis="columns")

pd.concat([df1, df2], axis="columns", keys=["level1", "level2"])


In [None]:
# ex2 : ignore_index = True 옵션 사용 - DataFrame의 색인은 무시하고, 열에 있는 데이터만 이어 붙인 다음 새로운 기본 색인을 할당

df1 = pd.DataFrame(np.random.standard_normal((3, 4)),
                   columns=["a", "b", "c", "d"])
df2 = pd.DataFrame(np.random.standard_normal((2, 3)),
                   columns=["b", "d", "a"])

print(df1, "\n\n", df2)

pd.concat([df1,df2], ignore_index=True)

# 5장 -  apply() 메서드로 함수 적용하기(p.226)
* apply()는 사용자 정의 함수 또는 파이썬 내장함수를 데이터프레임의 각 행이나 열 전체에 걸쳐 적용할 수 있게 해주는 메서드
* apply() 메서드를 사용하지 않아도 for문을 이용하면 각 데이터에 함수를 적용할 수 있다.
  * 하지만 대용량 데이터를 처리할 때는 for문보다 빠르다.

### 1) Series.apply(함수명) 
    - 시리즈에 함수를 적용하기
    - apply() 메서드에 함수를 인수로 전달할 때는 함수 이름 옆에 소괄호를 덧붙이지 않는다.

In [None]:
# ex: df의  a 열의 모든 값을 제곱하기
import pandas as pd
#1.dataset
df = pd.DataFrame({"a":[10,20,30], "b":[20,30,40]})
# 2.함수
def square(num):
    return num**2
# 3.시리즈의 모든 요소에 지정한 함수를 적용
s = df["a"].apply(square) # Series 리턴
print(s)
type(s)

### 2) dataFrame.apply(함수명, axis=) 
    - 데이터프레임은 일반적으로 2개 이상의 차원으로 구성
    - 데이터프레임에 함수를 적용할 때는 함수를 적용할 축(열 또는 행)을 지정해야 한다.

In [None]:
# ex1:  열을 대상으로 지정 함수 적용 : apply( axis=0), apply( axis ="index")
## 파이썬 내장함수 print() 적용하기
df.apply(print, axis="index") # 열 단위로 데이터프레임에 print() 적용

In [None]:
# ex2: 행 단위로 함수 적용하기 - apply(axix="columns")
df.apply(print, axis="columns")

### [예제] p.226 -시험예상문제출제 이해하기

In [None]:
# ex1- 사용자 정의 함수을 적용하기
import numpy as np
#1.
frame = pd.DataFrame(np.random.standard_normal((4, 3)),
                     columns=list("bde"),
                     index=["Utah", "Ohio", "Texas", "Oregon"])
frame

In [None]:
#2.
def f1(x):
    return x.max() # series.max()

#3. 각 열에 대해 한번씩만 적용하여 결과값은 게산을 적용한 열을 색인으로 시리즈로 반환
frame.apply(f1, axis="index") # axis= 0

In [None]:
#  각 행에 대해서 한번씩만 수행하고, 결과값은 게산을 적용한 행을 색인으로 시리즈 반환
frame.apply(f1, axis = "columns") 

In [127]:
# ex2 - 사용자정의함수
print(frame)
def f2(x):
    return pd.Series([x.min(), x.max()], index=["min", "max"])
frame.apply(f2, axis = "index")

               b         d         e
Utah   -0.711660  0.539206 -0.776606
Ohio   -1.306691  1.905407  0.787710
Texas   1.727213  0.154353  1.049482
Oregon  2.082774 -1.108112  0.404928


Unnamed: 0,b,d,e
min,-1.306691,-1.108112,-0.776606
max,2.082774,1.905407,1.049482


In [128]:
#27
import pandas as pd
df=pd.DataFrame({'이름':['철수','영희','민수'],
                 '국어':[90,80,85],
                 '영어':[85,95,70],
                 '수학':[75,80,90]})
df['총점'] = df[['국어', '영어','수학']].apply(lambda x: x.sum(), axis="columns")
print(df)
df.loc['평균']=df[['국어', '영어','수학']].apply(lambda x: x.mean(), axis="index")

print(df)

   이름  국어  영어  수학   총점
0  철수  90  85  75  250
1  영희  80  95  80  255
2  민수  85  70  90  245
     이름    국어         영어         수학     총점
0    철수  90.0  85.000000  75.000000  250.0
1    영희  80.0  95.000000  80.000000  255.0
2    민수  85.0  70.000000  90.000000  245.0
평균  NaN  85.0  83.333333  81.666667    NaN


In [129]:
import pandas as pd
df=pd.DataFrame({'이름':['철수','영희','민수'],
                 '국어':[90,80,85],
                 '영어':[85,95,70],
                 '수학':[75,80,90]})
df['총점']=df[['국어','영어','수학']].apply(lambda x: x.sum(),axis='columns')
print(df)
df.loc['평균']=df[['국어','영어','수학']].apply(lambda x:x.mean(),axis='index')
print(df)

   이름  국어  영어  수학   총점
0  철수  90  85  75  250
1  영희  80  95  80  255
2  민수  85  70  90  245
     이름    국어         영어         수학     총점
0    철수  90.0  85.000000  75.000000  250.0
1    영희  80.0  95.000000  80.000000  255.0
2    민수  85.0  70.000000  90.000000  245.0
평균  NaN  85.0  83.333333  81.666667    NaN


### 3) apply 함수와 lambda 함수 
    -  apply() 메서드로 전달할 함수가 별도의 함수로 정의할 필요가 없을 만큼 간단한 경우 익명함수로 사용하기

In [130]:
import pandas as pd
data={'col1':[1,2,3],
      'col2':[4,5,6]}
print(data)
df=pd.DataFrame(data)
df.apply(lambda row: row['col1']+row['col2'], axis="columns")


{'col1': [1, 2, 3], 'col2': [4, 5, 6]}


0    5
1    7
2    9
dtype: int64

In [131]:
import pandas as pd
data=pd.DataFrame({'col1':[1,2,3],
      'col2':[4,5,6]})
data.apply(lambda x: x['col1']+ x['col2'],axis='columns')

0    5
1    7
2    9
dtype: int64

In [132]:
# ex1
## 1. DaaFrmae
print(df)
print()
## 2. function
def square(num):
    return num**2

## 3. 데이터프레임의 a열의 값을 제곱하기
df['a_square']= df['col1'].apply(square)

## 4. lambda함수을 apply() 메서드의 인수로 사용하기
df['a_square'] = df['col1'].apply(lambda num : num**2)
df

   col1  col2
0     1     4
1     2     5
2     3     6



Unnamed: 0,col1,col2,a_square
0,1,4,1
1,2,5,4
2,3,6,9


In [133]:
# ex2 - axis값 중요
## 1. DtaFrmae
print(df)
print()

## 2 데이터프레임의 행 단위로 a, b열의 총합을 구하기- 파이썬 내장함수 사용
df['sum']= df[['col1','col2']].apply(sum, axis="columns")
print(df)
print()

## 2 데이터프레임의 행 단위로 a, b열의 평균을 구하기
df['mean'] = df[['col1', 'col2']].apply(lambda x: x.mean(), axis="columns")
print(df)
print()

   col1  col2  a_square
0     1     4         1
1     2     5         4
2     3     6         9

   col1  col2  a_square  sum
0     1     4         1    5
1     2     5         4    7
2     3     6         9    9

   col1  col2  a_square  sum  mean
0     1     4         1    5   2.5
1     2     5         4    7   3.5
2     3     6         9    9   4.5



In [134]:
df['sum']=df[['col1','col2']].apply(lambda x:x.sum(),axis='columns')
df
df['mean']=df[['col1','col2']].apply(lambda x:x.mean(),axis='columns')
df

Unnamed: 0,col1,col2,a_square,sum,mean
0,1,4,1,5,2.5
1,2,5,4,7,3.5
2,3,6,9,9,4.5


In [135]:
import pandas as pd

data = {'이름':['철수','영희'],
        '나이':[25,30],
        '성별':['남자','여자']}
df=pd.DataFrame(data)
df.to_csv('data.csv')
df.to_json('data.json')

In [136]:
import requests
from bs4 import BeautifulSoup
# 타겟 웹페이지의 URL
url = 'https://example.com'
# 해당 URL에서 HTML 가져오기
response = requests.get(url)
# BeautifulSoup을 사용하여 HTML 파싱
soup = BeautifulSoup(response.text,'html.parser')
# 'h1' 태그를 추출
target_tag = soup.select('h1')
# ‘h1’ 태그의 내용을 추출
target_content = target_tag.text if target_tag else '태그를 찾을 수 없음.' # 결과 출력
print(target_content)

AttributeError: ResultSet object has no attribute 'text'. You're probably treating a list of elements like a single element. Did you call find_all() when you meant to call find()?

In [None]:
import pandas as pd

df = pd.DataFrame({'이름': ['철수', '영희', '민수'], '국어': [90, 80, 85], '영어': [85, 95, 70], '수학': [75, 80, 90]})
print(df)

df['총점']= df[['국어','영어', '수학']].apply(sum, axis="columns")
print(df)

df.loc['평균'] = df[['국어', '영어', '수학']].apply(lambda x: x.mean())

print(df)