In [2]:
import numpy as np
import pandas as pd
pd.options.display.max_rows = 20
pd.options.display.max_colwidth = 80
pd.options.display.max_columns = 20
np.random.seed(12345)
import matplotlib.pyplot as plt
plt.rc("figure", figsize=(10, 6))
np.set_printoptions(precision=4, suppress=True)

# 8장 데이터 준비하기 : 조인, 병합, 변형 <중간고사>
## 8.1. pandas.merge() 병합
  * 특정 열을 기준으로 두 데이터프레임을 병합하며, 이때 기준이 되는 열을 지정하여 조인을 수행
  * 종류에는 내부 조인(inner join), 외부 조인(outer join), 왼쪽 조인(left join), 오른쪽 조인(right join) 등 

## 1. One-to-One merge
* 동작 원리:
  * 두 개의 데이터프레임을 병합할 때 기준이 되는 열을 선택-  이 열은 두 데이터프레임 모두에 존재해야 함
  * 데이터프레임을 병합할 때, 지정된 열을 기준으로 한 쌍의 행을 찾아서 이를 병합.
     - 예를 들어, 첫 번째 데이터프레임의 특정 행에서 지정된 열의 값이 "A"이고, 두 번째 데이터프레임에서도 이와 동일한 열에 대해 값 "A"를 가지는 행이 존재한다면, 이 두 행을 하나로 합친다.
  * 결과적으로, 병합된 데이터프레임에서 각 행은 하나의 행과 하나의 행이 매칭된 결과이므로, 이러한 방식을 "one-to-one" merge라고 함.

In [3]:
#  데이터프레임 생성
import pandas as pd
data1 = {"col1":["a","b","c"], "col2":[1,2,3]}
data2 = {"col1":["a","b","d"], "col3":[10,20,30]}

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

print(df1, "\n\n", df2)

  col1  col2
0    a     1
1    b     2
2    c     3 

   col1  col3
0    a    10
1    b    20
2    d    30


### 1) 매개변수 : on
* 합칠 때 기준이 되는 열을 지정
* 이 열은 두 데이터프레임에 모두 존재
* 공통된 열이 1개인 경우 on 생략 가능

In [4]:
# ex
pd.merge(df1, df2, on = "col1")  # ex2 pd.merge(df1, df2)

Unnamed: 0,col1,col2,col3
0,a,1,10
1,b,2,20


### 2) 매개변수 : how = "inner"
* 기본값은 inner인 경우 how 생략가능
* how='inner' (기본값): 양쪽 데이터프레임에 모두 존재하는 행에 대해서만 병합. 이 경우, 교집합에 해당하는 행만 남게됨.
* 내부 조인은 두 데이터프레임에서 공통된 값이 존재하는 행만을 남기는 조인 방식

In [5]:
#ex
pd.merge(df1, df2, how="inner") # pd.merge(df1, df2,  on = "col1", how = "inner")

Unnamed: 0,col1,col2,col3
0,a,1,10
1,b,2,20


### 3) 매개변수 : how = "left"
* 두 데이터프레임에 공통된 열이 존재해야 한다.
* 동작원리:
  * 왼쪽 데이터프레임을 기준으로 한다. 즉, 왼쪽 데이터프레임의 모든 행을 유지한다.
  * 왼쪽 데이터프레임의 각 행에 대해 오른쪽 데이터프레임에서 동일한 값을 가지는 행을 찾는다. 이를 위해 두 데이터프레임에서 지정된 열을 비교한다.
  * 만약 오른쪽 데이터프레임에서 해당 값을 가진 행이 없다면, 누락된 값 (NaN)으로 대체한다.

In [6]:
# ex
print(df1, "\n\n", df2)
pd.merge(df1, df2, how = "left") #pd.merge(df1, df2, on = "col1", how = "left")

  col1  col2
0    a     1
1    b     2
2    c     3 

   col1  col3
0    a    10
1    b    20
2    d    30


Unnamed: 0,col1,col2,col3
0,a,1,10.0
1,b,2,20.0
2,c,3,


## 4) 매개변수 : how = "right"
* 두 데이터프레임에 공통된 열이 존재해야 한다.
* 동작원리
  * 오른쪽 데이터프레임을 기준으로 모든 행을 유지한다..
  * 오른쪽 데이터프레임의 각 행에 대해 왼쪽 데이터프레임에서 동일한 값을 가지는 행을 찾는다. 이를 위해 두 데이터프레임에서 지정된 열을 비교한다.
  * 만약 왼쪽 데이터프레임에서 해당 값을 가진 행이 없다면, 누락된 값 (NaN)으로 대체

In [7]:
# ex
print(df1, "\n\n", df2)
pd.merge(df1, df2, how="right") #pd.merge(df1, df2, on = "col1", how="right")

  col1  col2
0    a     1
1    b     2
2    c     3 

   col1  col3
0    a    10
1    b    20
2    d    30


Unnamed: 0,col1,col2,col3
0,a,1.0,10
1,b,2.0,20
2,d,,30


### 5) 매개변수 : how = "outer"
* 동작원리
  * 왼쪽 데이터프레임과 오른쪽 데이터프레임의 모든 행을 포함
  * 두 데이터프레임의 공통된 값을 기준으로 행을 병합. 만약 두 데이터프레임에 공통된 값이 없다면, 누락된 값 (NaN)으로 대체

In [8]:
#ex
print(df1,"\n\n", df2)
pd.merge(df1, df2, how="outer") # pd.merge(df1, df2, on = "col1", how="outer")

  col1  col2
0    a     1
1    b     2
2    c     3 

   col1  col3
0    a    10
1    b    20
2    d    30


Unnamed: 0,col1,col2,col3
0,a,1.0,10.0
1,b,2.0,20.0
2,c,3.0,
3,d,,30.0


### 6) 매개변수 : left_on과 right_on
* 기본적으로, merge() 함수는 동일한 이름의 열을 기준으로 조인함. 하지만 경우에 따라 왼쪽 데이터프레임과 오른쪽 데이터프레임에 동일한 이름의 열이 없는 경우에는 left_on과 right_on을 사용하여 다른 열을 기준으로 조인할 수 있다.
* 동작 원리
  * left_on: 왼쪽 데이터프레임에서 조인할 열을 지정. 이 열은 왼쪽 데이터프레임에 존재해야 함
  * right_on: 오른쪽 데이터프레임에서 조인할 열을 지. 이 열은 오른쪽 데이터프레임에 존재해야 함
  * left_on과 right_on에 지정된 열의 값이 일치하는 행을 찾아서 조인함.

In [26]:
# ex
import pandas as pd

# 첫 번째 데이터프레임 생성
data1 = {'key': [1, 2, 3],
         'value': ['A', 'B', 'C']}
df1 = pd.DataFrame(data1)

# 두 번째 데이터프레임 생성
data2 = {'id': [1, 2, 4],
         'category': ['X', 'Y', 'Z']}
df2 = pd.DataFrame(data2)

# df1과 df2를 'key'와 'id' 열을 기준으로 조인하여 merged_df 생성
merged_df = pd.merge(df1, df2, left_on='key', right_on='id', how="inner") #merged_df = pd.merge(df1, df2, left_on='key', right_on='id')

# 결과 출력
print(df1,"\n\n", df2)
print(merged_df)


   key value
0    1     A
1    2     B
2    3     C 

    id category
0   1        X
1   2        Y
2   4        Z
   key value  id category
0    1     A   1        X
1    2     B   2        Y


### 7) 매개변수 : left_index과 right_index
* 인덱스를 기준으로 조인할 때는 기본적으로 인덱스 값이 일치하는 행끼리 조인을 수행.
* 동일한 이름의 열이 존재할 경우에는 첫 번째 데이터프레임의 열 이름에는 _x 접미사, 두 번째 데이터프레임의 열 이름에는 _y 접미사가 붙는다
* 동작 원리
  * left_index: 왼쪽 데이터프레임의 인덱스를 기준으로 조인함. 기본값은 False이며, True로 설정하면 왼쪽 데이터프레임의 인덱스를 기준으로 조인.
  * right_index: 오른쪽 데이터프레임의 인덱스를 기준으로 조인. 기본값은 False이며, True로 설정하면 오른쪽 데이터프레임의 인덱스를 기준으로 조인.
  * 만약 left_index와 right_index 둘 다 True로 설정되어 있다면, 각각의 데이터프레임의 인덱스를 기준으로 조인

In [42]:
data1 = {"col1":["a","b","c"], "col2":[1,2,3]}
data2 = {"col1":["a","b",'c'], "col3":[10,20,30]}
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2
                   )
print(df1, "\n\n", df2)

  col1  col2
0    a     1
1    b     2
2    c     3 

   col1  col3
0    a    10
1    b    20
2    c    30


In [43]:
# ex1
pd.merge(df1, df2, right_index = True, left_index = True)

Unnamed: 0,col1_x,col2,col1_y,col3
0,a,1,a,10
1,b,2,b,20
2,c,3,c,30


## 2. many-to-One merge
    * 한쪽 데이터프레임의 특정 열에 중복된 여러 행의 값이 있고, 다른쪽 데이터프레임의 해당 값과 일치하는 경우을 표현
    * 동작 원리
        * 기준이 되는 데이터프레임을 선택. 일반적으로는 행의 개수가 많은 쪽을 기준으로 선택
        * 기준이 되는 데이터프레임의 중복된 값을 가진 열을 기준으로 다른 데이터프레임과 조인
        * 기준이 되는 데이터프레임의 중복된 값에 해당하는 행들이 다른 데이터프레임의 해당 값을 가진 행과 조인    

### [문제] 고객 정보와 주문 정보를 포함하는 두 개의 데이터프레임이 있다고 가정. 
* 여러 주문이 하나의 고객에 의해 생성된다면, 이는 many-to-one 조인에 해당. 
* 이 경우, 고객 정보 데이터프레임의 고객 ID 열과 주문 정보 데이터프레임의 고객 ID 열을 기준으로 조인하여, 
* 각 주문이 해당하는 고객의 정보와 함께 표시

In [12]:
import pandas as pd

# 첫 번째 데이터프레임 생성 (many)
data1 = {'customer_id': [1, 2, 3, 4, 4],
         'customer_name': ['경수', '철수', '영수', '강수', '강수']}
df1 = pd.DataFrame(data1)

# 두 번째 데이터프레임 생성 (one)
data2 = {'customer_id': [1, 2, 3, 4],
         'order_id': [101, 102, 103, 104]}
df2 = pd.DataFrame(data2)

# many-to-one 조인 수행
## df1은 많은(many) 쪽이고, df2는 하나(one) 쪽
## on='customer_id'는 조인할 열을 지정하고, 
## how='left'는 왼쪽 데이터프레임(df2)을 기준으로 조인
##최종적으로는 많은(many) 쪽인 df1의 정보가 유지되면서 하나(one) 쪽인 df2의 정보가 추가

merged_df = pd.merge(df1, df2, on='customer_id', how='left')

# 결과 출력
print(merged_df)

   customer_id customer_name  order_id
0            1            경수       101
1            2            철수       102
2            3            영수       103
3            4            강수       104
4            4            강수       104


### [예제]     

In [16]:
# many-to-one : 병합의 기준 열 : key
df1 = pd.DataFrame({"key": ["b", "b", "a", "c", "a", "a", "b"],
                    "data1": pd.Series(range(7), dtype="Int64")})

df2 = pd.DataFrame({"key": ["a", "b", "d"],
                    "data2": pd.Series(range(3), dtype="Int64")})

print(df1, "\n\n", df2)

#pd.merge(df1, df2, on="key", how="inner")
pd.merge(df1, df2, on="key", how="outer")


  key  data1
0   b      0
1   b      1
2   a      2
3   c      3
4   a      4
5   a      5
6   b      6 

   key  data2
0   a      0
1   b      1
2   d      2


Unnamed: 0,key,data1,data2
0,a,2.0,0.0
1,a,4.0,0.0
2,a,5.0,0.0
3,b,0.0,1.0
4,b,1.0,1.0
5,b,6.0,1.0
6,c,3.0,
7,d,,2.0


In [18]:
#ex : 두 데이터프레임에 공통된 열 이름이 없는 경우
df3 = pd.DataFrame({"lkey": ["b", "b", "a", "c", "a", "a", "b"],
                    "data1": pd.Series(range(7), dtype="Int64")})
df4 = pd.DataFrame({"rkey": ["a", "b", "d"],
                    "data2": pd.Series(range(3), dtype="Int64")})
print(df3, "\n\n", df4)

  lkey  data1
0    b      0
1    b      1
2    a      2
3    c      3
4    a      4
5    a      5
6    b      6 

   rkey  data2
0    a      0
1    b      1
2    d      2


In [20]:
# ex1
print(df3,'\n\n' , df4)
pd.merge(df3, df4, left_on="lkey", right_on="rkey") # pd.merge(df3, df4, left_on="lkey", right_on="rkey", how="inner")

  lkey  data1
0    b      0
1    b      1
2    a      2
3    c      3
4    a      4
5    a      5
6    b      6 

   rkey  data2
0    a      0
1    b      1
2    d      2


Unnamed: 0,lkey,data1,rkey,data2
0,b,0,b,1
1,b,1,b,1
2,a,2,a,0
3,a,4,a,0
4,a,5,a,0
5,b,6,b,1


In [29]:
# ex2
print(df3,'\n\n' , df4)

pd.merge(df3, df4, left_on="lkey", right_on="rkey", how = "outer")

  lkey  data1
0    b      0
1    b      1
2    a      2
3    c      3
4    a      4
5    a      5
6    b      6 

   rkey  data2
0    a      0
1    b      1
2    d      2


Unnamed: 0,lkey,data1,rkey,data2
0,a,2.0,a,0.0
1,a,4.0,a,0.0
2,a,5.0,a,0.0
3,b,0.0,b,1.0
4,b,1.0,b,1.0
5,b,6.0,b,1.0
6,c,3.0,,
7,,,d,2.0


In [18]:
# ex3
print(df3,"\n\n", df4)

pd.merge(df3, df4, left_on="lkey", right_on="rkey", how = "left")

  lkey  data1
0    b      0
1    b      1
2    a      2
3    c      3
4    a      4
5    a      5
6    b      6 

   rkey  data2
0    a      0
1    b      1
2    d      2


Unnamed: 0,lkey,data1,rkey,data2
0,b,0,b,1.0
1,b,1,b,1.0
2,a,2,a,0.0
3,c,3,,
4,a,4,a,0.0
5,a,5,a,0.0
6,b,6,b,1.0


In [22]:
# ex4
print(df3,"\n\n", df4)

pd.merge(df3, df4, left_on="lkey", right_on="rkey", how = "right")

  lkey  data1
0    b      0
1    b      1
2    a      2
3    c      3
4    a      4
5    a      5
6    b      6 

   rkey  data2
0    a      0
1    b      1
2    d      2


Unnamed: 0,lkey,data1,rkey,data2
0,a,2.0,a,0
1,a,4.0,a,0
2,a,5.0,a,0
3,b,0.0,b,1
4,b,1.0,b,1
5,b,6.0,b,1
6,,,d,2


In [33]:
# ex4 : 색인 병합하기
# 인덱스를 기준으로 조인하므로 on 매개변수를 사용하지 않음
# 결과적으로, 두 데이터프레임의 인덱스가 일치하는 행끼리 조인. 만약 일치하는 인덱스가 없는 경우 해당 행은 제외.
print(df3,"\n\n", df4)
pd.merge(df3, df4, left_index = True, right_index = True) # pd.merge(df3, df4, left_index = True, right_index = True, how = "inner") 

  lkey  data1
0    b      0
1    b      1
2    a      2
3    c      3
4    a      4
5    a      5
6    b      6 

   rkey  data2
0    a      0
1    b      1
2    d      2


Unnamed: 0,lkey,data1,rkey,data2
0,b,0,a,0
1,b,1,b,1
2,a,2,d,2


## 3. many-to-many merge
    * many-to-many merge는 두 데이터프레임 사이의 많은(many) 대 많은(many) 관계를 가정할 때 사용
    * 이는 각 데이터프레임의 조인 키에 중복된 값이 있는 경우를 의미. 
    * 동작 원리
        * 각 데이터프레임에서 조인할 열에 중복된 값이 있는 경우, 중복된 값들을 복제한다.
        * 이 중복된 값들을 기반으로 조인을 수행. 각 조합은 가능한 모든 조합에 대해 생성된다.
    * 두 데이터프레임에 공통된 열 이름이 있는 경우 곱집합을 생성

### [문제] 학생과 각 학생이 수강한 과목에 대한 정보를 포함하는 두 개의 데이터프레임이 있다고 가정
* 한 명의 학생이 여러 개의 과목을 수강하고, 여러 명의 학생이 동일한 과목을 수강할 수 있다
* 이 경우, 학생과 과목 사이에는 many-to-many 관계가 있다.
* 결과적으로, 모든 가능한 학생-과목 조합에 대한 새로운 행이 생성.

In [34]:
import pandas as pd

# 첫 번째 데이터프레임 생성: 학생과 수강한 과목
data1 = {'student_id': [1, 1, 2, 2, 3],
         'subject': ['Python', 'AI', 'Python', 'BigData', 'AI']}
df1 = pd.DataFrame(data1)

# 두 번째 데이터프레임 생성: 과목과 해당 교수
data2 = {'subject': ['Python', 'AI', 'BigData', 'ML'],
         'professor': ['Dr. Choi', 'Dr. Park', 'Dr. Lee', 'Dr. Kim']}
df2 = pd.DataFrame(data2)

# many-to-many merge 수행
merged_df = pd.merge(df1, df2, on='subject')

# 결과 출력
print(df1, "\n\n",df2)
print()
merged_df

   student_id  subject
0           1   Python
1           1       AI
2           2   Python
3           2  BigData
4           3       AI 

    subject professor
0   Python  Dr. Choi
1       AI  Dr. Park
2  BigData   Dr. Lee
3       ML   Dr. Kim



Unnamed: 0,student_id,subject,professor
0,1,Python,Dr. Choi
1,1,AI,Dr. Park
2,2,Python,Dr. Choi
3,2,BigData,Dr. Lee
4,3,AI,Dr. Park


### [예제]

In [35]:
# ex1
df1 = pd.DataFrame({"key": ["b", "b", "a", "c", "a", "b"],
                    "data1": pd.Series(range(6), dtype="Int64")})
df2 = pd.DataFrame({"key": ["a", "b", "a", "b", "d"],
                    "data2": pd.Series(range(5), dtype="Int64")})
print(df1,"\n\n", df2)

pd.merge(df1, df2, on="key", how="left")

#왼쪽 데이터프레임인 df1의 모든 행이 유지되고, df2의 해당 값을 가진 행이 있는 경우에는 해당 값을 추가로 포함.
#만약 df2에서 일치하는 값이 여러 개인 경우에는 조합된 결과가 포함. 
#만약 df2에서 일치하는 값이 없는 경우에는 누락된 값 (NaN)으로 채워짐

  key  data1
0   b      0
1   b      1
2   a      2
3   c      3
4   a      4
5   b      5 

   key  data2
0   a      0
1   b      1
2   a      2
3   b      3
4   d      4


Unnamed: 0,key,data1,data2
0,b,0,1.0
1,b,0,3.0
2,b,1,1.0
3,b,1,3.0
4,a,2,0.0
5,a,2,2.0
6,c,3,
7,a,4,0.0
8,a,4,2.0
9,b,5,1.0


In [36]:
#ex 2
print(df1,"\n\n", df2)

pd.merge(df1, df2, on="key", how="inner")

  key  data1
0   b      0
1   b      1
2   a      2
3   c      3
4   a      4
5   b      5 

   key  data2
0   a      0
1   b      1
2   a      2
3   b      3
4   d      4


Unnamed: 0,key,data1,data2
0,b,0,1
1,b,0,3
2,b,1,1
3,b,1,3
4,a,2,0
5,a,2,2
6,a,4,0
7,a,4,2
8,b,5,1
9,b,5,3


In [24]:
#ex 3
print(df1,"\n\n", df2)

pd.merge(df1, df2, on="key", how="outer")

  key  data1
0   b      0
1   b      1
2   a      2
3   c      3
4   a      4
5   b      5 

   key  data2
0   a      0
1   b      1
2   a      2
3   b      3
4   d      4


Unnamed: 0,key,data1,data2
0,a,2.0,0.0
1,a,2.0,2.0
2,a,4.0,0.0
3,a,4.0,2.0
4,b,0.0,1.0
5,b,0.0,3.0
6,b,1.0,1.0
7,b,1.0,3.0
8,b,5.0,1.0
9,b,5.0,3.0


In [25]:
#ex 4
print(df1,"\n\n", df2)

pd.merge(df1, df2, on="key", how="right")

  key  data1
0   b      0
1   b      1
2   a      2
3   c      3
4   a      4
5   b      5 

   key  data2
0   a      0
1   b      1
2   a      2
3   b      3
4   d      4


Unnamed: 0,key,data1,data2
0,a,2.0,0
1,a,4.0,0
2,b,0.0,1
3,b,1.0,1
4,b,5.0,1
5,a,2.0,2
6,a,4.0,2
7,b,0.0,3
8,b,1.0,3
9,b,5.0,3


# 8.2. concat 함수를 사용한 두 데이터프레임 이어 붙이기
* 여러 개의 객체를 리스트에 담아서 pandas.concat 함수에 전달
* 수직 결합: 두 개 이상의 데이터프레임을 동일한 열을 기준으로 아래로 연결하는 것을 의미
    * 이는 axis=0을 사용하여 수행
* 수평 결합: 두 개 이상의 데이터프레임을 동일한 행을 기준으로 옆으로 연결하는 것을 의미합니다.
  * 이는 axis=1을 사용하여 수행
* pandas.concat()은 수직 및 수평 결합을 수행하는 반면, pandas.merge()는 열을 기준으로 병합을 수행

### [문제]

In [48]:
# ex1
df1 = pd.DataFrame({"A":["a0","a1","a2"],
                    "B": ["b0","b1","b2"],
                    "C":["c0", "c1","c2"]})

df2 = pd.DataFrame({"A":["a4","a5","a6"],
                    "B": ["b4","b5","b6"],
                    "C":["c4", "c5","c6"]})

print(df1,"\n\n", df2)

    A   B   C
0  a0  b0  c0
1  a1  b1  c1
2  a2  b2  c2 

     A   B   C
0  a4  b4  c4
1  a5  b5  c5
2  a6  b6  c6


## 1) axis 매개변수- 수직 방향 이어붙이기
* pandas.concat(axis=0)

In [49]:
#ex1
dataframe_list = [df1, df2]
pd.concat(dataframe_list, axis="index") #pd.concat(dataframe_list)
# 인덱스 재설정
df = pd.concat(dataframe_list, ignore_index=True)
df

Unnamed: 0,A,B,C
0,a0,b0,c0
1,a1,b1,c1
2,a2,b2,c2
3,a4,b4,c4
4,a5,b5,c5
5,a6,b6,c6


In [50]:
# ex 2:  테이터프레임 df1에  시리즈을 수직(행)으로 이어붙이기
## 1. 시리즈 생성
s1 = pd.Series(['n1', 'n2', 'n3'])
print(s1)
## 2. 데이터프레임에 시리즈 추가
pd.concat([df, s1], axis=0)

0    n1
1    n2
2    n3
dtype: object


Unnamed: 0,A,B,C,0
0,a0,b0,c0,
1,a1,b1,c1,
2,a2,b2,c2,
3,a4,b4,c4,
4,a5,b5,c5,
5,a6,b6,c6,
0,,,,n1
1,,,,n2
2,,,,n3


In [51]:
## 3. 시리즈을 데이터프레임으로 변환
row_s1 = pd.DataFrame(data=[['n1', 'n2', 'n3']], columns=['A', 'B', 'C'])

print(df,'\n\n',row_s1)
pd.concat([df, row_s1])

## 4. 기존 인덱스는 무시하고 새로운 인덱스 설정하기
pd.concat([df, row_s1], ignore_index = True)


    A   B   C
0  a0  b0  c0
1  a1  b1  c1
2  a2  b2  c2
3  a4  b4  c4
4  a5  b5  c5
5  a6  b6  c6 

     A   B   C
0  n1  n2  n3


Unnamed: 0,A,B,C
0,a0,b0,c0
1,a1,b1,c1
2,a2,b2,c2
3,a4,b4,c4
4,a5,b5,c5
5,a6,b6,c6
6,n1,n2,n3


## 2)  axis 매개변수- 수평(열) 방향 이어붙이기
* pandas.concat( axis = 1)
* axis의 기본값은 0( 또는 "index") 이므로 매개변수를 따로 지정하지 않으면 데이터를 기본값인 수직방향으로 덧붙여 연결함
* axis를 1 또는 "columns"로 설정하면 수평(열) 방향으로 연결

In [64]:
#ex - 데이터프레임을 열 방향으로 연결하고 인덱스가 같은 행끼리 연결 - 인덱스가 다른 데이터는 결측값으로 표시
print(df1, "\n\n", df2) # 인덱스가 같은 데이터 열 방향 연결하기
pd.concat([df1, df2], axis = "columns")

    A   B   C
0  a0  b0  c0
1  a1  b1  c1
2  a2  b2  c2 

     E   F   G
0  a4  b4  c4
1  a5  b5  c5
2  a6  b6  c6


Unnamed: 0,A,B,C,E,F,G
0,a0,b0,c0,a4,b4,c4
1,a1,b1,c1,a5,b5,c5
2,a2,b2,c2,a6,b6,c6


## 3) join 매개변수 -  수직(행)방향으로 연결하기
* join = "outer"
* concat의 매개변수 join의 기본값은 outer
* 연결할 데이터프레임 객체 사이의 모든열을 유지

In [53]:
# ex : 열 이름이 각기 다른 데이터프레임 생성
## 컬럼 이름 변경하기
df2.columns = ['E','F', 'G']
print(df1, "\n\n", df2)

    A   B   C
0  a0  b0  c0
1  a1  b1  c1
2  a2  b2  c2 

     E   F   G
0  a4  b4  c4
1  a5  b5  c5
2  a6  b6  c6


In [58]:
df2_concat = pd.concat([df1, df2], join = "outer")

df2_concat

Unnamed: 0,A,B,C,E,F,G
0,a0,b0,c0,,,
1,a1,b1,c1,,,
2,a2,b2,c2,,,
0,,,,a4,b4,c4
1,,,,a5,b5,c5
2,,,,a6,b6,c6


## 4) join 매개변수 -  수직(행)방향으로 연결하기
* join = "inner"
* 연결할 데이터프레임 객체 사이 공통인 열만 유지 

In [67]:
#ex
df1 = pd.DataFrame({"A":["a0","a1","a2"],
                    "B": ["b0","b1","b2"],
                    "C":["c0", "c1","c2"]})

df2 = pd.DataFrame({"A":["a4","a5","a6"],
                    "B": ["b4","b5","b6"],
                    "C":["c4", "c5","c6"]})
pd.concat([df1, df2], join = "inner", ignore_index=True) # pd.concat([df1, df3], join = "inner", axis="index", ignore_index=True) 


Unnamed: 0,A,B,C
0,a0,b0,c0
1,a1,b1,c1
2,a2,b2,c2
3,a4,b4,c4
4,a5,b5,c5
5,a6,b6,c6


### [문제] 인덱스가 다른 데이터프레임의 열 방향 연결하기

In [82]:
#ex - join = "inner" - 인덱스가 공통인 데이터만 연결
pd.concat([df1, df2], axis = "columns", join = "inner")


Unnamed: 0,A,B,C,A.1,B.1,C.1
0,a0,b0,c0,a4,b4,c4
1,a1,b1,c1,a5,b5,c5
2,a2,b2,c2,a6,b6,c6


### [문제]
* pandas.concat()을 사용하여 수직 결합 수행
* pandas.concat()을 사용하여 수평 결합 수행
* pandas.merge()를 사용하여 열을 기준으로 내부 병합 수행
* pandas.merge()를 사용하여 열을 기준으로 외부 병합 수행

In [84]:
import pandas as pd

# 데이터프레임 생성
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                    'B': ['B0', 'B1', 'B2']})

df2 = pd.DataFrame({'A': ['A3', 'A4', 'A5'],
                    'B': ['B3', 'B4', 'B5']})

print(df1,"\n\n",df2,"\n")
# pandas.concat()을 사용하여 수직 결합
result_concat_vertical = pd.concat([df1, df2], axis=0)
print("수직 결합:")
print(result_concat_vertical)
print()

# pandas.concat()을 사용하여 수평 결합 수행
result_concat_horizontal = pd.concat([df1, df2], axis=1)
print("수평결합:")
print(result_concat_horizontal)
print()

# pandas.merge()를 사용하여 열을 기준으로 병합(inner join) 수행
result_merge_inner = pd.merge(df1,df2, on='A', how='inner')
print("내부 조인:")
print(result_merge_inner)
print()

# pandas.merge()를 사용하여 열을 기준으로 병합(outer join) 수행
result_merge_outer = pd.merge(df1,df2, on='A', how='outer')
print("외부 조인:")
print(result_merge_outer)
print()


    A   B
0  A0  B0
1  A1  B1
2  A2  B2 

     A   B
0  A3  B3
1  A4  B4
2  A5  B5 

수직 결합:
    A   B
0  A0  B0
1  A1  B1
2  A2  B2
0  A3  B3
1  A4  B4
2  A5  B5

수평결합:
    A   B   A   B
0  A0  B0  A3  B3
1  A1  B1  A4  B4
2  A2  B2  A5  B5

내부 조인:
Empty DataFrame
Columns: [A, B_x, B_y]
Index: []

외부 조인:
    A  B_x  B_y
0  A0   B0  NaN
1  A1   B1  NaN
2  A2   B2  NaN
3  A3  NaN   B3
4  A4  NaN   B4
5  A5  NaN   B5



## [예제] - 시리즈 연결(p.360)

In [69]:
# 데이터 셋
s1 = pd.Series([0, 1], index=["a", "b"], dtype="Int64", name="s1")
s2 = pd.Series([2, 3, 4], index=["c", "d", "e"], dtype="Int64", name = "s2")
s3 = pd.Series([5, 6], index=["f", "g"], dtype="Int64", name = "s3")

print(s1, "\n\n", s2, "\n\n", s3)

a    0
b    1
Name: s1, dtype: Int64 

 c    2
d    3
e    4
Name: s2, dtype: Int64 

 f    5
g    6
Name: s3, dtype: Int64


In [75]:
# ex1 수직 방향으로 이어 붙이기  ----> 결과는 Series 반환
result = pd.concat([s1, s2, s3], axis="index") #result = pd.concat([s1, s2, s3]) 
result



a    0
b    1
c    2
d    3
e    4
f    5
g    6
dtype: Int64

In [71]:
# ex2 수평 방향으로 이어 붙이기  ----> 결과는 DataFrame 반환
s4= pd.concat([s1, s2, s3], axis="columns") #일치하지 않은 인덱스의 값은 결측 처리 
s4

Unnamed: 0,s1,s2,s3
a,0.0,,
b,1.0,,
c,,2.0,
d,,3.0,
e,,4.0,
f,,,5.0
g,,,6.0


In [89]:
# ex3  열 방향으로 이어 붙이기 ---> 결과는 DataFrame 반환
result = pd.concat([s1, s2, s3], axis="columns", join="outer") #일치하지 않은 인덱스의 값은 결측 처리 
result # 겹치는 축이 없으므로외부 조인으로 합집합을 얻음


Unnamed: 0,s1,s2,s3
a,0.0,,
b,1.0,,
c,,2.0,
d,,3.0,
e,,4.0,
f,,,5.0
g,,,6.0


In [76]:
# ex4
print(s1, "\n\n", s4)
result = pd.concat([s1,s4], axis="columns", join="inner") # 겹치는 축이 있으므로 내부 조인으로 교집합을 얻음
result

a    0
b    1
Name: s1, dtype: Int64 

      s1    s2    s3
a     0  <NA>  <NA>
b     1  <NA>  <NA>
c  <NA>     2  <NA>
d  <NA>     3  <NA>
e  <NA>     4  <NA>
f  <NA>  <NA>     5
g  <NA>  <NA>     6


Unnamed: 0,s1,s1.1,s2,s3
a,0,0,,
b,1,1,,


# 5장 -  apply() 메서드로 함수 적용하기(p.226)
* apply()는 사용자 정의 함수 또는 파이썬 내장함수를 데이터프레임의 각 행이나 열 전체에 걸쳐 적용할 수 있게 해주는 메서드
* apply() 메서드를 사용하지 않아도 for문을 이용하면 각 데이터에 함수를 적용할 수 있다.
  * 하지만 대용량 데이터를 처리할 때는 for문보다 빠르다.

### 1) Series.apply(함수명) 
    - 시리즈에 함수를 적용하기
    - apply() 메서드에 함수를 인수로 전달할 때는 함수 이름 옆에 소괄호를 덧붙이지 않는다.

In [93]:
# ex: df의  a 열의 모든 값을 제곱하기
import pandas as pd
# 1. dataset
df = pd.DataFrame({"a":[10,20,30], "b":[20,30,40]})
# 2.함수
def square(num):
    return num**2
# 3.시리즈의 모든 요소에 지정한 함수를 적용
s = df["a"].apply(square) # Series 리턴
print(df,"\n")
print(s)

    a   b
0  10  20
1  20  30
2  30  40 

0    100
1    400
2    900
Name: a, dtype: int64


### 2) dataFrame.apply(함수명, axis=) 
    - 데이터프레임은 일반적으로 2개 이상의 차원으로 구성
    - 데이터프레임에 함수를 적용할 때는 함수를 적용할 축(열 또는 행)을 지정해야 한다.

In [96]:
# ex1:  열을 대상으로 지정 함수 적용 : apply( axis=0), apply( axis ="index")
## 파이썬 내장함수 print() 적용하기
df.apply(print, axis="index")
df.apply(square, axis="index")# 열 단위로 데이터프레임에 print() 적용

0    10
1    20
2    30
Name: a, dtype: int64
0    20
1    30
2    40
Name: b, dtype: int64


Unnamed: 0,a,b
0,100,400
1,400,900
2,900,1600


In [97]:
# ex2: 행 단위로 함수 적용하기 - apply(axix="columns")
df.apply(print, axis="columns")

a    10
b    20
Name: 0, dtype: int64
a    20
b    30
Name: 1, dtype: int64
a    30
b    40
Name: 2, dtype: int64


0    None
1    None
2    None
dtype: object

### [예제] p.226

In [101]:
# ex1- 사용자 정의 함수을 적용하기
import numpy as np
# 1.
frame = pd.DataFrame(np.random.standard_normal((4, 3)),
                     columns=list("bde"),
                     index=["Utah", "Ohio", "Texas", "Oregon"])
frame

Unnamed: 0,b,d,e
Utah,-0.577087,0.124121,0.302614
Ohio,0.523772,0.00094,1.34381
Texas,-0.713544,-0.831154,-2.370232
Oregon,-1.860761,-0.860757,0.560145


In [102]:
# 2.
def f1(x):
    return x.max() # series.max()

# 3. 각 열에 대해 한번씩만 적용하여 결과값은 게산을 적용한 열을 색인으로 시리즈로 반환
frame.apply(f1, axis="index") # axis= 0

b    0.523772
d    0.124121
e    1.343810
dtype: float64

In [103]:
#  각 행에 대해서 한번씩만 수행하고, 결과값은 게산을 적용한 행을 색인으로 시리즈 반환
frame.apply(f1, axis = "columns") 

Utah      0.302614
Ohio      1.343810
Texas    -0.713544
Oregon    0.560145
dtype: float64

In [104]:
# ex2 - 사용자정의함수
print(frame)
def f2(x):
    return pd.Series([x.min(), x.max()], index=["min", "max"])
frame.apply(f2, axis = "index")

               b         d         e
Utah   -0.577087  0.124121  0.302614
Ohio    0.523772  0.000940  1.343810
Texas  -0.713544 -0.831154 -2.370232
Oregon -1.860761 -0.860757  0.560145


Unnamed: 0,b,d,e
min,-1.860761,-0.860757,-2.370232
max,0.523772,0.124121,1.34381


### 3) apply 함수와 lambda 함수 
    -  apply() 메서드로 전달할 함수가 별도의 함수로 정의할 필요가 없을 만큼 간단한 경우 익명함수로 사용하기

In [107]:
# ex1
## 1. DaaFrmae
print(df)
print()
## 2. function
def square(num):
    return num**2

## 3. 데이터프레임의 a열의 값을 제곱하기
df['a_square']= df['a'].apply(square)

## 4. lambda함수을 apply() 메서드의 인수로 사용하기
df['b_square'] = df['a'].apply(lambda num : num**2)
df

    a   b  a_square
0  10  20       100
1  20  30       400
2  30  40       900



Unnamed: 0,a,b,a_square,b_square
0,10,20,100,100
1,20,30,400,400
2,30,40,900,900


In [108]:
# ex2
## 1. DtaFrmae
print(df)
print()

## 2 데이터프레임의 행 단위로 a, b열의 총합을 구하기- 파이썬 내장함수 사용
df['sum']= df[['a','b']].apply(sum, axis="columns")
print(df)
print()

## 2 데이터프레임의 행 단위로 a, b열의 평균을 구하기
df['mean'] = df[['a', 'b']].apply(lambda x: x.mean(), axis="columns")
print(df)
print()

    a   b  a_square  b_square
0  10  20       100       100
1  20  30       400       400
2  30  40       900       900

    a   b  a_square  b_square  sum
0  10  20       100       100   30
1  20  30       400       400   50
2  30  40       900       900   70

    a   b  a_square  b_square  sum  mean
0  10  20       100       100   30  15.0
1  20  30       400       400   50  25.0
2  30  40       900       900   70  35.0



# 문제 1 다음 중 csv 파일에 대해 올바르게 설명된 것은 무엇인가? 정답: 1번
* (1) csv 파일은 콤마로 구분된 텍스트 파일이다.
* (2) csv 파일은 바이너리 파일이므로 텍스트 편집기로 열 수 없다. -> csv파일은 텍스트 파일,편집기로 열 수 있다.
* (3) 파이썬 open() 함수로 csv 파일을 열려면 mode 변수를 'rb'로 지정해야 한다. -> mode 변수를 r로 지정해야 함
* (4) csv파일은 한 줄에 여러 레코드를 지정할 수 없다. -> csv파일의 각 줄은 레코드를 나타냄

# 문제 2 다음 중 표 형식 데이터가 아닌 것은? 정답: 2번
* (1) csv
* (2) JSON
* (3) Excel
* (4) DataFrame

# 문제 3 판다스 read_csv() 함수의 인수 설명이 옳은 것은? 정답:  3번
* 1. header 인수의 기본 값은 1로 csv파일의 첫 번째 행을 열 이름으로 사용한다. -> header인수 기본값은 0
* 2. names 인수에 행 이름을 리스트로 지정할 수 있다. -> 행 이름은 없고 열 이름을 변경할 수 있따.
  3. encoding 인수에 csv 파일의 유니코드 인코딩 방식을 지정할 수 있다.
  4. dtype 인수를 사용하려면 모든 열의 데이터 타입을 지정해야한다. -> df = pd.read_csv('example.csv', dtype={'Age': int}) 모든 열의 데이터 타입을 지정할 필요 없음
  

# 문제 4 Open API를 사용하여 도서관 빅데이터 시스템에서 수집한 다양한 도서관 데이터를 가져오는 일반적인 방법에 대한 설명으로 옳지 않은 것은? 정답: 모든 문장이 옳다.
* 1. Open API의 인증키를 발급받는다.
  2. Open API의 요청 URL을 생성한다.
  3. 요청 URL에 필요한 매개변수를 추가하고 요청 메시지를 보낸다.
  4. 받은 응답 메시지를 해석하고 분석한다.

# 문제 5 다음 중 웹 기반 API에서 널리 사용하는 데이터 형식이 아닌 것은? 정답 4
 1. csv 2. JSON 3.XML 4. HTML

# 문제 6 다음 중 파이썬에서 웹 URl을 호출하는 모듈은 무엇인가? 정답 2번 ex)request.get("")
1. pandas 2. requests 3. json 4. xml

# 문제 7 판다스에서 JSON 문자열을 데이터프레임으로 변환하는 함수는? 정답 3번
1. to_json() 2. json_loads() 3.read_json() 4.json()

# 문제 8 다음 중 HTTP GET 방식에 대해 잘못 설명한 것은? 정답 1번
* 1. 웹 브라우저만이 사용할 수 있는 방식이다. -> HTTP GET 방식은 웹 브라우저뿐만 아니라 다양한 클라이언트가 사용할 수 있는 방식입니다.
  2. 웹서버에서 필요한 파라미터를 웹 URL뒤에 연결하여 전달한다.
  3. 파라미터 사이는 &로 구분하고 파라미터와 값 사이는 =로 구분한다.
  4. 파라미터와 기본 URL 사이는 ?로 구분한다.

# 문제 9 [코딩문제] 다음 딕셔너리 데이터를 사용하여 pandas의 데이터프레임을 만들고, 이 데이터프레임을 출력하는 프로그램을 작성하시오.


In [113]:
#{‘이름’: ['철수', '영희', '민수', '지영'], ‘나이’: [25, 30, 22, 28], ‘성별’: ['남자', '여자', '남자', '여자'] }
import pandas as pd

data = {'이름':['철수','영희','민수','지영'],
                 '나이':[25,30,22,28],
                 '성별':['남자','여자','남자','여자']}
df=pd.DataFrame(data)
df


Unnamed: 0,이름,나이,성별
0,철수,25,남자
1,영희,30,여자
2,민수,22,남자
3,지영,28,여자


# 문제 10 주어진 데이터프레임 df에 다음 명령을 적용했을 때 실행 결과를 적으시오.

In [78]:
#df.loc[:2, 'col1':'col2']
import pandas as pd

data = {'col1':['a','b','c'],
        'col2':[1,2,3]}
df = pd.DataFrame(data)
print(df)

df.loc[:2,'col1':'col2']




  col1  col2
0    a     1
1    b     2
2    c     3


Unnamed: 0,col1,col2
0,a,1
1,b,2
2,c,3


# 문제 11 다음 HTML 코드 <a href="https://oepnai.com">openAI</a>에서 <a> 요소 태그를 찾을 수 있는 
# BeautifulSoup 객체인 soup 명령으로 올바르지 않은 것은? 정답 2번
* 1. soup.find('a') 2. soup.find('a', attrs=['href: "http://openai.com']) 
    .3. soup('a')  4. soup.select('a')
 
     BeautifulSoup의 find 메서드에서 attrs는 딕셔너리 형태로 전달되어야 합니다. 올바른 형태는 다음과 같습니다:
     
     soup.find('a', attrs={'href': 'https://openai.com'})

# 문제 12 [코딩문제] pandas의 merge()를 이용하여 주어진 두 데이터프레임
# df1,df2를 합쳐서 새로운 데이터프레임 df3을 생성하여 출력하는 프로그램을 작성하시오


In [84]:
data1 = {'col1':['a','b','c'],
         'col2':[1,2,3]}
data2= {'col3':['a','b','f'],
        'col4':[10,20,30]}

df1 =pd.DataFrame(data1)
df2=pd.DataFrame(data2)

merge_pd=pd.merge(df1,df2,left_on='col1' ,right_on='col3', how='outer')
merge_pd

Unnamed: 0,col1,col2,col3,col4
0,a,1.0,a,10.0
1,b,2.0,b,20.0
2,c,3.0,,
3,,,f,30.0


# 문제 13 [코딩] 주어진 데이터프레임 df에는 학생들의 name과 score가 포합되어 있다.
# 데이터프레임의 조건부 색인을 이용하여 성적이 80점 이상인 학생들의 데이터프레임 df1을 
# 반환하는 프로그램을 작성하시오.


In [135]:
import pandas as pd

data = {'name':['철수','영희','민수','지영'],
        'score':[75,88,92,68]}

df1 = pd.DataFrame(data)
print(df1)

df1[df1['score']>=80]

  name  score
0   철수     75
1   영희     88
2   민수     92
3   지영     68


Unnamed: 0,name,score
1,영희,88
2,민수,92


# 14. 주어진 프로그램의 실행 결과를 적으시오.

In [139]:
import pandas as pd

data = {'name': ['철수', '영희', None, '지영'], 'score': [75, 88, None, 68]}
df = pd.DataFrame(data)
df
result = df.isna()
print(result)



    name  score
0  False  False
1  False  False
2   True   True
3  False  False


# 문제 15 주어진 데이터프레임 df의 컬럼 "score"의 평균을 개선할 수 있는 메서드가 아닌 것은 무엇일까요? 정답 2번
* 1. df.describe() 2. df.info() 3. df['score'].mean() 4. df['scoere'].apply(mean)

In [152]:
data = {'name': ['철수', '영희','지영'], 'score': [75, 88, 68]}
df = pd.DataFrame(data)
print(df)

# df.describe()
#df.info() # 데이터프레임의 기본정보를 제공
#df['score'].mean()
#df['score'].apply(mean)



  name  score
0   철수     75
1   영희     88
2   지영     68


# 문제 16 주어진 데이터프레임 df에 다음 명령을 적용했을 때 실행 결과를 적으시오.

In [91]:
import pandas as pd

data = {'col1':[1,2,3],
        'col2':[4,5,6]}
df = pd.DataFrame(data)
print(df)

df.apply(lambda row: row['col1']+row['col2'], axis='columns')
#df.apply(lambda column: column[0]+column[1]+column[2], axis='index')
     

   col1  col2
0     1     4
1     2     5
2     3     6


col1     6
col2    15
dtype: int64

# 문제 17 [코딩] pandas의 concat() 메서드를 이용하여 주어진 두 개의 데이터프레임 df1과 df2
# 를 수직으로 연결하여 새로운 데이터프레임 df3을 생성항여 추력하는 프로그램을 작성하시오

In [93]:
data1 = {'names':['철수','영희','민수'],
         'score':[75,88,92]}
data2 = {'names':['지영','다현'],
         'score':[68,95]}
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

print(df1, '\n\n', df2)

df3 = pd.concat([df1,df2],axis='index',ignore_index=True)
df4 = pd.merge(df1, df2, how='outer')

print(df3)
print(df4)
df3

  names  score
0    철수     75
1    영희     88
2    민수     92 

   names  score
0    지영     68
1    다현     95
  names  score
0    철수     75
1    영희     88
2    민수     92
3    지영     68
4    다현     95
  names  score
0    다현     95
1    민수     92
2    영희     88
3    지영     68
4    철수     75


Unnamed: 0,names,score
0,철수,75
1,영희,88
2,민수,92
3,지영,68
4,다현,95


# 문제 18 [코딩] pandas의 merge() 메서드를 이용하여 주어진 두 개의 데이터프레임 df1과
# df2를 공통 열을 기준으로 병합하여 새로운 데이터프레임 df3을 생성하여 출력하는 프로그램을 작성하시오

In [179]:
data1 = {'names':['철수','영희','민수'],
         'score':[75,88,92]}
data2 = {'names':['영희','철수','지영','다현'],
         'attendence_rate':[90,80,95,85]}
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

print(df1,'\n\n', df2)

df3 = pd.merge(df1,df2,on='names') #how='inner'
df3


  names  score
0    철수     75
1    영희     88
2    민수     92 

   names  attendence_rate
0    영희               90
1    철수               80
2    지영               95
3    다현               85


Unnamed: 0,names,score,attendence_rate
0,철수,75,80
1,영희,88,90


# 문제 19-1  Requests와 BeautifulSoup을 이용하여 주어진 웹페이지의 URL에서 HTML을 가져와
# 서 특정 태그 ‘h1’의 내용(“Example Domain”)을 추출하는 코드이다. 그림 1과 그림 2의 구
# 조를 분석하고 빈칸의 코드를 완성하시오.


In [95]:
# (① )
# (② )
# # 타겟 웹페이지의 URL
# url = 'https://example.com'
# # 해당 URL에서 HTML 가져오기
# response = requests.get(url)
# # BeautifulSoup을 사용하여 HTML 파싱
# soup = BeautifulSoup(③ , 'html.parser')
# # 'h1' 태그를 추출
# target_tag = (④ )
# # ‘h1’ 태그의 내용을 추출
# target_content = target_tag.text if target_tag else '태그를 찾을 수 없음.'
# # 결과 출력
# (⑤ )

import requests
from bs4 import BeautifulSoup

# 타겟 웹페이지의 URL
url = 'https://example.com'

# 해당 URL에서 HTML 가져오기
response = requests.get(url)

# BeautifulSoup을 사용하여 HTML 파싱
soup = BeautifulSoup(response.text, 'html.parser')

# 'h1' 태그를 추출
target_tag = soup.find('h1')

# ‘h1’ 태그의 내용을 추출
target_content = target_tag.text if target_tag else '태그를 찾을 수 없음.'

# 결과 출력
# target_content
print(target_content)
# soup.find('a') 2. soup.find('a', attrs=['href: "http://openai.com']) .3. soup('a') 4. soup.select('a')

# BeautifulSoup의 find 메서드에서 attrs는 딕셔너리 형태로 전달되어야 합니다. 올바른 형태는 다음과 같습니다:

# soup.find('a', attrs={'href': 'https://openai.com'})

Example Domain


# 문제 19-2 
다음은 Selenium을 이용하여 동일한 URL에서 웹 페이지를 열고, 해당 페이지에서
CSS 선택자를 사용하여 모든 <a> 태그를 찾아서 개수를 세어서 출력하는 코드이다. 그림 1
과 그림 2의 구조를 분석하고 실행 결과를 적으시오.

In [183]:
# Selenium과 웹드라이버 임포트
from selenium import webdriver
from selenium.webdriver.common.by import By

# 웹드라이버 초기화 (Chrome 사용)
driver = webdriver.Chrome()

# 웹 페이지 로드
driver.get("https://example.com")

# CSS 선택자를 사용하여 'a' 태그 요소들을 모두 찾기
elements_with_a = driver.find_elements(By.CSS_SELECTOR, "a")

# 'a' 태그 요소의 개수 출력
print("특정 a 요소의 개수:", len(elements_with_a))

# 첫 번째 'a' 태그 요소의 'href' 속성 값 가져오기 및 출력
print("특정 a 요소의 속성 href 값 가져오기:", elements_with_a[0].get_attribute("href"))

# 웹드라이버 종료
driver.quit()


특정 a 요소의 개수: 1
특정 a 요소의 속성 href 값 가져오기: https://www.iana.org/domains/example


# 문제 20 
윈도우 git Bash 터미널에서 다음 작업을 수행하는데 올바른 명령어를 적으시오 
* 1. 현재 작업 디렉터리를 확인하기 -> pwd
  2. 현재 디렉터리의 모든 파일과 디렉터리를 표시하기 -> ls
  3. 현재 작업 디렉터리가 "/C/Users/USER"일 때 "Desktop"으로 변경하시오 -> cd  "/C/Users/USER/Desktop"
  4. BeautifulSoup 라이브러리를 설치하기 -> pip install BeautifulSoup4
  5. "file.txt" 파일의 내용을 출력하기 -> cat file.txt
  6. 이름이 "myenv"인 가상환경을 생성하기 -> python -m venv myenv
  7. "myenv"인 가상환경을 활성화하기 -> source myenv/Script/activate
  9. 가상환경을 비활성화하기 -> deactivate
  10. 변경사항을 "initial Add"으로 깃 커밋하기 -> git add.
                                                  git commit -m "initial Add"

# 문제 22 [코딩]
주어진 딕셔너리 데이터를 pandas의 CSV 파일(data.csv)과 JSON 파일(data.json)로
저장하는 프로그램을 작성하시오.(단 저장 경로는 임의로 정한다.)


In [97]:
# data = {
#  '이름': ['철수', '영희', '민수', '지영'],
#  '나이': [25, 30, 22, 28],
#  '성별': ['남자', '여자', '남자', '여자']
# }

import pandas as pd

# 딕셔너리 데이터
data = {
    '이름': ['철수', '영희', '민수', '지영'],
    '나이': [25, 30, 22, 28],
    '성별': ['남자', '여자', '남자', '여자']
}

# 데이터프레임 생성
df = pd.DataFrame(data)

# CSV 파일로 저장
df.to_csv('data.csv')

# JSON 파일로 저장
df.to_json('data.json')

# 문제 23 [코딩] 
판다스의 concat() 메서드를 이용하여 다음 두 개의 데이터프레임 df1,df2를
수직으로 결합한 후 다음과 같은 결과를 출력하도록 파이썬 코드를 빈칸에 작성하시오

In [190]:
import pandas as pd
# 두 개의 데이터프레임 생성
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
 'B': ['B0', 'B1', 'B2']})
df2 = pd.DataFrame({'A': ['A3', 'A4', 'A5'],
 'B': ['B3', 'B4', 'B5']})
# 여기에 코드를 작성하세요
result=pd.concat([df1,df2],axis='index',ignore_index=True)
# 결과 출력
print(result)

    A   B
0  A0  B0
1  A1  B1
2  A2  B2
3  A3  B3
4  A4  B4
5  A5  B5


# 문제 24 [코딩] 
판다스의 merge() 메서드를 이용하여 다음 두 개의 데이터프레임 left,right를 'key'열을 기준으로 내부 조인(inner join)한 후 
결과를 출력하도록 파이썬 코드를 작성하시오

In [192]:
import pandas as pd
# 두 개의 데이터프레임 생성
left = pd.DataFrame({'key': ['K0', 'K1', 'K2'],
 'A': ['A0', 'A1', 'A2']})
right = pd.DataFrame({'key': ['K0', 'K1', 'K2'],
 'B': ['B0', 'B1', 'B2']})
# 여기에 코드를 작성하세요
result = pd.merge(left,right,on='key',how='inner')
# 결과 출력
print(result)

  key   A   B
0  K0  A0  B0
1  K1  A1  B1
2  K2  A2  B2


# 문제 25 [코딩]
다음은 학생들의 성적을 담은 데이터프레임 df와 추가적인 학생의 성적을 담은 시리즈 new_student_scores가 있다.
* (1) concat() 함수를 사용하여 데이터프레임 df와 시리즈 new_student_scores를 수직으로
결합한 후 결과를 출력하는 프로그램을 작성하시오.
* (2) merge() 함수를 사용하여 데이터프레임 df와 시리즈 new_student_scores를 병합한 후

결과를 출력하는 프로그램을 작성하시오.

In [140]:

import pandas as pd

# 데이터프레임 df
df = pd.DataFrame({
    '학생': ['철수', '영희', '민수'],
    '성적': [80, 75, 90]
})

# 시리즈 new_student_scores
new_student_scores = pd.Series({
    '학생': '지영',
    '성적': 85
})

# 시리즈를 데이터프레임으로 변환
new_student_df = pd.DataFrame([new_student_scores])

# concat 함수를 사용하여 데이터프레임 df와 새로운 데이터프레임 new_student_df를 수직으로 결합
result = pd.concat([df, new_student_df], axis=0, ignore_index=True)

print(result)
print()
print(pd.merge(df,new_student_df,how='outer'))




   학생  성적
0  철수  80
1  영희  75
2  민수  90
3  지영  85

   학생  성적
0  민수  90
1  영희  75
2  지영  85
3  철수  80


# 문제 26 [코딩]
다음은 두 개의 데이터프레임 df1, df2와 시리즈 s가 있다. 각 데이터프레임
과 시리즈는 동일한 색인 X, Y, Z을 가지고 있다. 
* (1) concat() 함수를 사용하여 데이터프레임 df1과 df2를 수평으로 결합한 후, 시리즈 s를 수
평으로 결합한 결과를 출력하도록 프로그램을 작성하시오.
* (2) merge() 함수를 사용하여 데이터프레임 df1과 df2를 병합하고, 시리즈 s를 추가한 결과를
출력하도록 프로그램을 작성하시오.


In [172]:
import pandas as pd

data1 = {'A':[1,2,3],
         'B':[4,5,6]}
data2={'C':[7,8,9],
       'D':[10,11,12]}
s=pd.Series(range(13,16),index=['X','Y','Z'])

df1=pd.DataFrame(data1,index=['X','Y','Z'])
df2=pd.DataFrame(data2,index=['X','Y','Z'])

print(df1,'\n\n',df2,'\n\n',s)
result_concat=pd.concat([df1,df2,s],axis='columns')
result_concat.columns=['A','B','C','D','E']
print(result_concat)

print()
result_merge = pd.merge(df1, df2, left_index=True, right_index=True)

# Adding the series s as a new column
result_merge['E'] = s
result_merge


   A  B
X  1  4
Y  2  5
Z  3  6 

    C   D
X  7  10
Y  8  11
Z  9  12 

 X    13
Y    14
Z    15
dtype: int64
   A  B  C   D   E
X  1  4  7  10  13
Y  2  5  8  11  14
Z  3  6  9  12  15



Unnamed: 0,A,B,C,D,E
X,1,4,7,10,13
Y,2,5,8,11,14
Z,3,6,9,12,15


# 문제 27 [코딩]
 주어진 데이터프레임 df은 학생들의 성적을 담고 있다. 각 문제별 데이터프
레임에 apply() 함수 또는 lambda함수를 사용하여 프로그램을 작성하시오.
* (1) 각 학생의 성적 총점을 계산하여 '총점' 열을 추가한 후, 결과를 출력하시오.
* (2) 각 과목의 평균 점수를 계산하여 '평균' 행을 추가한 후, 결과를 출력하시오.

In [152]:
import pandas as pd

# 주어진 데이터프레임 생성
data = {'이름': ['철수', '영희', '민수'],
        '국어': [90, 80, 85],
        '영어': [85, 95, 70],
        '수학': [75, 80, 90]}

df = pd.DataFrame(data)

# (1) 각 학생의 성적 총점을 계산하여 '총점' 열을 추가
df['총점'] = df[['국어', '영어', '수학']].apply(sum,axis=1)
# df['총점'] = df[['국어', '영어', '수학']].apply(lambda s:s.sum(),axis=1)

print("(1) 각 학생의 성적 총점을 계산한 결과:")
print(df)
print("----------------------------------------")

# (2) 각 과목의 평균 점수를 계산하여 '평균' 행을 추가
#df.loc['평균'] = df.drop('이름', axis=1).mean()
df.loc['평균'] = df[['국어', '영어', '수학']].apply(lambda x:x.mean()) #axis='index'
print("(2) 각 과목의 평균 점수를 계산한 결과:")
df

(1) 각 학생의 성적 총점을 계산한 결과:
   이름  국어  영어  수학   총점
0  철수  90  85  75  250
1  영희  80  95  80  255
2  민수  85  70  90  245
----------------------------------------
(2) 각 과목의 평균 점수를 계산한 결과:


Unnamed: 0,이름,국어,영어,수학,총점
0,철수,90.0,85.0,75.0,250.0
1,영희,80.0,95.0,80.0,255.0
2,민수,85.0,70.0,90.0,245.0
평균,,85.0,83.333333,81.666667,
