# Pandas 데이터 처리
- 요약과 통계연산
- 함수적용 (map, apply)
- agg()
- 손실데이터처리
- 데이터 결합

# 요약과 통계연산

판다스(Pandas) 데이터프레임은 데이터를 효율적으로 `요약`하고 `통계 연산`을 수행하는 다양한 기능을 제공합니다.  
이를 통해 데이터를 빠르게 탐색하고 데이터의 분포, 중심 경향성, 상관 관계 등을 파악할 수 있습니다.  
주요한 요약 및 통계 연산에 대한 설명은 다음과 같습니다:

1. 데이터프레임의 기본 정보 확인하기

|이름|설명|
|--|--|
|head() 및 tail()| 데이터프레임의 처음 몇 개 또는 마지막 몇 개 행을 확인합니다.|
|info()| 데이터프레임의 기본 정보를 확인합니다. 열의 이름, 데이터 타입, 누락된 값의 개수 등을 출력합니다.|
|describe()| 데이터프레임의 기술 통계 요약을 제공합니다. 수치형 열에 대한 개수, 평균, 표준 편차, 최소값, 백분위수 등을 출력합니다.|

2. 열별 요약 통계 연산

|이름|설명|
|--|--|
|mean(), median(), min(), max()| 각 열의 평균, 중앙값, 최소값, 최대값을 계산합니다.|
|sum()| 각 열의 합을 계산합니다.|
|std()| 각 열의 표준 편차를 계산합니다.|
|count()| 각 열의 비누락값(NaN)이 아닌 값의 개수를 계산합니다.|


3. 행별 요약 통계 연산

|이름|설명|
|--|--|
|sum(axis=1)| 각 행의 합을 계산합니다.|
|mean(axis=1)| 각 행의 평균을 계산합니다.|
|median(axis=1)| 각 행의 중앙값을 계산합니다.|


In [1]:
"""
head(), tail(), info(), describe(), 
"""
import pandas as pd

# 데이터 생성
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [None, 30, 35, 28],
        'Gender': ['Female', 'Male', 'Male', 'Male'],
        'Height': [165, 180, 175, 170]}
df = pd.DataFrame(data)
df

Unnamed: 0,Name,Age,Gender,Height
0,Alice,,Female,165
1,Bob,30.0,Male,180
2,Charlie,35.0,Male,175
3,David,28.0,Male,170


In [2]:
df.head(2)

Unnamed: 0,Name,Age,Gender,Height
0,Alice,,Female,165
1,Bob,30.0,Male,180


In [3]:
df.tail(2)

Unnamed: 0,Name,Age,Gender,Height
2,Charlie,35.0,Male,175
3,David,28.0,Male,170


In [4]:
"""
idxmax(), idxmin(), cumsum(),
"""
import pandas as pd

# 데이터 생성
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 35, 21],
        'Gender': ['Female', 'Male', 'Male', 'Male'],
        'Height': [165, 180, None, 170]}
df = pd.DataFrame(data, index=list("ABCD"))


df

Unnamed: 0,Name,Age,Gender,Height
A,Alice,25,Female,165.0
B,Bob,30,Male,180.0
C,Charlie,35,Male,
D,David,21,Male,170.0


In [5]:
print(df.Age.sort_values(ascending=False))
df.Age.idxmax()

C    35
B    30
A    25
D    21
Name: Age, dtype: int64


'C'

In [6]:
print(df.Age.sort_values())
df.Age.idxmin()

D    21
A    25
B    30
C    35
Name: Age, dtype: int64


'D'

In [7]:
df1 = pd.concat([df.Age, df.Age.cumsum()], axis=1)
df1.columns = ["Age", "cumsum"]
df1

Unnamed: 0,Age,cumsum
A,25,25
B,30,55
C,35,90
D,21,111


In [8]:
# 수치형 데이터로만 이루어진 Dataframe 에도 적용 가능
df1= df[["Age", "Height"]]
df1

Unnamed: 0,Age,Height
A,25,165.0
B,30,180.0
C,35,
D,21,170.0


In [9]:
df1.idxmax()

Age       C
Height    B
dtype: object

In [10]:
df

Unnamed: 0,Name,Age,Gender,Height
A,Alice,25,Female,165.0
B,Bob,30,Male,180.0
C,Charlie,35,Male,
D,David,21,Male,170.0


In [11]:
df.idxmax()

TypeError: reduction operation 'argmax' not allowed for this dtype

In [12]:
df.Age.argmax()

2

In [15]:
# 가장 나이가 많은 사람은 누구인가?
df.loc[df.Age.idxmax(), "Name"]

'Charlie'

In [14]:
df.Age.idxmax()

'C'

In [16]:
df.loc[df.Age.idxmax()]["Name"]

'Charlie'

In [17]:
df.loc[df.Age.idxmax()].Name

'Charlie'

# 함수적용 (map)

판다스(Pandas)의 DataFrame에서 `map()` 메서드는 Series에 적용된 값에 대해   
지정된 사전(dict)이나 함수를 사용하여 각 값에 대한 변환을 수행하는 기능을 제공합니다.   
map() 메서드는 주로 특정 열의 값을 다른 값으로 매핑하거나 변환하는데 사용됩니다.

In [18]:
# '성별' 열의 값에 매핑을 적용하여 숫자로 변환
#  Gender 컬럼의 Female은 0, Male은 1로 변환

import pandas as pd

# 데이터 생성
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 35, None],
        'Gender': ['Female', 'Male', 'Male', 'Male'],
        'Height': [165, 180, 175, 170]
}

df = pd.DataFrame(data, index=list("ABCD"))
df


Unnamed: 0,Name,Age,Gender,Height
A,Alice,25.0,Female,165
B,Bob,30.0,Male,180
C,Charlie,35.0,Male,175
D,David,,Male,170


In [19]:
gender_mapping = {'Female': 0, 'Male': 1}

In [20]:
# [참고] dictionary 활용
x = "Female"
print(gender_mapping[x])
print(gender_mapping.get(x))

0
0


In [22]:
# 3시간 30분 후의 시간 계산
datetime.now() + timedelta(hours=3, minutes=30)

datetime.datetime(2023, 8, 31, 4, 47, 34, 264497)

In [21]:
df.Gender.map(gender_mapping.get)

A    0
B    1
C    1
D    1
Name: Gender, dtype: int64

In [22]:
func = gender_mapping.get
pd.Series(
    [func(v) for v in df.Gender.values],
    index = df.Gender.index
)

A    0
B    1
C    1
D    1
dtype: int64

In [23]:
df.Gender

A    Female
B      Male
C      Male
D      Male
Name: Gender, dtype: object

In [24]:
df['Gender2'] = df.Gender.map(gender_mapping)
df

Unnamed: 0,Name,Age,Gender,Height,Gender2
A,Alice,25.0,Female,165,0
B,Bob,30.0,Male,180,1
C,Charlie,35.0,Male,175,1
D,David,,Male,170,1


In [25]:
# lambda 적용
df.Gender.map(lambda x: 0 if x == "Female" else 1)

A    0
B    1
C    1
D    1
Name: Gender, dtype: int64

In [26]:
def convert(x):
    return 0 if x == "Female" else 1    # (x=="Female")? 1: 0

In [27]:
df.Gender.map(convert)

A    0
B    1
C    1
D    1
Name: Gender, dtype: int64

In [28]:
df.Gender.map(lambda x: 0 if x == "Female" else 1)

A    0
B    1
C    1
D    1
Name: Gender, dtype: int64

In [29]:
# lambda 추가 예제
print(df.Age)
print(df.Age.map(lambda x: x + 10))

A    25.0
B    30.0
C    35.0
D     NaN
Name: Age, dtype: float64
A    35.0
B    40.0
C    45.0
D     NaN
Name: Age, dtype: float64


In [31]:
import numpy as np
np.where(df.Gender=="Female", 0, 1)

array([0, 1, 1, 1])

In [32]:
print(df)
import numpy as np
pd.Series(
    np.where(df.Gender=="Female", 0, 1),
    index=df.index
)

      Name   Age  Gender  Height  Gender2
A    Alice  25.0  Female     165        0
B      Bob  30.0    Male     180        1
C  Charlie  35.0    Male     175        1
D    David   NaN    Male     170        1


A    0
B    1
C    1
D    1
dtype: int64

# 함수적용 (apply)

pandas의 DataFrame에서 apply() 메서드는 열(column) 또는 행(row) 단위로 함수를 적용하여 데이터를 변환하는 기능을 제공합니다. apply() 메서드는 특정 함수를 데이터프레임의 모든 열 또는 각 행에 적용하며, 이를 통해 데이터의 변환, 필터링, 정제 등 다양한 작업을 수행할 수 있습니다.

```python
DataFrame.apply(func, axis=0, raw=False, result_type=None, args=(), **kwds)
```

- `func`: 적용하고자 하는 함수를 지정합니다. 사용자 정의 함수나 내장 함수 등 모두 가능합니다.
- `axis`: 0이면 함수가 열(column)에 적용됩니다. 1이면 함수가 행(row)에 적용됩니다.
- `raw`: True이면 행 또는 열을 배열로 전달하고, False이면 Series로 전달합니다.
- `result_type`: 반환되는 결과의 데이터 타입을 지정합니다.
- `args`: 함수에 추가적인 인자를 전달할 경우 사용합니다.


In [33]:
"""
각 열의 최대값을 마지막 행에 삽입
"""

import pandas as pd
import numpy as np

# 데이터 생성
data = np.random.choice(range(1,16), 15, replace=False).reshape(3,5)
df = pd.DataFrame(data, index="R1 R2 R3".split(), columns="C1 C2 C3 C4 C5".split())
df

Unnamed: 0,C1,C2,C3,C4,C5
R1,1,8,6,3,14
R2,10,2,7,15,13
R3,5,9,12,4,11


In [34]:
# 각 열에 대해 최대값을 찾는 함수 정의
def find_max(s: pd.Series):
    return s.max()

df.apply(find_max, axis=0)

C1    10
C2     9
C3    12
C4    15
C5    14
dtype: int64

In [35]:
func = find_max
pd.Series(
    [func(df[x]) for x in df.columns],
    index = df.columns
)

C1    10
C2     9
C3    12
C4    15
C5    14
dtype: int64

In [36]:
df

Unnamed: 0,C1,C2,C3,C4,C5
R1,1,8,6,3,14
R2,10,2,7,15,13
R3,5,9,12,4,11


In [37]:
df.loc["MAX"] = df.apply(find_max, axis=0)
df

Unnamed: 0,C1,C2,C3,C4,C5
R1,1,8,6,3,14
R2,10,2,7,15,13
R3,5,9,12,4,11
MAX,10,9,12,15,14


In [38]:
df.loc["MAX"] = df.apply(lambda x: x.max())
df

Unnamed: 0,C1,C2,C3,C4,C5
R1,1,8,6,3,14
R2,10,2,7,15,13
R3,5,9,12,4,11
MAX,10,9,12,15,14


In [39]:
"""
각 행의 최대, 최소 차이를 마지막 열에 추가
"""

import pandas as pd
import numpy as np

# 데이터 생성
data = np.random.choice(range(1,16), 15, replace=False).reshape(3,5)
df = pd.DataFrame(data, index="R1 R2 R3".split(), columns="C1 C2 C3 C4 C5".split())
df


Unnamed: 0,C1,C2,C3,C4,C5
R1,4,9,13,10,7
R2,5,12,14,1,8
R3,2,6,3,15,11


In [40]:
# 각 행에서 최대값과 최소값의 차이를 계산하는 함수 정의
def max_min_diff(s: pd.Series):
    return s.max() - s.min()

df.apply(max_min_diff, axis=1)

R1     9
R2    13
R3    13
dtype: int64

In [41]:
func = max_min_diff
pd.Series(
    [func(df.loc[idx]) for idx in df.index],
    index = df.index
)

R1     9
R2    13
R3    13
dtype: int64

In [42]:
df["MIN_MAX_DIFF"] = df.apply(max_min_diff, axis=1)
df

Unnamed: 0,C1,C2,C3,C4,C5,MIN_MAX_DIFF
R1,4,9,13,10,7,9
R2,5,12,14,1,8,13
R3,2,6,3,15,11,13


In [43]:
df["MIN_MAX_DIFF"] = df.apply(lambda x: x.max() - x.min(), axis=1)
df

Unnamed: 0,C1,C2,C3,C4,C5,MIN_MAX_DIFF
R1,4,9,13,10,7,9
R2,5,12,14,1,8,13
R3,2,6,3,15,11,13


## 필터링 기반 apply 적용


데이터프레임에서 조건에 맞는 셀의 데이터에만 map과 apply를 적용하는 방법은  
loc 인덱싱을 사용하여 조건을 만족하는 행과 열을 선택한 후에  
해당 위치에 함수를 적용하면 됩니다.



In [47]:
import pandas as pd

# 데이터 생성
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Ella'],
    'Age': [25, 30, 35, 40, 45],
    'City': ['New York', 'London', 'Paris', 'Berlin', 'London']
}

df = pd.DataFrame(data)
df

Unnamed: 0,Name,Age,City
0,Alice,25,New York
1,Bob,30,London
2,Charlie,35,Paris
3,David,40,Berlin
4,Ella,45,London


In [48]:
df.loc[df['Age'] >= 35, 'Age']

2    35
3    40
4    45
Name: Age, dtype: int64

In [49]:
df.loc[df['Age'] >= 35, 'Age'].map(lambda x: x + 10)

2    45
3    50
4    55
Name: Age, dtype: int64

In [50]:
# Age가 35 이상인 행들의 'Age' 값을 10 증가시킴 (map 적용)
df.loc[df['Age'] >= 35, 'Age'] = df.loc[df['Age'] >= 35, 'Age'].map(lambda x: x + 10)
df

Unnamed: 0,Name,Age,City
0,Alice,25,New York
1,Bob,30,London
2,Charlie,45,Paris
3,David,50,Berlin
4,Ella,55,London


In [51]:
"""
몸무게가 70kg 이상인 경우에만 BMI를 계산
 BMI 계산: weight / pow(height, 2)
"""

import pandas as pd
import numpy as np

# 데이터 생성
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Weight': [65, 70, 85, None],
        'Height': [1.65, 1.8, 1.75, 1.7]
}

df = pd.DataFrame(data)
df


Unnamed: 0,Name,Weight,Height
0,Alice,65.0,1.65
1,Bob,70.0,1.8
2,Charlie,85.0,1.75
3,David,,1.7


In [52]:
df.loc[df.Weight>=70, "BMI"] = df[df.Weight>=70].apply(
    lambda x: np.round(x["Weight"] / (x["Height"])**2,1), 
    axis=1
)
df

Unnamed: 0,Name,Weight,Height,BMI
0,Alice,65.0,1.65,
1,Bob,70.0,1.8,21.6
2,Charlie,85.0,1.75,27.8
3,David,,1.7,


In [None]:
df.loc[df.Weight>=70, "BMI"] 

In [None]:
df[df.Weight>=70].apply(lambda x: np.round(x["Weight"] / (x["Height"])**2,1), axis=1)

In [53]:
df.loc[df.Weight>=70, "BMI"] = df.apply(
    lambda x: np.round(x["Weight"] / (x["Height"])**2,1), 
    axis=1
)
df

Unnamed: 0,Name,Weight,Height,BMI
0,Alice,65.0,1.65,
1,Bob,70.0,1.8,21.6
2,Charlie,85.0,1.75,27.8
3,David,,1.7,


In [None]:
s2 = df.apply(
    lambda x: np.round(x["Weight"] / (x["Height"])**2,1), 
    axis=1
)
s2

In [None]:
df.loc[df.Weight>=70, "BMI"] 

In [None]:
df.loc[df.Weight>=70, "BMI"] = s2
df

## agg()
agg() 함수를 사용하면 여러 개의 집계 함수를 동시에 적용할 수 있으며, 그룹화된 데이터에서 원하는 다양한 집계 연산을 손쉽게 수행할 수 있습니다.

내장 집계 함수:

| 이름 | 기능 |
|--|--|
|mean()| 평균을 계산합니다.|
|sum()| 합계를 계산합니다.|
|min()| 최소값을 찾습니다.|
|max()| 최대값을 찾습니다.|
|count()| 데이터의 개수를 세어줍니다.|
|median()| 중앙값을 계산합니다.|
|std()| 표준편차를 계산합니다.|
|var()| 분산을 계산합니다.|
|quantile(q)| q-분위수를 계산합니다. (0 <= q <= 1)|


In [54]:
import pandas as pd
import numpy as np
data = dict(
    Name="Alice Bob Charlie David".split(" "),
    Math=np.random.randint(50,100,4),
    Eng=np.random.randint(50,100,4),
)
df = pd.DataFrame(data, index=list("ABCD"))

df

Unnamed: 0,Name,Math,Eng
A,Alice,96,75
B,Bob,96,54
C,Charlie,98,58
D,David,90,65


In [55]:
df.iloc[:,1:].agg(["sum", "mean", "max"])

Unnamed: 0,Math,Eng
sum,380.0,252.0
mean,95.0,63.0
max,98.0,75.0


In [56]:
df.iloc[:,1:].T.agg(["sum", "mean", "max"])

Unnamed: 0,A,B,C,D
sum,171.0,150.0,156.0,155.0
mean,85.5,75.0,78.0,77.5
max,96.0,96.0,98.0,90.0


In [57]:
def mean_squared_error(s):
    mean = s.mean()
    return (sum((s-mean)**2))**.5

In [58]:
df.iloc[:,1:].agg(["std", lambda x: x.idxmax(), mean_squared_error])

Unnamed: 0,Math,Eng
std,3.464102,9.201449
<lambda>,C,A
mean_squared_error,6.0,15.937377


## 손실데이터 처리

누락된 값(결측치)을 적절한 값으로 대체하는 것입니다.  
판다스(Pandas)에서는 `fillna()` 메서드를 사용하여 누락된 값을 다른 값으로 채울 수 있습니다.

In [59]:
import pandas as pd
import numpy as np

# 데이터 생성 (일부 값이 누락된 데이터)
data = [
    [1, 2, np.nan, 4, 5],
    [10, np.nan, 30, np.nan, 50],
    [100, 200, 300, np.nan, np.nan]
]

df = pd.DataFrame(
    data, 
    index=[f"R{i}" for i in range(len(data))],
    columns=[f"C{i}" for i in range(len(data[0]))]
)
df

Unnamed: 0,C0,C1,C2,C3,C4
R0,1,2.0,,4.0,5.0
R1,10,,30.0,,50.0
R2,100,200.0,300.0,,


In [60]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3 entries, R0 to R2
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   C0      3 non-null      int64  
 1   C1      2 non-null      float64
 2   C2      2 non-null      float64
 3   C3      1 non-null      float64
 4   C4      2 non-null      float64
dtypes: float64(4), int64(1)
memory usage: 144.0+ bytes


In [61]:
df.isna()

Unnamed: 0,C0,C1,C2,C3,C4
R0,False,False,True,False,False
R1,False,True,False,True,False
R2,False,False,False,True,True


In [62]:
# 각 열의 결측치 갯수
df.isna().sum()

C0    0
C1    1
C2    1
C3    2
C4    1
dtype: int64

In [63]:
# 각 행의 결측치 갯수
df.isna().sum(axis=1)

R0    1
R1    2
R2    2
dtype: int64

In [64]:
# 전체 결측치 개수
df.isna().sum().sum()

5

In [65]:
df.notna()

Unnamed: 0,C0,C1,C2,C3,C4
R0,True,True,False,True,True
R1,True,False,True,False,True
R2,True,True,True,False,False


In [66]:
df.notna().sum()

C0    3
C1    2
C2    2
C3    1
C4    2
dtype: int64

In [67]:
df.notna().sum().sum()

10

In [68]:
df.describe()

Unnamed: 0,C0,C1,C2,C3,C4
count,3.0,2.0,2.0,1.0,2.0
mean,37.0,101.0,165.0,4.0,27.5
std,54.744863,140.007143,190.918831,,31.819805
min,1.0,2.0,30.0,4.0,5.0
25%,5.5,51.5,97.5,4.0,16.25
50%,10.0,101.0,165.0,4.0,27.5
75%,55.0,150.5,232.5,4.0,38.75
max,100.0,200.0,300.0,4.0,50.0


In [70]:
df

Unnamed: 0,C0,C1,C2,C3,C4
R0,1,2.0,,4.0,5.0
R1,10,,30.0,,50.0
R2,100,200.0,300.0,,


In [69]:
# 누락된 값을 0으로 대체
df2 = df.fillna(0)
df2

Unnamed: 0,C0,C1,C2,C3,C4
R0,1,2.0,0.0,4.0,5.0
R1,10,0.0,30.0,0.0,50.0
R2,100,200.0,300.0,0.0,0.0


In [71]:
df

Unnamed: 0,C0,C1,C2,C3,C4
R0,1,2.0,,4.0,5.0
R1,10,,30.0,,50.0
R2,100,200.0,300.0,,


In [72]:
df.fillna(0, inplace=True)
df

Unnamed: 0,C0,C1,C2,C3,C4
R0,1,2.0,0.0,4.0,5.0
R1,10,0.0,30.0,0.0,50.0
R2,100,200.0,300.0,0.0,0.0


In [73]:
import pandas as pd
import numpy as np

# 데이터 생성 (일부 값이 누락된 데이터)
data = [
    [1, 2, np.nan, 4, 5],
    [10, np.nan, 30, np.nan, 50],
    [100, 200, 300, np.nan, np.nan]
]

df = pd.DataFrame(
    data, 
    index=[f"R{i}" for i in range(len(data))],
    columns=[f"C{i}" for i in range(len(data[0]))]
)
df

Unnamed: 0,C0,C1,C2,C3,C4
R0,1,2.0,,4.0,5.0
R1,10,,30.0,,50.0
R2,100,200.0,300.0,,


In [74]:
df.mean()

C0     37.0
C1    101.0
C2    165.0
C3      4.0
C4     27.5
dtype: float64

In [75]:
# 누락된 값을 각 컬럼의 평균값으로 대체
print("df.mean(): ", df.mean())
df2 = df.fillna(df.mean())
df2

df.mean():  C0     37.0
C1    101.0
C2    165.0
C3      4.0
C4     27.5
dtype: float64


Unnamed: 0,C0,C1,C2,C3,C4
R0,1,2.0,165.0,4.0,5.0
R1,10,101.0,30.0,4.0,50.0
R2,100,200.0,300.0,4.0,27.5


In [76]:
df

Unnamed: 0,C0,C1,C2,C3,C4
R0,1,2.0,,4.0,5.0
R1,10,,30.0,,50.0
R2,100,200.0,300.0,,


In [77]:
# 누락된 값을 바로 앞의 값으로 대체 (forward fill)
df2 = df.fillna(method='ffill')
df2


Unnamed: 0,C0,C1,C2,C3,C4
R0,1,2.0,,4.0,5.0
R1,10,2.0,30.0,4.0,50.0
R2,100,200.0,300.0,4.0,50.0


# 데이터 결합하기

merge()와 concat()은 판다스(Pandas)에서  
데이터프레임을 합치는 데 사용되는 두 가지 중요한 메서드입니다. 

**concat() 메서드:**  
concat() 메서드는 여러 개의 데이터프레임을  
행(axis=0) 또는 열(axis=1) 방향으로 합치는 데 사용됩니다.  
기본적으로 데이터프레임을 단순히 연결하여 합치는 기능을 제공합니다.

**concat() 메서드의 형식:**

```python
pd.concat(objs, axis=0, join='outer', ignore_index=False)
```
    
- `objs`: 합치려는 데이터프레임을 리스트 형태로 전달합니다.
- `axis`: 합치는 방향을 지정합니다. 0이면 행 방향, 1이면 열 방향입니다.
- `join`: 합치는 방식을 지정합니다. 기본값은 'outer'로, 합집합을 반환합니다.
- `ignore_index`: 기존 인덱스를 무시하고 새로운 인덱스를 생성하도록 지정합니다.

In [78]:
"""

concat() 메서드의 axis 매개변수를 사용하여 
데이터프레임을 합칠 때 방향(행 또는 열)을 지정할 수 있습니다. 
axis 매개변수에는 0 또는 1을 입력할 수 있으며, 
각각 행 방향과 열 방향을 의미합니다.
"""
import pandas as pd

# 데이터 생성
data1 = {
    'ID': [1, 2, 3],
    'Name': ['Alice', 'Bob', 'Charlie']
}

data2 = {
    'Age': [25, 30],
    'City': ['New York', 'London']
}

df1 = pd.DataFrame(data1, index=list("ABC"))
df2 = pd.DataFrame(data2, index=list("AC"))

In [79]:
df1

Unnamed: 0,ID,Name
A,1,Alice
B,2,Bob
C,3,Charlie


In [80]:
df2

Unnamed: 0,Age,City
A,25,New York
C,30,London


In [81]:
# concat 메서드에서 axis=0을 사용하여 행 방향으로 합치기
pd.concat([df1, df2], axis=0)

Unnamed: 0,ID,Name,Age,City
A,1.0,Alice,,
B,2.0,Bob,,
C,3.0,Charlie,,
A,,,25.0,New York
C,,,30.0,London


In [82]:
# igrnoe_index를 True로 하였을 경우
pd.concat([df1, df2], ignore_index=True)

Unnamed: 0,ID,Name,Age,City
0,1.0,Alice,,
1,2.0,Bob,,
2,3.0,Charlie,,
3,,,25.0,New York
4,,,30.0,London


In [83]:
pd.concat([df1, df2], axis=1)

Unnamed: 0,ID,Name,Age,City
A,1,Alice,25.0,New York
B,2,Bob,,
C,3,Charlie,30.0,London


In [84]:
"""
join:
join='outer': 기본값으로, 인덱스가 겹치지 않는 경우에는 빈 값(NaN)으로 처리되며, 
            인덱스가 겹치는 경우에는 합집합으로 합쳐집니다.
join='inner': 인덱스가 겹치는 경우에는 교집합으로 합쳐집니다.
"""
import pandas as pd

# 데이터 생성
data1 = {
    'ID': [1, 2, 3],
    'Name': ['Alice', 'Bob', 'Charlie']
}

data2 = {
    'ID': [2, 3, 4],
    'Age': [25, 30, 35]
}

df1 = pd.DataFrame(data1, index=list("ABC"))
df2 = pd.DataFrame(data2, index=list("ABD"))


In [85]:
df1

Unnamed: 0,ID,Name
A,1,Alice
B,2,Bob
C,3,Charlie


In [86]:
df2

Unnamed: 0,ID,Age
A,2,25
B,3,30
D,4,35


In [87]:
# concat 메서드에서 join='outer'를 사용하여 기본값으로 합치기
pd.concat([df1, df2], axis=1, join='outer')

Unnamed: 0,ID,Name,ID.1,Age
A,1.0,Alice,2.0,25.0
B,2.0,Bob,3.0,30.0
C,3.0,Charlie,,
D,,,4.0,35.0


In [88]:
# concat 메서드에서 join='inner'를 사용하여 교집합으로 합치기
pd.concat([df1, df2], axis=1, join='inner')

Unnamed: 0,ID,Name,ID.1,Age
A,1,Alice,2,25
B,2,Bob,3,30


1. merge() 메서드:
merge() 메서드는 두 개의 데이터프레임을 특정 열(column)을 기준으로 합치는 데 사용됩니다. SQL의 JOIN 연산과 유사한 기능을 제공합니다.

merge() 메서드의 형식:

```python
pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None)
```

- `left`: 왼쪽에 있는 데이터프레임을 지정합니다.
- `right`: 오른쪽에 있는 데이터프레임을 지정합니다.
- `how`: 합치는 방식을 지정합니다. 기본값은 'inner'로, 교집합을 반환합니다. `outer`, `left`, `right` 등이 가능합니다.
- `on`, `left_on`, `right_on`: 합치는 기준 열을 지정합니다.


In [89]:
import pandas as pd

# 데이터 생성
data1 = {
    'ID': [1, 2, 3, 4],
    'Name': ['Alice', 'Bob', 'Charlie', 'David']
}

data2 = {
    'ID': [3, 4, 5, 6],
    'Age': [25, 30, 35, 40]
}

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)


In [90]:
df1

Unnamed: 0,ID,Name
0,1,Alice
1,2,Bob
2,3,Charlie
3,4,David


In [91]:
df2

Unnamed: 0,ID,Age
0,3,25
1,4,30
2,5,35
3,6,40


In [92]:
# 'ID' 열을 기준으로 두 데이터프레임 합치기 (inner join)
pd.merge(df1, df2, on='ID')

Unnamed: 0,ID,Name,Age
0,3,Charlie,25
1,4,David,30


how 매개변수를 사용하여 'inner', 'outer', 'left', 'right' 방식으로 두 데이터프레임을 합치는 방법

|매개변수|기능|
|--|--|
|'inner'| 두 데이터프레임의 'ID' 열을 비교하여 공통된 'ID' 값만 합칩니다.|
|'outer'| 두 데이터프레임의 모든 행을 합치며,  'ID' 값이 하나라도 있는 경우에는 해당 값을,  둘 다 없는 경우에는 NaN으로 처리합니다.|
|'left'| 첫 번째 데이터프레임 df1의 모든 행을 합칩니다.  두 데이터프레임의 'ID' 열을 비교하여 공통된 'ID' 값만 합치며, 'df1'의 모든 행은 보존됩니다.|
|'right'| 두 번째 데이터프레임 df2의 모든 행을 합칩니다.  두 데이터프레임의 'ID' 열을 비교하여 공통된 'ID' 값만 합치며, 'df2'의 모든 행은 보존됩니다.|

In [93]:
# 'ID' 열을 기준으로 두 데이터프레임 합치기 (outer join)
pd.merge(df1, df2, on='ID', how='outer')

Unnamed: 0,ID,Name,Age
0,1,Alice,
1,2,Bob,
2,3,Charlie,25.0
3,4,David,30.0
4,5,,35.0
5,6,,40.0


In [94]:
# 'ID' 열을 기준으로 두 데이터프레임 합치기 (left join)
pd.merge(df1, df2, on='ID', how='left')

Unnamed: 0,ID,Name,Age
0,1,Alice,
1,2,Bob,
2,3,Charlie,25.0
3,4,David,30.0


In [95]:
# 'ID' 열을 기준으로 두 데이터프레임 합치기 (right join)
pd.merge(df1, df2, on='ID', how='right')

Unnamed: 0,ID,Name,Age
0,3,Charlie,25
1,4,David,30
2,5,,35
3,6,,40


In [96]:
"""
on, left_on, right_on은 merge() 메서드에서 사용되는 매개변수로, 
두 데이터프레임을 특정 열을 기준으로 합칠 때 해당 열들을 지정하는 역할을 합니다.
left_on, right_on 매개변수를 사용하여 
두 데이터프레임이 서로 다른 열 이름을 가지고 있을 때도 쉽게 합치는 것이 가능합니다.
"""
import pandas as pd

# 데이터 생성
data1 = {
    'ID': [1, 2, 3],
    'Age': [25, 30, 35]
}

data2 = {
    'StudentID': [2, 3, 4],
    'Credit': [25, 30, 35]
}


df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

In [97]:
df1

Unnamed: 0,ID,Age
0,1,25
1,2,30
2,3,35


In [98]:
df2

Unnamed: 0,StudentID,Credit
0,2,25
1,3,30
2,4,35


In [99]:
# 'ID'와 'StudentID' 열을 기준으로 두 데이터프레임 합치기
pd.merge(df1, df2, left_on='ID', right_on='StudentID')

Unnamed: 0,ID,Age,StudentID,Credit
0,2,30,2,25
1,3,35,3,30
