# Pandas 데이터 처리
- 요약과 통계연산
- 함수적용 (map, apply)
- agg()
- 손실데이터처리
- 병합
- 인덱스/ 다중인덱스

# 요약과 통계연산

판다스(Pandas) 데이터프레임은 데이터를 효율적으로 `요약`하고 `통계 연산`을 수행하는 다양한 기능을 제공합니다.  
이를 통해 데이터를 빠르게 탐색하고 데이터의 분포, 중심 경향성, 상관 관계 등을 파악할 수 있습니다.  
주요한 요약 및 통계 연산에 대한 설명은 다음과 같습니다:

1. 데이터프레임의 기본 정보 확인하기

|이름|설명|
|--|--|
|head() 및 tail()| 데이터프레임의 처음 몇 개 또는 마지막 몇 개 행을 확인합니다.|
|info()| 데이터프레임의 기본 정보를 확인합니다. 열의 이름, 데이터 타입, 누락된 값의 개수 등을 출력합니다.|
|describe()| 데이터프레임의 기술 통계 요약을 제공합니다. 수치형 열에 대한 개수, 평균, 표준 편차, 최소값, 백분위수 등을 출력합니다.|

2. 열별 요약 통계 연산

|이름|설명|
|--|--|
|mean(), median(), min(), max()| 각 열의 평균, 중앙값, 최소값, 최대값을 계산합니다.|
|sum()| 각 열의 합을 계산합니다.|
|std()| 각 열의 표준 편차를 계산합니다.|
|count()| 각 열의 비누락값(NaN)이 아닌 값의 개수를 계산합니다.|


3. 행별 요약 통계 연산

|이름|설명|
|--|--|
|sum(axis=1)| 각 행의 합을 계산합니다.|
|mean(axis=1)| 각 행의 평균을 계산합니다.|
|median(axis=1)| 각 행의 중앙값을 계산합니다.|


In [1]:
"""
head(), tail(), info(), describe(), 
"""
import pandas as pd

# 데이터 생성
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [None, 30, 35, 28],
        'Gender': ['Female', 'Male', 'Male', 'Male'],
        'Height': [165, 180, 175, 170]}
df = pd.DataFrame(data)


In [2]:
df

Unnamed: 0,Name,Age,Gender,Height
0,Alice,,Female,165
1,Bob,30.0,Male,180
2,Charlie,35.0,Male,175
3,David,28.0,Male,170


In [3]:
df.head()

Unnamed: 0,Name,Age,Gender,Height
0,Alice,,Female,165
1,Bob,30.0,Male,180
2,Charlie,35.0,Male,175
3,David,28.0,Male,170


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Name    4 non-null      object 
 1   Age     3 non-null      float64
 2   Gender  4 non-null      object 
 3   Height  4 non-null      int64  
dtypes: float64(1), int64(1), object(2)
memory usage: 256.0+ bytes


In [5]:
df.describe()

Unnamed: 0,Age,Height
count,3.0,4.0
mean,31.0,172.5
std,3.605551,6.454972
min,28.0,165.0
25%,29.0,168.75
50%,30.0,172.5
75%,32.5,176.25
max,35.0,180.0


In [6]:
"""
idxmax(), idxmin(), cumsum(),
"""
import pandas as pd

# 데이터 생성
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 35, None],
        'Gender': ['Female', 'Male', 'Male', 'Male'],
        'Height': [165, 180, 175, 170]}
df = pd.DataFrame(data)


In [7]:
df

Unnamed: 0,Name,Age,Gender,Height
0,Alice,25.0,Female,165
1,Bob,30.0,Male,180
2,Charlie,35.0,Male,175
3,David,,Male,170


In [8]:
print(df.Age)
df.Age.idxmax()

0    25.0
1    30.0
2    35.0
3     NaN
Name: Age, dtype: float64


2

In [9]:
print(df.Age)
df.Age.idxmin()

0    25.0
1    30.0
2    35.0
3     NaN
Name: Age, dtype: float64


0

In [10]:
print(df.Age)
df.Age.cumsum()

0    25.0
1    30.0
2    35.0
3     NaN
Name: Age, dtype: float64


0    25.0
1    55.0
2    90.0
3     NaN
Name: Age, dtype: float64

In [11]:
# 수치형 데이터로만 이루어진 Dataframe 에도 적용 가능
df[["Age", "Height"]].idxmax()

Age       2
Height    1
dtype: int64

In [12]:
# 가장 나이가 많은 사람은 누구인가?
df.loc[df.Age.idxmax()].Name

'Charlie'

In [13]:
"""
unique(), nunique(), value_counts(),
"""
import pandas as pd

# 데이터 생성
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 35, None],
        'Gender': ['Female', 'Male', 'Male', 'Male'],
        'Height': [165, 180, 175, 170]}
df = pd.DataFrame(data)


In [14]:
df.Name.unique()

array(['Alice', 'Bob', 'Charlie', 'David'], dtype=object)

In [15]:
df.Name.nunique()

4

In [16]:
df.Gender.value_counts()

Gender
Male      3
Female    1
Name: count, dtype: int64

# 함수적용 (map)

판다스(Pandas)의 DataFrame에서 map() 메서드는 Series에 적용된 값에 대해 지정된 사전(dict)이나 함수를 사용하여 각 값에 대한 변환을 수행하는 기능을 제공합니다. map() 메서드는 주로 특정 열의 값을 다른 값으로 매핑하거나 변환하는데 사용됩니다.

In [17]:
# '성별' 열의 값에 매핑을 적용하여 숫자로 변환

import pandas as pd

# 데이터 생성
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 35, None],
        'Gender': ['Female', 'Male', 'Male', 'Male'],
        'Height': [165, 180, 175, 170]
}

df = pd.DataFrame(data)

gender_mapping = {'Female': 0, 'Male': 1}

df['Gender2'] = df.Gender.map(gender_mapping)


In [18]:
df.Gender.map(gender_mapping.get)

0    0
1    1
2    1
3    1
Name: Gender, dtype: int64

In [19]:
# lambda 적용
df.Gender.map(lambda x: 0 if x == "Female" else 1)

0    0
1    1
2    1
3    1
Name: Gender, dtype: int64

In [20]:
df.Age.map(lambda x: x + 10)

0    35.0
1    40.0
2    45.0
3     NaN
Name: Age, dtype: float64

In [21]:
df.loc[0].map(lambda x: str(x)+"_invalid")

Name        Alice_invalid
Age          25.0_invalid
Gender     Female_invalid
Height        165_invalid
Gender2         0_invalid
Name: 0, dtype: object

# 함수적용 (apply)

pandas의 DataFrame에서 apply() 메서드는 열(column) 또는 행(row) 단위로 함수를 적용하여 데이터를 변환하는 기능을 제공합니다. apply() 메서드는 특정 함수를 데이터프레임의 모든 열 또는 각 행에 적용하며, 이를 통해 데이터의 변환, 필터링, 정제 등 다양한 작업을 수행할 수 있습니다.

```python
DataFrame.apply(func, axis=0, raw=False, result_type=None, args=(), **kwds)
```

- `func`: 적용하고자 하는 함수를 지정합니다. 사용자 정의 함수나 내장 함수 등 모두 가능합니다.
- `axis`: 0이면 함수가 열(column)에 적용됩니다. 1이면 함수가 행(row)에 적용됩니다.
- `raw`: True이면 행 또는 열을 배열로 전달하고, False이면 Series로 전달합니다.
- `result_type`: 반환되는 결과의 데이터 타입을 지정합니다.
- `args`: 함수에 추가적인 인자를 전달할 경우 사용합니다.


In [22]:
"""
각 열의 최대값 확인
"""

import pandas as pd

# 데이터 생성
data = {
    'A': [1, 5, 3, 10, 6],
    'B': [9, 8, 4, 2, 7],
    'C': [12, 14, 11, 13, 15]
}

df = pd.DataFrame(data)

# 각 열에 대해 최대값을 찾는 함수 정의
def find_max(column):
    return column.max()

max_values = df.apply(find_max, axis=0)
df.loc["최대값"] = max_values

In [23]:
df

Unnamed: 0,A,B,C
0,1,9,12
1,5,8,14
2,3,4,11
3,10,2,13
4,6,7,15
최대값,10,9,15


In [24]:
"""
각 행의 최대, 최소 차이
"""

import pandas as pd

# 데이터 생성
data = {
    'A': [1, 5, 3, 10, 6],
    'B': [9, 8, 4, 2, 7],
    'C': [12, 14, 11, 13, 15]
}

df = pd.DataFrame(data)

print("Original DataFrame:")
print(df)

# 각 행에서 최대값과 최소값의 차이를 계산하는 함수 정의
def max_min_diff(row):
    return row.max() - row.min()

# apply() 메서드를 사용하여 각 행에 max_min_diff 함수 적용
df['최대최소차이'] = df.apply(max_min_diff, axis=1)

Original DataFrame:
    A  B   C
0   1  9  12
1   5  8  14
2   3  4  11
3  10  2  13
4   6  7  15


In [25]:
df

Unnamed: 0,A,B,C,최대최소차이
0,1,9,12,11
1,5,8,14,9
2,3,4,11,8
3,10,2,13,11
4,6,7,15,9


In [26]:
"""
apply()에 lambda 적용
"""
# '성별' 열의 값에 매핑을 적용하여 숫자로 변환

import pandas as pd
import numpy as np

# 데이터 생성
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Weight': [65, 70, 85, None],
        'Height': [1.65, 1.8, 1.75, 1.7]
}

df = pd.DataFrame(data)
df["BMI"] = df.apply(lambda x: np.round(x["Weight"] / (x["Height"])**2,1), axis=1)

In [27]:
df

Unnamed: 0,Name,Weight,Height,BMI
0,Alice,65.0,1.65,23.9
1,Bob,70.0,1.8,21.6
2,Charlie,85.0,1.75,27.8
3,David,,1.7,


## 필터링 기반 apply 적용


데이터프레임에서 조건에 맞는 셀의 데이터에만 map과 apply를 적용하는 방법은 loc 인덱싱을 사용하여 조건을 만족하는 행과 열을 선택한 후에 해당 위치에 함수를 적용하면 됩니다.



In [28]:
import pandas as pd

# 데이터 생성
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Ella'],
    'Age': [25, 30, 35, 40, 45],
    'City': ['New York', 'London', 'Paris', 'Berlin', 'Tokyo']
}

df = pd.DataFrame(data)


In [29]:
# Age가 35 이상인 행들의 'Age' 값을 10 증가시킴 (map 적용)
df.loc[df['Age'] >= 35, 'Age'] = df.loc[df['Age'] >= 35, 'Age'].map(lambda x: x + 10)


In [30]:
# Name이 'Alice'인 행들의 'Name'을 대문자로 변경 (apply 적용)
df.loc[df['Name'] == 'Alice', 'Name'] = df.loc[df['Name'] == 'Alice', 'Name'].apply(lambda x: x.upper())



## agg()
agg() 함수를 사용하면 여러 개의 집계 함수를 동시에 적용할 수 있으며, 그룹화된 데이터에서 원하는 다양한 집계 연산을 손쉽게 수행할 수 있습니다.

내장 집계 함수:

| 이름 | 기능 |
|--|--|
|mean()| 평균을 계산합니다.|
|sum()| 합계를 계산합니다.|
|min()| 최소값을 찾습니다.|
|max()| 최대값을 찾습니다.|
|count()| 데이터의 개수를 세어줍니다.|
|median()| 중앙값을 계산합니다.|
|std()| 표준편차를 계산합니다.|
|var()| 분산을 계산합니다.|
|quantile(q)| q-분위수를 계산합니다. (0 <= q <= 1)|


In [31]:
import pandas as pd
import numpy as np
data = dict(
    Name="Alice Bob Charlie David".split(" "),
    Math=np.random.randint(50,100,4),
    Eng=np.random.randint(50,100,4),
)
df = pd.DataFrame(data)

In [32]:
df

Unnamed: 0,Name,Math,Eng
0,Alice,63,86
1,Bob,81,61
2,Charlie,68,78
3,David,69,64


In [33]:
df.iloc[:,1:].agg(["sum", "mean", "max"])

Unnamed: 0,Math,Eng
sum,281.0,289.0
mean,70.25,72.25
max,81.0,86.0


In [34]:
def mean_squared_error(s):
    mean = s.mean()
    return (sum((s-mean)**2))**.5

In [35]:
df.iloc[:,1:].agg(["std", lambda x: x.idxmax(), mean_squared_error])

Unnamed: 0,Math,Eng
std,7.632169,11.786291
<lambda>,1.0,0.0
mean_squared_error,13.219304,20.414456


In [36]:
import pandas as pd

# 데이터 생성
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Ella'],
    'Age': [25, 30, 35, 40, 45],
    'City': ['New York', 'London', 'Paris', 'Berlin', 'Tokyo']
}

df = pd.DataFrame(data)



In [37]:
# Age가 35 이상인 행들만 필터링 (boolean vector 사용)
age_condition = df['Age'] >= 35
filtered_df = df[age_condition]


In [38]:
# City가 'London'인 행들만 필터링 (boolean vector 사용)
city_condition = df['City'] == 'London'
filtered_df_2 = df[city_condition]

## 손실데이터 처리

누락된 값(결측치)을 적절한 값으로 대체하는 것입니다. 판다스(Pandas)에서는 fillna() 메서드를 사용하여 누락된 값을 다른 값으로 채울 수 있습니다.

In [39]:
import pandas as pd
import numpy as np

# 데이터 생성 (일부 값이 누락된 데이터)
data = {
    'A': [1, 2, np.nan, 4, 5],
    'B': [10, np.nan, 30, np.nan, 50],
    'C': [100, 200, 300, np.nan, np.nan]
}

df = pd.DataFrame(data)

print("Original DataFrame:")
print(df)



Original DataFrame:
     A     B      C
0  1.0  10.0  100.0
1  2.0   NaN  200.0
2  NaN  30.0  300.0
3  4.0   NaN    NaN
4  5.0  50.0    NaN


In [40]:
# 손실데이터 갯수 확인
print(df.isna().sum())
print(df.isna().sum(axis=1))
print(df.isna().sum().sum())

A    1
B    2
C    2
dtype: int64
0    0
1    1
2    1
3    2
4    1
dtype: int64
5


In [41]:
# 누락된 값을 0으로 대체
df_filled_with_zero = df.fillna(0)

print("\nDataFrame with Missing Values Filled with Zero:")
print(df_filled_with_zero)





DataFrame with Missing Values Filled with Zero:
     A     B      C
0  1.0  10.0  100.0
1  2.0   0.0  200.0
2  0.0  30.0  300.0
3  4.0   0.0    0.0
4  5.0  50.0    0.0


In [42]:
# 누락된 값을 평균값으로 대체
df_filled_with_mean = df.fillna(df.mean())

print("\nDataFrame with Missing Values Filled with Mean:")
print(df_filled_with_mean)




DataFrame with Missing Values Filled with Mean:
     A     B      C
0  1.0  10.0  100.0
1  2.0  30.0  200.0
2  3.0  30.0  300.0
3  4.0  30.0  200.0
4  5.0  50.0  200.0


In [43]:
# 누락된 값을 바로 앞의 값으로 대체 (forward fill)
df_filled_forward = df.fillna(method='ffill')

print("\nDataFrame with Missing Values Forward Filled:")
print(df_filled_forward)


DataFrame with Missing Values Forward Filled:
     A     B      C
0  1.0  10.0  100.0
1  2.0  10.0  200.0
2  2.0  30.0  300.0
3  4.0  30.0  300.0
4  5.0  50.0  300.0


# 데이터 붙이기

merge()와 concat()은 판다스(Pandas)에서 데이터프레임을 합치는 데 사용되는 두 가지 중요한 메서드입니다. 


concat() 메서드:
concat() 메서드는 여러 개의 데이터프레임을 행(axis=0) 또는 열(axis=1) 방향으로 합치는 데 사용됩니다.  
기본적으로 데이터프레임을 단순히 연결하여 합치는 기능을 제공합니다.

concat() 메서드의 형식:

```python
pd.concat(objs, axis=0, join='outer', ignore_index=False)
```
    
- `objs`: 합치려는 데이터프레임을 리스트 형태로 전달합니다.
- `axis`: 합치는 방향을 지정합니다. 0이면 행 방향, 1이면 열 방향입니다.
- `join`: 합치는 방식을 지정합니다. 기본값은 'outer'로, 합집합을 반환합니다.
- `ignore_index`: 기존 인덱스를 무시하고 새로운 인덱스를 생성하도록 지정합니다.

In [44]:
"""

concat() 메서드의 axis 매개변수를 사용하여 데이터프레임을 합칠 때 방향(행 또는 열)을 지정할 수 있습니다. axis 매개변수에는 0 또는 1을 입력할 수 있으며, 각각 행 방향과 열 방향을 의미합니다.
"""
import pandas as pd

# 데이터 생성
data1 = {
    'ID': [1, 2, 3],
    'Name': ['Alice', 'Bob', 'Charlie']
}

data2 = {
    'Age': [25, 30, 35],
    'City': ['New York', 'London', 'Paris']
}

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)







In [45]:
# concat 메서드에서 axis=0을 사용하여 행 방향으로 합치기
concatenated_rows = pd.concat([df1, df2], axis=0)

In [46]:
# concat 메서드에서 axis=1을 사용하여 열 방향으로 합치기
concatenated_columns = pd.concat([df1, df2], axis=1)


In [47]:
"""
join:
join='outer': 기본값으로, 인덱스가 겹치지 않는 경우에는 빈 값(NaN)으로 처리되며, 인덱스가 겹치는 경우에는 합집합으로 합쳐집니다.
join='inner': 인덱스가 겹치는 경우에는 교집합으로 합쳐집니다.
"""
import pandas as pd

# 데이터 생성
data1 = {
    'ID': [1, 2, 3],
    'Name': ['Alice', 'Bob', 'Charlie']
}

data2 = {
    'ID': [2, 3, 4],
    'Age': [25, 30, 35]
}

df1 = pd.DataFrame(data1, index=[100, 101, 102])
df2 = pd.DataFrame(data2, index=[101, 102, 103])



In [48]:
df1, df2

(     ID     Name
 100   1    Alice
 101   2      Bob
 102   3  Charlie,
      ID  Age
 101   2   25
 102   3   30
 103   4   35)

In [49]:
# concat 메서드에서 join='outer'를 사용하여 기본값으로 합치기
concatenated_outer = pd.concat([df1, df2], axis=1, join='outer')
concatenated_outer

Unnamed: 0,ID,Name,ID.1,Age
100,1.0,Alice,,
101,2.0,Bob,2.0,25.0
102,3.0,Charlie,3.0,30.0
103,,,4.0,35.0


In [50]:
# concat 메서드에서 join='inner'를 사용하여 교집합으로 합치기
concatenated_inner = pd.concat([df1, df2], axis=1, join='inner')

In [51]:
concatenated_inner

Unnamed: 0,ID,Name,ID.1,Age
101,2,Bob,2,25
102,3,Charlie,3,30


In [52]:
"""
ignore_index 매개변수는 concat() 메서드를 사용할 때, 합치는 데이터프레임의 인덱스를 무시하고 새로운 인덱스를 생성할지 여부를 지정하는 옵션
ignore_index=False (기본값): 합쳐진 데이터프레임에 대해 기존 데이터프레임의 인덱스를 유지합니다.
ignore_index=True: 합쳐진 데이터프레임에 대해 기존 인덱스를 무시하고 새로운 연속적인 인덱스를 부여합니다.
"""

import pandas as pd

# 데이터 생성
data1 = {
    'ID': [1, 2, 3],
    'Name': ['Alice', 'Bob', 'Charlie']
}

data2 = {
    'ID': [4, 5, 6],
    'Name': ['David', 'Ella', 'Frank']
}

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)


In [53]:
# ignore_index=False (기본값)인 경우
concatenated_default = pd.concat([df1, df2])


In [54]:
# ignore_index=True로 설정하여 새로운 인덱스 생성
concatenated_ignore_index = pd.concat([df1, df2], ignore_index=True)

1. merge() 메서드:
merge() 메서드는 두 개의 데이터프레임을 특정 열(column)을 기준으로 합치는 데 사용됩니다. SQL의 JOIN 연산과 유사한 기능을 제공합니다.

merge() 메서드의 형식:

```python
pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None)
```

- `left`: 왼쪽에 있는 데이터프레임을 지정합니다.
- `right`: 오른쪽에 있는 데이터프레임을 지정합니다.
- `how`: 합치는 방식을 지정합니다. 기본값은 'inner'로, 교집합을 반환합니다. `outer`, `left`, `right` 등이 가능합니다.
- `on`, `left_on`, `right_on`: 합치는 기준 열을 지정합니다.


In [55]:
import pandas as pd

# 데이터 생성
data1 = {
    'ID': [1, 2, 3, 4, 5],
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Ella']
}

data2 = {
    'ID': [3, 4, 5, 6, 7],
    'Age': [25, 30, 35, 40, 45]
}

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)


how 매개변수를 사용하여 'inner', 'outer', 'left', 'right' 방식으로 두 데이터프레임을 합치는 방법

|매개변수|기능|
|--|--|
|'inner'| 두 데이터프레임의 'ID' 열을 비교하여 공통된 'ID' 값만 합칩니다.|
|'outer'| 두 데이터프레임의 모든 행을 합치며,  'ID' 값이 하나라도 있는 경우에는 해당 값을,  둘 다 없는 경우에는 NaN으로 처리합니다.|
|'left'| 첫 번째 데이터프레임 df1의 모든 행을 합칩니다.  두 데이터프레임의 'ID' 열을 비교하여 공통된 'ID' 값만 합치며, 'df1'의 모든 행은 보존됩니다.|
|'right'| 두 번째 데이터프레임 df2의 모든 행을 합칩니다.  두 데이터프레임의 'ID' 열을 비교하여 공통된 'ID' 값만 합치며, 'df2'의 모든 행은 보존됩니다.|

In [None]:
# 'ID' 열을 기준으로 두 데이터프레임 합치기 (inner join)
merged_inner = pd.merge(df1, df2, on='ID')

In [None]:
# 'ID' 열을 기준으로 두 데이터프레임 합치기 (outer join)
merged_outer = pd.merge(df1, df2, on='ID', how='outer')

In [None]:
# 'ID' 열을 기준으로 두 데이터프레임 합치기 (left join)
merged_left = pd.merge(df1, df2, on='ID', how='left')

In [None]:
# 'ID' 열을 기준으로 두 데이터프레임 합치기 (right join)
merged_right = pd.merge(df1, df2, on='ID', how='right')

In [None]:
"""
on, left_on, right_on은 merge() 메서드에서 사용되는 매개변수로, 
두 데이터프레임을 특정 열을 기준으로 합칠 때 해당 열들을 지정하는 역할을 합니다.
left_on, right_on 매개변수를 사용하여 
두 데이터프레임이 서로 다른 열 이름을 가지고 있을 때도 쉽게 합치는 것이 가능합니다.
"""
import pandas as pd

# 데이터 생성
data1 = {
    'ID': [1, 2, 3],
    'Name': ['Alice', 'Bob', 'Charlie']
}

data2 = {
    'ID': [1, 2, 3],
    'Age': [25, 30, 35]
}

data3 = {
    'StudentID': [2, 3, 4],
    'Age': [25, 30, 35]
}


df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)
df3 = pd.DataFrame(data3)


In [None]:

# 'ID' 열을 기준으로 두 데이터프레임 합치기
merged_on = pd.merge(df1, df2, on='ID')

In [None]:
merged_on

In [None]:
merged_on = pd.merge(df1, df3, on='ID') # KeyError

In [None]:
# 'ID'와 'StudentID' 열을 기준으로 두 데이터프레임 합치기
merged_left_on_right_on = pd.merge(df1, df3, left_on='ID', right_on='StudentID')

In [None]:
merged_left_on_right_on

# 인덱스

데이터프레임의 `인덱스(Index)`는 행의 `식별자(identifier)`를 나타내는 `레이블(Label)`을 포함하는 구조입니다.  
판다스의 데이터프레임은 `행`과 `열`로 이루어진 `2차원 테이블`이며,  
`행`의 개별적인 식별을 위해 `인덱스`를 사용합니다.  
`인덱스`는 데이터프레임의 각 행에 대한 고유한 레이블로서,  
따로 지정하지 않으면 기본적으로 0부터 시작하는 정수 인덱스가 사용됩니다.

- `고유성`: 인덱스는 각 행을 식별하는 데에 사용되므로 고유해야 합니다. 
- `불변성`: 인덱스는 변경할 수 없는 불변(immutable)한 속성을 가집니다. 기존 인덱스 값을 직접 변경하는 것은 불가능하며, 새로운 데이터프레임을 생성하거나 인덱스를 재설정하는 방식으로 인덱스를 변경할 수 있습니다.
- `유형`: 인덱스는 문자열, 정수, 날짜 등 다양한 유형을 가질 수 있습니다. 기본 인덱스로 정수 인덱스가 사용되지만, 필요에 따라 유저가 직접 인덱스를 지정할 수 있습니다.



In [56]:
import pandas as pd

# 주식 가격 데이터 생성
data = {
    'Date': ['2023-08-01', '2023-08-02', '2023-08-03', '2023-08-04', '2023-08-05'],
    'Open': [1000, 1050, 1020, 1080, 1100],
    'High': [1020, 1100, 1040, 1120, 1120],
    'Low': [980, 1040, 1000, 1060, 1080],
    'Close': [1010, 1080, 1030, 1100, 1100],
}

df = pd.DataFrame(data)

In [57]:
# 인덱스 활용 예제 1: 인덱스 설정
df.set_index('Date', inplace=True)

In [58]:
# 인덱스 활용 예제 2: 인덱싱 및 슬라이싱
print(df.loc['2023-08-03'])

Open     1020
High     1040
Low      1000
Close    1030
Name: 2023-08-03, dtype: int64


In [59]:
# 특정 기간의 주식 정보 가져오기
print(df.loc['2023-08-02':'2023-08-04'])

            Open  High   Low  Close
Date                               
2023-08-02  1050  1100  1040   1080
2023-08-03  1020  1040  1000   1030
2023-08-04  1080  1120  1060   1100


In [60]:
# 인덱스 리셋
df.reset_index(inplace=True)

# 다중인덱스

파이썬의 판다스 라이브러리에서는 `MultiIndex(다중 인덱스)`를 사용하여  
데이터프레임의 인덱스에 `여러 수준`의 `레이블`을 가지게 할 수 있습니다.  
MultiIndex를 사용하면 데이터프레임을 여러 차원으로 분류하고 계층적으로 인덱싱할 수 있습니다. 

- `계층 구조`: MultiIndex는 인덱스의 각 레벨에 대해 계층 구조를 제공합니다. 여러 레벨의 인덱스를 사용하여 데이터를 조직화하고 더욱 복잡한 분석을 수행할 수 있습니다.
- `인덱싱 및 슬라이싱`: MultiIndex를 사용하여 특정 레벨의 인덱스를 기준으로 데이터를 인덱싱하고 슬라이싱할 수 있습니다. 이는 데이터를 계층적으로 관리하고 필요한 정보를 빠르게 추출하는 데 도움이 됩니다.


In [61]:
import pandas as pd

# 다중 인덱스 생성 예제
data = {
    'Year': [2019, 2019, 2020, 2020, 2021, 2021],
    'Quarter': [1, 2, 1, 2, 1, 2],
    'Revenue': [100, 120, 110, 130, 120, 140],
    'Profit': [20, 25, 22, 28, 24, 30]
}

df = pd.DataFrame(data)
multi_index_df = df.set_index(['Year', 'Quarter'])


In [62]:
# 2020년 데이터만 선택
multi_index_df.loc[2020]

Unnamed: 0_level_0,Revenue,Profit
Quarter,Unnamed: 1_level_1,Unnamed: 2_level_1
1,110,22
2,130,28


In [63]:
# 2019년 2분기 데이터만 선택
multi_index_df.loc[(2019, 2)]


Revenue    120
Profit      25
Name: (2019, 2), dtype: int64

In [64]:
# 2019년 1분기의 매출과 이익 선택
multi_index_df.loc[(2019, 1), ['Revenue', 'Profit']]

Revenue    100
Profit      20
Name: (2019, 1), dtype: int64