# Pandas 10분 완성

- [관련 링크](https://dataitgirls2.github.io/10minutes2pandas/)

### 목차
|장|내용|
|---|---|
|1|Object Creation(객체 생성)|
|2|Viewing Data(데이터 확인하기)|
|3|Selection(선택)|
|4|Missing Data(결측치)|
|5|Operation(연산)|
|6|Merge(병합)|
|7|Grouping(그룹화)|
|8|Reshaping(변형)|
|9|Time Series(시계열)|
|10|Categoricals(범주화)|
|11|Plotting(그래프)|
|12|Getting Data In/Out(데이터 입/출력)|
|13|Gotchas(잡았다!)|

일반적으로 각 패키지는 pd, np, plt라는 이름으로 불러온다.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## 1. Object Creation (객체 생성)

Pandas는 값을 가지고 있는 리스트를 통해 `Series`를 만들고, 정수로 만들어진 인덱스를 기본값으로 불러온다.

In [2]:
s = pd.Series([1, 3, 5, np.nan, 6, 8])

In [3]:
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

`datatime` 인덱스와 레이블이 있는 열을 가지고 있는 numpy 배열을 전달하여 데이터프레임을 생성한다. 

In [4]:
dates = pd.date_range('20250123', periods=6)

In [5]:
dates

DatetimeIndex(['2025-01-23', '2025-01-24', '2025-01-25', '2025-01-26',
               '2025-01-27', '2025-01-28'],
              dtype='datetime64[ns]', freq='D')

In [6]:
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD'))

In [7]:
df

Unnamed: 0,A,B,C,D
2025-01-23,0.677974,1.469024,0.742591,0.187586
2025-01-24,-0.94847,-0.198535,0.227704,-0.76222
2025-01-25,0.248685,-0.591954,-1.092373,-2.521179
2025-01-26,-0.737808,-0.33967,-0.736212,0.429944
2025-01-27,0.94099,-0.603859,-0.689607,2.865007
2025-01-28,-0.164654,0.158378,-0.884508,0.918559


Series와 같은 것으로 변환될 수 있는 객체들의 `dict`로 구성된 데이터프레임을 만든다.

In [8]:
df2 = pd.DataFrame({
    'A': 1.,
    'B': pd.Timestamp('20250123'),
    'C': pd.Series(1, index=list(range(4)), dtype='float32'),
    'D': np.array([3] * 4, dtype='int32'),
    'E': pd.Categorical(["test", "traing", "test", "traint"]),
    'F': 'foo'
})

In [9]:
df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2025-01-23,1.0,3,test,foo
1,1.0,2025-01-23,1.0,3,traing,foo
2,1.0,2025-01-23,1.0,3,test,foo
3,1.0,2025-01-23,1.0,3,traint,foo


DataFrame의 결과물의 column은 다양한 데이터 타입(dtpyes)으로 구성된다.

In [10]:
df2.dtypes

A          float64
B    datetime64[s]
C          float32
D            int32
E         category
F           object
dtype: object

## 2. Viewing Data (데이터 확인하기)

DataFrame의 가장 윗 줄과 마지막 줄을 확인하고 싶을 때에 사용하는 방법은 다음과 같다.
- 괄호 안에는 숫자가 들어갈 수도 있고 안 들어갈 수도 있다.
- 숫자가 들어간다면, 윗 / 마지막 줄의 특정 줄을 불러올 수 있다.
- 숫자가 들어가지 않는다면, 기본값은 5로 처리된다.

In [11]:
df.tail(3) # 끝에서 마지막 3줄
df.tail() # 끝에서 마지막 5줄

Unnamed: 0,A,B,C,D
2025-01-24,-0.94847,-0.198535,0.227704,-0.76222
2025-01-25,0.248685,-0.591954,-1.092373,-2.521179
2025-01-26,-0.737808,-0.33967,-0.736212,0.429944
2025-01-27,0.94099,-0.603859,-0.689607,2.865007
2025-01-28,-0.164654,0.158378,-0.884508,0.918559


In [12]:
df.head() # 처음에서 5줄

Unnamed: 0,A,B,C,D
2025-01-23,0.677974,1.469024,0.742591,0.187586
2025-01-24,-0.94847,-0.198535,0.227704,-0.76222
2025-01-25,0.248685,-0.591954,-1.092373,-2.521179
2025-01-26,-0.737808,-0.33967,-0.736212,0.429944
2025-01-27,0.94099,-0.603859,-0.689607,2.865007


In [13]:
df.tail(3)

Unnamed: 0,A,B,C,D
2025-01-26,-0.737808,-0.33967,-0.736212,0.429944
2025-01-27,0.94099,-0.603859,-0.689607,2.865007
2025-01-28,-0.164654,0.158378,-0.884508,0.918559


인덱스 (index), 열 (column) 그리고 numpy 데이터에 대한 세부 정보를 본다.

In [14]:
df.index

DatetimeIndex(['2025-01-23', '2025-01-24', '2025-01-25', '2025-01-26',
               '2025-01-27', '2025-01-28'],
              dtype='datetime64[ns]', freq='D')

In [15]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

In [16]:
df.values

array([[ 0.67797372,  1.46902431,  0.74259112,  0.18758622],
       [-0.94847027, -0.19853488,  0.22770364, -0.76222014],
       [ 0.24868468, -0.59195363, -1.09237299, -2.52117852],
       [-0.73780787, -0.33966989, -0.73621237,  0.42994393],
       [ 0.94099008, -0.60385862, -0.68960699,  2.86500673],
       [-0.16465369,  0.15837806, -0.8845084 ,  0.91855901]])

describe()는 데이터의 대략적인 통계적 정보 요약을 보여준다.

- `count`: 열의 유효값(결측값이 아닌 값)의 개수
- `mean`: 열의 평균값
- `std`: 열의 표준편차 (데이터의 분산 정도)
- `min`: 열의 최솟값
- `25%`: 열의 1사분위수 (데이터의 하위 25% 지점)
- `50%`: 열의 중앙값 (데이터의 50% 지점, 2사분위수 또는 중위수)
- `75%`: 열의 3사분위수 (데이터의 상위 25%를 제외한 하위 75% 지점)
- `max`: 열의 최댓값

In [17]:
df.describe()

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,0.002786,-0.017769,-0.405401,0.186283
std,0.75868,0.781162,0.72255,1.78892
min,-0.94847,-0.603859,-1.092373,-2.521179
25%,-0.594519,-0.528883,-0.847434,-0.524769
50%,0.042015,-0.269102,-0.71291,0.308765
75%,0.570651,0.06915,-0.001624,0.796405
max,0.94099,1.469024,0.742591,2.865007


데이터를 전치한다.

In [18]:
df.T

Unnamed: 0,2025-01-23,2025-01-24,2025-01-25,2025-01-26,2025-01-27,2025-01-28
A,0.677974,-0.94847,0.248685,-0.737808,0.94099,-0.164654
B,1.469024,-0.198535,-0.591954,-0.33967,-0.603859,0.158378
C,0.742591,0.227704,-1.092373,-0.736212,-0.689607,-0.884508
D,0.187586,-0.76222,-2.521179,0.429944,2.865007,0.918559


축 별로 정렬한다.
sort_index()에서 axis = 0인 경우 행(row)을 기준으로 정렬하고, axis = 1인 경우 열(column)을 기준으로 정렬한다.

In [19]:
df.sort_index(axis=1, ascending=False)

Unnamed: 0,D,C,B,A
2025-01-23,0.187586,0.742591,1.469024,0.677974
2025-01-24,-0.76222,0.227704,-0.198535,-0.94847
2025-01-25,-2.521179,-1.092373,-0.591954,0.248685
2025-01-26,0.429944,-0.736212,-0.33967,-0.737808
2025-01-27,2.865007,-0.689607,-0.603859,0.94099
2025-01-28,0.918559,-0.884508,0.158378,-0.164654


값 별로 정렬한다.

In [20]:
df.sort_values(by='B')

Unnamed: 0,A,B,C,D
2025-01-27,0.94099,-0.603859,-0.689607,2.865007
2025-01-25,0.248685,-0.591954,-1.092373,-2.521179
2025-01-26,-0.737808,-0.33967,-0.736212,0.429944
2025-01-24,-0.94847,-0.198535,0.227704,-0.76222
2025-01-28,-0.164654,0.158378,-0.884508,0.918559
2025-01-23,0.677974,1.469024,0.742591,0.187586


## 3. Selection (선택)

Python 및 Numpy의 선택과 설정을 위한 표현들은 직관적이고 코드 작성을 위한 작업에 유용하다.
하지만, `.at`, `.iat`, `.loc`, `.iloc`가 Pandas에 최적화되어 있기 때문에 사용하는 것을 추천한다.

### Getting (데이터 얻기)

`df.A`와 동일한 Series를  생성하는 단일 열을 선택한다.

In [21]:
df['A']

2025-01-23    0.677974
2025-01-24   -0.948470
2025-01-25    0.248685
2025-01-26   -0.737808
2025-01-27    0.940990
2025-01-28   -0.164654
Freq: D, Name: A, dtype: float64

행을 분할하는 []를 통해 선택한다.

In [22]:
df[0:3]

Unnamed: 0,A,B,C,D
2025-01-23,0.677974,1.469024,0.742591,0.187586
2025-01-24,-0.94847,-0.198535,0.227704,-0.76222
2025-01-25,0.248685,-0.591954,-1.092373,-2.521179


In [23]:
df['20250123':'20250125']

Unnamed: 0,A,B,C,D
2025-01-23,0.677974,1.469024,0.742591,0.187586
2025-01-24,-0.94847,-0.198535,0.227704,-0.76222
2025-01-25,0.248685,-0.591954,-1.092373,-2.521179


### Selection by Label (Label을 통한 선택)

Label을 사용하여 횡단면을 얻는다.

In [24]:
df.loc[dates[0]]

A    0.677974
B    1.469024
C    0.742591
D    0.187586
Name: 2025-01-23 00:00:00, dtype: float64

Label을 사용하여 여러 축의 데이터를 얻는다.

In [25]:
df.loc[:, ['A', 'B']]

Unnamed: 0,A,B
2025-01-23,0.677974,1.469024
2025-01-24,-0.94847,-0.198535
2025-01-25,0.248685,-0.591954
2025-01-26,-0.737808,-0.33967
2025-01-27,0.94099,-0.603859
2025-01-28,-0.164654,0.158378


양쪽 종단점을 포함한 Label 슬라이싱을 본다.

In [26]:
df.loc['20250123':'20250125', ['A','B']]

Unnamed: 0,A,B
2025-01-23,0.677974,1.469024
2025-01-24,-0.94847,-0.198535
2025-01-25,0.248685,-0.591954


반환되는 객체의 차원을 줄인다.

In [27]:
df.loc['20250123', ['A','B']]

A    0.677974
B    1.469024
Name: 2025-01-23 00:00:00, dtype: float64

스칼라 값을 얻는다.

In [28]:
df.loc[dates[0], 'A']

np.float64(0.6779737219405844)

스칼라 값을 더 빠르게 구하는 방법(앞선 메소드와 동일)

In [29]:
df.at[dates[0], 'A']

np.float64(0.6779737219405844)

### Selection by Position (위치로 선택하기)

넘겨받은 정수의 위치(인덱스)를 기준으로 선택한다.

In [30]:
df.iloc[3]

A   -0.737808
B   -0.339670
C   -0.736212
D    0.429944
Name: 2025-01-26 00:00:00, dtype: float64

정수로 표기된 슬라이스들을 통해, Python/Numpy와 유사하게 작동한다.

In [31]:
df.iloc[3:5, 0:2]

Unnamed: 0,A,B
2025-01-26,-0.737808,-0.33967
2025-01-27,0.94099,-0.603859


정수로 표기된 위치값의 리스트들을 통해, Python/Numpy의 스타일과 유사해진다.

In [32]:
df.iloc[[1,2,4],[0,2]]

Unnamed: 0,A,C
2025-01-24,-0.94847,0.227704
2025-01-25,0.248685,-1.092373
2025-01-27,0.94099,-0.689607


명시적으로 행을 나누고자 하는 경우

In [33]:
df.iloc[1:3,:]

Unnamed: 0,A,B,C,D
2025-01-24,-0.94847,-0.198535,0.227704,-0.76222
2025-01-25,0.248685,-0.591954,-1.092373,-2.521179


명시적으로 열을 나누고자 하는 경우

In [34]:
df.iloc[:,1:3]

Unnamed: 0,B,C
2025-01-23,1.469024,0.742591
2025-01-24,-0.198535,0.227704
2025-01-25,-0.591954,-1.092373
2025-01-26,-0.33967,-0.736212
2025-01-27,-0.603859,-0.689607
2025-01-28,0.158378,-0.884508


명시적으로 (특정한) 값을 얻고자 하는 경우

In [35]:
df.iloc[1,1]

np.float64(-0.19853488440980152)

스칼라 값을 빠르게 얻는 방법 (위와 동일)

In [36]:
df.iat[1,1]

np.float64(-0.19853488440980152)

### Boolean Indexing

데이터를 선택하기 위해 단일 열의 값을 사용한다.

In [37]:
df[df.A > 0]

Unnamed: 0,A,B,C,D
2025-01-23,0.677974,1.469024,0.742591,0.187586
2025-01-25,0.248685,-0.591954,-1.092373,-2.521179
2025-01-27,0.94099,-0.603859,-0.689607,2.865007


Boolean 조건을 충족하는 DataFrame에서 값을 선택한다.

In [38]:
df[df > 0]

Unnamed: 0,A,B,C,D
2025-01-23,0.677974,1.469024,0.742591,0.187586
2025-01-24,,,0.227704,
2025-01-25,0.248685,,,
2025-01-26,,,,0.429944
2025-01-27,0.94099,,,2.865007
2025-01-28,,0.158378,,0.918559


필터링을 위한 메소드 `isin()`을 사용한다.

In [39]:
df2 = df.copy()

In [40]:
df2['E'] = ['one', 'one', 'two', 'three', 'four', 'three']

In [41]:
df2

Unnamed: 0,A,B,C,D,E
2025-01-23,0.677974,1.469024,0.742591,0.187586,one
2025-01-24,-0.94847,-0.198535,0.227704,-0.76222,one
2025-01-25,0.248685,-0.591954,-1.092373,-2.521179,two
2025-01-26,-0.737808,-0.33967,-0.736212,0.429944,three
2025-01-27,0.94099,-0.603859,-0.689607,2.865007,four
2025-01-28,-0.164654,0.158378,-0.884508,0.918559,three


In [42]:
df2[df2['E'].isin(['two', 'four'])]

Unnamed: 0,A,B,C,D,E
2025-01-25,0.248685,-0.591954,-1.092373,-2.521179,two
2025-01-27,0.94099,-0.603859,-0.689607,2.865007,four


### Setting (설정)

새 열을 설정하면 데이터가 인덱스 별로 자동 정렬된다.

In [43]:
s1 = pd.Series([1, 2, 3, 4, 5, 6], index = pd.date_range('20250123', periods=6))

In [44]:
s1

2025-01-23    1
2025-01-24    2
2025-01-25    3
2025-01-26    4
2025-01-27    5
2025-01-28    6
Freq: D, dtype: int64

In [45]:
df['F'] = s1

Label에 의해 값을 설정한다.

In [46]:
df.at[dates[0], 'A'] = 0

위치에 의해 값을 설정한다.

In [47]:
df.iat[0, 1] = 0

Numpy 배열을 사용한 할당에 의해 값을 설정한다.

In [48]:
df.loc[:, 'D'] = np.array([5] * len(df))

위 설정대로 작동한 결과

In [49]:
df

Unnamed: 0,A,B,C,D,F
2025-01-23,0.0,0.0,0.742591,5.0,1
2025-01-24,-0.94847,-0.198535,0.227704,5.0,2
2025-01-25,0.248685,-0.591954,-1.092373,5.0,3
2025-01-26,-0.737808,-0.33967,-0.736212,5.0,4
2025-01-27,0.94099,-0.603859,-0.689607,5.0,5
2025-01-28,-0.164654,0.158378,-0.884508,5.0,6


where 연산을 설정한다.

In [50]:
df2 = df.copy()

In [51]:
df2[df2 > 0] = -df2

In [52]:
df2

Unnamed: 0,A,B,C,D,F
2025-01-23,0.0,0.0,-0.742591,-5.0,-1
2025-01-24,-0.94847,-0.198535,-0.227704,-5.0,-2
2025-01-25,-0.248685,-0.591954,-1.092373,-5.0,-3
2025-01-26,-0.737808,-0.33967,-0.736212,-5.0,-4
2025-01-27,-0.94099,-0.603859,-0.689607,-5.0,-5
2025-01-28,-0.164654,-0.158378,-0.884508,-5.0,-6


## 4. Missing Data (결측치)

Pandas는 결측치를 표현하기 위해 주로 `NaN` 값을 사용한다.
이 방법은 기본 설정값이지만 계산에는 포함되지 않는다.

Reindexing으로 지정된 column 상의 인덱스를 변경/추가/삭제할 수 있다.
Reindexing은 데이터의 복사본을 반환한다.

In [53]:
df1 = df.reindex(index=dates[0:4], columns=list(df.columns) + ['E'])

In [54]:
df1.loc[dates[0]:dates[1], 'E'] = 1

In [55]:
df1

Unnamed: 0,A,B,C,D,F,E
2025-01-23,0.0,0.0,0.742591,5.0,1,1.0
2025-01-24,-0.94847,-0.198535,0.227704,5.0,2,1.0
2025-01-25,0.248685,-0.591954,-1.092373,5.0,3,
2025-01-26,-0.737808,-0.33967,-0.736212,5.0,4,


결측치를 하나라도 가지고 있는 row를 삭제한다.

In [56]:
df1.dropna(how='any')

Unnamed: 0,A,B,C,D,F,E
2025-01-23,0.0,0.0,0.742591,5.0,1,1.0
2025-01-24,-0.94847,-0.198535,0.227704,5.0,2,1.0


결측치를 채워넣는다.

In [57]:
df1.fillna(value=5)

Unnamed: 0,A,B,C,D,F,E
2025-01-23,0.0,0.0,0.742591,5.0,1,1.0
2025-01-24,-0.94847,-0.198535,0.227704,5.0,2,1.0
2025-01-25,0.248685,-0.591954,-1.092373,5.0,3,5.0
2025-01-26,-0.737808,-0.33967,-0.736212,5.0,4,5.0


NaN인 값에 boolean을 통한 표식을 얻는다.

DataFrame의 모든 값이 boolean 형태로 표시되도록 하며, `NaN`인 값에만 `True`가 표시되게 하는 함수

In [58]:
pd.isna(df1)

Unnamed: 0,A,B,C,D,F,E
2025-01-23,False,False,False,False,False,False
2025-01-24,False,False,False,False,False,False
2025-01-25,False,False,False,False,False,True
2025-01-26,False,False,False,False,False,True


## 5. Operation (연산)

### Stats (통계)

일반적으로 결측치를 제외한 후 연산된다.

평균을 구한다.

In [59]:
df.mean()

A   -0.110210
B   -0.262606
C   -0.405401
D    5.000000
F    3.500000
dtype: float64

각 row의 모든 column값의 평균을 구한다.

> df.mean(1) == df.mean(axis=1)



In [60]:
df.mean(1)

2025-01-23    1.348518
2025-01-24    1.216140
2025-01-25    1.312872
2025-01-26    1.437262
2025-01-27    1.929505
2025-01-28    2.021843
Freq: D, dtype: float64

정렬이 필요하며, 차원이 다른 객체 연산

pandas는 지정된 차원을 따라 자동으로 브로드캐스팅 된다.

> broadcast: numpy에서 유래한 용어로, 서로 차원이 다른 배열 간의 연산을 가능하게 한다.

In [61]:
s = pd.Series([1, 3, 5, np.nan, 6, 8], index=dates).shift(2)

In [62]:
s

2025-01-23    NaN
2025-01-24    NaN
2025-01-25    1.0
2025-01-26    3.0
2025-01-27    5.0
2025-01-28    NaN
Freq: D, dtype: float64

In [63]:
df.sub(s, axis='index')

Unnamed: 0,A,B,C,D,F
2025-01-23,,,,,
2025-01-24,,,,,
2025-01-25,-0.751315,-1.591954,-2.092373,4.0,2.0
2025-01-26,-3.737808,-3.33967,-3.736212,2.0,1.0
2025-01-27,-4.05901,-5.603859,-5.689607,0.0,0.0
2025-01-28,,,,,


### Apply (적용)

데이터에 함수를 적용한다.

각 행에 대한 누적합을 계산한다.

In [64]:
df.apply(np.cumsum)

Unnamed: 0,A,B,C,D,F
2025-01-23,0.0,0.0,0.742591,5.0,1
2025-01-24,-0.94847,-0.198535,0.970295,10.0,3
2025-01-25,-0.699786,-0.790489,-0.122078,15.0,6
2025-01-26,-1.437593,-1.130158,-0.858291,20.0,10
2025-01-27,-0.496603,-1.734017,-1.547898,25.0,15
2025-01-28,-0.661257,-1.575639,-2.432406,30.0,21


In [65]:
df.apply(lambda x: x.max() - x.min())

A    1.889460
B    0.762237
C    1.834964
D    0.000000
F    5.000000
dtype: float64

### Histogramming (히스토그래밍)

In [66]:
s = pd.Series(np.random.randint(0, 7, size=10))

In [67]:
s

0    1
1    6
2    2
3    0
4    6
5    6
6    4
7    1
8    6
9    3
dtype: int64

In [68]:
s.value_counts()

6    4
1    2
2    1
0    1
4    1
3    1
Name: count, dtype: int64

### String Methos (문자열 메소드)

Series는 다음의 코드와 같이 문자열 처리 메소드 모음(set)을 가지고 있다.
이 모음은 배열의 각 요소를 쉽게 조작할 수 있도록 만들어주는 문자열의 속성에 포함되어 있다.

문자열의 패턴 일치 확인은 기본적으로 정규 표현식을 사용하며, 몇몇 경우에는 항상 정규 표현식을 사용함에 유의해야 한다.

In [69]:
s = pd.Series(['A', 'B', 'C', 'Aaba', 'Baca', np.nan, 'CABA', 'dog', 'cat'])

In [70]:
s.str.lower()

0       a
1       b
2       c
3    aaba
4    baca
5     NaN
6    caba
7     dog
8     cat
dtype: object

## 6. Merge (병합)

### Concat (연결)

결합 (join) / 병합 (merge) 형태의 연산에 대한 인덱스, 관계 대수 기능을 위한 다양한 형태의 논리를 포함한 Series, DataFrame, Panel 객체를 손쉽게 결합할 수 있도록 하는 다양한 기능을 pandas에서 제공한다.

`concat()`으로 pandas 객체를 연결한다.

In [71]:
df = pd.DataFrame(np.random.randn(10, 4))

In [73]:
df

Unnamed: 0,0,1,2,3
0,-0.647998,-0.403593,-0.292059,1.735946
1,-0.111036,1.099566,-0.260404,0.649809
2,0.859039,-0.354992,0.068637,-0.652488
3,-0.739734,1.403555,-0.825051,0.521168
4,-0.806015,0.148819,-0.347918,0.32853
5,-1.004058,0.90746,-0.304469,-0.203873
6,0.001189,1.785483,0.198185,-0.276011
7,-0.250282,-0.193222,0.283288,-1.56764
8,-0.863706,-0.048078,0.08817,0.744789
9,0.593154,-0.107597,-0.525634,-0.482656


In [74]:
# break it into pieces
pieces = [df[:3], df[3:7], df[7:]]

In [75]:
pieces

[          0         1         2         3
 0 -0.647998 -0.403593 -0.292059  1.735946
 1 -0.111036  1.099566 -0.260404  0.649809
 2  0.859039 -0.354992  0.068637 -0.652488,
           0         1         2         3
 3 -0.739734  1.403555 -0.825051  0.521168
 4 -0.806015  0.148819 -0.347918  0.328530
 5 -1.004058  0.907460 -0.304469 -0.203873
 6  0.001189  1.785483  0.198185 -0.276011,
           0         1         2         3
 7 -0.250282 -0.193222  0.283288 -1.567640
 8 -0.863706 -0.048078  0.088170  0.744789
 9  0.593154 -0.107597 -0.525634 -0.482656]

In [76]:
pd.concat(pieces)

Unnamed: 0,0,1,2,3
0,-0.647998,-0.403593,-0.292059,1.735946
1,-0.111036,1.099566,-0.260404,0.649809
2,0.859039,-0.354992,0.068637,-0.652488
3,-0.739734,1.403555,-0.825051,0.521168
4,-0.806015,0.148819,-0.347918,0.32853
5,-1.004058,0.90746,-0.304469,-0.203873
6,0.001189,1.785483,0.198185,-0.276011
7,-0.250282,-0.193222,0.283288,-1.56764
8,-0.863706,-0.048078,0.08817,0.744789
9,0.593154,-0.107597,-0.525634,-0.482656


### Join (결합)

SQL 방식으로 결합합니다.

In [87]:
left = pd.DataFrame({'key': ['foo', 'foo'], 'lval': [1, 2]})

In [84]:
right = pd.DataFrame({'key': ['foo', 'foo'], 'rval': [4, 5]})

In [88]:
left

Unnamed: 0,key,lval
0,foo,1
1,foo,2


In [86]:
right

Unnamed: 0,key,rval
0,foo,4
1,foo,5


In [89]:
pd.merge(left, right, on='key')

Unnamed: 0,key,lval,rval
0,foo,1,4
1,foo,1,5
2,foo,2,4
3,foo,2,5


다른 예시

In [95]:
left = pd.DataFrame({'key': ['foo', 'bar'], 'lval': [1, 2]})

In [96]:
right = pd.DataFrame({'key': ['foo', 'bar'], 'rval': [4, 5]})

In [97]:
left

Unnamed: 0,key,lval
0,foo,1
1,bar,2


In [98]:
right

Unnamed: 0,key,rval
0,foo,4
1,bar,5


In [99]:
pd.merge(left, right, on='key')

Unnamed: 0,key,lval,rval
0,foo,1,4
1,bar,2,5


### Append (추가)

DataFrame에 row를 추가한다.

> **`append()`는 pandas 2.0.0 버전부터 완전히 제거되었기 때문에, `concat()`을 써야한다.**