# Pandas 10분 완성

- [관련 링크](https://dataitgirls2.github.io/10minutes2pandas/)

### 목차
|장|내용|
|---|---|
|1|Object Creation(객체 생성)|
|2|Viewing Data(데이터 확인하기)|
|3|Selection(선택)|
|4|Missing Data(결측치)|
|5|Operation(연산)|
|6|Merge(병합)|
|7|Grouping(그룹화)|
|8|Reshaping(변형)|
|9|Time Series(시계열)|
|10|Categoricals(범주화)|
|11|Plotting(그래프)|
|12|Getting Data In/Out(데이터 입/출력)|
|13|Gotchas(잡았다!)|

일반적으로 각 패키지는 pd, np, plt라는 이름으로 불러온다.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## 1. Object Creation (객체 생성)

Pandas는 값을 가지고 있는 리스트를 통해 `Series`를 만들고, 정수로 만들어진 인덱스를 기본값으로 불러온다.

In [2]:
s = pd.Series([1, 3, 5, np.nan, 6, 8])

In [3]:
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

`datatime` 인덱스와 레이블이 있는 열을 가지고 있는 numpy 배열을 전달하여 데이터프레임을 생성한다. 

In [4]:
dates = pd.date_range('20250123', periods=6)

In [5]:
dates

DatetimeIndex(['2025-01-23', '2025-01-24', '2025-01-25', '2025-01-26',
               '2025-01-27', '2025-01-28'],
              dtype='datetime64[ns]', freq='D')

In [6]:
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD'))

In [7]:
df

Unnamed: 0,A,B,C,D
2025-01-23,0.782546,2.138515,-0.77718,0.52611
2025-01-24,0.797693,0.982986,-0.089695,-0.909473
2025-01-25,0.15276,-1.482798,1.273267,-0.675653
2025-01-26,-1.254234,0.468886,-0.263169,-0.492807
2025-01-27,0.152301,0.589697,0.294021,-1.006312
2025-01-28,-0.430604,-0.692097,2.05936,0.975521


Series와 같은 것으로 변환될 수 있는 객체들의 `dict`로 구성된 데이터프레임을 만든다.

In [8]:
df2 = pd.DataFrame({
    'A': 1.,
    'B': pd.Timestamp('20250123'),
    'C': pd.Series(1, index=list(range(4)), dtype='float32'),
    'D': np.array([3] * 4, dtype='int32'),
    'E': pd.Categorical(["test", "traing", "test", "traint"]),
    'F': 'foo'
})

In [9]:
df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2025-01-23,1.0,3,test,foo
1,1.0,2025-01-23,1.0,3,traing,foo
2,1.0,2025-01-23,1.0,3,test,foo
3,1.0,2025-01-23,1.0,3,traint,foo


DataFrame의 결과물의 column은 다양한 데이터 타입(dtpyes)으로 구성된다.

In [10]:
df2.dtypes

A          float64
B    datetime64[s]
C          float32
D            int32
E         category
F           object
dtype: object

## 2. Viewing Data (데이터 확인하기)

DataFrame의 가장 윗 줄과 마지막 줄을 확인하고 싶을 때에 사용하는 방법은 다음과 같다.
- 괄호 안에는 숫자가 들어갈 수도 있고 안 들어갈 수도 있다.
- 숫자가 들어간다면, 윗 / 마지막 줄의 특정 줄을 불러올 수 있다.
- 숫자가 들어가지 않는다면, 기본값은 5로 처리된다.

In [11]:
df.tail(3) # 끝에서 마지막 3줄
df.tail() # 끝에서 마지막 5줄

Unnamed: 0,A,B,C,D
2025-01-24,0.797693,0.982986,-0.089695,-0.909473
2025-01-25,0.15276,-1.482798,1.273267,-0.675653
2025-01-26,-1.254234,0.468886,-0.263169,-0.492807
2025-01-27,0.152301,0.589697,0.294021,-1.006312
2025-01-28,-0.430604,-0.692097,2.05936,0.975521


In [12]:
df.head() # 처음에서 5줄

Unnamed: 0,A,B,C,D
2025-01-23,0.782546,2.138515,-0.77718,0.52611
2025-01-24,0.797693,0.982986,-0.089695,-0.909473
2025-01-25,0.15276,-1.482798,1.273267,-0.675653
2025-01-26,-1.254234,0.468886,-0.263169,-0.492807
2025-01-27,0.152301,0.589697,0.294021,-1.006312


In [13]:
df.tail(3)

Unnamed: 0,A,B,C,D
2025-01-26,-1.254234,0.468886,-0.263169,-0.492807
2025-01-27,0.152301,0.589697,0.294021,-1.006312
2025-01-28,-0.430604,-0.692097,2.05936,0.975521


인덱스 (index), 열 (column) 그리고 numpy 데이터에 대한 세부 정보를 본다.

In [14]:
df.index

DatetimeIndex(['2025-01-23', '2025-01-24', '2025-01-25', '2025-01-26',
               '2025-01-27', '2025-01-28'],
              dtype='datetime64[ns]', freq='D')

In [15]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

In [16]:
df.values

array([[ 0.78254575,  2.13851514, -0.77717997,  0.52611005],
       [ 0.79769317,  0.98298634, -0.08969518, -0.90947342],
       [ 0.15275955, -1.48279831,  1.27326703, -0.67565301],
       [-1.25423425,  0.46888632, -0.26316903, -0.49280652],
       [ 0.1523014 ,  0.58969744,  0.29402079, -1.00631246],
       [-0.43060416, -0.69209747,  2.05935967,  0.97552089]])

describe()는 데이터의 대략적인 통계적 정보 요약을 보여준다.

- `count`: 열의 유효값(결측값이 아닌 값)의 개수
- `mean`: 열의 평균값
- `std`: 열의 표준편차 (데이터의 분산 정도)
- `min`: 열의 최솟값
- `25%`: 열의 1사분위수 (데이터의 하위 25% 지점)
- `50%`: 열의 중앙값 (데이터의 50% 지점, 2사분위수 또는 중위수)
- `75%`: 열의 3사분위수 (데이터의 상위 25%를 제외한 하위 75% 지점)
- `max`: 열의 최댓값

In [17]:
df.describe()

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,0.03341,0.334198,0.416101,-0.263769
std,0.780647,1.273944,1.057459,0.818555
min,-1.254234,-1.482798,-0.77718,-1.006312
25%,-0.284878,-0.401852,-0.219801,-0.851018
50%,0.15253,0.529292,0.102163,-0.58423
75%,0.625099,0.884664,1.028455,0.271381
max,0.797693,2.138515,2.05936,0.975521


데이터를 전치한다.

In [18]:
df.T

Unnamed: 0,2025-01-23,2025-01-24,2025-01-25,2025-01-26,2025-01-27,2025-01-28
A,0.782546,0.797693,0.15276,-1.254234,0.152301,-0.430604
B,2.138515,0.982986,-1.482798,0.468886,0.589697,-0.692097
C,-0.77718,-0.089695,1.273267,-0.263169,0.294021,2.05936
D,0.52611,-0.909473,-0.675653,-0.492807,-1.006312,0.975521


축 별로 정렬한다.
sort_index()에서 axis = 0인 경우 행(row)을 기준으로 정렬하고, axis = 1인 경우 열(column)을 기준으로 정렬한다.

In [19]:
df.sort_index(axis=1, ascending=False)

Unnamed: 0,D,C,B,A
2025-01-23,0.52611,-0.77718,2.138515,0.782546
2025-01-24,-0.909473,-0.089695,0.982986,0.797693
2025-01-25,-0.675653,1.273267,-1.482798,0.15276
2025-01-26,-0.492807,-0.263169,0.468886,-1.254234
2025-01-27,-1.006312,0.294021,0.589697,0.152301
2025-01-28,0.975521,2.05936,-0.692097,-0.430604


값 별로 정렬한다.

In [20]:
df.sort_values(by='B')

Unnamed: 0,A,B,C,D
2025-01-25,0.15276,-1.482798,1.273267,-0.675653
2025-01-28,-0.430604,-0.692097,2.05936,0.975521
2025-01-26,-1.254234,0.468886,-0.263169,-0.492807
2025-01-27,0.152301,0.589697,0.294021,-1.006312
2025-01-24,0.797693,0.982986,-0.089695,-0.909473
2025-01-23,0.782546,2.138515,-0.77718,0.52611


## 3. Selection (선택)

Python 및 Numpy의 선택과 설정을 위한 표현들은 직관적이고 코드 작성을 위한 작업에 유용하다.
하지만, `.at`, `.iat`, `.loc`, `.iloc`가 Pandas에 최적화되어 있기 때문에 사용하는 것을 추천한다.

### Getting (데이터 얻기)

`df.A`와 동일한 Series를  생성하는 단일 열을 선택한다.

In [21]:
df['A']

2025-01-23    0.782546
2025-01-24    0.797693
2025-01-25    0.152760
2025-01-26   -1.254234
2025-01-27    0.152301
2025-01-28   -0.430604
Freq: D, Name: A, dtype: float64

행을 분할하는 []를 통해 선택한다.

In [22]:
df[0:3]

Unnamed: 0,A,B,C,D
2025-01-23,0.782546,2.138515,-0.77718,0.52611
2025-01-24,0.797693,0.982986,-0.089695,-0.909473
2025-01-25,0.15276,-1.482798,1.273267,-0.675653


In [23]:
df['20250123':'20250125']

Unnamed: 0,A,B,C,D
2025-01-23,0.782546,2.138515,-0.77718,0.52611
2025-01-24,0.797693,0.982986,-0.089695,-0.909473
2025-01-25,0.15276,-1.482798,1.273267,-0.675653


### Selection by Label (Label을 통한 선택)

Label을 사용하여 횡단면을 얻는다.

In [24]:
df.loc[dates[0]]

A    0.782546
B    2.138515
C   -0.777180
D    0.526110
Name: 2025-01-23 00:00:00, dtype: float64

Label을 사용하여 여러 축의 데이터를 얻는다.

In [25]:
df.loc[:, ['A', 'B']]

Unnamed: 0,A,B
2025-01-23,0.782546,2.138515
2025-01-24,0.797693,0.982986
2025-01-25,0.15276,-1.482798
2025-01-26,-1.254234,0.468886
2025-01-27,0.152301,0.589697
2025-01-28,-0.430604,-0.692097


양쪽 종단점을 포함한 Label 슬라이싱을 본다.

In [26]:
df.loc['20250123':'20250125', ['A','B']]

Unnamed: 0,A,B
2025-01-23,0.782546,2.138515
2025-01-24,0.797693,0.982986
2025-01-25,0.15276,-1.482798


반환되는 객체의 차원을 줄인다.

In [27]:
df.loc['20250123', ['A','B']]

A    0.782546
B    2.138515
Name: 2025-01-23 00:00:00, dtype: float64

스칼라 값을 얻는다.

In [28]:
df.loc[dates[0], 'A']

np.float64(0.7825457529104672)

스칼라 값을 더 빠르게 구하는 방법(앞선 메소드와 동일)

In [29]:
df.at[dates[0], 'A']

np.float64(0.7825457529104672)

### Selection by Position (위치로 선택하기)

넘겨받은 정수의 위치(인덱스)를 기준으로 선택한다.

In [30]:
df.iloc[3]

A   -1.254234
B    0.468886
C   -0.263169
D   -0.492807
Name: 2025-01-26 00:00:00, dtype: float64

정수로 표기된 슬라이스들을 통해, Python/Numpy와 유사하게 작동한다.

In [31]:
df.iloc[3:5, 0:2]

Unnamed: 0,A,B
2025-01-26,-1.254234,0.468886
2025-01-27,0.152301,0.589697


정수로 표기된 위치값의 리스트들을 통해, Python/Numpy의 스타일과 유사해진다.

In [32]:
df.iloc[[1,2,4],[0,2]]

Unnamed: 0,A,C
2025-01-24,0.797693,-0.089695
2025-01-25,0.15276,1.273267
2025-01-27,0.152301,0.294021


명시적으로 행을 나누고자 하는 경우

In [33]:
df.iloc[1:3,:]

Unnamed: 0,A,B,C,D
2025-01-24,0.797693,0.982986,-0.089695,-0.909473
2025-01-25,0.15276,-1.482798,1.273267,-0.675653


명시적으로 열을 나누고자 하는 경우

In [34]:
df.iloc[:,1:3]

Unnamed: 0,B,C
2025-01-23,2.138515,-0.77718
2025-01-24,0.982986,-0.089695
2025-01-25,-1.482798,1.273267
2025-01-26,0.468886,-0.263169
2025-01-27,0.589697,0.294021
2025-01-28,-0.692097,2.05936


명시적으로 (특정한) 값을 얻고자 하는 경우

In [35]:
df.iloc[1,1]

np.float64(0.9829863441501647)

스칼라 값을 빠르게 얻는 방법 (위와 동일)

In [36]:
df.iat[1,1]

np.float64(0.9829863441501647)

### Boolean Indexing

데이터를 선택하기 위해 단일 열의 값을 사용한다.

In [37]:
df[df.A > 0]

Unnamed: 0,A,B,C,D
2025-01-23,0.782546,2.138515,-0.77718,0.52611
2025-01-24,0.797693,0.982986,-0.089695,-0.909473
2025-01-25,0.15276,-1.482798,1.273267,-0.675653
2025-01-27,0.152301,0.589697,0.294021,-1.006312


Boolean 조건을 충족하는 DataFrame에서 값을 선택한다.

In [38]:
df[df > 0]

Unnamed: 0,A,B,C,D
2025-01-23,0.782546,2.138515,,0.52611
2025-01-24,0.797693,0.982986,,
2025-01-25,0.15276,,1.273267,
2025-01-26,,0.468886,,
2025-01-27,0.152301,0.589697,0.294021,
2025-01-28,,,2.05936,0.975521


필터링을 위한 메소드 `isin()`을 사용한다.

In [39]:
df2 = df.copy()

In [40]:
df2['E'] = ['one', 'one', 'two', 'three', 'four', 'three']

In [41]:
df2

Unnamed: 0,A,B,C,D,E
2025-01-23,0.782546,2.138515,-0.77718,0.52611,one
2025-01-24,0.797693,0.982986,-0.089695,-0.909473,one
2025-01-25,0.15276,-1.482798,1.273267,-0.675653,two
2025-01-26,-1.254234,0.468886,-0.263169,-0.492807,three
2025-01-27,0.152301,0.589697,0.294021,-1.006312,four
2025-01-28,-0.430604,-0.692097,2.05936,0.975521,three


In [42]:
df2[df2['E'].isin(['two', 'four'])]

Unnamed: 0,A,B,C,D,E
2025-01-25,0.15276,-1.482798,1.273267,-0.675653,two
2025-01-27,0.152301,0.589697,0.294021,-1.006312,four


### Setting (설정)

새 열을 설정하면 데이터가 인덱스 별로 자동 정렬된다.

In [43]:
s1 = pd.Series([1, 2, 3, 4, 5, 6], index = pd.date_range('20250123', periods=6))

In [44]:
s1

2025-01-23    1
2025-01-24    2
2025-01-25    3
2025-01-26    4
2025-01-27    5
2025-01-28    6
Freq: D, dtype: int64

In [45]:
df['F'] = s1

Label에 의해 값을 설정한다.

In [46]:
df.at[dates[0], 'A'] = 0

위치에 의해 값을 설정한다.

In [47]:
df.iat[0, 1] = 0

Numpy 배열을 사용한 할당에 의해 값을 설정한다.

In [48]:
df.loc[:, 'D'] = np.array([5] * len(df))

위 설정대로 작동한 결과

In [49]:
df

Unnamed: 0,A,B,C,D,F
2025-01-23,0.0,0.0,-0.77718,5.0,1
2025-01-24,0.797693,0.982986,-0.089695,5.0,2
2025-01-25,0.15276,-1.482798,1.273267,5.0,3
2025-01-26,-1.254234,0.468886,-0.263169,5.0,4
2025-01-27,0.152301,0.589697,0.294021,5.0,5
2025-01-28,-0.430604,-0.692097,2.05936,5.0,6


where 연산을 설정한다.

In [50]:
df2 = df.copy()

In [51]:
df2[df2 > 0] = -df2

In [52]:
df2

Unnamed: 0,A,B,C,D,F
2025-01-23,0.0,0.0,-0.77718,-5.0,-1
2025-01-24,-0.797693,-0.982986,-0.089695,-5.0,-2
2025-01-25,-0.15276,-1.482798,-1.273267,-5.0,-3
2025-01-26,-1.254234,-0.468886,-0.263169,-5.0,-4
2025-01-27,-0.152301,-0.589697,-0.294021,-5.0,-5
2025-01-28,-0.430604,-0.692097,-2.05936,-5.0,-6


## 4. Missing Data (결측치)

Pandas는 결측치를 표현하기 위해 주로 `NaN` 값을 사용한다.
이 방법은 기본 설정값이지만 계산에는 포함되지 않는다.

Reindexing으로 지정된 column 상의 인덱스를 변경/추가/삭제할 수 있다.
Reindexing은 데이터의 복사본을 반환한다.

In [53]:
df1 = df.reindex(index=dates[0:4], columns=list(df.columns) + ['E'])

In [54]:
df1.loc[dates[0]:dates[1], 'E'] = 1

In [55]:
df1

Unnamed: 0,A,B,C,D,F,E
2025-01-23,0.0,0.0,-0.77718,5.0,1,1.0
2025-01-24,0.797693,0.982986,-0.089695,5.0,2,1.0
2025-01-25,0.15276,-1.482798,1.273267,5.0,3,
2025-01-26,-1.254234,0.468886,-0.263169,5.0,4,


결측치를 하나라도 가지고 있는 row를 삭제한다.

In [56]:
df1.dropna(how='any')

Unnamed: 0,A,B,C,D,F,E
2025-01-23,0.0,0.0,-0.77718,5.0,1,1.0
2025-01-24,0.797693,0.982986,-0.089695,5.0,2,1.0


결측치를 채워넣는다.

In [57]:
df1.fillna(value=5)

Unnamed: 0,A,B,C,D,F,E
2025-01-23,0.0,0.0,-0.77718,5.0,1,1.0
2025-01-24,0.797693,0.982986,-0.089695,5.0,2,1.0
2025-01-25,0.15276,-1.482798,1.273267,5.0,3,5.0
2025-01-26,-1.254234,0.468886,-0.263169,5.0,4,5.0


NaN인 값에 boolean을 통한 표식을 얻는다.

DataFrame의 모든 값이 boolean 형태로 표시되도록 하며, `NaN`인 값에만 `True`가 표시되게 하는 함수

In [58]:
pd.isna(df1)

Unnamed: 0,A,B,C,D,F,E
2025-01-23,False,False,False,False,False,False
2025-01-24,False,False,False,False,False,False
2025-01-25,False,False,False,False,False,True
2025-01-26,False,False,False,False,False,True
