# Pandas 10분 완성

- [관련 링크](https://dataitgirls2.github.io/10minutes2pandas/)

### 목차
|장|내용|
|---|---|
|1|Object Creation(객체 생성)|
|2|Viewing Data(데이터 확인하기)|
|3|Selection(선택)|
|4|Missing Data(결측치)|
|5|Operation(연산)|
|6|Merge(병합)|
|7|Grouping(그룹화)|
|8|Reshaping(변형)|
|9|Time Series(시계열)|
|10|Categoricals(범주화)|
|11|Plotting(그래프)|
|12|Getting Data In/Out(데이터 입/출력)|
|13|Gotchas(잡았다!)|

일반적으로 각 패키지는 pd, np, plt라는 이름으로 불러온다.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## 1. Object Creation (객체 생성)

Pandas는 값을 가지고 있는 리스트를 통해 `Series`를 만들고, 정수로 만들어진 인덱스를 기본값으로 불러온다.

In [2]:
s = pd.Series([1, 3, 5, np.nan, 6, 8])

In [3]:
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

`datatime` 인덱스와 레이블이 있는 열을 가지고 있는 numpy 배열을 전달하여 데이터프레임을 생성한다. 

In [4]:
dates = pd.date_range('20250123', periods=6)

In [5]:
dates

DatetimeIndex(['2025-01-23', '2025-01-24', '2025-01-25', '2025-01-26',
               '2025-01-27', '2025-01-28'],
              dtype='datetime64[ns]', freq='D')

In [6]:
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD'))

In [7]:
df

Unnamed: 0,A,B,C,D
2025-01-23,0.470623,-1.544299,-0.359713,0.341314
2025-01-24,-0.98962,-0.29654,0.083644,-1.485904
2025-01-25,0.602569,-0.71688,0.785357,0.572783
2025-01-26,-0.621514,-0.318548,-1.075782,2.061741
2025-01-27,-1.626353,-1.416525,-0.516248,-1.631344
2025-01-28,-0.817248,1.168349,-0.80345,-1.352421


Series와 같은 것으로 변환될 수 있는 객체들의 `dict`로 구성된 데이터프레임을 만든다.

In [8]:
df2 = pd.DataFrame({
    'A': 1.,
    'B': pd.Timestamp('20250123'),
    'C': pd.Series(1, index=list(range(4)), dtype='float32'),
    'D': np.array([3] * 4, dtype='int32'),
    'E': pd.Categorical(["test", "traing", "test", "traint"]),
    'F': 'foo'
})

In [9]:
df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2025-01-23,1.0,3,test,foo
1,1.0,2025-01-23,1.0,3,traing,foo
2,1.0,2025-01-23,1.0,3,test,foo
3,1.0,2025-01-23,1.0,3,traint,foo


DataFrame의 결과물의 column은 다양한 데이터 타입(dtpyes)으로 구성된다.

In [10]:
df2.dtypes

A          float64
B    datetime64[s]
C          float32
D            int32
E         category
F           object
dtype: object

## 2. Viewing Data (데이터 확인하기)

DataFrame의 가장 윗 줄과 마지막 줄을 확인하고 싶을 때에 사용하는 방법은 다음과 같다.
- 괄호 안에는 숫자가 들어갈 수도 있고 안 들어갈 수도 있다.
- 숫자가 들어간다면, 윗 / 마지막 줄의 특정 줄을 불러올 수 있다.
- 숫자가 들어가지 않는다면, 기본값은 5로 처리된다.

In [11]:
df.tail(3) # 끝에서 마지막 3줄
df.tail() # 끝에서 마지막 5줄

Unnamed: 0,A,B,C,D
2025-01-24,-0.98962,-0.29654,0.083644,-1.485904
2025-01-25,0.602569,-0.71688,0.785357,0.572783
2025-01-26,-0.621514,-0.318548,-1.075782,2.061741
2025-01-27,-1.626353,-1.416525,-0.516248,-1.631344
2025-01-28,-0.817248,1.168349,-0.80345,-1.352421


In [12]:
df.head() # 처음에서 5줄

Unnamed: 0,A,B,C,D
2025-01-23,0.470623,-1.544299,-0.359713,0.341314
2025-01-24,-0.98962,-0.29654,0.083644,-1.485904
2025-01-25,0.602569,-0.71688,0.785357,0.572783
2025-01-26,-0.621514,-0.318548,-1.075782,2.061741
2025-01-27,-1.626353,-1.416525,-0.516248,-1.631344


In [13]:
df.tail(3)

Unnamed: 0,A,B,C,D
2025-01-26,-0.621514,-0.318548,-1.075782,2.061741
2025-01-27,-1.626353,-1.416525,-0.516248,-1.631344
2025-01-28,-0.817248,1.168349,-0.80345,-1.352421


인덱스 (index), 열 (column) 그리고 numpy 데이터에 대한 세부 정보를 본다.

In [14]:
df.index

DatetimeIndex(['2025-01-23', '2025-01-24', '2025-01-25', '2025-01-26',
               '2025-01-27', '2025-01-28'],
              dtype='datetime64[ns]', freq='D')

In [15]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

In [16]:
df.values

array([[ 0.47062305, -1.54429928, -0.3597129 ,  0.34131384],
       [-0.98961962, -0.29653974,  0.08364368, -1.48590371],
       [ 0.60256886, -0.71687987,  0.78535709,  0.57278294],
       [-0.62151395, -0.31854779, -1.0757822 ,  2.06174073],
       [-1.62635282, -1.41652459, -0.51624819, -1.63134446],
       [-0.81724815,  1.16834876, -0.80344996, -1.35242074]])

describe()는 데이터의 대략적인 통계적 정보 요약을 보여준다.

- `count`: 열의 유효값(결측값이 아닌 값)의 개수
- `mean`: 열의 평균값
- `std`: 열의 표준편차 (데이터의 분산 정도)
- `min`: 열의 최솟값
- `25%`: 열의 1사분위수 (데이터의 하위 25% 지점)
- `50%`: 열의 중앙값 (데이터의 50% 지점, 2사분위수 또는 중위수)
- `75%`: 열의 3사분위수 (데이터의 상위 25%를 제외한 하위 75% 지점)
- `max`: 열의 최댓값

In [17]:
df.describe()

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,-0.496924,-0.52074,-0.314365,-0.248972
std,0.869657,0.983132,0.667768,1.4847
min,-1.626353,-1.544299,-1.075782,-1.631344
25%,-0.946527,-1.241613,-0.73165,-1.452533
50%,-0.719381,-0.517714,-0.437981,-0.505553
75%,0.197589,-0.302042,-0.027195,0.514916
max,0.602569,1.168349,0.785357,2.061741


데이터를 전치한다.

In [18]:
df.T

Unnamed: 0,2025-01-23,2025-01-24,2025-01-25,2025-01-26,2025-01-27,2025-01-28
A,0.470623,-0.98962,0.602569,-0.621514,-1.626353,-0.817248
B,-1.544299,-0.29654,-0.71688,-0.318548,-1.416525,1.168349
C,-0.359713,0.083644,0.785357,-1.075782,-0.516248,-0.80345
D,0.341314,-1.485904,0.572783,2.061741,-1.631344,-1.352421


축 별로 정렬한다.
sort_index()에서 axis = 0인 경우 행(row)을 기준으로 정렬하고, axis = 1인 경우 열(column)을 기준으로 정렬한다.

In [19]:
df.sort_index(axis=1, ascending=False)

Unnamed: 0,D,C,B,A
2025-01-23,0.341314,-0.359713,-1.544299,0.470623
2025-01-24,-1.485904,0.083644,-0.29654,-0.98962
2025-01-25,0.572783,0.785357,-0.71688,0.602569
2025-01-26,2.061741,-1.075782,-0.318548,-0.621514
2025-01-27,-1.631344,-0.516248,-1.416525,-1.626353
2025-01-28,-1.352421,-0.80345,1.168349,-0.817248


값 별로 정렬한다.

In [20]:
df.sort_values(by='B')

Unnamed: 0,A,B,C,D
2025-01-23,0.470623,-1.544299,-0.359713,0.341314
2025-01-27,-1.626353,-1.416525,-0.516248,-1.631344
2025-01-25,0.602569,-0.71688,0.785357,0.572783
2025-01-26,-0.621514,-0.318548,-1.075782,2.061741
2025-01-24,-0.98962,-0.29654,0.083644,-1.485904
2025-01-28,-0.817248,1.168349,-0.80345,-1.352421


## 3. Selection (선택)

Python 및 Numpy의 선택과 설정을 위한 표현들은 직관적이고 코드 작성을 위한 작업에 유용하다.
하지만, `.at`, `.iat`, `.loc`, `.iloc`가 Pandas에 최적화되어 있기 때문에 사용하는 것을 추천한다.

### Getting (데이터 얻기)

`df.A`와 동일한 Series를  생성하는 단일 열을 선택한다.

In [22]:
df['A']

2025-01-23    0.470623
2025-01-24   -0.989620
2025-01-25    0.602569
2025-01-26   -0.621514
2025-01-27   -1.626353
2025-01-28   -0.817248
Freq: D, Name: A, dtype: float64

행을 분할하는 []를 통해 선택한다.

In [23]:
df[0:3]

Unnamed: 0,A,B,C,D
2025-01-23,0.470623,-1.544299,-0.359713,0.341314
2025-01-24,-0.98962,-0.29654,0.083644,-1.485904
2025-01-25,0.602569,-0.71688,0.785357,0.572783


In [25]:
df['20250123':'20250125']

Unnamed: 0,A,B,C,D
2025-01-23,0.470623,-1.544299,-0.359713,0.341314
2025-01-24,-0.98962,-0.29654,0.083644,-1.485904
2025-01-25,0.602569,-0.71688,0.785357,0.572783


### Selection by Label (Label을 통한 선택)

Label을 사용하여 횡단면을 얻는다.

In [26]:
df.loc[dates[0]]

A    0.470623
B   -1.544299
C   -0.359713
D    0.341314
Name: 2025-01-23 00:00:00, dtype: float64

Label을 사용하여 여러 축의 데이터를 얻는다.

In [27]:
df.loc[:, ['A', 'B']]

Unnamed: 0,A,B
2025-01-23,0.470623,-1.544299
2025-01-24,-0.98962,-0.29654
2025-01-25,0.602569,-0.71688
2025-01-26,-0.621514,-0.318548
2025-01-27,-1.626353,-1.416525
2025-01-28,-0.817248,1.168349


양쪽 종단점을 포함한 Label 슬라이싱을 본다.

In [28]:
df.loc['20250123':'20250125', ['A','B']]

Unnamed: 0,A,B
2025-01-23,0.470623,-1.544299
2025-01-24,-0.98962,-0.29654
2025-01-25,0.602569,-0.71688


반환되는 객체의 차원을 줄인다.

In [31]:
df.loc['20250123', ['A','B']]

A    0.470623
B   -1.544299
Name: 2025-01-23 00:00:00, dtype: float64

스칼라 값을 얻는다.

In [32]:
df.loc[dates[0], 'A']

0.47062305067298715

스칼라 값을 더 빠르게 구하는 방법(앞선 메소드와 동일)

In [33]:
df.at[dates[0], 'A']

0.47062305067298715

### Selection by Position (위치로 선택하기)

넘겨받은 정수의 위치(인덱스)를 기준으로 선택한다.

In [34]:
df.iloc[3]

A   -0.621514
B   -0.318548
C   -1.075782
D    2.061741
Name: 2025-01-26 00:00:00, dtype: float64

정수로 표기된 슬라이스들을 통해, Python/Numpy와 유사하게 작동한다.

In [35]:
df.iloc[3:5, 0:2]

Unnamed: 0,A,B
2025-01-26,-0.621514,-0.318548
2025-01-27,-1.626353,-1.416525


정수로 표기된 위치값의 리스트들을 통해, Python/Numpy의 스타일과 유사해진다.

In [36]:
df.iloc[[1,2,4],[0,2]]

Unnamed: 0,A,C
2025-01-24,-0.98962,0.083644
2025-01-25,0.602569,0.785357
2025-01-27,-1.626353,-0.516248


명시적으로 행을 나누고자 하는 경우

In [37]:
df.iloc[1:3,:]

Unnamed: 0,A,B,C,D
2025-01-24,-0.98962,-0.29654,0.083644,-1.485904
2025-01-25,0.602569,-0.71688,0.785357,0.572783


명시적으로 열을 나누고자 하는 경우

In [38]:
df.iloc[:,1:3]

Unnamed: 0,B,C
2025-01-23,-1.544299,-0.359713
2025-01-24,-0.29654,0.083644
2025-01-25,-0.71688,0.785357
2025-01-26,-0.318548,-1.075782
2025-01-27,-1.416525,-0.516248
2025-01-28,1.168349,-0.80345


명시적으로 (특정한) 값을 얻고자 하는 경우

In [39]:
df.iloc[1,1]

-0.29653974092309904

스칼라 값을 빠르게 얻는 방법 (위와 동일)

In [41]:
df.iat[1,1]

-0.29653974092309904

### Boolea