In [1]:
import numpy as np
import pandas as pd
pd.__version__

'1.4.1'

# Pandas 한번에 제대로 배우기


# 추가

## 데이터 전처리

### 가변수화

In [2]:
dict1 = {'x1':['a','b','a','b','c'], 'x2':[2,6,5,3,4]}
dict2 = {'x1':['a','b','b'], 'x2':[7,8,9]}

train = pd.DataFrame(dict1)
test =  pd.DataFrame(dict2)

In [3]:
train

Unnamed: 0,x1,x2
0,a,2
1,b,6
2,a,5
3,b,3
4,c,4


In [4]:
test

Unnamed: 0,x1,x2
0,a,7
1,b,8
2,b,9


In [5]:
# get_dummies로 가변수화를 수행해 봅시다.
pd.get_dummies(train, columns = ['x1'])

Unnamed: 0,x2,x1_a,x1_b,x1_c
0,2,1,0,0
1,6,0,1,0
2,5,1,0,0
3,3,0,1,0
4,4,0,0,1


In [6]:
pd.get_dummies(test, columns = ['x1']) # 모든 범주가 있는것이 아니라서 반영이 안됨.

Unnamed: 0,x2,x1_a,x1_b
0,7,1,0
1,8,0,1
2,9,0,1


In [7]:
train['x1'] = pd.Categorical(train['x1'], categories=["a", "b", "c"], ordered=False)
test['x1'] = pd.Categorical(test['x1'], categories=["a", "b", "c"], ordered=False)

train.info() # object => category 데이터타입으로 바뀐다.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype   
---  ------  --------------  -----   
 0   x1      5 non-null      category
 1   x2      5 non-null      int64   
dtypes: category(1), int64(1)
memory usage: 305.0 bytes


In [8]:
pd.get_dummies(test, columns = ['x1'])

Unnamed: 0,x2,x1_a,x1_b,x1_c
0,7,1,0,0
1,8,0,1,0
2,9,0,1,0




---



## pandas 특징

* 부동 소수점이 아닌 데이터 뿐만 아니라 부동 소수점 데이터에서도 결측데이터(NaN으로 표시됨)를 쉽게 처리.
* 크기 변이성(Size mutability): DataFrame 및 고차원 객체에서 열을 삽입 및 삭제 가능
* 자동 및 명시적(explicit) 데이터 정렬: 객체를 라벨 집합에 명시적으로 정렬하거나, 사용자가 라벨을 무시하고 Series, DataFrame등의 계산에서 자동으로 데이터 조정 가능
* 데이터 세트에서 집꼐 및 변환을 위한 분할(split), 작용(apply), 결합(combine)작업을 수행할 수 있는 유연한 group-by 함수 제공
* 누락된 데이터 또는 다른 Python 및 Numpy 데이터 구조에서 서로 다른 인덱싱 데이터를 DataFrame 개체로 쉽게 변환
* 대용량 데이터 세트의 지능형 라벨 기반 슬라이싱, 고급 인덱싱 및 부분 집합 구하기 가능
* 직관적인 데이터 세트 병합 및 결합
* 데이터 세트의 유연한 재구성 및 피벗
* 축의 계층적 라벨링(눈금당 여러 개의 라벨을 가질 수 있음)
* 플랫 파일(csv 및 구분), Excel파일, 데이터베이스 로딩 및 초고속 HDF5 형식의 데이터 저장/로드에 사용되는 강력한 IO 도구
* 시계열 특정 기능: 날짜 범위 생성 및 주파수 변환, 무빙 윈도우(moving window) 통계, 날짜 이동 및 지연

## Pandas 객체


### Series 객체

In [9]:
s = pd.Series([0, 0.25, 0.5, 0.75, 1.0])
s

0    0.00
1    0.25
2    0.50
3    0.75
4    1.00
dtype: float64

In [10]:
s.values

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [11]:
s.index

RangeIndex(start=0, stop=5, step=1)

In [12]:
s[1]

0.25

In [13]:
s[1:4]

1    0.25
2    0.50
3    0.75
dtype: float64

In [14]:
s = pd.Series([0, 0.25, 0.5, 0.75, 1],
             index=['a', 'b', 'c', 'd', 'e'])
s

a    0.00
b    0.25
c    0.50
d    0.75
e    1.00
dtype: float64

In [15]:
s['c']

0.5

In [16]:
s[['c', 'd', 'e']]

c    0.50
d    0.75
e    1.00
dtype: float64

In [17]:
'b' in s

True

In [18]:
s = pd.Series([0, 0.25, 0.5, 0.75, 1.0],
             index=[2, 4, 6, 8, 10])
s

2     0.00
4     0.25
6     0.50
8     0.75
10    1.00
dtype: float64

In [19]:
s[4]

0.25

In [20]:
s[2:]

6     0.50
8     0.75
10    1.00
dtype: float64

In [21]:
s.unique()

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [22]:
s.value_counts()

0.00    1
0.25    1
0.50    1
0.75    1
1.00    1
dtype: int64

In [23]:
s.isin([0.25, 0.75])

2     False
4      True
6     False
8      True
10    False
dtype: bool

In [24]:
pop_tuple = {'서울특별시':9720846,
            '부산광역시': 3404423,
            '인천광역시': 2947217,
            '대구광역시': 2427954,
            '대전광역시': 1471040,
            '광주광역시': 1455048}
population = pd.Series(pop_tuple)
population

서울특별시    9720846
부산광역시    3404423
인천광역시    2947217
대구광역시    2427954
대전광역시    1471040
광주광역시    1455048
dtype: int64

In [25]:
population['서울특별시':'인천광역시']

서울특별시    9720846
부산광역시    3404423
인천광역시    2947217
dtype: int64

### DataFrame 객체

In [26]:
pd.DataFrame([{'A':2, 'B':4, 'D':3},
             {'A':4, 'B':5, 'C':7}])

Unnamed: 0,A,B,D,C
0,2,4,3.0,
1,4,5,,7.0


In [27]:
pd.DataFrame(np.random.rand(5, 5),
            columns=['A','B','C','D','E'],
            index=[1,2,3,4,5])

Unnamed: 0,A,B,C,D,E
1,0.743245,0.245573,0.199998,0.489389,0.095581
2,0.027115,0.541333,0.893005,0.662282,0.466283
3,0.423524,0.281396,0.022252,0.219352,0.960938
4,0.785695,0.235675,0.10621,0.487906,0.440515
5,0.548954,0.865701,0.257359,0.946968,0.732892


In [28]:
male_tuple = {'서울특별시':4732275,
            '부산광역시': 1668618,
            '인천광역시': 1476813,
            '대구광역시': 1198815,
            '대전광역시': 734441,
            '광주광역시': 720060}
male = pd.Series(male_tuple)
male

서울특별시    4732275
부산광역시    1668618
인천광역시    1476813
대구광역시    1198815
대전광역시     734441
광주광역시     720060
dtype: int64

In [29]:
female_tuple = {'서울특별시':4988571,
            '부산광역시': 1735805,
            '인천광역시': 1470404,
            '대구광역시': 1229139,
            '대전광역시': 736599,
            '광주광역시': 720060}
female = pd.Series(female_tuple)
female

서울특별시    4988571
부산광역시    1735805
인천광역시    1470404
대구광역시    1229139
대전광역시     736599
광주광역시     720060
dtype: int64

In [30]:
korea_df = pd.DataFrame({'인구수':population,
                        '남자인구수':male,
                        '여자인구수':female})
korea_df

Unnamed: 0,인구수,남자인구수,여자인구수
서울특별시,9720846,4732275,4988571
부산광역시,3404423,1668618,1735805
인천광역시,2947217,1476813,1470404
대구광역시,2427954,1198815,1229139
대전광역시,1471040,734441,736599
광주광역시,1455048,720060,720060


In [31]:
korea_df.index

Index(['서울특별시', '부산광역시', '인천광역시', '대구광역시', '대전광역시', '광주광역시'], dtype='object')

In [32]:
korea_df.columns

Index(['인구수', '남자인구수', '여자인구수'], dtype='object')

In [33]:
korea_df['여자인구수']

서울특별시    4988571
부산광역시    1735805
인천광역시    1470404
대구광역시    1229139
대전광역시     736599
광주광역시     720060
Name: 여자인구수, dtype: int64

In [34]:
korea_df['서울특별시':'인천광역시']

Unnamed: 0,인구수,남자인구수,여자인구수
서울특별시,9720846,4732275,4988571
부산광역시,3404423,1668618,1735805
인천광역시,2947217,1476813,1470404


### Index 객체


|클래스|설명|
|---|---|
|Index|일반적인 index 객체이며, Numpy배열 형식으로 축의 이름 표현 |
|Int64Index|정수 값을 위한 Index|
|MultiIndex|단일 축에 여러 단계 색인을 표현하는 계층적 Index 객체(튜플의 배열과 유사)|
|DatetimeIndex|Numpy의 datetime64 타입으로 타임스탬프 저장|
|PeriodIndex|기간 데이터를 위한 Index|

In [35]:
idx = pd.Index([2, 4, 6, 8, 10])
idx

Int64Index([2, 4, 6, 8, 10], dtype='int64')

In [36]:
idx[1]

4

In [37]:
idx[1:2:2]

Int64Index([4], dtype='int64')

In [38]:
idx[-1::]

Int64Index([10], dtype='int64')

In [39]:
idx[::2]

Int64Index([2, 6, 10], dtype='int64')

In [40]:
print(idx)
print(idx.size)
print(idx.shape)
print(idx.ndim)
print(idx.dtype)

Int64Index([2, 4, 6, 8, 10], dtype='int64')
5
(5,)
1
int64


#### Index 연산

|연산자|메소드|설명|
|---|---|---|
| |`append`|색인 객체를 추가한 새로운 색인 반환|
| |`diffenrence`|색인의 차집합 반환|
|`&`|intersection|색인의 교집합 반환|
|$\mid$|`union`|색인의 합집합 반환|
| |`isin`|색인이 존재하는지 여부를 불리언 배열로 반환|
| |`delete`|색인이 삭제된 새로운 색인 반환|
| |`drop`|값이 삭제된 새로운 색인 반환|
| |`insert`|색인이 추가된 새로운 색인 반환|
| |`is_monotonic`|색인이 단조성을 가지면 True|
| |`is_unique`|중복되는 색인이 없다면 True|
| |`unique`|색인에서 중복되는 요소를  제거하고 유일한 값만 반환|

* 연산자는 추후에 사라지므로 메소드로만 사용할 것.

In [41]:
idx1 = pd.Index([1, 2, 4, 6, 8])
idx2 = pd.Index([2, 4, 5, 6, 7])
print(idx1.append(idx2))
print(idx1.difference(idx2))
print(idx1 - idx2)
print(idx1.intersection(idx2))
print(idx1 & idx2)

# C:\Users\User\AppData\Local\Temp\ipykernel_9188\803639308.py:7: FutureWarning: Index.__and__ operating as a set operation is deprecated, in the future this will be a logical operation matching Series.__and__.  Use index.intersection(other) instead.
#   print(idx1 & idx2)

Int64Index([1, 2, 4, 6, 8, 2, 4, 5, 6, 7], dtype='int64')
Int64Index([1, 8], dtype='int64')
Int64Index([-1, -2, -1, 0, 1], dtype='int64')
Int64Index([2, 4, 6], dtype='int64')
Int64Index([2, 4, 6], dtype='int64')


  print(idx1 & idx2)




---



## 인덱싱(Indexing)

In [42]:
s = pd.Series([0, 0.25, 0.5, 0.75, 1.0],
             index=['a','b','c','d','e'])
s


a    0.00
b    0.25
c    0.50
d    0.75
e    1.00
dtype: float64

In [43]:
s['b']

0.25

In [44]:
'b' in s

True

In [45]:
s.keys()

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [46]:
s.items()

<zip at 0x2e161a9ff40>

In [47]:
list(s.items())

[('a', 0.0), ('b', 0.25), ('c', 0.5), ('d', 0.75), ('e', 1.0)]

In [48]:
s['f'] = 1.25
s

a    0.00
b    0.25
c    0.50
d    0.75
e    1.00
f    1.25
dtype: float64

In [49]:
s['a':'d']

a    0.00
b    0.25
c    0.50
d    0.75
dtype: float64

In [50]:
s[0:4]

a    0.00
b    0.25
c    0.50
d    0.75
dtype: float64

In [51]:
s[(s > 0.5) & (s < 0.8)]

d    0.75
dtype: float64

In [52]:
s[['a', 'c', 'b']]

a    0.00
c    0.50
b    0.25
dtype: float64

### Series 인덱싱

In [53]:
s = pd.Series(['a','b','c','d','e'],
             index=[1, 3, 5, 7, 9])
s

1    a
3    b
5    c
7    d
9    e
dtype: object

In [54]:
s[1]

'a'

In [55]:
s[2:4]

5    c
7    d
dtype: object

In [56]:
s.iloc[1]

'b'

In [57]:
s.iloc[2:4]

5    c
7    d
dtype: object

In [58]:
s.reset_index()

Unnamed: 0,index,0
0,1,a
1,3,b
2,5,c
3,7,d
4,9,e


In [59]:
s.reindex(range(10))
## 없는 값들은 null값으로 들어감

0    NaN
1      a
2    NaN
3      b
4    NaN
5      c
6    NaN
7      d
8    NaN
9      e
dtype: object

In [60]:
s.reindex(range(10), method='bfill') #null값을 채워줄 수 있음

0    a
1    a
2    b
3    b
4    c
5    c
6    d
7    d
8    e
9    e
dtype: object

### DataFrame 인덱싱


|사용방법|설명|
|---|---|
|`df[val]`|하나의 컬럼 또는 여러 컬럼을 선택|
|`df.loc[val]`|라벨값으로 로우의 부분집합 선택|
|`df.loc[: val]`|라벨값으로 컬럼의 부분집합 선택|
|`df.loc[val1, val2`|라벨값으로 로우와 컬럼의 부분집합 선택|
|`df.iloc[where]`|정수 색인으로 로우의 부분집합 선택|
|`df.iloc[:, where]`|정수 색인으로 컬럼의 부분집합 선택|
|`df.iloc[where_i, where_j`|정수 색인으로 로우와 컬럼의 부분집합 선택|
|`df.at[label_i, label_j]`|로우와 컬럼의 라벨로 단일 값 선택|
|`df.iat[i, j]`|로우와 컬럼의 정수 색인으로 단일 값 선택|
|`reindex`|하나 이상의 축을 새로운 색인으로 재색인|
|`get_value, set_value`|로우와 컬럼의 이름으로 값 선택|

In [61]:
korea_df

Unnamed: 0,인구수,남자인구수,여자인구수
서울특별시,9720846,4732275,4988571
부산광역시,3404423,1668618,1735805
인천광역시,2947217,1476813,1470404
대구광역시,2427954,1198815,1229139
대전광역시,1471040,734441,736599
광주광역시,1455048,720060,720060


In [62]:
korea_df['남자인구수']

서울특별시    4732275
부산광역시    1668618
인천광역시    1476813
대구광역시    1198815
대전광역시     734441
광주광역시     720060
Name: 남자인구수, dtype: int64

In [63]:
korea_df.남자인구수

서울특별시    4732275
부산광역시    1668618
인천광역시    1476813
대구광역시    1198815
대전광역시     734441
광주광역시     720060
Name: 남자인구수, dtype: int64

In [64]:
korea_df['남여비율'] = (korea_df['남자인구수'] * 100 / korea_df['여자인구수'])
korea_df.남여비율

서울특별시     94.862336
부산광역시     96.129346
인천광역시    100.435867
대구광역시     97.532907
대전광역시     99.707032
광주광역시    100.000000
Name: 남여비율, dtype: float64

In [65]:
korea_df.values

array([[9.72084600e+06, 4.73227500e+06, 4.98857100e+06, 9.48623363e+01],
       [3.40442300e+06, 1.66861800e+06, 1.73580500e+06, 9.61293463e+01],
       [2.94721700e+06, 1.47681300e+06, 1.47040400e+06, 1.00435867e+02],
       [2.42795400e+06, 1.19881500e+06, 1.22913900e+06, 9.75329072e+01],
       [1.47104000e+06, 7.34441000e+05, 7.36599000e+05, 9.97070319e+01],
       [1.45504800e+06, 7.20060000e+05, 7.20060000e+05, 1.00000000e+02]])

In [66]:
korea_df.T

Unnamed: 0,서울특별시,부산광역시,인천광역시,대구광역시,대전광역시,광주광역시
인구수,9720846.0,3404423.0,2947217.0,2427954.0,1471040.0,1455048.0
남자인구수,4732275.0,1668618.0,1476813.0,1198815.0,734441.0,720060.0
여자인구수,4988571.0,1735805.0,1470404.0,1229139.0,736599.0,720060.0
남여비율,94.86234,96.12935,100.4359,97.53291,99.70703,100.0


In [67]:
korea_df.values[0] #r가장 첫 행이 뽑힘.

array([9.72084600e+06, 4.73227500e+06, 4.98857100e+06, 9.48623363e+01])

In [68]:
korea_df.loc[:'인천광역시', :'남자인구수']

Unnamed: 0,인구수,남자인구수
서울특별시,9720846,4732275
부산광역시,3404423,1668618
인천광역시,2947217,1476813


In [69]:
korea_df.loc[(korea_df.여자인구수 > 1000000)]

Unnamed: 0,인구수,남자인구수,여자인구수,남여비율
서울특별시,9720846,4732275,4988571,94.862336
부산광역시,3404423,1668618,1735805,96.129346
인천광역시,2947217,1476813,1470404,100.435867
대구광역시,2427954,1198815,1229139,97.532907


In [70]:
korea_df.loc[(korea_df.인구수 > 2500000) & (korea_df.남여비율 > 100)]

Unnamed: 0,인구수,남자인구수,여자인구수,남여비율
인천광역시,2947217,1476813,1470404,100.435867


In [71]:
korea_df.iloc[:3, :2]

Unnamed: 0,인구수,남자인구수
서울특별시,9720846,4732275
부산광역시,3404423,1668618
인천광역시,2947217,1476813


### 다중 인덱싱(Multi Indexing)

* 1차원의 Series와 2차원의 DataFrame 객체를 넘어 3차원, 4차원 이상의 고차원 데이터 처리
* 단일 인덱스 내에 여러 인덱스를 포함하는 다중 인덱싱

#### 다중 인덱스 Series

In [72]:
korea_df

Unnamed: 0,인구수,남자인구수,여자인구수,남여비율
서울특별시,9720846,4732275,4988571,94.862336
부산광역시,3404423,1668618,1735805,96.129346
인천광역시,2947217,1476813,1470404,100.435867
대구광역시,2427954,1198815,1229139,97.532907
대전광역시,1471040,734441,736599,99.707032
광주광역시,1455048,720060,720060,100.0


In [73]:
idx_tuples = [('서울특별시', 2010), ('서울특별시',2020),
             ('부산광역시', 2010), ('부산광역시',2020),
             ('인천광역시', 2010), ('인천광역시',2020),
             ('대구광역시', 2010), ('대구광역시',2020),
             ('대전광역시', 2010), ('대전광역시',2020),
             ('광주광역시', 2010), ('광주광역시',2020)]
idx_tuples

[('서울특별시', 2010),
 ('서울특별시', 2020),
 ('부산광역시', 2010),
 ('부산광역시', 2020),
 ('인천광역시', 2010),
 ('인천광역시', 2020),
 ('대구광역시', 2010),
 ('대구광역시', 2020),
 ('대전광역시', 2010),
 ('대전광역시', 2020),
 ('광주광역시', 2010),
 ('광주광역시', 2020)]

In [74]:
pop_tuples = [10312545, 9720846,
             2567910, 3404423,
             2758296, 2947217,
             2511676, 2427954,
             1503664, 1471040,
             1454636, 1455048]
population = pd.Series(pop_tuples, index=idx_tuples)
population
## 이 상태는 튜플이 인덱스로 들어간 것.
## 멀티인덱싱이 아님.

(서울특별시, 2010)    10312545
(서울특별시, 2020)     9720846
(부산광역시, 2010)     2567910
(부산광역시, 2020)     3404423
(인천광역시, 2010)     2758296
(인천광역시, 2020)     2947217
(대구광역시, 2010)     2511676
(대구광역시, 2020)     2427954
(대전광역시, 2010)     1503664
(대전광역시, 2020)     1471040
(광주광역시, 2010)     1454636
(광주광역시, 2020)     1455048
dtype: int64

In [75]:
midx = pd.MultiIndex.from_tuples(idx_tuples)
midx

MultiIndex([('서울특별시', 2010),
            ('서울특별시', 2020),
            ('부산광역시', 2010),
            ('부산광역시', 2020),
            ('인천광역시', 2010),
            ('인천광역시', 2020),
            ('대구광역시', 2010),
            ('대구광역시', 2020),
            ('대전광역시', 2010),
            ('대전광역시', 2020),
            ('광주광역시', 2010),
            ('광주광역시', 2020)],
           )

In [76]:
population

(서울특별시, 2010)    10312545
(서울특별시, 2020)     9720846
(부산광역시, 2010)     2567910
(부산광역시, 2020)     3404423
(인천광역시, 2010)     2758296
(인천광역시, 2020)     2947217
(대구광역시, 2010)     2511676
(대구광역시, 2020)     2427954
(대전광역시, 2010)     1503664
(대전광역시, 2020)     1471040
(광주광역시, 2010)     1454636
(광주광역시, 2020)     1455048
dtype: int64

In [77]:
population = population.reindex(midx)
population
## 해당 형태가 튜플의 멀티인덱싱 된 것임.

서울특별시  2010    10312545
       2020     9720846
부산광역시  2010     2567910
       2020     3404423
인천광역시  2010     2758296
       2020     2947217
대구광역시  2010     2511676
       2020     2427954
대전광역시  2010     1503664
       2020     1471040
광주광역시  2010     1454636
       2020     1455048
dtype: int64

In [78]:
type(population)

pandas.core.series.Series

In [79]:
population[:, 2010]

서울특별시    10312545
부산광역시     2567910
인천광역시     2758296
대구광역시     2511676
대전광역시     1503664
광주광역시     1454636
dtype: int64

In [80]:
population['대전광역시', :]

2010    1503664
2020    1471040
dtype: int64

In [81]:
# srs.unstack(): 시리즈를 데이터프레임 구조로 변환할 수 있음.
korea_mdf = population.unstack()
korea_mdf

Unnamed: 0,2010,2020
광주광역시,1454636,1455048
대구광역시,2511676,2427954
대전광역시,1503664,1471040
부산광역시,2567910,3404423
서울특별시,10312545,9720846
인천광역시,2758296,2947217


In [82]:
# df.stack(): 데이터프레임을 다중인덱싱 시리즈로 변환
korea_mdf.stack()

광주광역시  2010     1454636
       2020     1455048
대구광역시  2010     2511676
       2020     2427954
대전광역시  2010     1503664
       2020     1471040
부산광역시  2010     2567910
       2020     3404423
서울특별시  2010    10312545
       2020     9720846
인천광역시  2010     2758296
       2020     2947217
dtype: int64

In [83]:
male_tuples = [5111259, 4732275,
             1773170, 1668618,
             1390356, 1476813,
             1255245, 1198815,
             753648, 734441,
             721780, 720060]
male_tuples

[5111259,
 4732275,
 1773170,
 1668618,
 1390356,
 1476813,
 1255245,
 1198815,
 753648,
 734441,
 721780,
 720060]

In [84]:
korea_mdf = pd.DataFrame({'총인구수': population,
                        '남자인구수': male_tuples})
korea_mdf

Unnamed: 0,Unnamed: 1,총인구수,남자인구수
서울특별시,2010,10312545,5111259
서울특별시,2020,9720846,4732275
부산광역시,2010,2567910,1773170
부산광역시,2020,3404423,1668618
인천광역시,2010,2758296,1390356
인천광역시,2020,2947217,1476813
대구광역시,2010,2511676,1255245
대구광역시,2020,2427954,1198815
대전광역시,2010,1503664,753648
대전광역시,2020,1471040,734441


In [85]:
female_tuples = [5201286, 4988571,
                1794740, 1735805,
                1367940, 1470404,
                1256431, 1229139,
                750016, 736599,
                732856, 734988]
female_tuples

[5201286,
 4988571,
 1794740,
 1735805,
 1367940,
 1470404,
 1256431,
 1229139,
 750016,
 736599,
 732856,
 734988]

In [86]:
korea_mdf = pd.DataFrame({'총인구수': population,
                        '남자인구수': male_tuples,
                         '여자인구수':female_tuples})
korea_mdf

Unnamed: 0,Unnamed: 1,총인구수,남자인구수,여자인구수
서울특별시,2010,10312545,5111259,5201286
서울특별시,2020,9720846,4732275,4988571
부산광역시,2010,2567910,1773170,1794740
부산광역시,2020,3404423,1668618,1735805
인천광역시,2010,2758296,1390356,1367940
인천광역시,2020,2947217,1476813,1470404
대구광역시,2010,2511676,1255245,1256431
대구광역시,2020,2427954,1198815,1229139
대전광역시,2010,1503664,753648,750016
대전광역시,2020,1471040,734441,736599


#### 다중 인덱스 생성

In [87]:
df = pd.DataFrame(np.random.rand(6, 3),
                 index=[['a', 'a', 'b', 'b', 'c', 'c'], [1, 2, 1, 2, 1, 2,]],
                 columns=['c1', 'c2', 'c3'])
df

Unnamed: 0,Unnamed: 1,c1,c2,c3
a,1,0.832535,0.659047,0.560997
a,2,0.432939,0.675066,0.154579
b,1,0.322519,0.113586,0.259142
b,2,0.048669,0.00693,0.954524
c,1,0.959718,0.62002,0.519272
c,2,0.232362,0.262381,0.565154


In [88]:
pd.MultiIndex.from_arrays([['a', 'a', 'b', 'b', 'c', 'c'], [1, 2, 1, 2, 1, 2,]])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2),
            ('c', 1),
            ('c', 2)],
           )

In [89]:
pd.MultiIndex.from_tuples([('a', 1), ('a', 2), ('b', 1), ('b', 2), ('c', 1), ('c', 2)])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2),
            ('c', 1),
            ('c', 2)],
           )

In [90]:
# 모든 경우의 수를 사용하여 인덱스를 만들어 줄 수 있음.
pd.MultiIndex.from_product([['a', 'b', 'c'], [1, 2]])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2),
            ('c', 1),
            ('c', 2)],
           )

In [91]:
# levels에 넣어두고 levels의 위치값을 지정하여 인덱스를 만들 수 있음.
pd.MultiIndex(levels=[['a', 'b', 'c'], [1, 2]],
             codes=[[0, 0, 1, 1, 2, 2], [0, 1, 0, 1, 0, 1]])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2),
            ('c', 1),
            ('c', 2)],
           )

In [92]:
population

서울특별시  2010    10312545
       2020     9720846
부산광역시  2010     2567910
       2020     3404423
인천광역시  2010     2758296
       2020     2947217
대구광역시  2010     2511676
       2020     2427954
대전광역시  2010     1503664
       2020     1471040
광주광역시  2010     1454636
       2020     1455048
dtype: int64

In [93]:
# 인덱스에도 이름을 붙일 수 있음.
population.index.names = ['행정구역', '년도']
population

행정구역   년도  
서울특별시  2010    10312545
       2020     9720846
부산광역시  2010     2567910
       2020     3404423
인천광역시  2010     2758296
       2020     2947217
대구광역시  2010     2511676
       2020     2427954
대전광역시  2010     1503664
       2020     1471040
광주광역시  2010     1454636
       2020     1455048
dtype: int64

In [94]:
# 컬럼도 인덱스와 같이 멀티컬럼을 할 수 있음.
idx = pd.MultiIndex.from_product([['a', 'b', 'c'], [1, 2]],
                                  names=['name1', 'name2'])
cols = pd.MultiIndex.from_product([['c1', 'c2', 'c3'], [1, 2]],
                                 names=['col_name', 'col_name2'])
data = np.round(np.random.randn(6, 6), 2)
mdf = pd.DataFrame(data, index=idx, columns=cols)
mdf

Unnamed: 0_level_0,col_name,c1,c1,c2,c2,c3,c3
Unnamed: 0_level_1,col_name2,1,2,1,2,1,2
name1,name2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
a,1,-1.35,-0.14,-1.07,-1.51,0.39,-0.88
a,2,0.52,-1.46,-0.47,-1.69,1.63,-2.05
b,1,0.58,0.13,0.35,0.61,-0.63,1.49
b,2,-0.84,-1.13,0.36,-0.88,0.13,0.64
c,1,0.93,-0.77,0.09,1.08,0.78,0.11
c,2,0.17,-0.72,-0.12,-1.33,0.55,-1.48


In [95]:
mdf['c1']

Unnamed: 0_level_0,col_name2,1,2
name1,name2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,-1.35,-0.14
a,2,0.52,-1.46
b,1,0.58,0.13
b,2,-0.84,-1.13
c,1,0.93,-0.77
c,2,0.17,-0.72


In [96]:
mdf['c1', 1]

name1  name2
a      1       -1.35
       2        0.52
b      1        0.58
       2       -0.84
c      1        0.93
       2        0.17
Name: (c1, 1), dtype: float64

#### 인덱싱 및 슬라이싱

In [97]:
population

행정구역   년도  
서울특별시  2010    10312545
       2020     9720846
부산광역시  2010     2567910
       2020     3404423
인천광역시  2010     2758296
       2020     2947217
대구광역시  2010     2511676
       2020     2427954
대전광역시  2010     1503664
       2020     1471040
광주광역시  2010     1454636
       2020     1455048
dtype: int64

In [98]:
population['인천광역시', 2010]

2758296

In [99]:
population[population > 3000000]

행정구역   년도  
서울특별시  2010    10312545
       2020     9720846
부산광역시  2020     3404423
dtype: int64

In [100]:
population[['대구광역시', '대전광역시']]

행정구역   년도  
대구광역시  2010    2511676
       2020    2427954
대전광역시  2010    1503664
       2020    1471040
dtype: int64

In [101]:
population[['대구광역시', '대전광역시']]

행정구역   년도  
대구광역시  2010    2511676
       2020    2427954
대전광역시  2010    1503664
       2020    1471040
dtype: int64

In [102]:
mdf

Unnamed: 0_level_0,col_name,c1,c1,c2,c2,c3,c3
Unnamed: 0_level_1,col_name2,1,2,1,2,1,2
name1,name2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
a,1,-1.35,-0.14,-1.07,-1.51,0.39,-0.88
a,2,0.52,-1.46,-0.47,-1.69,1.63,-2.05
b,1,0.58,0.13,0.35,0.61,-0.63,1.49
b,2,-0.84,-1.13,0.36,-0.88,0.13,0.64
c,1,0.93,-0.77,0.09,1.08,0.78,0.11
c,2,0.17,-0.72,-0.12,-1.33,0.55,-1.48


In [103]:
mdf['c2', 1]

name1  name2
a      1       -1.07
       2       -0.47
b      1        0.35
       2        0.36
c      1        0.09
       2       -0.12
Name: (c2, 1), dtype: float64

In [104]:
mdf.iloc[:3, :4]

Unnamed: 0_level_0,col_name,c1,c1,c2,c2
Unnamed: 0_level_1,col_name2,1,2,1,2
name1,name2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
a,1,-1.35,-0.14,-1.07,-1.51
a,2,0.52,-1.46,-0.47,-1.69
b,1,0.58,0.13,0.35,0.61


In [105]:
mdf.loc[:, ('c2', 1)]
# mdf.loc[:, ['c2', 1]] 튜플대신 리스트가 들어가면 안됨.....!

name1  name2
a      1       -1.07
       2       -0.47
b      1        0.35
       2        0.36
c      1        0.09
       2       -0.12
Name: (c2, 1), dtype: float64

In [106]:
#IndexSlice: iloc랑 다르다.
idx_slice = pd.IndexSlice
mdf.loc[idx_slice[:, 2], idx_slice[:, 2]]
#(첫 번째 인덱스 전부 & 두 번째 인덱스에서 2에 해당하는 것)
#(첫 번째 컬럼 전부 & 두 번째 컬럼에서 2에 해당하는 것)

Unnamed: 0_level_0,col_name,c1,c2,c3
Unnamed: 0_level_1,col_name2,2,2,2
name1,name2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,2,-1.46,-1.69,-2.05
b,2,-1.13,-0.88,0.64
c,2,-0.72,-1.33,-1.48


#### 다중 인덱스 재정렬

In [107]:
korea_mdf

Unnamed: 0_level_0,Unnamed: 1_level_0,총인구수,남자인구수,여자인구수
행정구역,년도,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서울특별시,2010,10312545,5111259,5201286
서울특별시,2020,9720846,4732275,4988571
부산광역시,2010,2567910,1773170,1794740
부산광역시,2020,3404423,1668618,1735805
인천광역시,2010,2758296,1390356,1367940
인천광역시,2020,2947217,1476813,1470404
대구광역시,2010,2511676,1255245,1256431
대구광역시,2020,2427954,1198815,1229139
대전광역시,2010,1503664,753648,750016
대전광역시,2020,1471040,734441,736599


In [108]:
# korea_mdf.loc['서울특별시':'인천광역시']
# korea_mdf['서울특별시':'인천광역시']
# +-> 정렬이 안 된 상태라서, 이런 식으로 사용 불가.

In [109]:
# 인덱스 정렬
korea_mdf = korea_mdf.sort_index()
korea_mdf

Unnamed: 0_level_0,Unnamed: 1_level_0,총인구수,남자인구수,여자인구수
행정구역,년도,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
광주광역시,2010,1454636,721780,732856
광주광역시,2020,1455048,720060,734988
대구광역시,2010,2511676,1255245,1256431
대구광역시,2020,2427954,1198815,1229139
대전광역시,2010,1503664,753648,750016
대전광역시,2020,1471040,734441,736599
부산광역시,2010,2567910,1773170,1794740
부산광역시,2020,3404423,1668618,1735805
서울특별시,2010,10312545,5111259,5201286
서울특별시,2020,9720846,4732275,4988571


In [110]:
# 정렬된 상태에서는 이런식으로 할 수 있음.
# 아래 둘 다 사용가능.
korea_mdf['서울특별시':'인천광역시']
korea_mdf.loc['서울특별시':'인천광역시']

Unnamed: 0_level_0,Unnamed: 1_level_0,총인구수,남자인구수,여자인구수
행정구역,년도,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서울특별시,2010,10312545,5111259,5201286
서울특별시,2020,9720846,4732275,4988571
인천광역시,2010,2758296,1390356,1367940
인천광역시,2020,2947217,1476813,1470404


In [111]:
# 인덱스 중 하나를 컬럼으로 올려서 사용함.
korea_mdf.unstack(level=0)

Unnamed: 0_level_0,총인구수,총인구수,총인구수,총인구수,총인구수,총인구수,남자인구수,남자인구수,남자인구수,남자인구수,남자인구수,남자인구수,여자인구수,여자인구수,여자인구수,여자인구수,여자인구수,여자인구수
행정구역,광주광역시,대구광역시,대전광역시,부산광역시,서울특별시,인천광역시,광주광역시,대구광역시,대전광역시,부산광역시,서울특별시,인천광역시,광주광역시,대구광역시,대전광역시,부산광역시,서울특별시,인천광역시
년도,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2
2010,1454636,2511676,1503664,2567910,10312545,2758296,721780,1255245,753648,1773170,5111259,1390356,732856,1256431,750016,1794740,5201286,1367940
2020,1455048,2427954,1471040,3404423,9720846,2947217,720060,1198815,734441,1668618,4732275,1476813,734988,1229139,736599,1735805,4988571,1470404


In [112]:
korea_mdf.unstack(level=1)

Unnamed: 0_level_0,총인구수,총인구수,남자인구수,남자인구수,여자인구수,여자인구수
년도,2010,2020,2010,2020,2010,2020
행정구역,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
광주광역시,1454636,1455048,721780,720060,732856,734988
대구광역시,2511676,2427954,1255245,1198815,1256431,1229139
대전광역시,1503664,1471040,753648,734441,750016,736599
부산광역시,2567910,3404423,1773170,1668618,1794740,1735805
서울특별시,10312545,9720846,5111259,4732275,5201286,4988571
인천광역시,2758296,2947217,1390356,1476813,1367940,1470404


In [113]:
# 하나의 시리즈로 만듬.
korea_mdf.stack()

행정구역   년도         
광주광역시  2010  총인구수      1454636
             남자인구수      721780
             여자인구수      732856
       2020  총인구수      1455048
             남자인구수      720060
             여자인구수      734988
대구광역시  2010  총인구수      2511676
             남자인구수     1255245
             여자인구수     1256431
       2020  총인구수      2427954
             남자인구수     1198815
             여자인구수     1229139
대전광역시  2010  총인구수      1503664
             남자인구수      753648
             여자인구수      750016
       2020  총인구수      1471040
             남자인구수      734441
             여자인구수      736599
부산광역시  2010  총인구수      2567910
             남자인구수     1773170
             여자인구수     1794740
       2020  총인구수      3404423
             남자인구수     1668618
             여자인구수     1735805
서울특별시  2010  총인구수     10312545
             남자인구수     5111259
             여자인구수     5201286
       2020  총인구수      9720846
             남자인구수     4732275
             여자인구수     4988571
인천광역시  2010  총인구수      2758296
             남자인구수  

In [114]:
# 첫번째 인덱스의 할당을 리셋 시킨다. 즉, 하나의 컬럼으로 할당하도록 한다.
idx_flat = korea_mdf.reset_index(level=0)
idx_flat

Unnamed: 0_level_0,행정구역,총인구수,남자인구수,여자인구수
년도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2010,광주광역시,1454636,721780,732856
2020,광주광역시,1455048,720060,734988
2010,대구광역시,2511676,1255245,1256431
2020,대구광역시,2427954,1198815,1229139
2010,대전광역시,1503664,753648,750016
2020,대전광역시,1471040,734441,736599
2010,부산광역시,2567910,1773170,1794740
2020,부산광역시,3404423,1668618,1735805
2010,서울특별시,10312545,5111259,5201286
2020,서울특별시,9720846,4732275,4988571


In [115]:
idx_flat = korea_mdf.reset_index(level=(0, 1))
idx_flat

Unnamed: 0,행정구역,년도,총인구수,남자인구수,여자인구수
0,광주광역시,2010,1454636,721780,732856
1,광주광역시,2020,1455048,720060,734988
2,대구광역시,2010,2511676,1255245,1256431
3,대구광역시,2020,2427954,1198815,1229139
4,대전광역시,2010,1503664,753648,750016
5,대전광역시,2020,1471040,734441,736599
6,부산광역시,2010,2567910,1773170,1794740
7,부산광역시,2020,3404423,1668618,1735805
8,서울특별시,2010,10312545,5111259,5201286
9,서울특별시,2020,9720846,4732275,4988571


In [116]:
# df.set_index(): 지정한 컬럼을 인덱스로 할당함.
idx_flat.set_index(['행정구역', '년도'])

Unnamed: 0_level_0,Unnamed: 1_level_0,총인구수,남자인구수,여자인구수
행정구역,년도,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
광주광역시,2010,1454636,721780,732856
광주광역시,2020,1455048,720060,734988
대구광역시,2010,2511676,1255245,1256431
대구광역시,2020,2427954,1198815,1229139
대전광역시,2010,1503664,753648,750016
대전광역시,2020,1471040,734441,736599
부산광역시,2010,2567910,1773170,1794740
부산광역시,2020,3404423,1668618,1735805
서울특별시,2010,10312545,5111259,5201286
서울특별시,2020,9720846,4732275,4988571


## 데이터 연산

In [117]:
s = pd.Series(np.random.randint(0, 10, 5))
s

0    9
1    4
2    8
3    3
4    4
dtype: int32

In [118]:
df = pd.DataFrame(np.random.randint(0, 10, (3, 3)),
                 columns=['A', 'B', 'C'])
df

Unnamed: 0,A,B,C
0,5,8,6
1,9,8,8
2,6,8,2


In [119]:
np.exp(s)

0    8103.083928
1      54.598150
2    2980.957987
3      20.085537
4      54.598150
dtype: float64

In [120]:
np.cos(df * np.pi / 4)

Unnamed: 0,A,B,C
0,-0.7071068,1.0,-1.83697e-16
1,0.7071068,1.0,1.0
2,-1.83697e-16,1.0,6.123234000000001e-17


In [121]:
# 연산시에는 인덱스가 기준임. 연산 불가능한 경우 null 반환하는 듯.
s1 = pd.Series([1, 3, 5, 7, 9], index=[0, 1, 2, 3, 4])
s2 = pd.Series([2, 4, 6, 8, 10], index=[1, 2, 3, 4, 5])
s1 +s2

0     NaN
1     5.0
2     9.0
3    13.0
4    17.0
5     NaN
dtype: float64

In [122]:
# 비어있는 곳에 0을 넣고 연산하는 방식임.
s1.add(s2, fill_value=0)

0     1.0
1     5.0
2     9.0
3    13.0
4    17.0
5    10.0
dtype: float64

In [123]:
df1 = pd.DataFrame(np.random.randint(0, 20, (3, 3)),
                  columns=list('ACD')) #이런식으로 리스트 함수를 사용할 수 있구나?
df1

Unnamed: 0,A,C,D
0,6,7,18
1,17,0,9
2,12,19,6


In [124]:
df2 = pd.DataFrame(np.random.randint(0, 20, (5, 5)),
                  columns=list('BAECD')) #이런식으로 리스트 함수를 사용할 수 있구나?
df2

Unnamed: 0,B,A,E,C,D
0,6,4,14,8,9
1,6,7,13,5,5
2,6,18,4,4,4
3,15,4,2,17,19
4,3,14,11,2,9


In [125]:
df1 + df2

Unnamed: 0,A,B,C,D,E
0,10.0,,15.0,27.0,
1,24.0,,5.0,14.0,
2,30.0,,23.0,10.0,
3,,,,,
4,,,,,


In [126]:
fvalue = df1.stack().mean() #하나의 시리즈로 만들기 위해서 이런식으로 해놓은 듯.
print(df1.stack())
print('fvalue:', fvalue)
print('df1.mean().mean():', df1.mean().mean())
df1.add(df2, fill_value=fvalue)

0  A     6
   C     7
   D    18
1  A    17
   C     0
   D     9
2  A    12
   C    19
   D     6
dtype: int32
fvalue: 10.444444444444445
df1.mean().mean(): 10.444444444444445


Unnamed: 0,A,B,C,D,E
0,10.0,16.444444,15.0,27.0,24.444444
1,24.0,16.444444,5.0,14.0,23.444444
2,30.0,16.444444,23.0,10.0,14.444444
3,14.444444,25.444444,27.444444,29.444444,12.444444
4,24.444444,13.444444,12.444444,19.444444,21.444444


### 연산자 범용 함수


#### add(): 더하기

* 넘파이에서 동작하는 것과 유사함.

In [127]:
a = np.random.randint(1, 10, size=(3, 3))
a

array([[6, 2, 9],
       [1, 7, 4],
       [8, 6, 4]])

In [128]:
a + a[0]

array([[12,  4, 18],
       [ 7,  9, 13],
       [14,  8, 13]])

In [129]:
df = pd.DataFrame(a, columns=list('ABC'))
df

Unnamed: 0,A,B,C
0,6,2,9
1,1,7,4
2,8,6,4


In [130]:
df + df.iloc[0]

Unnamed: 0,A,B,C
0,12,4,18
1,7,9,13
2,14,8,13


In [131]:
df.add(df.iloc[0])

Unnamed: 0,A,B,C
0,12,4,18
1,7,9,13
2,14,8,13


#### sub() / subtract(): 빼기

In [132]:
a

array([[6, 2, 9],
       [1, 7, 4],
       [8, 6, 4]])

In [133]:
a - a[0]

array([[ 0,  0,  0],
       [-5,  5, -5],
       [ 2,  4, -5]])

In [134]:
df 

Unnamed: 0,A,B,C
0,6,2,9
1,1,7,4
2,8,6,4


In [135]:
df - df.iloc[0]

Unnamed: 0,A,B,C
0,0,0,0
1,-5,5,-5
2,2,4,-5


In [136]:
df.sub(df.iloc[0])

Unnamed: 0,A,B,C
0,0,0,0
1,-5,5,-5
2,2,4,-5


In [137]:
# 줄여서 sub로 사용하는 것임.
# 시리즈를 가지고, 컬럼별로 빼는 것임. 즉, 대상 행의 개수와, 뺄 시리즈의 길이는 같아야 함.
df.subtract(df['B'], axis=0)

Unnamed: 0,A,B,C
0,4,0,7
1,-6,0,-3
2,2,0,-2


#### mul() / multply(): 곱하기




In [138]:
a

array([[6, 2, 9],
       [1, 7, 4],
       [8, 6, 4]])

In [139]:
a * a[0]

array([[36,  4, 81],
       [ 6, 14, 36],
       [48, 12, 36]])

In [140]:
df

Unnamed: 0,A,B,C
0,6,2,9
1,1,7,4
2,8,6,4


In [141]:
df * df.iloc[1]

Unnamed: 0,A,B,C
0,6,14,36
1,1,49,16
2,8,42,16


In [142]:
df.mul(df.iloc[1])

Unnamed: 0,A,B,C
0,6,14,36
1,1,49,16
2,8,42,16


In [143]:
df.multiply(df.iloc[1])

Unnamed: 0,A,B,C
0,6,14,36
1,1,49,16
2,8,42,16


#### truediv() /  div() / divide() / floordiv(): 나누기, 몫

In [144]:
a

array([[6, 2, 9],
       [1, 7, 4],
       [8, 6, 4]])

In [145]:
a / a[0]

array([[1.        , 1.        , 1.        ],
       [0.16666667, 3.5       , 0.44444444],
       [1.33333333, 3.        , 0.44444444]])

In [146]:
df

Unnamed: 0,A,B,C
0,6,2,9
1,1,7,4
2,8,6,4


In [147]:
df / df.iloc[0]

Unnamed: 0,A,B,C
0,1.0,1.0,1.0
1,0.166667,3.5,0.444444
2,1.333333,3.0,0.444444


In [148]:
df.truediv(df.iloc[0]) #이건 div랑 뭐가 다른거지?

Unnamed: 0,A,B,C
0,1.0,1.0,1.0
1,0.166667,3.5,0.444444
2,1.333333,3.0,0.444444


In [149]:
df.div(df.iloc[0])

Unnamed: 0,A,B,C
0,1.0,1.0,1.0
1,0.166667,3.5,0.444444
2,1.333333,3.0,0.444444


In [150]:
df.divide(df.iloc[0])

Unnamed: 0,A,B,C
0,1.0,1.0,1.0
1,0.166667,3.5,0.444444
2,1.333333,3.0,0.444444


In [151]:
a // a[0]

array([[1, 1, 1],
       [0, 3, 0],
       [1, 3, 0]])

In [152]:
df.floordiv(df.iloc[0])

Unnamed: 0,A,B,C
0,1,1,1
1,0,3,0
2,1,3,0


#### mod(): 나머지

In [153]:
a

array([[6, 2, 9],
       [1, 7, 4],
       [8, 6, 4]])

In [154]:
a % a[0]

array([[0, 0, 0],
       [1, 1, 4],
       [2, 0, 4]])

In [155]:
df

Unnamed: 0,A,B,C
0,6,2,9
1,1,7,4
2,8,6,4


In [156]:
df.mod(df.iloc[0])

Unnamed: 0,A,B,C
0,0,0,0
1,1,1,4
2,2,0,4


#### pow(): 제곱

In [157]:
a

array([[6, 2, 9],
       [1, 7, 4],
       [8, 6, 4]])

In [158]:
a ** a[0]

array([[    46656,         4, 387420489],
       [        1,        49,    262144],
       [   262144,        36,    262144]])

In [159]:
df

Unnamed: 0,A,B,C
0,6,2,9
1,1,7,4
2,8,6,4


In [160]:
df.pow(df.iloc[0])

Unnamed: 0,A,B,C
0,46656,4,387420489
1,1,49,262144
2,262144,36,262144


In [161]:
row = df.iloc[0, ::2]
row

A    6
C    9
Name: 0, dtype: int32

In [162]:
# 이것도 뭘 의미하는지 모르겠네?
df - row #B는 누락이 되어 null값이 들어감.

Unnamed: 0,A,B,C
0,0.0,,0.0
1,-5.0,,-5.0
2,2.0,,-5.0


### 정렬(Sort)

In [163]:
s = pd.Series(range(5), index=['A', 'B','C', 'D', 'E'])
s

A    0
B    1
C    2
D    3
E    4
dtype: int64

In [164]:
s.sort_index()

A    0
B    1
C    2
D    3
E    4
dtype: int64

In [165]:
s.sort_values()

A    0
B    1
C    2
D    3
E    4
dtype: int64

In [166]:
df = pd.DataFrame(np.random.randint(0, 10, (4, 4)),
                 index=[2, 4, 1, 3],
                 columns=list('BDAC'))
df

Unnamed: 0,B,D,A,C
2,5,8,7,9
4,3,8,1,9
1,2,8,6,7
3,5,5,9,1


In [167]:
df.sort_index()

Unnamed: 0,B,D,A,C
1,2,8,6,7
2,5,8,7,9
3,5,5,9,1
4,3,8,1,9


In [168]:
# index를 기준으로 정렬할지, column을 기준으로 정렬할지 정할 수 있음.
df.sort_index(axis=1)

Unnamed: 0,A,B,C,D
2,7,5,9,8
4,1,3,9,8
1,6,2,7,8
3,9,5,1,5


In [169]:
df.sort_values(by='A')

Unnamed: 0,B,D,A,C
4,3,8,1,9
1,2,8,6,7
2,5,8,7,9
3,5,5,9,1


In [170]:
df.sort_values(by=['A', 'C'])

Unnamed: 0,B,D,A,C
4,3,8,1,9
1,2,8,6,7
2,5,8,7,9
3,5,5,9,1


### 순위(Ranking)


|메소드|설명|
|---|---|
|`average`|기본값. 순위에 같은 값을 가지는 항목들의 평균값을 사용|
|`min`|같은 값을 가지는 그룹을 낮은 순위로 지정|
|`max`|같은 값을 가지는 그룹을 높은 순위로 지정|
|`first`|데이터 내의 위치에 따라 순위 지정|
|`dense`|같은 그룹 내에서 모두 같은 순위를 적용하지 않고 1씩 증가|

In [171]:
s = pd.Series([-2, 4, 7, 3, 0, 7, 5, -4, 2, 6])
s

0   -2
1    4
2    7
3    3
4    0
5    7
6    5
7   -4
8    2
9    6
dtype: int64

In [172]:
s.rank()

0    2.0
1    6.0
2    9.5
3    5.0
4    3.0
5    9.5
6    7.0
7    1.0
8    4.0
9    8.0
dtype: float64

In [173]:
s.rank(method='first') #동일한 값이 나왔을 때, 먼저 적힌 숫자가 순위가 더 높음.

0     2.0
1     6.0
2     9.0
3     5.0
4     3.0
5    10.0
6     7.0
7     1.0
8     4.0
9     8.0
dtype: float64

In [174]:
s.rank(method='max') #같은 순위를 만들되 더 빠른 순위대신 후순위를 선택.

0     2.0
1     6.0
2    10.0
3     5.0
4     3.0
5    10.0
6     7.0
7     1.0
8     4.0
9     8.0
dtype: float64

### 고성능 연산

* pd.eval이랑 df.eval이랑 다른건가...? 알아봐야할 듯

In [175]:
nrows, ncol = 100000, 100
df1, df2, df3, df4 = (pd.DataFrame(np.random.rand(nrows)) for i in range(4))

In [176]:
%timeit df1 + df2 + df3 + df4

650 µs ± 76.7 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [177]:
%timeit pd.eval('df1 + df2 + df3 + df4') #? 강의에서는 줄어드는데 왜 나는 늘어났지? 물론 실제 계산속도는 줄긴 했는데.

1.57 ms ± 29.9 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [178]:
%timeit df1 * -df2 / (-df3 * df4)

950 µs ± 85.3 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [179]:
%timeit pd.eval('df1 * -df2 / (-df3 * df4)') #더 빨라지는건 아닌 것 같은데...?

2.33 ms ± 178 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [180]:
%timeit (df1 < df2) & (df2 <= df3) & (df3 != df4)

840 µs ± 22.1 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [181]:
%timeit pd.eval('(df1 < df2) & (df2 <= df3) & (df3 != df4)')

2.1 ms ± 67.4 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [182]:
df = pd.DataFrame(np.random.rand(1000000, 5), columns=['A', 'B', 'C', 'D', 'E'])
df.head()

Unnamed: 0,A,B,C,D,E
0,0.687157,0.678347,0.193685,0.672774,0.960578
1,0.326715,0.571163,0.089143,0.007963,0.740953
2,0.155791,0.85772,0.189859,0.440148,0.933157
3,0.602252,0.093085,0.770159,0.957856,0.564097
4,0.94725,0.465962,0.224294,0.957512,0.580215


In [183]:
%timeit df['A'] + df['B'] / df['C'] + df['D'] + df['E']

26.4 ms ± 1.75 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [184]:
%timeit pd.eval("df.A + df.B / df.C + df.D + df.E")

26.2 ms ± 980 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [185]:
%timeit df.eval('A + B / C - D * E')

31.7 ms ± 864 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [186]:
# 이런식으로 추가할 수 있음.
df.eval('R = A + B / C - D * E', inplace=True)
df.head()

Unnamed: 0,A,B,C,D,E,R
0,0.687157,0.678347,0.193685,0.672774,0.960578,3.543233
1,0.326715,0.571163,0.089143,0.007963,0.740953,6.728102
2,0.155791,0.85772,0.189859,0.440148,0.933157,4.262723
3,0.602252,0.093085,0.770159,0.957856,0.564097,0.182793
4,0.94725,0.465962,0.224294,0.957512,0.580215,2.469148


In [187]:
df.mean(1) #axis를 넣는 듯?

0          1.122629
1          1.410673
2          1.139900
3          0.528374
4          0.940730
            ...    
999995     1.254454
999996     0.351796
999997    10.442670
999998     0.511932
999999     0.552366
Length: 1000000, dtype: float64

In [188]:
col_mean = df.mean(1)
df['A'] + col_mean

0          1.809786
1          1.737388
2          1.295691
3          1.130626
4          1.887981
            ...    
999995     1.976760
999996     0.707682
999997    10.970972
999998     1.436724
999999     1.115615
Length: 1000000, dtype: float64

In [189]:
# @기호를 통해서 외부의 변수를 가져올 수 있음.
df.eval('A + @col_mean')

0          1.809786
1          1.737388
2          1.295691
3          1.130626
4          1.887981
            ...    
999995     1.976760
999996     0.707682
999997    10.970972
999998     1.436724
999999     1.115615
Length: 1000000, dtype: float64

In [190]:
df[(df.A < 0.5) & (df.B < 0.5) & (df.C > 0.5)]

Unnamed: 0,A,B,C,D,E,R
17,0.490087,0.069372,0.922661,0.410278,0.044794,0.546896
20,0.147822,0.321549,0.677680,0.335834,0.168797,0.565619
21,0.173196,0.232273,0.726151,0.659361,0.762612,-0.009772
27,0.251965,0.049692,0.706027,0.219849,0.824776,0.141022
35,0.095479,0.285871,0.764956,0.575006,0.382594,0.249194
...,...,...,...,...,...,...
999978,0.288968,0.334818,0.624175,0.224039,0.541768,0.704007
999979,0.446426,0.291681,0.557937,0.998650,0.636557,0.333513
999980,0.371028,0.143618,0.578245,0.423912,0.331954,0.478677
999984,0.466778,0.432763,0.615957,0.108272,0.146640,1.153488


In [191]:
pd.eval('df[(df.A < 0.5) & (df.B < 0.5) & (df.C > 0.5)]')

Unnamed: 0,A,B,C,D,E,R
17,0.490087,0.069372,0.922661,0.410278,0.044794,0.546896
20,0.147822,0.321549,0.677680,0.335834,0.168797,0.565619
21,0.173196,0.232273,0.726151,0.659361,0.762612,-0.009772
27,0.251965,0.049692,0.706027,0.219849,0.824776,0.141022
35,0.095479,0.285871,0.764956,0.575006,0.382594,0.249194
...,...,...,...,...,...,...
999978,0.288968,0.334818,0.624175,0.224039,0.541768,0.704007
999979,0.446426,0.291681,0.557937,0.998650,0.636557,0.333513
999980,0.371028,0.143618,0.578245,0.423912,0.331954,0.478677
999984,0.466778,0.432763,0.615957,0.108272,0.146640,1.153488


In [192]:
df.eval('(A < 0.5) and (B < 0.5) and (C > 0.5)')

0         False
1         False
2         False
3         False
4         False
          ...  
999995    False
999996    False
999997    False
999998    False
999999    False
Length: 1000000, dtype: bool

In [193]:
df.query('(A < 0.5) and (B < 0.5) and (C > 0.5)')
df.query('(A < 0.5) & (B < 0.5) & (C > 0.5)') #동일하긴 한데, 쿼리가 sql문에서 따온거니까 and를 쓰는게 맞을 것 같기도..

Unnamed: 0,A,B,C,D,E,R
17,0.490087,0.069372,0.922661,0.410278,0.044794,0.546896
20,0.147822,0.321549,0.677680,0.335834,0.168797,0.565619
21,0.173196,0.232273,0.726151,0.659361,0.762612,-0.009772
27,0.251965,0.049692,0.706027,0.219849,0.824776,0.141022
35,0.095479,0.285871,0.764956,0.575006,0.382594,0.249194
...,...,...,...,...,...,...
999978,0.288968,0.334818,0.624175,0.224039,0.541768,0.704007
999979,0.446426,0.291681,0.557937,0.998650,0.636557,0.333513
999980,0.371028,0.143618,0.578245,0.423912,0.331954,0.478677
999984,0.466778,0.432763,0.615957,0.108272,0.146640,1.153488


In [194]:
col_mean = df['D'].mean()
df[(df.A < col_mean) & (df.B < col_mean)]

Unnamed: 0,A,B,C,D,E,R
7,0.150893,0.279332,0.194159,0.750535,0.184541,1.451064
17,0.490087,0.069372,0.922661,0.410278,0.044794,0.546896
20,0.147822,0.321549,0.677680,0.335834,0.168797,0.565619
21,0.173196,0.232273,0.726151,0.659361,0.762612,-0.009772
27,0.251965,0.049692,0.706027,0.219849,0.824776,0.141022
...,...,...,...,...,...,...
999983,0.236801,0.257950,0.326526,0.754504,0.997342,0.274287
999984,0.466778,0.432763,0.615957,0.108272,0.146640,1.153488
999991,0.325184,0.019432,0.256825,0.665150,0.789509,-0.124296
999992,0.336876,0.191773,0.534490,0.878107,0.509691,0.248109


In [195]:
df.query('A < @col_mean and B < @col_mean')

Unnamed: 0,A,B,C,D,E,R
7,0.150893,0.279332,0.194159,0.750535,0.184541,1.451064
17,0.490087,0.069372,0.922661,0.410278,0.044794,0.546896
20,0.147822,0.321549,0.677680,0.335834,0.168797,0.565619
21,0.173196,0.232273,0.726151,0.659361,0.762612,-0.009772
27,0.251965,0.049692,0.706027,0.219849,0.824776,0.141022
...,...,...,...,...,...,...
999983,0.236801,0.257950,0.326526,0.754504,0.997342,0.274287
999984,0.466778,0.432763,0.615957,0.108272,0.146640,1.153488
999991,0.325184,0.019432,0.256825,0.665150,0.789509,-0.124296
999992,0.336876,0.191773,0.534490,0.878107,0.509691,0.248109


## 데이터 결합

### Concat() / Append()

In [196]:
s1 = pd.Series(['a', 'b'], index=[1, 2])
s2 = pd.Series(['c', 'd'], index=[3, 4])
pd.concat([s1, s2])

1    a
2    b
3    c
4    d
dtype: object

In [197]:
# 데이터프레임 만드는 함수
def create_df(cols, idx):
    data = {c: [str(c.lower()) + str(i) for i in idx] for c in cols}
    return pd.DataFrame(data, idx)

In [198]:
df1 = create_df('AB', [1, 2])
df1

Unnamed: 0,A,B
1,a1,b1
2,a2,b2


In [199]:
df2 = create_df('AB', [3, 4])
df2

Unnamed: 0,A,B
3,a3,b3
4,a4,b4


In [200]:
pd.concat([df1, df2])

Unnamed: 0,A,B
1,a1,b1
2,a2,b2
3,a3,b3
4,a4,b4


In [201]:
df3 = create_df('AB', [0, 1])
df3

Unnamed: 0,A,B
0,a0,b0
1,a1,b1


In [202]:
df4 = create_df('CD', [0, 1])
df4

Unnamed: 0,C,D
0,c0,d0
1,c1,d1


In [203]:
pd.concat([df3, df4]) 
## 누락된 부분은 nan으로 들어가 있음.

Unnamed: 0,A,B,C,D
0,a0,b0,,
1,a1,b1,,
0,,,c0,d0
1,,,c1,d1


In [204]:
# pd.concat([df1, df3], verify_integrity=True)
# 같은 위치에 충돌되는게 있다면 에러를 띄움

In [205]:
pd.concat([df1, df3], verify_integrity=False) #그냥 무시하고 새로 하나 더 만드는 느낌.기본값.

Unnamed: 0,A,B
1,a1,b1
2,a2,b2
0,a0,b0
1,a1,b1


In [206]:
pd.concat([df1, df3], ignore_index=True) # 그냥 붙이고 인덱스를 새로 만들어

Unnamed: 0,A,B
0,a1,b1
1,a2,b2
2,a0,b0
3,a1,b1


In [207]:
# 각각의 데이터프레임에 멀티 인덱스처럼 새로 인덱스 붙일 수 있음.
pd.concat([df1, df3], keys=['X', 'Y'])

Unnamed: 0,Unnamed: 1,A,B
X,1,a1,b1
X,2,a2,b2
Y,0,a0,b0
Y,1,a1,b1


In [208]:
df5 = create_df('ABC', [1, 2])
df6 = create_df('BCD', [3, 4])
pd.concat([df5, df6])

Unnamed: 0,A,B,C,D
1,a1,b1,c1,
2,a2,b2,c2,
3,,b3,c3,d3
4,,b4,c4,d4


In [209]:
# 합친 뒤, 컬럼이 존재하는 부분만 가져옴. axis가 1이면 인덱스가 존재하는 방향으로 되는걸라나?
pd.concat([df5, df6], join='inner')

Unnamed: 0,B,C
1,b1,c1
2,b2,c2
3,b3,c3
4,b4,c4


In [210]:
df11 = create_df('ABCD', [1,2,3,4])
df22 = create_df('CDEF', [3,4,5,6])
pd.concat([df11, df22], join='inner')

Unnamed: 0,C,D
1,c1,d1
2,c2,d2
3,c3,d3
4,c4,d4
3,c3,d3
4,c4,d4
5,c5,d5
6,c6,d6


In [211]:
pd.concat([df11, df22], axis=1, join='inner')

Unnamed: 0,A,B,C,D,C.1,D.1,E,F
3,a3,b3,c3,d3,c3,d3,e3,f3
4,a4,b4,c4,d4,c4,d4,e4,f4


In [212]:
df5.append(df6)
# FutureWarning: The frame.append method is deprecated and will be removed from pandas in a future version. 
# Use pandas.concat instead.
# 없어진대.

  df5.append(df6)


Unnamed: 0,A,B,C,D
1,a1,b1,c1,
2,a2,b2,c2,
3,,b3,c3,d3
4,,b4,c4,d4


In [213]:
pd.concat([df5, df6], axis=1)

Unnamed: 0,A,B,C,B.1,C.1,D
1,a1,b1,c1,,,
2,a2,b2,c2,,,
3,,,,b3,c3,d3
4,,,,b4,c4,d4


In [214]:
pd.concat([df3, df4], axis=1)

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1


### 병합과 조인

In [215]:
df1 = pd.DataFrame({'학생':['홍길동','이순신','임꺽정','김유신'],
                   '학과':['경영학과','교육학과','컴퓨터학과','통계학과']})
df1

Unnamed: 0,학생,학과
0,홍길동,경영학과
1,이순신,교육학과
2,임꺽정,컴퓨터학과
3,김유신,통계학과


In [216]:
df2 = pd.DataFrame({'학생':['홍길동','이순신','임꺽정','김유신'],
                   '입학년도':[2012, 2016, 2019, 2020]})
df2

Unnamed: 0,학생,입학년도
0,홍길동,2012
1,이순신,2016
2,임꺽정,2019
3,김유신,2020


In [217]:
df3 = pd.merge(df1, df2)
df3

Unnamed: 0,학생,학과,입학년도
0,홍길동,경영학과,2012
1,이순신,교육학과,2016
2,임꺽정,컴퓨터학과,2019
3,김유신,통계학과,2020


In [218]:
df4 = pd.DataFrame({'학과':['경영학과','교육학과','컴퓨터학과','통계학과'],
                   '학과장':['황희','장영실','안창호','정약용']})
df4

Unnamed: 0,학과,학과장
0,경영학과,황희
1,교육학과,장영실
2,컴퓨터학과,안창호
3,통계학과,정약용


In [219]:
pd.merge(df3, df4)

Unnamed: 0,학생,학과,입학년도,학과장
0,홍길동,경영학과,2012,황희
1,이순신,교육학과,2016,장영실
2,임꺽정,컴퓨터학과,2019,안창호
3,김유신,통계학과,2020,정약용


In [220]:
df5 = pd.DataFrame({'학과':['경영학과','교육학과','교육학과','컴퓨터학과','컴퓨터학과','통계학과'],
                   '과목':['경영개론', '기초수학','물리학','프로그래밍','운영체제','확률론']})
df5

Unnamed: 0,학과,과목
0,경영학과,경영개론
1,교육학과,기초수학
2,교육학과,물리학
3,컴퓨터학과,프로그래밍
4,컴퓨터학과,운영체제
5,통계학과,확률론


In [221]:
pd.merge(df1, df5) #공통된 것이 있으면 중복해서 생성함. 모든 경우의 수.

Unnamed: 0,학생,학과,과목
0,홍길동,경영학과,경영개론
1,이순신,교육학과,기초수학
2,이순신,교육학과,물리학
3,임꺽정,컴퓨터학과,프로그래밍
4,임꺽정,컴퓨터학과,운영체제
5,김유신,통계학과,확률론


In [222]:
pd.merge(df1, df2, on='학생')

Unnamed: 0,학생,학과,입학년도
0,홍길동,경영학과,2012
1,이순신,교육학과,2016
2,임꺽정,컴퓨터학과,2019
3,김유신,통계학과,2020


In [223]:
## 예제가 쓰레기 같아서 생략

In [224]:
mdf1 = df1.set_index('학생')
mdf2 = df2.set_index('학생')
mdf1

Unnamed: 0_level_0,학과
학생,Unnamed: 1_level_1
홍길동,경영학과
이순신,교육학과
임꺽정,컴퓨터학과
김유신,통계학과


In [225]:
mdf2

Unnamed: 0_level_0,입학년도
학생,Unnamed: 1_level_1
홍길동,2012
이순신,2016
임꺽정,2019
김유신,2020


In [226]:
pd.merge(mdf1, mdf2, left_index=True, right_index=True)

Unnamed: 0_level_0,학과,입학년도
학생,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,경영학과,2012
이순신,교육학과,2016
임꺽정,컴퓨터학과,2019
김유신,통계학과,2020


In [227]:
pd.merge(mdf1, mdf2, on='학생')

Unnamed: 0_level_0,학과,입학년도
학생,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,경영학과,2012
이순신,교육학과,2016
임꺽정,컴퓨터학과,2019
김유신,통계학과,2020


In [228]:
mdf1.join(mdf2)

Unnamed: 0_level_0,학과,입학년도
학생,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,경영학과,2012
이순신,교육학과,2016
임꺽정,컴퓨터학과,2019
김유신,통계학과,2020


## 데이터 집계와 그룹 연산

|집계|설명|
|---|---|
|`count`|전체 개수|
|head, tail|앞의 항목 일부 반환, 뒤의 항목 일부 반환|
|describe|Series, DataFrame의 각 컬럼에 대한 요약 통계|
|min, max|최소값, 최대값|
|cummin, cummax|누적 최소값, 누적 최대값|
|argmin, argmax|최소값과 최대값의 색인 위치|
|idxmin, idxmax|최소값과 최대값의 색인값|
|mean, median|평균값, 중앙값|
|srd, var|표준편차, 분산|
|skew|왜도(skewness)값 계산|
|kurt|첨도(jurtosis)값 계산|
|mad|절대 평균 편치(Mean Absolute Deviation)|
|sum, cumsum|전체 항목 합, 누적합|
|prod, cumprod|전체 항목 곲, 누적곱|
|diff|1차 산술차 계산|
|pct_change|퍼센트 변화율 계산|
|corr, cov|상관관계, 공분산 계산|

#### 집계 연산(Aggregation)


In [None]:
df = pd.DataFrame([[1, 1.2, np.nan],
                  [2.4, 5.5, 4.2],
                  [np.nan, np.nan, np.nan],
                  [0.44, -3.1, -4.1]],
                 index=[1, 2, 3, 4],
                 columns=['A','B','C'])
df

Unnamed: 0,A,B,C
1,1.0,1.2,
2,2.4,5.5,4.2
3,,,
4,0.44,-3.1,-4.1


In [None]:
df.describe()

In [None]:
print(df)
print(np.argmin(df), np.argmax(df))

In [None]:
print(df)
print(df.idxmin())
print(df.idxmax())

### GroupBy 연산

### 피벗 테이블(Pivot Table)


### 범주형(Categorical) 데이터


|메소드|설명|
|---|---|
|add_categories|기존 카테고리에 새로운 카테고리 추가|
|as_ordered|카테고리에 순서 지정|
|as_unordered|카테고리에 순서 미지정|
|remove_categories|카테고리 제거|
|remove_unused_categories|사용안하는 카테고리 제거|
|rename_categories|카테고리 이름 변경|
|reorder_categories|새로운 카테고리에 순서 지정|
|set_categories|새로운 카테고리로 변경|

In [None]:
s = pd.Series(['c1', 'c2', 'c1', 'c2','c1'] * 2)
print(s)
pd.unique(s)

In [None]:
pd.value_counts(s)

In [None]:
code = pd.Series([0, 1, 0, 1, 0] * 2)
code

In [None]:
d = pd.Series(['c1', 'c2'])
d

In [None]:
# d을 기준으로 series를 코드화 할 수 있음.
d.take(code)

In [None]:
df = pd.DataFrame({'id':np.arange(len(s)),
                  'c':s,
                  'v':np.random.randint(1000, 5000, size=len(s))})
df

In [None]:
# 카테고리 형태로 만들어 줄 수 있음.
c = df['c'].astype('category')
c

In [None]:
c.values

In [None]:
# 어떤 카고리가 있는지.
c.values.categories

In [None]:
# 카테고리 코드는 어떻게 되는지.
c.values.codes

In [None]:
df['c'] = c
df.c

In [None]:
# 처음부터 카테고리로 만들기
c = pd.Categorical(['c1', 'c2', 'c3', 'c1', 'c2'])
c

In [None]:
# 코드를 카테고리로 바꾸기. 반대로도 될 것 같은데?
categories = ['c1', 'c2', 'c3']
codes = [0, 1, 2, 0, 1]
c= pd.Categorical.from_codes(codes, categories)
c

In [None]:
# 카테고리에 순서 지정
pd.Categorical.from_codes(codes, categories, ordered=True)

In [None]:
c

In [None]:
c.as_ordered()

In [None]:
c.codes

In [None]:
c.categories

In [None]:
# 카테고리 타입으로 반영
c = c.set_categories(['c1', 'c2', 'c3', 'c4', 'c5'])
c.categories

In [None]:
c.value_counts()

In [None]:
c[c.isin(['c1', 'c3'])] #쓰지 않는 카테고리도 추가할 수 있음

In [None]:
# 사용되지 않는 카테고리는 지울 수 있음.
c = c.remove_unused_categories()

In [None]:
c.categories

## 문자열 연산

#### 문자열 연산자

* 파이썬의 문자열 연산자를 거의 모두 반영하고 있음.

| 함수 | 설명 |
| --- | --- |
| capitalize() | 첫 문자를 대문자로 하고, 나머지 문자를 소문자로 하는 문자열 반환 |
| casefold() | 모든 대소문자 구분을 제거 |
| count(sub, [, startp, end]]) | [start, end]범위에서 부분 문자열 sub의 중복되지 않은 수를 반환 |
| find(sub, [, startp, end]]) | [start, end]에서 부분 문자열 sub가 문자열의 가장 작은 인덱스를 반환. sub가 발견되지 않는 경우는 -1반환|
| rfind(sub, [, startp, end]]) | [start, end]에서 부분 문자열 sub가 문자열의 가장 작은 큰 인덱스를 반환. sub가 발견되지 않는 경우는 -1 반환|
| index(sub, [, startp, end]]) | find()와 유사하지만, 부분 문자열 sub가 없으면 ValueError 발생 |
| rindex(sub, [, startp, end]]) | rfind()와 유사하지만, sub가 없으면 ValueError 발생 |
| isalnum() | 문자열의 모든 문자가 영숫자로 1개 이상 있으면 True, 아니면 False 반환 |
| isalpha() | 문자열의 모든 문자가 영문자로 1개 이상 있으면 True, 아니면 False 반환 |
| isdecimal() | 문자열의 모든 문자가 10진수 문자이며 1개 이상 있을 때 True, 그렇지 아니면 False 반환 |
| isdigit() | 문자열의 모든 문자가 숫자이며 1개 이상 있을 때 True, 그렇지 않으면 False 반환|
| isnumeric() | 문자열의 모든 문자가 수치형이며 1개 이상 있을 때 True, 그렇지 않으면 False 반환 |
| isidentifier() | 문자열이 유효한 식별자인 경우 True 반환 |
| isspace() | 문자열 내에 공백 문자가 있고, 문자가 1개 이상 있을 때 True, 아니면 False 반환 |
| istitle() | 문자열이 제목이 있는 문자열에 문자가 1개 이상 있으면 True, 아니면 False |
| islower() | 문자열의 모든 문자가 소문자이며 1개 이상 있을 때 True, 아니면 False | 
| isupper() | 문자열의 모든 문자가 대문자이며 1개 이상 있으면 True, 아니면 False |
| join(iterable) | iterable에 있는 문자열에 연결된 문자열을 반환 |
| center(width [, fillchar]) | 길이 너비 만큼 중앙정렬된 문자열 반환 |
| ljust(width [, fillchar]) | 너비만큼의 문자열에서 왼쪽 정렬된 문자열을 반환 | 
| rjust(width [, fillchar]) | 너비만큼의 문자열에서 오른쪽 정렬된 문자열으 반환 |
| lower() | 모든 대소문자가 소문자로 변환된 무자열을 반환 | 
| upper() | 문자열에서 모든 문자를 대문자로 변환한 문자열 반환 | 
| title() |  문자열에서 첫 그자만 대문자이고 나머지는 소문자인 문자열 반환 |
| swapcase() | 문자열에서 소문자를 대문자로, 대문자를 소문자로 변환한 문자열 반환|
| strip([chars]) | 문자열 양쪽에 지정된 chars 또는 공백을 제거한 문자열을 반환 | 
| lstrip([chars]) | 문자열 왼쪽에 지정된 chars 또는 공백을 제거한 문자열을 반환 |
| rstrip([chars]) | 문자열 오른쪽에 지정된 chars 또는 공백을 제거한 문자열을 반환 |
| partition(sep) | 문자열에서 첫번째 sep을 기분으로 분할하여 3개의 튜블을 반환 |
| rpartition(sep) | 문자열에서 마지막 sep을 기준으로 분할하여 3개의 튜플을 반환 |
| replave(old, new[, count] | 문자열의 모든 old를 new로 교체한 문자열으 반환 |
| split(sep=None, maxsplit=1) | sep을 구분자 문자열로 사용하여, 왼쪽부터 문자열의 단어 목록을 반환 |
| rsplit(sep=None, maxsplit=1) | sep을 구분자 문자열로 사용하여, 오른쪽부터 문자열의 단어 목록을 반환 |
| splitlines([keepends]) | 문자열에서 라인 단위로 구분하여 리스트를 반환 |
| startswith(prefix [, start[ ,end]]) | [start, end] 범위에서 지정한 prefix로 시작하면 True, 아니면 False 반환 |
| endswith(suffix [, start[ ,end]]) | [start, end]범위에서 지정한 suffix로 끝나면 True, 아니면 False |
| zfill(width) | 너비 만큼의 문자열에서 비어있는 부분에 '0'이 채워진 문자열 반환(fill도 있을 듯?) |

In [None]:
name_tuple = ['Suan Lee', 'Steven Jobs', 'Larry Page', 'Elon Musk', None, 'Bill Gates', 'Mark Zuckerberg', 'Jeff Bezos']
names = pd.Series(name_tuple)
names

In [None]:
# 판다스 객체의 문자열 처리를 사용하려면 str를 사용해야함.
names.str.lower()

In [None]:
names.str.len()

#### 기타 연산자


#### 정규표현식


## 시계열 처리

#### 시계열 데이터 구조


### 시계열 기본

### 주기와 오프셋


### 시프트(Shift)

### 시간대 처리

* 국제표준시(Coordinated Universal Time, UTC)를 기준으로 떨어진 거리만큼 오프셋으로 시간대 처리
* 전 세계의 시간대 정보를 모아놓은 올슨 데이터베이스를 활용한 라이브러리인 `pytz` 사용

### 기간과 기간 연산

### 리샘플링(Resampling)

* 리샘플링(Resampling): 시계열의 빈도 변환
* 다운샘플링(Down sampling): 상위 빈도 데이터를 하위 빈도 데이터로 집계
* 업샘플링(Up sampling): 하위 빈도 데이터를 상위 빈도 데이터로 집계

### 무빙 윈도우(Moving Window)

## 데이터 읽기 및 저장


### 텍스트 파일 읽기/쓰기

### 이진 데이터 파일 읽기/쓰기

## 데이터 정제

### 누락값 처리

* 대부분의 실제 데이터들은 정제되지 않고 누락값들이 존재
* 서로 다른 데이터들은 다른 형태의 결측을 가짐
* 결측 데이터는 `null`, `NaN`, `NA`로 표기

#### None: 파이썬 누락 데이터

#### NaN: 누락된 수치 데이터

#### Null 값 처리


### 중복 제거

### 값 치환

## 참고문헌

* Pandas 사이트: https://pandas.pydata.org/
* Jake VanderPlas, "Python Data Science Handbook", O'Reilly
* Wes Mckinney, "Python for Data Analysis", O'Reilly