# Pandas
panel data and analysis<br>
공식: https://pandas.pydata.org<br>
![](https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fzy1Or%2FbtqM39h0uLB%2FfHnntePsHiwAIFStdqGsLk%2Fimg.png)

<img src="http://image.yes24.com/Goods/73268296/800x0" width="200px">


In [None]:
# Pandas : 데이터 분석 라이브러리
# 행(row), 열(column) 형태의 '정형 데이터' 객체를 다룸
#  2차원 데이터
#  엑셀의 시트, RDB 의 테이블과 같은 형태

# 대표적인 객체는
#  DataFrame 과 Series

# Series
  - pandas의 기본 객체 중 하나
  - numpy의 ndarray를 기반으로 **인덱싱 기능**이 추가된 **1차원 배열**을 나타냄 (index x value 의 형태)
  - index를 지정하지 않을 시, 기본적으로 ndarray와 같이 0-based 인덱스 생성, 지정할 경우 명시적으로 지정된 index를 사용
  - **같은 타입**의 0개 이상의 데이터를 가질 수 있음

In [1]:
import numpy as np
import pandas as pd

# Series 생성

In [3]:
s1 = pd.Series([10, 20, 30])
s1


Unnamed: 0,0
0,10
1,20
2,30


In [None]:
# ↑ 왼쪽이 index, 오른쪽이 value (값),  dtype : 데이터 타입
# 데이터로만 생성하게 되면,  index 는 0-base 인덱스로 생성됨

In [5]:
s1.values

array([10, 20, 30])

In [6]:
s1.index


RangeIndex(start=0, stop=3, step=1)

In [7]:
s1.dtype

dtype('int64')

In [8]:
s3 = pd.Series(np.arange(200))
s3


Unnamed: 0,0
0,0
1,1
2,2
3,3
4,4
...,...
195,195
196,196
197,197
198,198


In [9]:
s3[4]

np.int64(4)

## data=. index= 명시하여 Series 생성

In [12]:
s4 = pd.Series(data=[1, 2, 3], index=[100, 200, 300])
s4

Unnamed: 0,0
100,1
200,2
300,3


In [14]:
# keyError
# s4[0]

s4[100]


np.int64(1)

In [15]:
s4.index

Index([100, 200, 300], dtype='int64')

In [16]:
# index 는 굳이 정수일 필요 없다!

s5 = pd.Series([1, 2, 3], ['john', 'mark', 'charlie'])
s5

Unnamed: 0,0
john,1
mark,2
charlie,3


In [17]:
s5['john']

np.int64(1)

In [18]:
# index 중복 허용된다!!!!!!!!
s6 = pd.Series([1, 2, 3], ['john', 'john', 'charlie'])
s6

Unnamed: 0,0
john,1
john,2
charlie,3


In [20]:
s6['charlie']  # -> value

np.int64(3)

In [21]:
s6['john']  # -> Series

Unnamed: 0,0
john,1
john,2


## dict 로 생성

In [22]:
# dict 로 Series 생성
sdata = {'김철수': 35000, '이상현': 67000, '최종수': 12000, '박진관': 4000}


s6 = pd.Series(sdata)
s6

# dict 의
#   key -> index,
#   value -> value,

Unnamed: 0,0
김철수,35000
이상현,67000
최종수,12000
박진관,4000


# indexing

In [23]:
s7 = pd.Series(data=np.arange(5), index=np.arange(100, 105), dtype=np.int16)
s7

Unnamed: 0,0
100,0
101,1
102,2
103,3
104,4


In [24]:
s7.index

Index([100, 101, 102, 103, 104], dtype='int64')

In [25]:
s7.index.values

array([100, 101, 102, 103, 104])

In [26]:
s7[102], s7[104]

(np.int16(2), np.int16(4))

In [28]:
s7[[102, 104]]   # Series

Unnamed: 0,0
102,2
104,4


In [29]:
s7

Unnamed: 0,0
100,0
101,1
102,2
103,3
104,4


In [30]:
s7[[104, 101, 104, 104, 102]]

Unnamed: 0,0
104,4
101,1
104,4
104,4
102,2


In [31]:
s7[104] = 70  # value 변경 가능
s7

Unnamed: 0,0
100,0
101,1
102,2
103,3
104,70


In [33]:
# s7[105]  # 에러

In [34]:
# 기존에 없던 인덱스에 값 대입 -> 새로 생긴다!
s7[105] = 90

s7


Unnamed: 0,0
100,0
101,1
102,2
103,3
104,70
105,90


In [36]:
s7[[101, 102]] = 10, 20
s7

  s7[[101, 102]] = 10, 20


Unnamed: 0,0
100,0
101,10
102,20
103,3
104,70
105,90


In [37]:
s7.index

Index([100, 101, 102, 103, 104, 105], dtype='int64')

In [38]:
# 기존의 index 사용하여 새로운 Sereis 생성 가능.


s8 = pd.Series(np.arange(6), s7.index )
s8

Unnamed: 0,0
100,0
101,1
102,2
103,3
104,4
105,5


# Series name, index name, index 변경

In [39]:
s6

Unnamed: 0,0
김철수,35000
이상현,67000
최종수,12000
박진관,4000


In [41]:
# Series 의 .name 변경
s6.name = '급여'
s6

Unnamed: 0,급여
김철수,35000
이상현,67000
최종수,12000
박진관,4000


In [44]:
# index 의 .name 변경
s6.index.name = '이름'
s6


Unnamed: 0_level_0,급여
이름,Unnamed: 1_level_1
김철수,35000
이상현,67000
최종수,12000
박진관,4000


In [45]:
s6.index

Index(['김철수', '이상현', '최종수', '박진관'], dtype='object', name='이름')

In [46]:
s6.index = ['Kim', 'Lee', 'Choi', "Park"]  # index 변경
s6

Unnamed: 0,급여
Kim,35000
Lee,67000
Choi,12000
Park,4000


# **Series ndim, shape, size, len, unique, count, value_counts 함수**
 - size : 개수 반환
 - shape : 튜플형태로 shape반환
 - unique: 유일한 값만 ndarray로 반환
 - count : NaN을 제외한 개수를 반환
 - mean: NaN을 제외한 평균
 - value_counts: NaN을 제외하고 각 값들의 빈도를 반환

In [47]:
s1 = pd.Series([1, 1, 2, 1, 2, 2, 2, 1, 1, 3, 3, 4, 5, 5, 7, np.nan])  # np.NaN 은 numpy 2.0 에서 없어짐
s1

# NaN (Not a Number : 숫자가 들어와야 하는데 숫자가 아닌 값)
# 실무 데이터를 다루다 보면 NaN 을 엄청나게 자주 만나게 된다.
#    원본데이터의 '누락' 이라든지, DBMS 상의 null 값이라든지 등등. 여러가지 이슈로 NaN 값 발생
#    ★그래서 데이터 분석시 NaN 값을 제거 하든지 혹은 치환 하든지.. 해서 처리할줄 알아야 한다


Unnamed: 0,0
0,1.0
1,1.0
2,2.0
3,1.0
4,2.0
5,2.0
6,2.0
7,1.0
8,1.0
9,3.0


In [48]:
s1.ndim


1

In [49]:
s1.shape

(16,)

In [50]:
s1.size

16

In [51]:
len(s1)

16

In [52]:
s1.unique()

array([ 1.,  2.,  3.,  4.,  5.,  7., nan])

In [None]:
# nan 값의 연산
#  - 집계연산의 경우 nan 값은 제외되어 연산된다 (numpy 와 다른점!)
#  - count, mean, max, min ...

In [53]:
s1.count()


np.int64(15)

In [56]:
a1 = np.array([2, 2, 2, 2, np.nan])
len(a1)
a1.mean()  # 평균값 nan!!! numpy 의 경우 array 원소 중에 NaN 이 있으면 연산 불가 (즉 NaN 이 나옴)

np.float64(nan)

In [58]:
pd.Series(a1).mean()  # nan 배제하고 평균값 산출

np.float64(2.0)

In [59]:
s1.value_counts()

Unnamed: 0,count
1.0,5
2.0,4
3.0,2
5.0,2
4.0,1
7.0,1


# head, tail 함수

In [60]:
s1.head()  # 상위 5개

Unnamed: 0,0
0,1.0
1,1.0
2,2.0
3,1.0
4,2.0


In [61]:
s1.tail()  # 하위 5개

Unnamed: 0,0
11,4.0
12,5.0
13,5.0
14,7.0
15,


In [62]:
s1.head(3)  # 상위 3개

Unnamed: 0,0
0,1.0
1,1.0
2,2.0


# Sereis 연산
- index 기준으로 연산

In [None]:
# numpy 와 마찬가지로
# Series 도 Series 끼리 연산 가능.
#  기억할 포인트는 '같은 인덱스' 기준으로 연산한다는 겁니다
#  이 특징은 DataFrame 에서도 동일하게 적용됩니다.

In [63]:
s1 = pd.Series([1, 2, 3, 4], ['a', 'b', 'c', 'd'])
s2 = pd.Series([6, 3, 2, 1], ['d', 'c', 'b', 'a'])  # 인덱스 순서 다르다

In [64]:
s1

Unnamed: 0,0
a,1
b,2
c,3
d,4


In [65]:
s2

Unnamed: 0,0
d,6
c,3
b,2
a,1


In [66]:
s1 + s2 # 과연?

Unnamed: 0,0
a,2
b,4
c,6
d,10


# 산술연산
 - Series의 경우에도 **스칼라와의 연산** 각 원소별로 스칼라와의 연산이 적용
 - Series와의 연산은 각 인덱스에 맞는 값끼리 연산이 적용
   - 이때, 인덱스의 pair가 맞지 않으면, 결과는 NaN

In [67]:
s1 ** 2


Unnamed: 0,0
a,1
b,4
c,9
d,16


In [68]:
s1 ** s2  # Series 는 동일 인덱스끼리 연산


Unnamed: 0,0
a,1
b,4
c,27
d,4096


In [69]:
# s1 과 s2 에 각각 새로운 index-value 추가
s1['k'] = 7
s2['e'] = 9

In [70]:
s1

Unnamed: 0,0
a,1
b,2
c,3
d,4
k,7


In [71]:
s2

Unnamed: 0,0
d,6
c,3
b,2
a,1
e,9


In [72]:
s1 + s2

Unnamed: 0,0
a,2.0
b,4.0
c,6.0
d,10.0
e,
k,


 # **Boolean selection**
  - boolean Series가 []와 함께 사용되면 True 값에 해당하는 값만 새로 반환되는 Series객체에 포함됨
  - 다중조건의 경우, &(and), |(or)를 사용하여 연결 가능

In [73]:
s = pd.Series(np.arange(10), np.arange(10) + 1)
s

Unnamed: 0,0
1,0
2,1
3,2
4,3
5,4
6,5
7,6
8,7
9,8
10,9


In [74]:
s > 5   # 결과는 boolean Series

Unnamed: 0,0
1,False
2,False
3,False
4,False
5,False
6,False
7,True
8,True
9,True
10,True


In [75]:
s[s > 5]

Unnamed: 0,0
7,6
8,7
9,8
10,9


In [76]:
s[s % 2 == 0]

Unnamed: 0,0
1,0
3,2
5,4
7,6
9,8


In [None]:
# index 를 사용한 필터링 가능!

In [77]:
s.index

Index([1, 2, 3, 4, 5, 6, 7, 8, 9, 10], dtype='int64')

In [78]:
s.index > 5  # boolean mask

array([False, False, False, False, False,  True,  True,  True,  True,
        True])

In [79]:
s[s.index > 5 ]

Unnamed: 0,0
6,5
7,6
8,7
9,8
10,9


# Series 값 삭제: drop()

In [80]:
s = pd.Series(np.arange(100, 105), ['a', 'b', 'c', 'd', 'e'])
s

Unnamed: 0,0
a,100
b,101
c,102
d,103
e,104


In [81]:
s['a'] = 200
s

Unnamed: 0,0
a,200
b,101
c,102
d,103
e,104


In [82]:
s['k'] = 300
s

Unnamed: 0,0
a,200
b,101
c,102
d,103
e,104
k,300


In [83]:
s.drop('k')  # 원본 변화 없다!

Unnamed: 0,0
a,200
b,101
c,102
d,103
e,104


In [84]:
s

Unnamed: 0,0
a,200
b,101
c,102
d,103
e,104
k,300


## inplace=

In [None]:
# ★중요★
# drop() 함수는 drop 한'결과' 를 새로 만들어서 리턴한거고
# 원본 데이터 s 는 '변경'하지 않습니다

# numpy , pandas, 그밖의 수많은 데이터 관련 모듈들 에서의
# 대부분의 객체 함수들은 호출한 원본 객체를 '변경'하진 않고
# 원본의 '사본'을 만든뒤 '사본' 에 연산수행하여 그 '사본' 을 리턴하도록 동작 한다
# (함수마다 조금씩 다르긴 하다)

# 그러나!
# inplace=True 파라미터를 주면 '사본' 을 만들지 않고 '원본'을 변화시키도록 동작한다


In [85]:
       # ↓ TODO
s.drop('k', inplace=True)  # 이 경우 리턴값 없다! None (원본 변화 발생!)

In [86]:
s

Unnamed: 0,0
a,200
b,101
c,102
d,103
e,104


# **Slicing**
 - 리스트, ndarray와 동일하게 적용
 - index 가 문자열인 경우 slicing 시 마지막도 포함 (ndarray 와 차이점!)

In [87]:
s1 = pd.Series(np.arange(100, 105))
s1

Unnamed: 0,0
0,100
1,101
2,102
3,103
4,104


In [88]:
s1[1:3]


Unnamed: 0,0
1,101
2,102


In [89]:
# 인덱스가 '문자' 인 경우.
s2 = pd.Series(np.arange(100, 105), ['a','b','c','d','e'])
s2

Unnamed: 0,0
a,100
b,101
c,102
d,103
e,104


In [91]:
s2[1] # 이렇게 인덱싱하진 마세요


  s2[1] # 이렇게 인덱싱하진 마세요


np.int64(101)

In [92]:
s2[1:3]

Unnamed: 0,0
b,101
c,102


In [93]:
s2['b':'d']    # index 가 문자인 경우, slicing 할때 마지막도 '포함'


Unnamed: 0,0
b,101
c,102
d,103


# Multi level index

In [94]:
s3 = pd.Series([1, 2, 3, 4, 5, 6], ['a', 'a', 'b', 'b', 'c', 'c'])
s3

Unnamed: 0,0
a,1
a,2
b,3
b,4
c,5
c,6


In [95]:
s3.index

Index(['a', 'a', 'b', 'b', 'c', 'c'], dtype='object')

In [None]:
# ↑ 단일 level index 다!

In [96]:
# multi-level index 를 가진 Series

s4 = pd.Series(
    np.arange(100, 106),
    index = [
        ['a','a','b','b','c','c'],
        [ 1 , 2 , 1,  2 , 1,  2 ],
    ],
)

s4


Unnamed: 0,Unnamed: 1,0
a,1,100
a,2,101
b,1,102
b,2,103
c,1,104
c,2,105


In [97]:
s4.index

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2),
            ('c', 1),
            ('c', 2)],
           )

In [109]:
1, 2

(1, 2)

In [98]:
# tuple 인덱싱으로 value 접근
s4['a', 1]


np.int64(100)

In [99]:
s4['a']

Unnamed: 0,0
1,100
2,101


In [None]:
# ↑
# s4: 2-level index
# s4['a'] : 1-level index

In [100]:
s4['a'][1]

np.int64(100)

In [101]:
s4['a':'b']

Unnamed: 0,Unnamed: 1,0
a,1,100
a,2,101
b,1,102
b,2,103


In [103]:
s4[['a', 'c']]

Unnamed: 0,Unnamed: 1,0
a,1,100
a,2,101
c,1,104
c,2,105


## xs() 를 사용한 인덱스
cross-section

In [104]:
# level 0 인덱싱  <= s4['a'] 와 결과 동일
s4.xs('a')


Unnamed: 0,0
1,100
2,101


In [105]:
# () 괄호 꼭 필요!   # s4['a', 1] 과 동일
s4.xs(('a', 1))


np.int64(100)

In [106]:
s4

Unnamed: 0,Unnamed: 1,0
a,1,100
a,2,101
b,1,102
b,2,103
c,1,104
c,2,105


In [108]:
# s4.xs(2)  # 에러 level 0  에는 2 라는 index 없다!
s4.xs(2, level=1)  # level 1 인덱싱!

Unnamed: 0,0
a,101
b,103
c,105


In [110]:
s4.xs(2, level=-1)

Unnamed: 0,0
a,101
b,103
c,105


In [111]:
s4.xs((2, 'b'), level=(1, 0))

Unnamed: 0,Unnamed: 1,0
b,2,103


## Series 에서 level 별 계산

In [112]:
data = pd.Series(
    [100, 200, 300, 400, 500, 600],
    index=[
        ["a", "a", "a", "b", "b", "c"],  # level 0 index
        [1,   2,   3,   1,   2,   1],    # level 1 index
    ]
)
data

Unnamed: 0,Unnamed: 1,0
a,1,100
a,2,200
a,3,300
b,1,400
b,2,500
c,1,600


In [113]:
data.sum()

np.int64(2100)

In [114]:
data.mean()

np.float64(350.0)

In [115]:
# data.sum(level = 0)  # level = 없어짐.
data.groupby(level = 0).sum()

Unnamed: 0,0
a,600
b,900
c,600


In [116]:
data.groupby(level = 1).sum()

Unnamed: 0,0
1,1100
2,700
3,300


# apply() 함수
- Series각 value 원소 에 함수를 적용(apply)할 때 사용.
- 일종의 원소별(element-wise) 변환 역할

```python
Series.apply(func, convert_dtype=True, args=(), **kwargs)
```


In [117]:
s = pd.Series([1, 2, 3, 4, 5])

# 각 원소에 제곱 적용
s.apply(lambda x: x ** 2)


Unnamed: 0,0
0,1
1,4
2,9
3,16
4,25


In [118]:
# 사용자 정의함수 적용
def custom_func(x):
    return f"Value: {x}"

s.apply(custom_func)


Unnamed: 0,0
0,Value: 1
1,Value: 2
2,Value: 3
3,Value: 4
4,Value: 5


In [120]:
# 추가인자 전달
def multiply(x, factor):
    return x * factor

s.apply(multiply, args=(10,))


Unnamed: 0,0
0,10
1,20
2,30
3,40
4,50


In [121]:
# 문자열 처리
s2 = pd.Series(["  apple ", "banana", " Cherry "])

# strip + 소문자 변환
s2.apply(lambda x: x.strip().lower())


Unnamed: 0,0
0,apple
1,banana
2,cherry
