# Pandas

In [1]:
import pandas as pd
import numpy as np

# 1. pandas 객체

## series 객체
- 인덱스와 함께 출력

In [2]:
s = pd.Series([0, 0.25, 0.5])

In [3]:
s

0    0.00
1    0.25
2    0.50
dtype: float64

In [4]:
s.index

RangeIndex(start=0, stop=3, step=1)

In [5]:
s.values

array([0.  , 0.25, 0.5 ])

In [6]:
s[1]

0.25

In [7]:
s[0:2]

0    0.00
1    0.25
dtype: float64

- 인덱스 별도 지정 가능

In [8]:
s = pd.Series([0, 0.25, 0.5, 0.75, 1.0],
             index = ['a', 'b', 'c', 'd', 'e'])

In [9]:
s

a    0.00
b    0.25
c    0.50
d    0.75
e    1.00
dtype: float64

In [10]:
s['c']

0.5

In [11]:
s[['c', 'd']]

c    0.50
d    0.75
dtype: float64

In [12]:
'b' in s

True

- 연속하지 않는 숫자로 인덱스 설정 가능

In [13]:
s = pd.Series([0, 0.25, 0.5, 0.75, 1.0],
             index = [2, 4, 6, 8, 10])

In [14]:
s[4]

0.25

In [15]:
s[2:]

6     0.50
8     0.75
10    1.00
dtype: float64

In [16]:
s.unique()

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [17]:
s.value_counts()

0.00    1
1.00    1
0.50    1
0.75    1
0.25    1
dtype: int64

- 해당 값이 어디 있는지 불리언 값으로 출력함

In [18]:
s.isin([0.25, 0.75])

2     False
4      True
6     False
8      True
10    False
dtype: bool

- 튜플 형태 대입 가능

In [19]:
pop_tuple = {'서울특별시' : 9720846,
             '부산광역시' : 3404423,
             '인천광역시' : 2947217,
             '대구광역시' : 2427954,
             '대전광역시' : 1471040}

population = pd.Series(pop_tuple)

In [20]:
population 

서울특별시    9720846
부산광역시    3404423
인천광역시    2947217
대구광역시    2427954
대전광역시    1471040
dtype: int64

In [21]:
population['서울특별시']

9720846

In [22]:
population['서울특별시':'인천광역시']

서울특별시    9720846
부산광역시    3404423
인천광역시    2947217
dtype: int64

## DataFrame 객체
- 누락 값들을 NA 처리함

In [23]:
pd.DataFrame([{'A' : 2, 'B' : 4 , 'D' : 3}, {'A' : 4, 'B' : 5, 'C' : 7} ])

Unnamed: 0,A,B,D,C
0,2,4,3.0,
1,4,5,,7.0


In [24]:
pd.DataFrame(np.random.rand(5, 5),
            columns = ['A', 'B', 'C', 'D', 'E'],
            index = [1, 2, 3, 4, 5])

Unnamed: 0,A,B,C,D,E
1,0.544925,0.400243,0.180874,0.617259,0.896174
2,0.916352,0.260789,0.645655,0.873198,0.282319
3,0.742673,0.699919,0.259309,0.722377,0.519896
4,0.585634,0.634996,0.339491,0.80634,0.67183
5,0.81377,0.61262,0.02312,0.888128,0.971819


In [25]:
male_tuple = {'서울특별시' : 4732275,
              '부산광역시' : 1668618,
              '인천광역시' : 1476813,
              '대구광역시' : 1198815,
              '대전광역시' : 734441}

male = pd.Series(male_tuple)
male

서울특별시    4732275
부산광역시    1668618
인천광역시    1476813
대구광역시    1198815
대전광역시     734441
dtype: int64

In [26]:
female_tuple = {'서울특별시' : 4988571,
                '부산광역시' : 1735805,
                '인천광역시' : 1470404,
                '대구광역시' : 1229139,
                '대전광역시' : 736599}

female = pd.Series(female_tuple)
female

서울특별시    4988571
부산광역시    1735805
인천광역시    1470404
대구광역시    1229139
대전광역시     736599
dtype: int64

In [27]:
korea_df = pd.DataFrame({'인구수' : population,
                         '남자인구수' : male,
                         '여자인구수' : female})

korea_df

Unnamed: 0,인구수,남자인구수,여자인구수
서울특별시,9720846,4732275,4988571
부산광역시,3404423,1668618,1735805
인천광역시,2947217,1476813,1470404
대구광역시,2427954,1198815,1229139
대전광역시,1471040,734441,736599


In [28]:
korea_df.index

Index(['서울특별시', '부산광역시', '인천광역시', '대구광역시', '대전광역시'], dtype='object')

In [29]:
korea_df.columns

Index(['인구수', '남자인구수', '여자인구수'], dtype='object')

In [30]:
korea_df['여자인구수']

서울특별시    4988571
부산광역시    1735805
인천광역시    1470404
대구광역시    1229139
대전광역시     736599
Name: 여자인구수, dtype: int64

In [31]:
korea_df['서울특별시' : '인천광역시']

Unnamed: 0,인구수,남자인구수,여자인구수
서울특별시,9720846,4732275,4988571
부산광역시,3404423,1668618,1735805
인천광역시,2947217,1476813,1470404


## Index 객체

In [32]:
idx = pd.Index([2, 4, 6, 8, 10])
idx

Int64Index([2, 4, 6, 8, 10], dtype='int64')

In [33]:
idx[1]

4

In [34]:
idx[1:2:2]

Int64Index([4], dtype='int64')

In [35]:
idx[-1::]

Int64Index([10], dtype='int64')

In [36]:
idx[::2]

Int64Index([2, 6, 10], dtype='int64')

In [37]:
print(idx)
print(idx.size)
print(idx.shape)
print(idx.ndim)
print(idx.dtype)

Int64Index([2, 4, 6, 8, 10], dtype='int64')
5
(5,)
1
int64


### Index 연산

In [38]:
idx1 = pd.Index([1, 2, 4, 6, 8])
idx2 = pd.Index([2, 4, 5, 6, 7])
print(idx1.append(idx2))

print(idx1.difference(idx2)) # 차집합
print(idx1 - idx2)           # 차집합과는 다름

print(idx1.intersection(idx2)) # 교집합
print(idx1 & idx2)             # 교집합과 같음

print(idx1.union(idx2))        # 합집합 , 중복된 값 제외
print(idx1 | idx2)             # 합집합과 같음

print(idx1.delete(0))          # 첫 번째 인덱스를 빼고 싶다

print(idx1.drop(1))            # 첫 번째 인덱스를 뻬고 싶다

print(idx1 ^ idx2)             # 여집합, 공통된 걸 뺀 나머지

Int64Index([1, 2, 4, 6, 8, 2, 4, 5, 6, 7], dtype='int64')
Int64Index([1, 8], dtype='int64')
Int64Index([-1, -2, -1, 0, 1], dtype='int64')
Int64Index([2, 4, 6], dtype='int64')
Int64Index([2, 4, 6], dtype='int64')
Int64Index([1, 2, 4, 5, 6, 7, 8], dtype='int64')
Int64Index([1, 2, 4, 5, 6, 7, 8], dtype='int64')
Int64Index([2, 4, 6, 8], dtype='int64')
Int64Index([2, 4, 6, 8], dtype='int64')
Int64Index([1, 5, 7, 8], dtype='int64')


  print(idx1 & idx2)             # 교집합과 같음
  print(idx1 | idx2)             # 합집합과 같음
  print(idx1 ^ idx2)             # 여집합, 공통된 걸 뺀 나머지


# 2. 인덱싱

In [39]:
s = pd.Series([0, 0.25, 0.5, 0.75, 1.0],
             index = ['a', 'b', 'c', 'd', 'e']) # 인덱스 값이 mapping 돼서 들어감

In [40]:
s['b']

0.25

In [41]:
'b' in s

True

In [42]:
s.keys()

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [43]:
list(s.items())

[('a', 0.0), ('b', 0.25), ('c', 0.5), ('d', 0.75), ('e', 1.0)]

In [44]:
s['f'] = 1.25

In [45]:
s

a    0.00
b    0.25
c    0.50
d    0.75
e    1.00
f    1.25
dtype: float64

In [46]:
s['a' : 'd']

a    0.00
b    0.25
c    0.50
d    0.75
dtype: float64

In [47]:
s[0 : 4] 

a    0.00
b    0.25
c    0.50
d    0.75
dtype: float64

In [48]:
s[(s > 0.4) & (s <0.8)] # 특정 조건을 줄 때

c    0.50
d    0.75
dtype: float64

In [49]:
s[['a', 'c', 'e']] # 내가 원하는 인덱스 부분만 추출 가능

a    0.0
c    0.5
e    1.0
dtype: float64

## Series 인덱싱

In [50]:
s = pd.Series(['a', 'b', 'c', 'd', 'e'],
             index = [1, 3, 5, 7, 9])

In [51]:
s

1    a
3    b
5    c
7    d
9    e
dtype: object

In [52]:
s[1] # 내가 선택한 인덱싱으로 선택해 출력

'a'

In [53]:
s[2:4]

5    c
7    d
dtype: object

In [54]:
s.iloc[1] # 기본적인 순서로 매핑이되어 출력

'b'

In [55]:
s.iloc[2:4]

5    c
7    d
dtype: object

In [56]:
s.reindex(range(10))

0    NaN
1      a
2    NaN
3      b
4    NaN
5      c
6    NaN
7      d
8    NaN
9      e
dtype: object

In [57]:
s.reindex(range(10), method='bfill') # 전에 있던 값으로 채워줘

0    a
1    a
2    b
3    b
4    c
5    c
6    d
7    d
8    e
9    e
dtype: object

## DateFrame 인덱싱

In [59]:
korea_df

Unnamed: 0,인구수,남자인구수,여자인구수
서울특별시,9720846,4732275,4988571
부산광역시,3404423,1668618,1735805
인천광역시,2947217,1476813,1470404
대구광역시,2427954,1198815,1229139
대전광역시,1471040,734441,736599


In [60]:
korea_df['남자인구수']

서울특별시    4732275
부산광역시    1668618
인천광역시    1476813
대구광역시    1198815
대전광역시     734441
Name: 남자인구수, dtype: int64

In [61]:
korea_df.남자인구수

서울특별시    4732275
부산광역시    1668618
인천광역시    1476813
대구광역시    1198815
대전광역시     734441
Name: 남자인구수, dtype: int64

In [62]:
korea_df.여자인구수

서울특별시    4988571
부산광역시    1735805
인천광역시    1470404
대구광역시    1229139
대전광역시     736599
Name: 여자인구수, dtype: int64

In [63]:
korea_df['남녀비율'] = (korea_df['남자인구수']*100 / korea_df['여자인구수'])

In [65]:
korea_df.남녀비율

서울특별시     94.862336
부산광역시     96.129346
인천광역시    100.435867
대구광역시     97.532907
대전광역시     99.707032
Name: 남녀비율, dtype: float64

In [66]:
korea_df.values

array([[9.72084600e+06, 4.73227500e+06, 4.98857100e+06, 9.48623363e+01],
       [3.40442300e+06, 1.66861800e+06, 1.73580500e+06, 9.61293463e+01],
       [2.94721700e+06, 1.47681300e+06, 1.47040400e+06, 1.00435867e+02],
       [2.42795400e+06, 1.19881500e+06, 1.22913900e+06, 9.75329072e+01],
       [1.47104000e+06, 7.34441000e+05, 7.36599000e+05, 9.97070319e+01]])

In [67]:
korea_df.T

Unnamed: 0,서울특별시,부산광역시,인천광역시,대구광역시,대전광역시
인구수,9720846.0,3404423.0,2947217.0,2427954.0,1471040.0
남자인구수,4732275.0,1668618.0,1476813.0,1198815.0,734441.0
여자인구수,4988571.0,1735805.0,1470404.0,1229139.0,736599.0
남녀비율,94.86234,96.12935,100.4359,97.53291,99.70703


In [68]:
korea_df.values[0] # 첫번째 행만 불러옴

array([9.72084600e+06, 4.73227500e+06, 4.98857100e+06, 9.48623363e+01])

In [69]:
korea_df['인구수']

서울특별시    9720846
부산광역시    3404423
인천광역시    2947217
대구광역시    2427954
대전광역시    1471040
Name: 인구수, dtype: int64

In [70]:
korea_df.loc[:'인천광역시', :'남자인구수'] # 슬라이싱

Unnamed: 0,인구수,남자인구수
서울특별시,9720846,4732275
부산광역시,3404423,1668618
인천광역시,2947217,1476813


In [73]:
korea_df.loc[(korea_df.여자인구수 > 1000000)]

Unnamed: 0,인구수,남자인구수,여자인구수,남녀비율
서울특별시,9720846,4732275,4988571,94.862336
부산광역시,3404423,1668618,1735805,96.129346
인천광역시,2947217,1476813,1470404,100.435867
대구광역시,2427954,1198815,1229139,97.532907


In [74]:
korea_df.loc[(korea_df.인구수 < 2000000)]

Unnamed: 0,인구수,남자인구수,여자인구수,남녀비율
대전광역시,1471040,734441,736599,99.707032


In [75]:
korea_df.loc[(korea_df.인구수 > 2500000)]

Unnamed: 0,인구수,남자인구수,여자인구수,남녀비율
서울특별시,9720846,4732275,4988571,94.862336
부산광역시,3404423,1668618,1735805,96.129346
인천광역시,2947217,1476813,1470404,100.435867


In [76]:
korea_df.loc[korea_df.남녀비율 > 100]

Unnamed: 0,인구수,남자인구수,여자인구수,남녀비율
인천광역시,2947217,1476813,1470404,100.435867


In [78]:
korea_df.loc[(korea_df.인구수 > 2500000) & (korea_df.남녀비율 >100)]

Unnamed: 0,인구수,남자인구수,여자인구수,남녀비율
인천광역시,2947217,1476813,1470404,100.435867


In [79]:
korea_df.iloc[:3, :2]

Unnamed: 0,인구수,남자인구수
서울특별시,9720846,4732275
부산광역시,3404423,1668618
인천광역시,2947217,1476813


## 다중 인덱싱
- 1차원의 Series와 2차원의 DataFrame 객첼를 넘어 3차원, 4차원 이상의 고차원 데이터처리
- 단일 인덱스 내에 여러 인덱스를 포함하는 다중 인덱싱

### 다중 인덱스 Series