# Pandas

In [29]:
import pandas as pd
import numpy as np

# 1. pandas 객체

## series 객체
- 인덱스와 함께 출력

In [2]:
s = pd.Series([0, 0.25, 0.5])

In [3]:
s

0    0.00
1    0.25
2    0.50
dtype: float64

In [4]:
s.index

RangeIndex(start=0, stop=3, step=1)

In [5]:
s.values

array([0.  , 0.25, 0.5 ])

In [6]:
s[1]

0.25

In [9]:
s[0:2]

0    0.00
1    0.25
dtype: float64

- 인덱스 별도 지정 가능

In [10]:
s = pd.Series([0, 0.25, 0.5, 0.75, 1.0],
             index = ['a', 'b', 'c', 'd', 'e'])

In [11]:
s

a    0.00
b    0.25
c    0.50
d    0.75
e    1.00
dtype: float64

In [12]:
s['c']

0.5

In [13]:
s[['c', 'd']]

c    0.50
d    0.75
dtype: float64

In [14]:
'b' in s

True

- 연속하지 않는 숫자로 인덱스 설정 가능

In [15]:
s = pd.Series([0, 0.25, 0.5, 0.75, 1.0],
             index = [2, 4, 6, 8, 10])

In [16]:
s[4]

0.25

In [17]:
s[2:]

6     0.50
8     0.75
10    1.00
dtype: float64

In [18]:
s.unique()

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [21]:
s.value_counts()

1.00    1
0.75    1
0.50    1
0.25    1
0.00    1
dtype: int64

- 해당 값이 어디 있는지 불리언 값으로 출력함

In [22]:
s.isin([0.25, 0.75])

2     False
4      True
6     False
8      True
10    False
dtype: bool

- 튜플 형태 대입 가능

In [23]:
pop_tuple = {'서울특별시' : 9720846,
             '부산광역시' : 3404423,
             '인천광역시' : 2947217,
             '대구광역시' : 2427954,
             '대전광역시' : 1471040}

population = pd.Series(pop_tuple)

In [24]:
population 

서울특별시    9720846
부산광역시    3404423
인천광역시    2947217
대구광역시    2427954
대전광역시    1471040
dtype: int64

In [25]:
population['서울특별시']

9720846

In [26]:
population['서울특별시':'인천광역시']

서울특별시    9720846
부산광역시    3404423
인천광역시    2947217
dtype: int64

## DataFrame 객체
- 누락 값들을 NA 처리함

In [28]:
pd.DataFrame([{'A' : 2, 'B' : 4 , 'D' : 3}, {'A' : 4, 'B' : 5, 'C' : 7} ])

Unnamed: 0,A,B,D,C
0,2,4,3.0,
1,4,5,,7.0


In [30]:
pd.DataFrame(np.random.rand(5, 5),
            columns = ['A', 'B', 'C', 'D', 'E'],
            index = [1, 2, 3, 4, 5])

Unnamed: 0,A,B,C,D,E
1,0.266016,0.404123,0.389944,0.055541,0.189827
2,0.270672,0.852526,0.014226,0.316583,0.968394
3,0.968069,0.756551,0.685405,0.458502,0.647942
4,0.74141,0.008525,0.03938,0.165075,0.341119
5,0.283279,0.408751,0.185089,0.203594,0.398972


In [31]:
male_tuple = {'서울특별시' : 4732275,
              '부산광역시' : 1668618,
              '인천광역시' : 1476813,
              '대구광역시' : 1198815,
              '대전광역시' : 734441}

male = pd.Series(male_tuple)
male

서울특별시    4732275
부산광역시    1668618
인천광역시    1476813
대구광역시    1198815
대전광역시     734441
dtype: int64

In [32]:
female_tuple = {'서울특별시' : 4988571,
                '부산광역시' : 1735805,
                '인천광역시' : 1470404,
                '대구광역시' : 1229139,
                '대전광역시' : 736599}

female = pd.Series(female_tuple)
female

서울특별시    4988571
부산광역시    1735805
인천광역시    1470404
대구광역시    1229139
대전광역시     736599
dtype: int64

In [33]:
korea_df = pd.DataFrame({'인구수' : population,
                         '남자인구수' : male,
                         '여자인구수' : female})

korea_df

Unnamed: 0,인구수,남자인구수,여자인구수
서울특별시,9720846,4732275,4988571
부산광역시,3404423,1668618,1735805
인천광역시,2947217,1476813,1470404
대구광역시,2427954,1198815,1229139
대전광역시,1471040,734441,736599


In [34]:
korea_df.index

Index(['서울특별시', '부산광역시', '인천광역시', '대구광역시', '대전광역시'], dtype='object')

In [35]:
korea_df.columns

Index(['인구수', '남자인구수', '여자인구수'], dtype='object')

In [36]:
korea_df['여자인구수']

서울특별시    4988571
부산광역시    1735805
인천광역시    1470404
대구광역시    1229139
대전광역시     736599
Name: 여자인구수, dtype: int64

In [37]:
korea_df['서울특별시' : '인천광역시']

Unnamed: 0,인구수,남자인구수,여자인구수
서울특별시,9720846,4732275,4988571
부산광역시,3404423,1668618,1735805
인천광역시,2947217,1476813,1470404


## Index 객체

In [38]:
idx = pd.Index([2, 4, 6, 8, 10])
idx

Int64Index([2, 4, 6, 8, 10], dtype='int64')

In [39]:
idx[1]

4

In [44]:
idx[1:2:2]

Int64Index([4], dtype='int64')

In [41]:
idx[-1::]

Int64Index([10], dtype='int64')

In [45]:
idx[::2]

Int64Index([2, 6, 10], dtype='int64')

In [47]:
print(idx)
print(idx.size)
print(idx.shape)
print(idx.ndim)
print(idx.dtype)

Int64Index([2, 4, 6, 8, 10], dtype='int64')
5
(5,)
1
int64


### Index 연산

In [55]:
idx1 = pd.Index([1, 2, 4, 6, 8])
idx2 = pd.Index([2, 4, 5, 6, 7])
print(idx1.append(idx2))

print(idx1.difference(idx2)) # 차집합
print(idx1 - idx2)           # 차집합과는 다름

print(idx1.intersection(idx2)) # 교집합
print(idx1 & idx2)             # 교집합과 같음

print(idx1.union(idx2))        # 합집합 , 중복된 값 제외
print(idx1 | idx2)             # 합집합과 같음

print(idx1.delete(0))          # 첫 번째 인덱스를 빼고 싶다

print(idx1.drop(1))            # 첫 번째 인덱스를 뻬고 싶다

print(idx1 ^ idx2)             # 여집합, 공통된 걸 뺀 나머지

Int64Index([1, 2, 4, 6, 8, 2, 4, 5, 6, 7], dtype='int64')
Int64Index([1, 8], dtype='int64')
Int64Index([-1, -2, -1, 0, 1], dtype='int64')
Int64Index([2, 4, 6], dtype='int64')
Int64Index([2, 4, 6], dtype='int64')
Int64Index([1, 2, 4, 5, 6, 7, 8], dtype='int64')
Int64Index([1, 2, 4, 5, 6, 7, 8], dtype='int64')
Int64Index([2, 4, 6, 8], dtype='int64')
Int64Index([2, 4, 6, 8], dtype='int64')
Int64Index([1, 5, 7, 8], dtype='int64')


# 2. 인덱싱

In [56]:
s = pd.Series([0, 0.25, 0.5, 0.75, 1.0],
             index = ['a', 'b', 'c', 'd', 'e']) # 인덱스 값이 mapping 돼서 들어감

In [58]:
s['b']

0.25

In [60]:
'b' in s

True

In [61]:
s.keys()

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [64]:
list(s.items())

[('a', 0.0), ('b', 0.25), ('c', 0.5), ('d', 0.75), ('e', 1.0)]

In [65]:
s['f'] = 1.25

In [66]:
s

a    0.00
b    0.25
c    0.50
d    0.75
e    1.00
f    1.25
dtype: float64

In [67]:
s['a' : 'd']

a    0.00
b    0.25
c    0.50
d    0.75
dtype: float64

In [68]:
s[0 : 4] # ~ 30:09

a    0.00
b    0.25
c    0.50
d    0.75
dtype: float64