# Pandas - Series

In [1]:
import numpy as np
import pandas as pd

- 생성

In [2]:
s = pd.Series([9904312, 3448737, 2890451, 2466052],
              index=["서울", "부산", "인천", "대구"])
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [5]:
tmp = pd.Series(np.random.randint(40, 100, 5))
tmp

0    41
1    77
2    67
3    61
4    68
dtype: int64

In [6]:
tmp.index = list('abcde')
tmp

a    41
b    77
c    67
d    61
e    68
dtype: int64

- indexing

In [7]:
s[0], s['서울']

(9904312, 9904312)

In [8]:
s[[0, 2]]

서울    9904312
인천    2890451
dtype: int64

In [9]:
s[::2]

서울    9904312
인천    2890451
dtype: int64

- 연산

In [10]:
s / 1000000

서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
dtype: float64

In [11]:
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

- 시리즈와 딕셔너리

In [12]:
d = {'a':80, 'b':90, 'c':84}    
pd.Series(d)                    # 딕셔너리의 키가 시리즈의 인덱스로 자동 전환

a    80
b    90
c    84
dtype: int64

In [13]:
for key in d.keys():
    print(f'{key}: {d[key]}')

a: 80
b: 90
c: 84


In [14]:
for index in s.index:
    print(f'{index}: {s[index]}')

서울: 9904312
부산: 3448737
인천: 2890451
대구: 2466052


- 인덱스 기반 연산

In [15]:
s2 = pd.Series({"서울":9631482,"부산":3393191,"인천":2632035,"대전":1490158})
s2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [17]:
# 인덱스값이 다르면 계산 결과가 NaN(Not a Number, 결측치)
# np.nan, np.inf - 실수형
ds = s - s2
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [19]:
ds.fillna(0)

대구         0.0
대전         0.0
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [20]:
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [21]:
ds.fillna(0, inplace=True)
ds

대구         0.0
대전         0.0
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [24]:
ds = ds.astype(int)
ds

대구         0
대전         0
부산     55546
서울    272830
인천    258416
dtype: int64

### 속성과 메소드

- 속성(attribute)

In [25]:
s.values

array([9904312, 3448737, 2890451, 2466052])

In [26]:
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

- method

In [27]:
s.count(), len(s)       # 요소의 갯수

(4, 4)

In [28]:
# 카테고리 값 세기
t = pd.Series(['M','M','F','F','M'])
t.value_counts()

M    3
F    2
dtype: int64

In [29]:
import seaborn as sns
iris = sns.load_dataset('iris')
species = iris['species']
species.value_counts()

versicolor    50
virginica     50
setosa        50
Name: species, dtype: int64

In [30]:
iris.species.value_counts()

versicolor    50
virginica     50
setosa        50
Name: species, dtype: int64

In [31]:
# 카테고리 이름
species.unique()

array(['setosa', 'versicolor', 'virginica'], dtype=object)

In [32]:
# 카테고리 갯수
species.nunique()

3

In [33]:
# 합계, 평균
s.sum(), s.mean()

(18709552, 4677388.0)

In [34]:
# 정렬(sort)
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [35]:
s.sort_index()      # 오름차순, s 값은 변화없음

대구    2466052
부산    3448737
서울    9904312
인천    2890451
dtype: int64

In [37]:
s.sort_index(ascending=False, inplace=True)
s

인천    2890451
서울    9904312
부산    3448737
대구    2466052
dtype: int64

In [38]:
s.sort_values()     # 오름차순, s 값은 변화없음

대구    2466052
인천    2890451
부산    3448737
서울    9904312
dtype: int64

In [40]:
s.sort_values(ascending=False, inplace=True)
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64