# Pandas - Series

In [1]:
import numpy as np
import pandas as pd

### 1. 시리즈 생성
- Numpy 1차원 배열 + 인덱스

In [3]:

pop = [9904312, 3448737, 2890451, 2466052]          # 서울, 부산, 인천, 대구
pop[0], pop[2]

(9904312, 2890451)

In [4]:
metro = pd.Series(pop, index=['서울', '부산', '인천', '대구'])
metro

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [7]:
# 값 하나를 인덱싱할 경우
metro['서울'], metro[0]

(9904312, 9904312)

In [11]:
# 여러값을 가져올 경우 - 시리즈 형식
metro[[0,1]]

서울    9904312
부산    3448737
dtype: int64

In [12]:
metro[['서울', '부산']]
# metro['서울', '부산']는 Error 

서울    9904312
부산    3448737
dtype: int64

In [10]:
# metro 데이터 타입
metro.values, type(metro.values)

(array([9904312, 3448737, 2890451, 2466052], dtype=int64), numpy.ndarray)

In [15]:
dice = pd.Series(np.random.randint(1, 7, 10))
pd.DataFrame(dice, columns=['주사위'])

Unnamed: 0,주사위
0,5
1,5
2,3
3,1
4,6
5,5
6,6
7,3
8,2
9,2


In [16]:
# 시리즈 데이터는 넘파이 어레이이므로 수식을 바로 적용할 수 있음
metro / 1000000

서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
dtype: float64

In [17]:
dice * 10

0    50
1    50
2    30
3    10
4    60
5    50
6    60
7    30
8    20
9    20
dtype: int32

In [18]:
pd.DataFrame(metro, columns=['인구수'])

Unnamed: 0,인구수
서울,9904312
부산,3448737
인천,2890451
대구,2466052


### 2. 시리즈와 딕셔너리

In [24]:
# 딕셔너리의 키가 시리즈의 인덱스가 됨
city = {'서울':9904312,'부산':3448737,'인천':2890451,'대전':1490158}
metro2 = pd.Series(city)
metro2          # 딕셔너리를 시리즈로 만들면 인덱스를 따로 지정하지 않아도 됨

서울    9904312
부산    3448737
인천    2890451
대전    1490158
dtype: int64

In [25]:
for key, value in metro2.items():
    print(key, value)

서울 9904312
부산 3448737
인천 2890451
대전 1490158


In [26]:
metro - metro2

대구    NaN
대전    NaN
부산    0.0
서울    0.0
인천    0.0
dtype: float64

In [28]:
# inf 무한대(Infinity), nan 결측치(Nan) --> 실수
a = np.array([np.inf, np.nan, 0, 1, 2])
a

array([inf, nan,  0.,  1.,  2.])

### 3. 속성

In [29]:
metro.values

array([9904312, 3448737, 2890451, 2466052], dtype=int64)

In [30]:
metro.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [31]:
metro

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [33]:
metro.name = '광역시'
metro

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 광역시, dtype: int64

### 4. Method

- count, unique, nunique,value_counts

In [34]:
dice

0    5
1    5
2    3
3    1
4    6
5    5
6    6
7    3
8    2
9    2
dtype: int32

In [37]:
# element의 갯수
dice.count()            # dice = pd.Series(np.random.randint(1, 7, 10))

10

In [39]:
# 고유한 값 = 전체 집합
dice.unique()

array([5, 3, 1, 6, 2], dtype=int64)

In [40]:
# 고유한 값별로 갯수
dice.value_counts()

5    3
6    2
3    2
2    2
1    1
dtype: int64

- sum, min, max, mean

In [42]:
dice.sum(), dice.min(), dice.max(), dice.mean()

(38, 1, 6, 3.8)

In [44]:
metro.mean()

4677388.0

In [45]:
# 요약 통계
metro.describe()

count    4.000000e+00
mean     4.677388e+06
std      3.507776e+06
min      2.466052e+06
25%      2.784351e+06
50%      3.169594e+06
75%      5.062631e+06
max      9.904312e+06
Name: 광역시, dtype: float64

- Sorting

In [47]:
# 데이터를 기준으로 오름차순
metro.sort_values()

대구    2466052
인천    2890451
부산    3448737
서울    9904312
Name: 광역시, dtype: int64

In [48]:
# 데이터를 기준으로 내림차순
metro.sort_values(ascending=False)

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 광역시, dtype: int64