# Pandas - Series

In [1]:
import numpy as np
import pandas as pd

- Series 생성, 인덱싱, 연산

In [2]:
# s = pd.Series(1차원 데이터, index=["","",...""])
s = pd.Series([9904312, 3448737, 2890451, 2466052], 
index=["서울","부산","인천","대구"])
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [3]:
# 서울 데이터 인덱싱
s[0], s['서울']

(9904312, 9904312)

In [6]:
# 배열 인덱스 사용 (end = n -1)
s[1:3]

부산    3448737
인천    2890451
dtype: int64

In [7]:
# 인덱스 자체 사용
s['서울':'인천']

서울    9904312
부산    3448737
인천    2890451
dtype: int64

In [8]:
# numpy boolean indexing = filtering
s[s > 3000000]

서울    9904312
부산    3448737
dtype: int64

In [9]:
d = s / 1000000
d

서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
dtype: float64

In [10]:
cities = {'서울':9631482, '부산':3393191, '인천':2632035, '대전':1490158}
s2 = pd.Series(cities)
s2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [12]:
ds = s - s2
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

- 서울, 인천, 부산 s, s2 두 시리즈에 모두 값이 존재해서 연산 결과값 존재

- Series 속성

In [14]:
# .values -> numpy array 
s.values

array([9904312, 3448737, 2890451, 2466052], dtype=int64)

In [15]:
# list_like 하지만 엄밀히 말하자면 list는 아님
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [16]:
for city in s.index:
    print(city)

서울
부산
인천
대구


- Series 메소드

In [17]:
np.random.seed(2021)
dice = pd.Series(np.random.randint(1,7,100))

In [18]:
# element의 갯수
dice.count()

100

In [19]:
# 고유한 값
dice.unique()

array([5, 6, 2, 1, 4, 3])

In [21]:
# 고유한 값의 갯수
dice.nunique()

6

In [23]:
# 고유한 값(=카테고리)별 갯수 ☆☆☆ 중요 ☆☆☆
dice.value_counts()

2    21
6    21
3    19
4    18
5    13
1     8
dtype: int64

In [24]:
# 합, 평균, 최대, 최소, 표준편차
dice.sum(), dice.mean(), dice.max(), dice.min(), dice.std()

(370, 3.7, 6, 1, 1.6298974374376005)

In [25]:
# 요약 통계
dice.describe()

count    100.000000
mean       3.700000
std        1.629897
min        1.000000
25%        2.000000
50%        4.000000
75%        5.000000
max        6.000000
dtype: float64

In [26]:
# 정렬
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [27]:
# 오름차순 정렬
s.sort_values()

대구    2466052
인천    2890451
부산    3448737
서울    9904312
dtype: int64

In [29]:
# 내림차순 정렬
# pandas 방식 / numpy 방식
s.sort_values(ascending=False), s.sort_values()[::-1]

(서울    9904312
 부산    3448737
 인천    2890451
 대구    2466052
 dtype: int64,
 서울    9904312
 부산    3448737
 인천    2890451
 대구    2466052
 dtype: int64)

In [30]:
# 인덱스 정렬
s.sort_index()

대구    2466052
부산    3448737
서울    9904312
인천    2890451
dtype: int64