In [1]:
import pandas as pd

In [2]:
# 대부분의 데이터는 시계열(series)나 표(table)형태로 나타낸다.
# Pandas는 이러한 데이터를 다루기 위한
# Series 클래스와 DataFrame 클래스 제공

# class pandas.Series(data = None, index = None, dtype = None,
#                    name = None, copy = False, fastpath = False)

# index는 label이라고 함.
# index는 data와 length가 동일해야 함
# label은 꼭 유일(unique)할 필요가 없다.
# 대신 반드시 hashable type만 사용 가능
# 만약 index를 생략하면 RangeIndex(0, 1, 2, ..., n) 제공

# Series class

In [3]:
series = pd.Series(["하나", "둘", "셋", "넷", "다섯",
                    "여섯", "일곱", "여덟", "아홉", "열"],
                   index = [_ for _ in range(1, 11)])
                # index를 1부터 시작하게 초기값 설정
series

1     하나
2      둘
3      셋
4      넷
5     다섯
6     여섯
7     일곱
8     여덟
9     아홉
10     열
dtype: object

In [4]:
s = pd.Series([9_904_312, 3_448_737, 2_890_451, 2_466_052],
             index = ["서울", "부산", "인천", "대구"])
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [5]:
pd.Series(range(10,14))
# index 지정을 안 하면 Series의 index는 0부터 시작하는 정수

0    10
1    11
2    12
3    13
dtype: int64

## Series의 index

In [6]:
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [7]:
s.values # 데이터 타입이 ndarrays이다.

array([9904312, 3448737, 2890451, 2466052], dtype=int64)

## Series 데이터에 이름 붙이기

In [8]:
s.name = "인구" # Series 이름 생성
s.index.name = "도시" # 인덱스 상단에 이름 생성
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [9]:
d = {'a' : 1, 'b' : 2, 'c' : 3}
ser = pd.Series(data = d, index = ['a', 'b', 'c'])
ser

a    1
b    2
c    3
dtype: int64

In [10]:
d = {'a' : 1, 'b' : 2, 'c' : 3} # key값이 최초에 index으로 사용
ser = pd.Series(data = d, index = ['x', 'y', 'z'])
# 키워드 인수로 넘겨받은 index 값 재할당
ser # index가 재할당 되면서 맞는 데이터가 없음(NaN)

x   NaN
y   NaN
z   NaN
dtype: float64

## index 없이 dict 객체로 Series 만들기

In [11]:
s2 = pd.Series({"서울": 9_904_312,
                "부산": 3_448_737,
                "인천": 2_890_451,
                "대구": 2_466_052
                })
s2

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

## Series index를 속성처럼 활용하기

In [12]:
d = {'a' : 1, 'b' : 2, 'c' : 3}
ser = pd.Series(data = d, index = ['a', 'b', 'c'])
ser

a    1
b    2
c    3
dtype: int64

In [13]:
ser.a, ser.b, ser.c

(1, 2, 3)

# Series의 특징

In [14]:
# Series 객체는 index label을 키(key)로 사용하기에
# 딕셔너리 자료형과 비슷한 특징을 갖고 있음

# 예를 들어 in 연산과 itmes()메서드를 사용해서
# for문 루프를 돌려 각 요소의 key와 value에 접근 가능

In [15]:
"서울" in s # 인덱스 레이블 중에 서울이 있는가

True

In [16]:
"대전" in s # 인덱스 레이블 중에 대전이 있는가

False

In [17]:
for k, v in s.items():
    print(f"{k}, {v}")

서울, 9904312
부산, 3448737
인천, 2890451
대구, 2466052


# Series 연산하기

In [18]:
s / 1000000 # index label을 제외한
            # Series value에만 연산 적용

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

# Series 인덱싱

In [19]:
# Series는 numpy 배열에서 가능한 인덱싱 방법 이외에도
# index label을 이용한 인덱싱도 가능
s[1], s["부산"] # 배열 인덱싱, index label 인덱싱 순서

(3448737, 3448737)

In [20]:
s[3], s["대구"]

(2466052, 2466052)

In [21]:
# 배열 인덱싱을 하면 부분적인 값을 가지는 Series 자료형 반환
# 자료의 순서를 바꾸거나 특정한 자료만 취사 선택 가능

s[[0, 3, 1]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [22]:
s[["서울", "대구", "부산"]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [23]:
# 단 하나의 값을 시리즈 형태로 가져오고 싶으면
# 아래와 같이 값이 하나인 리스트로 인덱싱하여 작성 가능

s[[0]]

도시
서울    9904312
Name: 인구, dtype: int64

# Series 슬라이싱

In [24]:
# 슬라이싱을 해도 부분적인 Series 반환
# 이 때 문자열 label을 이용하여 슬라이싱을 하는 경우에는
# 숫자 인덱싱과 달리 콜론(:) 기호 뒤에 오는 값도 결과에 포함되므로 주의!!

s[1:3] # 두번째(1)부터 세번째(2)까지 (네번째 (3) 미포함)
# 숫자는 끝을 알기 때문에 뒷자리 제외

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [25]:
s["부산":"대구"] # 부산에서 대구까지 (대구도 포함됨)
# str는 끝을 모르기 때문에 본인 포함

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

# Series index 기반 연산

In [26]:
s = pd.Series([9_904_312, 3_448_737, 2_890_451, 2_466_052],
             index = ["서울", "부산", "인천", "대구"])
s.name = "인구"
s.index.name = "도시"
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [27]:
s2 = pd.Series({"서울" : 9631482,
                "부산" : 3393191,
                "인천" : 2632035,
                "대전" : 1490158
                })
s2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [28]:
ds = s - s2
ds
# NaN 값이 float 자료형에서만 표현 가능하므로 다른 계산 결과도
# 모두 float 자료형이 되는 점 주의!!

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

## Series에서 값이 NaN인지 확인

In [29]:
ds.isnull()

대구     True
대전     True
부산    False
서울    False
인천    False
dtype: bool

## Series에서 값이 NaN이 아닌지 확인

In [30]:
ds.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

## Series에서 NaN이 아닌 값만 인덱싱으로 구하기

In [31]:
ds[ds.notnull()]

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

## Series에서 NaN이 아닌 값 구하기

In [32]:
s # 2015년 도시별 인구

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [33]:
s2 # 2010년 도시별 인구

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [34]:
rs = (s - s2) / s2 * 100
rs = rs[rs.notnull()]
rs

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

 # Series 데이터 추가, 갱신, 삭제

## Series 데이터 갱신

In [35]:
# 딕셔너리와 비슷하게 인덱싱을 한 경우에 맞춰 사용하면
# 데이터를 추가(add)하거나 갱신(update)할 수 있다.

# 기존에 있는 index에 값을 할당하면 갱신

rs # 인구 증가율(%)

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

In [36]:
rs["부산"] = 1.63
rs

부산    1.630000
서울    2.832690
인천    9.818107
dtype: float64

## Series 데이터 추가

In [37]:
# 없는 index에 값을 할당하면 Series에 데이터가 추가(add)

rs["대구"] = 1.41 # rs에 없던 대구에 대한 정보 추가
rs

부산    1.630000
서울    2.832690
인천    9.818107
대구    1.410000
dtype: float64

## Series 데이터 삭제

In [38]:
# 데이터 삭제할 때도 딕셔너리처럼 del 명령 사용

del rs["서울"]
rs

부산    1.630000
인천    9.818107
대구    1.410000
dtype: float64