In [1]:
# pandas 정의
# 데이터 분석을 할 때 가장 많이 쓰이는 패키지
# 대부분의 데이터는 시계열(series)이나 표(table)의 형태로 나타냄
# pandas 패키지에서는 이러한 표 데이터를 다루기 위한 시리즈(Series) 클래스와 
#   데이터 프레임(DataFrame) 클래스를 제공

In [2]:
# 시리즈 클래스
#       시리즈 = 값(value) + 인덱스(index)

# 시리즈의 인덱스는  index 속성으로 접근할 수 있다.
# 시리즈의 값은 1차원 배열이며 values 속성으로 접근할 수 있다. 
# 인덱스의 값을 인덱스 라벨(label)이라고도 한다.
# 인덱스 라벨은 문자열 뿐 아니라 날짜, 시간, 정수 등도 가능하다.
# 만약 인덱스를 지정하지 않고 시리즈를 만들면 시리즈의 인덱스는
#  0부터 시작하는 정수값이 된다.

In [5]:
import pandas as pd

# 시리즈 생성
s = pd.Series([9904312, 3448737, 2890451, 2466052],
             index=["서울","부산","인천","대구"])
pd.Series(range(10, 14))  # index 없이 생성, 0부터 인덱스가 생성 됨

# 데이터 및 인덱스 접근
s.index  # 인덱스 출력
s.values # 데이터 출력

# name 속성을 이용하여 시리즈 데이터에 이름을 부여 함
s.name = "인구"
s.index.name = "도시"

# 시리즈 연산 : NumPy 배열처럼 시리즈도 벡터화 연산, 시리즈의 값에만 적용
s / 1000000

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

In [6]:
# 시리즈 인덱싱
# NumPy 배열에서 가능한 인덱스 방법으로 가능
# 인덱스 라벨을 이용한 인덱싱 가능
# 배열 인덱싱이나 인덱스 라벨을 이용한 슬라이싱(slicing)도 가능
# 라벨 값이 영문 문자열인 경우에는 마치 속성인것처럼 점(.)을 이용하여 접근 가능

s[1], s["부산"]
s[[0, 3, 1]], s[["서울", "대구", "부산"]]
s[(250e4 < s)&(s < 500e4)]

s[1:3]
s["부산":"대구"]

s0 = pd.Series(range(3), index=["a", "b", "c"])
s0.a
s0.b

1

In [9]:
# 시리즈와 딕셔너리 자료형
# 라벨 값을 키(key)로 가지는 딕셔너리 자료형과 같다.
# 딕셔너리 자료형에서 제공하는 in 연산 가능
# items 메서드를 사용 for  루프를 통해 각 원소의 키(key)와 값(value)을 접근 가능

"서울" in s
for k, v in s.items():
    print("%s=%d"%(k,v))
    
# 딕셔너리 객체에서 시리즈를 만듬
s2 = pd.Series({"서울" : 9631482, "부산" : 3393191, "인천" : 2632035, 
               "대전" : 1490158})
s2

# 딕셔너리는 순서 없음, 순서를 정하고 싶다면 인덱스를 리스트로 지정
s2 = pd.Series({"서울" : 9631482, "부산" : 3393191, "인천" : 2632035, 
               "대전" : 1490158}, index=["부산", "서울", "인천", "대전"])
s2

서울=9904312
부산=3448737
인천=2890451
대구=2466052


부산    3393191
서울    9631482
인천    2632035
대전    1490158
dtype: int64

In [10]:
# 인덱스 기반 연산
# 2015년도와 2010년의 인구 증가를 계산
ds = s - s2
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [11]:
# 인구증가율
rs = (s - s2) / s2*100
rs = rs[rs.notnull()] ; rs

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

In [12]:
# 데이터 갱신, 추가, 삭제
rs["부산"] = 1.63 # 인덱스로 데이터 갱신
rs["대구"] = 1.41 # 인덱스로 데이터 추가
del rs["서울"]    # del로 삭제