In [1]:
# Pandas
# 대부분의 데이터는 시계열(series)이나 표(table)의 형태
# Series 클래스와 DataFrame 클래스를 제공

In [2]:
import pandas as pd

In [3]:
# Series class
# Series 객체를 생성할 때 pd.Series()
# 배열과 다르게 각 데이터의 의미를 표시하는 index를 붙일 수 있음
# 데이터 자체는 값(value)라고 함

series = pd.Series(["하나", "둘", "셋", "넷", "다섯",
                   "여섯", "일곱", "여덟", "아홉", "열"],
                  index = [_ for _ in range(1, 11)])
                  # index를 1부터 시작하게 초기값 설정
series


1     하나
2      둘
3      셋
4      넷
5     다섯
6     여섯
7     일곱
8     여덟
9     아홉
10     열
dtype: object

In [4]:
# data: iterable, 배열, scalar value, dict(key와 index를 동일하게 사용하거나 생략) 사용 가능
# index(label): 유일(unique)할 필요는 없음, hashable type만 사용 가능
# index를 생략할 경우 RangeIndex(0, 1, … , n)를 제공

In [5]:
# index를 지정하지 않고 Series를 만들면 Series의 index는 0부터 시작하는 정수 값
pd.Series(range(10, 14))

0    10
1    11
2    12
3    13
dtype: int64

In [6]:
# 10, 20, 30, 40, 50, 60, 70, 80, 90의 값을 갖는 Series를 생성

test = pd.Series(list(range(10, 100, 10)))
test

0    10
1    20
2    30
3    40
4    50
5    60
6    70
7    80
8    90
dtype: int64

In [7]:
# 각 도시의 2015년 인구 데이터를 Series로 만들기

s = pd.Series([9_904_312, 3_448_737, 2_890_451, 2_466_052],
              index = ["서울", "부산", "인천", "대구"])
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [8]:
# Series의 index는 index 속성으로 접근
# Series의 value는 1차원 배열(ndarray)이며 values 속성으로 접근
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [9]:
s.values

array([9904312, 3448737, 2890451, 2466052], dtype=int64)

In [10]:
# Series 객체의 값 중 50보다 큰 값의 개수 구하기

test = pd.Series(list(range(10, 100, 10)))

import numpy as np
count = np.array([True if i>50
                  else False 
                  for i in test])
len(test[count])

4

In [11]:
# 또다른 풀이

test = pd.Series(list(range(10, 100, 10)))
sum(test.values > 50)    
# values 속성으로 가져온 값은 데이터 타입이 ndarray

4

In [12]:
# name 속성을 이용하여 Series 데이터에 이름 붙이기
# index.name 속성으로 Series의 index에도 이름을 붙일 수 있음

s.name = "인구"          # Series 이름 생성
s.index.name = "도시"    # 인덱스 상단에 이름 생성
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [13]:
# data에 dict를 사용
# 비시퀀스: 순서가 없으므로 키 값을 가지고 있음

d = {'a' : 1, 'b' : 2, 'c' : 3}
ser = pd.Series(data = d, index = ['c', 'a', 'b'])    # index를 통해서 순서 지정 가능
ser

c    3
a    1
b    2
dtype: int64

In [14]:
# dict의 key와 Series 객체의 index를 다르게 설정

d = {'a' : 1, 'b' : 2, 'c' : 3} 
ser = pd.Series(data = d, index = ['x', 'y', 'z'])
ser 

# 1. Series가 생성될 때 최초에 dictionary의 key를 index으로 사용
# 2. 키워드 인수로 넘겨받은 index 값 재할당
# 3. 해당 하는 값을 찾을 수 없음(NaN)
# NaN 값이 float 자료형에서만 표현 가능하므로 결과가 float 자료형

x   NaN
y   NaN
z   NaN
dtype: float64

In [15]:
# index 지정 없이 dict 객체만 가지고 Series 만들기
# dic의 key가 index로 사용

s2 = pd.Series({"서울": 9_904_312,
                "부산": 3_448_737,
                "인천": 2_890_451,
                "대구": 2_466_052
                })
s2

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [16]:
# 이름을 index로 하고 점수를 values로 하는 Series

grade = pd.Series({"철수": 88,
                  "영희": 95,
                  "길동": 100,
                  "몽룡": 67})
grade.name = "사회 점수"
grade.index.name = "이름"
grade

이름
철수     88
영희     95
길동    100
몽룡     67
Name: 사회 점수, dtype: int64

In [17]:
# Series index를 속성처럼 활용하기
# label 값이 공백 없는 문자열인 경우
# index label이 속성인것처럼 마침표(.)를 활용하여 해당 index 값에 접근

d = {'a': 1, 'b':2, 'c':3}
ser = pd.Series(data=d, index=['a', 'b', 'c'])
ser

a    1
b    2
c    3
dtype: int64

In [18]:
ser.a, ser.b, ser.c

(1, 2, 3)

In [19]:
# Series 객체는 index label을 키(key)로 사용하므로 딕셔너리 자료형과 비슷한 특징을 가짐
# in 연산 사용 가능
# items() 메서드를 사용해서 for문 루프를 돌려 각 요소의 키(key)와 값(value)에 접근 가능

In [20]:
"서울" in s # 인덱스 레이블 중에 서울이 있는가

True

In [21]:
"대전" in s # 인덱스 레이블 중에 대전이 있는가

False

In [22]:
9904312 in s.values

True

In [23]:
for k, v in s.items():
    print(f"{k}, {v}")

서울, 9904312
부산, 3448737
인천, 2890451
대구, 2466052


In [26]:
# 도시의 인구가 300만이 넘는 곳을 찾아 다음과 같이 출력

for i, v in s.items():
    if v > 3_000_000:
        print(f"{i}의 인구는 300만이 넘습니다.")

서울의 인구는 300만이 넘습니다.
부산의 인구는 300만이 넘습니다.
