In [14]:
import pandas as pd
from numpy import nan # nan(not a number = null/부재)

## 2.1.2 Series 값 채우기

In [2]:
pd.Series() 
# 생성자 = constructor는 클래스에서 객체를 만드는 메서드 
# 인수 = argument는 메서드에 전달하는 입력
# 매개변수 = parameter는 함수 또는 메서드에서 기대한느 입력을 부르는 이름
# 파이썬은 생성자에 전달한 모든 인수를 내부적으로 매개변수와 연결함

Series([], dtype: object)

In [3]:
ice_cream_flavors = ["Chocolate", "Vanilla", "Strawberry", "Rum Raisin"]
pd.Series(ice_cream_flavors)

0     Chocolate
1       Vanilla
2    Strawberry
3    Rum Raisin
dtype: object

In [None]:
# shift + tab 기본인수 : default argument는 매개변수에 대한 인수를 제공하지 않는 경우 파이썬이 사용하는 대체값
# 각 값은 2개의 식별자를 가질 수 있다 : 위치 인덱스, 라벨 인덱스

## 2.1.3 Series 인덱스 사용자 정의

In [4]:
ice_cream_flavors = ["Chocolate", "Vanilla", "Strawberry", "Rum Raisin"]
days_of_week = ("Monday", "Wednesday", "Friday", "Saturday")

In [5]:
pd.Series(ice_cream_flavors, days_of_week)

Monday        Chocolate
Wednesday       Vanilla
Friday       Strawberry
Saturday     Rum Raisin
dtype: object

In [7]:
pd.Series(data = ice_cream_flavors, index = days_of_week)

Monday        Chocolate
Wednesday       Vanilla
Friday       Strawberry
Saturday     Rum Raisin
dtype: object

In [9]:
# dtype의 경우 bool, int, float 외에는 전부 object로 표기
bunch_of_bools = [True, False, False]
pd.Series(bunch_of_bools) 

0     True
1    False
2    False
dtype: bool

In [12]:
nums = [1.0, 546, 31]
pd.Series(nums) 

0      1.0
1    546.0
2     31.0
dtype: float64

In [13]:
# dtype 지정
nums = [1, 546, 31]
pd.Series(nums, dtype="float") 

0      1.0
1    546.0
2     31.0
dtype: float64

## 2.1.4 결측값이 있는 Series 생성

In [15]:
temperatures = [94, 88, nan, 91]
pd.Series(temperatures)

0    94.0
1    88.0
2     NaN
3    91.0
dtype: float64

# 2.2 파이썬 객체에서 Series 생성

Series 생성자가 딕셔너리, 튜플, set, numpy 배열을 만나면 어떻게 되는지 알아보자

In [18]:
# dict
cal_info = {
    "Cereal": 125,
    "chocolate Bar": 406,
    "Ice cream Sundae": 342
}
pd.Series(cal_info)

Cereal              125
chocolate Bar       406
Ice cream Sundae    342
dtype: int64

In [19]:
rgb_col = ((1, 2, 3),(4, 5, 6))
pd.Series(rgb_col)

0    (1, 2, 3)
1    (4, 5, 6)
dtype: object

In [20]:
rgb_col = [(1, 2, 3),(4, 5, 6)]
pd.Series(rgb_col) # 위와 결과는 똑같당

0    (1, 2, 3)
1    (4, 5, 6)
dtype: object

In [23]:
set_num = set([1, 2, 3])
pd.Series(set_num)
# 셋과 같이 순서형이 아닌 데이터는 시리즈로 받을 수 없음!!

TypeError: 'set' type is unordered

# 2.3 Series의 속성

속성(attribute)는 객체에 속하는 데이터의 조각, 속성은 객체의 내부 상태에 대한 정보를 나타냄.

In [31]:
cal_info = {
    "Cereal": 125,
    "chocolate Bar": 406,
    "Ice cream Sundae": 342
}
diet = pd.Series(cal_info)
# ndarray 객체를 사용하여 칼로리 수를 저장하고 판다스 라이브러리의 Index 객체를 사용하여 인덱스에 음식 저장 후
# Series의 속성을 통해 중첩 객체에 접근
diet

Cereal              125
chocolate Bar       406
Ice cream Sundae    342
dtype: int64

In [32]:
# values 속성으로 값을 저장하는 ndarray객체
diet.values

array([125, 406, 342], dtype=int64)

In [33]:
type(diet.values)

numpy.ndarray

In [34]:
diet.index

Index(['Cereal', 'chocolate Bar', 'Ice cream Sundae'], dtype='object')

In [35]:
type(diet.index)

pandas.core.indexes.base.Index

In [36]:
pd.Series([3, 3]).is_unique

False

In [37]:
pd.Series([1, 3]).is_unique

True

In [39]:
# 간격 무관 값이 자신의 이전 값보다 크면 is_monotonic 속성은 True
pd.Series([1, 2, 3]).is_monotonic_increasing

True

In [40]:
pd.Series([1, 2, 3]).is_monotonic_decreasing

False

# 2.5 수학 연산

## 2.5.1 통계 연산

In [44]:
numbers = pd.Series([1, 2, 3, nan, 4, 5])
numbers

0    1.0
1    2.0
2    3.0
3    NaN
4    4.0
5    5.0
dtype: float64

In [45]:
numbers.count()

5

In [49]:
numbers.sum(skipna = False, min_count = 0)

nan

In [50]:
numbers

0    1.0
1    2.0
2    3.0
3    NaN
4    4.0
5    5.0
dtype: float64

In [53]:
numbers.cumsum(skipna=False)

0    1.0
1    3.0
2    6.0
3    NaN
4    NaN
5    NaN
dtype: float64

In [54]:
numbers.pct_change()

0         NaN
1    1.000000
2    0.500000
3    0.000000
4    0.333333
5    0.250000
dtype: float64

In [55]:
numbers.pct_change(fill_method = "bfill")

0         NaN
1    1.000000
2    0.500000
3    0.333333
4    0.000000
5    0.250000
dtype: float64

In [57]:
numbers.sample(3)

5    5.0
0    1.0
4    4.0
dtype: float64

## 2.5.2 산술 연산

In [69]:
s1 = pd.Series(data = [5, 15, 15], index = ["A", "B", "C"])
s1

A     5
B    15
C    15
dtype: int64

In [71]:
s2 = pd.Series(data = [100, 200, 300, 100000], index = [ "B", "C", "D", "A"])
s2

B       100
C       200
D       300
A    100000
dtype: int64

In [72]:
s1 + s2

A    100005.0
B       115.0
C       215.0
D         NaN
dtype: float64

In [75]:
cities = pd.Series(["영천", "경산", "대구", nan])
cities

0     영천
1     경산
2     대구
3    NaN
dtype: object

In [76]:
list(cities)

['영천', '경산', '대구', nan]

In [77]:
dict(cities)

{0: '영천', 1: '경산', 2: '대구', 3: nan}

In [81]:
len(cities) # nan 포함해서 세버려 아주 그냥

4

In [82]:
1 in cities

True

In [83]:
"대구" in cities

False

In [84]:
"대구" in cities.values

True