### 2.1 Series preview

In [8]:
# 2.1 Series 개요
import pandas as pd
import numpy as np

In [9]:
pd.Series  # 똑같이 메서드를 호출할 수 있다

pandas.core.series.Series

In [10]:
%config Completer.use_jedi = False

##### 2.1.1 Class, instance
- 클래스는 템플릿, 구체적인 걸 만든 게 인스턴스

In [13]:
pd.Series()  # Series 객체 생성

Series([], dtype: object)

##### 2.1.2 시리즈 값 채우기

In [14]:
ice_cream_flavors = [
    "Chocolate",
    "Vanilla",
    "Srawberry",
    "Rum Raisin"
]
pd.Series(ice_cream_flavors)

0     Chocolate
1       Vanilla
2     Srawberry
3    Rum Raisin
dtype: object

In [17]:
# 다음 두 줄은 결과가 동일
pd.Series(ice_cream_flavors)
pd.Series(data=ice_cream_flavors)  # data는 값을 뜻하는 매개변수, 없어도 되지만 가독성 높이기 위함

0     Chocolate
1       Vanilla
2     Srawberry
3    Rum Raisin
dtype: object

##### 2.1.3 시리즈 인덱스 사용자 정의

In [20]:
day_of_week = ("Monday", "Wednesday", "Friday", "Wednesday")
pd.Series(ice_cream_flavors, day_of_week)    # data=, index= 없이도 시리즈에서 두 매개변수는 데이터와 인덱스로 들어간다
pd.Series(data=ice_cream_flavors, index=day_of_week)  # 가독성 높이기

Monday        Chocolate
Wednesday       Vanilla
Friday        Srawberry
Wednesday    Rum Raisin
dtype: object

In [22]:
pd.Series(index=day_of_week, data=ice_cream_flavors)   # 순서를 바꿔도 잘 작동

Monday        Chocolate
Wednesday       Vanilla
Friday        Srawberry
Wednesday    Rum Raisin
dtype: object

In [24]:
bunch_of_bools = [True, False, False]
pd.Series(bunch_of_bools)

0     True
1    False
2    False
dtype: bool

In [25]:
stock_prices = [985.32, 950.44]
time_of_day = ["Open", "Close"]
pd.Series(data=stock_prices, index=time_of_day)

Open     985.32
Close    950.44
dtype: float64

In [29]:
lucky_numbers = [4, 8, 15, 16, 23, 42]
pd.Series(lucky_numbers, dtype="float")  # dtype을 지정하면 해당 타입으로 바뀐다
pd.Series(lucky_numbers, dtype="object") # object도 가능

0     4
1     8
2    15
3    16
4    23
5    42
dtype: object

##### 2.1.4 결측값(NaN)이 있는 Series 생성

In [30]:
temperatures = [94, 88, np.nan, 91]
pd.Series(data=temperatures)

0    94.0
1    88.0
2     NaN
3    91.0
dtype: float64

### 2.2 파이썬 객체에서 Series 생성

In [33]:
# 딕셔너리로 저장: 각 키를 인덱스 레이블로 저장!

calorie_info = {
    "Cereal" : 125,
    "Chocolate  Bar" : 406,
    "Ice Cream Sundae" : 342
}
diet = pd.Series(calorie_info)
diet

Cereal              125
Chocolate  Bar      406
Ice Cream Sundae    342
dtype: int64

In [37]:
# 튜플 : 리스트와 동일, 하지만 변경 불가
tuple1 = pd.Series(data = ("Red", "Green", "blue"))
tuple2 = pd.Series(data = [(10, 20, 30), (40, 50, 60)])
tuple1, tuple2

(0      Red
 1    Green
 2     blue
 dtype: object,
 0    (10, 20, 30)
 1    (40, 50, 60)
 dtype: object)

In [39]:
# Set는 오류 발생: pandas에선 지원하지 않는다
my_set = {"Ricky", "Bob"}
#   - 튜플 : 변경 불가 ( )
#   - 세트 : 순서 없음 { }
# 하지만 리스트화하면 시리즈화 가능
pd.Series(list(my_set))

0    Ricky
1      Bob
dtype: object

In [41]:
random_data = np.random.randint(1, 101, 10)
random_data    # numpy 의 ndarray 객체

array([66, 34, 25, 36, 10, 82, 33, 28, 87, 34])

In [42]:
pd.Series(random_data)

0    66
1    34
2    25
3    36
4    10
5    82
6    33
7    28
8    87
9    34
dtype: int32

### 2.3 Series 속성

In [44]:
diet.values  # ndarray 객체, index 객체 의 중첩 객체

array([125, 406, 342], dtype=int64)

In [45]:
type(diet.values)

numpy.ndarray

In [47]:
diet.index, type(diet.index)

(Index(['Cereal', 'Chocolate  Bar', 'Ice Cream Sundae'], dtype='object'),
 pandas.core.indexes.base.Index)

In [50]:
diet.dtype, diet.size, diet.shape  
# 값의 타입, 값의 개수, 차원의 형태: (x, y, ...)

(dtype('int64'), 3, (3,))

In [51]:
# .is_unique : 중복 할목이 없으면 True
diet.is_unique

True

In [57]:
# .is_monotinic_increasing / _decreasing : 계속 증가/감소 하는지
pd.Series(data=[1,6,3]).is_monotonic_increasing

False

### 2.4 첫 번째 행과 마지막 행 검색

In [59]:
values = range(0, 500, 5)
nums = pd.Series(data = values)
nums

0       0
1       5
2      10
3      15
4      20
     ... 
95    475
96    480
97    485
98    490
99    495
Length: 100, dtype: int64

In [62]:
nums.head(n=3)  # 기본이 5, .head() 하면 5개만 출력

0     0
1     5
2    10
dtype: int64

In [63]:
nums.tail(7)  # tail() 도 마찬가지

93    465
94    470
95    475
96    480
97    485
98    490
99    495
dtype: int64

### 2.5 수학 연산

In [64]:
# 1. 통계 연산
numbers = pd.Series([1,2,3, np.nan, 4,5])
numbers

0    1.0
1    2.0
2    3.0
3    NaN
4    4.0
5    5.0
dtype: float64

In [70]:
numbers.count(), numbers.sum()

(5, 15.0)

In [71]:
 numbers.sum(skipna=False)  # skipna= : nan을 무시하기; False면 결측값도 포함

nan

In [73]:
 numbers.sum(min_count=3), numbers.sum(min_count=6)   # min_count= : 유효값의 최소 개수; 부족하면 nan

(15.0, nan)

In [81]:
numbers.product(), numbers.product(skipna=False), numbers.product(min_count=3)  # 곱셈, 두 매개변수 모두 가능

(120.0, nan, 120.0)

In [82]:
numbers, numbers.cumsum()  # 누적 합계; 이전 인덱스값과 합한 값을 출력

(0    1.0
 1    2.0
 2    3.0
 3    NaN
 4    4.0
 5    5.0
 dtype: float64,
 0     1.0
 1     3.0
 2     6.0
 3     NaN
 4    10.0
 5    15.0
 dtype: float64)

In [84]:
numbers.cumsum(skipna=False)  # skipna= 도 역시나 가능

0    1.0
1    3.0
2    6.0
3    NaN
4    NaN
5    NaN
dtype: float64

In [86]:
numbers, numbers.pct_change()   # 정방향 채우기 forward-fill : nan을 마지막 유효값으로 대체

(0    1.0
 1    2.0
 2    3.0
 3    NaN
 4    4.0
 5    5.0
 dtype: float64,
 0         NaN
 1    1.000000
 2    0.500000
 3    0.000000
 4    0.333333
 5    0.250000
 dtype: float64)

In [90]:
numbers.pct_change(fill_method="pad")
numbers.pct_change(fill_method="ffill")  # 이 두 인수까지 세 값은 모두 같음

0         NaN
1    1.000000
2    0.500000
3    0.000000
4    0.333333
5    0.250000
dtype: float64

In [91]:
numbers.pct_change(fill_method="bfill")  # 역방향 채우기 back-fill : 아직 모르게따
numbers.pct_change(fill_method="backfill")

0         NaN
1    1.000000
2    0.500000
3    0.333333
4    0.000000
5    0.250000
dtype: float64

In [93]:
numbers.mean(), numbers.median(), numbers.std()   # 평균, 중간값, 표준편차

(3.0, 3.0, 1.5811388300841898)

In [94]:
numbers.max(), numbers.min()

(5.0, 1.0)

In [97]:
animals = pd.Series(["Koala", "aardvark","zebra"])
animals, animals.max(), animals.min()   # 알파벳 순 정렬

(0       Koala
 1    aardvark
 2       zebra
 dtype: object,
 'zebra',
 'Koala')

In [98]:
# 속성을 효과적으로 요약 : .describe
numbers.describe()

count    5.000000
mean     3.000000
std      1.581139
min      1.000000
25%      2.000000
50%      3.000000
75%      4.000000
max      5.000000
dtype: float64

In [99]:
numbers.sample(3)   # 무작위 추출: NaN이 있으면 실수로 반환

0    1.0
4    4.0
2    3.0
dtype: float64

In [101]:
authors = pd.Series(
    ['Hemingway', 'Orwell', 'Dostoevsky', 'Fitzgerald', 'Orwell']
)
authors.unique()   # 고유한 값의 ndarray 반환: 중복된 값은 한 번만 표현

array(['Hemingway', 'Orwell', 'Dostoevsky', 'Fitzgerald'], dtype=object)

In [102]:
authors.nunique()  # 고유한 값의 개수 반환

4

In [103]:
# 2. 산술 연산
s1 = pd.Series(data=[5, np.nan, 15], index=['A','B','C'])
s1

A     5.0
B     NaN
C    15.0
dtype: float64

In [104]:
# 덧셈(+)을 할 수도 있고 메서드를 쓸 수도 있다
s1 + 3, s1.add(3)

(A     8.0
 B     NaN
 C    18.0
 dtype: float64,
 A     8.0
 B     NaN
 C    18.0
 dtype: float64)

In [105]:
# subtract, mutilply, divide 등은 풀네임도 가능하고 줄임말도 가능하다 (동일)
s1-5, s1.sub(5), s1*2, s1.mul(2), s1 / 2, s1.div(2)

(A     0.0
 B     NaN
 C    10.0
 dtype: float64,
 A     0.0
 B     NaN
 C    10.0
 dtype: float64,
 A    10.0
 B     NaN
 C    30.0
 dtype: float64,
 A    10.0
 B     NaN
 C    30.0
 dtype: float64,
 A    2.5
 B    NaN
 C    7.5
 dtype: float64,
 A    2.5
 B    NaN
 C    7.5
 dtype: float64)

In [107]:
# 몫 연산자 .floordiv()
s1 // 4
s1.floordiv(4)  # 역시나 둘의 값은 똑같음

A    1.0
B    NaN
C    3.0
dtype: float64

In [108]:
# 나머지 연산자 .mod()
s1 % 3
s1.mod(3)

A    2.0
B    NaN
C    0.0
dtype: float64

In [114]:
# 3. 브로드캐스팅 : 시리즈 간 연산에서 동일한 인덱스 위치의 값끼리 연산하는 것
s1 = pd.Series([1,2,np.nan,3], index=['A','B','C','D'])
s2 = pd.Series([4,2,np.nan,3], index=['A','B','C','D'])
s1 + s2

A    5.0
B    4.0
C    NaN
D    6.0
dtype: float64

In [115]:
s1 == s2   # nan 끼리는 다른 값이라 인지한다 (<-> !=)
s1.eq(s2)  # 메서드는 .eq()   (<-> .ne)

A    False
B     True
C    False
D     True
dtype: bool

In [118]:
# 일부 인덱스만 공유할 때
s3 = pd.Series([2,3,4,np.nan], index=['B','C','D','E'])
s1 + s3
# 공유하는 인덱스는 연산, 그외 A, E는 NaN 반환 (C는 s1이 NaN)

A    NaN
B    4.0
C    NaN
D    7.0
E    NaN
dtype: float64

### 2.6 Series를 파이썬 내장함수에 전달

In [119]:
# 내장함수인 len(), type(), list() 등을 사용해보기
cities = pd.Series(
    data = ['San Francisco', 'Los Angeles', 'Las Vegas', np.nan]
)
len(cities), type(cities)

4

In [122]:
# 타입 변환 내장 함수
dir(cities) # 속성과 메서드를 문자열로 리스트에 담아 반환

['T',
 '_AXIS_LEN',
 '_AXIS_ORDERS',
 '_AXIS_TO_AXIS_NUMBER',
 '_HANDLED_TYPES',
 '__abs__',
 '__add__',
 '__and__',
 '__annotations__',
 '__array__',
 '__array_priority__',
 '__array_ufunc__',
 '__bool__',
 '__class__',
 '__contains__',
 '__copy__',
 '__deepcopy__',
 '__delattr__',
 '__delitem__',
 '__dict__',
 '__dir__',
 '__divmod__',
 '__doc__',
 '__eq__',
 '__finalize__',
 '__float__',
 '__floordiv__',
 '__format__',
 '__ge__',
 '__getattr__',
 '__getattribute__',
 '__getitem__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__iadd__',
 '__iand__',
 '__ifloordiv__',
 '__imod__',
 '__imul__',
 '__init__',
 '__init_subclass__',
 '__int__',
 '__invert__',
 '__ior__',
 '__ipow__',
 '__isub__',
 '__iter__',
 '__itruediv__',
 '__ixor__',
 '__le__',
 '__len__',
 '__lt__',
 '__matmul__',
 '__mod__',
 '__module__',
 '__mul__',
 '__ne__',
 '__neg__',
 '__new__',
 '__nonzero__',
 '__or__',
 '__pos__',
 '__pow__',
 '__radd__',
 '__rand__',
 '__rdivmod__',
 '__reduce__',
 '__reduce_ex__',
 '__rep

In [123]:
list(cities)

['San Francisco', 'Los Angeles', 'Las Vegas', nan]

In [124]:
dict(cities)

{0: 'San Francisco', 1: 'Los Angeles', 2: 'Las Vegas', 3: nan}

In [126]:
# in 을 통한 검색 방법
'Las Vegas' in cities, 2 in cities   # 'Las Vegas'가 안되는건?

(False, True)

In [128]:
'Las Vegas' in cities.values # values를 본 게 아니기 떄문 / not in도 가능하다

True

### 2.7 코딩 챌린지

In [146]:
# 자료구조 제시
superheroes = [
    "Batman",
    "Superman",
    "Spider-man",
    "Iron Man",
    "Captain America",
    "Wonder Woman"
]
strength_levels = (100, 120, 90, 95, 110, 120)

##### 연습문제 시작

In [131]:
# 1. 슈퍼히어로 리스트를 사용해 새 시리즈 객체의 값을 채우세요.
superheroes_SR = pd.Series(data=superheroes)
superheroes_SR

0             Batman
1           Superman
2         Spider-man
3           Iron Man
4    Captain America
5       Wonder Woman
dtype: object

In [133]:
# 2. 능력치 튜플을 이용해서 ~
strength_levels_SR = pd.Series(data=strength_levels)
strength_levels_SR

0    100
1    120
2     90
3     95
4    110
5    120
dtype: int64

In [134]:
# 3. superheroes 를 인덱스로, strength를 값으로 Series만들기.
heroes = pd.Series(data=strength_levels, index=superheroes)
heroes

Batman             100
Superman           120
Spider-man          90
Iron Man            95
Captain America    110
Wonder Woman       120
dtype: int64

In [135]:
# 4. 처음 2개 행을 추출
heroes.head(2)

Batman      100
Superman    120
dtype: int64

In [136]:
# 5. 마지막 4개 행을 추출
heroes.tail(4)

Spider-man          90
Iron Man            95
Captain America    110
Wonder Woman       120
dtype: int64

In [137]:
# 6. 고유한 값의 개수
heroes.nunique()

5

In [141]:
# 7. 슈퍼히어로의 평균 능력치
# 8. 최대 및 최소 능력치
# 9. 능력치 2배가 된다면?
print('7.',heroes.mean())
print('8.',heroes.max(),heroes.min())
print('9.\n', heroes.mul(2))

7. 105.83333333333333
8. 120 90
9.
 Batman             200
Superman           240
Spider-man         180
Iron Man           190
Captain America    220
Wonder Woman       240
dtype: int64


In [142]:
# 10. 파이썬 딕셔너리로 변환하세요
dict(heroes)

{'Batman': 100,
 'Superman': 120,
 'Spider-man': 90,
 'Iron Man': 95,
 'Captain America': 110,
 'Wonder Woman': 120}