In [1]:
import pandas as pd
import numpy as np

## Series 객체 생성

- 데이터만 인수로 넘기기

In [3]:
pd.Series()

Series([], dtype: object)

In [5]:
ice_cream_flavors = [
    "Chocolate",
    "Vanilla",
    "Strawberry",
    "Rum Raisin"
]

In [6]:
pd.Series(ice_cream_flavors)

0     Chocolate
1       Vanilla
2    Strawberry
3    Rum Raisin
dtype: object

- 데이터, 인덱스 인수로 넘기기

In [7]:
date_of_week = ("Monday", "Wednesday", "Friday", "Saturday")

In [8]:
pd.Series(ice_cream_flavors, date_of_week)

Monday        Chocolate
Wednesday       Vanilla
Friday       Strawberry
Saturday     Rum Raisin
dtype: object

- dtype 설정하여 형변환하기

In [9]:
lucky_numbers = [4, 8, 15, 16, 23, 42]
pd.Series(lucky_numbers, dtype="float")

0     4.0
1     8.0
2    15.0
3    16.0
4    23.0
5    42.0
dtype: float64

- 결측값이 있는 Series 생성  
(np.nan을 판다스는 float로 처리한다. 그래서 판다스는 동일한 유형 아래에서 Series에 숫자값과 결측값을 함께 저장할 수 있다.)

In [11]:
temperatures = [94, 88, np.nan, 91]
pd.Series(data = temperatures)

0    94.0
1    88.0
2     NaN
3    91.0
dtype: float64

- 파이썬 객체로 Series 생성

In [17]:
calorie_info = {
    "Cereal" : 125,
    "Chocolate Bar" : 406,
    "Ice Cream Sundae" : 342
}
diet = pd.Series(calorie_info)
diet

Cereal              125
Chocolate Bar       406
Ice Cream Sundae    342
dtype: int64

In [16]:
pd.Series(data = ("Red", "Green", "Blue"))

0      Red
1    Green
2     Blue
dtype: object

In [18]:
rgb_colors = [(120, 41, 26), (196, 165, 45)]
pd.Series(data=rgb_colors)

0     (120, 41, 26)
1    (196, 165, 45)
dtype: object

In [20]:
# 집합(Set)은 순서가 없는 자료형이기 때문에, Series로 만들 수 없다.
# my_set = {"Ricky", "Bobby"}
# pd.Series(my_set) # TypeError: 'set' type is unordered

## 2.3 Series의 속성

In [31]:
print(diet.values, type(diet.values), sep='\n')

[125 406 342]
<class 'numpy.ndarray'>


In [32]:
print(diet.index, type(diet.index), sep='\n')

Index(['Cereal', 'Chocolate Bar', 'Ice Cream Sundae'], dtype='object')
<class 'pandas.core.indexes.base.Index'>


In [33]:
print(diet.dtype, type(diet.dtype), sep='\n')

int64
<class 'numpy.dtype[int64]'>


In [34]:
print(diet.size, type(diet.size), sep='\n')

3
<class 'int'>


In [35]:
print(diet.shape, type(diet.shape), sep='\n')

(3,)
<class 'tuple'>


In [36]:
diet.is_unique

True

In [38]:
diet.is_monotonic_increasing

False

## 2.4 첫 번째 행과 마지막 행 검색

In [39]:
values = range(0, 500, 5)
nums = pd.Series(data = values)
nums

0       0
1       5
2      10
3      15
4      20
     ... 
95    475
96    480
97    485
98    490
99    495
Length: 100, dtype: int64

In [40]:
nums.head()

0     0
1     5
2    10
3    15
4    20
dtype: int64

In [41]:
nums.tail()

95    475
96    480
97    485
98    490
99    495
dtype: int64

## 2.5 수학 연산

In [43]:
numbers = pd.Series([1, 2, 3, np.nan, 4, 5])
numbers

0    1.0
1    2.0
2    3.0
3    NaN
4    4.0
5    5.0
dtype: float64

In [44]:
numbers.count()

5

In [45]:
numbers.sum()

15.0

In [46]:
numbers.sum(skipna=False)

nan

In [47]:
numbers.sum(min_count = 5)

15.0

In [48]:
numbers.sum(min_count = 6)

nan

In [49]:
numbers.product()

120.0

In [50]:
numbers.cumsum()

0     1.0
1     3.0
2     6.0
3     NaN
4    10.0
5    15.0
dtype: float64

In [51]:
numbers.cumsum(skipna=False)

0    1.0
1    3.0
2    6.0
3    NaN
4    NaN
5    NaN
dtype: float64

In [53]:
# 한 Series 값에서 다음 값까지의 변동 비율
# (현재 인덱스의 값 / 이전 인덱스의 값) - 1
numbers.pct_change()

0         NaN
1    1.000000
2    0.500000
3    0.000000
4    0.333333
5    0.250000
dtype: float64

In [54]:
# Series 값의 평균을 반환
numbers.mean()

3.0

In [55]:
# 정렬된 Series 값에서 가운데 숫자를 반환
numbers.median()

3.0

In [56]:
# 표준편차
numbers.std()

1.5811388300841898

In [57]:
# 최대값
numbers.max()

5.0

In [58]:
# 최소값
numbers.min()

1.0

In [59]:
animals = pd.Series(["koala", "aardvark", "zebra"])
animals

0       koala
1    aardvark
2       zebra
dtype: object

In [63]:
# 문자열 최대값
animals.max()

'zebra'

In [64]:
# 문자열 최소값
animals.min()

'aardvark'

In [62]:
# Series 요약
numbers.describe()

count    5.000000
mean     3.000000
std      1.581139
min      1.000000
25%      2.000000
50%      3.000000
75%      4.000000
max      5.000000
dtype: float64

In [66]:
# Series에서 임의의 값을 반환 (무작위 선택)
numbers.sample(3)

2    3.0
1    2.0
3    NaN
dtype: float64

In [68]:
# Series 에서 고유한 값의 ndarray 반환
authors = pd.Series(["Hemingway", "Orwell", "Dostoevsky", "Fitzgerald", "Orwell"])
authors.unique()

array(['Hemingway', 'Orwell', 'Dostoevsky', 'Fitzgerald'], dtype=object)

In [69]:
authors.nunique()

4

* 산술 연산

In [70]:
s1 = pd.Series(data = [5, np.nan, 15], index = ["A", "B", "C"])
s1

A     5.0
B     NaN
C    15.0
dtype: float64

In [71]:
s1 + 3

A     8.0
B     NaN
C    18.0
dtype: float64

In [75]:
s1 - 5

A     0.0
B     NaN
C    10.0
dtype: float64

In [76]:
s1.sub(5)

A     0.0
B     NaN
C    10.0
dtype: float64

In [77]:
s1.subtract(5)

A     0.0
B     NaN
C    10.0
dtype: float64

In [78]:
s1 // 4

A    1.0
B    NaN
C    3.0
dtype: float64

In [79]:
s1.floordiv(4)

A    1.0
B    NaN
C    3.0
dtype: float64

In [80]:
s1 % 3

A    2.0
B    NaN
C    0.0
dtype: float64

In [81]:
s1.mod(3)

A    2.0
B    NaN
C    0.0
dtype: float64

In [83]:
s1 = pd.Series(data=[5, 10, 15], index=["A", "B", "C"])
s2 = pd.Series(data=[4, 8, 12, 14], index=["B", "C", "D", "E"])

In [85]:
print(s1, s2, sep='\n\n')

A     5
B    10
C    15
dtype: int64

B     4
C     8
D    12
E    14
dtype: int64


In [86]:
s1 + s2

A     NaN
B    14.0
C    23.0
D     NaN
E     NaN
dtype: float64

## 2.6 Series를 파이썬의 내장함수에 전달

In [87]:
cities = pd.Series(data=["San Francisco", "Los Angeles", "Las Vegas", np.nan])

In [88]:
len(cities)

4

In [89]:
type(cities)

pandas.core.series.Series

In [90]:
dir(cities)

['T',
 '_AXIS_LEN',
 '_AXIS_ORDERS',
 '_AXIS_TO_AXIS_NUMBER',
 '_HANDLED_TYPES',
 '__abs__',
 '__add__',
 '__and__',
 '__annotations__',
 '__array__',
 '__array_priority__',
 '__array_ufunc__',
 '__bool__',
 '__class__',
 '__contains__',
 '__copy__',
 '__deepcopy__',
 '__delattr__',
 '__delitem__',
 '__dict__',
 '__dir__',
 '__divmod__',
 '__doc__',
 '__eq__',
 '__finalize__',
 '__float__',
 '__floordiv__',
 '__format__',
 '__ge__',
 '__getattr__',
 '__getattribute__',
 '__getitem__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__iadd__',
 '__iand__',
 '__ifloordiv__',
 '__imod__',
 '__imul__',
 '__init__',
 '__init_subclass__',
 '__int__',
 '__invert__',
 '__ior__',
 '__ipow__',
 '__isub__',
 '__iter__',
 '__itruediv__',
 '__ixor__',
 '__le__',
 '__len__',
 '__lt__',
 '__matmul__',
 '__mod__',
 '__module__',
 '__mul__',
 '__ne__',
 '__neg__',
 '__new__',
 '__nonzero__',
 '__or__',
 '__pos__',
 '__pow__',
 '__radd__',
 '__rand__',
 '__rdivmod__',
 '__reduce__',
 '__reduce_ex__',
 '__rep

In [91]:
list(cities)

['San Francisco', 'Los Angeles', 'Las Vegas', nan]

In [92]:
dict(cities)

{0: 'San Francisco', 1: 'Los Angeles', 2: 'Las Vegas', 3: nan}

#### Series 객체 자체에 in 연산자를 사용하면 : Series의 인덱스들 중에서 찾는다.  
#### Series의 values 속성에 in 연산자를 사용하면 : Series의 값들 중에서 찾는다.

In [94]:
2 in cities

True

In [93]:
"Las Vegas" in cities

False

In [95]:
"Las Vegas" in cities.values

True

## 2.7 코딩 챌린지

In [96]:
superheroes = [
    "Batman",
    "Superman",
    "Spider-man",
    "Iron Man",
    "Captain America",
    "Wonder Woman"
]

In [98]:
strength_levels = (100, 120, 90, 95, 110, 120)

1. 슈퍼히어로(superheroes) 리스트를 사용하여 새 Series 객체의 값을 채우세요.

In [97]:
pd.Series(superheroes)

0             Batman
1           Superman
2         Spider-man
3           Iron Man
4    Captain America
5       Wonder Woman
dtype: object

2. 능력치(strength_levels) 튜플을 사용하여 새 Series 객체의 값을 채우세요.

In [99]:
pd.Series(strength_levels)

0    100
1    120
2     90
3     95
4    110
5    120
dtype: int64

3. superheroes를 인덱스 레이블로 사용하고 strength_levels를 값으로 사용하여 Series를 생성하세요.  
   heroes 변수에 Series를 할당하세요.

In [101]:
heroes = pd.Series(data=strength_levels, index=superheroes)
heroes

Batman             100
Superman           120
Spider-man          90
Iron Man            95
Captain America    110
Wonder Woman       120
dtype: int64

4. heroes Series의 처음 2개 행을 추출하세요.

In [102]:
heroes.head(2)

Batman      100
Superman    120
dtype: int64

5. heroes Series의 마지막 4개 행을 추출하세요.

In [103]:
heroes.tail(4)

Spider-man          90
Iron Man            95
Captain America    110
Wonder Woman       120
dtype: int64

6. heroes Series에 있는 고유한 값의 개수를 구하세요.

In [104]:
heroes.nunique()

5

7. heroes에 있는 슈퍼히어로의 평균 능력치를 구하세요.

In [105]:
heroes.mean()

105.83333333333333

8. heroes의 최대 및 최소 능력치를 구하세요.

In [106]:
heroes.max(), heroes.min()

(120, 90)

9. 능력치가 2배가 되면 각 슈퍼히어로의 능력치는 얼마인지 구하세요.

In [107]:
heroes * 2

Batman             200
Superman           240
Spider-man         180
Iron Man           190
Captain America    220
Wonder Woman       240
dtype: int64

10. heroes Series를 파이썬 딕셔너리로 변환하세요.

In [108]:
dict(heroes)

{'Batman': 100,
 'Superman': 120,
 'Spider-man': 90,
 'Iron Man': 95,
 'Captain America': 110,
 'Wonder Woman': 120}