# Series
Series
- 판다스의 핵심 자료구조
- 동일한 유형(homogeneous)의 데이터만 담을수 있으며 레이블이 있는 1차원 배열. 파이썬의 리스트와 비슷
- 1차원 자료구조
- 레이블
  - 값을 찾을떄 사용할 수 있는 식별자(index)
- 딕셔너리와 같이 각 값에 키/레이블을 할당함. 리스트와 딕셔너리의 장점을 모두활용가능
- 180개 이상의 메서드


### Series의 개요


In [60]:
import pandas as pd
import numpy as np
pd.Series() # 시리즈 객체 생성

  pd.Series() # 시리즈 객체 생성


Series([], dtype: float64)

생성자(constructor)는 클래스에서 객체를 만드는 메서드. pd.Series()가 Series의 생성자를 사용하여 객체를 생성한 것

Series의 첫번째 인수는 반복가능한 객체(리스트, 딕셔너리, 튜플, 넘파이의 ndarray 등)

In [61]:
ice_cream_flavors = ["Chocolate", "Vanilla", " Strawberry", "Rum Raisin",]
pd.Series(ice_cream_flavors) # 리스트를 이용하여 Series 생성. 리스트의 순서를 유지함

0      Chocolate
1        Vanilla
2     Strawberry
3     Rum Raisin
dtype: object

In [62]:
# Series의 매개변수 첫번쨰 data, 두번째 index
days_of_week = ("Monday", "Wednesday", "Friday", "Saturday",)

pd.Series(data=ice_cream_flavors, index=days_of_week)


Monday         Chocolate
Wednesday        Vanilla
Friday        Strawberry
Saturday      Rum Raisin
dtype: object

In [63]:
# Series의 인덱스는 중복을 허용함. DataFrame과 같음. 당연히 중복은 피하는게 좋다.
days_of_week = ("Monday", "Wednesday", "Wednesday", "Saturday",)

pd.Series(data=ice_cream_flavors, index=days_of_week)
pd.Series(data=ice_cream_flavors, index=days_of_week)["Wednesday"]
# pd.Series(data=ice_cream_flavors, index=days_of_week)["Vanilla"] # 에러발생.  인덱스로만 접근가능



Wednesday        Vanilla
Wednesday     Strawberry
dtype: object

In [64]:
bools = [True,False,False]
pd.Series(bools) # dtype으로 bool을 표시함. 문자열이나 복잡한 객체의 경우에는 object로 표시됨


0     True
1    False
2    False
dtype: bool

### 결측값이 있는 Series
판다스는 파일을 가져오다가 결측값을 발견하면 넘파이의 nan 객체로 결측값을 대체함.

In [65]:
temperatures = [94, 888, np.nan, 91]
pd.Series(data=temperatures) # 판다스는 nan 값을 발견하면 숫자값을 정수에서 부동소수점으로 자동 변환한다.

0     94.0
1    888.0
2      NaN
3     91.0
dtype: float64

In [66]:
calorie_info = {
    "Cereal": 125,
    "Chocolate": 406,
    "Ice Cream Sundae": 342,
}

# 딕셔너리를 인자로 받을 경우에는 키를 Series의 인덱스 레이블로 설정한다.
diet = pd.Series(calorie_info)
diet


Cereal              125
Chocolate           406
Ice Cream Sundae    342
dtype: int64

In [67]:
# 튜플도 인자로 받을 수 있다.
rgb_colors = [(120,41,26), (196,165,45)]
pd.Series(rgb_colors)


0     (120, 41, 26)
1    (196, 165, 45)
dtype: object

In [68]:
'''
집합을 인자로 받을 경우에는 에러를 발생시킨다.
집합에는 순서, 연관(딕셔너리)개념이 없기 때문에 Series에 순서를 가정 할 수 없기 때문.
'''
my_set = {"Ricky", "Bobby"}
pd.Series(my_set)

TypeError: 'set' type is unordered

Series 생성자의 인자에는 넘파이의 ndarray 객체도 사용할 수 있음. 넘파이의 `randint`함수로 생성한 ndarray를 전달하는 예제

In [None]:
# 1 부터 101 사이의 정수를 10개 생성
random_data = np.random.randint(1, 101, 10)
pd.Series(random_data)

0    43
1    33
2    27
3    58
4    50
5    66
6    17
7    41
8    61
9    71
dtype: int32

### Series의 속성
속성(attribute)는 객체에 속하는 데이터의 조각. 속성은 객체의 내부 상태에 대한 정보를 나타낸다.

In [75]:
# Series는 넘파이의 ndarray 객체, 판다스의 Index 객체를 사용해 저장된다.
type(diet) # pandas.core.series.Series
type(diet.index) # pandas.core.indexes.base.Index
diet.values

array([125, 406, 342], dtype=int64)

- 판다스는 넘파이의 ndarray를 사용해 객체를 저장한다. 
- 판다스는 넘파이를 기반으로 만들어져있기 때문.
- 판다스는 넘파이 라이브러리 객체를 둘러싼 추가 기능계층이라고 볼수있으며 일종의 래퍼(wrapper)이다.

In [78]:
# dtype과 index는 판다스의 객체이다.
diet.dtype


dtype('int64')

In [79]:
# Series 값의 개수를 반환
diet.size

3

In [80]:
# shape 속성은 판다스 자료구조의 차원을 포함하는 튜플을 반환.
diet.shape

(3,)

In [84]:
# is_unique 속성은 중복 항목이 없다면 True를 반환
print(diet.is_unique)
print(pd.Series((1, 1, 2)).is_unique)

True
False


In [85]:
# is_monotonic: 자신의 이전 값보다 큰 값을 가진 값들로 이루어져있으면 True를 반환
# is_monotonic은 안쓸테니깐 is_monotonic_increasing을 대신 사용하라
diet.is_monotonic

  diet.is_monotonic


False

파이썬 객체에는 속성과 메서드가 있다.

속성
- 객체에 속하는 데이터 조각. 자료구조가 자체적으로 나타낼 수 있는 특성 또는 세부사항

메서드
- 객체에 속하는 기능으로 객체에서 수행할 수 있는 작업이나 명령


In [88]:
values = range(0, 500, 5)
nums = pd.Series(values)
nums.head(n = 3) # 첫 3개의 데이터 추출. default 값은 n=5
nums.tail() # 마지막 5개의 데이터 추출

95    475
96    480
97    485
98    490
99    495
dtype: int64

### Series 객체의 수학 연산

In [89]:
numbers = pd.Series([1, 2, 3, np.nan, 4, 5])
numbers

0    1.0
1    2.0
2    3.0
3    NaN
4    4.0
5    5.0
dtype: float64

In [92]:
# count는 null이 아닌 값의 개수를 계산한다.
numbers.size # 6
numbers.count() # 5

5

In [93]:
# sum 메서드는 값을 모두 더한다.
numbers.sum()

15.0

대부분의 수학적 메서드는 결측값 nan을 무시한다. 무시하지 않기 위해서 `skipna=False` 인자를 설정할수 있음.

In [94]:
numbers.sum(skipna=False) # nan에 수를 더하면 nan이 된다.

nan

In [96]:
numbers.sum(min_count=3) # Series가 보유해야하는 최소의 유효한 값. 5개이므로 됨.

numbers.sum(min_count=6) # nan

nan

In [97]:
# product는 Series의 모든 값을 곱한다.
numbers.product()

120.0

In [98]:
# cumsum(누적합) 메서드는 값의 누적합계를 값으로 가지는 새 Series를 반환함.
numbers.cumsum()

0     1.0
1     3.0
2     6.0
3     NaN
4    10.0
5    15.0
dtype: float64

`cumsum()`
- 판다스는 누적 합계에 결측값을 추가할 수 없으므로 nan인 항목에는 nan을 배치함
- 인덱스 4에서는 이전까지의 누적합 6에 4를 더한 10을 배치함.

In [99]:
numbers.cumsum(skipna=False)

0    1.0
1    3.0
2    6.0
3    NaN
4    NaN
5    NaN
dtype: float64

In [106]:
# pct_change() 메서드는 이전 값으로부터 변동 비율을 배치한 Series를 반환함.
numbers.pct_change()


0         NaN
1    1.000000
2    0.500000
3    0.000000
4    0.333333
5    0.250000
dtype: float64

0         NaN
1    1.000000
2    1.500000
3    1.500000
4    1.833333
5    2.083333
dtype: float64

pct_change 메서드에서 nan을 처리하는 매개변수

fill_method
- 기본적으로 정방향 채우기 전략을 사용하면 판다스는 nan 값을 마지막으로 유효한 관측값으로 대체함
- 위의 전략을 사용하려면 `fill_method = 'pad'` 또는 `fill_method = ' ffill'`
- 또 다른 전략으로는 역방향채우기(back-fill)가 있음. 이 전략에선 nan 값을 만나면 다음 값을 nan값에 대체함.
- 위의 전략을 사용하려면 `fill_method = 'bfill'` 또는 `fill_method = 'backfill'`

In [108]:
numbers.pct_change(fill_method='pad') #  numbers.pct_change(fill_method='ffill'), 아무것도 안넣은것과 같음 같음


0         NaN
1    1.000000
2    0.500000
3    0.000000
4    0.333333
5    0.250000
dtype: float64

In [109]:
numbers.pct_change(fill_method='bfill')

0         NaN
1    1.000000
2    0.500000
3    0.333333
4    0.000000
5    0.250000
dtype: float64

In [114]:
numbers.mean() # 평균값을 반환함. 결측값은 아예 무시

3.0

In [116]:
numbers.median() # Series 값에서 중간값을 반환함

3.0

In [124]:
new_numbers = pd.Series([3, 4, 5, 1, 3, 4, 5, 6])
new_numbers.median()

0    3
1    4
2    5
3    1
4    3
5    4
6    5
7    6
dtype: int64

In [122]:
numbers.std() # std 메서드는 표준편차(Standard Deviation)을 반환함

1.5811388300841898

In [123]:
print(numbers.max())
print(numbers.min())

5.0
1.0


판다스는 문자열 Series를 알파벳순으로 반환함. 따라서 max, min 등의 메서드 사용 가능

In [125]:
# Series를 효과적으로 요약하는 단일 메서드
numbers.describe()

count    5.000000
mean     3.000000
std      1.581139
min      1.000000
25%      2.000000
50%      3.000000
75%      4.000000
max      5.000000
dtype: float64

In [129]:
# 임의의 값을 선택하는 메서드 (표본)
numbers.sample()

3   NaN
dtype: float64

In [143]:
# 개수를 지정해서 사용도 가능하다. 순서 또한 무작위로 출력된다.
numbers.sample(3)

2    3.0
0    1.0
4    4.0
dtype: float64

In [148]:
authors = pd.Series(
    ["Hemingway", "Orwell", "Dostoevsky", "Fitzgerald", "Orwell"]
)

# unique 메서드는 Series에서 중복을 제거하고 ndarray를 반환함.
authors.unique()

<method-wrapper '__len__' of numpy.ndarray object at 0x0000026D4BAAA5D0>

In [149]:
authors.nunique() # 중복을 제거하고 그 개수를 반환

4

### 산술 연산
판다스는 Series로 산술 계산을 수행하는 방법을 제공함

In [158]:
s1 = pd.Series(data = [5, np.nan, 15], index= ["A", "B", "C"])
s1

A     5.0
B     NaN
C    15.0
dtype: float64

파이썬의 표준 연산자를 사용하여 산술연산을 수행할수있음

In [160]:
s1 + 10


A    15.0
B     NaN
C    25.0
dtype: float64

In [161]:
s1.add(3)

A     8.0
B     NaN
C    18.0
dtype: float64

산술연산자
- `-`, `sub()`, `subtract()`
- `*`, `mul()`, `multiply()`
- `/`, `div()`, `divide()`
- `+`, `add()`
- `//`, `floordiv()`
- `%`, `mod()`

### 브로드캐스팅
- 판다스는 Series값을 ndarray에 저장함
- s1 + 3 같은 구문을 사용할떄 판다스는 수학적 계산을 넘파이에게 넘긴다.
- 넘파이 문서에서는 한 배열의 값을 다른 배열로 파생시키는것을 브로드캐스팅(broadcasting)이라고 표현

In [163]:
s1 = pd.Series([1, 2, 3], index = ["A", "B", "C"])
s2 = pd.Series([4, 5, 6], index = ["B", "C", "A"])

두개의 Series를 피 연산자로 + 연산을 하면 판다스는 동일한 인덱스끼리 값을 더함.

In [164]:
s1 + s2

A    7
B    6
C    8
dtype: int64

비교 연산은 인덱스, 인덱스의 순서가 둘다 일치해야만 가능하네


In [180]:
s1 = pd.Series([3, 6, np.nan, 12], index = ["A", "B", "C", "D"])
s2 = pd.Series([3, 2, 12, np.nan], index = ["A", "B", "C", "D"])

s1 > s2


A    False
B     True
C    False
D    False
dtype: bool

인덱스가 다를떄의 연산

In [176]:
s1 = pd.Series(data=[5, 10, 15], index=["A", "B", "C"])
s2 = pd.Series(data=[4, 8, 12, 14], index=["B", "C", "D", "E"])

s1 + s2

A     NaN
B    14.0
C    23.0
D     NaN
E     NaN
dtype: float64

- 공통된 인덱스 `B`, `C`는 제대로 덧셈
- 나머지 인덱스에 대해서는 NaN 값을 반환.(결측값이므로 기본적으로 없었던 인덱스에는 NaN이 들어있다고 생각)

### Series를 파이썬의 내장함수에 전달
- 파이썬의 개발자들은 코드베이스 전반에 걸쳐 일관성을 보장하기 위한 원칙을 따름
- 라이브러리 객체와 파이썬의 내장함수는 원활하게 통합된다는 원칙
- 판다스도 Series를 파이썬의 내장함수에 전달할 수 있으며 예측 가능한 결과를 얻을수 있음.

In [181]:
cities = pd.Series(data=["San Francisco", "Los Angeles", "Las Vegas", np.nan])

len(cities)

4

In [182]:
type(cities)

pandas.core.series.Series

In [183]:
dir(cities) # 사용가능한 속성과 메서드 리스트를 반환하는 함수

['T',
 '_AXIS_LEN',
 '_AXIS_ORDERS',
 '_AXIS_TO_AXIS_NUMBER',
 '_HANDLED_TYPES',
 '__abs__',
 '__add__',
 '__and__',
 '__annotations__',
 '__array__',
 '__array_priority__',
 '__array_ufunc__',
 '__array_wrap__',
 '__bool__',
 '__class__',
 '__contains__',
 '__copy__',
 '__deepcopy__',
 '__delattr__',
 '__delitem__',
 '__dict__',
 '__dir__',
 '__divmod__',
 '__doc__',
 '__eq__',
 '__finalize__',
 '__float__',
 '__floordiv__',
 '__format__',
 '__ge__',
 '__getattr__',
 '__getattribute__',
 '__getitem__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__iadd__',
 '__iand__',
 '__ifloordiv__',
 '__imod__',
 '__imul__',
 '__init__',
 '__init_subclass__',
 '__int__',
 '__invert__',
 '__ior__',
 '__ipow__',
 '__isub__',
 '__iter__',
 '__itruediv__',
 '__ixor__',
 '__le__',
 '__len__',
 '__long__',
 '__lt__',
 '__matmul__',
 '__mod__',
 '__module__',
 '__mul__',
 '__ne__',
 '__neg__',
 '__new__',
 '__nonzero__',
 '__or__',
 '__pos__',
 '__pow__',
 '__radd__',
 '__rand__',
 '__rdivmod__',
 '__redu

In [189]:
# 형변환도 가능하다!
str(cities)
list(cities)

['San Francisco', 'Los Angeles', 'Las Vegas', nan]

딕셔너리로 변형할경우 index를 키값으로한다!

In [190]:
dict(cities)

{0: 'San Francisco', 1: 'Los Angeles', 2: 'Las Vegas', 3: nan}

In [199]:
dic = {1: 2, 3: 4}
2 in dic

False

In [194]:
"Las Vegas" in cities

False

In [195]:
2 in cities

True

In [200]:
"Las Vegas" in cities.values

True

### 코딩 챌린지
1. 슈퍼히어로 리스트를 사용하여 Series 객체의 값을 채우세요.
2. 능력치(strength_levels) 튜플을 사용하여 다른 Series 객체의 값을 채우세요
3. superheroes를 인덱스 레이블로 사용하고 strength_levels를 값으로 사용하여 Series를 생성하세요. heroes 변수에 Series를 할당하세요.
4. heroes Series의 처음 2개행을 추출하세요.
5. heroes Series의 마지막 4개행을 추출하세요.
6. heroes Series에 있는 고유한 값의 개수를 구하세요.
7. heroes에 있는 슈퍼히어로의 평균 능력치를 구하세요.
8. heroes의 최대 및 최소 능력치를 구하세요.
9. 능력치가 2배가 되면 각 슈퍼히어로의 능력치는 얼마인지 구하세요
10. heroes Series를 파이썬 딕셔너리로 변환하세요.

In [203]:
superheroes = [
    "Batman",
    "Superman",
    "Spider-Man",
    "Iron Man",
    "Captain America",
    "Wonder Woman",
]

strength_levels = (100, 120, 90, 95, 110, 120)

In [204]:
# 1
s1 = pd.Series(superheroes)
s1

0             Batman
1           Superman
2         Spider-Man
3           Iron Man
4    Captain America
5       Wonder Woman
dtype: object

In [205]:
# 2
s2 = pd.Series(strength_levels)
s2

0    100
1    120
2     90
3     95
4    110
5    120
dtype: int64

In [206]:
# 3
heroes = pd.Series(data = strength_levels, index = superheroes)
heroes

Batman             100
Superman           120
Spider-Man          90
Iron Man            95
Captain America    110
Wonder Woman       120
dtype: int64

In [207]:
# 4
heroes.head(2)

Batman      100
Superman    120
dtype: int64

In [208]:
# 5
heroes.tail(4)

Spider-Man          90
Iron Man            95
Captain America    110
Wonder Woman       120
dtype: int64

In [220]:
# 6
len(heroes.unique())
heroes.nunique()

5

In [214]:
# 7
heroes.mean()

105.83333333333333

In [216]:
# 8
heroes.max()
heroes.min()

90

In [217]:
# 9
heroes * 2


Batman             200
Superman           240
Spider-Man         180
Iron Man           190
Captain America    220
Wonder Woman       240
dtype: int64

In [219]:
# 10
dict(heroes)

{'Batman': 100,
 'Superman': 120,
 'Spider-Man': 90,
 'Iron Man': 95,
 'Captain America': 110,
 'Wonder Woman': 120}