### Pandas - Series

데이터와 인덱스를 함께 저장하는 자료구조

In [1]:
!pip install pandas





[notice] A new release of pip is available: 24.0 -> 25.2
[notice] To update, run: python.exe -m pip install --upgrade pip


리스트를 인자로 넘겨서 생성

In [2]:
from pandas import Series

data = [10, 20, 30]
s = Series(data)
print(s)

0    10
1    20
2    30
dtype: int64


넘파이를 사용해서 생성할 수도 있음

In [3]:
import numpy as np

data = np.arange(5)
s = Series(data)
print(s)

0    0
1    1
2    2
3    3
4    4
dtype: int64


인덱스의 default는 0부터 시작하는 숫자   
index라는 변수엔 구간 정보를 저장하고 있음

In [4]:
data = [1000, 2000, 3000]
s = Series(data)
print(s.index)
print(s.index.to_list())

RangeIndex(start=0, stop=3, step=1)
[0, 1, 2]


인덱스를 지정해보자

In [5]:
s.index = ['감자', '고구마', '치킨']
print(s)

감자     1000
고구마    2000
치킨     3000
dtype: int64


생성할 때 인덱스와 함께 생성할 수도 있다.

In [6]:
data = [15, 25, 35]
index = ['쇼유','미소','시오']
print(Series(data, index))

쇼유    15
미소    25
시오    35
dtype: int64


기본적인 Series의 생성자 구조   
```python Class Series:
    def __init__(self, data=None, index=None), ....) :
즉 시작할 때 data와 index를 지정해줄 수 있다 !!

In [7]:
s = Series(index = index, data=data)
print(s)

쇼유    15
미소    25
시오    35
dtype: int64


인덱스를 다시 지정해줄 수도 있다

In [8]:
index = ['쇼유', '라멘', '시오']
s2 = s.reindex(index)

이와같이 새로운 인덱스엔 NaN값이 들어감   
이를 fillna 메소드를 사용해 결측치를 채울 수 있다

In [9]:
s2 = s.fillna(0)
print(s2)

쇼유    15
미소    25
시오    35
dtype: int64


물론 시리즈를 만들 때도 가능하다!   
fill_value로 인자를 넘기면 된다.

In [10]:
s2 = s.reindex(index, fill_value=0)
print(s2)

쇼유    15
라멘     0
시오    35
dtype: int64


딕셔너리를 사용해 시리즈를 한 번에 만들 수도 있다.   
딕셔너리의 key가 인덱스 value가 데이터가 된다.

In [11]:
data = {
    "2019-05-31" : 42500,
    "2019-05-30" : 42550,
    "2019-05-29" : 41000,
    "2019-05-28" : 42550,
    "2019-05-27" : 42650
}
s = Series(data)
print(s)
print(s.index)
print(s.index.dtype)


2019-05-31    42500
2019-05-30    42550
2019-05-29    41000
2019-05-28    42550
2019-05-27    42650
dtype: int64
Index(['2019-05-31', '2019-05-30', '2019-05-29', '2019-05-28', '2019-05-27'], dtype='object')
object


시리즈에서 데이터를 가져오고 싶을 땐?   
values 변수를 사용하자

In [12]:
print(s.values)

[42500 42550 41000 42550 42650]


시리즈는 생성될 때 행 번호도 같이 부여됨.   
따라서 행 번호를 사용해 리스트처럼 인덱싱 할 수도 있다.

In [13]:
data = [1000, 2000,  3000]
s = Series(data)

print(s.iloc[0])
print(s.iloc[2])

1000
3000


loc이라는 메소드는 라벨 기반의 인덱싱이다.   
행/열의 label로 접근한다.   
즉 인덱스를 사용한다

In [14]:
print(s.loc[0])

1000


iloc은 행 번호를 사용한다

In [15]:
index = ["메로나", "구구콘", "하겐다즈"]
s = Series(data, index)
print(s.iloc[0])
print(s.loc['메로나'])
#print(s.loc[0]) 에러

1000
1000


시리즈의 [ ]기호도 인덱싱으로 사용할 수 있는데   
내부적으로 loc 연산을 호출한다.

In [16]:
s1 = Series([10, 20, 30])
s2 = Series([10, 20, 30], index=[1, 2, 3])
print(s1[0])
# print(s2[0]) 인덱스가 1, 2, 3으로 맵핑되었으므로 호출이 안됨

10


슬라이싱 또한 파이썬과 비슷하게 사용 가능하다.  
다만 loc 연산은 기존과 다르게 끝값도 닫힌 구간이다.

In [17]:
data = [1000, 2000, 3000]
index = ["메로나", "구구콘", "하겐다즈"]
s = Series(data, index)
print(s.loc['메로나' : '하겐다즈'])

메로나     1000
구구콘     2000
하겐다즈    3000
dtype: int64


시리즈의 수정은 loc, iloc으로 접근하여 변경하면 된다.   
인덱스가 존재하지 않다면 새로운 값이 추가된다.

In [18]:
s.loc['메로나'] = 500
print(s)
s.loc['누가바'] = 1500
print(s)

메로나      500
구구콘     2000
하겐다즈    3000
dtype: int64
메로나      500
구구콘     2000
하겐다즈    3000
누가바     1500
dtype: int64


값의 삭제는 drop 메소드를 사용한다.   
drop의 인자로는 인덱스가 들어간다(행번호 x)   
삭제 후에 새로운 객체를 반환하기 때문에 주의가 필요

In [19]:
print(s.drop('메로나'))
# print(s.drop((0))) 에러
print(s)

구구콘     2000
하겐다즈    3000
누가바     1500
dtype: int64
메로나      500
구구콘     2000
하겐다즈    3000
누가바     1500
dtype: int64


시리즈 연산   
브로드캐스팅이 적용 되고, 같은 인덱스를 갖는 데이터 끼리 연산을 수행한다.

In [20]:
serah = Series([10,20,30], index=["Naver", "SKT", "KT"])
emmah = Series([10,30,40], index=["Naver", "SKT", "KT"])
sum = serah + emmah
print(sum)
print(sum*10)

Naver    20
SKT      50
KT       70
dtype: int64
Naver    200
SKT      500
KT       700
dtype: int64


In [21]:
high = Series([42800, 42700, 42050, 42950, 43000])
low = Series([42150, 42150, 41300, 42150, 42350])
diff = high - low
print(diff)

0    650
1    550
2    750
3    800
4    650
dtype: int64


최대, 최소는 max, min을 사용하면 된다.   
최대일 때의 인덱스를 반환하기 위해선 idxmax, idxmin을 사용하자

날짜를 인덱스로 갖는 시리즈에서 변통이 가장 큰 날짜 찾기

In [22]:
date = Series(["6/1", "6/2", "6/3", "6/4", "6/5"])
high = Series([42800, 42700, 42050, 42950, 43000], index = date)
low = Series([42150, 42150, 41300, 42150, 42350], index = date)
diff = high-low
print(diff.idxmax())

6/4


매일 저가에 사서, 고가에 팔았을 경우의 수익률을 계산해보자.   


In [23]:
profit = high/low
print(profit)

6/1    1.015421
6/2    1.013049
6/3    1.018160
6/4    1.018980
6/5    1.015348
dtype: float64


하루하루의 수익률밖에 계산되지 않는다.   
누적수익률을 구하려면 cumprod를 사용하자

In [24]:
print(profit.cumprod())
print(profit.cumprod().iloc[-1])

6/1    1.015421
6/2    1.028671
6/3    1.047351
6/4    1.067230
6/5    1.083610
dtype: float64
1.0836101509172456


중복되는 데이터를 제거한 set의 효과를 얻고 싶다면   
unique를 사용하자.

In [25]:
data = {
    "김치" : "한식",
    "피자" : "양식",
    "스시" : "일식",
    "비빔밥" : "한식",
    "치킨" : "한식"
}
s = Series(data)
print(s.unique())

['한식' '양식' '일식']


시리즈 안에 음식 종류가 몇 번 존재하는지 count   
value_counts를 사용하면 간단히 출력 가능하다.

In [26]:
s.value_counts()

한식    3
양식    1
일식    1
Name: count, dtype: int64

map또한 존재한다.   
map 메소드에서 함수를 호출하는 것이 아닌, 이름만 입력해야 한다.

In [27]:
def remove_comma(x):
    return int(x.replace(",", ""))
s = Series(["1,234", "5,678", "9876"])
result = s.map(remove_comma)
print(result)

0    1234
1    5678
2    9876
dtype: int64


시리즈 필터링

In [28]:
data = {
    "2019-05-31" : 42500,
    "2019-05-30" : 42550,
    "2019-05-29" : 41000,
    "2019-05-28" : 42550,
    "2019-05-27" : 42650
}
s = Series(data)
cond = s > 42000
print(cond)

2019-05-31     True
2019-05-30     True
2019-05-29    False
2019-05-28     True
2019-05-27     True
dtype: bool


이러한 True 또는 False를 이용해서 색인하는 것을 Boolean Indexing이라고 한다.   
종가가 42000원을 넘는 데이터만 다시 출력하는 것이다.   
단, 두 시리즈의 인덱스가 다르다면 연산이 제대로 작동되지 않는다.

In [29]:
print(s[cond])

2019-05-31    42500
2019-05-30    42550
2019-05-28    42550
2019-05-27    42650
dtype: int64


In [30]:
date = Series(["6/1", "6/2", "6/3", "6/4", "6/5"])
high = Series([42800, 42700, 42050, 42950, 43000], index = date)
low = Series([42150, 42150, 41300, 42150, 42350], index = date)
diff = high-low
print(diff[high>low])

6/1    650
6/2    550
6/3    750
6/4    800
6/5    650
dtype: int64


시리즈는 sort_values라는 자체 정렬 메소드를 가지고 있다.   
**데이터**를 기준으로 **오름차순**으로 정렬된다.   
내림차순으로 하고 싶다면 ascending=False를 추가하면 된다.

In [31]:
data = [3.1, 2.0, 10.1, 5.1]
index = ['000010', '000020', '000030', '000040']
s = Series(data, index)
print(s)

s1 = s.sort_values()
print(s1)

s2 = s.sort_values(ascending=False)
print(s2)

000010     3.1
000020     2.0
000030    10.1
000040     5.1
dtype: float64
000020     2.0
000010     3.1
000040     5.1
000030    10.1
dtype: float64
000030    10.1
000040     5.1
000010     3.1
000020     2.0
dtype: float64


시리즈 객체의 순위를 매기기 위해선 rank를 사용한다.   
기본적으로 값이 작은 데이터를 1순위로 지정하고, 중복을 표현하기 위해 float로 표현한다.   
값이 큰 데이터를 1등으로 매기려면 ascending=False를 추가하면 된다.

In [32]:
print(s1.rank())
print(s1.rank(ascending=False))

000020    1.0
000010    2.0
000040    3.0
000030    4.0
dtype: float64
000020    4.0
000010    3.0
000040    2.0
000030    1.0
dtype: float64
