## Pandas Series

In [1]:
import pandas as pd
pd.__version__

'2.2.3'

In [3]:
data = [10,20,30]
s = pd.Series(data)
s

0    10
1    20
2    30
dtype: int64

In [4]:
print(type(s))

<class 'pandas.core.series.Series'>


In [5]:
import numpy as np

data = np.arange(5)
s = pd.Series(data)
s

0    0
1    1
2    2
3    3
4    4
dtype: int64

In [6]:
import numpy as np

data = np.arange(5)
s = pd.DataFrame(data)
s

Unnamed: 0,0
0,0
1,1
2,2
3,3
4,4


In [8]:
data = ["시가", "고가"]
s = pd.Series(data)
s

0    시가
1    고가
dtype: object

In [9]:
data = [80000, "90000"]
s = pd.Series(data)
s

0    80000
1    90000
dtype: object

## 시리즈 인덱스

In [10]:
data = [1000, 2000, 3000]
s = pd.Series(data)
s.index

RangeIndex(start=0, stop=3, step=1)

In [13]:
print(type(s.index)) 
print(s.index, type(s.index)) 

<class 'pandas.core.indexes.range.RangeIndex'>
RangeIndex(start=0, stop=3, step=1) <class 'pandas.core.indexes.range.RangeIndex'>


In [14]:
s.index.to_list()

[0, 1, 2]

In [15]:
list(s.index)

[0, 1, 2]

In [None]:
# 클래스에는 항상 속성과 메서드가 존재한다.

In [52]:
#시리즈 생성하면서 인덱스도 같이 생성
data = [1000, 2000, 3000]
index = ["메로나", "월드콘", "와"]

s = pd.Series(data, index)
s.index

Index(['메로나', '월드콘', '와'], dtype='object')

In [31]:
s.values

array([1000, 2000, 3000])

In [32]:
type(s.values)

numpy.ndarray

# 시리즈 인덱싱

In [33]:
print(s.iloc[0])

1000


In [34]:
print(s.loc["메로나"])

1000


In [35]:
data = [1000, 2000, 3000]

s2 = pd.Series(data=data)
print(s2.iloc[0])
print(s2.loc["메로나"])   

# =>에러이유: s2는 인덱스가 없음
# loc는 값을 통해 인덱스에 접근 
# iloc는 인덱스 번호로 처리, 위치기반, 슬라이싱하는 것처럼 생각

1000


KeyError: '메로나'

In [36]:
s2.index.to_list()

[0, 1, 2]

In [40]:
print(s2.iloc[0])  #iloc에서의 0은 위치 0을 의미
print(s2.loc[0])    #loc에서의 0은 라벨 0을 의미

1000
1000


# 슬라이싱

In [42]:
s.iloc[0:2]

메로나    1000
월드콘    2000
dtype: int64

In [44]:
s.loc["메로나":"와"]

메로나    1000
월드콘    2000
와      3000
dtype: int64

In [46]:
s2.iloc[0:2]

0    1000
1    2000
dtype: int64

In [47]:
s2.loc[0:2]

0    1000
1    2000
2    3000
dtype: int64

## 시리즈 수정/추가/삭제

In [48]:
s

메로나    1000
월드콘    2000
와      3000
dtype: int64

In [50]:
s.loc["메로나"] = 500
s

메로나     500
월드콘    2000
와      3000
dtype: int64

In [51]:
s.iloc[0] = 500
s

메로나     500
월드콘    2000
와      3000
dtype: int64

In [53]:
s['메로나'] = 500
s

메로나     500
월드콘    2000
와      3000
dtype: int64

# 시리즈 연산

In [58]:
import pandas as pd

evan = pd.Series([10,20,30], index=['naver', 'apple', 'nvidia'])
a = pd.Series([10,20,30], index=['nvidia', 'apple', 'naver'])

In [55]:
evan

naver     10
apple     20
nvidia    30
dtype: int64

In [59]:
a

nvidia    10
apple     20
naver     30
dtype: int64

In [60]:
#우리 가족이 보유하고 있는 주식의 숫자를 계산
evan + a

apple     40
naver     40
nvidia    40
dtype: int64

In [61]:
evan = pd.Series([10,20,30], index=['naver', 'apple', '테슬라'])
a = pd.Series([10,20,30], index=['nvidia', 'apple', 'naver'])

evan + a

apple     40.0
naver     40.0
nvidia     NaN
테슬라        NaN
dtype: float64

In [63]:
date = ["6/1", "6/2", "6/3", "6/4", "6/5"]
high = pd.Series([42800, 42700, 42050, 42950, 43000], index=date)
low = pd.Series([42150, 42150, 41300, 42150, 42350] , index=date)

diff = high - low
print(diff)

6/1    650
6/2    550
6/3    750
6/4    800
6/5    650
dtype: int64


In [66]:
diff.idxmax(), diff[diff.idxmax()]

('6/4', np.int64(800))

In [67]:
diff.idxmin(), diff[diff.idxmin()]

('6/2', np.int64(550))

In [71]:
date = ["6/1", "6/2", "6/3", "6/4", "6/5"]
high = pd.Series([42800, 42700, 42050, 42950, 43000], index=date)  #매도
low = pd.Series([42150, 42150, 41300, 42150, 42350] , index=date)  #매수

diff = high - low
print(diff) 

diff.idxmax(), diff[diff.idxmax()] 
diff.idxmin(), diff[diff.idxmin()]

6/1    650
6/2    550
6/3    750
6/4    800
6/5    650
dtype: int64


('6/2', np.int64(550))

In [69]:
profit = high / low   #단순 수익률 계산
profit

6/1    1.015421
6/2    1.013049
6/3    1.018160
6/4    1.018980
6/5    1.015348
dtype: float64

In [72]:
profit.cumprod() #누적값

6/1    1.015421
6/2    1.028671
6/3    1.047351
6/4    1.067230
6/5    1.083610
dtype: float64

# 시리즈와 Map

In [74]:
text = '1,234'
int(text.replace(',',''))

1234

In [76]:
num_str = ['1,234', '5,678', '12,345']
results = []
for num in num_str:
    temp = int(num.replace(',',''))
    results.append(temp)

results

[1234, 5678, 12345]

In [78]:
def rm_comma(s):
    return int(num.replace(',',''))    # => 사용자 정의 함수를 만들면 map을 사용해서 반복문을 안 써도 됨 

In [80]:
s= pd.Series(['1,234', '5,678', '12,345'])
result = s.map(rm_comma)
result

0    12345
1    12345
2    12345
dtype: int64

In [81]:
def remove_dollar_sign(x):
    return float(x.replace('$', '').replace(',', ''))
s = pd.Series(['$1,234.56', '$5,678.90', '$12,345.67'])
result = s.map(remove_dollar_sign)

## 연습문제
- 기준점이 13이상
  + 크다 or 작다 

In [82]:
s = pd.Series([5,10,15,20])
s

0     5
1    10
2    15
3    20
dtype: int64

In [83]:
def is_greater_13(x): 

    return_text = None
    if x >= 13:
        return "크다"
    else:
        return "작다" 

s = pd.Series([10, 15, 7, 20, 13])
s.map(is_greater_13)

0    작다
1    크다
2    작다
3    크다
4    크다
dtype: object

In [85]:
result = s.map(lambda x: '크다' if x >= 13 else '작다')
print(result)

0    작다
1    크다
2    작다
3    크다
4    크다
dtype: object


In [86]:
result = s.apply(lambda x: '크다' if x >= 13 else '작다')
print(result)

0    작다
1    크다
2    작다
3    크다
4    크다
dtype: object


# 필터링

In [87]:
data = [42500, 42550, 41800, 42550, 42650]
index = ['2019-05-31', '2019-05-30', '2019-05-29', '2019-05-28', '2019-05-27']
s = pd.Series(data=data, index=index)
s

2019-05-31    42500
2019-05-30    42550
2019-05-29    41800
2019-05-28    42550
2019-05-27    42650
dtype: int64

In [88]:
cond = s > 42000
print(cond)

2019-05-31     True
2019-05-30     True
2019-05-29    False
2019-05-28     True
2019-05-27     True
dtype: bool


In [89]:
s[cond]

2019-05-31    42500
2019-05-30    42550
2019-05-28    42550
2019-05-27    42650
dtype: int64

In [90]:
s[s > 42000]

2019-05-31    42500
2019-05-30    42550
2019-05-28    42550
2019-05-27    42650
dtype: int64

In [None]:
## 문제 : 종가가 시가보다 높은 날을 구하세요 

In [92]:
close = [42500, 42550, 41800, 42550, 42650]
open = [42600, 42200, 41850, 42550, 42500]
index = ['2019-05-31', '2019-05-30', '2019-05-29', '2019-05-28', '2019-05-27']

open = pd.Series(data=open, index=index)
close = pd.Series(data=close, index=index)

In [96]:
s = close - open
cond = s > 0 
print(cond)

2019-05-31    False
2019-05-30     True
2019-05-29    False
2019-05-28    False
2019-05-27     True
dtype: bool


In [97]:
s[cond]

2019-05-30    350
2019-05-27    150
dtype: int64

In [99]:
close[close > open]   #이게 정답

2019-05-30    42550
2019-05-27    42650
dtype: int64

In [100]:
18000*20

360000