# Series
- index(label)을 통해 처리 가능한 1차원 배열

In [3]:
#%pip install pandas
import pandas as pd
import numpy as np

---

## Series 생성

In [None]:
# python list 활용 -> series 생성
teachers = ['squirrel', 'rabbit', 'tiger', 'monkey', 'treefrog']
teachers_series = pd.Series(teachers)

print(teachers_series[0])
print(type(teachers_series))

# Series name endowment
teachers_series.name = "오지라퍼스"
print(teachers_series)

squirrel
<class 'pandas.core.series.Series'>
0    squirrel
1      rabbit
2       tiger
3      monkey
4    treefrog
Name: 오지라퍼스, dtype: object


In [None]:
# numpy 화용 -> series 생성
nums_ser = pd.Series(np.random.randn(5), index = ['a','b','c','d','e']) # 인덱스 임의 지정
print(nums_ser)
print(nums_ser['c'])
print(nums_ser[2]) # 계속 이렇게 인덱싱 가능 (하지만 ... 굳이?)

print(nums_ser.loc['c'], nums_ser.iloc[2])
# iloc (integer location): 인덱스 번호를 통한 참조
# loc (location): 인덱스 label을 통한 참조

a    0.380372
b   -1.120647
c    2.295235
d    0.100118
e    0.057939
dtype: float64
2.2952354358509277
2.2952354358509277
2.2952354358509277 2.2952354358509277


  print(nums_ser[2]) # 계속 이렇게 인덱싱 가능 (하지만 ... 굳이?)


In [16]:
# dict 활용 -> series 생성
info = {
    'a': 10,
    'b': 20,
    'c': 30
}

info_ser = pd.Series(info)
info_ser.name = "테스트 시리즈"
print(info_ser)

print()
info_ser.index = ['A','B','C']
print(info_ser)

a    10
b    20
c    30
Name: 테스트 시리즈, dtype: int64

A    10
B    20
C    30
Name: 테스트 시리즈, dtype: int64


In [None]:
# Scalar value 활용 -> Series 생성
num_ser = pd.Series(7.16)
num_ser = pd.Series(7.16, index=['ㄱ','ㄴ','ㄷ','ㄹ','ㅁ']) # 모든 인덱스에 7.16이 부여 

print(num_ser)

ㄱ    7.16
ㄴ    7.16
ㄷ    7.16
ㄹ    7.16
ㅁ    7.16
dtype: float64


---

## Series 속성

In [30]:
movie_ser = pd.Series(['F1 더 무비','쥬라기 월드','슈퍼맨','노이즈','괴기열차']) 

In [31]:
# value 가져오기
print(movie_ser.values)
print(type(movie_ser.values))

['F1 더 무비' '쥬라기 월드' '슈퍼맨' '노이즈' '괴기열차']
<class 'numpy.ndarray'>


In [32]:
print(movie_ser.array)
print(type(movie_ser.array))

<NumpyExtensionArray>
['F1 더 무비', '쥬라기 월드', '슈퍼맨', '노이즈', '괴기열차']
Length: 5, dtype: object
<class 'pandas.core.arrays.numpy_.NumpyExtensionArray'>


In [33]:
# 인덱스 별도 지정 안하면 기본적으로 숫자 인덱스
print(movie_ser.index)

# 인덱스를 지정한 경우에는 라벨 인덱스
movie_ser.index = ['1st','2nd','3rd','4th','5th']
print(movie_ser.index)

RangeIndex(start=0, stop=5, step=1)
Index(['1st', '2nd', '3rd', '4th', '5th'], dtype='object')


In [35]:
# series 값이 고유값인지 여부 (True: 중복 없음 / False: 중복 있음)
movie_ser.is_unique

True

In [36]:
# 추가 속성
print(movie_ser.dtype) #요소의 자료형
print(movie_ser.shape) # 시리즈의 형태
print(movie_ser.ndim) # 시리즈 차원의 깊이
print(movie_ser.size) # 시리즈 요소의 개수

object
(5,)
1
5


## Series 메소드

In [41]:
nums_ser = pd.Series([2025,7,16,11,2])
print(num_ser.sum())
print(num_ser.product())

35.8
18817.6380824576


In [None]:
# 앞에 n개 조회: 기본 5
nums_ser.head()

0    2025
1       7
2      16
3      11
4       2
dtype: int64

In [44]:
# 뒤에 n개 조회: 기본 5
nums_ser.tail()

0    2025
1       7
2      16
3      11
4       2
dtype: int64

In [46]:
nums_ser.info() # Series의 메타데이터 (not-null 여부, 자료형 등 확인)

<class 'pandas.core.series.Series'>
RangeIndex: 5 entries, 0 to 4
Series name: None
Non-Null Count  Dtype
--------------  -----
5 non-null      int64
dtypes: int64(1)
memory usage: 172.0 bytes


In [49]:
nums_ser.describe() # statistics 확인

count       5.000000
mean      412.200000
std       901.597305
min         2.000000
25%         7.000000
50%        11.000000
75%        16.000000
max      2025.000000
dtype: float64

---

# S&P500 데이터 활용

In [52]:
sp_500_df = pd.read_csv("./data/S_P500_Prices.csv")


In [None]:
type(sp_500_df)

pandas.core.frame.DataFrame

In [None]:
# df.squueze(): dataframe의 series가 하나인 경우 Series 객체 반환
sp_500_ser = sp_500_df.squeeze()
print(type(sp_500_ser))
print(sp_500_ser)

<class 'pandas.core.series.Series'>
0       1295.500000
1       1289.089966
2       1293.670044
3       1308.040039
4       1314.500000
           ...     
2154    3327.770020
2155    3349.159912
2156    3351.280029
2157    3360.469971
2158    3333.689941
Name: sp500, Length: 2159, dtype: float64


In [55]:
sp_500_ser.info()

<class 'pandas.core.series.Series'>
RangeIndex: 2159 entries, 0 to 2158
Series name: sp500
Non-Null Count  Dtype  
--------------  -----  
2159 non-null   float64
dtypes: float64(1)
memory usage: 17.0 KB


In [56]:
sp_500_ser.describe()

count    2159.000000
mean     2218.749554
std       537.321727
min      1278.040039
25%      1847.984985
50%      2106.629883
75%      2705.810059
max      3386.149902
Name: sp500, dtype: float64

In [57]:
print(sp_500_ser.count())
print(sp_500_ser.min())
print(sp_500_ser.median())
print(sp_500_ser.max())
print(sp_500_ser.mean())
print(sp_500_ser.std())
print(sp_500_ser.var())

2159
1278.040039
2106.629883
3386.149902
2218.7495540592868
537.3217268874763
288714.6381853397


In [83]:
# 인덱스 번호로 인덱싱 & 슬라이싱

# 1. 인덱스 50의 값 출력
print(sp_500_ser.iloc[50])

# 2. 인덱스 100~200 사이의 값 출력
print(sp_500_ser.iloc[100:201])

1416.51001
100    1315.130005
101    1314.989990
102    1325.660034
103    1308.930054
104    1324.180054
          ...     
196    1433.819946
197    1413.109985
198    1408.750000
199    1412.969971
200    1411.939941
Name: sp500, Length: 101, dtype: float64


In [84]:
# Famcy indexing
# 1000번 index, 2000번 index 값 동시에 출력
print(sp_500_df.iloc[[1000, 2000]])


            sp500
1000  2016.709961
2000  3223.379883


In [85]:
# Boolean indexing
# 값이 3000보다 큰 값 출력
print(sp_500_ser[sp_500_ser>3000]) 
print()
print(sp_500_ser[sp_500_ser.values>3000]) # 더 직관적으로 보이게 하기

1885    3013.770020
1886    3014.300049
1887    3004.040039
1892    3005.469971
1893    3019.560059
           ...     
2154    3327.770020
2155    3349.159912
2156    3351.280029
2157    3360.469971
2158    3333.689941
Name: sp500, Length: 160, dtype: float64

1885    3013.770020
1886    3014.300049
1887    3004.040039
1892    3005.469971
1893    3019.560059
           ...     
2154    3327.770020
2155    3349.159912
2156    3351.280029
2157    3360.469971
2158    3333.689941
Name: sp500, Length: 160, dtype: float64


In [86]:
# in 연산: 특정 (무엇)을 가지고 있는지 여부
print(1416.51001 in sp_500_ser.values) # 특정 값을 가지고 있는지 여부

# .values를 안 붙히면 기본적으로 index로 찾음
print(1416.51001 in sp_500_ser)
print(2000 in sp_500_ser)

True
False
True


In [87]:
# 정렬
print(sp_500_ser.sort_values()) # inplace연산 아님

97      1278.040039
98      1278.180054
99      1285.500000
1       1289.089966
2       1293.670044
           ...     
2038    3373.229980
2034    3373.939941
2033    3379.449951
2035    3380.159912
2037    3386.149902
Name: sp500, Length: 2159, dtype: float64


In [88]:
desc_sorted_sp = sp_500_ser.sort_values(ascending=False)
print(desc_sorted_sp)

2037    3386.149902
2035    3380.159912
2033    3379.449951
2034    3373.939941
2038    3373.229980
           ...     
2       1293.670044
1       1289.089966
99      1285.500000
98      1278.180054
97      1278.040039
Name: sp500, Length: 2159, dtype: float64
