### pandas - Series
- index(label)을 통해 처리 가능한 1차원 배열

In [1]:
import numpy as np
import pandas as pd

---

##### Series 생성

In [4]:
# 파이썬 list 활용
stocks = ['NVDA', 'MSFT', 'AAPL', 'GOOG', 'TSLA']
stocks_ser = pd.Series(stocks)
print(type(stocks_ser))
print(stocks_ser[0])

stocks_ser.name = '미국 주식'
print(stocks_ser)

<class 'pandas.core.series.Series'>
NVDA
0    NVDA
1    MSFT
2    AAPL
3    GOOG
4    TSLA
Name: 미국 주식, dtype: object


In [None]:
# ndarray 활용
nums_ser = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])
print(nums_ser)
print(nums_ser[2], nums_ser['c'])
print(nums_ser.iloc[2], nums_ser.loc['c'])
# iloc(integer location) : 인덱스를 통한 참조
# loc(location) : 인덱스 라벨을 통한 참조

a    0.970861
b   -1.177964
c    1.129804
d    2.016134
e    1.028642
dtype: float64
1.1298039081107976 1.1298039081107976
1.1298039081107976 1.1298039081107976


  print(nums_ser[2], nums_ser['c'])


In [9]:
# dictionary 활용
info = {
    'a': 10,
    'b': 20,
    'c': 30
}
info_ser = pd.Series(info)
print(info_ser)

info_ser.index = ['A', 'B', 'C']
print(info_ser)

a    10
b    20
c    30
dtype: int64
A    10
B    20
C    30
dtype: int64


In [11]:
# scalar value 활용
num_ser = pd.Series(5.5)
num_ser = pd.Series(5.5, index=['a', 'b', 'c', 'd', 'e'])
print(num_ser)

a    5.5
b    5.5
c    5.5
d    5.5
e    5.5
dtype: float64


---

##### Series 속성

In [28]:
movies = ['미키17', '퇴마록', '캡틴아메리카', '괜찮아괜찮아괜찮아', '퇴마록']
movies_ser = pd.Series(movies)
movies_ser

0         미키17
1          퇴마록
2       캡틴아메리카
3    괜찮아괜찮아괜찮아
4          퇴마록
dtype: object

In [17]:
print(movies_ser.values)
movies_ser.values

['미키17' '퇴마록' '캡틴아메리카' '괜찮아괜찮아괜찮아' '백수아파트']


array(['미키17', '퇴마록', '캡틴아메리카', '괜찮아괜찮아괜찮아', '백수아파트'], dtype=object)

In [15]:
movies_ser.array

<NumpyExtensionArray>
['미키17', '퇴마록', '캡틴아메리카', '괜찮아괜찮아괜찮아', '백수아파트']
Length: 5, dtype: object

In [None]:
# index를 별도 지정하지 않은 경우 기본적으로 숫자 인덱스
movies_ser.index = ['1st', '2nd', '3rd', '4th', '5th']
movies_ser.index    # 라벨을 지정한 경우 라벨 인덱스

Index(['1st', '2nd', '3rd', '4th', '5th'], dtype='object')

In [22]:
print(movies_ser.dtype)     # 요소의 자료형
print(movies_ser.shape)     # 형태
print(movies_ser.ndim)      # 차원 깊이
print(movies_ser.size)      # 요소의 개수

object
(5,)
1
5


In [None]:
# 시리즈의 값이 모두 고유한 값인지 여부 (True: 중복 값이 없음 / False: 중복 값이 있음)
movies_ser.is_unique

False

---

##### Series 메서드

In [48]:
nums_ser = pd.Series([2025, 3, 4, 12, 41])

In [None]:
print(nums_ser.sum())       # 누적 합 (총합)
print(nums_ser.product())   # 누적 곱
print(nums_ser.mean())      # 평균

2085
11955600
417.0


In [None]:
print(nums_ser)
print(nums_ser.head(2))     # 앞에서 일부 데이터를 조회 (기본값: 5)
print(nums_ser.tail(2))     # 뒤에서 일부 데이터를 조회 (기본값: 5)

0    2025
1       3
2       4
3      12
4      41
dtype: int64
0    2025
1       3
dtype: int64
3    12
4    41
dtype: int64


In [None]:
nums_ser.info()     # Series의 메타데이터터

<class 'pandas.core.series.Series'>
RangeIndex: 5 entries, 0 to 4
Series name: None
Non-Null Count  Dtype
--------------  -----
5 non-null      int64
dtypes: int64(1)
memory usage: 172.0 bytes


In [None]:
nums_ser.describe()     # 데이터 분석/설명

count       5.000000
mean      417.000000
std       899.031423
min         3.000000
25%         4.000000
50%        12.000000
75%        41.000000
max      2025.000000
dtype: float64

In [50]:
print(nums_ser)
# print(nums_ser.iloc[1], nums_ser.loc[1])

nums_ser.index = list('abcde')  # ['a', 'b', 'c', 'd', 'e']
print(nums_ser.iloc[1], nums_ser.loc['b'])

a    2025
b       3
c       4
d      12
e      41
dtype: int64
3 3


---

##### SP500 데이터 활용

In [55]:
sp_500_df = pd.read_csv('./data/S_P500_Prices.csv')
sp_500_df

Unnamed: 0,sp500
0,1295.500000
1,1289.089966
2,1293.670044
3,1308.040039
4,1314.500000
...,...
2154,3327.770020
2155,3349.159912
2156,3351.280029
2157,3360.469971


In [None]:
type(sp_500_df)

# df.squeeze() : DataFrame의 Series가 하나인 경우 Series 객체 반환
sp_500_ser = sp_500_df.squeeze()
type(sp_500_ser)

pandas.core.series.Series

In [58]:
sp_500_ser.info()

<class 'pandas.core.series.Series'>
RangeIndex: 2159 entries, 0 to 2158
Series name: sp500
Non-Null Count  Dtype  
--------------  -----  
2159 non-null   float64
dtypes: float64(1)
memory usage: 17.0 KB


In [59]:
sp_500_ser.describe()

count    2159.000000
mean     2218.749554
std       537.321727
min      1278.040039
25%      1847.984985
50%      2106.629883
75%      2705.810059
max      3386.149902
Name: sp500, dtype: float64

In [60]:
# 형태, 요소의 개수, 깊이
sp_500_ser.shape, sp_500_ser.size, sp_500_ser.ndim

((2159,), 2159, 1)

In [62]:
# 갯수, 최소값, 중위값, 최대값, 평균값, 표준편차값, 분산값
sp_500_ser.count(), sp_500_ser.min(), sp_500_ser.median(), sp_500_ser.max(), sp_500_ser.mean(),sp_500_ser.std(),sp_500_ser.var()

(np.int64(2159),
 np.float64(1278.040039),
 np.float64(2106.629883),
 np.float64(3386.149902),
 np.float64(2218.7495540592868),
 np.float64(537.3217268874763),
 np.float64(288714.6381853397))

In [67]:
# 인덱스 번호로 인덱스 및 슬라이싱 : 인덱스 50의 값 가져오기, 인덱스 100~200 값 가져오기
print(sp_500_ser[50])
print(sp_500_ser.iloc[50])

print(sp_500_ser[100:201])
print(sp_500_ser.iloc[100:201])
print(type(sp_500_ser.iloc[100:201]))

1416.51001
1416.51001
100    1315.130005
101    1314.989990
102    1325.660034
103    1308.930054
104    1324.180054
          ...     
196    1433.819946
197    1413.109985
198    1408.750000
199    1412.969971
200    1411.939941
Name: sp500, Length: 101, dtype: float64
100    1315.130005
101    1314.989990
102    1325.660034
103    1308.930054
104    1324.180054
          ...     
196    1433.819946
197    1413.109985
198    1408.750000
199    1412.969971
200    1411.939941
Name: sp500, Length: 101, dtype: float64
<class 'pandas.core.series.Series'>


In [68]:
# fancy indexing 써보기
sp_500_ser[[1000, 2000]]

1000    2016.709961
2000    3223.379883
Name: sp500, dtype: float64

In [69]:
# boolean indexing 써보기
sp_500_ser.iloc[sp_500_ser.values > 3000]

1885    3013.770020
1886    3014.300049
1887    3004.040039
1892    3005.469971
1893    3019.560059
           ...     
2154    3327.770020
2155    3349.159912
2156    3351.280029
2157    3360.469971
2158    3333.689941
Name: sp500, Length: 160, dtype: float64

In [None]:
print(3013.770020 in sp_500_ser.values)     # 특정 값을 가지고 있는 여부

print(2000 in sp_500_ser)       # .values 붙이지 않으면 기본 값은 index로 찾음
print(2000 in sp_500_ser.index)

True
True
True
