# pandas - Series
- index(label)을 통해 처리 가능한 1차원 배열

In [2]:
import numpy as np
import pandas as pd

---

### Series 생성

In [15]:
# 파이썬 list 활용
stocks = ['NVDA','MSFT','AAPL','GOOG','TSLA']
stocks_ser = pd.Series(stocks)
print(type(stocks_ser))
print(stocks_ser[0])

stocks_ser.name = '미국 주식'
print(stocks_ser)

<class 'pandas.core.series.Series'>
NVDA
0    NVDA
1    MSFT
2    AAPL
3    GOOG
4    TSLA
Name: 미국 주식, dtype: object


In [None]:
# ndarray 활용
nums_ser = pd.Series(np.random.randn(5), index=['a','b','c','d','e'])
print(nums_ser)
print(nums_ser[2], nums_ser['c'])
print(nums_ser.iloc[2], nums_ser.loc['c'])
# iloc(integer location): 인덱스를 통한 참조
# loc(location): 인덱스 라벨을 통한 참조

a   -0.498411
b    0.655366
c   -1.116212
d   -1.062298
e    0.224482
dtype: float64
-1.1162119667697923 -1.1162119667697923
-1.1162119667697923 -1.1162119667697923


  print(nums_ser[2], nums_ser['c'])


In [None]:
# dictionary 활용
info = {
    'a': 10,
    'b': 20,
    'c': 30
}
info_ser = pd.Series(info)
print(info_ser)

info_ser.index = ['A','B','C'] # index 라벨 변경
print(info_ser)

a    10
b    20
c    30
dtype: int64
A    10
B    20
C    30
dtype: int64


In [18]:
# scalar value 활용
num_ser = pd.Series(5.5)
num_ser = pd.Series(5.5, index=['a','b','c','d','e'])
print(num_ser)

a    5.5
b    5.5
c    5.5
d    5.5
e    5.5
dtype: float64


---
### Series 속성

In [27]:
movies = ['infinity war','인셉션','미키17','백수아파트','catch me if you can', '인셉션']
movies_ser = pd.Series(movies)
movies_ser

0           infinity war
1                    인셉션
2                   미키17
3                  백수아파트
4    catch me if you can
5                    인셉션
dtype: object

In [21]:
movies_ser.values

array(['infinity war', '인셉션', '미키17', '백수아파트', 'catch me if you can'],
      dtype=object)

In [22]:
movies_ser.array

<NumpyExtensionArray>
['infinity war', '인셉션', '미키17', '백수아파트', 'catch me if you can']
Length: 5, dtype: object

In [23]:
movies_ser.index

RangeIndex(start=0, stop=5, step=1)

In [None]:
# index를 별도 지정하지 않은 경우 기본적으로 숫자 인덱스스
movies_ser.index = ['1st','2nd','3rd','4th','5th']
movies_ser.index # 라벨을 지정한 경우 라벨 인덱스

Index(['1st', '2nd', '3rd', '4th', '5th'], dtype='object')

In [None]:
print(movies_ser.dtype) # 요소의 자료형
print(movies_ser.shape) # 형태
print(movies_ser.ndim) # 차원 깊이
print(movies_ser.size) # 요소의 개수수

object
(5,)
1
5


In [None]:
# 시리지의 값이 모두 고유한 값인지 여부 (True: 중복 값이 없음 / False: 중복 값이 있음)
movies_ser.is_unique

False

---
### Series 메서드

In [29]:
nums_ser = pd.Series([2025,3,4,12,41])

In [30]:
print(nums_ser.sum())
print(nums_ser.product())
print(nums_ser.mean())

2085
11955600
417.0


In [31]:
print(nums_ser.head(2))
print(nums_ser.tail(2))

0    2025
1       3
dtype: int64
3    12
4    41
dtype: int64


In [None]:
nums_ser.info() # Series의 메타데이터

<class 'pandas.core.series.Series'>
RangeIndex: 5 entries, 0 to 4
Series name: None
Non-Null Count  Dtype
--------------  -----
5 non-null      int64
dtypes: int64(1)
memory usage: 172.0 bytes


In [None]:
nums_ser.describe() # 데이터 분석/설명

count       5.000000
mean      417.000000
std       899.031423
min         3.000000
25%         4.000000
50%        12.000000
75%        41.000000
max      2025.000000
dtype: float64

In [38]:
print(nums_ser)
# print(nums_ser.iloc[1], nums_ser.loc[1]) # integer location, location

nums_ser.index = list('abcde')
print(nums_ser.iloc[1], nums_ser.loc['b'])

a    2025
b       3
c       4
d      12
e      41
dtype: int64
3 3


--- 
### SP500 데이터 활용

In [None]:
sp_500_df = pd.read_csv('../data/S_P500_Prices.csv') # read_csv를 통해 CSV를 읽어와서 pandas를 사용해 data frame으로 변경
print(sp_500_df) # 2차원
type(sp_500_df)

            sp500
0     1295.500000
1     1289.089966
2     1293.670044
3     1308.040039
4     1314.500000
...           ...
2154  3327.770020
2155  3349.159912
2156  3351.280029
2157  3360.469971
2158  3333.689941

[2159 rows x 1 columns]


pandas.core.frame.DataFrame

In [None]:
# df.squeeze(): DataFrame의 Series가 하나인 경우 Series 객체 반환
# series가 여러 개면 squeeze를 할 수 없음
sp_500_ser = sp_500_df.squeeze()
type(sp_500_ser)

pandas.core.series.Series

In [51]:
print('====== info ======')
sp_500_ser.info()
print('====== describe ======')
sp_500_ser.describe()

<class 'pandas.core.series.Series'>
RangeIndex: 2159 entries, 0 to 2158
Series name: sp500
Non-Null Count  Dtype  
--------------  -----  
2159 non-null   float64
dtypes: float64(1)
memory usage: 17.0 KB


count    2159.000000
mean     2218.749554
std       537.321727
min      1278.040039
25%      1847.984985
50%      2106.629883
75%      2705.810059
max      3386.149902
Name: sp500, dtype: float64

In [57]:
# 형태, 요소 개수, 깊이
print(sp_500_ser.shape)
print(sp_500_ser.size)
print(sp_500_ser.ndim)

(2159,)
2159
1


In [78]:
# 갯수, 최소값, 중위값, 최대값, 평균값, 표준편차값, 분산값
print(sp_500_ser.count()) # 갯수
print(sp_500_ser.min()) # 최소
print(sp_500_ser.median()) # 중위
print(sp_500_ser.max()) # 최대
print(sp_500_ser.mean()) # 평균
print(sp_500_ser.std()) # 표준편차
print(sp_500_ser.var()) # 분산

2159
1278.040039
2106.629883
3386.149902
2218.7495540592868
537.3217268874763
288714.6381853397


In [79]:
# 인덱스 번호로 인덱스 및 슬라이싱: 인덱스 50의 값 가져오기, 인덱스 100~200 값 가져오기
print(sp_500_ser[50])
print(sp_500_ser.iloc[50])
print(sp_500_ser[100:201])

1416.51001
1416.51001
100    1315.130005
101    1314.989990
102    1325.660034
103    1308.930054
104    1324.180054
          ...     
196    1433.819946
197    1413.109985
198    1408.750000
199    1412.969971
200    1411.939941
Name: sp500, Length: 101, dtype: float64


In [80]:
# fancy indexing 써보기
print(sp_500_ser[[1000,2000]])

1000    2016.709961
2000    3223.379883
Name: sp500, dtype: float64


In [81]:
# boolean indexing 써보기 -> 조건식을 사용해야 함
sp_500_ser.iloc[sp_500_ser.values > 3000]

1885    3013.770020
1886    3014.300049
1887    3004.040039
1892    3005.469971
1893    3019.560059
           ...     
2154    3327.770020
2155    3349.159912
2156    3351.280029
2157    3360.469971
2158    3333.689941
Name: sp500, Length: 160, dtype: float64

In [85]:
print(3013.770020 in sp_500_ser.values)

print(2000 in sp_500_ser)
print(2000 in sp_500_ser.index)

True
True
True


In [86]:
# 정렬
sp_500_ser.sort_values()


97      1278.040039
98      1278.180054
99      1285.500000
1       1289.089966
2       1293.670044
           ...     
2038    3373.229980
2034    3373.939941
2033    3379.449951
2035    3380.159912
2037    3386.149902
Name: sp500, Length: 2159, dtype: float64

In [None]:
sp_500_ser.sort_values(ascending=False) # 내림차순

2037    3386.149902
2035    3380.159912
2033    3379.449951
2034    3373.939941
2038    3373.229980
           ...     
2       1293.670044
1       1289.089966
99      1285.500000
98      1278.180054
97      1278.040039
Name: sp500, Length: 2159, dtype: float64