### Pandas - Series
- index(label)을 통해 처리 가능한 1차원 배열

In [3]:
import numpy as np
import pandas as pd



---

### Series 생성

In [7]:
# 파이썬 list 활용 
stocks = ['NVDA', 'MSFT', 'AAPL', 'GOOG', 'TSLA']
stocks_ser = pd.Series(stocks)
print(type(stocks_ser))
print(stocks_ser[0])

stocks_ser.name = '미국 주식'
print(stocks_ser)

<class 'pandas.core.series.Series'>
NVDA
0    NVDA
1    MSFT
2    AAPL
3    GOOG
4    TSLA
dtype: object


In [9]:
# ndarray 활용
nums_ser = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])
print(nums_ser)
print(nums_ser[2], nums_ser['c'])
print(nums_ser.iloc[2], nums_ser.loc['c'])  # iloc -> 정수 기반 인덱싱, loc -> 레이블 기반 인덱싱


a    1.489684
b   -0.328515
c   -0.257212
d    0.216329
e   -1.039077
dtype: float64
-0.25721191573631047 -0.25721191573631047
-0.25721191573631047 -0.25721191573631047


  print(nums_ser[2], nums_ser['c'])


In [11]:
# dictionary 활용
info = {
    'a': 10,
    'b': 20,
    'c': 30
}
info_ser = pd.Series(info)
print(info_ser)

info_ser.index = ['A', 'B', 'C']
print(info_ser)

a    10
b    20
c    30
dtype: int64
A    10
B    20
C    30
dtype: int64


In [13]:
# scalar value 활용
num_ser = pd.Series(5.5)
num_ser = pd.Series(5.5, index=['a', 'b', 'c', 'd', 'e'])
print(num_ser)

a    5.5
b    5.5
c    5.5
d    5.5
e    5.5
dtype: float64


### Series 속성

In [15]:
movies = ['하얼빈', '소방관','서브스턴스', '페라리','위키드']
movies_ser = pd.Series(movies)
movies_ser.name = '영화제목'
print(movies_ser)

0      하얼빈
1      소방관
2    서브스턴스
3      페라리
4      위키드
Name: 영화제목, dtype: object


In [16]:
# 값을 array 형태로 반환
movies_ser.values

array(['하얼빈', '소방관', '서브스턴스', '페라리', '위키드'], dtype=object)

In [17]:
# 값과 Length를 반환
movies_ser.array

<NumpyExtensionArray>
['하얼빈', '소방관', '서브스턴스', '페라리', '위키드']
Length: 5, dtype: object

In [19]:
# index를 별도 지정하지 않은 경우 기본적으로 숫자 인덱스를 반환
movies_ser.index

# 라벨을 지정한 경우 라벨 인덱스를 반환
movies_ser.index = ['1st', '2nd', '3rd', '4th', '5th']
movies_ser.index


Index(['1st', '2nd', '3rd', '4th', '5th'], dtype='object')

In [20]:
print(movies_ser.dtype)     # 요소의 자료형
print(movies_ser.shape)     # 형태
print(movies_ser.ndim)      # 자원 깊이
print(movies_ser.size)      # 요소의 개수

object
(5,)
1
5


In [21]:
movies_ser.is_unique    # Serius의 값이 중복되어 있는지 확인하는 메소드
                        # True: 중복 값이 없음 / False: 중복 값이 있음

True

---

### Serius 메서드

In [35]:
nums_ser = pd.Series([2025, 1, 13, 10, 31])

In [24]:
print(nums_ser.sum())       # 누적 합 (총합)
print(nums_ser.product())   # 누적 곱
print(nums_ser.mean())      # 평균


2080
8160750
416.0


In [26]:
print(nums_ser.head(2))     # 앞에서 일부 데이터를 조회
print(nums_ser.tail(2))     # 뒤에서 일부 데이터를 조회

0    2025
1       1
dtype: int64
3    10
4    31
dtype: int64


In [27]:
nums_ser.info()     # Series의 메타데이터 반환 (not-null 여부 확인, 자료형 확인)

<class 'pandas.core.series.Series'>
RangeIndex: 5 entries, 0 to 4
Series name: None
Non-Null Count  Dtype
--------------  -----
5 non-null      int64
dtypes: int64(1)
memory usage: 172.0 bytes


In [30]:
nums_ser.describe()     # 데이터 분석/설명

count       6.000000
mean      359.500000
std       816.375343
min         1.000000
25%        10.750000
50%        22.000000
75%        65.500000
max      2025.000000
dtype: float64

In [36]:
print(nums_ser)
print(nums_ser.iloc[1], nums_ser.loc[1])

nums_ser.index = list('abcde')      # ['a', 'b', 'c', 'd', 'e']
print(nums_ser.iloc[1], nums_ser.loc['b'])

0    2025
1       1
2      13
3      10
4      31
dtype: int64
1 1
1 1


---

##### SP500 데이터 활용

In [39]:
sp_500_df = pd.read_csv('./data/S_P500_Prices.csv')

            sp500
0     1295.500000
1     1289.089966
2     1293.670044
3     1308.040039
4     1314.500000
...           ...
2154  3327.770020
2155  3349.159912
2156  3351.280029
2157  3360.469971
2158  3333.689941

[2159 rows x 1 columns]


In [42]:
type(sp_500_df)

# df.squeeze() : DataFrame의 Series가 하나인 경우 Series 객체 반환
sp_500_ser = sp_500_df.squeeze()
print(sp_500_ser)

0       1295.500000
1       1289.089966
2       1293.670044
3       1308.040039
4       1314.500000
           ...     
2154    3327.770020
2155    3349.159912
2156    3351.280029
2157    3360.469971
2158    3333.689941
Name: sp500, Length: 2159, dtype: float64


In [43]:
sp_500_ser.info()

<class 'pandas.core.series.Series'>
RangeIndex: 2159 entries, 0 to 2158
Series name: sp500
Non-Null Count  Dtype  
--------------  -----  
2159 non-null   float64
dtypes: float64(1)
memory usage: 17.0 KB


In [44]:
sp_500_ser.describe()

count    2159.000000
mean     2218.749554
std       537.321727
min      1278.040039
25%      1847.984985
50%      2106.629883
75%      2705.810059
max      3386.149902
Name: sp500, dtype: float64

In [55]:
# 형태, 요소 개수, 깊이
print(sp_500_ser.shape)
print(sp_500_ser.size)
print(sp_500_ser.ndim)


(2159,)
2159
1


In [58]:
# 갯수, 최솟값, 중위값, 최댓값, 평균값, 표준편차값, 분산값
print(sp_500_ser.count())
print(sp_500_ser.min())
print(sp_500_ser.median())
print(sp_500_ser.max())
print(sp_500_ser.mean())
print(sp_500_ser.std())
print(sp_500_ser.var())

2159
1278.040039
2106.629883
3386.149902
2218.7495540592868
537.3217268874763
288714.6381853397


In [60]:
# 인덱스 번호로 인덱싱 및 슬라이싱 : 인덱스 50의 값 가져오기, 인덱스 100~200 값 가져오기
print(sp_500_ser[50])
print(sp_500_ser.iloc[50])
print(sp_500_ser[100:201])
print(sp_500_ser.iloc[100:201])


1416.51001
1416.51001
100    1315.130005
101    1314.989990
102    1325.660034
103    1308.930054
104    1324.180054
          ...     
196    1433.819946
197    1413.109985
198    1408.750000
199    1412.969971
200    1411.939941
Name: sp500, Length: 101, dtype: float64
100    1315.130005
101    1314.989990
102    1325.660034
103    1308.930054
104    1324.180054
          ...     
196    1433.819946
197    1413.109985
198    1408.750000
199    1412.969971
200    1411.939941
Name: sp500, Length: 101, dtype: float64


In [61]:
# fancy indexing 써보기
# fancy 인덱싱이란? 정수 배열이나 레이블 배열을 사용하여 
# 데이터를 선택하는 방법
print(sp_500_ser[[1000, 2000]])


1000    2016.709961
2000    3223.379883
Name: sp500, dtype: float64


In [64]:
# boolean indexing 써보기
print(sp_500_ser.iloc[sp_500_ser.values > 1400])


43      1402.599976
44      1404.170044
45      1409.750000
46      1405.520020
47      1402.890015
           ...     
2154    3327.770020
2155    3349.159912
2156    3351.280029
2157    3360.469971
2158    3333.689941
Name: sp500, Length: 2018, dtype: float64


In [68]:
print(3013.770020 in sp_500_ser.values)     # 특정 값을 가지고 있는지 여부
print(2000 in sp_500_ser)                   # .values 붙이지 않으면 기본 값은 index로 전달
print(2000 in sp_500_ser.index)


True
True
True


In [71]:
# 정렬
sp_500_ser = sp_500_ser.sort_values()
sp_500_ser

97      1278.040039
98      1278.180054
99      1285.500000
1       1289.089966
2       1293.670044
           ...     
2038    3373.229980
2034    3373.939941
2033    3379.449951
2035    3380.159912
2037    3386.149902
Name: sp500, Length: 2159, dtype: float64

In [72]:
sp_500_ser.sort_values(ascending=False)

2037    3386.149902
2035    3380.159912
2033    3379.449951
2034    3373.939941
2038    3373.229980
           ...     
2       1293.670044
1       1289.089966
99      1285.500000
98      1278.180054
97      1278.040039
Name: sp500, Length: 2159, dtype: float64