# Series
- index(label)을 통해 처리 가능한 1차원 배열

In [33]:
# !pip install pandas
import numpy as np
import pandas as pd

---

# Series 생성

In [34]:
# python list 활용 -> Series 생성
teachers = ['squirrel', 'rabbit', 'tiger', 'monkey', 'treefrog']
teachers_ser = pd.Series(teachers)

print(type(teachers_ser))
print(teachers_ser[0])


teachers_ser.name = '오지라퍼스'
print(teachers_ser)

<class 'pandas.core.series.Series'>
squirrel
0    squirrel
1      rabbit
2       tiger
3      monkey
4    treefrog
Name: 오지라퍼스, dtype: object


In [35]:
# Numpy ndarray 활용 -> Series 생성
nums_ser = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])

print(nums_ser)
print(nums_ser[2])
print(nums_ser['c'])
print(nums_ser.iloc[2], nums_ser.loc['c'])
# iloc(integer location): 인덱스(번호)를 통한 참조
# loc(location): 인덱스 라벨을 통한 참조

a   -1.586054
b    0.174273
c   -0.918410
d   -0.779584
e   -1.040599
dtype: float64
-0.9184104807153426
-0.9184104807153426
-0.9184104807153426 -0.9184104807153426


  print(nums_ser[2])


In [36]:
# dictionary 활용 -> Series 생성
info = {
    'a': 10,
    'b': 20,
    'c': 30
}

info_ser = pd.Series(info)
print(info_ser)

info_ser.index = ['A', 'B', 'C']
print(info_ser)

a    10
b    20
c    30
dtype: int64
A    10
B    20
C    30
dtype: int64


In [37]:
# scalar value 활용 -> Series 생성
nums_ser = pd.Series(7.16)
nums_ser = pd.Series(7.16, index=['ㄱ', 'ㄴ', 'ㄷ', 'ㄹ', 'ㅁ'])

print(nums_ser)

ㄱ    7.16
ㄴ    7.16
ㄷ    7.16
ㄹ    7.16
ㅁ    7.16
dtype: float64


---

# Series 속성

In [38]:
movies_ser = pd.Series(['F1 더 무비', '쥬라기 월드', '슈퍼맨', '노이즈', '괴기열차'])

print(movies_ser)

0    F1 더 무비
1     쥬라기 월드
2        슈퍼맨
3        노이즈
4       괴기열차
dtype: object


In [39]:
print(movies_ser.values)
print(type(movies_ser.values))

['F1 더 무비' '쥬라기 월드' '슈퍼맨' '노이즈' '괴기열차']
<class 'numpy.ndarray'>


In [40]:
print(movies_ser.array)
print(type(movies_ser.array))

<NumpyExtensionArray>
['F1 더 무비', '쥬라기 월드', '슈퍼맨', '노이즈', '괴기열차']
Length: 5, dtype: object
<class 'pandas.core.arrays.numpy_.NumpyExtensionArray'>


In [41]:
print(movies_ser.index)     # index를 별도 지정하지 않은 경우 기본적으로 숫자 인덱스

movies_ser.index = ['1st', '2nd', '3rd', '4th', '5th']
print(movies_ser.index)     # index를 지정한 경우 라벨 인덱스

RangeIndex(start=0, stop=5, step=1)
Index(['1st', '2nd', '3rd', '4th', '5th'], dtype='object')


In [42]:
# Series의 모든 값이 모두 고유한 값인지 여부 (True: 중복 값이 없음 / False: 중복 값이 있음)
movies_ser.is_unique

True

In [43]:
print(movies_ser.dtype)      # 요소의 자료형
print(movies_ser.shape)      # 시리즈의 형태
print(movies_ser.ndim)      # 시리즈 차원의 깊이
print(movies_ser.size)      # 시리즈 요소의 개수

object
(5,)
1
5


---

### Series 메서드

In [44]:
nums_ser = pd.Series([2025, 7, 16, 11, 2])

In [48]:
# 통계량
print(nums_ser.sum())       # 총합 (= 누적 합)
print(nums_ser.mean())      # 평균
print(nums_ser.product())   # 누적 곱

2061
412.2
4989600


In [52]:
nums_ser.head(2)    # 앞에서부터 일부 데이터를 조회

0    2025
1       7
dtype: int64

In [53]:
nums_ser.tail(2)    # 뒤에서부터 일부 데이터를 조회

3    11
4     2
dtype: int64

In [55]:
nums_ser.info()     # Series의 메타데이터 (not-null 여부, 자료형 등 확인)

<class 'pandas.core.series.Series'>
RangeIndex: 5 entries, 0 to 4
Series name: None
Non-Null Count  Dtype
--------------  -----
5 non-null      int64
dtypes: int64(1)
memory usage: 172.0 bytes


In [56]:
nums_ser.describe()     # 데이터 분석 / 설명

count       5.000000
mean      412.200000
std       901.597305
min         2.000000
25%         7.000000
50%        11.000000
75%        16.000000
max      2025.000000
dtype: float64

---

# S%P500 데이터 활용

In [59]:
sp_500_df = pd.read_csv('/Users/woojin/Desktop/SK Networks Family AI Camp_17/SKN-17-Family-AI-Camp/DATA_ANALYSIS/02_pandas/data/S_P500_Prices.csv')
sp_500_df

Unnamed: 0,sp500
0,1295.500000
1,1289.089966
2,1293.670044
3,1308.040039
4,1314.500000
...,...
2154,3327.770020
2155,3349.159912
2156,3351.280029
2157,3360.469971


In [60]:
type(sp_500_df)

pandas.core.frame.DataFrame

In [63]:
# df.squeeze(): DataFrame의 Series가 하나인 경우 Series 객체 반환
sp_500_ser = sp_500_df.squeeze()

print(type(sp_500_ser))
print(sp_500_ser)

<class 'pandas.core.series.Series'>
0       1295.500000
1       1289.089966
2       1293.670044
3       1308.040039
4       1314.500000
           ...     
2154    3327.770020
2155    3349.159912
2156    3351.280029
2157    3360.469971
2158    3333.689941
Name: sp500, Length: 2159, dtype: float64


In [64]:
sp_500_ser.info()

<class 'pandas.core.series.Series'>
RangeIndex: 2159 entries, 0 to 2158
Series name: sp500
Non-Null Count  Dtype  
--------------  -----  
2159 non-null   float64
dtypes: float64(1)
memory usage: 17.0 KB


In [65]:
sp_500_ser.describe()

count    2159.000000
mean     2218.749554
std       537.321727
min      1278.040039
25%      1847.984985
50%      2106.629883
75%      2705.810059
max      3386.149902
Name: sp500, dtype: float64

In [67]:
print(sp_500_ser.count())
print(sp_500_ser.min())
print(sp_500_ser.median())
print(sp_500_ser.max())
print(sp_500_ser.mean())
print(sp_500_ser.std())
print(sp_500_ser.var())

2159
1278.040039
2106.629883
3386.149902
2218.7495540592868
537.3217268874763
288714.6381853397


In [72]:
# 인덱스 번호로 인덱싱 & 슬라이싱

# 인덱스 50의 값 출력
print(sp_500_ser[50])

# 인덱스 100~200 사이의 값 출력
print(sp_500_ser[100:201])

1416.51001
100    1315.130005
101    1314.989990
102    1325.660034
103    1308.930054
104    1324.180054
          ...     
195    1433.189941
196    1433.819946
197    1413.109985
198    1408.750000
199    1412.969971
Name: sp500, Length: 100, dtype: float64


In [73]:
# fancy indexing

# 1000번 index, 2000번 index의 값 동시에 출력
idx = [1000, 2000]
print(sp_500_ser[idx])

1000    2016.709961
2000    3223.379883
Name: sp500, dtype: float64


In [75]:
# boolean indexing

# 값이 3000보다 큰 값 출력
print(sp_500_ser[sp_500_ser.values > 3000])

1885    3013.770020
1886    3014.300049
1887    3004.040039
1892    3005.469971
1893    3019.560059
           ...     
2154    3327.770020
2155    3349.159912
2156    3351.280029
2157    3360.469971
2158    3333.689941
Name: sp500, Length: 160, dtype: float64


In [79]:
# in 연산: 특정 (무엇)을 가지고 있는지 여부
print(1416.51001 in sp_500_ser.values)  # 특정 값을 가지고 있는지 여부

# .values를 붙이지 않으면 기본적으로 index로 찾음
print(1416.51001 in sp_500_ser)
print(2000 in sp_500_ser)

True
False
True


In [85]:
# 정렬
sp_500_ser = sp_500_ser.sort_values()
print(sp_500_ser)

97      1278.040039
98      1278.180054
99      1285.500000
1       1289.089966
2       1293.670044
           ...     
2038    3373.229980
2034    3373.939941
2033    3379.449951
2035    3380.159912
2037    3386.149902
Name: sp500, Length: 2159, dtype: float64


In [86]:
# 정렬
sp_500_ser = sp_500_ser.sort_values(ascending=False)
print(sp_500_ser)

2037    3386.149902
2035    3380.159912
2033    3379.449951
2034    3373.939941
2038    3373.229980
           ...     
2       1293.670044
1       1289.089966
99      1285.500000
98      1278.180054
97      1278.040039
Name: sp500, Length: 2159, dtype: float64
