# Pandas의 데이터 구조(1) : Series

- index(label)을 통해 조작/처리 가능한 1차원 배열

In [2]:
import numpy as np
import pandas as pd

### Series 생성

In [3]:
# python list 활용
stock_ser = pd.Series(['NVDA', 'MSFT', 'AAPL', 'GOOG', 'TSLA'])

# 인스턴스 속성인 name을 준거임.
stock_ser.name = '미국 주식' # name 속성

print(stock_ser)            #  데이터, row index, Name, dtype
print(stock_ser[3])         
print(type(stock_ser))      

0    NVDA
1    MSFT
2    AAPL
3    GOOG
4    TSLA
Name: 미국 주식, dtype: str
GOOG
<class 'pandas.Series'>


In [4]:
# NumPy ndarray 활용
# index 키워드 인자로, 0,1,2 이런식이던 인덱스의 형식을 바꿀 수 있음. 그러나 index의 수에 정확히 일치하게 index 인자의 값의 size를 맞춰야됨.
nums_ser = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])  # 정규분포

print(nums_ser)
# print(nums_ser[4]) # 해당 방식은 pandas의 버전 2.x.x 까지는 됐는데 20260121 기준 3.x.x로 업데이트 되면서 모호성 제거를 위해 불가능하게됨.
print(nums_ser['e'])
print(nums_ser.loc['e'])    # loc(location) : 인덱스 라벨을 통한 참조
print(nums_ser.iloc[4])     # iloc(integer location) : 기존 정수형 인덱스를 통한 참조가 이뤄짐.

a    1.872682
b   -0.655818
c    0.337534
d    0.947523
e   -1.524090
dtype: float64
-1.5240898791236208
-1.5240898791236208
-1.5240898791236208


In [5]:
info = {
    'a' : 100
    , 'b' : 200
    , 'c' : 300
}
info_ser = pd.Series(info)
print(info_ser)

info_ser.index = ['A', 'B', 'C']
print(info_ser)

a    100
b    200
c    300
dtype: int64
A    100
B    200
C    300
dtype: int64


In [6]:
# Scalar value 활용(스칼라)
# 인자를 하나만 줘도 index를 여러개 주면 그만큼 row가 늘어남.
num_ser = pd.Series(5.5, index=['ㄱ', 'ㄴ', 'ㄷ', 'ㄹ'])
print(num_ser)

ㄱ    5.5
ㄴ    5.5
ㄷ    5.5
ㄹ    5.5
dtype: float64


In [15]:
movies = ['만약에 우리', '프로젝트 Y', '신의악단', '아바타:불과 재', '천공의 성 라퓨타']
movies_ser = pd.Series(movies)
movies_ser

0       만약에 우리
1       프로젝트 Y
2         신의악단
3     아바타:불과 재
4    천공의 성 라퓨타
dtype: str

In [39]:
print(type(movies_ser.values))
print(movies_ser.array)
print()
print(movies_ser.to_numpy())
print(type(movies_ser.to_numpy()))

<class 'pandas.arrays.StringArray'>
<StringArray>
['만약에 우리', '프로젝트 Y', '신의악단', '아바타:불과 재', '천공의 성 라퓨타']
Length: 5, dtype: str

['만약에 우리' '프로젝트 Y' '신의악단' '아바타:불과 재' '천공의 성 라퓨타']
<class 'numpy.ndarray'>


In [9]:
# index를 별도 지정하지 않은 경우 기본적으로 숫자 인덱스
print(movies_ser.index)

# 라벨을 지정한 경우 라벨 인덱스
movies_ser.index = ['1st', '2nd', '3rd', '4th', '5th']
print(movies_ser.index)

RangeIndex(start=0, stop=5, step=1)
Index(['1st', '2nd', '3rd', '4th', '5th'], dtype='str')


In [10]:
print(movies_ser.dtype)
print(movies_ser.shape)
print(movies_ser.ndim)
print(movies_ser.size)

str
(5,)
1
5


In [None]:
# is_unique : 시리즈가 가진 값이 모두 고유한 값인지 여부 (True : 중복값이 없음, False : 중복값이 있음.)
movies_ser.is_unique

True

### Series 메서드

In [None]:
nums_ser = pd.Series([2026, 1, 22, 11, 23])

In [18]:
print(nums_ser.sum())       # 총합(누적 합)
print(nums_ser.mean())      # 평균
print(nums_ser.product())   # 누적 곱

0.9778305140643317
0.19556610281286635
0.5986391164992232


In [None]:
print(nums_ser.head())      # 앞에서부터 일부 데이터를 조회 (기본값  = 5)
print(nums_ser.tail())      # 뒤에서부터 일부 데이터를 조회 (기본값  = 5)

a    1.872682
b   -0.655818
c    0.337534
d    0.947523
e   -1.524090
dtype: float64
a    1.872682
b   -0.655818
c    0.337534
d    0.947523
e   -1.524090
dtype: float64


In [26]:
# Series의 메타데이터(meta data) : not-null 여부 확인, 자료형 확인... 등
nums_ser.info()

<class 'pandas.Series'>
RangeIndex: 5 entries, 0 to 4
Series name: None
Non-Null Count  Dtype
--------------  -----
5 non-null      int64
dtypes: int64(1)
memory usage: 172.0 bytes


In [None]:
# Series의 데이터를 분석/설명
nums_ser.describe()
# 25~max
# 사분위로 나눈값
# 1사분위, 2사분위 ....

count       5.000000
mean      416.600000
std       899.726792
min         1.000000
25%        11.000000
50%        22.000000
75%        23.000000
max      2026.000000
dtype: float64

In [27]:
movies_ser.describe()

count          5
unique         5
top       만약에 우리
freq           1
dtype: object

### S&P 500 데이터 활용

In [None]:
# read_csv(file_path) : file_path 파일을 읽어와 DataFrame 형태로 반환
sp_500 = pd.read_csv('./data/S_P500_Prices.csv')
print(sp_500)   # 차원이 하나 더 있음
print(type(sp_500))

            sp500
0     1295.500000
1     1289.089966
2     1293.670044
3     1308.040039
4     1314.500000
...           ...
2154  3327.770020
2155  3349.159912
2156  3351.280029
2157  3360.469971
2158  3333.689941

[2159 rows x 1 columns]
<class 'pandas.DataFrame'>


In [37]:
# df.sqeeze() : DataFrame의 Series가 하나인 경우 Series 객체 반환
sp_500_ser = sp_500.squeeze() # 차원을 하나 줄임
type(sp_500_ser)

pandas.Series

In [None]:
# sp_500_ser의 메타 데이터 확인
print(sp_500_ser.info())

<class 'pandas.Series'>
RangeIndex: 2159 entries, 0 to 2158
Series name: sp500
Non-Null Count  Dtype  
--------------  -----  
2159 non-null   float64
dtypes: float64(1)
memory usage: 17.0 KB
None


In [None]:
# sp_500_ser의 데이터 요약 확인
print(sp_500_ser.describe())

count    2159.000000
mean     2218.749554
std       537.321727
min      1278.040039
25%      1847.984985
50%      2106.629883
75%      2705.810059
max      3386.149902
Name: sp500, dtype: float64


In [62]:
# sp_500_ser의 형태, 요소개수, 차원 수 확인
print(sp_500_ser.shape)
print(sp_500_ser.count())
print(sp_500_ser.ndim)

(2159,)
2159
1


In [57]:
# sp_500_ser의 요소개수, 최소값, 중위값, 최대값, 평균값, 표준편차값, 분산값 각각 출력
print(sp_500_ser.count())
print(sp_500_ser.min())
print(sp_500_ser.median())
print(sp_500_ser.max())
print(sp_500_ser.mean())
print(sp_500_ser.std())
print(sp_500_ser.var())

2159
1278.040039
2106.629883
3386.149902
2218.7495540592868
537.3217268874763
288714.6381853397


In [None]:
# 인덱스 50의 값 가져오기
print(sp_500_ser.loc[50])
# 인덱스 100~200 값 가져오기
# print(sp_500_ser.loc[100:200])
print(sp_500_ser.iloc[100:201])
# 인덱스 1000, 2000의 값 동시에 가져오기
print(sp_500_ser.loc[[1000, 2000]])
# 데이터 값이 3000 이상인 값 가져오기
print(sp_500_ser.loc[sp_500_ser >= 3000])

1416.51001
100    1315.130005
101    1314.989990
102    1325.660034
103    1308.930054
104    1324.180054
          ...     
196    1433.819946
197    1413.109985
198    1408.750000
199    1412.969971
200    1411.939941
Name: sp500, Length: 101, dtype: float64
1000    2016.709961
2000    3223.379883
Name: sp500, dtype: float64
1885    3013.770020
1886    3014.300049
1887    3004.040039
1892    3005.469971
1893    3019.560059
           ...     
2154    3327.770020
2155    3349.159912
2156    3351.280029
2157    3360.469971
2158    3333.689941
Name: sp500, Length: 160, dtype: float64


In [None]:
print(3333.689941 in sp_500_ser)            # 라벨 중에 있는지 확인하게 됨.
print(3333.689941 in sp_500_ser.to_numpy()) # 값을 찾으려면 numpy화 해야됨. 근데 대용량 데이터에서 효율적이지 못 함. 하나하나의 요소를 다 찾아보기 때문

# 그래서 대용량 dataframe에서 값을 찾는 방법은 이렇게 사용해야되는거임
print(sp_500_ser.isin([3333.689941]).any())

False
True
True


In [95]:
bool_series = sp_500_ser.isin([3333.689941]) # boolean 시리즈를 반환함.
# 그래서 any() 메소드를 사용해야됨.
bool_series.any() # True가 하나라도 있는지 확인해줌!

np.True_

In [None]:
# numpy와 달리, index/value중에 어떤것을 sorting하고 싶은지 명확하게 알려줘야됨.
print(sp_500_ser.sort_values()) # 메서드긴 하지만 원본에 영향을 주는 메서드는 아님. 반환만 함.


97      1278.040039
98      1278.180054
99      1285.500000
1       1289.089966
2       1293.670044
           ...     
2038    3373.229980
2034    3373.939941
2033    3379.449951
2035    3380.159912
2037    3386.149902
Name: sp500, Length: 2159, dtype: float64


In [None]:
# ascending=False : 내림차순 정렬 (오름차 순 : asc인데 false면 desc되는거임.)
print(sp_500_ser.sort_values(ascending=False))

2037    3386.149902
2035    3380.159912
2033    3379.449951
2034    3373.939941
2038    3373.229980
           ...     
2       1293.670044
1       1289.089966
99      1285.500000
98      1278.180054
97      1278.040039
Name: sp500, Length: 2159, dtype: float64


In [None]:
# inplace=True : 원래 False라서 그냥 반환만 하는데 True로 하면 원본 자체의 데이터를 변환시킴.
sp_500_ser.sort_index(inplace=True)
print(sp_500_ser)

0       1295.500000
1       1289.089966
2       1293.670044
3       1308.040039
4       1314.500000
           ...     
2154    3327.770020
2155    3349.159912
2156    3351.280029
2157    3360.469971
2158    3333.689941
Name: sp500, Length: 2159, dtype: float64
