# pandas

pandas는 2차원 데이터를 분석/조작하는데 최적화된 자료형을 제공한다.

- Series : index(label)을 통해 처리가능한 1차원 배열
- DataFrame : 2차원 행렬(표). Series 묶어낸 자료형

In [1]:
# 설치
# !conda install pandas

^C


In [2]:
import numpy as np
import pandas as pd

pd.__version__

'2.2.3'

## Series

### Series 생성

In [12]:
# list로 생성하기
stocks = ['NVDA', 'MSFT', 'AAPL', 'GOOG', 'TSLA']
stocks_ser = pd.Series(stocks)
stocks_ser
print(type(stocks_ser))
print(stocks_ser[0], stocks_ser[1])
# series 이름 지정
stocks_ser.name = '미국주식'
stocks_ser

<class 'pandas.core.series.Series'>
NVDA MSFT


0    NVDA
1    MSFT
2    AAPL
3    GOOG
4    TSLA
Name: 미국주식, dtype: object

In [18]:
nums = pd.Series(np.random.randn(5))
nums

0   -0.350658
1    0.188942
2    0.149807
3   -0.467096
4   -1.212346
dtype: float64

In [22]:
# ndarray로 생성하기
nums = pd.Series(np.random.randn(5))
nums = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])
nums
print(nums[2])
print(nums['c'])
print(nums[2], nums.iloc[2]) # integer location 인덱스를 통한 참조
print(nums['c'], nums.loc['c']) # location 인덱스 라벨을 통한 참조


-0.5548965966159434
-0.5548965966159434
-0.5548965966159434 -0.5548965966159434
-0.5548965966159434 -0.5548965966159434


  print(nums[2])
  print(nums[2], nums.iloc[2]) # integer location 인덱스를 통한 참조


In [25]:
# dict로 생성하기
info = {'a':10, 'b':20, 'c':30}
info_ser = pd.Series(info)
info_ser
print(info_ser.index)
info_ser.index = ['A','B','C']
info_ser

Index(['a', 'b', 'c'], dtype='object')


A    10
B    20
C    30
dtype: int64

In [27]:
# scalar value로 생성하기
num_ser = pd.Series(5.5, index=['a','b','c','d','e'])
num_ser
print(num_ser.dtype) # series 하나의 타입만 사용가능

float64


### Series 속성

In [30]:
# 내가 좋아하는 영화로 Series객체 생성
movies = ['사운드 오브 뮤직', '파묘', '오펜하이머', '탑건']
movies_ser = pd.Series(movies)
print(type(movies_ser))
movies_ser

<class 'pandas.core.series.Series'>


0    사운드 오브 뮤직
1           파묘
2        오펜하이머
3           탑건
dtype: object

In [46]:
# ser.values

# movies_ser.values
movies_ser.to_numpy()

array(['사운드 오브 뮤직', '파묘', '오펜하이머', '탑건'], dtype=object)

In [47]:
movies_ser.array

<NumpyExtensionArray>
['사운드 오브 뮤직', '파묘', '오펜하이머', '탑건']
Length: 4, dtype: object

In [49]:
# index 기본적으로 숫자 인덱스, 라벨을 지정한 경우 라벨인덱스 반환
movies_ser.index
movies_ser.index = ['1st', '2nd', '3rd', '4th']
movies_ser.index

Index(['1st', '2nd', '3rd', '4th'], dtype='object')

In [50]:
# dtype 요소의 자료형
# dtype('O') object타입
movies_ser.dtype

dtype('O')

In [52]:
# shape 시리즈 형태. 1차원 배열
movies_ser.shape

(4,)

In [53]:
# size 요소의 개수
movies_ser.size

4

In [54]:
# ndim 차원 깊이
movies_ser.ndim

1

In [55]:
# is_unique 모두 고유한 값인지 여부
# - True 중복값이 없다.
# - False 중복값이 있다.
movies_ser.is_unique

True

### Series 메소드

In [56]:
nums = pd.Series([10, 20, 30, 40, 50])
nums

0    10
1    20
2    30
3    40
4    50
dtype: int64

In [57]:
# sum() 누적합
nums.sum()

np.int64(150)

In [58]:
# product() 누적곱
nums.product()

np.int64(12000000)

In [59]:
# mean() 평균
nums.mean()

np.float64(30.0)

In [61]:
# head() 앞에서 n건 조회(기본값:5)
nums.head(2)

0    10
1    20
dtype: int64

In [63]:
# tail() 뒤에서 n건 조회(기본값:5)
nums.tail(2)

3    40
4    50
dtype: int64

In [64]:
# info() 메타정보 (not-null확인, 자료형)
nums.info()

<class 'pandas.core.series.Series'>
RangeIndex: 5 entries, 0 to 4
Series name: None
Non-Null Count  Dtype
--------------  -----
5 non-null      int64
dtypes: int64(1)
memory usage: 172.0 bytes


In [65]:
# describe() 데이터 분석/설명
nums.describe()

count     5.000000
mean     30.000000
std      15.811388
min      10.000000
25%      20.000000
50%      30.000000
75%      40.000000
max      50.000000
dtype: float64

In [74]:
# loc[인덱스라벨]
# iloc[인덱스]
# nums.iloc[1]

nums.index = list('abcde') # ['a', 'b', 'c', 'd', 'e']
nums.iloc[1], nums.loc['b']


(np.int64(20), np.int64(20))

In [76]:
# csv파일을 불러서 DataFrame 객체로 반환
sp_500_df = pd.read_csv('./data/S_P500_Prices.csv')
sp_500_df


Unnamed: 0,sp500
0,1295.500000
1,1289.089966
2,1293.670044
3,1308.040039
4,1314.500000
...,...
2154,3327.770020
2155,3349.159912
2156,3351.280029
2157,3360.469971


In [78]:
# df.squeeze()
# DataFrame의 Series가 하나인 경우, Series객체를 반환
type(sp_500_df) # DataFrame
sp_500 = sp_500_df.squeeze()
type(sp_500) # Series

pandas.core.series.Series

In [79]:
sp_500.info()

<class 'pandas.core.series.Series'>
RangeIndex: 2159 entries, 0 to 2158
Series name: sp500
Non-Null Count  Dtype  
--------------  -----  
2159 non-null   float64
dtypes: float64(1)
memory usage: 17.0 KB


In [80]:
sp_500.describe()

count    2159.000000
mean     2218.749554
std       537.321727
min      1278.040039
25%      1847.984985
50%      2106.629883
75%      2705.810059
max      3386.149902
Name: sp500, dtype: float64

In [83]:
sp_500.shape, sp_500.size, sp_500.ndim

((2159,), 2159, 1)

In [84]:
sp_500.count(), sp_500.min(), sp_500.median(), sp_500.max(), sp_500.mean(), sp_500.std(), sp_500.var()

(np.int64(2159),
 np.float64(1278.040039),
 np.float64(2106.629883),
 np.float64(3386.149902),
 np.float64(2218.7495540592868),
 np.float64(537.3217268874763),
 np.float64(288714.6381853397))

In [88]:
# indexing/slicing
sp_500.iloc[50]
type(sp_500.iloc[50])

numpy.float64

In [90]:
sp_500.iloc[100:200]
print(type(sp_500.iloc[100:200]))
print(sp_500.iloc[100:200])

<class 'pandas.core.series.Series'>
100    1315.130005
101    1314.989990
102    1325.660034
103    1308.930054
104    1324.180054
          ...     
195    1433.189941
196    1433.819946
197    1413.109985
198    1408.750000
199    1412.969971
Name: sp500, Length: 100, dtype: float64


In [91]:
# fancy indexing
sp_500[[100, 200]]

100    1315.130005
200    1411.939941
Name: sp500, dtype: float64

In [97]:
# boolean indexing
sp_500.iloc[sp_500.values > 3000]
print(sp_500.iloc[sp_500.values > 3000])

1885    3013.770020
1886    3014.300049
1887    3004.040039
1892    3005.469971
1893    3019.560059
           ...     
2154    3327.770020
2155    3349.159912
2156    3351.280029
2157    3360.469971
2158    3333.689941
Name: sp500, Length: 160, dtype: float64


In [98]:
# 값중에 특정요소 포함여부 in
3327.770020 in sp_500.values

True

In [101]:
2000 in sp_500.index
2000 in sp_500 # series 검색기준은 index가 기본값이다.

True

In [105]:
# 정렬하기 sort_values()
sp_500.sort_values()
# sp_500.sort_values(inplace=True) # inplace 연산
# sp_500 = sp_500.sort_values() # inplace 연산

97      1278.040039
98      1278.180054
99      1285.500000
1       1289.089966
2       1293.670044
           ...     
2038    3373.229980
2034    3373.939941
2033    3379.449951
2035    3380.159912
2037    3386.149902
Name: sp500, Length: 2159, dtype: float64

In [106]:
sp_500

0       1295.500000
1       1289.089966
2       1293.670044
3       1308.040039
4       1314.500000
           ...     
2154    3327.770020
2155    3349.159912
2156    3351.280029
2157    3360.469971
2158    3333.689941
Name: sp500, Length: 2159, dtype: float64

In [107]:
sp_500.sort_values(ascending=False)

2037    3386.149902
2035    3380.159912
2033    3379.449951
2034    3373.939941
2038    3373.229980
           ...     
2       1293.670044
1       1289.089966
99      1285.500000
98      1278.180054
97      1278.040039
Name: sp500, Length: 2159, dtype: float64