In [3]:
# pandas_study_01.py

# ref. wikidocs.net/"한권으로 끝내는 판다스 노트"

In [2]:
import pandas as pd
import numpy as np

In [3]:
pd.__version__

'2.0.3'

#### Series 

In [4]:
arr = np.arange(100, 105)
arr

array([100, 101, 102, 103, 104])

In [5]:
s = pd.Series(arr)
s

0    100
1    101
2    102
3    103
4    104
dtype: int32

In [6]:
# dtype을 지정하여 생성한 경우
s = pd.Series(arr, dtype='int32')
s

0    100
1    101
2    102
3    103
4    104
dtype: int32

#### List 

In [7]:
s = pd.Series(['부장', '차장', '대리', '사원', '인턴'])
s

0    부장
1    차장
2    대리
3    사원
4    인턴
dtype: object

In [8]:
# s = pd.Series([91, 2.5, '스포츠', 4, 5.16])
# s


In [9]:
# indexing
s.index

RangeIndex(start=0, stop=5, step=1)

In [10]:
s[0]

'부장'

In [11]:
# fancy indexing
s[[1, 3]]

1    차장
3    사원
dtype: object

In [12]:
s[np.arange(1, 4, 2)]

1    차장
3    사원
dtype: object

In [13]:
# boolean indexing
np.random.seed(0)
s = pd.Series(np.random.randint(10000, 20000, size=(10,)))
s

0    12732
1    19845
2    13264
3    14859
4    19225
5    17891
6    14373
7    15874
8    16744
9    13468
dtype: int32

In [14]:
s > 15000

0    False
1     True
2    False
3    False
4     True
5     True
6    False
7     True
8     True
9    False
dtype: bool

In [15]:
s = pd.Series(['마케팅', '경영', '개발', '기획', '인사'], index=['a', 'b', 'c', 'd', 'e'])
s

a    마케팅
b     경영
c     개발
d     기획
e     인사
dtype: object

In [16]:
s.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [17]:
# 사용자 정의의 index 부여시 변경된 index로 조회 가능
print(s['c'])
print('\n')
print(s[['a','d']])

개발


a    마케팅
d     기획
dtype: object


In [18]:
s = pd.Series(['마케팅', '경영', '개발', '기획', '인사'])
s.index

RangeIndex(start=0, stop=5, step=1)

In [19]:
s.index = list('abcde')
s

a    마케팅
b     경영
c     개발
d     기획
e     인사
dtype: object

#### 속성(attribute)

In [20]:
# values는 series 데이터 값(value)만 numpy array 형식으로 가져옴
s.values

array(['마케팅', '경영', '개발', '기획', '인사'], dtype=object)

In [21]:
s.ndim # 차원

1

In [22]:
# shape은 데이터의 모양을 알아보기 위하여 사용
# Series의 shape은 데이터의 갯수 

s. shape 

(5,)

#### NaN(Not a Number)

In [23]:
s = pd.Series(['선화', '강호', np.nan, '소정', '우영'])
s

0     선화
1     강호
2    NaN
3     소정
4     우영
dtype: object

In [24]:
# 결측치 처리 ; isnull(), isna()
s.isnull()


0    False
1    False
2     True
3    False
4    False
dtype: bool

In [25]:
s.isna()

0    False
1    False
2     True
3    False
4    False
dtype: bool

In [26]:
# dtype은 float32가 되도록 생성하세요 
pd.Series(np.arange(3,12,2), dtype='float32')

0     3.0
1     5.0
2     7.0
3     9.0
4    11.0
dtype: float32

In [27]:
pd.Series(list('가나다라마'))

0    가
1    나
2    다
3    라
4    마
dtype: object

In [28]:
sample = pd.Series(np.arange(10, 60, 10), index=list('가나다라마'))
sample

가    10
나    20
다    30
라    40
마    50
dtype: int32

In [29]:
sample[['나', '라']]

나    20
라    40
dtype: int32

In [30]:
np.random.seed(20)
sample2 = pd.Series(np.random.randint(100, 200, size = (15,)))
sample2

0     199
1     190
2     115
3     195
4     128
5     190
6     109
7     120
8     175
9     122
10    171
11    134
12    196
13    140
14    185
dtype: int32

In [31]:
sample2[sample2 <= 160]

2     115
4     128
6     109
7     120
9     122
11    134
13    140
dtype: int32

In [32]:
sample2[(sample2 >= 130) & (sample2 <=170)]

11    134
13    140
dtype: int32

In [33]:
pd.Series(['apple', np.nan, 'banana', 'kiwi', 'gubong'], index=list('가나다라마'))

가     apple
나       NaN
다    banana
라      kiwi
마    gubong
dtype: object

In [35]:
sample = pd.Series(['IT서비스', np.nan, '반도체', np.nan, '바이오', '자율주행'])
sample

0    IT서비스
1      NaN
2      반도체
3      NaN
4      바이오
5     자율주행
dtype: object

In [36]:
sample[sample.isnull()]

1    NaN
3    NaN
dtype: object

In [37]:
sample[sample.notnull()]

0    IT서비스
2      반도체
4      바이오
5     자율주행
dtype: object

In [39]:
np.random.seed(0)
sample = pd.Series(np.random.randint(100, 200, size=(10,)))
sample

0    144
1    147
2    164
3    167
4    167
5    109
6    183
7    121
8    136
9    187
dtype: int32

In [40]:
sample[2:7]

2    164
3    167
4    167
5    109
6    183
dtype: int32

In [41]:
np.random.seed(0)
sample2 = pd.Series(np.random.randint(100, 200, size=(10,)), index=list('가나다라마바사아자차'))
sample2

가    144
나    147
다    164
라    167
마    167
바    109
사    183
아    121
자    136
차    187
dtype: int32

In [43]:
sample2['바':]

바    109
사    183
아    121
자    136
차    187
dtype: int32

In [44]:
sample2[:'다']

가    144
나    147
다    164
dtype: int32

In [45]:
sample2['나':'바']

나    147
다    164
라    167
마    167
바    109
dtype: int32