## Pandas 자료형 Series

- Series 생성

In [1]:
import pandas as pd
import numpy as np

In [2]:
# 넘파이 활용: 1,3,4,7,9 만들기
arr = np.array([1,3,5,7,9])
arr

array([1, 3, 5, 7, 9])

In [3]:
arr = np.arange(1,11,2) # 1~10까지 간격 2
arr

array([1, 3, 5, 7, 9])

In [4]:
# 시리즈 생성
series = pd.Series(arr)
series

0    1
1    3
2    5
3    7
4    9
dtype: int32

In [5]:
series = pd.Series(arr, dtype='int64')
series

0    1
1    3
2    5
3    7
4    9
dtype: int64

In [6]:
series = pd.Series(arr, dtype='float')
series

0    1.0
1    3.0
2    5.0
3    7.0
4    9.0
dtype: float64

In [7]:
# 리스트 사용
fruits = ['사과', '바나나', '망고', '포도']
series = pd.Series(fruits)
series

0     사과
1    바나나
2     망고
3     포도
dtype: object

In [8]:
# 리스트: 다양한 데이터 타입 - dtype: object
many_type_lst = [10, 0.5, 'hello', 'hey', 51.7]
series = pd.Series(many_type_lst)
series

0       10
1      0.5
2    hello
3      hey
4     51.7
dtype: object

- 인덱싱

In [9]:
series[0]

10

In [10]:
type(series[0])

int

In [11]:
type(series[1])

float

In [12]:
type(series[3])

str

In [13]:
# 참고: 넘파이에서 데이터타입
np.array([1,2,3,'hello']) # 넘파이는 문자열이 들어가면 전체를 문자열로 자료형을 변경함 (좋지 않음)

array(['1', '2', '3', 'hello'], dtype='<U11')

In [14]:
series[[1,2]]

1      0.5
2    hello
dtype: object

In [15]:
series[np.array([1,2])]

1      0.5
2    hello
dtype: object

In [16]:
series[:3]

0       10
1      0.5
2    hello
dtype: object

In [17]:
# boolen 조건
num_series = np.arange(0, 5)

In [18]:
num_series > 2

array([False, False, False,  True,  True])

In [19]:
series[num_series < 2]

0     10
1    0.5
dtype: object

In [20]:
# OR 조건
series[(num_series > 2) | (num_series < 2)]

0      10
1     0.5
3     hey
4    51.7
dtype: object

In [21]:
# Not 조건
series[~(num_series == 2)]

0      10
1     0.5
3     hey
4    51.7
dtype: object

In [22]:
series[(num_series != 2)]

0      10
1     0.5
3     hey
4    51.7
dtype: object

In [23]:
pd.Series(many_type_lst) # index 파라미터 없을경우

0       10
1      0.5
2    hello
3      hey
4     51.7
dtype: object

In [24]:
# 인덱스 파라미터 있을경우
many_type_lst = [10, 0.5, 'hello', 'hey', 51.7]
series = pd.Series(many_type_lst, index=list('abcde'))
series

a       10
b      0.5
c    hello
d      hey
e     51.7
dtype: object

In [25]:
series.index = list('가나다라마')
series

가       10
나      0.5
다    hello
라      hey
마     51.7
dtype: object

In [26]:
series['나']

0.5

In [27]:
series[1] # 숫자 인덱스도 동시에 사용가능

0.5

In [28]:
series.index = np.arange(1, 6)
series

1       10
2      0.5
3    hello
4      hey
5     51.7
dtype: object

In [29]:
series[1] # 숫자로 자체 인덱스 사용 시 자체 인덱스가 우선

10

In [32]:
series[1:3] # 0,1,2,3 인덱스 기준 슬라이싱이라서 숫자 자체 인덱스는 사용하지 않는 것이 좋음

2      0.5
3    hello
dtype: object

In [33]:
series.index = list('가나다라마')
series['나':'다']

나      0.5
다    hello
dtype: object

In [34]:
series[1:3]

나      0.5
다    hello
dtype: object

In [35]:
series.index = list('가나다라마'[::-1])
series

마       10
라      0.5
다    hello
나      hey
가     51.7
dtype: object

In [37]:
series['나':'라']

Series([], dtype: object)

In [38]:
series['라':'나']

라      0.5
다    hello
나      hey
dtype: object

In [39]:
# 인덱스를 변경하는 다른 방법
many_type_dic = {
    '가':10,
    '나':3.14,
    '다':'hello',
    '라':7.5,
    '마':'World'
}

series = pd.Series(many_type_dic)
series

가       10
나     3.14
다    hello
라      7.5
마    World
dtype: object

In [42]:
series1 = np.arange(10,51,10)
series1 = pd.Series(series1)
series1

0    10
1    20
2    30
3    40
4    50
dtype: int32

In [44]:
series2 = np.arange(10,51,10)
idx = [4,3,2,1,0]
series2 = pd.Series(series2, index=idx) # index = np.arange(4, -1, -1)
series2

4    10
3    20
2    30
1    40
0    50
dtype: int32

In [45]:
# 같은 인덱스 위치끼리 합
series1 + series2

0    60
1    60
2    60
3    60
4    60
dtype: int32

In [54]:
# 인덱스가 숫자가 아니더라도, 같은 index끼리 계산
arr = np.arange(10,51,10)
series1 = pd.Series(arr, index=list('가나다라마'))
series2 = pd.Series(arr, index=list('가나다라마')[::-1])

In [55]:
series1 + series2

가    60
나    60
다    60
라    60
마    60
dtype: int32

In [56]:
arr = np.arange(60,101,10)
series3 = pd.Series(arr, index=list('가나다라마'))
series4 = pd.Series(arr, index=list('마바사아자'))

In [68]:
series3 + series4

가      NaN
나      NaN
다      NaN
라      NaN
마    160.0
바      NaN
사      NaN
아      NaN
자      NaN
dtype: float64

In [58]:
series1 + 100

가    110
나    120
다    130
라    140
마    150
dtype: int32

In [59]:
series1 * 1.2

가    12.0
나    24.0
다    36.0
라    48.0
마    60.0
dtype: float64

- 속성

In [61]:
series.index # 속성은 괄호가 없다. index() 안됌 오류남

Index(['가', '나', '다', '라', '마'], dtype='object')

In [63]:
series.values # 넘파이 어레이가 반환됌

array([10, 3.14, 'hello', 7.5, 'World'], dtype=object)

In [64]:
series.ndim # 1 차원 배열

1

In [65]:
series.shape

(5,)

- 함수

In [71]:
series = series3 + series4

In [72]:
# null 이면 true
series.isnull()

가     True
나     True
다     True
라     True
마    False
바     True
사     True
아     True
자     True
dtype: bool

In [73]:
series.isna()

가     True
나     True
다     True
라     True
마    False
바     True
사     True
아     True
자     True
dtype: bool

In [74]:
series[series.isnull()]

가   NaN
나   NaN
다   NaN
라   NaN
바   NaN
사   NaN
아   NaN
자   NaN
dtype: float64

In [75]:
series.notnull()

가    False
나    False
다    False
라    False
마     True
바    False
사    False
아    False
자    False
dtype: bool

In [76]:
series.notna()

가    False
나    False
다    False
라    False
마     True
바    False
사    False
아    False
자    False
dtype: bool

In [77]:
series[series.notnull()]

마    160.0
dtype: float64

In [78]:
series.notnull().sum() # 널 값이 아닌 것의 개수

1

In [83]:
# 타입변경
series = pd.Series([10, 3.14, 7.5])
series

0    10.00
1     3.14
2     7.50
dtype: float64

In [84]:
series.astype('int')

0    10
1     3
2     7
dtype: int32

In [85]:
series = pd.Series([10, 3.14, 7.5], dtype = 'object')
series

0      10
1    3.14
2     7.5
dtype: object

In [86]:
series = pd.Series([10, 3.14, 7.5], dtype = 'str')
series

0      10
1    3.14
2     7.5
dtype: object

In [87]:
series[0] # 문자열로 변경됨

'10'

- series 값 변경

In [94]:
series = pd.Series([10, 3.14, 7.5])
series

0    10.00
1     3.14
2     7.50
dtype: float64

In [95]:
# 수정
series[0] = 100

In [96]:
series

0    100.00
1      3.14
2      7.50
dtype: float64

In [97]:
# 추가
series[3] = 20
series

0    100.00
1      3.14
2      7.50
3     20.00
dtype: float64

In [100]:
# 삭제
series.drop(1, inplace=True) # 인덱스 번호를 넣으면 삭제 inplace 값을 줘야 데이터에 저장이 됌. 없으면 확인만가능
series

0    100.0
2      7.5
3     20.0
dtype: float64

In [101]:
# 시리즈 합치기
pd.concat([series, series])

0    100.0
2      7.5
3     20.0
0    100.0
2      7.5
3     20.0
dtype: float64

In [102]:
series_all = pd.concat([series, series], ignore_index=True) # 인덱스 재정렬
series_all

0    100.0
1      7.5
2     20.0
3    100.0
4      7.5
5     20.0
dtype: float64

In [103]:
series_all[:2] = 200
series_all

0    200.0
1    200.0
2     20.0
3    100.0
4      7.5
5     20.0
dtype: float64

- 문제1: 시리즈 생성

In [104]:
dic = {
    '김철수' : 85,
    '이영희' : 92,
    '박민수' : 78,
    '정수민' : 95,
    '홍길동' : 88
}
series = pd.Series(dic)

In [105]:
series

김철수    85
이영희    92
박민수    78
정수민    95
홍길동    88
dtype: int64

In [106]:
pd.Series(dic.values(), index=dic.keys())

김철수    85
이영희    92
박민수    78
정수민    95
홍길동    88
dtype: int64

In [108]:
series = pd.Series(dic.values())
series.index = dic.keys()
series

김철수    85
이영희    92
박민수    78
정수민    95
홍길동    88
dtype: int64

- 문제2: 슬라이싱

In [109]:
series[:3]

김철수    85
이영희    92
박민수    78
dtype: int64

In [111]:
series[1:4:2]

이영희    92
정수민    95
dtype: int64

In [118]:
series[[1,3]]

이영희    92
정수민    95
dtype: int64

In [114]:
series[:'박민수']

김철수    85
이영희    92
박민수    78
dtype: int64

In [113]:
series['이영희':'정수민':2]

이영희    92
정수민    95
dtype: int64

- 문제3: boolean 조건 필터링

In [124]:
series = pd.Series(np.arange(10,101, 10))
series

0     10
1     20
2     30
3     40
4     50
5     60
6     70
7     80
8     90
9    100
dtype: int32

In [136]:
series >= 80

0    False
1    False
2    False
3    False
4    False
5    False
6    False
7     True
8     True
9     True
dtype: bool

In [135]:
series[series >= 80] 

7     80
8     90
9    100
dtype: int32

In [133]:
series[(series >= 50) & (series < 80)] 

4    50
5    60
6    70
dtype: int32

- 문제 4: null 값 추가

In [151]:
series[5] = np.nan
series

0     10.0
1     20.0
2     30.0
3     40.0
4     50.0
5      NaN
6     70.0
7     80.0
8     90.0
9    100.0
dtype: float64

In [152]:
series[series.isnull()]

5   NaN
dtype: float64

In [154]:
series[series.notnull()].reset_index

<bound method Series.reset_index of 0     10.0
1     20.0
2     30.0
3     40.0
4     50.0
6     70.0
7     80.0
8     90.0
9    100.0
dtype: float64>

In [160]:
tmp_series = series[series.notnull()]
tmp_series.index = np.arange(0,9)
tmp_series

0     10.0
1     20.0
2     30.0
3     40.0
4     50.0
5     70.0
6     80.0
7     90.0
8    100.0
dtype: float64