# 2.Series

In [1]:
import pandas as pd
import numpy as np

## 2-1. Series 생성하기
* Numpy에서 제공하는 1차원 배열과 유사, **엑셀에서 한 컬럼**
* Series = 1차원 배열의 값(data) + 행 인덱스(row index)

In [2]:
# 1.value값만 주기
# index를 지정하지 않으면 0으로 시작하는 index가 부여된다.
s = pd.Series([1,2,3,4])
s

0    1
1    2
2    3
3    4
dtype: int64

In [3]:
type(s)

pandas.core.series.Series

In [4]:
s.index

RangeIndex(start=0, stop=4, step=1)

In [5]:
#index 속성
s.index

RangeIndex(start=0, stop=4, step=1)

In [6]:
s.values

array([1, 2, 3, 4])

In [7]:
type(s.values)

numpy.ndarray

In [8]:
s2 = pd.Series([1,2,3,4],dtype = float)
s2

0    1.0
1    2.0
2    3.0
3    4.0
dtype: float64

In [9]:
s = pd.Series(np.array([1,2,3,4]))
s

0    1
1    2
2    3
3    4
dtype: int64

In [10]:
# 1~10까지 Series 만들기
#그냥 range만 해도 된다!!
pd.Series(range(1,11))

0     1
1     2
2     3
3     4
4     5
5     6
6     7
7     8
8     9
9    10
dtype: int64

In [11]:
#np.arange를 써도 된다!
pd.Series(np.arange(1,11))

0     1
1     2
2     3
3     4
4     5
5     6
6     7
7     8
8     9
9    10
dtype: int64

In [12]:
# 2.value값과 index 둘다 주기
index = [1,2,3,4]
s = pd.Series([10,20,30,40],index = index)
s

1    10
2    20
3    30
4    40
dtype: int64

In [13]:
#숫자뿐만 아니라 문자열도 줄 수 있다.
index = ['치킨','탕수육','곱창','선지국']
s = pd.Series([16000,18000,25000,10000],index =index)
s

치킨     16000
탕수육    18000
곱창     25000
선지국    10000
dtype: int64

In [14]:
s.index

Index(['치킨', '탕수육', '곱창', '선지국'], dtype='object')

In [15]:
s.values

array([16000, 18000, 25000, 10000])

In [16]:
# 3.딕셔너리 형태로 만들기
s = pd.Series({'치킨':16000,'탕수육':18000,'곱창':25000,'선지국':10000})
s

치킨     16000
탕수육    18000
곱창     25000
선지국    10000
dtype: int64

In [17]:
s.index

Index(['치킨', '탕수육', '곱창', '선지국'], dtype='object')

In [18]:
s.name = '메뉴'
s

치킨     16000
탕수육    18000
곱창     25000
선지국    10000
Name: 메뉴, dtype: int64

In [19]:
s.index.name = "메뉴명"
s

메뉴명
치킨     16000
탕수육    18000
곱창     25000
선지국    10000
Name: 메뉴, dtype: int64

In [20]:
# s.values.name = "가격"
# s

## 2-2. Series 인덱싱과 슬라이싱

In [21]:
#인덱스 라벨을 이용한 인덱싱 방법
s['치킨'], s.치킨

(16000, 16000)

In [22]:
#0인덱스를 통한 인덱싱 방법
s[0]

16000

In [23]:
s.선지국, s['선지국'], s[-1]

(10000, 10000, 10000)

In [24]:
#index가 숫자인 경우
t = pd.Series([10,20,30,40],index = [1,2,3,4])
t


1    10
2    20
3    30
4    40
dtype: int64

In [25]:
t[1] #index label의 우선순위가 더 높다.

10

In [27]:
t[0] #index label이 0인게 없기 때문에 에러가 난다.

KeyError: 0

In [28]:
s

메뉴명
치킨     16000
탕수육    18000
곱창     25000
선지국    10000
Name: 메뉴, dtype: int64

In [29]:
#Fancy 인덱싱
s[['치킨', '곱창']]

메뉴명
치킨    16000
곱창    25000
Name: 메뉴, dtype: int64

In [30]:
s[[0,2]]

메뉴명
치킨    16000
곱창    25000
Name: 메뉴, dtype: int64

In [31]:
#boolean 인덱싱
s <= 17000

메뉴명
치킨      True
탕수육    False
곱창     False
선지국     True
Name: 메뉴, dtype: bool

In [32]:
s[s <= 17000]

메뉴명
치킨     16000
선지국    10000
Name: 메뉴, dtype: int64

In [33]:
#18000~ 20000원 사이의 메뉴
s[(s>=18000) & (s<=20000)]

메뉴명
탕수육    18000
Name: 메뉴, dtype: int64

In [34]:
s[(s>=18000) | (s<=20000)]

메뉴명
치킨     16000
탕수육    18000
곱창     25000
선지국    10000
Name: 메뉴, dtype: int64

In [35]:
# 슬라이싱 (start:end:step)

In [36]:
s[1:3], s['탕수육':'곱창'] #인덱싱 라벨을 이용한 인덱싱은 끝-1이 아니다.

(메뉴명
 탕수육    18000
 곱창     25000
 Name: 메뉴, dtype: int64,
 메뉴명
 탕수육    18000
 곱창     25000
 Name: 메뉴, dtype: int64)

## 2-3. Series 데이터 CRUD

In [37]:
# 앞에서 부터 데이터 조회하기
s.head()

메뉴명
치킨     16000
탕수육    18000
곱창     25000
선지국    10000
Name: 메뉴, dtype: int64

In [38]:
s.head(2)

메뉴명
치킨     16000
탕수육    18000
Name: 메뉴, dtype: int64

In [39]:
#뒤에서 부터 데이터 가져오기
s.tail()

메뉴명
치킨     16000
탕수육    18000
곱창     25000
선지국    10000
Name: 메뉴, dtype: int64

In [40]:
#데이터 추가
s['계란찜'] = 3000

In [41]:
s

메뉴명
치킨     16000
탕수육    18000
곱창     25000
선지국    10000
계란찜     3000
Name: 메뉴, dtype: int64

In [42]:
#값이 정해지지 않음 
s['감자탕'] = np.NaN #Not a Number
s

메뉴명
치킨     16000.0
탕수육    18000.0
곱창     25000.0
선지국    10000.0
계란찜     3000.0
감자탕        NaN
Name: 메뉴, dtype: float64

In [43]:
#비어있는 데이터 찾기
s.isnull()

메뉴명
치킨     False
탕수육    False
곱창     False
선지국    False
계란찜    False
감자탕     True
Name: 메뉴, dtype: bool

In [44]:
#비어있는 데이터 boolean 인덱싱을 이용해서 불러오기
s[s.isna()]

메뉴명
감자탕   NaN
Name: 메뉴, dtype: float64

In [45]:
#비어있지 않은 데이터 불러오기
s.notnull()

메뉴명
치킨      True
탕수육     True
곱창      True
선지국     True
계란찜     True
감자탕    False
Name: 메뉴, dtype: bool

In [46]:
s.notna()

메뉴명
치킨      True
탕수육     True
곱창      True
선지국     True
계란찜     True
감자탕    False
Name: 메뉴, dtype: bool

In [47]:
s[s.notna()]

메뉴명
치킨     16000.0
탕수육    18000.0
곱창     25000.0
선지국    10000.0
계란찜     3000.0
Name: 메뉴, dtype: float64

#### 4/8

In [67]:
#값 변경하기
s['치킨']+=2000

In [69]:
s['감자탕'] = np.NaN

In [70]:
#데이터 삭제하기
# s.pop('감자탕')
del s['감자탕']

In [85]:
s

메뉴명
치킨     20000.0
탕수육    18000.0
곱창     25000.0
선지국    10000.0
계란찜     3000.0
Name: 메뉴, dtype: float64

## 2.4 Series 연산

In [89]:
#Series 간의 연산
#Numpy에서는 shape이 같아야 하는데, Pandas에서는 index가 같아야함
data = [18000,18000,2000,1000,3000]
index = ['치킨2', '탕수육','곱창','선지국','계란찜']
s2 = pd.Series(data,index = index)
s2

치킨2    18000
탕수육    18000
곱창      2000
선지국     1000
계란찜     3000
dtype: int64

In [90]:
s3 = s2.copy()
s3
#이렇게 해도 복사됨

치킨2    18000
탕수육    18000
곱창      2000
선지국     1000
계란찜     3000
dtype: int64

In [91]:
s+s2

계란찜     6000.0
곱창     27000.0
선지국    11000.0
치킨         NaN
치킨2        NaN
탕수육    36000.0
dtype: float64

In [92]:
#index값이 다르면 연산도 안될뿐더러, Nan이 되어버린다.

In [102]:
s2 = s.copy()
s-s2

메뉴명
치킨     0.0
탕수육    0.0
곱창     0.0
선지국    0.0
계란찜    0.0
Name: 메뉴, dtype: float64

In [105]:
#Series & 스칼라 연산 =>broadcasting
s

메뉴명
치킨     25000.0
탕수육    23000.0
곱창     30000.0
선지국    15000.0
계란찜     8000.0
Name: 메뉴, dtype: float64

In [106]:
s+=2000
s

메뉴명
치킨     27000.0
탕수육    25000.0
곱창     32000.0
선지국    17000.0
계란찜    10000.0
Name: 메뉴, dtype: float64

In [107]:
#Aggregation
s.max()

32000.0

In [108]:
s.min()

10000.0

In [109]:
s.sum()

111000.0

In [110]:
s.mean()

22200.0

In [112]:
s.median() #중앙값

25000.0