## Series

- DataFrame의 한 컬럼 데이터 세트

- Series 역시 DataFrame의 인덱스와 동일한 인덱스를 가진다

- 즉 Series는 컬럼이 하나인 데이타 구조체이고, DataFrame은 컬럼이 여러개인 데이타 구조체이다


In [5]:
# from pandas import Series
# age_in = Series([22,33,44,25,28])

import pandas as pd
age_in = pd.Series([22,33,44,25,28])
age_in

0    22
1    33
2    44
3    25
4    28
dtype: int64

In [11]:
# 인덱스 확인
age_in.index

RangeIndex(start=0, stop=5, step=1)

In [13]:
# 데이터값 확인
age_in.values

array([22, 33, 44, 25, 28], dtype=int64)

In [8]:
# 키값 확인
age_in.keys

<bound method Series.keys of 0    22
1    33
2    44
3    25
4    28
dtype: int64>

In [9]:
# 키값 확인2 (키 = 인덱스)
age_in.keys()

RangeIndex(start=0, stop=5, step=1)

In [19]:
# 도움말 보기 (shift + Tqp)
age_in?

### 인덱스 지정하며 시리즈 생성

In [20]:
age_in = pd.Series([22, 33, 44, 25, 28], index=['가', '나', '다', '라', '마'])
age_in

가    22
나    33
다    44
라    25
마    28
dtype: int64

In [26]:
# 인덱스 확인
print(age_in.index)

# 데이터값 확인
print(age_in.values)

# 키값 확인
print(age_in.keys())

# "다" 요소의 값을 100 지정
age_in["다"] = 100
print(age_in)

Index(['가', '나', '다', '라', '마'], dtype='object')
[ 22  33 100  25  28]
Index(['가', '나', '다', '라', '마'], dtype='object')
가     22
나     33
다    100
라     25
마     28
dtype: int64


In [31]:
# Series 인덱스 중복 확인
srs = pd.Series(['가', '나', '다'], index=['a', 'b', 'a'])
srs

# 인덱스값으로 찾기 (중복도 허용)
srs['a']

# 인덱스로 찾기
srs[0]
srs[1]

# 마지막요소 찾기 가능
srs[-1]

'다'

### 딕셔러리를 시리즈 형태로 변환

In [37]:
# 딕셔러리를 시리즈 형태로 변환
info_list = {'kim': 25, 'park':22, 'lee':34}

info_srs = pd.Series(info_list)
info_srs

# 인덱스 확인
print(info_srs.index)

# 데이터값 확인
print(info_srs.values)

# 키값 확인
print(info_srs.keys())

# "lee" 요소의 값을 100 지정
info_srs['lee']=100
print(info_srs)


Index(['kim', 'park', 'lee'], dtype='object')
[25 22 34]
Index(['kim', 'park', 'lee'], dtype='object')
kim      25
park     22
lee     100
dtype: int64


In [40]:
info_list = {'kim': 25, 'park':22, 'lee':34}

# index를 지정해주면 values값이 NaN이 됨
info_srs = pd.Series(info_list, index=[1, 2, 3])
info_srs

1   NaN
2   NaN
3   NaN
dtype: float64

In [41]:
## 가,나,다 요소에 A, B, C 인덱스를 가진 시리즈 생성
srs = pd.Series(['가', '나', '다'], index=['A', 'B', 'C'])
srs

A    가
B    나
C    다
dtype: object

##  Series 인덱스

+ 리스트, 튜플의 index와  dict 의 key 와 유사

+ 같은 값의 index 가 가능 ( 즉, 중복 가능 )


-------------------------------------------------
- 리스트 튜플 index : 일련번호로 변경불가 / 순서 개념이 있다

- Series Index : 중복 가능 / 순서 개념이 있다

- Dict key : 중복 불가 / 순서 개념 없다



## 판다스를 사용하는 이유


만일 파이썬의 리스트와 판다스의 Series가 거의 유사하다면, 우리는 왜 파이썬의 리스트가 아닌 판다스의 Series를 사용할까? 

파이썬의 리스트를 사용하면 판다스에서 제공하는 다양한 기능을 사용할 수 없기 때문이다.

In [43]:
odd = [1, 3, 5, 7, 9]    # 파이썬 기본 자료형 리스트
# odd.mean() # Error

In [44]:
odd = pd.Series(odd)
odd.mean()

5.0