## Series

- DataFrame의 한 컬럼 데이터 세트

- Series 역시 DataFrame의 인덱스와 동일한 인덱스를 가진다

- 즉 Series는 컬럼이 하나인 데이타 구조체이고, DataFrame은 컬럼이 여러개인 데이타 구조체이다


> DataFrame을 RDBMS의 테이블과 유사하다면, Series는 테이블의 한 컬럼과 유사다하고 볼 수 있다


In [2]:
# from pandas import Series
# age_in = Series([22,33,44,25,28])

import pandas as pd
age_in = pd.Series([22,33,44,25,28])
print(age_in)

0    22
1    33
2    44
3    25
4    28
dtype: int64


In [3]:
age_in.index
# age_in.index() -> 에러발생

RangeIndex(start=0, stop=5, step=1)

In [4]:
age_in.values
# age_in.values() -> 에러발생

array([22, 33, 44, 25, 28], dtype=int64)

In [5]:
age_in.keys()
# age_in.keys() --> 에러가 발생하지 않고, age_in.index 와 같은 결과가 나옴

RangeIndex(start=0, stop=5, step=1)

인덱스 지정하며 시리즈 생성

In [11]:
age_in = pd.Series([22,33,44,25,28], index=['가', '나', '다', '라', '마'])
print(age_in)

가    22
나    33
다    44
라    25
바    28
dtype: int64


In [12]:
age_in.index

Index(['가', '나', '다', '라', '바'], dtype='object')

In [13]:
age_in.values

array([22, 33, 44, 25, 28], dtype=int64)

In [14]:
age_in.keys

<bound method Series.keys of 가    22
나    33
다    44
라    25
바    28
dtype: int64>

In [15]:
# '다' 인덱스의 값을 변경하기
age_in['다'] = 100
print(age_in)

가     22
나     33
다    100
라     25
바     28
dtype: int64


In [17]:
# Series 인덱스 중복 확인

srs = pd.Series(['가', '나', '다'], index=['a', 'b', 'a'])
print(srs) # Series의 인덱스는 일반적으로 생각하는 key-value와 개념이 다름(key가 아님 -> 중복 가능)

print(srs['a']) # 해당하는 인덱스의 모든 값이 나옴
print(srs[0]) # 맨 앞의 값 '가'만 뽑고 싶을 경우 -> 숫자 인덱스 사용


a    가
b    나
a    다
dtype: object


a    가
a    다
dtype: object

딕셔러리를 시리즈 형태로 변환

In [19]:
# 딕셔러리를 시리즈 형태로 변환
info_list = { 'kim': 25, 'park':22, 'lee':34 }

info_series = pd.Series(info_list)
print(info_series)

kim     25
park    22
lee     34
dtype: int64


In [21]:
# lee의 점수를 90으로 지정

info_series['lee']=90
print(info_series)

kim     25
park    22
lee     90
dtype: int64


In [23]:
# 인덱스를 지정하면 -> NaN로
# 이미 인덱스 역할을 할 요소가 있는데 index를 지정해서 그런가
info_list = { 'kim': 25, 'park':22, 'lee':34 }

info_series = pd.Series(info_list, index=[0,1,2]) # 딕셔너리를 시리즈로 변경할 경우 index를 지정하면 안됨 (이미 index가 존재해서?..)
print(info_series)

0   NaN
1   NaN
2   NaN
dtype: float64


In [5]:
## 가,나,다 요소에 A, B, C 인덱스를 가진 시리즈 생성


##  Series 인덱스

+ 리스트, 튜플의 index와  dict 의 key 와 유사

+ 같은 값의 index 가 가능 ( 즉, 중복 가능 )


-------------------------------------------------
## 정리

- 리스트 튜플 index : 일련번호로 변경불가 / 순서 개념이 있다

- Series Index : 중복 가능 / 순서 개념이 있다

- Dict key : 중복 불가 / 순서 개념 없다



## 판다스를 사용하는 이유


만일 파이썬의 리스트와 판다스의 Series가 거의 유사하다면, 우리는 왜 파이썬의 리스트가 아닌 판다스의 Series를 사용할까? 

파이썬의 리스트를 사용하면 판다스에서 제공하는 다양한 기능을 사용할 수 없기 때문이다.