### pandas 패키지 import
* 관용적으로 별칭 **`pd`** 를 사용하여 import

In [1]:
# ---------------------------
# import
# ---------------------------

import pandas as pd

### Series 객체 생성     
* **`pd.Series()`**
>* 주요 파라미터
>  * data
>    * 시리즈에 저장할 데이터. 
>    * 리스트, 튜플, 넘파이배열, 딕셔너리, 스칼라(단일 값) 모두 가능
>  * index
>    * 데이터에 연결할 인덱스(라벨)
>    * 생략하면 기본적으로 RangeIndex(0, 1, 2, ...)로 설정됨
>  * dtype
>    * 데이터 타입 지정 (예:'int', 'float', 'str', 'category' 등)
>    * 생략하면 data에서 자동 추론
>  * name 
>    * 시리즈의 이름
>    * 데이터프레임으로 변환할 때 컬럼명이 됨


In [2]:
# ---------------------------
# 빈 시리즈
# ---------------------------
pd.Series()


Series([], dtype: object)

In [3]:
# ---------------
# 스칼라로 생성
# ---------------

data = 1
pd.Series(data)


0    1
dtype: int64

In [4]:
# ---------------
# 리스트로 생성
# ---------------

data = [100,50,30,10]
s = pd.Series(data)
print(s)


0    100
1     50
2     30
3     10
dtype: int64


In [58]:
# ---------------
# 넘파이 배열로 생성
# 인덱스라벨  : ['A', 'B', 'O', 'AB']
# 시리즈 이름 : 혈액형 
# 시리즈 데이터 타입  : float
# ---------------

data = pd.array([100,50,30,10])
idx = ['A', 'B', 'O', 'AB']
s = pd.Series(data, index = idx, name="혈액형", dtype="float")
s


A     100.0
B      50.0
O      30.0
AB     10.0
Name: 혈액형, dtype: float64

In [6]:
# ---------------
# 딕셔너리로 생성
# 시리즈 이름 : 혈액형 
# ---------------

data = {'A':100, 
        'B':50, 
        'O':30, 
        'AB':10}
s = pd.Series(data, name="혈액형")
s['A']   #s[0]
s.iloc[0]
s


A     100
B      50
O      30
AB     10
Name: 혈액형, dtype: int64

### Series 객체의 주요 속성
* `values` : 시리즈의 값(넘파이 배열)
* `index` : 인덱스라벨 객체
* `dtype` : 데이터의 타입
* `name` : 시리즈의 이름
* `shape` : 배열 형태

In [7]:
# ---------------
# 시리즈의 값
# ---------------
s.values
s.index
s.dtype
s.name
s.shape


(4,)

In [8]:
# --------------------
# 시리즈의 인덱스라벨
# --------------------
s.index


Index(['A', 'B', 'O', 'AB'], dtype='object')

In [9]:
# --------------------
# 시리즈의 데이터타입
# --------------------
s.dtype


dtype('int64')

In [10]:
# --------------------
# 시리즈의 이름
# --------------------
s.name



'혈액형'

In [11]:
# ---------------
# 시리즈의 형태(shape)
# ---------------

s.shape


(4,)

In [None]:
type(s)

array([100.,  50.,  30.,  10.])

### Series 객체의 주요 메서드
* `info()` 
    * Series 객체의 정보  
* `value_counts()`
    * 빈도수
* `sort_values()`
    * 값으로 정렬
* `sort_index()` 
    * 인덱스로 정렬
* `isnull()`
    * null 여부
    * null이면 True
* `notnull()`
    * null 여부
    * null이 아니면 True
* `dropna()`
    * null값 삭제
* `fillna()`
    * null 채우기
* `astype()`  
    * 자료형 변경
* 집계함수
    * `mean()`, `sum()`, `min()`, `max()`, `std()` 등


In [13]:
# -------------
# info()
# -------------
s.info()



<class 'pandas.core.series.Series'>
Index: 4 entries, A to AB
Series name: 혈액형
Non-Null Count  Dtype
--------------  -----
4 non-null      int64
dtypes: int64(1)
memory usage: 236.0+ bytes


In [39]:
# ---------------------------------
# 합계
# ---------------------------------
s.sum()

np.float64(190.0)

In [41]:
# ---------------------------------
# 값으로 정렬(오름차순)
# ---------------------------------

s.sort_values()

AB     10.0
O      30.0
B      50.0
A     100.0
Name: 혈액형, dtype: float64

In [43]:
# ---------------------------------
# 값으로 정렬(내림차순)
# ---------------------------------
s.sort_values(ascending=False)


A     100.0
B      50.0
O      30.0
AB     10.0
Name: 혈액형, dtype: float64

In [17]:
# ---------------------------------
# 인덱스라벨로 정렬(오름차순)
# ---------------------------------
s.sort_index()


A     100
AB     10
B      50
O      30
Name: 혈액형, dtype: int64

In [18]:
# ---------------------------------
# 인덱스라벨로 정렬(내림차순)
# ---------------------------------
s.sort_index(ascending=False)

O      30
B      50
AB     10
A     100
Name: 혈액형, dtype: int64

In [19]:
# ---------------------------------
# null 여부(null이면 True)
# ---------------------------------
s.isnull()


A     False
B     False
O     False
AB    False
Name: 혈액형, dtype: bool

In [20]:
# ---------------------------------
# null 여부(null이 아니면 True)
# ---------------------------------


s.notnull()

A     True
B     True
O     True
AB    True
Name: 혈액형, dtype: bool

In [56]:
# ---------------------------------
# 데이터타입 변경
# 문자열로 변경
# ---------------------------------
s.astype("str")


A     100.0
B      50.0
O      30.0
AB     10.0
Name: 혈액형, dtype: object

### Series 데이터 접근

* 라벨 인덱스로 접근
  * **`시리즈객체.loc[인덱스라벨]`**
  * **`시리즈객체.loc[인덱스라벨 리스트]`** 
  * **`시리즈객체.loc[인덱스라벨 슬라이스]`** --> 끝인덱스의 데이터 포함
* 정수형 인덱스로 접근
  * **`시리즈객체.iloc[RangeIndex]`**
  * **`시리즈객체.iloc[RangeIndex리스트]`** 
  * **`시리즈객체.iloc[RangeIndex슬라이스]`**

In [None]:
# ---------------------
# A형은 몇명인가요?
# 인덱스라벨 사용
#
# 결과
# np.int64(100)
# ---------------------
s.loc['A']


np.int64(100)

In [23]:
# ---------------------
# A형은 몇명인가요?
# RangeIndex 사용
#
# 결과
# np.int64(100)
# ---------------------

s.iloc[0]


np.int64(100)

In [24]:
# ---------------------
# A형, O형은 각각 몇명인가요?
# 인덱스라벨리스트 사용
# ---------------------

s.loc[["A","O"]]


A    100
O     30
Name: 혈액형, dtype: int64

In [64]:
# ---------------------
# A형, O형은 각각 몇명인가요?
# RangeIndex리스트 사용
# ---------------------
s.iloc[[0,2]]

A    100.0
O     30.0
Name: 혈액형, dtype: float64

In [26]:
# ---------------------
# A형부터 O형까지 각각 몇명인가요?
# 인덱스라벨슬라이스 사용
# ---------------------

s.loc['A':'O']

A    100
B     50
O     30
Name: 혈액형, dtype: int64

In [27]:
# ---------------------
# A형부터 O형까지 각각 몇명인가요?
# RangeIndex슬라이스 사용
# ---------------------

s.iloc[:3]

A    100
B     50
O     30
Name: 혈액형, dtype: int64

### Series 데이터 추가, 수정, 삭제
* 데이터 추가/수정
  * `시리즈객체[인덱스] = 데이터`
* 데이터 삭제
  * `del 시리즈객체[인덱스]`

In [28]:
# ---------------------
# 데이터 추가
# 'A-'  3
# ---------------------

s["A-"] = 3
s

A     100
B      50
O      30
AB     10
A-      3
Name: 혈액형, dtype: int64

In [29]:
# ---------------------
# 데이터 수정
# 'A-'  5
# ---------------------
s['A-'] = 5
s

A     100
B      50
O      30
AB     10
A-      5
Name: 혈액형, dtype: int64

In [30]:
# ---------------------
# 데이터 삭제
# 'A-'  
# ---------------------
del s["A-"]
s

A     100
B      50
O      30
AB     10
Name: 혈액형, dtype: int64