
# 판다스의 대표적인 자료구조 2가지
- 시리즈(Series)
- 데이터프레임(Dataframe)

## 시리즈(Series)
- 1차원 배열
- 데이터를 담는 차원 배열 구조
- 인덱스 사용 가능
- 데이터 타입을 가짐 (dtype)


### 시리즈 생성

In [2]:

import numpy as np
import pandas as pd

In [None]:
# numpy array로 생성
arr = np.arange(100,105)
arr   # array([100, 101, 102, 103, 104])
s = pd.Series(arr)
s

# 각 요소가 세로로 들어간다.

0    100
1    101
2    102
3    103
4    104
dtype: int64

In [None]:
# 리스트로도 가능능
s = pd.Series(['부장', '차장', '대리', '사원', '인턴'])
s


0    부장
1    차장
2    대리
3    사원
4    인턴
dtype: object

In [11]:
# 시리즈 생성 시 순차적으로 부여되는 index를 확인할 수 있다.
# 이를 RangeIndex라고 부른다.
s.index

RangeIndex(start=0, stop=5, step=1)

In [12]:
s[0]

'부장'

In [None]:
# fancy indexing
# 리스트 안에 지정한 인덱스 번호에 해당하는 것들 출력
# s[ [리스트] ]
s[[1,3]]

1    차장
3    사원
dtype: object

In [None]:
# boolean indexing
# 조건식을 만들어서 특정 조건에 대하여 True에 해당하는 값만 필터링 가능

# 랜덤 생성
np.random.seed(0) # 랜덤 결과를 고정시킴(항상 같은 난수 생성)
s = pd.Series(np.random.randint(10000,20000, size = (10,))) # 10000이상 20000미만 정수 10개 무작위 생성성
s

0    12732
1    19845
2    13264
3    14859
4    19225
5    17891
6    14373
7    15874
8    16744
9    13468
dtype: int32

In [None]:
#  index 를 이용해 필터링
s > 15000 # 15000 이상인 value들 True 로 표시시


0    False
1     True
2    False
3    False
4     True
5     True
6    False
7     True
8     True
9    False
dtype: bool

In [None]:
s[s>15000] 
#s[value 조건 필터링 후 True인 것들만]
# 즉 s[True]

1    19845
4    19225
5    17891
7    15874
8    16744
dtype: int32

In [18]:
# 인덱스를 직접 정의 가능
# pd.Series([value],index=[index])
s = pd.Series(
    ['마케팅', '경영', '개발', '기획', '인사'],
    index = ['a', 'b', 'c', 'd', 'e']
    )
s

a    마케팅
b     경영
c     개발
d     기획
e     인사
dtype: object

In [19]:
s.index #.index : 인덱스 값들만 모아보기

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [23]:
# 시리즈를 생성한 후에 index 속성 값에 새로운 index를 할당해서 인덱스를 교체할수도 있다.
s = pd.Series(['마케팅', '경영', '개발', '기획', '인사'])
s


0    마케팅
1     경영
2     개발
3     기획
4     인사
dtype: object

In [22]:
s.index = list('abcde') # 반복가능한 객체
s

a    마케팅
b     경영
c     개발
d     기획
e     인사
dtype: object

### 속성(attribute)

In [None]:
# values
# .index : index값을 numpy array 형식으로 가져옴
# .values : value 값을 numpy array 형식으로 가져옴옴
s.values

array(['마케팅', '경영', '개발', '기획', '인사'], dtype=object)

### ndim - 차원

In [25]:
# 시리즈는 1차원 자료구조이기 때문에 출력시 1이 출력됨
s.ndim

1

### shape
- shape은 데이터의 모양을 알아보기 위해 사용
- 시리즈의 shape은 데이터의 개수를 나타냄


In [26]:
s.shape

(5,)

### NaN (Not a Number)
- 판다스에서 NaN값은 결측치 데이터를 의미한다.
- 임의로 비어있는 값을 대입하고자 할 때는 numpy의 nan(np.nan)을 입력

In [27]:
s = pd.Series(['선화', '강호', np.nan, '소정', '우영'])
s


0     선화
1     강호
2    NaN
3     소정
4     우영
dtype: object

### 결측치 (NaN) 값 처리
- isnull()
- isna()


In [28]:
s.isnull()

0    False
1    False
2     True
3    False
4    False
dtype: bool

In [29]:
# boolean indexing에 적용 가능
s[s.isnull()]

2    NaN
dtype: object

### 결측치가 아닌 값 처리
- notnull()
- notna()

In [30]:
# 결측치 x 인 값들
s.notnull()

0     True
1     True
2    False
3     True
4     True
dtype: bool

In [31]:
s[s.notna()]

0    선화
1    강호
3    소정
4    우영
dtype: object

### 슬라이싱
- 파이썬이랑 똑같음

In [32]:
s = pd.Series(np.arange(100, 150, 10))
s


0    100
1    110
2    120
3    130
4    140
dtype: int64

In [33]:
s[1:3]

1    110
2    120
dtype: int64

In [35]:
# 만약 사용자가 임의로 index를 새로 지정했으면
# 슬라이싱할 때 끝 index도 모두 포함한다
s.index = list('가나다라마')
s

가    100
나    110
다    120
라    130
마    140
dtype: int64

In [36]:
s['나':'라']

나    110
다    120
라    130
dtype: int64