# Pandas_Series

### 파이썬의 주요 데이터 분석 라이브러리
- NumPy (넘파이) : 배열, 행렬 관련 편리한 기능 제공
- Pandas (판다스) : Series, DataFrame 등의 자료구조를 활용한 
                    데이터 분석 기능 제공
- Matplotlib (맷플롯립) : 데이터 분석 결과를 시각화하는데 유용한 기능 제공

### 판다스 (pandas)
    - series, DataFrame등의 자료구조를 활용한 데이터 분석 기능을 제공해주는 라이브러리
    - pandas 라이브러리 구성
        - 여러종류의 클래스와 다양한 함수로 구성
        - 시리즈와 데이터 프레임의 데이터 구조 클래스 객체 포함
        - 시리즈(1차원 배열) 데이터프레임(2차원 테이블 형태)이다.

#### 판다스의 목적
    - 서로 다른 여러 가지 유형의 데이터를 공통된 포맷으로 정리하는 것
    - 특히, 행과 열로 이루어진 2차원 구조의 데이터프레임 형식으로 사용
    - 데이터 분석 실무에서 사용됨


#### Series
  - pandas의 기본 객체 중 하나
  - 동일한 타입의 데이터가 순차적으로 나열된 1차원 배열 형태
  - 인덱스(index)와 데이터 값(value)이 일대일로 대응

### Series 학습 내용
- Series 생성 방법  
- 시리즈 데이터의 추가/삭제/갱신 
- 인덱싱        
- 슬라이싱     
- 시리즈 연산     
- 시리즈 속성 및 함수  
- 날짜 인덱스를 이용한 시리즈 생성  

### 판다스/넘파이 모듈 import

- 데이터분석에서 기본 패키지 :  pandas와 numpy 패키지  
- 일반적으로 pandas 모듈은 pd 라는 별칭 사용  
- numpy는 np라는 별칭 사용  

In [32]:
# 한 셀에서 여려 결과 출력
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

In [1]:
import pandas as pd
import numpy as np

#### Series 생성 방법 : pd.Series(집합적 자료형 )
    (1) 리스트로 생성  
    (2) 튜플로 생성  
    (3) 딕셔너리로 생성 
    (4) range()/np.arange() 함수 사용해서 생성

 #### (1) 리스트로 생성  
 - index는 명시하지 않을 경우 기본적으로 0부터 자동 생성

In [4]:
# pd.Series([집합적 자료형])
# pd.Series([리스트])
# index는 명시하지 않을 경우 기본적으로 0부터 자동 생성
s = pd.Series([1,2,3])
s

0    1
1    2
2    3
dtype: int64

In [5]:
# 리스트 내에 서로 다른 타입의 데이터가 있으면 형변환 발생
# 문자열이 포함된 경우 문자형(object)으로 변환
s = pd.Series(['a', 1, 3.0])
s

0      a
1      1
2    3.0
dtype: object

In [6]:
# 정수, 실수 섞여 있는 경우 실수로 형변환 (큰 타입으로 변환)
s = pd.Series([0, 1, 3.0])
s

0    0.0
1    1.0
2    3.0
dtype: float64

In [8]:
# 주의!! - NaN(null) 값이 있으면 실수로 인식
s = pd.Series([0, np.nan, 3])
s

0    0.0
1    NaN
2    3.0
dtype: float64

In [9]:
# index 명시 : 숫자 인덱스
s = pd.Series([1,2,3], index=[1,2,3])
s

1    1
2    2
3    3
dtype: int64

In [10]:
# index 명시 : 숫자 인덱스
s = pd.Series([1,2,3], index=['a','b','c'])
s

a    1
b    2
c    3
dtype: int64

In [15]:
# index 옵션명(인수명) 생략 가능
# pd.Series(데이터, 인덱스)
s = pd.Series([1,2,3], ['a','','c'])
s

a    1
     2
c    3
dtype: int64

In [13]:
# 인덱스명 중복 사용 가능 : 오류 없음
# 검색 시 중복 확인하고 결과에서 선택해서 출력
s = pd.Series([1,2,3], ['a','a','c'])
s

a    1
a    2
c    3
dtype: int64

In [17]:
# 문자 인덱스 예
# 데이터 : 95, 100, 80
# 인덱스 : 홍길동, 이몽룡, 성춘향
score = pd.Series([95, 100, 80], index=['홍길동','이몽룡','성춘향'])
score

홍길동     95
이몽룡    100
성춘향     80
dtype: int64

In [19]:
# 시리즈 이름 붙이기
# 시리즈.name 속성 사용
score.name = '성적'
score

홍길동     95
이몽룡    100
성춘향     80
Name: 성적, dtype: int64

In [20]:
# index에 이름 붙이기
# 시리즈.index.name 속성 사용
score.index.name = '성명'
score

성명
홍길동     95
이몽룡    100
성춘향     80
Name: 성적, dtype: int64

In [22]:
# 시리즈의 값 : numpy.array 형태
# 시리즈.values 속성 사용
score.values

array([ 95, 100,  80], dtype=int64)

#### (2) 튜플로 생성  

In [23]:
# pd.Series(튜플)
s2 = pd.Series((1.0, 2.0, 3.0))
s2

0    1.0
1    2.0
2    3.0
dtype: float64

In [24]:
s2 = pd.Series((1.0, 2.0, 3.0), index=[1,2,3])
s2

1    1.0
2    2.0
3    3.0
dtype: float64

#### (3) 딕셔너리로 생성 
- Series({key:value, key1:value1....})  
- key -> 인덱스
- value -> 값

In [28]:
# 딕셔너리로 시리즈 생성
# 키 : 서울, 부산, 인천, 대전
# 값 : 9631482, 3393191, 2632035, 1490158
city = pd.Series({'서울':9631482, '부산': 3393191, '인천': 2632035, '대전': 1490158})
city

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [29]:
city.index

Index(['서울', '부산', '인천', '대전'], dtype='object')

In [34]:
# 시리즈의 특정 값 출력 : 인덱스 사용
city['서울']
# city[0] # 0-base 위치 인덱스 사용 - deprecated 경고
city.iloc[0] # iloc 사용

9631482

9631482

#### (4) range()/np.arange() 함수 사용해서 생성  

In [35]:
# range() 함수 사용해서 시리즈 생성
# range(숫자) : 0 부터
# range(start, end) : start ~ end-1까지 범위
s = pd.Series(range(5))
s

0    0
1    1
2    2
3    3
4    4
dtype: int64

In [39]:
# value 설정
s = pd.Series(range(11,16))
s

0    11
1    12
2    13
3    14
4    15
dtype: int64

In [41]:
# index 설정
s = pd.Series(range(11,16), range(1,6))
s

1    11
2    12
3    13
4    14
5    15
dtype: int64

In [42]:
# numpy의 arange() 사용
s = pd.Series(np.arange(5))
s

0    0
1    1
2    2
3    3
4    4
dtype: int32

In [43]:
# 결측값을 포함해서 시리즈 만들기 : NaN
# Numpy : np.nan
# Pandas : None (NaN으로 적으면 오류)
s = pd.Series([1,2,3, np.nan, 5, 6])
s

0    1.0
1    2.0
2    3.0
3    NaN
4    5.0
5    6.0
dtype: float64

In [45]:
# Pandas : None (NaN으로 적으면 오류)
s = pd.Series([1,2,3, None, 5, 6])
s

0    1.0
1    2.0
2    3.0
3    NaN
4    5.0
5    6.0
dtype: float64

In [47]:
# 시리즈에 데이터 추가
# 새 인덱스로 추가하면 됨 : 시리즈[인덱스] = 값
s = pd.Series([95, 100, 88],
             index = ['홍길동', '이몽룡', '성춘향'])
s

홍길동     95
이몽룡    100
성춘향     88
dtype: int64

In [48]:
# 새 인덱스로 추가하면 됨 : 시리즈[인덱스] = 값
# 인덱스 : 변학도
# 값 : 70
s['변학도'] = 70
s

홍길동     95
이몽룡    100
성춘향     88
변학도     70
dtype: int64

In [50]:
# 시리즈의 값 변경
# 시리즈[기존 인덱스] = 새로운 값 (덮어씀)
s['홍길동'] = 40
s

홍길동     40
이몽룡    100
성춘향     88
변학도     70
dtype: int64

In [51]:
# 시리즈 내 원소 삭제 : del 명령어 사용
del s['변학도']
s

홍길동     40
이몽룡    100
성춘향     88
dtype: int64

In [52]:
# drop() 사용
# 시리즈.drop(인덱스, axis=0, inplace=True)
# axis=0 : 행 의미 (디폴트로 생략 가능)
# inplace=True : 결과 반영 (원본 데이터 변경)

In [55]:
s.drop('홍길동') # 실제 데이터는 삭제되지 않음
s

이몽룡    100
성춘향     88
dtype: int64

홍길동     40
이몽룡    100
성춘향     88
dtype: int64

In [56]:
s.drop('홍길동', axis=0) # axis=0 : 행 의미 (디폴트로 생략 가능)
s

이몽룡    100
성춘향     88
dtype: int64

홍길동     40
이몽룡    100
성춘향     88
dtype: int64

In [57]:
s.drop('홍길동', axis=0, inplace=True) # 실제 데이터 삭제됨 (원본 데이터 반영)
s

이몽룡    100
성춘향     88
dtype: int64

In [None]:
#################################################################################

### 인덱싱  
    - 인덱스 종류    
        (1) 문자형 인덱스    
         - index 명시하지 않으면 0부터 시작하는 정수형 인덱스 자동 지정됨
        (2) 정수형 인덱스   
          -  정수형 인덱스로 명시한 경우 0-base 위치 인덱스 사용 못함 (에러)
        (3) 위치 인덱스  : 0-base 위치 인덱스         
    - 원소 접근  
        (1) 정수형 인덱스 사용 : 시리즈[숫자 인덱스]  
        (2) 문자형 인덱스 사용 : 시리즈['문자 인덱스']   
        (3) 리스트 이용 인덱싱

In [58]:
# (1) 문자열 인덱스
s = pd.Series([95, 100, 88],
             index = ['홍길동', '이몽룡', '성춘향'])
s

홍길동     95
이몽룡    100
성춘향     88
dtype: int64

In [60]:
# 첫 번째 원소의 값 출력 : 0-base 위치 인덱스 - 사용
# s[0] : deprecated
s.iloc[0]

95

In [61]:
# (2) 정수형 인덱스
s2 = pd.Series([10, 20, 30], index=[1,2,3])
s2

1    10
2    20
3    30
dtype: int64

In [63]:
# 정수형 인덱스 접근
s2[1]
# 1 : 지정한 인덱스 값 (0-base 인덱스 값 아님)

10

In [64]:
# 두 개 이상의 인덱싱 코드를 나열하면 튜플 형태로 출력
s.iloc[0], s['이몽룡']

(95, 100)

In [70]:
# (3) 리스트 이용 인덱싱
s
s.iloc[0]
s.iloc[[1, 0, 2]]

홍길동     95
이몽룡    100
성춘향     88
dtype: int64

95

이몽룡    100
홍길동     95
성춘향     88
dtype: int64

In [71]:
# 문자 인덱스인 경우 dot(.) 연산자 사용해서 접근 가능
s3 = pd.Series([10, 20, 30], index=['a','b','c'])
s3

a    10
b    20
c    30
dtype: int64

In [73]:
s3['a']
s3.a

10

10

In [74]:
# 한글 문자 인덱스도 dot 연산자 사용해서 접근 가능
s.홍길동

95

In [None]:
#################################################################################

### 슬라이싱  
    (1) 0-base 위치 인덱스를 이용한 슬라이싱  
        - 시리즈[start:end] : start ~ end-1까지 추출
    (2) 문자(라벨) 인덱스를 이용한 슬라이싱 
        - 시리즈['시작라벨':'끝라벨']
            - 시작에서 끝까지 양쪽 라벨 포함된 범위 추출  

In [75]:
city = pd.Series({
    '서울' : 9631482,
    '부산' : 3393191,
    '인천' : 2632035,
    '대전' : 1490158})
city

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [77]:
data = {'서울' : 9631482,
    '부산' : 3393191,
    '인천' : 2632035,
    '대전' : 1490158}
city2 = pd.Series(data)
city2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [82]:
# 부산 ~ 인천 데이터 출력
# 0~base 위치 인덱스 사용
# city.iloc[range(1,3)]
city[1:3]
# 문자 인덱스(라벨) 사용
city['부산':'인천']

부산    3393191
인천    2632035
dtype: int64

부산    3393191
인천    2632035
dtype: int64

In [83]:
s = pd.Series([100, 200, 300, 400], index=[1,2,3,4])
s

1    100
2    200
3    300
4    400
dtype: int64

In [84]:
# 슬라이싱 : 100 ~ 300 출력
s[0:3]

1    100
2    200
3    300
dtype: int64

In [90]:
# 리스트 사용 인덱싱 : 정수형 인덱스
# 200, 400, 300 순서대로 출력
s[[2, 4, 3]]

2    200
4    400
3    300
dtype: int64

In [92]:
# 0-base 위치 인덱스 사용
s.iloc[[1,3,2]]

2    200
4    400
3    300
dtype: int64

In [None]:
#################################################################################

### 시리즈 연산  
    (1) 벡터화 연산  
    (2) Boolean selection  
    (3) 두 시리즈간의 연산

#####  (1) 벡터화 연산
- 벡터화 연산 : 집합적 자료형의 원소 각각에 대해 독립적으로 계산 수행
    - 단, 연산은 시리즈의 값에만 적용
    - 인덱스 값은 변경 불가

In [93]:
# 시리즈 각 원소에 대해서 + 10한 연산 수행
pd.Series([1,2,3]) + 10

0    11
1    12
2    13
dtype: int64

In [94]:
city

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [96]:
city > 2500000

서울     True
부산     True
인천     True
대전    False
dtype: bool

In [97]:
city < 5000000

서울    False
부산     True
인천     True
대전     True
dtype: bool

In [99]:
# city 시리즈의 값 중에서 2,500,000 보다 크고 5,000,000 보다 작은 원소를 추출
city[(city > 2500000) & (city < 5000000) ]

부산    3393191
인천    2632035
dtype: int64

#### (2) Boolean selection
  - boolean 연산 결과 True에 해당되는 값만 추출 
  - [연산식] : 연산식 결과가 True인 것만 추출
  - 다중조건의 경우, &(and), |(or)를 사용하여 연결 가능

In [102]:
# 시리즈 s3 생성
# 인덱스 : 1 ~ 10
# 값 : 0 ~ 9
s3 = pd.Series(range(0,10), index=range(1, 11))
s3

1     0
2     1
3     2
4     3
5     4
6     5
7     6
8     7
9     8
10    9
dtype: int64

In [103]:
# s3 중에서 3 보다 크고 7 미만 인 값만 추출
s3[(s3 > 3) & (s3 < 7)]

5    4
6    5
7    6
dtype: int64

In [107]:
# s3 원소 중에서 짝수 값만 추출
s3[s3 % 2 == 0]

1    0
3    2
5    4
7    6
9    8
dtype: int64

In [108]:
# 인덱스에도 관계연산 가능
s3.index > 5

array([False, False, False, False, False,  True,  True,  True,  True,
        True])

In [110]:
# s3 >= 7의 결과가 True 원소 개수 총합 반환
(s3 >= 7).sum()

3

In [111]:
# True에 해당되는 원소들의 값의 합
(s3[s3 >= 7]).sum()

24

##### 딕셔너리 와 시리즈의 관계
- 시리즈 객체는 인덱스를 key로 가지는 딕셔너리 형과 같다고 볼 수 있음
- 딕셔너리에서 제공하는 대부분의 연산자 사용 가능
    - in 연산자 : T/F
    - for 루프를 통해 각 원소의 key와 value에 접근 가능

In [112]:
nums = pd.Series([10, 20, 30, 40], index=['a', 'b', 'c', 'd'])
nums

a    10
b    20
c    30
d    40
dtype: int64

In [113]:
# in 연산자 사용
# 키에 해당되는 인덱스 a가 시리즈에 포함되어 있는지 확인
'a' in nums

True

In [114]:
city

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [115]:
city.items()

<zip at 0x175d014b4c0>

In [116]:
list(city.items())

[('서울', 9631482), ('부산', 3393191), ('인천', 2632035), ('대전', 1490158)]

In [120]:
# key, value
# index, value 추출
for k, v in list(city.items()):
    print(k, v)

서울 9631482
부산 3393191
인천 2632035
대전 1490158


In [121]:
# key(index) 추출
for k in city.keys():
    print(k)

서울
부산
인천
대전


In [122]:
# 값 추출
for v in city.values:
    print(v)

9631482
3393191
2632035
1490158


In [None]:
#################################################################################

### 시리즈 속성 및 함수(메소드)      
     - size 속성 : 원소 개수 반환  
     - shape 속성 : 튜플형태로 shape반환  
     - len() : 길이 (원소 개수 반환)
     - unique() : 유일한 값만 ndarray로 반환  
     - count() : NaN을 제외한 개수를 반환  
     - mean(): NaN을 제외한 평균  
     - value_counts() : NaN을 제외하고 각 값들의 빈도를 반환 

In [123]:
s5 = pd.Series([1, 1, 2, 1, 2, np.nan, 2, 2, 1, 1, 3, 3, 4, 5, 5, 7, np.NaN])
s5

0     1.0
1     1.0
2     2.0
3     1.0
4     2.0
5     NaN
6     2.0
7     2.0
8     1.0
9     1.0
10    3.0
11    3.0
12    4.0
13    5.0
14    5.0
15    7.0
16    NaN
dtype: float64

In [124]:
# 길이 (원소의 개수)
len(s5)
s5.size

17

17

In [125]:
s5.shape # 차원으로 표현하기 때문에 튜플 형태로 출력

(17,)

In [126]:
# unique() : 중복값 제거하고 유일한 값 출력
s5.unique()

array([ 1.,  2., nan,  3.,  4.,  5.,  7.])

In [127]:
s5.count() # NaN 값 제외

15

In [128]:
s5.mean() # 평균 , NaN 값 제외

2.6666666666666665

In [130]:
s5.value_counts()
# 각 원소에 대해 동일한 값의 원소끼리 그룹핑하여 개수를 세서 반환
# NaN 제외

1.0    5
2.0    4
3.0    2
5.0    2
4.0    1
7.0    1
Name: count, dtype: int64

In [133]:
# 인덱스가 중복인 경우
s = pd.Series([1,2,3,4,5], index=['a','b','c','a','a'])
s

a    1
b    2
c    3
a    4
a    5
dtype: int64

In [135]:
s.index.unique()

Index(['a', 'b', 'c'], dtype='object')

In [134]:
s['a']

a    1
a    4
a    5
dtype: int64