# Pandas_Series

### 파이썬의 주요 데이터 분석 라이브러리
- NumPy (넘파이) : 배열, 행렬 관련 편리한 기능 제공
- Pandas (판다스) : Series, DataFrame 등의 자료구조를 활용한 
                    데이터 분석 기능 제공
- Matplotlib (맷플롯립) : 데이터 분석 결과를 시각화하는데 유용한 기능 제공

### 판다스 (pandas)
    - series, DataFrame등의 자료구조를 활용한 데이터 분석 기능을 제공해주는 라이브러리
    - pandas 라이브러리 구성
        - 여러종류의 클래스와 다양한 함수로 구성
        - 시리즈와 데이터 프레임의 데이터 구조 클래스 객체 포함
        - 시리즈(1차원 배열) 데이터프레임(2차원 테이블 형태)

#### 판다스의 목적
    - 서로 다른 여러 가지 유형의 데이터를 공통된 포맷으로 정리하는 것
    - 특히, 행과 열로 이루어진 2차원 구조의 데이터프레임 형식으로 사용
    - 데이터 분석 실무에서 사용됨


#### Series
  - pandas의 기본 객체 중 하나
  - 동일한 타입의 데이터가 순차적으로 나열된 1차원 배열 형태
  - 인덱스(index)와 데이터 값(value)이 일대일로 대응

### Series 학습 내용
- Series 생성 방법  
- 시리즈 데이터의 추가/삭제/갱신 
- 인덱싱        
- 슬라이싱     
- 시리즈 연산     
- 시리즈 속성 및 함수  
- 날짜 인덱스를 이용한 시리즈 생성  

### 판다스/넘파이 모듈 import

- 데이터분석에서 기본 패키지 :  pandas와 numpy 패키지  
- 일반적으로 pandas 모듈은 pd 라는 별칭 사용  
- numpy는 np라는 별칭 사용  

In [1]:
# 한 셀에서 여려 결과 출력
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

In [2]:
import pandas as pd
import numpy as np

#### Series 생성 방법 : pd.Series(집합적 자료형 )
    (1) 리스트로 생성  
    (2) 튜플로 생성  
    (3) 딕셔너리로 생성 
    (4) range()/np.arange() 함수 사용해서 생성

 #### (1) 리스트로 생성  
 - index는 명시하지 않을 경우 기본적으로 0부터 자동 생성

In [3]:
# pd.Series()
# 인덱스를 명시하지 않으면 0부터 자동 생성
s = pd.Series([1, 2, 3])
s

0    1
1    2
2    3
dtype: int64

* 서로 다른 타입의 데이터들이 있을 경우 형변환이 발생

In [4]:
# 문자열이 포함되어있으면 문자형(object)으로 변환
s = pd.Series(['a', 1, 3.14])
s

0       a
1       1
2    3.14
dtype: object

In [5]:
# 정수와 실수가 있으면 더 큰 범위인 실수형으로 변환
s = pd.Series([1, 2, 3.14])
s

0    1.00
1    2.00
2    3.14
dtype: float64

In [6]:
# 주의! NaN가 있이면 실수로 인식!
# 정수와 실수가 있으면 더 큰 범위인 실수형으로 변환
s = pd.Series([1, np.nan, 2])
s

0    1.0
1    NaN
2    2.0
dtype: float64

* 인덱스를 명시하여 저장할 수 있다 (인덱스는 중복 가능)

In [7]:
# 숫자 인덱스(index 생략 가능)
s = pd.Series([1, 2, 3], index=[1, 2, 3])
s

1    1
2    2
3    3
dtype: int64

In [8]:
# 문자 인덱스(index 생략 가능)
s = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
s

a    1
b    2
c    3
dtype: int64

In [9]:
# 예제
s = pd.Series([95, 100, 80], ['홍길동', '이몽룡', '성춘향'])
s

홍길동     95
이몽룡    100
성춘향     80
dtype: int64

In [10]:
# 이름 붙이기
s.name = '성적'
s.index.name = '성명'
s

성명
홍길동     95
이몽룡    100
성춘향     80
Name: 성적, dtype: int64

In [11]:
# 값만 추출
s.values

array([ 95, 100,  80])

#### (2) 튜플로 생성  

In [12]:
# 똑같으니 스킵
s = pd.Series((1, 2, 3))
s

0    1
1    2
2    3
dtype: int64

#### (3) 딕셔너리로 생성 
- Series({key:value, key1:value1....})  
- key -> 인덱스
- value -> 값

In [16]:
# key는 index로, value는 value로 매핑
dicts = {
    '서울':9631482,
    '부산':3393191,
    '인천':2632035,
    '대전':1490158
}
cities = pd.Series(dicts)
cities

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [17]:
# 인덱스값만 추출
cities.index

Index(['서울', '부산', '인천', '대전'], dtype='object')

In [18]:
# 시리즈의 특정 값 출력
cities['서울']
cities[0] # deprecated 경고

9631482

  cities[0] # deprecated 경고


9631482

#### (4) range()/np.arange() 함수 사용해서 생성  

In [19]:
s = pd.Series(range(5))
s

0    0
1    1
2    2
3    3
4    4
dtype: int64

In [20]:
s = pd.Series(range(11, 15))
s

0    11
1    12
2    13
3    14
dtype: int64

In [21]:
s = pd.Series(range(11, 15), range(1, 5))
s

1    11
2    12
3    13
4    14
dtype: int64

In [22]:
# 그냥 NaN으로 하면 오류가 뜨므로 None으로 넣는다
s = pd.Series([1, 2, 3, None, 5, 6])
s

0    1.0
1    2.0
2    3.0
3    NaN
4    5.0
5    6.0
dtype: float64

* 수정하기

In [28]:
s = pd.Series([95, 100, 80], ['홍길동', '이몽룡', '성춘향'])
s

홍길동     95
이몽룡    100
성춘향     80
dtype: int64

In [29]:
# 인덱스 추가
s['변학도'] = 70
s

홍길동     95
이몽룡    100
성춘향     80
변학도     70
dtype: int64

In [30]:
# 인덱스 삭제
del s['홍길동']
s

이몽룡    100
성춘향     80
변학도     70
dtype: int64

In [31]:
# drop()메소드는 삭제한 결과를 반환할 뿐, 데이터를 실제로 삭제하지 않는다
s.drop('성춘향')
s

이몽룡    100
변학도     70
dtype: int64

이몽룡    100
성춘향     80
변학도     70
dtype: int64

In [32]:
# 실제로 삭제하려면 inplace=True를 추가
s.drop('변학도', inplace=True)
s

이몽룡    100
성춘향     80
dtype: int64

In [24]:
#################################################################################

### 인덱싱  
    - 인덱스 종류    
        (1) 문자형 인덱스    
         - index 명시하지 않으면 0부터 시작하는 정수형 인덱스 자동 지정됨
        (2) 정수형 인덱스   
          -  정수형 인덱스로 명시한 경우 0-base 위치 인덱스 사용 못함 (에러)
        (3) 위치 인덱스  : 0-base 위치 인덱스         
    - 원소 접근  
        (1) 정수형 인덱스 사용 : 시리즈[숫자 인덱스]  
        (2) 문자형 인덱스 사용 : 시리즈['문자 인덱스']   
        (3) 리스트 이용 인덱싱

In [44]:
s = pd.Series([95, 100, 80], ['홍길동', '이몽룡', '성춘향'])
s

홍길동     95
이몽룡    100
성춘향     80
dtype: int64

In [45]:
# 단순 숫자 인덱싱은 future proof가 없다
s.iloc[0]

95

In [46]:
s.iloc[[2, 0, 1]]

성춘향     80
홍길동     95
이몽룡    100
dtype: int64

In [47]:
# 문자형 인덱스는 이런것도 가능
s.홍길동

95

In [25]:
#################################################################################

### 슬라이싱  
    (1) 0-base 위치 인덱스를 이용한 슬라이싱  
        - 시리즈[start:end] : start ~ end-1까지 추출
    (2) 문자(라벨) 인덱스를 이용한 슬라이싱 
        - 시리즈['시작라벨':'끝라벨']
            - 시작에서 끝까지 양쪽 라벨 포함된 범위 추출  

In [49]:
cities.iloc[1:3]
cities['부산':'인천']

부산    3393191
인천    2632035
dtype: int64

부산    3393191
인천    2632035
dtype: int64

In [51]:
s = pd.Series([_*100 for _ in range(1, 5)], [_ for _ in range(1, 5)])
s

1    100
2    200
3    300
4    400
dtype: int64

In [53]:
s[:3]

1    100
2    200
3    300
dtype: int64

In [55]:
s[[2, 4, 3]]

2    200
4    400
3    300
dtype: int64

In [None]:
#################################################################################

### 시리즈 연산  
    (1) 벡터화 연산  
    (2) Boolean selection  
    (3) 두 시리즈간의 연산

#####  (1) 벡터화 연산
- 벡터화 연산 : 집합적 자료형의 원소 각각에 대해 독립적으로 계산 수행
    - 단, 연산은 시리즈의 값에만 적용
    - 인덱스 값은 변경 불가

In [56]:
pd.Series([1, 2, 3]) + 10

0    11
1    12
2    13
dtype: int64

#### (2) Boolean selection
  - boolean 연산 결과 True에 해당되는 값만 추출 
  - [연산식] : 연산식 결과가 True인 것만 추출
  - 다중조건의 경우, &(and), |(or)를 사용하여 연결 가능

In [61]:
cities > 2_500_000

서울     True
부산     True
인천     True
대전    False
dtype: bool

In [62]:
cities < 5_000_000

서울    False
부산     True
인천     True
대전     True
dtype: bool

In [69]:
(cities > 2_500_000) & (cities < 5_000_000)

서울    False
부산     True
인천     True
대전    False
dtype: bool

In [70]:
cities[(cities > 2_500_000) & (cities < 5_000_000)]

부산    3393191
인천    2632035
dtype: int64

In [71]:
# 예제
sq = pd.Series([_ for _ in range(10)], [_+1 for _ in range(10)])
sq

1     0
2     1
3     2
4     3
5     4
6     5
7     6
8     7
9     8
10    9
dtype: int64

In [72]:
sq[(sq>3)&(sq<7)]

5    4
6    5
7    6
dtype: int64

In [74]:
sq[(sq%2==0)]

1    0
3    2
5    4
7    6
9    8
dtype: int64

* 인덱스도 관계연산 가능

In [76]:
sq[(sq.index>3)&(sq.index<7)]
sq[(sq.index%2==0)]

4    3
5    4
6    5
dtype: int64

2     1
4     3
6     5
8     7
10    9
dtype: int64

In [78]:
s = pd.Series([1, 2, 3, 4], ['a', 'b', 'c', 'd'])

##### 딕셔너리 와 시리즈의 관계
- 시리즈 객체는 인덱스를 key로 가지는 딕셔너리 형과 같다고 볼 수 있음
- 딕셔너리에서 제공하는 대부분의 연산자 사용 가능
    - in 연산자 : T/F
    - for 루프를 통해 각 원소의 key와 value에 접근 가능

In [79]:
# for 문은 value를 말한다
for i in s:
    i

1

2

3

4

In [81]:
# 근데 in 연산자는 index 안에 있는지를 확인
'a' in s
1 in s

True

False

In [87]:
# dict처럼 메소드 활용
s.keys()
s.values
s.items()

Index(['a', 'b', 'c', 'd'], dtype='object')

array([1, 2, 3, 4])

<zip at 0x1654b2ac0>

In [89]:
for a, b in s.items():
    a, b

('a', 1)

('b', 2)

('c', 3)

('d', 4)

### 시리즈 속성 및 함수(메소드)      
     - size 속성 : 원소 개수 반환  
     - shape 속성 : 튜플형태로 shape반환  
     - len() : 길이 (원소 개수 반환)
     - unique() : 유일한 값만 ndarray로 반환  
     - count() : NaN을 제외한 개수를 반환  
     - mean(): NaN을 제외한 평균  
     - value_counts() : NaN을 제외하고 각 값들의 빈도를 반환 

In [91]:
# 길이 반환
len(s)
s.size

4

4

In [92]:
# 차원 표시
s.shape

(4,)

In [95]:
# 중복 제외
s1 = pd.Series([1, 3, 3, None, 4, 5, 6, 6, 9])
s1.unique()

array([ 1.,  3., nan,  4.,  5.,  6.,  9.])

In [97]:
# NaN을 제외한 갯수
s1.count()

8

In [99]:
# NaN을 제외한 평균
s1.mean()

4.625

In [100]:
# NaN을 제외한 각 값의 빈도
s1.value_counts()

3.0    2
6.0    2
1.0    1
4.0    1
5.0    1
9.0    1
Name: count, dtype: int64

In [105]:
s.is_unique
s.index.is_unique

True

True

In [None]:
#################################################################################