# Pandas_Series

### 파이썬의 주요 데이터 분석 라이브러리
- NumPy (넘파이) : 배열, 행렬 관련 편리한 기능 제공
- Pnadas (판다스) : Series, DataFrame 등의 자료구조를 활용한 
                    데이터 분석 기능 제공
- Matplotlib (맷플롯립) : 데이터 분석 결과를 시각화하는데 유용한 기능 제공

### 판다스 (pandas)
    - series, DataFrame등의 자료구조를 활용한 데이터 분석 기능을 제공해주는 라이브러리
    - pandas 라이브러리 구성
        - 여러종류의 클래스와 다양한 함수로 구성
        - 시리즈와 데이터 프레임의 데이터 구조 클래스 객체 포함
        - 시리즈(1차원 배열) 데이터프레임(2차원 테이블 형태)

#### 판다스의 목적
    - 서로 다른 여러 가지 유형의 데이터를 공통된 포맷으로 정리하는 것
    - 특히, 행과 열로 이루어진 2차원 구조의 데이터프레임 형식으로 사용
    - 데이터 분석 실무에서 사용됨


#### Series
  - pandas의 기본 객체 중 하나
  - 동일한 타입의 데이터가 순차적으로 나열된 1차원 배열 형태
  - 인덱스(index)와 데이터 값(value)이 일대일로 대응

### Series 학습 내용
- Series 생성 방법  
- 시리즈 데이터의 추가/삭제/갱신 
- 인덱싱        
- 슬라이싱     
- 시리즈 연산     
- 시리즈 속성 및 함수  
- 날짜 인덱스를 이용한 시리즈 생성  

### 판다스/넘파이 모듈 import

- 데이터분석에서 기본 패키지 :  pandas와 numpy 패키지  
- 일반적으로 pandas 모듈은 pd 라는 별칭 사용  
- numpy는 np라는 별칭 사용  

In [6]:
# 한 셀에서 여려 결과 출력
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

In [7]:
import pandas as pd
import numpy as np

#### Series 생성 방법 : pd.Series(집합적 자료형 )
    (1) 리스트로 생성  
    (2) 튜플로 생성  
    (3) 딕셔너리로 생성 
    (4) range()/np.arange() 함수 사용해서 생성

 #### (1) 리스트로 생성  
 - index는 명시하지 않을 경우 기본적으로 0부터 자동 생성

In [4]:
# pd.Series(집합적 자료형)
# pd.Series(리스트)
# index는 명시하지 않을 경우 기본적으로 0부터 자동 생성
s = pd.Series([1, 2, 3])
s
# index value

0    1
1    2
2    3
dtype: int64

In [5]:
# 리스트 내에 서로 다른 타입의 데이터가 있으면 형변환 발생
# 문자열이 포함된 경우 문자형 (object)으로 변환
s = pd.Series(['a', 1, 3.0])
s

0      a
1      1
2    3.0
dtype: object

In [6]:
# 정수, 실수 섞여 있는 경우 실수로 형변환 (큰 타입으로 변환)
s = pd.Series([0, 1, 3.0])
s

0    0.0
1    1.0
2    3.0
dtype: float64

In [8]:
# 주의!! - NaN 값이 있으면 실수로 인식 
s = pd.Series([0, np.nan, 3])
s

0    0.0
1    NaN
2    3.0
dtype: float64

In [9]:
# index 명시 : 숫자 인덱스
s = pd.Series([1, 2, 3], index=[1, 2, 3])
s

1    1
2    2
3    3
dtype: int64

In [10]:
# index 명시 : 문자 인덱스
s = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
s

a    1
b    2
c    3
dtype: int64

In [11]:
# index 옵션명(인수명) 생략 가능
# pd.Series(데이터, 인덱스)
s = pd.Series([1, 2, 3], ['a', 'b', 'c'])
s

a    1
b    2
c    3
dtype: int64

In [12]:
# 인덱스 중복 가능 : 오류 없음
# 검색 시 중복 확인하고 결과에서 선택해서 출력
s = pd.Series([1, 2, 3], ['a', 'a', 'c'])
s

a    1
a    2
c    3
dtype: int64

In [14]:
# 문자 인덱스 예
# 데이터 : 95, 100, 80
# 인덱스 : 홍길동, 이몽룡, 성춘향
s= pd.Series([95,100,80],['홍길동','이몽룡','성춘향'])
s

score = pd.Series([95, 100, 80], index=['홍길동', '이몽룡', '성춘향'])
score

홍길동     95
이몽룡    100
성춘향     80
dtype: int64

홍길동     95
이몽룡    100
성춘향     80
dtype: int64

In [15]:
# 시리즈 이름 붙이기
# 시리즈.name 속성 사용
s.name = '성적'
s

홍길동     95
이몽룡    100
성춘향     80
Name: 성적, dtype: int64

In [16]:
# index에 이름 붙이기 
# 시리즈.index.name 속성 사용
s.index.name = '성명'
s

성명
홍길동     95
이몽룡    100
성춘향     80
Name: 성적, dtype: int64

In [17]:
# 시리즈의 값 : numpy array() 형태 - 1차원 배열
# 시리즈.values 속성 사용
s.values

array([ 95, 100,  80], dtype=int64)

#### (2) 튜플로 생성  

In [18]:
# pd.Series(튜플)
s2 = pd.Series((1.0, 2.0, 3.0))
s2

0    1.0
1    2.0
2    3.0
dtype: float64

In [19]:
s2 = pd.Series((1.0, 2.0, 3.0), index=[1,2,3])
s2

1    1.0
2    2.0
3    3.0
dtype: float64

#### (3) 딕셔너리로 생성 
- Series({key:value, key1:value1....})  
- key -> 인덱스
- value -> 값

In [20]:
# 딕셔너리로 시리즈 생성 
# 키 : 서울 부산, 인천, 대전
# 값 : 9631482, 3393191, 2632035, 1490158
city = pd.Series({'서울':9631482, '부산':3393191, '인천':2632035, '대전':1490158})
city

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [22]:
city = pd.Series({
    '서울' : 9631482,
    '부산' : 3393191,
    '인천' : 2632035,
    '대전' : 1490158})
city

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [23]:
city.index

Index(['서울', '부산', '인천', '대전'], dtype='object')

In [26]:
# 시리즈의 특정 값 출력 : 인덱스 사용
city['서울']
# city[0]  # 0-base 위치 인덱스 사용 - deprecated 경고
city.iloc[0]  # iloc 사용해야 0-base위치 사용 가능

9631482

9631482

#### (4) range()/np.arange() 함수 사용해서 생성  

In [139]:
# range() 함수 사용해서 시리즈 생성
# range(숫자) : 0부터
s = pd.Series(range(5))
s
# range(5) : 0~4
# index : 0-base 위치 인덱스

0    0
1    1
2    2
3    3
4    4
dtype: int64

In [140]:
# range(start, end) : start ~ end - 1 
s = pd.Series(range(11, 16))
s

0    11
1    12
2    13
3    14
4    15
dtype: int64

In [141]:
# index 설정
s = pd.Series(range(11, 16), range(1, 6))
s

1    11
2    12
3    13
4    14
5    15
dtype: int64

In [11]:
# numpy의 arange() 사용
s = pd.Series(np.arange(5))
s

0    0
1    1
2    2
3    3
4    4
dtype: int64

In [4]:
# 결측값을 포함해서 시리즈 만들기 : NaN
# Numpy : np.nan
# pandas : None(NaN으로 적으면 오류남)


In [142]:
# Numpy : np.nan
s = pd.Series([1,2,3, np.nan, 5, 6])
s

0    1.0
1    2.0
2    3.0
3    NaN
4    5.0
5    6.0
dtype: float64

In [143]:
# pandas : None(NaN으로 적으면 오류남)
s = pd.Series([1, 2, 3, None, 5, 6])
s

0    1.0
1    2.0
2    3.0
3    NaN
4    5.0
5    6.0
dtype: float64

In [13]:
# 시리즈에 데이터 추가
# 새 인덱스로 추가하면 됨 : 시리즈[인덱스] = 값
s = pd.Series([95, 100, 88],
             index = ['홍길동', '이몽룡', '성춘향'])
s

홍길동     95
이몽룡    100
성춘향     88
dtype: int64

In [145]:
# 새 인덱스로 추가하면 됨 : 시리즈[인덱스] = 값
# 인덱스 : 변학도
# 값 : 70
s['변학도'] = 70
s

0       1.0
1       2.0
2       3.0
3       NaN
4       5.0
5       6.0
변학도    70.0
dtype: float64

In [147]:
# 시리즈 값 변경
# 시리즈[기존 인덱스] = new value(덮어씀)
s['홍길동'] = 95
s

0       1.0
1       2.0
2       3.0
3       NaN
4       5.0
5       6.0
변학도    70.0
홍길동    95.0
dtype: float64

In [148]:
# 시리즈 내 원소 삭제 : del 
del s['변학도']
s

0       1.0
1       2.0
2       3.0
3       NaN
4       5.0
5       6.0
홍길동    95.0
dtype: float64

In [16]:
# drop() 사용
# 시리즈.drop(index, axis=0, inplace=True)
# axis=0: 행 의미 (default로 생략 가능)
# inplace=True: 결과 반영(원본 데이터 변경)

In [19]:
s.drop('홍길동') # 실제 데이터는 삭제되지 않고 결과만 보여줌 
s

이몽룡    100
성춘향     88
dtype: int64

홍길동     95
이몽룡    100
성춘향     88
dtype: int64

In [21]:
s.drop('홍길동', axis=0) # 실제 데이터는 삭제되지 않고 결과만 보여줌 
s

이몽룡    100
성춘향     88
dtype: int64

홍길동     95
이몽룡    100
성춘향     88
dtype: int64

In [22]:
s.drop('홍길동', axis=0, inplace=True) # 실제 데이터 삭제
s

이몽룡    100
성춘향     88
dtype: int64

In [None]:
#################################################################################

### 인덱싱  
    - 인덱스 종류    
        (1) 문자형 인덱스    
         - index 명시하지 않으면 0부터 시작하는 정수형 인덱스 자동 지정됨
        (2) 정수형 인덱스   
          -  정수형 인덱스로 명시한 경우 0-base 위치 인덱스 사용 못함 (에러)
        (3) 위치 인덱스  : 0-base 위치 인덱스         
    - 원소 접근  
        (1) 정수형 인덱스 사용 : 시리즈[숫자 인덱스]  
        (2) 문자형 인덱스 사용 : 시리즈['문자 인덱스']   
        (3) 리스트 이용 인덱싱

In [150]:
# (1)문자형 인덱스
s = pd.Series([95, 100, 88],
              index = ['홍길동', '이몽룡', '성춘향'])
s

홍길동     95
이몽룡    100
성춘향     88
dtype: int64

In [152]:
# 첫 번째 원소의 값 출력: 0-base 인덱스
# s[0] # deprecated 
s.iloc[0]

95

95

In [153]:
# (2) 정수형 인덱스 :  0-base 인덱스 아님
s2 = pd.Series([10, 20, 30], index=[1,2,3])
s2

1    10
2    20
3    30
dtype: int64

In [33]:
# 정수형 인덱스 접근
s2[1]
# 1 : 지정한 인덱스 값  0-base아님 

10

In [35]:
# 두 개 이상의 인덱싱 코드를 나열하면 튜플 형태로 출력
s.iloc[0], s['이몽룡']

(100, 100)

In [154]:
# (3) list 이용 indexing
s
s.iloc[0]
s.iloc[[1,0,2]]

홍길동     95
이몽룡    100
성춘향     88
dtype: int64

95

이몽룡    100
홍길동     95
성춘향     88
dtype: int64

In [43]:
# 문자 인덱스인 경우 dot(.)연산자 사용해서 접근 가능
s3 = pd.Series([10,20,30], index=['a','b','c'])
s3

a    10
b    20
c    30
dtype: int64

In [45]:
s3['a']  # 이렇게 인덱스로 접근해도되고
s3.a  # . 으로 바로 접근 가능 

10

10

In [47]:
# 한글 문자 인덱스도 dot 연산자 사용해서 접근 가능
s.이몽룡

100

In [None]:
#################################################################################

### 슬라이싱  
    (1) 0-base 위치 인덱스를 이용한 슬라이싱  
        - 시리즈[start:end] : start ~ end-1까지 추출
    (2) 문자(라벨) 인덱스를 이용한 슬라이싱 
        - 시리즈['시작라벨':'끝라벨']
            - 시작에서 끝까지 양쪽 라벨 포함된 범위 추출  

In [50]:
data = {
    '서울' : 9631482,
    '부산' : 3393191,
    '인천' : 2632035,
    '대전' : 1490158
}

In [51]:
city = pd.Series(data)
city

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [56]:
# slicing
# 부산 ~ 인천 데이터 출력
# 0-base 인덱스 사용
city[1:3]

# 문자 인덱스 사용
city['부산':'인천']

부산    3393191
인천    2632035
dtype: int64

부산    3393191
인천    2632035
dtype: int64

In [58]:
s = pd.Series([100, 200, 300, 400], index=[1, 2, 3, 4])
s

1    100
2    200
3    300
4    400
dtype: int64

In [155]:
# slicing : 100~ 300 출력
s[0:3]

홍길동     95
이몽룡    100
성춘향     88
dtype: int64

In [67]:
# 리스트 사용 인덱싱
# 200, 400, 300 출력
s[[2,4,3]]
# 0-base 인덱스 사용
s.iloc[[1,3,2]]

2    200
4    400
3    300
dtype: int64

2    200
4    400
3    300
dtype: int64

In [None]:
#################################################################################

### 시리즈 연산  
    (1) 벡터화 연산  
    (2) Boolean selection  
    (3) 두 시리즈간의 연산

#####  (1) 벡터화 연산
- 벡터화 연산 : 집합적 자료형의 원소 각각에 대해 독립적으로 계산 수행
    - 단, 연산은 시리즈의 값에만 적용
    - 인덱스 값은 변경 불가

In [71]:
# 시리즈 각 원소에 대해서 + 10한 연산 수행
pd.Series([1, 2, 3]) + 10

0    11
1    12
2    13
dtype: int64

In [74]:
city

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [75]:
city > 2500000

서울     True
부산     True
인천     True
대전    False
dtype: bool

In [77]:
# city 시리즈 값 중에서 2,500,000보다 크고 5,000,000보다 작은 원소를 추출
city[(city > 2500000) &(city < 5000000)]

부산    3393191
인천    2632035
dtype: int64

#### (2) Boolean selection
  - boolean 연산 결과 True에 해당되는 값만 추출 
  - [연산식] : 연산식 결과가 True인 것만 추출
  - 다중조건의 경우, &(and), |(or)를 사용하여 연결 가능

In [156]:
# series s3 생성
# index : 1 ~ 10
# values : 0 ~ 9
s3 = pd.Series(range(0,10), index =range(1,11))
s3

1     0
2     1
3     2
4     3
5     4
6     5
7     6
8     7
9     8
10    9
dtype: int64

In [94]:
# s3 중에서 3보다 크고 7미만인 값만 추출
s3[(s3>3) & (s3<7)]

3    4
4    5
5    6
dtype: int64

In [157]:
# s3 원소중에서 짝수 값만 추출
s3[(s3%2 == 0)]

1    0
3    2
5    4
7    6
9    8
dtype: int64

In [96]:
s3 >= 7

0    False
1    False
2    False
3    False
4    False
5    False
6     True
7     True
8     True
9     True
dtype: bool

##### 딕셔너리 와 시리즈의 관계
- 시리즈 객체는 인덱스를 key로 가지는 딕셔너리 형과 같다고 볼 수 있음
- 딕셔너리에서 제공하는 대부분의 연산자 사용 가능
    - in 연산자 : T/F
    - for 루프를 통해 각 원소의 key와 value에 접근 가능

In [97]:
nums = pd.Series([10, 20, 30, 40], index=['a', 'b', 'c', 'd'])
nums

a    10
b    20
c    30
d    40
dtype: int64

In [99]:
# in연산자 사용
# 키에 해당되는 인덱스 a가 시리즈에 포함되어 있는지 확인
'a' in nums

True

In [158]:
city

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [159]:
city.items()

<zip at 0x144b6bfc0>

In [104]:
list(city.items())

[('서울', 9631482), ('부산', 3393191), ('인천', 2632035), ('대전', 1490158)]

In [106]:
# key, value
# index, value 추출
for k, v in list(city.items()):
    print(k, v)

서울 9631482
부산 3393191
인천 2632035
대전 1490158


In [108]:
# key(index) 추출
for k in city.keys():
    print(k)

서울
부산
인천
대전


In [111]:
# 값 추출
for v in city.values:
    print(v) 

9631482
3393191
2632035
1490158


In [None]:
#################################################################################

### 시리즈 속성 및 함수(메소드)      
     - size 속성 : 원소 개수 반환  
     - shape 속성 : 튜플형태로 shape반환  
     - len() : 길이 (원소 개수 반환)
     - unique() : 유일한 값만 ndarray로 반환  
     - count() : NaN을 제외한 개수를 반환  
     - mean(): NaN을 제외한 평균  
     - value_counts() : NaN을 제외하고 각 값들의 빈도를 반환 

In [118]:
# nan, NaN둘다 된다.
s5 = pd.Series([1, 1, 2, 1, 2, np.nan, 2, 2, 1, 1, 3, 3, 4, 5, 5, 7, np.NaN])
s5

0     1.0
1     1.0
2     2.0
3     1.0
4     2.0
5     NaN
6     2.0
7     2.0
8     1.0
9     1.0
10    3.0
11    3.0
12    4.0
13    5.0
14    5.0
15    7.0
16    NaN
dtype: float64

In [120]:
# 길이 (원소의 개수)
len(s5)
s5.size

17

17

In [122]:
s5.shape # 차원으로 표현하기 때문에 tuple형태로 출력 

(17,)

In [124]:
# unique() : 중복값 제거하고 유일한 값 출력
s5.unique()

array([ 1.,  2., nan,  3.,  4.,  5.,  7.])

In [126]:
s5.count()  # NaN 값 제외

15

In [128]:
# 평균 - NaN값 제외
s5.mean() 

2.6666666666666665

In [130]:
# 각 원소에 대해 동일한 value의 원소끼리 grouping해서 개수 세서 반환
# NaN 제외
s5.value_counts()

1.0    5
2.0    4
3.0    2
5.0    2
4.0    1
7.0    1
dtype: int64

In [132]:
s = pd.Series([1,2,3,4,5], index=['a', 'b', 'c', 'a', 'a'])
s

a    1
b    2
c    3
a    4
a    5
dtype: int64

In [134]:
# index 중복되는게 없는지
s.index.is_unique 

False

In [136]:
s['a']

a    1
a    4
a    5
dtype: int64

In [138]:
# 중복되는 인덱스에서 각 원소 골라내기
s['a'].iloc[0]
s['a'].iloc[1]
s['a'].iloc[2]

1

4

5