###### 2020-10-13 화요일


# Pandas
- 대부분의 데이터는 시계열(Series)이거나 표(table) 형태로 정의해야한다.
- Series 클래스와 DataFrame 클래스를 제공한다.





##### 목차

##### 1. Series 클래스

##### 2. Series indexing

##### 3. Series 실습 (+ datetime 패키지)

In [2]:
# 데이터 분석을 위한 기본이자 필수 패키지들

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

### 1. Series 클래스
- Numpy의 1차원 배열과 비슷하지만, 각 데이터의 의미를 표시하는 인덱스를 숫자가 아닌 label로 표시할 수 있다.
- Series = index + value

In [8]:
# Series와 Numpy array 비교
arr = np.array([1, 2, 3, 4, 'Hello'], dtype=np.object)  # dtype=np.object를 적용해주면 원소의 타입이 달라도 된다.
print(arr)
print(arr.dtype)

[1 2 3 4 'Hello']
object


In [14]:
s = pd.Series([1, 2, 3, 4], dtype=np.float64)
print(s)

print(s.values) # Series에서 원소값만 np.array 형태로 가져올수 있는 방법
print(type(s.values))
print(s.index)
print(type(s.index))

0    1.0
1    2.0
2    3.0
3    4.0
dtype: float64
[1. 2. 3. 4.]
<class 'numpy.ndarray'>
RangeIndex(start=0, stop=4, step=1)
<class 'pandas.core.indexes.range.RangeIndex'>


시리즈 타입의 데이터 정보를 출력해 주는 함수

In [99]:
def seriesinfo(s):
    print('value :', s.values)
    print('value type :', type(s.values))
    print('index :', s.index)
    print('index type :', type(s.index))
    print('index + value :\n', s)

Series 인덱스의 라벨은 문자열 뿐만 아니라 날짜, 시간, 정수 등이 가능하다.

In [100]:
s = pd.Series([34436, 356345, 53246, 12346],
              dtype=np.int64,
              index=['서울', '부산', '대전', '대구'])
seriesinfo(s)

value : [ 34436 356345  53246  12346]
value type : <class 'numpy.ndarray'>
index : Index(['서울', '부산', '대전', '대구'], dtype='object')
index type : <class 'pandas.core.indexes.base.Index'>
index + value :
 서울     34436
부산    356345
대전     53246
대구     12346
dtype: int64


Series의 index 이름을 지정할 수 있다.

In [101]:
s.index.name = '지역별'
print(s)
print(s / 100)

지역별
서울     34436
부산    356345
대전     53246
대구     12346
dtype: int64
지역별
서울     344.36
부산    3563.45
대전     532.46
대구     123.46
dtype: float64


### 2. Series indexing

- np.array와 같이 index의 번호를 이용해 indexing에 접근할 수 도있지만, index에 부여한 label을 이용하여 indexing을 진행할 수 있다.

In [34]:
# 서울의 값을 가져와라
print(s['서울'])
print(s[0])
print()

# 대구의 값을 가져와라
print(s['대구'])
print(s[3])
print()

# 서울과 부산의 값을 가져와라
print(s[0:2])
print(s['서울':'부산'])
print(s[ ['서울', '부산'] ])

34436
34436

12346
12346

지역별
서울     34436
부산    356345
dtype: int64
지역별
서울     34436
부산    356345
dtype: int64
지역별
서울     34436
부산    356345
dtype: int64


또한, Series는 dictionary와 같이 취급할 수 있다!


In [40]:
s = pd.Series([34436, 356345, 53246, 12346],
              dtype=np.int64,
              index=['서울', '부산', '대전', '대구'])

print('서울' in s)
print('강원' in s)
print()
print()
for key, items in s.items():
    print('key : {}, value : {}' .format(key, items))

True
False


key : 서울, value : 34436
key : 부산, value : 356345
key : 대전, value : 53246
key : 대구, value : 12346


In [39]:
for key, items in s.items():
    print('key : {}, value : {}' .format(key, items))

key : 서울, value : 34436
key : 부산, value : 356345
key : 대전, value : 53246
key : 대구, value : 12346


In [55]:
s2 = pd.Series({'c' : 1,
               'b' : '5',
               'a' : -5,
               'k' : 10})

seriesinfo(s2)

value : [1 '5' -5 10]
value type : <class 'numpy.ndarray'>
index : Index(['c', 'b', 'a', 'k'], dtype='object')
index type : <class 'pandas.core.indexes.base.Index'>
index + value :
 c     1
b     5
a    -5
k    10
dtype: object


In [64]:
# Fancy indexing & Boolean indexing
print('fancy [0, 2] indexing :\n{}' .format( s2[[0, 2]] ) )
print()

# boolean indexing 2의 배수인 것
s3 = s2.astype('float')
print(s3[ s3%2==0 ])


fancy [0, 2] indexing :
c     1
a    -5
dtype: object

k    10.0
dtype: float64


Series에 dictionary 형태로 데이터를 투입하였다 하더라도 dictionary의 key값을 기준으로 반환하는 것이 아니라

index에 부여한 label 값을 기준으로 값을 반환한다.

만약 index에만 있고 dictionary에 존재하지 않는 label은 'NaN'이다

In [67]:
s3 = pd.Series({'서울' : 34436, 
                '부산' : 356345, 
                '인천' : 53246, 
                '대전' : 12346},
              dtype=np.int64,
              index=['뉴욕', '서울', '대전', '인천'])
seriesinfo(s3)

value : [   nan 34436. 12346. 53246.]
value type : <class 'numpy.ndarray'>
index : Index(['뉴욕', '서울', '대전', '인천'], dtype='object')
index type : <class 'pandas.core.indexes.base.Index'>
index + value :
 뉴욕        NaN
서울    34436.0
대전    12346.0
인천    53246.0
dtype: float64


시리즈는 만들때 index이름을 지정해 줄 수 있는데,
이 이름을 기반으로 시리즈의 연산을 수행한다.
그러므로 index의 이름이 다르다면 연산을 수행할 수 없다.

In [68]:
diff_s = s - s2
print(diff_s)

a     NaN
b     NaN
c     NaN
k     NaN
대구    NaN
대전    NaN
부산    NaN
서울    NaN
dtype: object


### 3. Series 실습


###### A공장의 2019-01-01 부터 10일 간의 생산량을 Series에 저장
###### 생산량은 평균이 50이고, 편차가 5인 정규분포 생성 (각 원소는 정수값만을 가지게한다.)


###### B공장의 2019-01-01부터 10일 간의 생산량을 Series에 저장
###### 생산량은 평균이 10이고 편차가 8인 정규분포 생성(정수)


###### 날짜별로 모든 공장의 생산량 합계를 구한다면?

In [72]:
from datetime import date, datetime, timedelta
from dateutil.parser import parse

`날짜자료형` + timedelta(1) : 날짜에 1일을 더한다.

In [96]:
start_day = datetime(2019, 1, 1) # 2019년 1월 1일의 datetime 자료형을 생성한다.
days = [ start_day + timedelta(day) for day in range(0, 10)]  # timedelta()를 이용해 10일간의 날짜를 만든다.

int_list_A = [ int(element) for element in np.random.normal(50, 5, (10, )) ]
facA = pd.Series(int_list_A, index=days)
facA.index.name = '날짜'

int_list_B = [ int(element) for element in np.random.normal(10, 8, (10, )) ]
facB = pd.Series(int_list_B, index=days)
facB.index.name = '날짜'

In [97]:
print('A 공장 :\n', facA)
print()
print('B 공장 :\n', facB)

A 공장 :
 날짜
2019-01-01    56
2019-01-02    51
2019-01-03    57
2019-01-04    47
2019-01-05    48
2019-01-06    56
2019-01-07    41
2019-01-08    49
2019-01-09    54
2019-01-10    53
dtype: int64

B 공장 :
 날짜
2019-01-01    10
2019-01-02    -6
2019-01-03    20
2019-01-04     5
2019-01-05     6
2019-01-06     1
2019-01-07     8
2019-01-08     3
2019-01-09     7
2019-01-10    -1
dtype: int64


In [98]:
print(facA + facB)

날짜
2019-01-01    66
2019-01-02    45
2019-01-03    77
2019-01-04    52
2019-01-05    54
2019-01-06    57
2019-01-07    49
2019-01-08    52
2019-01-09    61
2019-01-10    52
dtype: int64
