# Pandas

* 분석하려는 데이터는 대부분 시계열(Series)이거나 표(Table) 형태로 정의해야한다.
* Series 클래스와 DataFrame 클래스를 제공한다

In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

### Series 클래스
* 넘파이의 1차원배열과 비슷하지만 각 데이터의 의미를 표시하는 인덱스를 붙일 수 있다
* series = index + value

In [4]:
# Series와 numpy array 비교
arr = np.array([1,2,3,4,'jslim'] , dtype=np.object)
print(arr)
print(arr.dtype)

[1 2 3 4 'jslim']
object


In [10]:
s = pd.Series([1,2,3,4] , dtype=np.float64)
print(s)
print(s.values)
print(type(s.values))
print(s.index)
print(type(s.index))

0    1.0
1    2.0
2    3.0
3    4.0
dtype: float64
[1. 2. 3. 4.]
<class 'numpy.ndarray'>
RangeIndex(start=0, stop=4, step=1)
<class 'pandas.core.indexes.range.RangeIndex'>


In [11]:
def seriesinfo(s) :
    print('value : ', s.values)
    print('value type : ', type(s.values))
    print('index : ',s.index)
    print('index type : ', type(s.index))
    print('index + value : ', s)

In [16]:
s = pd.Series([3333, 4444, 5555, 11111], dtype = np.int64, index=['서울','대구','부산','광주'])
seriesinfo(s)

value :  [ 3333  4444  5555 11111]
value type :  <class 'numpy.ndarray'>
index :  Index(['서울', '대구', '부산', '광주'], dtype='object')
index type :  <class 'pandas.core.indexes.base.Index'>
index + value :  서울     3333
대구     4444
부산     5555
광주    11111
dtype: int64


In [17]:
s.index.name = '지역별'
print(s)

지역별
서울     3333
대구     4444
부산     5555
광주    11111
dtype: int64


In [18]:
s / 100

지역별
서울     33.33
대구     44.44
부산     55.55
광주    111.11
dtype: float64

In [20]:
s / 100000

지역별
서울    0.03333
대구    0.04444
부산    0.05555
광주    0.11111
dtype: float64

* Series indexing

In [31]:
s[['서울' , '부산']]

지역별
서울    3333
부산    5555
dtype: int64

In [34]:
'강원' in s

False

In [35]:
for key, value in s.items() :
    print('key : {}, value = {}'.format(key, value))

key : 서울, value = 3333
key : 대구, value = 4444
key : 부산, value = 5555
key : 광주, value = 11111


In [40]:
s2 = pd.Series({'c' : '1', 'b' : '5', 'a' : -8, 'k' : 10}, dtype = np.float64)
seriesinfo(s2)

value :  [ 1.  5. -8. 10.]
value type :  <class 'numpy.ndarray'>
index :  Index(['c', 'b', 'a', 'k'], dtype='object')
index type :  <class 'pandas.core.indexes.base.Index'>
index + value :  c     1.0
b     5.0
a    -8.0
k    10.0
dtype: float64


In [41]:
# Fancy indexing & Boolean indexing
print('fancy [0,2] indexing : {}'.format( s2[ [0,2] ] ) )
# boolean indexing 2의 배수인 것
print('boolean s2%2 ==0 : {}'.format( s2[s2%2==0] ) )

fancy [0,2] indexing : c    1.0
a   -8.0
dtype: float64
boolean s2%2 ==0 : a    -8.0
k    10.0
dtype: float64


In [43]:
# 인덱스의 라벨은 문자열뿐만 아니라 날짜, 시간, 정수등 가능
s3 = pd.Series({ '서울' : 3333, '부산' : 4444, '인천' : 5555, '대전' : 11111 }, dtype = np.int32, index = ['광주','대전','부산','서울'])
seriesinfo(s3)

value :  [   nan 11111.  4444.  3333.]
value type :  <class 'numpy.ndarray'>
index :  Index(['광주', '대전', '부산', '서울'], dtype='object')
index type :  <class 'pandas.core.indexes.base.Index'>
index + value :  광주        NaN
대전    11111.0
부산     4444.0
서울     3333.0
dtype: float64


In [44]:
diff_s = s - s2 #서로 인덱스가 달라 연산이 되지않음
print(diff_s)

a    NaN
b    NaN
c    NaN
k    NaN
광주   NaN
대구   NaN
부산   NaN
서울   NaN
dtype: float64


In [None]:
# A공장의 2019-01-01 부터 10일간의 생산량을 Series 저장
# 생산량은 평균이 50이고 편차가 5 인 정규분포 생성(정수)

# B공장의 2019-01-01부터 10일간의 생산량을 Series 저장
# 생산량은 평균이 70이고 편차가 8인 정규분포 생성(정수)

# 날짜별로 모든 공장의 생산량 합계를 구한다면?

In [45]:
import numpy as np
import pandas as pd
from datetime import date, datetime, timedelta
from dateutil.parser import parse


In [53]:
start_day = datetime(2019,1,1)
# print(start_day)
facA = pd.Series([int(x) for x in np.random.normal(50,5,(10,))   ], 
                index = [start_day + timedelta(days=x) for x in range(10) ])

facB = pd.Series([int(x) for x in np.random.normal(70,8,(10,))], index = [start_day + timedelta(days=x) for x in range(10) ])
print(facA)
print(facB)

2019-01-01    43
2019-01-02    52
2019-01-03    51
2019-01-04    47
2019-01-05    56
2019-01-06    44
2019-01-07    47
2019-01-08    60
2019-01-09    48
2019-01-10    42
dtype: int64
2019-01-01    63
2019-01-02    60
2019-01-03    70
2019-01-04    63
2019-01-05    63
2019-01-06    74
2019-01-07    63
2019-01-08    77
2019-01-09    55
2019-01-10    64
dtype: int64


In [56]:
# 단위테스트를 위한 셀
# type(np.random.normal(50,5,(10,)))
print(start_day + timedelta(days=2))

2019-01-03 00:00:00


In [58]:
print(facA + facB)

2019-01-01    106
2019-01-02    112
2019-01-03    121
2019-01-04    110
2019-01-05    119
2019-01-06    118
2019-01-07    110
2019-01-08    137
2019-01-09    103
2019-01-10    106
dtype: int64
