- 넘파이 : 배열을 핸들링하면서 쓸수 있게 제공
- 판다스 : 데이터를 다룰수 있는 방법을 제공해주는 라이브러리

# Pandas

- 분석할려는 데이터는 대부분 시계열(Series) 이거나 표(table) 형태로 정의해야한다.
- Series 클래스와 DataFrame 클래스를 제공한다.

In [5]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

### Series 클래스
- 넘파이의 1차원배열과 비슷하지만, 각데이터의 의미를 표시하는 인덱스를 붙일 수 있다
- series=index+value (series는 2차원의 배열이라고 생각하면 된다.)

In [123]:
# Series와 numpy array 비교
arr=np.array([1,2,3,4,'jslim'],dtype=np.object)
print(arr)
print(arr.dtype)

[1 2 3 4 'jslim']
object


In [126]:
s=pd.Series([1,2,3,4],dtype=np.float64)
print(s)
print('*'*50)
print(type(s.values))
print('*'*50)
print(s.index)
print('*'*50)
print(type(s.index))

0    1.0
1    2.0
2    3.0
3    4.0
dtype: float64
**************************************************
<class 'numpy.ndarray'>
**************************************************
RangeIndex(start=0, stop=4, step=1)
**************************************************
<class 'pandas.core.indexes.range.RangeIndex'>


In [16]:
def serieinfo(s):
    print('value :',s.values)
    print('value type :',type(s.values))
    print('index :',s.index)
    print('index type:',type(s.index))
    print('index+value:',s)

In [28]:
# index의 라벨은 문자열뿐만아니라 날짜,시간,정수 등 가능
# index와 Series 갯수 똑같아야함
s=pd.Series([345645,245645,45,153545],
            dtype=np.int64,
            index=['서울','부산','대전','광주'])
serieinfo(s)

value : [345645 245645     45 153545]
value type : <class 'numpy.ndarray'>
index : Index(['서울', '부산', '대전', '광주'], dtype='object')
index type: <class 'pandas.core.indexes.base.Index'>
index+value: 서울    345645
부산    245645
대전        45
광주    153545
dtype: int64


In [127]:
friend=pd.Series([163,147,162,161,157],
                dtype=np.int64,
                index=['김민경','김유리','김예림','홍현빈','김수진'])
serieinfo(friend)

value : [163 147 162 161 157]
value type : <class 'numpy.ndarray'>
index : Index(['김민경', '김유리', '김예림', '홍현빈', '김수진'], dtype='object')
index type: <class 'pandas.core.indexes.base.Index'>
index+value: 김민경    163
김유리    147
김예림    162
홍현빈    161
김수진    157
dtype: int64


In [134]:
friend.index.name="친구이름"
print(friend[['김민경','김수진']])

친구이름
김민경    163
김수진    157
dtype: int64


In [31]:
s.index.name='지역별'
print(s)

지역별
서울    345645
부산    245645
대전        45
광주    153545
dtype: int64


In [32]:
s/1000000

지역별
서울    0.345645
부산    0.245645
대전    0.000045
광주    0.153545
dtype: float64

- series indexing

In [34]:
# 서울을 가지고 오고싶을때 
print(s[0])
print(s['서울'])

345645
345645


In [35]:
# 광주를 가지고 오고싶을때
print(s[3])

153545


In [42]:
# 슬라이싱
print(s['서울':'부산'])
# print(s['서울','부산']) #부분 인덱싱하기 위해서는 대괄호 하나더

지역별
서울    345645
부산    245645
dtype: int64


In [43]:
print(s[['서울','부산']])

지역별
서울    345645
부산    245645
dtype: int64


In [44]:
'서울' in s

True

In [45]:
'부산' in s

True

In [46]:
'강원' in s

False

In [135]:
for key, value in s.items():
    print('key : {},value={}'.format(key,value))

key : 0,value=1.0
key : 1,value=2.0
key : 2,value=3.0
key : 3,value=4.0


In [57]:
s2=pd.Series({'c':1,'b':5,'a':-8,'k':10},dtype=np.float64)
serieinfo(s2)

value : [ 1.  5. -8. 10.]
value type : <class 'numpy.ndarray'>
index : Index(['c', 'b', 'a', 'k'], dtype='object')
index type: <class 'pandas.core.indexes.base.Index'>
index+value: c     1.0
b     5.0
a    -8.0
k    10.0
dtype: float64


In [136]:
friend=pd.Series({'김민경':163,'김수진':157,'김예림':160,'홍현빈':162},dtype=np.float64)
serieinfo(friend)

value : [163. 157. 160. 162.]
value type : <class 'numpy.ndarray'>
index : Index(['김민경', '김수진', '김예림', '홍현빈'], dtype='object')
index type: <class 'pandas.core.indexes.base.Index'>
index+value: 김민경    163.0
김수진    157.0
김예림    160.0
홍현빈    162.0
dtype: float64


In [138]:
# Fancy indexing & Boolean indexing
print('fancy [0,2] indexing : {}'.format(s2[ [0,2] ]))
print('*'*20)
print('friend[0,2]indexing:{}'.format(friend[[0,2]]))

fancy [0,2] indexing : c    1.0
a   -8.0
dtype: float64
********************
friend[0,2]indexing:김민경    163.0
김예림    160.0
dtype: float64


In [139]:
# boolean indexing 2의 배수인것
print('boolean indexing s2%2==0:{}'.format(s2[s2%2==0]))
print('*'*20)
print('boolean indexing friend%2==0:{}'.format(friend[friend%2==0]))

boolean indexing s2%2==0:a    -8.0
k    10.0
dtype: float64
********************
boolean indexing friend%2==0:김예림    160.0
홍현빈    162.0
dtype: float64


In [60]:
# index의 라벨은 문자열뿐만아니라 날짜,시간,정수 등 가능
# index와 Series 갯수 똑같아야함
s3=pd.Series({'서울':345645,'부산': 245645,'인천': 45,'대전':153545},
            dtype=np.int32,
            index=['광주','대전','부산','서울'])
serieinfo(s3)
# 딕셔너리에 있는 key와 index에 존재하는 key에 다른점이 광주인데
# 광주는 데이터를 가질수없다. 매칭되지않으면 데이터를 가져올수 없다.

value : [    nan 153545. 245645. 345645.]
value type : <class 'numpy.ndarray'>
index : Index(['광주', '대전', '부산', '서울'], dtype='object')
index type: <class 'pandas.core.indexes.base.Index'>
index+value: 광주         NaN
대전    153545.0
부산    245645.0
서울    345645.0
dtype: float64


In [62]:
diff_s=s-s2
print(diff_s) # 이름이 같지 않기 때문에 결과가 이렇게 나옴.

a    NaN
b    NaN
c    NaN
k    NaN
광주   NaN
대전   NaN
부산   NaN
서울   NaN
dtype: float64


In [63]:
# A공장의 2019-01-01부터 10일간 생산량을 series로 저장
# 생산량은 평균이 50이고 편차가 5인 정규분포 생성

# B공장의 2019-01-01부터 10일간 생산량을 series로 저장
# 생산량은 평균이 70이고 편차가 8인 정규분포 생성

In [118]:
import numpy as np
import pandas as pd
from datetime import date,datetime,timedelta
from dateutil.parser import parse

In [146]:
start_day=datetime(2019,1,1)
#print(start_day)
factA=pd.Series([ int(x) for x in np.random.normal(50,5,10)] ,
                 index=[start_day + timedelta(days=x) for x in range(10)] )
print(factA)
print('*'*50)
factB=pd.Series([ int(x) for x in np.random.normal(70,8,10)] ,
                 index=[start_day + timedelta(days=x) for x in range(1,21,2)] )
print(factB)

2019-01-01    56
2019-01-02    51
2019-01-03    39
2019-01-04    60
2019-01-05    47
2019-01-06    52
2019-01-07    53
2019-01-08    58
2019-01-09    52
2019-01-10    42
dtype: int64
**************************************************
2019-01-02    68
2019-01-04    70
2019-01-06    66
2019-01-08    70
2019-01-10    71
2019-01-12    67
2019-01-14    71
2019-01-16    61
2019-01-18    75
2019-01-20    67
dtype: int64


In [120]:
# 단위 테스트를 위한 셀
np.random.normal(50,5,(10,))
print(start_day + timedelta(days=2))

2019-01-03 00:00:00


In [121]:
print(factA.index)
print(factB.index)

DatetimeIndex(['2019-01-01', '2019-01-02', '2019-01-03', '2019-01-04',
               '2019-01-05', '2019-01-06', '2019-01-07', '2019-01-08',
               '2019-01-09', '2019-01-10'],
              dtype='datetime64[ns]', freq=None)
DatetimeIndex(['2019-01-02', '2019-01-04', '2019-01-06', '2019-01-08',
               '2019-01-10', '2019-01-12', '2019-01-14', '2019-01-16',
               '2019-01-18', '2019-01-20'],
              dtype='datetime64[ns]', freq=None)


In [122]:
print(factA+factB)

2019-01-01      NaN
2019-01-02    125.0
2019-01-03      NaN
2019-01-04    130.0
2019-01-05      NaN
2019-01-06    129.0
2019-01-07      NaN
2019-01-08    133.0
2019-01-09      NaN
2019-01-10    122.0
2019-01-12      NaN
2019-01-14      NaN
2019-01-16      NaN
2019-01-18      NaN
2019-01-20      NaN
dtype: float64


-------------------------------------------------------------------------
-------------------------------------------------------------------------

In [141]:
# A공장의 2019-01-05부터 10일간 생산량을 series로 저장
# 생산량은 평균이 100이고 편차가 10인 정규분포 생성

# B공장의 2019-01-05부터 10일간 생산량을 series로 저장
# 생산량은 평균이 150이고 편차가 5인 정규분포 생성

In [147]:
start_day=datetime(2019,1,5)
#print(start_day)
factA=pd.Series([ int(x) for x in np.random.normal(100,10,10)] ,
                 index=[start_day + timedelta(days=x) for x in range(10)] )
print(factA)
print('*'*50)
factB=pd.Series([ int(x) for x in np.random.normal(150,5,10)] ,
                 index=[start_day + timedelta(days=x) for x in range(1,21,2)] )
print(factB)

2019-01-05     99
2019-01-06     95
2019-01-07     98
2019-01-08    106
2019-01-09     97
2019-01-10    105
2019-01-11     98
2019-01-12    120
2019-01-13    120
2019-01-14    104
dtype: int64
**************************************************
2019-01-06    148
2019-01-08    152
2019-01-10    152
2019-01-12    143
2019-01-14    140
2019-01-16    149
2019-01-18    158
2019-01-20    148
2019-01-22    142
2019-01-24    155
dtype: int64


In [148]:
print(factA.index)
print(factB.index)

DatetimeIndex(['2019-01-05', '2019-01-06', '2019-01-07', '2019-01-08',
               '2019-01-09', '2019-01-10', '2019-01-11', '2019-01-12',
               '2019-01-13', '2019-01-14'],
              dtype='datetime64[ns]', freq=None)
DatetimeIndex(['2019-01-06', '2019-01-08', '2019-01-10', '2019-01-12',
               '2019-01-14', '2019-01-16', '2019-01-18', '2019-01-20',
               '2019-01-22', '2019-01-24'],
              dtype='datetime64[ns]', freq=None)


In [144]:
print(factA+factB)

2019-01-05      NaN
2019-01-06    170.0
2019-01-07      NaN
2019-01-08    152.0
2019-01-09      NaN
2019-01-10    174.0
2019-01-11      NaN
2019-01-12    167.0
2019-01-13      NaN
2019-01-14    171.0
2019-01-16      NaN
2019-01-18      NaN
2019-01-20      NaN
2019-01-22      NaN
2019-01-24      NaN
dtype: float64
