# Pandas

- 분석하려는 데이터는 대부분 시계열(Series) 이거나, 표(table) 형태로 정의해야 한다.
- Series 클래스와 DataFrame 클래스를 제공한다. / Series는 벡터, DataFrame 배열(행렬)
- Numpy 수행 속도가 빠름

In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## Series 클래스
- 넘차이의 1차원 배열과 비슷하지만 , pandes는 각 데이터의 의미를 표시하는 인덱스로 붙일 수 있다.
- series = index + value

In [8]:
# series 와 numpy array 비교
arr = np.array([1,2,3,4,'jslim'] , dtype=np.object)
print(arr)
print(arr.dtype)

[1 2 3 4 'jslim']
object


In [15]:
s = pd.Series([1,2,3,4] , dtype=np.float64)
print(s)
print(s.values)
print(type(s.values))
print(s.index)
print(type(s.index))

0    1.0
1    2.0
2    3.0
3    4.0
dtype: float64
[1. 2. 3. 4.]
<class 'numpy.ndarray'>
RangeIndex(start=0, stop=4, step=1)
<class 'pandas.core.indexes.range.RangeIndex'>


In [17]:
def serieInfo(s) :
    print('value :' , s.values)
    print('value type :' , type(s.values))
    print('index : ' , s.index)
    print('index type :' , type(s.index))
    print('index + value : ' , s)

In [22]:
# 인덱스의 라벨은 문자열뿐만 아니라, 날짜, 시간, 정수 등이 가능하다.
s = pd.Series([344234, 2342333, 345333, 456742],
             index = np.arange(4))
serieInfo(s)

value : [344234  23423   3453  45674]
value type : <class 'numpy.ndarray'>
index :  Int64Index([0, 1, 2, 3], dtype='int64')
index type : <class 'pandas.core.indexes.numeric.Int64Index'>
index + value :  0    344234
1     23423
2      3453
3     45674
dtype: int64


In [27]:
# 인덱스의 라벨은 문자열뿐만 아니라, 날짜, 시간, 정수 등이 가능하다.
s = pd.Series([344234, 23423, 3453, 45674],
              dtype=np.int32 ,
              index=['서울', '부산', '대전', '광주'])
serieInfo(s)

value : [344234  23423   3453  45674]
value type : <class 'numpy.ndarray'>
index :  Index(['서울', '부산', '대전', '광주'], dtype='object')
index type : <class 'pandas.core.indexes.base.Index'>
index + value :  서울    344234
부산     23423
대전      3453
광주     45674
dtype: int32


In [28]:
s.index.name = '지역별'
print(s)

지역별
서울    344234
부산     23423
대전      3453
광주     45674
dtype: int32


In [30]:
s / 100000

지역별
서울    3.44234
부산    0.23423
대전    0.03453
광주    0.45674
dtype: float64

### series indexing

In [40]:
s[3] #인덱싱
s['광주']
s[0:2] #슬라이싱
s['서울':'대전'] #라벨 인덱싱은 -1 적용이 안 되서, 대전까지 리턴된다

지역별
서울    344234
부산     23423
대전      3453
dtype: int32

In [42]:
s[['서울', '대전']] #[[]] 해줘야 인덱싱 가능

지역별
서울    344234
대전      3453
dtype: int32

In [45]:
'강원' in s

False

In [47]:
for key , value in s.items() :
    print('key : {} , value = {}'.format(key, value))

key : 서울 , value = 344234
key : 부산 , value = 23423
key : 대전 , value = 3453
key : 광주 , value = 45674


In [62]:
s2 = pd.Series({'c' : 1, 'b' : '5', 'a' : -8, 'k' : 10}, dtype=np.float64)
serieInfo(s2)

value : [ 1.  5. -8. 10.]
value type : <class 'numpy.ndarray'>
index :  Index(['c', 'b', 'a', 'k'], dtype='object')
index type : <class 'pandas.core.indexes.base.Index'>
index + value :  c     1.0
b     5.0
a    -8.0
k    10.0
dtype: float64


### Fancy Indexing 

In [63]:
print('fancy [0,2] indexing : {}'.format(s2[[0,2]]))

fancy [0,2] indexing : c    1.0
a   -8.0
dtype: float64


### Boolean Indexing

In [64]:
# boolean indexing으로 2의 배수인 것 추출
print('boolean s2%2==0 : {}'.format(s2[s2%2==0]))

boolean s2%2==0 : a    -8.0
k    10.0
dtype: float64


In [68]:
s3 = pd.Series({'서울' : 344234, '부산' : 23423, '인천' : 345343, '대전' : 45674},
              dtype=np.int32 ,
              index=['광주', '대전', '부산', '서울']) #key 값보다 우리가 지정한 index가 우선으로 적용된다.
                # index + value 로 가져올 때 딕셔너리에 없는 것은 가져올 수 없다.
serieInfo(s3)

value : [    nan  45674.  23423. 344234.]
value type : <class 'numpy.ndarray'>
index :  Index(['광주', '대전', '부산', '서울'], dtype='object')
index type : <class 'pandas.core.indexes.base.Index'>
index + value :  광주         NaN
대전     45674.0
부산     23423.0
서울    344234.0
dtype: float64


In [71]:
diff_s = s - s2
print(diff_s)
#series 끼리도 연산이 가능하다. 인덱스의 이름을 가지고 연산이 가능하다. 
#위 코드의 경우 인덱스 이름이 다르기 때문에 연산이 되지 않는 것을 확인할 수 있다.

a    NaN
b    NaN
c    NaN
k    NaN
광주   NaN
대전   NaN
부산   NaN
서울   NaN
dtype: float64


In [None]:
# A 공장의 2019-01-01 부터 10일간의 생산량을 Series에 저장
# 생산량은 평균이 50이고, 편차가 5인 정규분포 생성(정수)

# B 공장의 2019-01-01 부터 10일간의 생산량을 Series에 저장
# 생산량은 평균이 70이고 편차가 6인 정규분포 생성(정수)

#날짜별로 모든 공장의 생산량 합계를 구한다면?

In [72]:
import numpy as np
import pandas as pd
from datetime import date, datetime, timedelta
from dateutil.parser import parse

In [94]:
start_day = datetime(2019, 1, 1)
print(start_day)
facA = pd.Series([ int(x) for x in np.random.normal(50, 5, (10,))] ,
                index=[ start_day + timedelta(days=idx) for idx in range(10) ])
print(facA)
facB = pd.Series([ int(x) for x in np.random.normal(70, 8, (10,))] ,
                index=[ start_day + timedelta(days=idx) for idx in range(10) ])

print("*" * 50)
print(facB)

2019-01-01 00:00:00
2019-01-01    46
2019-01-02    55
2019-01-03    48
2019-01-04    46
2019-01-05    57
2019-01-06    41
2019-01-07    46
2019-01-08    51
2019-01-09    48
2019-01-10    51
dtype: int64
**************************************************
2019-01-01    65
2019-01-02    63
2019-01-03    74
2019-01-04    77
2019-01-05    66
2019-01-06    78
2019-01-07    76
2019-01-08    76
2019-01-09    62
2019-01-10    67
dtype: int64


In [87]:
# 단위 테스트를 위한 셀
# type( np.random.normal(50, 5, (10,)) )
print(start_day + timedelta(days=1))

2019-01-02 00:00:00


In [92]:
print(facA.index)
print(facB.index)

DatetimeIndex(['2019-01-01', '2019-01-02', '2019-01-03', '2019-01-04',
               '2019-01-05', '2019-01-06', '2019-01-07', '2019-01-08',
               '2019-01-09', '2019-01-10'],
              dtype='datetime64[ns]', freq=None)
DatetimeIndex(['2019-01-01', '2019-01-02', '2019-01-03', '2019-01-04',
               '2019-01-05', '2019-01-06', '2019-01-07', '2019-01-08',
               '2019-01-09', '2019-01-10'],
              dtype='datetime64[ns]', freq=None)


In [96]:
print(facA + facB)

2019-01-01    111
2019-01-02    118
2019-01-03    122
2019-01-04    123
2019-01-05    123
2019-01-06    119
2019-01-07    122
2019-01-08    127
2019-01-09    110
2019-01-10    118
dtype: int64
