# Pandas
 - 데이터를 다룰 수 있는 방법을 제공해주는 라이브러리
 - 분석하려는 데이터는 대부분 Series(시계열)이거나 Table(표) 형태로 정의해야한다.
 - Series 클래스(벡터 느낌)와 DataFrame 클래스(Matrix)를 제공한다

In [2]:
import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt

### Series 클래스
- 넘파이의 1차원 배열과 비슷하지만 넘파이와는 다르게 각 데이터의 의미를 표시하는 인덱스를 붙일 수 있다. 
- series = index + value

In [6]:
# Series 와 Numpy array  비교
arr = np.array([1,2,3,4], dtype = np.object)
print(arr)
print(arr.dtype)

[1 2 3 4]
object


In [12]:
s = pd.Series([1,2,3,4], dtype = np.float64)
print(s)
print(type(s.values))
print(s.index)
print(type(s.index))

0    1.0
1    2.0
2    3.0
3    4.0
dtype: float64
<class 'numpy.ndarray'>
RangeIndex(start=0, stop=4, step=1)
<class 'pandas.core.indexes.range.RangeIndex'>


In [13]:
def seriesInfo(s) :
    print('value :', s.values)
    print('value type:', type(s.values))
    print('index :', s.index)
    print('index type:',type(s.index))
    print('index +value:',s)
    

In [20]:
# 인덱스의 라벨은 문자열뿐만 아니라 날짜, 시간, 정수 등 가능
s = pd.Series([344234,234234,234234,23423],
              dtype = np.int32,
             index = ['서울', '부산', '대전', '광주'])
seriesInfo(s)

value : [344234 234234 234234  23423]
value type: <class 'numpy.ndarray'>
index : Index(['서울', '부산', '대전', '광주'], dtype='object')
index type: <class 'pandas.core.indexes.base.Index'>
index +value: 서울    344234
부산    234234
대전    234234
광주     23423
dtype: int32


In [21]:
s.index.name = '지역별'
print(s)

지역별
서울    344234
부산    234234
대전    234234
광주     23423
dtype: int32


In [23]:
s/100000

지역별
서울    3.44234
부산    2.34234
대전    2.34234
광주    0.23423
dtype: float64

- series indexing

In [25]:
s['서울'] # s[0]도 가능

344234

In [26]:
s[0:2] # slicing

지역별
서울    344234
부산    234234
dtype: int32

In [31]:
s[['서울','대전']]

지역별
서울    344234
대전    234234
dtype: int32

In [33]:
'서울' in s

True

In [34]:
'강원' in s

False

In [35]:
for key, value in s.items():
    print('key:{}, value {}'.format(key, value))

key:서울, value 344234
key:부산, value 234234
key:대전, value 234234
key:광주, value 23423


In [45]:
s2 = pd.Series({'c' : 1, 'a' : '5', 'c' : -8, 'k' : 10}, dtype = np.float64)    # dictionary
seriesInfo(s2)

value : [-8.  5. 10.]
value type: <class 'numpy.ndarray'>
index : Index(['c', 'a', 'k'], dtype='object')
index type: <class 'pandas.core.indexes.base.Index'>
index +value: c    -8.0
a     5.0
k    10.0
dtype: float64


In [47]:
#Fancy Indexing & boolean indexing
print('fancy[0,2] indexing: {}'.format(s2[[0,2]]))
#boolean indexing 2의 배수인 것
print('boolean s2%2==0: {}'.format(s2[s2%2==0]))

fancy[0,2] indexing: c    -8.0
k    10.0
dtype: float64
boolean s2%2==0: c    -8.0
k    10.0
dtype: float64


In [49]:
# 인덱스의 라벨은 문자열뿐만 아니라 날짜, 시간, 정수 등 가능
s3 = pd.Series({'서울':344234,'부산':234234,'인천':234234,'대전':2342213},
              dtype = np.int32,
             index = ['서울', '부산', '대전', '광주'])
seriesInfo(s3)

value : [ 344234.  234234. 2342213.      nan]
value type: <class 'numpy.ndarray'>
index : Index(['서울', '부산', '대전', '광주'], dtype='object')
index type: <class 'pandas.core.indexes.base.Index'>
index +value: 서울     344234.0
부산     234234.0
대전    2342213.0
광주          NaN
dtype: float64


In [50]:
diff_s = s - s2
print(diff_s)

a    NaN
c    NaN
k    NaN
광주   NaN
대전   NaN
부산   NaN
서울   NaN
dtype: float64


In [None]:
# A 공장의 2019-01-01부터 10일간의 생산량을 Series  저장
# 생산량은 평균이 50이고 편차가 5인 정규분표생성(정수)

In [None]:
# B 공장의 2019-01-01부터 10일간의 생산량을 Series  저장
# 생산량은 평균이 10이고 편차가 8인 정규분표생성(정수)

# 날짜별로 모든 공장의 생산량 합계를 구한다면?


In [79]:
import numpy as np
import pandas as pd
from datetime import date, datetime, timedelta
from dateutil.parser import parse

In [83]:
start_day = datetime(2019,1,1)
print(start_day)
facA = pd.Series([int(x) for x in np.random.normal(50,5,(10,))],
                index  = [start_day + timedelta(days = x) for x in range(10)])
print(facA)
facB = pd.Series([int(x) for x in np.random.normal(70,8,(10,))],
                index  = [start_day + timedelta(days = x) for x in range(10)])
print("*"*50)
print(facB)

2019-01-01 00:00:00
2019-01-01    51
2019-01-02    50
2019-01-03    44
2019-01-04    52
2019-01-05    45
2019-01-06    51
2019-01-07    59
2019-01-08    42
2019-01-09    47
2019-01-10    51
dtype: int64
**************************************************
2019-01-01    78
2019-01-02    78
2019-01-03    77
2019-01-04    76
2019-01-05    60
2019-01-06    64
2019-01-07    70
2019-01-08    77
2019-01-09    81
2019-01-10    57
dtype: int64


In [81]:
# 단위 테스트를 위한 셀
#type(np.random.normal(50,5,(10,)))
print(start_day + timedelta(days = 2))

2019-01-03 00:00:00


In [86]:
print(facA.index)
print(facB.index)

DatetimeIndex(['2019-01-01', '2019-01-02', '2019-01-03', '2019-01-04',
               '2019-01-05', '2019-01-06', '2019-01-07', '2019-01-08',
               '2019-01-09', '2019-01-10'],
              dtype='datetime64[ns]', freq=None)
DatetimeIndex(['2019-01-01', '2019-01-02', '2019-01-03', '2019-01-04',
               '2019-01-05', '2019-01-06', '2019-01-07', '2019-01-08',
               '2019-01-09', '2019-01-10'],
              dtype='datetime64[ns]', freq=None)


In [88]:
print(facA + facB)

2019-01-01    129
2019-01-02    128
2019-01-03    121
2019-01-04    128
2019-01-05    105
2019-01-06    115
2019-01-07    129
2019-01-08    119
2019-01-09    128
2019-01-10    108
dtype: int64
