# Pandas
- 분석하려는 데이터는 대부분 시계열(Series) 또는 표(table) 형태로 정의해야 한다.
- Series 클래스와 DataFrame 클래스 제공

In [4]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

### Series 클래스
- numpy의 1차원배열과 비슷하지만 각 데이터의 의미를 표시하는 인덱스를 붙일 수 있다.
- series = index + value

In [6]:
# Series 와 numpy array 비교
arr = np.array([1, 2, 3, 4, 'jslim'], dtype = np.object)
print(arr)
print(arr.dtype)

[1 2 3 4 'jslim']
object


In [13]:
s = pd.Series([1, 2, 3, 4], dtype = np.float64)
print(s)
print(s.values) # 값만 가져올 수 있다.
print(type(s.values)) # 값만 가져오면 배열이 된다.
print(s.index)
print(type(s.index))

0    1.0
1    2.0
2    3.0
3    4.0
dtype: float64
[1. 2. 3. 4.]
<class 'numpy.ndarray'>
RangeIndex(start=0, stop=4, step=1)
<class 'pandas.core.indexes.range.RangeIndex'>


In [20]:
def seriesInfo(s) :
    print('value :', s.values)
    print('value type :', type(s.values))
    print('index :', s.index)
    print('index type :', type(s.index))
    print('index + value :')
    print(s)

In [32]:
# index의 라벨은 문자열 뿐만 아리나 날짜, 시간, 정수 등 가능
s = pd.Series([344234, 234237, 345378, 456741], dtype = np.int32, index = ['서울', '부산', '대전', '광주'])
seriesInfo(s)

value : [344234 234237 345378 456741]
value type : <class 'numpy.ndarray'>
index : Index(['서울', '부산', '대전', '광주'], dtype='object')
index type : <class 'pandas.core.indexes.base.Index'>
index + value :
서울    344234
부산    234237
대전    345378
광주    456741
dtype: int32


In [33]:
s.index.name = '지역별'
print(s)

지역별
서울    344234
부산    234237
대전    345378
광주    456741
dtype: int32


In [38]:
# Series 연산
# index에 영향을 미치지 않는다.
s / 100000

지역별
서울    3.44234
부산    2.34237
대전    3.45378
광주    4.56741
dtype: float64

### series indexing

In [41]:
print(s[0])
print(s['서울'])

344234
344234


In [48]:
print(s[0:2])
print('*' * 50)

print(s['서울' : '부산']) # label indexing 은 정수가 아니기 때문에 end - 1 을 하지 않는다.
print('*' * 50)

print(s[['서울', '대전']]) # 부분 indexing 은 대괄호를 하나 더 추가해준다.
print('*' * 50)

print(s[[0, 2]])

지역별
서울    344234
부산    234237
dtype: int32
**************************************************
지역별
서울    344234
부산    234237
dtype: int32
**************************************************
지역별
서울    344234
대전    345378
dtype: int32
**************************************************
지역별
서울    344234
대전    345378
dtype: int32


In [51]:
# dictionary 데이터 타입처럼 사용 가능
print('서울' in s)
print('*' * 50)

for key, value in s.items() :
    print('key : {}, value : {}'.format(key, value))

True
**************************************************
key : 서울, value : 344234
key : 부산, value : 234237
key : 대전, value : 345378
key : 광주, value : 456741


In [62]:
s2 = pd.Series({'c' : 1, 'b' : 5, 'a' : -8, 'k' : 10})
seriesInfo(s2)

value : [ 1  5 -8 10]
value type : <class 'numpy.ndarray'>
index : Index(['c', 'b', 'a', 'k'], dtype='object')
index type : <class 'pandas.core.indexes.base.Index'>
index + value :
c     1
b     5
a    -8
k    10
dtype: int64


In [63]:
# Fancy Indexing & Boolean Indexing
print('fancy [0, 2] indexing : \n{}'.format(s2[[0, 2]]))
print('*' * 50)

print('boolean 2의 배수 : \n{}'.format(s2[s2 % 2 == 0]))

fancy [0, 2] indexing : 
c    1
a   -8
dtype: int64
**************************************************
boolean 2의 배수 : 
a    -8
k    10
dtype: int64


In [65]:
# index의 라벨은 문자열 뿐만 아리나 날짜, 시간, 정수 등 가능
s3 = pd.Series({'서울' : 344234, '부산' : 234237, '인천' : 345378, '대전' : 456741}, 
               dtype = np.int32, 
               index = ['광주', '대전', '부산', '서울'])
seriesInfo(s3)

value : [    nan 456741. 234237. 344234.]
value type : <class 'numpy.ndarray'>
index : Index(['광주', '대전', '부산', '서울'], dtype='object')
index type : <class 'pandas.core.indexes.base.Index'>
index + value :
광주         NaN
대전    456741.0
부산    234237.0
서울    344234.0
dtype: float64


In [67]:
diff_s = s - s2
print(diff_s) # 인덱스가 다르기 때문에 결과가 나오지 않는다.

a    NaN
b    NaN
c    NaN
k    NaN
광주   NaN
대전   NaN
부산   NaN
서울   NaN
dtype: float64


In [None]:
# A 공장의 2019-01-01 부터 10일간의 생산량을 Series에 저장
# 생산량은 평균이 50 이고 편차가 5인 정규분포 생성(정수)

# B 공장의 2019-01-01 부터 10일간의 생산량을 Series에 저장
# 생산량은 평균이 70 이고 편차가 8인 정규분포 생성(정수)

# 날짜별로 모든 공장의 생산량 합계를 구하면?

In [68]:
import numpy as np
import pandas as pd
from datetime import date, datetime, timedelta
from dateutil.parser import parse

In [89]:
start_day = datetime(2019, 1, 1)
# start_day = parse('2019-01-01')

# print(start_day)

facA = pd.Series([int(x) for x in np.random.normal(50, 5, (10))], index = [start_day + timedelta(days = i) for i in range(10)])
print(facA)
print('*' * 50)

facB = pd.Series([int(x) for x in np.random.normal(70, 8, (10))], index = [start_day + timedelta(days = i) for i in range(10)])
print(facB)
print('*' * 50)

print(facA + facB)

2019-01-01    53
2019-01-02    47
2019-01-03    59
2019-01-04    47
2019-01-05    55
2019-01-06    41
2019-01-07    50
2019-01-08    53
2019-01-09    54
2019-01-10    59
dtype: int64
**************************************************
2019-01-01    58
2019-01-02    84
2019-01-03    71
2019-01-04    82
2019-01-05    72
2019-01-06    59
2019-01-07    65
2019-01-08    80
2019-01-09    74
2019-01-10    65
dtype: int64
**************************************************
2019-01-01    111
2019-01-02    131
2019-01-03    130
2019-01-04    129
2019-01-05    127
2019-01-06    100
2019-01-07    115
2019-01-08    133
2019-01-09    128
2019-01-10    124
dtype: int64
