# Pandas

- 분석하려면 데이터는 대부분 시계열 데이터이거나 표(테이블 형태로) 정의해야
- Series 클래스와 DataFrame 클래스를 제공

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

### Serise 클래스
- 넘파이의 1차원배열과 비슷하지만, 각 데이터의 의미를 표시하는 인덱스를 붙일 수 있다.
- series = index + value

In [5]:
# Series 와 numpy array 비교
arr = np.array([1,2,3,4, 'jslim'], dtype=np.object)
print(arr)
print(arr.dtype)

[1 2 3 4 'jslim']
object


In [10]:
s = pd.Series([1,2,3,4], dtype=np.float64)
print(s)
print(s.values)
print(type(s.values))
print(s.index)
print(type(s.index))

0    1.0
1    2.0
2    3.0
3    4.0
dtype: float64
[1. 2. 3. 4.]
<class 'numpy.ndarray'>
RangeIndex(start=0, stop=4, step=1)
<class 'pandas.core.indexes.range.RangeIndex'>


In [11]:
def seriesInfo(s):
    print('value: ', s.values)
    print('value type: ',type(s.values))
    print('index: ',s.index)
    print('index type: ',type(s.index))
    print(s)

In [22]:
# 인덱스의 라벨은 문자열뿐만 아니라 날짜, 시간, 정수 등 가능

s = pd.Series([333432,344543,322343,345432],dtype=np.int64,
                      index = ['서울','부산','대전','광주'])
seriesInfo(s)

value:  [333432 344543 322343 345432]
value type:  <class 'numpy.ndarray'>
index:  Index(['서울', '부산', '대전', '광주'], dtype='object')
index type:  <class 'pandas.core.indexes.base.Index'>
서울    333432
부산    344543
대전    322343
광주    345432
dtype: int64


In [23]:
s.index.name='지역별'
print(s)

지역별
서울    333432
부산    344543
대전    322343
광주    345432
dtype: int64


In [25]:
s/100000

지역별
서울    3.33432
부산    3.44543
대전    3.22343
광주    3.45432
dtype: float64

### series indexing

In [26]:
s['서울']

333432

In [29]:
s[0:2]

지역별
서울    333432
부산    344543
dtype: int64

In [30]:
s['서울':'부산']

지역별
서울    333432
부산    344543
dtype: int64

In [31]:
s[['서울','대전']]

지역별
서울    333432
대전    322343
dtype: int64

In [33]:
'강원' in s

False

In [35]:
for key, value in s.items():
    print('key : {}, value : {}'.format(key,value))

key : 서울, value : 333432
key : 부산, value : 344543
key : 대전, value : 322343
key : 광주, value : 345432


In [45]:
s2 = pd.Series({'c':1, 'b':'5', 'd':-8, 'a':10 },dtype=np.float64)
seriesInfo(s2)

value:  [ 1.  5. -8. 10.]
value type:  <class 'numpy.ndarray'>
index:  Index(['c', 'b', 'd', 'a'], dtype='object')
index type:  <class 'pandas.core.indexes.base.Index'>
c     1.0
b     5.0
d    -8.0
a    10.0
dtype: float64


In [46]:
# Fancy Indexing & Boolean Indexing
print('fancy [0,2] indexing: {}'.format(s2[[0,2]]) )

# boolean Indexing 2로 나누어서 2의 배수 찾기
print('boolean indexing : {}'.format( s2[s2 % 2 == 0] ))

fancy [0,2] indexing: c    1.0
d   -8.0
dtype: float64
boolean indexing : d    -8.0
a    10.0
dtype: float64


In [49]:
# 인덱스의 라벨은 문자열뿐만 아니라 날짜, 시간, 정수 등 가능

s3 = pd.Series({'서울':333432,'부산':344543,'인천':322343,'대전':345438},dtype=np.int32,
                      index = ['광주','대전','부산','서울'])
seriesInfo(s3)

value:  [    nan 345438. 344543. 333432.]
value type:  <class 'numpy.ndarray'>
index:  Index(['광주', '대전', '부산', '서울'], dtype='object')
index type:  <class 'pandas.core.indexes.base.Index'>
광주         NaN
대전    345438.0
부산    344543.0
서울    333432.0
dtype: float64


In [50]:
diff_s = s -s2
print(diff_s)

a    NaN
b    NaN
c    NaN
d    NaN
광주   NaN
대전   NaN
부산   NaN
서울   NaN
dtype: float64


In [None]:
# A 공장의 2019-01-01부터 10일간 생산량을 Series 저장
# 생산량은 평균이 50이고 편차가 5인 정규분포 생성(정수)

# B 공장의 2019-01-01부터 10일간 생산량을 Series 저장
# 생산량은 평균이 10이고 편차가 8인 정규분포 생성(정수)

#날짜별로 모든 공장의 생산량 합계를 구한다면 

In [1]:
import numpy as np
import pandas as pd
from datetime import date, datetime, timedelta
from dateutil.parser import parse

In [2]:
start_day=datetime(2019, 1, 1)
print(start_day)

facA=pd.Series([int(x) for x in np.random.normal(50, 5, (10))],
              index=[start_day + timedelta(days=x) for x in range (10)])
print(facA)

facB=pd.Series([int(x) for x in np.random.normal(10, 8, (10))],
              index=[start_day + timedelta(days=x) for x in range (10)])
print(facB)

2019-01-01 00:00:00
2019-01-01    52
2019-01-02    52
2019-01-03    55
2019-01-04    53
2019-01-05    43
2019-01-06    44
2019-01-07    43
2019-01-08    51
2019-01-09    45
2019-01-10    47
dtype: int64
2019-01-01     4
2019-01-02    14
2019-01-03    12
2019-01-04     8
2019-01-05     7
2019-01-06     0
2019-01-07    17
2019-01-08    13
2019-01-09     0
2019-01-10    15
dtype: int64


In [64]:
# 단위 테스트를 위한 셀
type(np.random.normal(50, 5, (10)))
timedelta(days=1)

datetime.timedelta(days=1)

In [68]:
print(facA.index)
print(facB.index)

DatetimeIndex(['2019-01-01', '2019-01-02', '2019-01-03', '2019-01-04',
               '2019-01-05', '2019-01-06', '2019-01-07', '2019-01-08',
               '2019-01-09', '2019-01-10'],
              dtype='datetime64[ns]', freq=None)
DatetimeIndex(['2019-01-01', '2019-01-02', '2019-01-03', '2019-01-04',
               '2019-01-05', '2019-01-06', '2019-01-07', '2019-01-08',
               '2019-01-09', '2019-01-10'],
              dtype='datetime64[ns]', freq=None)


In [69]:
print(facA+facB)

2019-01-01     96
2019-01-02     99
2019-01-03    103
2019-01-04     99
2019-01-05     88
2019-01-06     94
2019-01-07     96
2019-01-08    106
2019-01-09    120
2019-01-10    104
dtype: int64
