# Pandas

- 분석하려는 데이터는 대부분 시계열(Series)이거나 표(table)형태로 정의해야한다.
- Series 클래스와 DataFrame 클래스를 제공한다

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

### Series 클래스
- 넘파이의 1차원 배열과 비슷하지만 각 데이터의 의미를 표시하는 인덱스를 붙일 수 있다.

In [2]:
# Series(어떤 데이터 타입이든 보유할 수 있는 레이블 된 1차원배열)와 numpy array 비교
# numpy
arr = np.array([1,2,3,4,'jslim'], dtype = np.object)
print(arr)
print(arr.dtype)

[1 2 3 4 'jslim']
object


In [7]:
#pandas
s = pd.Series([1,2,3,4],dtype = np.float64)
print(s) # 인덱스가 데이터로 이루어져있는 형태
print(s.values)
print(type(s.values))
print(s.index)

0    1.0
1    2.0
2    3.0
3    4.0
dtype: float64
[1. 2. 3. 4.]
<class 'numpy.ndarray'>
RangeIndex(start=0, stop=4, step=1)


In [11]:
def serieInfo(s):
    print('value : ',s.values)
    print('value type : ',type(s.values))
    print('index : ', s.index)
    print('index type : ', type(s.index))
    print('index + value : ',s)

In [14]:
# 인덱스의 라벨은 문자열뿐만아니라 날짜, 시간 정수 등 가능

s = pd.Series([344234,23423,3453,43574],index = ['서울','부산','대전','광주']) 
# index = np.arange(5)도 가능하다
serieInfo(s)

value :  [344234  23423   3453  43574]
value type :  <class 'numpy.ndarray'>
index :  Index(['서울', '부산', '대전', '광주'], dtype='object')
index type :  <class 'pandas.core.indexes.base.Index'>
index + value :  서울    344234
부산     23423
대전      3453
광주     43574
dtype: int64


In [15]:
s.index.name = '지역별'
print(s)

지역별
서울    344234
부산     23423
대전      3453
광주     43574
dtype: int64


In [16]:
s/100000 # 데이터에 영향을 미치는 것이지 인덱스에는 영향을 주지 않는다

지역별
서울    3.44234
부산    0.23423
대전    0.03453
광주    0.43574
dtype: float64

- series indexing

In [17]:
s['서울']

344234

In [18]:
s[3] # s['광주'] 가능하다 

43574

In [20]:
s['서울':'부산'] #s[0:2] -> 라벨 인덱싱은 -1이 되지 않는다

지역별
서울    344234
부산     23423
dtype: int64

In [22]:
# 부분인덱싱
s[['서울','대전']] #[]를 더 써야한다.

지역별
서울    344234
대전      3453
dtype: int64

In [23]:
'서울' in s

True

In [24]:
'강원' in s

False

In [26]:
for key, value in s.items():
    print('key : {} , value : {}'.format(key,value))

key : 서울 , value : 344234
key : 부산 , value : 23423
key : 대전 , value : 3453
key : 광주 , value : 43574


In [28]:
# 딕셔너리로도 입력가능하다
s2 = pd.Series({'c' : 1,'b' : 5 ,'a' : -8, 'k' : 10})
serieInfo(s2)

value :  [ 1  5 -8 10]
value type :  <class 'numpy.ndarray'>
index :  Index(['c', 'b', 'a', 'k'], dtype='object')
index type :  <class 'pandas.core.indexes.base.Index'>
index + value :  c     1
b     5
a    -8
k    10
dtype: int64


In [32]:
# Fancy indexing & Boolean indexing
print('fancy[0,2] indexing : {}'.format(s2[[0,2]]))
#boolean indexing 2의 배수인 것
print('boolean s2%2==0 : {}'.format(s2[s2%2==0]))

fancy[0,2] indexing : c    1
a   -8
dtype: int64
boolean s2%2==0 : a    -8
k    10
dtype: int64


In [33]:
# 인덱스의 라벨은 문자열뿐만아니라 날짜, 시간 정수 등 가능

s3 = pd.Series({'서울' : 344234,'부산' : 23423, '인천' : 3453, '대전' : 43574},
               dtype=np.int32,
               index = ['광주','대전','부산','서울']) # 우리가 만든 인덱스 우선

serieInfo(s3)

# index + value :  광주  NaN 인 이유는 key에 없는 이름이기때문에 인덱스는 가질수 있지만 데이터는 가질 수 없다

value :  [    nan  43574.  23423. 344234.]
value type :  <class 'numpy.ndarray'>
index :  Index(['광주', '대전', '부산', '서울'], dtype='object')
index type :  <class 'pandas.core.indexes.base.Index'>
index + value :  광주         NaN
대전     43574.0
부산     23423.0
서울    344234.0
dtype: float64


In [34]:
diff_s = s-s2 #연산은 가능하지만 배열의 인덱스가다르면 연산이 불가능하다
print(diff_s)

a    NaN
b    NaN
c    NaN
k    NaN
광주   NaN
대전   NaN
부산   NaN
서울   NaN
dtype: float64


In [None]:
# A공장의 2019-01-01 부터 10일간의 생산량을 Series 저장
# 생산량은 평균이 50이고 편차가 5인 정규분포 생성(정수)

# B공장의 2019-01-01 부터 10일간의 생산략을 Series 저장
# 생산량은 평균이 70이고 편차가 6인 정규분포 생성(정수)

# 날짜별로 모든 공장의 생산량 합계를 구한다면?

In [35]:
import numpy as np
import pandas as pd
from datetime import date, datetime, timedelta
from dateutil.parser import parse

In [47]:
start_day = datetime(2019,1,1)
#print(start_day)
facA = pd.Series([int(x) for x in np.random.normal(50,5,(10,))],
                index=[start_day + timedelta(days=x) for x in range(10)])
print(facA)

print("*"*50)

facB = pd.Series([int(x) for x in np.random.normal(70,6,(10,))],
                index=[start_day + timedelta(days=x) for x in range(10)])
print(facB)

print("*"*50)

print(facA+facB)

2019-01-01    56
2019-01-02    50
2019-01-03    39
2019-01-04    46
2019-01-05    51
2019-01-06    46
2019-01-07    45
2019-01-08    49
2019-01-09    37
2019-01-10    49
dtype: int64
**************************************************
2019-01-01    70
2019-01-02    73
2019-01-03    73
2019-01-04    65
2019-01-05    78
2019-01-06    74
2019-01-07    69
2019-01-08    73
2019-01-09    69
2019-01-10    64
dtype: int64
**************************************************
2019-01-01    126
2019-01-02    123
2019-01-03    112
2019-01-04    111
2019-01-05    129
2019-01-06    120
2019-01-07    114
2019-01-08    122
2019-01-09    106
2019-01-10    113
dtype: int64
