# 브로드캐스팅(Broadcasting)

In [1]:
import numpy as np

-벡터화 연산의 다른 방법은 NumPy의 브로드캐스팅 기능을 사용하는것이다.   
-브로드캐스팅은 다른 크기의 배열에 이항 ufunc 함수(덧셈, 뺄셈, 곱셈 등)을 적용하기 위한 규칙을 의미한다.   
-ufunc 함수 중 이항 연산은 같은 크기의 배열에 대하여 배열 요소 단위로 수행된다는 점을 기억. 즉 같은 모양에서만 연산 가능.     
-모양을 맞추기 쉬운 쪽으로 맞춘 다음, 연산하는 시점에서 모양을 같게하여 연산을 가능하도록 하게 해주는 것이 브로드캐스팅.   

In [3]:
a=np.array([0,1,2])
a

array([0, 1, 2])

In [4]:
b=np.array([5,5,5])
b

array([5, 5, 5])

In [7]:
a+b

array([5, 6, 7])

-브로드캐스팅을 사용하면 이항 연산을 수행 시 서로 다른 크기(형상, 모양)의 배열에서 수행된다.   
-배열의 스칼라(scalar,0차원 배열)을 쉽게 더할 수 있다.   

In [8]:
a+5

array([5, 6, 7])

-값 5를 배열[5,5,5]로 확장하거나 복제하고 그 결과를 더하는 연산을 수행한 것으로 생각할 수 있다.   
-NumPy 브로드캐스팅 이점은 값 복제가 실제로 발생하지 않고 연산 시에만 일시적으로 나타난다는 점으로 브로드캐스팅이 이러한 방식으로 동작하고 있다고 생각하면 이해하기 쉽다.   

In [9]:
M=np.ones((3,3))
M

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [10]:
M+a #1차원 배열 a는 M의 형상에 맞추기 위해 두번째 차원까지 확장 후 브로드캐스팅 된다.

array([[1., 2., 3.],
       [1., 2., 3.],
       [1., 2., 3.]])

In [11]:
#M은 2차원이고, a는 1차원이지만 연산은 됐다.데이터 손실을 막기 위해 a를 가상의 2차원으로 만든 다음 계산. 브로드캐스팅 적용.

### 브로드캐스팅 규칙   

-규칙1: 두 배열의 차원의 수가 다르면 더 작은 수의 차원을 가진 배열형상의 앞쪽(왼쪽)을 1로 채운다.   
-규칙2: 두 배열의 형상이 어떤 차원에서도 일치하지 않는다면 해당 차원의 형상이 1인 배열이 다른 형상과 일치하도록 늘어난다.   
-규칙3: 임의의 차원에서 크기가 일치하지 않고 1도 아니라면 오류가 발생한다.  

In [13]:
a=np.arange(3)
b=np.arange(3)[ :, np.newaxis]
print(a)
print(b)

[0 1 2]
[[0]
 [1]
 [2]]


#### 브로드캐스팅 적용 예제

In [15]:
M=np.ones((2,3))

-두 배열간의 형상   
M.shape=(2,3)   
a.shape=(3,)   

-규칙 1에 따라 배열 a가 더 작은 차원을 가지므로 왼쪽을 1로 채운다.  
M.shape->(2,3)   
a.shape->(1,3)   

-규칙 2에 따라 첫 번째 차원이 일치하지 않으므로 첫 번째 차원이 일치하도록 늘린다.   
M.shape->(2,3)   
a.shape->(2,3)   

-모양이 일치하면 최종형상이 (2,3)이 된다.

In [16]:
M+a

array([[1., 2., 3.],
       [1., 2., 3.]])

#### 브로드캐스팅 예제2

In [17]:
a=np.arange(3).reshape((3,1))
b=np.arange(3)

-두 배열간의 형상   
a.shape=(3,1)   
b.shape=(3,)   

-규칙 1에 따라 배열 b의 형상에 1을 덧붙여야 한다.  
a.shape->(3,1)   
b.shape->(1,3)   

-규칙 2에 따라 각 차원을 그에 대응하는 다른 배열의 크기에 일치하도록 늘린다.     
a.shape->(3,3)   
b.shape->(3,3)   

-모양이 일치하면 최종형상이 (3,3)이 된다.

In [18]:
a+b

array([[0, 1, 2],
       [1, 2, 3],
       [2, 3, 4]])

#### 브로드캐스팅 예제3(브로드캐스팅 실패 사례)

In [19]:
M=np.ones((3,2))
a=np.arange(3)

-두 배열간의 형상   
M.shape=(3,2)   
a.shape=(3,)   

-규칙 1에 따라 배열 a의 첫 번째 차원을 M의 첫 번째 차원과 일치하도록 늘린다.   
M.shape->(3,2)   
a.shape->(1,3)   

-규칙 2에 따라 a의 첫 번째 차원을 M의 첫 번째 차원과 일치하도록 늘린다.    
M.shape->(3,2)   
a.shape->(3,3)   

-규칙 3에서 최종 형상이 서로 일치하지 않으므로 이 두 배열은 연산되지 않는다.   

In [20]:
M+a

ValueError: operands could not be broadcast together with shapes (3,2) (3,) 

In [21]:
#1인 쪽을 무조건 맞춰주는 거라고 생각하자. 1일 때만 형상을 맞출 수 있기에, 1이 아니라 2 이상이면 더 이상 맞출 수 없고, 그래서 에러가 난다.

In [22]:
a[ :,np.newaxis].shape

(3, 1)

In [25]:
M+a[ :, np.newaxis]

array([[1., 1.],
       [2., 2.],
       [3., 3.]])

In [None]:
#브로드캐스팅이 안 맞는다면 원인을 찾고 이렇게 브로드캐스팅이 가능하도록 형상을 변경시켜서 연산한다.

## ufunc 비교 연산   
-요소 단위의 ufunc 함수에 대한 비교 연산자도 지원한다.   

|연산자|대응 ufunc|
|------|----------|
|==|np.equal|
|!=|np.not_equal|
|<|np.less|
|<=|np.less.equal|
|>|np.greater|
|>=|np.greater_equal|


In [26]:
x=np.array([1,2,3,4,5])

In [27]:
x<3

array([ True,  True, False, False, False])

In [28]:
x>3

array([False, False, False,  True,  True])

In [33]:
#()만 나왓으면 list, 이렇게 ([]) 나오면 0파이 배열.

In [29]:
x<=3

array([ True,  True,  True, False, False])

In [30]:
x>=3

array([False, False,  True,  True,  True])

In [31]:
x==3

array([False, False,  True, False, False])

In [32]:
x!=3

array([ True,  True, False,  True,  True])

#### 두 배열을 항목별로 비교할 수 있으며 복합 표현식을 적용할 수 있다.

In [34]:
(2*x)==(x**2)

array([False,  True, False, False, False])

#### 2차원 배열에 대한 비교 연산

In [37]:
rng=np.random.RandomState(0)   #개별적으로 seed를 적용하는 함수.
                               #localization 함수
                               #seed()는 globalization 함수

In [38]:
x=rng.randint(10,size=(3,4)) #요 범위 안에서 랜덤값 만들기.
x

array([[5, 0, 3, 3],
       [7, 9, 3, 5],
       [2, 4, 7, 6]])

In [39]:
x<6

array([[ True,  True,  True,  True],
       [False, False,  True,  True],
       [ True,  True, False, False]])

In [40]:
x<=6

array([[ True,  True,  True,  True],
       [False, False,  True,  True],
       [ True,  True, False,  True]])

In [41]:
x>6

array([[False, False, False, False],
       [ True,  True, False, False],
       [False, False,  True, False]])

In [42]:
x>=6

array([[False, False, False, False],
       [ True,  True, False, False],
       [False, False,  True,  True]])

In [43]:
x==6

array([[False, False, False, False],
       [False, False, False, False],
       [False, False, False,  True]])

In [44]:
x!=6

array([[ True,  True,  True,  True],
       [ True,  True,  True,  True],
       [ True,  True,  True, False]])

#### 요소개수 세기

In [45]:
# 부울 배열에서 True인 요소의 개수를 세는 경우 np.count_nonzero()가 유용
np.count_nonzero(x<6)

8

In [47]:
#np.sum()을 사용하여 확인가능,False는 0, True는 1로 해석.
np.sum(x<6,axis=0)

array([2, 2, 2, 2])

In [48]:
np.sum(x<6,axis=1)

array([4, 2, 2])

In [49]:
#값중 하나라고 참이 있는지, 모든 값이 참인지를 빠르게 확인하고 싶다면 np.any()-하나라도 있느냐-나 np.all()-전부 다 있느냐-사용.
np.any(x>8)

True

In [50]:
np.any(x<0)

False

In [51]:
np.all(x<10)

True

In [52]:
np.all(x==6)

False

In [53]:
np.all(x<8,axis=0)

array([ True, False,  True,  True])

In [55]:
np.all(x<8,axis=1)

array([ True, False,  True])

#### 부울 배열

In [57]:
x

array([[5, 0, 3, 3],
       [7, 9, 3, 5],
       [2, 4, 7, 6]])

In [58]:
x<5

array([[False,  True,  True,  True],
       [False, False,  True, False],
       [ True,  True, False, False]])

In [59]:
#배열에서 조건에 맞는 값들을 선택하려면 부울 배열을 인덱스로 사용하면 된다. 이를 마스킹 연산이라고 한다.
x[x<5]

array([0, 3, 3, 3, 2, 4])

In [None]:
#어떤 특정한 조건에 맞는 데이터만 추출하고 싶을 때 쓰는 연산자. 결국 true 인 것만 추출하였다. 원칙은 for문 만들어서 일일이 비교하고 구해야 한다.

#### 부울배열 적용 파이썬 코드

In [66]:
l=[[5,0,3,3],[7,9,3,5],[2,4,7,6]]
result=[]

In [67]:
for row in l:
    for column in row:
        if column <5:
            result.append(column)

In [68]:
result

[0, 3, 3, 3, 2, 4]

### 펜시 인덱싱(fancy indexing)   
-인덱스 배열을 전달하여 복잡한 배열 값의 하위 집합에 매우 빠르게 접근해 값을 수정할 수 있다.   
-한번에 여러 배열 요소에 접근하기 위해 인덱스의 배열을 전달한다.   

In [69]:
rand=np.random.RandomState(42)
x=rand.randint(100, size=10)
x

array([51, 92, 14, 71, 60, 20, 82, 86, 74, 74])

In [70]:
#세개의 다른 요소 접근
[x[3],x[7],x[2]]

[71, 86, 14]

In [72]:
#인덱스에 단일 리스트나 배열을 전달해 같은 결과
ind=[3,7,4]
x[ind]

array([71, 86, 60])

In [None]:
#한번에 처리가 가능하다는 것이 장점.

In [74]:
#펜시 인덱스를 이용하면 결과의 형상이  인덱스 대상 배열의 형상이 아니라 인덱스 배열의 형상을 반영한다.
ind=np.array([[3,7],[4,5]])
x[ind]

array([[71, 86],
       [60, 20]])

In [78]:
#펜시 인덱싱은 여러 차원에서도 동작
X=np.arange(12).reshape((3,4))
X

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [77]:
#원본 배열의 형상에 따른 결과가 아니라, 인덱스 배열의 형상에 따른 결과가 출력

In [80]:
row=np.array([0,1,2])
col=np.array([2,1,3])
X[row, col]            #0행 2열, 1행 1열, 2행 3열

array([ 2,  5, 11])

In [81]:
# 펜시 인덱스에서 인덱스 쌍을 만드는 것은 브로드캐스팅 규칙을 따른다.
#인덱스 내의 열 벡터와 행 벡터를 결합하면 2차원 결과를 얻는다.
x[row[ :, np.newaxis ], col] #행의 값은 산술 연산의 브로드캐스팅에서와 같은 각 열 벡터와 일치. col은 1차원인데 브로드캐스팅 적용. 보로드캐스팅 가능한 형태로 만들 것.

array([[ 2,  1,  3],
       [ 6,  5,  7],
       [10,  9, 11]])

In [82]:
row[ :, np.newaxis ] * col

array([[0, 0, 0],
       [2, 1, 3],
       [4, 2, 6]])

#### 펜시 인덱싱을 사용하면 반환값은 인덱싱 대상 배열의 형상이 아니라 브로드캐스팅된 인덱스의 형상을 반영한다는 사실을 반드시 기억.

### 결합 인덱싱   

-펜시 인덱싱을 다른 인덱싱 방식과 결합할 수 있다.

In [83]:
print(x)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [85]:
#펜시 인덱스와 단순 인덱스 결합
x[2,[2,0,1]]

array([10,  8,  9])

In [86]:
#펜시 인덱싱과 슬라이싱을 결합  1행부터 끝까지, 2열 0열 1열
x[1:, [2,0,1]]

array([[ 6,  4,  5],
       [10,  8,  9]])

In [87]:
#펜시 인덱싱과 마스킹 결합
mask=np.array([1,0,1,0], dtype=bool) #타입이 bool이니 1은 true고 0은 false
x[row[:, np.newaxis],mask]           #0열, 2열.

array([[ 0,  2],
       [ 4,  6],
       [ 8, 10]])

### 팬시 인덱싱으로 값 변경   
펜시 인덱싱은 배열의 일부를 수정하는데도 사용

In [88]:
x=np.arange(10)
i=np.array([2,1,8,4]) #펜시 인덱싱을 위한 인덱스 배열
print(x)

[0 1 2 3 4 5 6 7 8 9]


In [89]:
x[i]=99
print(x)

[ 0 99 99  3 99  5  6  7 99  9]


In [101]:
#할당 유형의 연산자는 모두 사용할 수 있다.
x[i]-=10
print(x)

[  0 -11 -11   3 -11   5   6   7 -11   9]


# pandas

https://pandas.pydata.org

-pandas는 파이썬을 이용한 데이터 분석을 수행하는데 사용되는 가장 대표적인 라이브러리이다.      
-R의 dataFrame을 파이썬 버전으로 만든 라이브러리라 생각해도 된다.   
-pandas는 numpy를 기반으로 작성된 라이브러리이다.   
-pandas는 numpy의 ndarray객체를 이용한 배열처럼 동일 자료형만으로 1/2 차원배열을 생성하는 것이 아니고 다양한 자료형을 저장할 수 있는 1/2차원 배열을 제공한다.   
-pandas에서 1차원 배열은 series 객체를 이용하여 생성하고, 2차원 배열은 dataframe을 이용하여 생성한다.   

#### pandas import

In [102]:
import pandas as pd

### series 객체

1차원 형태의 배열을 생성하는 객체. 무조건 인덱스 생성됨.

In [104]:
s=pd.Series([10,20,30,40,50])  #대소문자 주의. 64니 8바이트.
s

0    10
1    20
2    30
3    40
4    50
dtype: int64

#### Series 객체 기본 속성

In [108]:
s.index   #step은 인덱스 형성 방법 설정. 5는 포함안됨.

RangeIndex(start=0, stop=5, step=1)

In [109]:
s.values  #numpy를 쓰기에 numpy 배열 형태로 나타남.

array([10, 20, 30, 40, 50], dtype=int64)

In [113]:
s=pd.Series(['a','b','c', 1,2,3])   #타입이 다르다. numpy와는 다르게. 데이터 자료형이 동일할 필요는 없다. 특정하게 잡을 수 없어서 그냥 객체로 지정함.
s

0    a
1    b
2    c
3    1
4    2
5    3
dtype: object

In [111]:
s.index

RangeIndex(start=0, stop=6, step=1)

In [112]:
s.values

array(['a', 'b', 'c', 1, 2, 3], dtype=object)

In [119]:
value=[1,2,3,4,5]
index=['짱','둘짱','하나졸개','둘졸개','셋졸개']
s=pd.Series(value, index=index)
s

짱       1
둘짱      2
하나졸개    3
둘졸개     4
셋졸개     5
dtype: int64

In [120]:
s.index

Index(['짱', '둘짱', '하나졸개', '둘졸개', '셋졸개'], dtype='object')

In [121]:
s.values

array([1, 2, 3, 4, 5], dtype=int64)

In [123]:
d={'국어': 50, '영어': 50, '수학': 50}
s=pd.Series(d)
s

국어    50
영어    50
수학    50
dtype: int64

In [124]:
s.index

Index(['국어', '영어', '수학'], dtype='object')

In [125]:
s.values

array([50, 50, 50], dtype=int64)

In [126]:
s=pd.Series([np.nan,10,30])
s

0     NaN
1    10.0
2    30.0
dtype: float64

In [127]:
s.index

RangeIndex(start=0, stop=3, step=1)

In [128]:
s.values

array([nan, 10., 30.])

In [129]:
index_date=['2020-06-01', '2020-06-02', '2020-06-03', '2020-06-04']
values=[200,195, np.nan,205]
s=pd.Series(values, index=index_date)
s

2020-06-01    200.0
2020-06-02    195.0
2020-06-03      NaN
2020-06-04    205.0
dtype: float64

In [130]:
s.index

Index(['2020-06-01', '2020-06-02', '2020-06-03', '2020-06-04'], dtype='object')

In [131]:
s.values

array([200., 195.,  nan, 205.])

In [None]:
#237,238,240,242~246

In [132]:
pd.date_range(start='2019/01/01',end='2019.01.07')

DatetimeIndex(['2019-01-01', '2019-01-02', '2019-01-03', '2019-01-04',
               '2019-01-05', '2019-01-06', '2019-01-07'],
              dtype='datetime64[ns]', freq='D')

In [None]:
#/,.,-든 전부 출력은 --- 으로 표기됨.

In [133]:
pd.date_range(start='2019-01-01',periods=7)

DatetimeIndex(['2019-01-01', '2019-01-02', '2019-01-03', '2019-01-04',
               '2019-01-05', '2019-01-06', '2019-01-07'],
              dtype='datetime64[ns]', freq='D')

In [134]:
#따로 표기하지 않는 이상 기본적으로 day 단위로 결정됨.

In [140]:
pd.date_range(start='2019/01/01', periods=4, freq='W')

DatetimeIndex(['2019-01-06', '2019-01-13', '2019-01-20', '2019-01-27'], dtype='datetime64[ns]', freq='W-SUN')

In [141]:
pd.date_range(start='2019/01/01',periods=12, freq='2BM')

DatetimeIndex(['2019-01-31', '2019-03-29', '2019-05-31', '2019-07-31',
               '2019-09-30', '2019-11-29', '2020-01-31', '2020-03-31',
               '2020-05-29', '2020-07-31', '2020-09-30', '2020-11-30'],
              dtype='datetime64[ns]', freq='2BM')

In [142]:
pd.date_range(start='2019/01/01',periods=4, freq='QS')

DatetimeIndex(['2019-01-01', '2019-04-01', '2019-07-01', '2019-10-01'], dtype='datetime64[ns]', freq='QS-JAN')

In [143]:
pd.date_range(start='2019/01/01',periods=3, freq='AS')

DatetimeIndex(['2019-01-01', '2020-01-01', '2021-01-01'], dtype='datetime64[ns]', freq='AS-JAN')

In [144]:
pd.date_range(start='2019/01/01 08:00',periods=10, freq='H')

DatetimeIndex(['2019-01-01 08:00:00', '2019-01-01 09:00:00',
               '2019-01-01 10:00:00', '2019-01-01 11:00:00',
               '2019-01-01 12:00:00', '2019-01-01 13:00:00',
               '2019-01-01 14:00:00', '2019-01-01 15:00:00',
               '2019-01-01 16:00:00', '2019-01-01 17:00:00'],
              dtype='datetime64[ns]', freq='H')

In [145]:
pd.date_range(start='2019/01/01 08:00',periods=10, freq='BH')

DatetimeIndex(['2019-01-01 09:00:00', '2019-01-01 10:00:00',
               '2019-01-01 11:00:00', '2019-01-01 12:00:00',
               '2019-01-01 13:00:00', '2019-01-01 14:00:00',
               '2019-01-01 15:00:00', '2019-01-01 16:00:00',
               '2019-01-02 09:00:00', '2019-01-02 10:00:00'],
              dtype='datetime64[ns]', freq='BH')

In [146]:
pd.date_range(start='2019/01/01 10:00',periods=4, freq='30min')

DatetimeIndex(['2019-01-01 10:00:00', '2019-01-01 10:30:00',
               '2019-01-01 11:00:00', '2019-01-01 11:30:00'],
              dtype='datetime64[ns]', freq='30T')

In [147]:
pd.date_range(start='2019/01/01 10:00:00',periods=4, freq='10S')

DatetimeIndex(['2019-01-01 10:00:00', '2019-01-01 10:00:10',
               '2019-01-01 10:00:20', '2019-01-01 10:00:30'],
              dtype='datetime64[ns]', freq='10S')

In [148]:
index_date=pd.date_range(start='2019/03/01',periods=5, freq='D')
pd.Series([51,62,55,49,58],index=index_date)

2019-03-01    51
2019-03-02    62
2019-03-03    55
2019-03-04    49
2019-03-05    58
Freq: D, dtype: int64

In [149]:
pd.date_range(start='2019/01/01 10:00',periods=10, freq='B')

DatetimeIndex(['2019-01-01 10:00:00', '2019-01-02 10:00:00',
               '2019-01-03 10:00:00', '2019-01-04 10:00:00',
               '2019-01-07 10:00:00', '2019-01-08 10:00:00',
               '2019-01-09 10:00:00', '2019-01-10 10:00:00',
               '2019-01-11 10:00:00', '2019-01-14 10:00:00'],
              dtype='datetime64[ns]', freq='B')

In [150]:
pd.date_range(start='2019/01/01 08:00',periods=10, freq='BH')

DatetimeIndex(['2019-01-01 09:00:00', '2019-01-01 10:00:00',
               '2019-01-01 11:00:00', '2019-01-01 12:00:00',
               '2019-01-01 13:00:00', '2019-01-01 14:00:00',
               '2019-01-01 15:00:00', '2019-01-01 16:00:00',
               '2019-01-02 09:00:00', '2019-01-02 10:00:00'],
              dtype='datetime64[ns]', freq='BH')

In [156]:
pd.date_range(start='2019/01/01 08:00',periods=10, freq='3MS')

DatetimeIndex(['2019-01-01 08:00:00', '2019-04-01 08:00:00',
               '2019-07-01 08:00:00', '2019-10-01 08:00:00',
               '2020-01-01 08:00:00', '2020-04-01 08:00:00',
               '2020-07-01 08:00:00', '2020-10-01 08:00:00',
               '2021-01-01 08:00:00', '2021-04-01 08:00:00'],
              dtype='datetime64[ns]', freq='3MS')

In [162]:
pd.date_range(start='2019/01/01', periods=60, freq='B')

DatetimeIndex(['2019-01-01', '2019-01-02', '2019-01-03', '2019-01-04',
               '2019-01-07', '2019-01-08', '2019-01-09', '2019-01-10',
               '2019-01-11', '2019-01-14', '2019-01-15', '2019-01-16',
               '2019-01-17', '2019-01-18', '2019-01-21', '2019-01-22',
               '2019-01-23', '2019-01-24', '2019-01-25', '2019-01-28',
               '2019-01-29', '2019-01-30', '2019-01-31', '2019-02-01',
               '2019-02-04', '2019-02-05', '2019-02-06', '2019-02-07',
               '2019-02-08', '2019-02-11', '2019-02-12', '2019-02-13',
               '2019-02-14', '2019-02-15', '2019-02-18', '2019-02-19',
               '2019-02-20', '2019-02-21', '2019-02-22', '2019-02-25',
               '2019-02-26', '2019-02-27', '2019-02-28', '2019-03-01',
               '2019-03-04', '2019-03-05', '2019-03-06', '2019-03-07',
               '2019-03-08', '2019-03-11', '2019-03-12', '2019-03-13',
               '2019-03-14', '2019-03-15', '2019-03-18', '2019-03-19',
      

In [163]:
pd.date_range(start='2019/01/01 08:00',periods=10)

DatetimeIndex(['2019-01-01 08:00:00', '2019-01-02 08:00:00',
               '2019-01-03 08:00:00', '2019-01-04 08:00:00',
               '2019-01-05 08:00:00', '2019-01-06 08:00:00',
               '2019-01-07 08:00:00', '2019-01-08 08:00:00',
               '2019-01-09 08:00:00', '2019-01-10 08:00:00'],
              dtype='datetime64[ns]', freq='D')

In [164]:
pd.date_range(start='2019/01/01 08:00',periods=4, freq='QS')

DatetimeIndex(['2019-01-01 08:00:00', '2019-04-01 08:00:00',
               '2019-07-01 08:00:00', '2019-10-01 08:00:00'],
              dtype='datetime64[ns]', freq='QS-JAN')

In [165]:
pd.date_range(start='2019/01/01 08:00',periods=40, freq='BH')

DatetimeIndex(['2019-01-01 09:00:00', '2019-01-01 10:00:00',
               '2019-01-01 11:00:00', '2019-01-01 12:00:00',
               '2019-01-01 13:00:00', '2019-01-01 14:00:00',
               '2019-01-01 15:00:00', '2019-01-01 16:00:00',
               '2019-01-02 09:00:00', '2019-01-02 10:00:00',
               '2019-01-02 11:00:00', '2019-01-02 12:00:00',
               '2019-01-02 13:00:00', '2019-01-02 14:00:00',
               '2019-01-02 15:00:00', '2019-01-02 16:00:00',
               '2019-01-03 09:00:00', '2019-01-03 10:00:00',
               '2019-01-03 11:00:00', '2019-01-03 12:00:00',
               '2019-01-03 13:00:00', '2019-01-03 14:00:00',
               '2019-01-03 15:00:00', '2019-01-03 16:00:00',
               '2019-01-04 09:00:00', '2019-01-04 10:00:00',
               '2019-01-04 11:00:00', '2019-01-04 12:00:00',
               '2019-01-04 13:00:00', '2019-01-04 14:00:00',
               '2019-01-04 15:00:00', '2019-01-04 16:00:00',
               '2019-01-

In [168]:
#여기까지 연습 241~246

In [169]:
#강의 일지 보고 놓친 거 채울 것.

#### Series 객체 요소 지정

In [170]:
values=[10,20, 30,40,50,60]
indexs=['a', 'b', 'c', 'd', 'e', 'f']
s=pd.Series(values, index=indexs)
s

a    10
b    20
c    30
d    40
e    50
f    60
dtype: int64

In [171]:
s.index

Index(['a', 'b', 'c', 'd', 'e', 'f'], dtype='object')

In [173]:
s.values

array([10, 20, 30, 40, 50, 60], dtype=int64)

In [174]:
s[0]  #자동부여된 인덱스

10

In [175]:
s['a']  #우리가 부여한 인덱스

10

In [176]:
s[[0,2]]

a    10
c    30
dtype: int64

In [177]:
s[['a','c']]

a    10
c    30
dtype: int64

In [178]:
s[1:3]

b    20
c    30
dtype: int64

In [179]:
s['b':'d']

b    20
c    30
d    40
dtype: int64

## DataFrame   

-dataframe은 2차원 배열 구조이다.   
-dataframe은 Series 객체가 하나의 열을 구성하는 형태이다.   
-R의 dataframe과 같은 구조를 갖는다.   

#### dataframe 생성

In [180]:
d=pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]])
d

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [181]:
d.index

RangeIndex(start=0, stop=3, step=1)

In [183]:
d.columns

RangeIndex(start=0, stop=3, step=1)

In [184]:
d.values

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]], dtype=int64)

In [185]:
values=np.array([[10,20,30],[40,50,60],[70,80,90]])
columns=['A','B','C']
d=pd.DataFrame(values,columns=columns)
d

Unnamed: 0,A,B,C
0,10,20,30
1,40,50,60
2,70,80,90


In [186]:
d.index

RangeIndex(start=0, stop=3, step=1)

In [187]:
d.columns

Index(['A', 'B', 'C'], dtype='object')

In [188]:
d.values

array([[10, 20, 30],
       [40, 50, 60],
       [70, 80, 90]])

In [190]:
d_list={'이름':['hong','kim','lee'],
        '국어' :[50,90,70],
        '영어' :[50,90,70],
        '수학' :[50,90,70]}
d=pd.DataFrame(d_list)
d

Unnamed: 0,이름,국어,영어,수학
0,hong,50,50,50
1,kim,90,90,90
2,lee,70,70,70


In [191]:
d.index

RangeIndex(start=0, stop=3, step=1)

In [193]:
d.values #열로 바뀐 거라고 이해하는 게 편하다.

array([['hong', 50, 50, 50],
       ['kim', 90, 90, 90],
       ['lee', 70, 70, 70]], dtype=object)

In [194]:
d.columns

Index(['이름', '국어', '영어', '수학'], dtype='object')

In [196]:
names=np.array(['hong','kim','lee'])
koreans=np.array([50,90,70])
english=np.array([50,90,70])
math=np.array([50,90,70])
col_list=['names','koreans','english','math']
d=pd.DataFrame([names, koreans, english, math],
              columns=col_list)
d #보류

ValueError: 4 columns passed, passed data had 3 columns

In [198]:
data=np.array([[10,20,30,40], [100,200,300,400]])
index_list=pd.date_range('2020-06-15',periods=2)
col_list=['A','B','C','D']
d=pd.DataFrame(data,index=index_list, columns=col_list)
d

Unnamed: 0,A,B,C,D
2020-06-15,10,20,30,40
2020-06-16,100,200,300,400


In [199]:
d.index

DatetimeIndex(['2020-06-15', '2020-06-16'], dtype='datetime64[ns]', freq='D')

In [200]:
d.values

array([[ 10,  20,  30,  40],
       [100, 200, 300, 400]])

In [201]:
d.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

In [None]:
#246~251, 