# NumPy

In [1]:
import numpy as np

## 브로드캐스팅( Broadcasting )

- 벡터화 연산의 다른 방법은 NumPy의 브로드캐스팅 기능을 사용하는 것이다.
- 브로드캐스팅은 다른 크기의 배열에 이항 ufunc 함수( 덧셈, 뺄셈, 곱셈등 )을 적용하기 위한 규칙을 의미한다.
- ufunc 함수중 이항 연산은 같은 크기의 배열에 대하여 배열 요소 단위로 수행된다는 점을 기억

In [3]:
a = np.array( [ 0, 1, 2 ] )
a

array([0, 1, 2])

In [4]:
b = np.array( [ 5, 5, 5 ] )
b

array([5, 5, 5])

In [5]:
a + b

array([5, 6, 7])

- 브로드캐스팅을 사용하면 이항 연산을 수행시 서로 다른 크기( 형상, 모양 )의 배열에서 수행된다.
- 배열에 스칼라( Scalar, 0차원 배열 )를 쉽게 더할 수 있다.

In [6]:
a + 5

array([5, 6, 7])

- 값 5를 배열 [ 5, 5, 5 ] 로 확장하거나 복제하고 그 결과를 더하는 연산을 수행한 것으로 생각할 수 있다.
- NumPy 브로드캐스팅 이점은 값 복제가 실제로 발생하지 않고 연산시에만 일시적으로 일어난다는 점으로 브로드캐스팅이 이러한 방식으로 동작하고 있다고 생각하면 이해하기 쉽다.

In [7]:
M = np.ones( ( 3, 3 ) )
M

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [8]:
M + a # 1차원 배열 a는 M의 형상에 맞추기 위해 두 번째 차원까지 확장후 
      # 브로드캐스팅 된다.

array([[1., 2., 3.],
       [1., 2., 3.],
       [1., 2., 3.]])

### 브로드캐스팅 규칙   

- 규칙 1 : 두 배열의 차원 수가 다르면 더 작은 수의 차원을 가진 배열 형상의 앞쪽( 왼쪽 )을 1로 채운다.   
- 규칙 2 : 두 배열의 형상이 어떤 차원에서도 일치하지 않는다면 해당 차원의 형상이 1인 배열이 다른 형상과 일치하도록 늘어난다.   
- 규칙 3 : 임의의 차원에서 크기가 일치하지 않고 1도 아니라면 오류가 발생한다.

In [10]:
a = np.arange( 3 )
b = np.arange( 3 )[ :, np.newaxis ]
print( a )
print( b )

[0 1 2]
[[0]
 [1]
 [2]]


#### 브로드캐스팅 예제 1

In [11]:
M = np.ones( ( 2, 3 ) )

- 두 배열간의 형상   
M.shape = ( 2, 3 )   
a.shape = ( 3, )      

- 규칙 1에 따라 배열 a가 더 작은 차원을 가지므로 왼쪽을 1로 채운다.   
M.shape -> ( 2, 3 )   
a.shape -> ( 1, 3 )   

- 규칙 2에 따라 첫 번째 차원이 일치하지 않으므로 첫 번째 차원이 일치하도록 늘린다.   
M.shape -> ( 2, 3 )   
a.shape -> ( 2, 3 )   

- 모양이 일치하면 최종 형상이 ( 2, 3 )이 된다.

In [12]:
M + a

array([[1., 2., 3.],
       [1., 2., 3.]])

#### 브로드 캐스팅 예제 2

In [13]:
a = np.arange( 3 ).reshape( ( 3, 1 ) )
b = np.arange( 3 )

- 두 배열간의 형상   
a.shape = ( 3, 1 )   
b.shape = ( 3, )      

- 규칙 1에 따라 배열 b의 형상에 1을 덧붙여야 한다.   
a.shape -> ( 3, 1 )   
b.shape -> ( 1, 3 )   

- 규칙 2에 따라 각 차원을 그에 대응하는 다른 배열의 크기에 일치하도록 늘린다.   
a.shape -> ( 3, 3 )   
b.shape -> ( 3, 3 )   

- 모양이 일치하면 최종 형상이 ( 3, 3 )이 된다.

In [14]:
a + b

array([[0, 1, 2],
       [1, 2, 3],
       [2, 3, 4]])

#### 브로드캐스팅 예제 3( 브로드캐스팅 실패 사례 )

In [15]:
M = np.ones( ( 3, 2 ) )
a = np.arange( 3 )

- 두 배열간의 형상   
M.shape = ( 3, 2 )   
a.shape = ( 3, )      

- 규칙 1에 따라 배열 a의 첫 번째 차원을 M의 첫 번째 차원과 일치하도록 늘린다.   
M.shape -> ( 3, 2 )   
a.shape -> ( 1, 3 )   

- 규칙 2에 따라 a의 첫 번째 차원을 M의 첫 번째 차원과 일치하도록 늘린다.    
M.shape -> ( 3, 2 )   
a.shape -> ( 3, 3 )   

- 규칙 3에서 최종 형상이 서로 일치하지 않으므로 이 두 배열은 연산되지 않는다.

In [16]:
M + a

ValueError: operands could not be broadcast together with shapes (3,2) (3,) 

In [17]:
a[ :, np.newaxis].shape

(3, 1)

In [18]:
M + a[ :, np.newaxis ]

array([[1., 1.],
       [2., 2.],
       [3., 3.]])

## ufunc 비교 연산

- 요소 단위의 ufunc 함수에 대한 비교 연산자도 지원한다.   

|연산자|대응 ufunc|
|---|---|
|==|np.equal|
|!=|np.not_equal|
|<|np.less|
|<=|np.less_equal|
|>|np.greater|
|>=|np.greater_equal|

In [19]:
x = np.array( [ 1, 2, 3, 4, 5 ] )

In [20]:
x < 3

array([ True,  True, False, False, False])

In [21]:
x > 3

array([False, False, False,  True,  True])

In [22]:
x <= 3

array([ True,  True,  True, False, False])

In [23]:
x >= 3

array([False, False,  True,  True,  True])

In [24]:
x != 3

array([ True,  True, False,  True,  True])

In [25]:
x == 3

array([False, False,  True, False, False])

#### 두 배열을 항목별로 비교할 수 있으며 복합 표현식을 적용할 수 있다.

In [26]:
( 2 * x ) == ( x ** 2 )

array([False,  True, False, False, False])

#### 2차원 배열에 대한 비교 연산

In [27]:
rng = np.random.RandomState( 0 ) # 개별적으로 seed를 적용하는 함수
                                 # localization 함수
                                 # seed()는 globalization 함수

In [28]:
x = rng.randint( 10, size = ( 3, 4 ) )
x

array([[5, 0, 3, 3],
       [7, 9, 3, 5],
       [2, 4, 7, 6]])

In [29]:
x < 6

array([[ True,  True,  True,  True],
       [False, False,  True,  True],
       [ True,  True, False, False]])

#### 요소 개수 세기

In [30]:
# 부울 배열에서 True인 요소의 개수를 세는 경우 np.count_nonzero()가 유용
np.count_nonzero( x < 6 )

8

In [31]:
# np.sum()를 사용하여 확인 가능, False는 0, True는 1로 해석
np.sum( x < 6 )

8

In [32]:
# np.sum()의 장점은 행 또는 열에 따라 요소 개수 세기를 수행할 수 있다.
np.sum( x < 6, axis = 0 )

array([2, 2, 2, 2])

In [33]:
np.sum( x < 6, axis = 1 )

array([4, 2, 2])

In [34]:
# 값 중 하나라도 참이 있는지, 모든 값이 참인지를 빠르게 확인하고 싶다면
# np.any()나 np.all() 사용
np.any( x > 8 )

True

In [35]:
np.any( x < 0 )

False

In [37]:
np.all( x < 10 )

True

In [38]:
np.all( x == 6 )

False

In [39]:
np.all( x < 8, axis = 0 )

array([ True, False,  True,  True])

In [40]:
np.all( x < 8, axis = 1 )

array([ True, False,  True])

#### 부울 배열

In [41]:
x

array([[5, 0, 3, 3],
       [7, 9, 3, 5],
       [2, 4, 7, 6]])

In [42]:
x < 5

array([[False,  True,  True,  True],
       [False, False,  True, False],
       [ True,  True, False, False]])

In [43]:
# 배열에서 조건에 맞는 값들을 선택하려면 부울 배열을 인덱스로 사용하면
# 된다. 이를 마스킹 연산이라 한다.
x[ x < 5 ]

array([0, 3, 3, 3, 2, 4])

#### 부울 배열 적용 파이썬 코드

In [47]:
l = [ [5, 0, 3, 3], [7, 9, 3, 5], [2, 4, 7, 6] ]
result = []

In [48]:
for row in l:
    for column in row:
        if column < 5:
            result.append( column )

In [49]:
result

[0, 3, 3, 3, 2, 4]

### 펜시 인덱싱( fancy indexing )   
   
- 인덱스 배열을 전달하여 복잡한 배열 값의 하위 집합에 매우 빠르게 접근해 값을 수정할 수 있다.
- 한 번에 여러 배열 요소에 접근하기 위해 인덱스의 배열을 전달한다.

In [50]:
rand = np.random.RandomState( 42 )
x = rand.randint( 100, size = 10 )
x

array([51, 92, 14, 71, 60, 20, 82, 86, 74, 74])

In [51]:
# 세개의 다른 요소 접근
[ x[ 3 ], x[ 7 ], x[ 2 ] ]

[71, 86, 14]

In [52]:
# 인덱스에 단일 리스트나 배열을 전달해 같은 결과
ind = [ 3, 7, 4 ]
x[ ind ]

array([71, 86, 60])

In [53]:
# 팬시 인덱스를 이용하면 결과의 형상이 인덱스 대상 배열의 형상이 아니라
# 인덱스 배열의 형상을 반영한다.
ind = np.array( [ [ 3, 7 ], [ 4, 5 ] ] ) # 인덱스 배열
x[ ind ]

array([[71, 86],
       [60, 20]])

In [54]:
# 팬시 인덱싱은 여러 차원에서도 동작
X = np.arange( 12 ).reshape( ( 3, 4 ) )
X

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [55]:
row = np.array( [ 0, 1, 2 ] )
col = np.array( [ 2, 1, 3 ] )
X[ row, col ]

array([ 2,  5, 11])

In [57]:
row[ :, np.newaxis  ]

array([[0],
       [1],
       [2]])

In [56]:
# 팬시 인덱스에서 인덱스 쌍을 만드는 것은 브로드캐스팅 규칙을 따른다.
# 인덱스 내의 열 벡터와 행 벡터를 결합하면 2차원 결과를 얻는다.
X[ row[ :, np.newaxis  ], col ] # 행의 값은 산술 연산의 브로드캐스팅에서
                                # 와 같은 각 열 벡터와 일치

array([[ 2,  1,  3],
       [ 6,  5,  7],
       [10,  9, 11]])

In [58]:
row[ :, np.newaxis ] * col 

array([[0, 0, 0],
       [2, 1, 3],
       [4, 2, 6]])

#### 팬시 인덱싱을 사용하면 반환값은 인덱싱 대상 배열의 형상이 아니라 브로드케스팅된 인덱스의 형상을 반영한다는 사실을 반드시 기억

### 결합 인덱싱   
   
- 팬시 인덱싱을 다른 인덱싱 방식과 결합할 수 있다.

In [59]:
print( X )

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [60]:
# 팬시 인덱스와 단순 인덱스 결합
X[ 2, [ 2, 0, 1 ] ]

array([10,  8,  9])

In [61]:
# 팬시 인덱싱과 슬라이싱을 결합
X[ 1:, [ 2, 0, 1 ] ]

array([[ 6,  4,  5],
       [10,  8,  9]])

In [62]:
# 팬시 인덱싱과 마스킹 결합
mask = np.array( [ 1, 0, 1, 0 ], dtype = bool )
X[ row[ :, np.newaxis ], mask ]

array([[ 0,  2],
       [ 4,  6],
       [ 8, 10]])

### 팬시 인덱싱으로 값 변경   
   
- 팬시 인덱싱은 배열의 일부를 수정하는 데도 사용

In [64]:
x = np.arange( 10 )
i = np.array( [ 2, 1, 8, 4 ] ) # 팬시 인덱싱을 위한 인덱스 배열
print( x )

[0 1 2 3 4 5 6 7 8 9]


In [65]:
x[ i ] = 99
print( x )

[ 0 99 99  3 99  5  6  7 99  9]


In [66]:
# 할당 유형의 연산자는 모두 사용할 수 있다.
x[ i ] -= 10
print( x )

[ 0 89 89  3 89  5  6  7 89  9]


# Pandas

https://pandas.pydata.org

- Pandas는 파이썬을 이용한 데이터 분석를 수행하는데 사용되는 가장 대표적인 라이브러리이다.
- R의 DataFrame을 파이썬 버전으로 만든 라이브러리라 생각해도 된다.
- Pandas는 NumPy를 기반으로 작성된 라이브러리이다.
- Pandas는 NumPy의 ndarray객체를 이용한 배열처럼 동일 자료형만으로 1/2차원 배열을 생성하는 것이 아니고 다양한 자료형을 저장할 수 있는 1/2차원 배열을 제공한다.
- Pandas에서 1차원 배열은 Series 객체를 이용하여 생성하고, 2차원 배열은 DataFrame을 이용하여 생성한다.

#### Pandas import

In [2]:
import pandas as pd

### Series 객체   

- 1차원 형태의 배열을 생성하는 객체

#### Series 객체 생성

In [69]:
s = pd.Series( [ 10, 20, 30, 40, 50 ] )
s

0    10
1    20
2    30
3    40
4    50
dtype: int64

#### Series 객체 기본 속성

In [70]:
s.index

RangeIndex(start=0, stop=5, step=1)

In [71]:
s.values

array([10, 20, 30, 40, 50], dtype=int64)

In [72]:
s = pd.Series( [ 'a', 'b', 'c', 1, 2, 3 ] )
s

0    a
1    b
2    c
3    1
4    2
5    3
dtype: object

In [73]:
s.index

RangeIndex(start=0, stop=6, step=1)

In [74]:
s.values

array(['a', 'b', 'c', 1, 2, 3], dtype=object)

In [80]:
value = [ 1, 2, 3, 4, 5 ]
index = [ '짱', '둘짱', '하나졸개', '둘졸개', '셋졸개' ]
s = pd.Series( value, index = index )
s

짱       1
둘짱      2
하나졸개    3
둘졸개     4
셋졸개     5
dtype: int64

In [81]:
s.index

Index(['짱', '둘짱', '하나졸개', '둘졸개', '셋졸개'], dtype='object')

In [82]:
s.values

array([1, 2, 3, 4, 5], dtype=int64)

In [88]:
d = { '국어': 50, '영어': 50, '수학': 50 }
s = pd.Series( d )
s

국어    50
영어    50
수학    50
dtype: int64

In [89]:
s.index

Index(['국어', '영어', '수학'], dtype='object')

In [90]:
s.values

array([50, 50, 50], dtype=int64)

In [91]:
s = pd.Series( [ np.nan, 10, 30 ] )
s

0     NaN
1    10.0
2    30.0
dtype: float64

In [92]:
s. index

RangeIndex(start=0, stop=3, step=1)

In [93]:
s.values

array([nan, 10., 30.])

In [94]:
index_date = [ '2020-06-01', '2020-06-02', '2020-06-03', '2020-06-04' ]
values = [ 200, 195, np.nan, 205 ]
s = pd.Series( values, index = index_date )
s

2020-06-01    200.0
2020-06-02    195.0
2020-06-03      NaN
2020-06-04    205.0
dtype: float64

In [95]:
s.index

Index(['2020-06-01', '2020-06-02', '2020-06-03', '2020-06-04'], dtype='object')

In [96]:
s.values

array([200., 195.,  nan, 205.])

#### 날짜 자동 생성

In [98]:
pd.date_range( start = '2020-05-12', end = '2020-08-03' )

DatetimeIndex(['2020-05-12', '2020-05-13', '2020-05-14', '2020-05-15',
               '2020-05-16', '2020-05-17', '2020-05-18', '2020-05-19',
               '2020-05-20', '2020-05-21', '2020-05-22', '2020-05-23',
               '2020-05-24', '2020-05-25', '2020-05-26', '2020-05-27',
               '2020-05-28', '2020-05-29', '2020-05-30', '2020-05-31',
               '2020-06-01', '2020-06-02', '2020-06-03', '2020-06-04',
               '2020-06-05', '2020-06-06', '2020-06-07', '2020-06-08',
               '2020-06-09', '2020-06-10', '2020-06-11', '2020-06-12',
               '2020-06-13', '2020-06-14', '2020-06-15', '2020-06-16',
               '2020-06-17', '2020-06-18', '2020-06-19', '2020-06-20',
               '2020-06-21', '2020-06-22', '2020-06-23', '2020-06-24',
               '2020-06-25', '2020-06-26', '2020-06-27', '2020-06-28',
               '2020-06-29', '2020-06-30', '2020-07-01', '2020-07-02',
               '2020-07-03', '2020-07-04', '2020-07-05', '2020-07-06',
      

In [99]:
pd.date_range( start = '2020/05/12', end = '2020.08.03' )

DatetimeIndex(['2020-05-12', '2020-05-13', '2020-05-14', '2020-05-15',
               '2020-05-16', '2020-05-17', '2020-05-18', '2020-05-19',
               '2020-05-20', '2020-05-21', '2020-05-22', '2020-05-23',
               '2020-05-24', '2020-05-25', '2020-05-26', '2020-05-27',
               '2020-05-28', '2020-05-29', '2020-05-30', '2020-05-31',
               '2020-06-01', '2020-06-02', '2020-06-03', '2020-06-04',
               '2020-06-05', '2020-06-06', '2020-06-07', '2020-06-08',
               '2020-06-09', '2020-06-10', '2020-06-11', '2020-06-12',
               '2020-06-13', '2020-06-14', '2020-06-15', '2020-06-16',
               '2020-06-17', '2020-06-18', '2020-06-19', '2020-06-20',
               '2020-06-21', '2020-06-22', '2020-06-23', '2020-06-24',
               '2020-06-25', '2020-06-26', '2020-06-27', '2020-06-28',
               '2020-06-29', '2020-06-30', '2020-07-01', '2020-07-02',
               '2020-07-03', '2020-07-04', '2020-07-05', '2020-07-06',
      

In [100]:
pd.date_range( start = '05-12-2020', end = '08/03/2020' )

DatetimeIndex(['2020-05-12', '2020-05-13', '2020-05-14', '2020-05-15',
               '2020-05-16', '2020-05-17', '2020-05-18', '2020-05-19',
               '2020-05-20', '2020-05-21', '2020-05-22', '2020-05-23',
               '2020-05-24', '2020-05-25', '2020-05-26', '2020-05-27',
               '2020-05-28', '2020-05-29', '2020-05-30', '2020-05-31',
               '2020-06-01', '2020-06-02', '2020-06-03', '2020-06-04',
               '2020-06-05', '2020-06-06', '2020-06-07', '2020-06-08',
               '2020-06-09', '2020-06-10', '2020-06-11', '2020-06-12',
               '2020-06-13', '2020-06-14', '2020-06-15', '2020-06-16',
               '2020-06-17', '2020-06-18', '2020-06-19', '2020-06-20',
               '2020-06-21', '2020-06-22', '2020-06-23', '2020-06-24',
               '2020-06-25', '2020-06-26', '2020-06-27', '2020-06-28',
               '2020-06-29', '2020-06-30', '2020-07-01', '2020-07-02',
               '2020-07-03', '2020-07-04', '2020-07-05', '2020-07-06',
      

In [101]:
pd.date_range( start = '2020-05-12', end = '08.03.2020' )

DatetimeIndex(['2020-05-12', '2020-05-13', '2020-05-14', '2020-05-15',
               '2020-05-16', '2020-05-17', '2020-05-18', '2020-05-19',
               '2020-05-20', '2020-05-21', '2020-05-22', '2020-05-23',
               '2020-05-24', '2020-05-25', '2020-05-26', '2020-05-27',
               '2020-05-28', '2020-05-29', '2020-05-30', '2020-05-31',
               '2020-06-01', '2020-06-02', '2020-06-03', '2020-06-04',
               '2020-06-05', '2020-06-06', '2020-06-07', '2020-06-08',
               '2020-06-09', '2020-06-10', '2020-06-11', '2020-06-12',
               '2020-06-13', '2020-06-14', '2020-06-15', '2020-06-16',
               '2020-06-17', '2020-06-18', '2020-06-19', '2020-06-20',
               '2020-06-21', '2020-06-22', '2020-06-23', '2020-06-24',
               '2020-06-25', '2020-06-26', '2020-06-27', '2020-06-28',
               '2020-06-29', '2020-06-30', '2020-07-01', '2020-07-02',
               '2020-07-03', '2020-07-04', '2020-07-05', '2020-07-06',
      

In [102]:
pd.date_range( start = '2020-06-15', periods = 7 )

DatetimeIndex(['2020-06-15', '2020-06-16', '2020-06-17', '2020-06-18',
               '2020-06-19', '2020-06-20', '2020-06-21'],
              dtype='datetime64[ns]', freq='D')

In [103]:
pd.date_range( start = '2020-06-15', periods = 4, freq = '2D' )

DatetimeIndex(['2020-06-15', '2020-06-17', '2020-06-19', '2020-06-21'], dtype='datetime64[ns]', freq='2D')

In [104]:
pd.date_range( start = '2020-06-14', periods = 4, freq = 'W' )

DatetimeIndex(['2020-06-14', '2020-06-21', '2020-06-28', '2020-07-05'], dtype='datetime64[ns]', freq='W-SUN')

In [105]:
pd.date_range( start = '2020-01-01', periods = 12, freq = '2BM' )

DatetimeIndex(['2020-01-31', '2020-03-31', '2020-05-29', '2020-07-31',
               '2020-09-30', '2020-11-30', '2021-01-29', '2021-03-31',
               '2021-05-31', '2021-07-30', '2021-09-30', '2021-11-30'],
              dtype='datetime64[ns]', freq='2BM')

In [106]:
pd.date_range( start = '2020-01-01', periods = 4, freq = 'QS' )

DatetimeIndex(['2020-01-01', '2020-04-01', '2020-07-01', '2020-10-01'], dtype='datetime64[ns]', freq='QS-JAN')

In [107]:
pd.date_range( start = '2020-06-15', periods = 3, freq = 'AS' )

DatetimeIndex(['2021-01-01', '2022-01-01', '2023-01-01'], dtype='datetime64[ns]', freq='AS-JAN')

In [108]:
pd.date_range( start = '2020-01-01 08:00', periods = 10, freq = 'H' )

DatetimeIndex(['2020-01-01 08:00:00', '2020-01-01 09:00:00',
               '2020-01-01 10:00:00', '2020-01-01 11:00:00',
               '2020-01-01 12:00:00', '2020-01-01 13:00:00',
               '2020-01-01 14:00:00', '2020-01-01 15:00:00',
               '2020-01-01 16:00:00', '2020-01-01 17:00:00'],
              dtype='datetime64[ns]', freq='H')

In [109]:
pd.date_range( start = '2020-01-01 08:00', periods = 10, freq = 'BH' )

DatetimeIndex(['2020-01-01 09:00:00', '2020-01-01 10:00:00',
               '2020-01-01 11:00:00', '2020-01-01 12:00:00',
               '2020-01-01 13:00:00', '2020-01-01 14:00:00',
               '2020-01-01 15:00:00', '2020-01-01 16:00:00',
               '2020-01-02 09:00:00', '2020-01-02 10:00:00'],
              dtype='datetime64[ns]', freq='BH')

In [110]:
pd.date_range( start = '2020-01-01 10:00', periods = 4, freq = '30min' )

DatetimeIndex(['2020-01-01 10:00:00', '2020-01-01 10:30:00',
               '2020-01-01 11:00:00', '2020-01-01 11:30:00'],
              dtype='datetime64[ns]', freq='30T')

In [111]:
pd.date_range( start = '2020-01-01 08:00', periods = 4, freq = '30T' )

DatetimeIndex(['2020-01-01 08:00:00', '2020-01-01 08:30:00',
               '2020-01-01 09:00:00', '2020-01-01 09:30:00'],
              dtype='datetime64[ns]', freq='30T')

In [112]:
pd.date_range( start = '2020-01-01 08:00:00', periods = 4, freq = '10S' )

DatetimeIndex(['2020-01-01 08:00:00', '2020-01-01 08:00:10',
               '2020-01-01 08:00:20', '2020-01-01 08:00:30'],
              dtype='datetime64[ns]', freq='10S')

In [113]:
index_date = pd.date_range( start = '2020-06-15', periods = 5, freq = 'D' )
s = pd.Series( np.array( [ 1, 1, 1, 2, 1 ] ), index = index_date )
s

2020-06-15    1
2020-06-16    1
2020-06-17    1
2020-06-18    2
2020-06-19    1
Freq: D, dtype: int32

In [114]:
s.index

DatetimeIndex(['2020-06-15', '2020-06-16', '2020-06-17', '2020-06-18',
               '2020-06-19'],
              dtype='datetime64[ns]', freq='D')

In [115]:
s.values

array([1, 1, 1, 2, 1])

### Series 객체 요소 지정

In [116]:
values = [ 10, 20, 30, 40, 50, 60 ]
indexs = [ 'a', 'b', 'c', 'd', 'e', 'f' ]
s = pd.Series( values, index = indexs )
s

a    10
b    20
c    30
d    40
e    50
f    60
dtype: int64

In [117]:
s.index

Index(['a', 'b', 'c', 'd', 'e', 'f'], dtype='object')

In [118]:
s.values

array([10, 20, 30, 40, 50, 60], dtype=int64)

In [119]:
s[ 0 ]

10

In [120]:
s[ 'a' ]

10

In [121]:
s[ [ 0, 2 ] ]

a    10
c    30
dtype: int64

In [122]:
s[ [ 'a', 'c' ] ]

a    10
c    30
dtype: int64

In [123]:
s[ 1:3 ]

b    20
c    30
dtype: int64

In [124]:
s[ 'b':'d' ]

b    20
c    30
d    40
dtype: int64

## DataFrame   

- DataFrame은 2차원 배열 구조이다.
- DataFrame은 Serice객체가 하나의 열을 구성하는 형태이다.
- R의 DataFrame과 같은 구조를 갖는다.

### DataFrame 생성

In [126]:
d = pd.DataFrame( [ [ 1, 2, 3 ], [ 4, 5, 6 ], [ 7, 8, 9 ] ] )
d

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [127]:
d.index

RangeIndex(start=0, stop=3, step=1)

In [128]:
d.columns

RangeIndex(start=0, stop=3, step=1)

In [129]:
d.values

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]], dtype=int64)

In [130]:
values = np.array( [ [ 10, 20, 30 ], [ 40, 50, 60 ], [ 70, 80, 90 ] ] )
columns = [ 'A', 'B', 'C' ]
d = pd.DataFrame( values, columns = columns )
d

Unnamed: 0,A,B,C
0,10,20,30
1,40,50,60
2,70,80,90


In [132]:
d.index

RangeIndex(start=0, stop=3, step=1)

In [131]:
d.columns

Index(['A', 'B', 'C'], dtype='object')

In [133]:
d.values

array([[10, 20, 30],
       [40, 50, 60],
       [70, 80, 90]])

In [134]:
d_list = { '이름' : [ 'hong', 'kim', 'lee' ],
           '국어' : [ 50, 90, 70 ],
           '영어' : [ 50, 90, 70 ],
           '수학' : [ 50, 90, 70 ] }
d = pd.DataFrame( d_list )
d

Unnamed: 0,이름,국어,영어,수학
0,hong,50,50,50
1,kim,90,90,90
2,lee,70,70,70


In [135]:
d.index

RangeIndex(start=0, stop=3, step=1)

In [136]:
d.columns

Index(['이름', '국어', '영어', '수학'], dtype='object')

In [137]:
d.values

array([['hong', 50, 50, 50],
       ['kim', 90, 90, 90],
       ['lee', 70, 70, 70]], dtype=object)

#### Series 객체를 이용한 DataFrame 생성

In [5]:
s1 = pd.Series(
    [4000,20000,10000], 
    index = ['2020-03-03', '2020-03-04', '2020-03-05'], 
    name='apple')
s2 = pd.Series(
    [5000,8000,11000], 
    index = ['2020-03-03', '2020-03-04', '2020-03-05'], 
    name='bannana')
s3 = pd.Series(
    [6000,9000,12000], 
    index = ['2020-03-03', '2020-03-04', '2020-03-05'], 
    name='cherry')
df = pd.DataFrame([s1,s2,s3])
df

Unnamed: 0,2020-03-03,2020-03-04,2020-03-05
apple,4000,20000,10000
bannana,5000,8000,11000
cherry,6000,9000,12000


In [9]:
hong = pd.Series( [ 'hong', 50, 50, 50 ], index = [ 'name', 'kor', 'eng', 'math' ] )
kim = pd.Series( [ 'kim', 90, 90, 90 ], index = [ 'name', 'kor', 'eng', 'math' ]  )
lee = pd.Series( [ 'lee', 70, 70, 70 ], index = [ 'name', 'kor', 'eng', 'math' ]  )
d = pd.DataFrame( [ hong, kim, lee ], index = [ 1, 2, 3 ] )
d

Unnamed: 0,name,kor,eng,math
1,hong,50,50,50
2,kim,90,90,90
3,lee,70,70,70


In [144]:
data = np.array( [ [ 10, 20, 30, 40 ], [ 100, 200, 300, 400 ] ] )
index_list = pd.date_range( '2020-06-15', periods = 2 )
col_list = [ 'A', 'B', 'C', 'D' ]
d = pd.DataFrame( data, index = index_list, columns = col_list )
d

Unnamed: 0,A,B,C,D
2020-06-15,10,20,30,40
2020-06-16,100,200,300,400


In [None]:
d.index

In [None]:
d.columns

In [None]:
d.values