In [6]:
import pandas as pd
import numpy as np

pandas에는 dataframe이라고 하는 엑셀파일과 같은 객체가 있다. (database의 프레임과 비슷한 개념)
- 각 column : 속성, row : 데이터 포인터 이런 식의 2차원 데이터를 읽어서 분석할 수 이도록 도와주는 tool이 Dataframe이다. 

# 1. Series 데이터 생성하기(index, value 활용)
## Series
- pandas의 기본 객체 중 하나
-  numpy의 ndarray를 기반으로 인덱싱을 기능을 추가하여 **1차원 배열**을 나타냄
-  index를 지정하지 않을 시, 기본적으로 ndarray와 같이 0-based 인덱스 생성, 지정할 경우 **명시적으로 지정된 index를 사용**
- 같은 타입의 0개 이상의 데이터를 가질 수 있음 
    
## 학습목표 
 - pandas Series 데이터를 생성해보고 (실제로는 생성하는 경우는 거의 없음. Series는 1차원 데이터이기 때문에)
 - 생성된 데이터에서 index, value를 활용해보기
    

### 1. pandas Series 데이터 생성하기

#### 1) data로만 생성 : 그러면 index는 0부터 순차적으로 자동적으로 생성됨

In [4]:
s1 = pd.Series([1, 2, 3])
s1 #그리고 pandas가 타입을 자동적으로 유추함

0    1
1    2
2    3
dtype: int64

In [3]:
s2 = pd.Series(['a', 'b', 'c'])
s2

0    a
1    b
2    c
dtype: object

In [8]:
s3 = pd.Series(np.arange(200))
s3

0        0
1        1
2        2
3        3
4        4
      ... 
195    195
196    196
197    197
198    198
199    199
Length: 200, dtype: int64

#### 2) data와 index 같이 명시해서 생성하기
'''
pd.Series(
    data=None,
    index=None,
    dtype=None,
    name=None,
    copy=False,
    fastpath=False,
)
'''

In [14]:
s4 = pd.Series([1, 2, 3], [4, 5, 6])
s4

4    1
5    2
6    3
dtype: int64

In [16]:
s5 = pd.Series([1, 2, 3], ['h', 'j', 'g'])
s5 #이처럼 문자열을 index로 지정할 수 있다. 이로 인해 해당 인덱스를 명시해서 value값을 가져올 때 유용하고 제한사항이 없다 

h    1
j    2
g    3
dtype: int64

#### 3) data와 index와 data type 함께 명시하기 : 메모리 최적화에 자주 사용된다. 

In [18]:
s6 = pd.Series(np.arange(5), np.arange(100, 105), dtype = np.int32) 
s6

100    0
101    1
102    2
103    3
104    4
dtype: int32

### 2. 인덱스 활용하기

In [19]:
s6.index # .index를 활용하면 해당 index정보를 가져온다. 

Int64Index([100, 101, 102, 103, 104], dtype='int64')

In [20]:
s6.values #.values는 값만 가져올 수 있다. 

array([0, 1, 2, 3, 4], dtype=int32)

#### 1) 인덱스를 통한 데이터 접근

In [22]:
s6[104]

4

#### 2) 인덱스를 통한 데이터 업데이트

In [23]:
s6[104] = 90
s6[104]

90

In [25]:
s6[40] = 40
s6 #이렇게 업데이트에서는 기존에 없던 index와 data값을 지정해주면, 그냥 하나를 새로 만든다. 

100     0
101     1
102     2
103     3
104    90
40     40
dtype: int64

In [28]:
s7 = pd.Series(np.arange(6), s6.index) #s6의 index를 그대로 이용하기
s7

100    0
101    1
102    2
103    3
104    4
40     5
dtype: int64