- 아주 기본적인 수준에서 보면 Pandas 객체는 행과 열이 단순 정수형 인덱스가 아닌 레이블로 식별되는 NumPy의 구조화된 배열을 보강한 버전이라고 볼 수 있다.
- Pandas는 이 기본 자료 구조에 여러가지 유용한 도구와 메서드, 기능을 제공한다
- Pandas의 세 가지 기본 자료 구조는 Series, DataFrame, Index이다

#### 1. Pandas Series 객체 
- Pandas Series는 인덱싱된 데이터의 1차원 배열이다
- 다음과 같이 리스트나 배열로부터 만들 수 있다

In [2]:
import numpy as np
import pandas as pd

In [3]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [5]:
data.values # NumPy 배열이 출력됨

array([0.25, 0.5 , 0.75, 1.  ])

In [6]:
data.index

RangeIndex(start=0, stop=4, step=1)

In [7]:
data[1] # NumPy와 마찬가지로 파이썬 대괄호 표기법을 통해 연결된 인덱스로 접근할 수 있음

np.float64(0.5)

In [8]:
data[1:3]

1    0.50
2    0.75
dtype: float64

그러나 Pandas Series가 1차원 NumPy 배열보다 훨씬 더 일반적이고 유연함

##### a. Series: 일반화된 NumPy 배열
Series와 1차원 NumPy Array의 차이는 인덱스의 존재 여부
- NumPy: 배열의 값에 접근하는 데 사용되는 암묵적으로 정의된 인덱스 존재  
- Series: 값에 연결된 명시적으로 정의된 인덱스 존재. 이 명시적 인덱스가 Series 객체에 추가적 기능 제공
> 예를 들어, 인덱스는 정수일 필요가 없고 어떤 타입의 값으로도 구성할 수 있음. 원한다면 인덱스로 문자열을 사용할 수 있음

In [9]:
data = pd.Series([0.25, 0.5,0.75, 1.0],
                 index = ['a','b','c','d'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [10]:
data['b']

np.float64(0.5)

In [11]:
# 인접하지 않거나 연속적이지 않은 인덱스를 사용할 수도 있다.
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index = [2,5,3,7])
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

In [12]:
data[5]

np.float64(0.5)

##### b.Series: 특수한 딕셔너리
Pandas Series는 Python Dictionary의 특수한 버전으로 볼 수도 있다
- Dictionary: 일련의 임의의 값에 임의의 키 매핑
- Series: 타입이 지정된 키를 일련의 타입이 지정된 값에 매핑
> 특정 연산에서 NumPy 파일 뒤의 타입 특정 컴파일된 코드가 그 코드를 Python List를 사용한 코드보다 효율적으로 만들어주는 것처럼, Pandas Series의 타입 정보는 특정 연산에서 Python Dictionary보다 Pandas Series를 더 효율적으로 만든다.

In [13]:
population_dict = {'California':38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois':12882135}
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [14]:
# Series는 인덱스가 정렬된 키값에서 추출됨. 전형적인 딕셔너리 스타일로 아이템에 접근가능
population['California']

np.int64(38332521)

In [15]:
# 그러나 Dictionary와 달리 Series는 슬라이싱같이 Array style 연산도 지원한다
population['California':'Illinois']

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

##### c. Series 객체 구성하기
> pd.Series(data,index=index)  
- 여기서 index는 선택 인수고 data는 많은 요소 중 하나일 수 있다  
 (where index is an optional argument, and data can be one of many entities.)  
- 예를 들어 data는 list나 NumPy Array일 수 있고, 그런 경우 index는 정수가 기본이다

In [16]:
pd.Series([2,4,6])

0    2
1    4
2    6
dtype: int64

In [17]:
# data는 지정된 인덱스를 채우기 위해 반복되는 스칼라값일 수 있다.
pd.Series(5,index=[100,200,300])

100    5
200    5
300    5
dtype: int64

In [21]:
# data는 딕셔너리일 수도 있는데, 그 경우 index는 기본적으로 딕셔너리 키를 정렬해서 취함
pd.Series({2:'a',1:'b',3:'c'})

2    a
1    b
3    c
dtype: object

In [22]:
# In each case, the index can be explicitly set if a different result is preferred:
pd.Series({2:'a',1:'b',3:'c'},index=[3,2])

3    c
2    a
dtype: object

Notice that in this case, the Series is populated only with the explicitly identified keys.