## 1. Pandas 설치 및 사용
  - Pandas를 설치하려면 먼저 NumPy가 설치되어 있어야 함
  - 아나콘다 설치시 Pandas 포함

In [1]:
import pandas as pd
pd.__version__

'1.1.3'

---
## 2. Panas 객체
Pandas 객체는 NumPy의 구조화된 배열을 보강한 버전 : 정수형 인덱스 + 레이블  
 - Series
 - Dataframe
 - Index

### 2.1 Series
#### 인덱싱된 데이터의 1차원 배열

In [2]:
data = pd.Series([0.2,0.4,0.6,0.8])
data

0    0.2
1    0.4
2    0.6
3    0.8
dtype: float64

In [5]:
# NumPy와 비교
import numpy as np
np.array([0.2,0.4,0.6,0.8])

array([0.2, 0.4, 0.6, 0.8])

#### values와 index 속성으로 접근 가능
* values가 NumPy 배열
* NumPy와 같이 대괄호를 사용해 연결된 인덱스로 접근 가능

In [3]:
data.index

RangeIndex(start=0, stop=4, step=1)

In [4]:
data.values

array([0.2, 0.4, 0.6, 0.8])

In [6]:
data[2]

0.6

#### Pandas는 일반화된 Numpy 배열. 
근본적인 차이는 인덱스 존재 여부  
  - NumPy 암묵적으로 정의된 정수형 인덱스
  - Pandas 명시적으로 정의된 인덱스
    - 인덱스로 문자열 사용 가능
    - 연속적이지 않은 인덱스도 사용 가능

In [7]:
data = pd.Series([0.2,0.4,0.6,0.8], 
                 index=['a','b','c','d'])
data

a    0.2
b    0.4
c    0.6
d    0.8
dtype: float64

In [8]:
data['b']

0.4

In [9]:
data = pd.Series([0.2,0.4,0.6,0.8], 
                 index=[2,5,3,7])
data

2    0.2
5    0.4
3    0.6
7    0.8
dtype: float64

In [10]:
data[5]

0.4

#### 특수한 딕셔너리로서 Series
  - 딕셔너리 : {key : value} 형태
    - key -> index
    - value -> values

In [11]:
population_dic = {'California': 300,
              'Texas':250,
              'New York':200,
              'Florida':190,
              'Illinois':120}
population = pd.Series(population_dic)
population

California    300
Texas         250
New York      200
Florida       190
Illinois      120
dtype: int64

In [12]:
population['California']

300

In [14]:
population['California':'Texas']

California    300
Texas         250
dtype: int64

#### Series 객체 생성하기
pd.Series(data, index=index)
  - data 는 아래 형태일 수 있음
    - 1) NumPy 배열 or 리스트
    - 2) 스칼라
    - 3) 딕셔너리

In [15]:
# 리스트
pd.Series([2,4,6])

0    2
1    4
2    6
dtype: int64

In [16]:
# 스칼라
pd.Series(5, index=[3,6,9])

3    5
6    5
9    5
dtype: int64

In [17]:
# 딕셔너리
pd.Series({2:'a', 1:'b', 3:'c'})

2    a
1    b
3    c
dtype: object

### 2.2 DataFrame
Pandas의 기본 구조체
  - Series가 1차원 배열이였다면, DataFrame은 2차원 배열

In [18]:
area_dict = {'California': 40,
             'Texas': 70,
             'New York': 15,
             'Florida': 17,
             'Illinois': 15}
area = pd.Series(area_dict)
area

California    40
Texas         70
New York      15
Florida       17
Illinois      15
dtype: int64

In [19]:
population

California    300
Texas         250
New York      200
Florida       190
Illinois      120
dtype: int64

In [20]:
state = pd.DataFrame({'pl':population,
                      'ar':area})
state

Unnamed: 0,pl,ar
California,300,40
Texas,250,70
New York,200,15
Florida,190,17
Illinois,120,15


#### values와 index 속성 + columns 속성
- Series 객체와 같이 values와 index 속성을 가지고 있음
- 아울러 columns 속성 추가됨

In [21]:
state.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

In [22]:
state.columns

Index(['pl', 'ar'], dtype='object')

In [23]:
state.values

array([[300,  40],
       [250,  70],
       [200,  15],
       [190,  17],
       [120,  15]], dtype=int64)

In [24]:
state['ar'] # Series 객체와 달리 DataFrame은 열을 반환

California    40
Texas         70
New York      15
Florida       17
Illinois      15
Name: ar, dtype: int64

#### DataFrame 객체 생성하기
- Series 객체로 구성
- 딕셔너리의 리스트로 구성
- Series 객체의 딕셔너리로 구성
- 2차원 Numpy 배열로 구성

In [25]:
area_dict = {'California': 40,
             'Texas': 70,
             'New York': 15,
             'Florida': 17,
             'Illinois': 15}
area = pd.Series(area_dict)

pd.DataFrame(area, columns=['Area']) #Series 객체로 구성

Unnamed: 0,Area
California,40
Texas,70
New York,15
Florida,17
Illinois,15


In [26]:
data = [{'a':1,'b':2},
        {'a':2,'b':4},
        {'a':3,'b':6},
        {'a':4,'b':8}]
pd.DataFrame(data) # 딕셔너리의 리스트로 구성

Unnamed: 0,a,b
0,1,2
1,2,4
2,3,6
3,4,8


In [27]:
state = pd.DataFrame({'pl':population,
                      'ar':area}) # Series 객체의 딕셔너리로 구성
state

Unnamed: 0,pl,ar
California,300,40
Texas,250,70
New York,200,15
Florida,190,17
Illinois,120,15


In [28]:
pd.DataFrame(np.random.rand(3,2),
             columns=['foo','bar'],
             index=['a','b','c']) # 배열로 구성

Unnamed: 0,foo,bar
a,0.842554,0.220173
b,0.826281,0.472964
c,0.006095,0.493786


### 2.3 Index
- Series와 DataFrame은 데이터를 참조하고 수정하게 해주는 명시적 인덱스 포함
- 인덱스 자체를 배열로 볼 수 있음

In [29]:
ind = pd.Index([2,3,5,7,11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

#### Index 객체는 배열처럼 동작

In [30]:
ind[::2] # 슬라이싱

Int64Index([2, 5, 11], dtype='int64')

In [31]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64


In [32]:
indA = pd.Index([1,3,5,7,9])
indB = pd.Index([2,3,5,7,11])

print(indA & indB) # 교집합
print(indA | indB) # 합집합
print(indA ^ indB) # 대칭 차집합(합집합 - 교집합)

Int64Index([3, 5, 7], dtype='int64')
Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')
Int64Index([1, 2, 9, 11], dtype='int64')


#### Index 객체는 일반적인 방법으로 변경 불가

In [33]:
ind[0] = 4 # Error

TypeError: Index does not support mutable operations