### Pandas
- 데이터 분석을 위한 사용이 쉽고 성능이 좋은 오픈소스 python 라이브러리
- R과 Pandas 특징
    - R보다 Pandas가 학습이 쉽다
    - R보다 Pandas가 성능이 좋다
    - R보다 Python은 활용할 수 있는 분야가 많다
- 크게 두가지 데이터 타입을 사용
    - Series : index와 value로 이루어진 데이터 타입
    - DataFrame : index, column, value로 이루어진 데이터 타입

In [7]:
import pandas as pd
import numpy as np

### Series
- 동일한 데이터 타입의 값을 갖는다

In [8]:
# Series
data = pd.Series(np.random.randint(10, size=5))
data

0    8
1    0
2    3
3    2
4    5
dtype: int64

In [9]:
# index 설정
data = pd.Series(np.random.randint(10, size=5),
                index = list("ABCDE"))
data

A    8
B    4
C    6
D    0
E    2
dtype: int64

#### Series Attribute

In [10]:
data.index, data.values

(Index(['A', 'B', 'C', 'D', 'E'], dtype='object'), array([8, 4, 6, 0, 2]))

In [11]:
data['B'], data.B

(4, 4)

In [13]:
data["C"] = 111
data

A      8
B      4
C    111
D      0
E      2
dtype: int64

In [14]:
# 브로드 캐스팅
data * 10

A      80
B      40
C    1110
D       0
E      20
dtype: int64

In [16]:
data[["B", "E"]]

B    4
E    2
dtype: int64

In [20]:
# offset index
data[2::2]

C    111
E      2
dtype: int64

#### Series 연산

In [21]:
data

A      8
B      4
C    111
D      0
E      2
dtype: int64

In [23]:
data2 = pd.Series({"D":3, "E":5, "F":7})
data2

D    3
E    5
F    7
dtype: int64

In [25]:
result = data + data2  # 같은 인덱스끼리만 연산이 이루어진다
result # None

A    NaN
B    NaN
C    NaN
D    3.0
E    7.0
F    NaN
dtype: float64

In [27]:
is_null = result.isnull()
result[is_null]

A   NaN
B   NaN
C   NaN
F   NaN
dtype: float64

In [28]:
result[is_null] = data
result

A      8.0
B      4.0
C    111.0
D      3.0
E      7.0
F      NaN
dtype: float64

In [29]:
result[result.isnull()] = data2

In [30]:
result

A      8.0
B      4.0
C    111.0
D      3.0
E      7.0
F      7.0
dtype: float64