### Pandas
- 데이터 분석을 위한 사용성이 좋고 쉽고 성능이 좋은 오픈소스 Python 라이브러리
- R의 DataFrame 구조로 만들어짐
    - R보다 Pandas가 성능 좋음 : numpy로 동작
    - Python이 더 범용 개발에 사용
    - R보다 Python이 쉽습니다.
- 두가지 데이터 타입
    - Series
        - index, value로 이루어진 데이터 타입
        - 하나의 Series에는 동일한 데이터 타입의 데이터만 사용
    - DataFrame
        - index, value, column으로 이루어진 데이터 타입
        - 여러개의 Series(column)로 이루어진 데이터 타입
        - 테이블 형태의 데이터

In [4]:
import numpy as np
import pandas as pd

#### 1. Series

In [1]:
# 선언

In [3]:
s = pd.Series([1, 3, 5, np.nan, 6, 8]) # null, None
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

In [16]:
data = pd.Series(np.random.randint(10, size=5))
data

0    4
1    1
2    5
3    6
4    6
dtype: int64

In [17]:
# index 설정

In [19]:
data = pd.Series(np.random.randint(10, size=5), list("ABCDE"))
data

A    9
B    8
C    2
D    2
E    4
dtype: int64

In [21]:
# Series 객체의 값 확인 : index, value

In [23]:
data.index, data.values

(Index(['A', 'B', 'C', 'D', 'E'], dtype='object'), array([9, 8, 2, 2, 4]))

In [24]:
# [] : 마스킹 문법 사용

In [28]:
data["C"], data.C, data[["C", "E"]]

(2,
 2,
 C    2
 E    4
 dtype: int64)

In [31]:
s[1] # s.1 : 식별자 규칙 : 숫자가 가장 앞에 올수 X

3.0

In [32]:
# Series 객체에 Name, index_name을 설정

In [37]:
data.name = "Data"

In [38]:
data.index.name = "ABC"

In [39]:
data

ABC
A    9
B    8
C    2
D    2
E    4
Name: Data, dtype: int64

In [40]:
# Series 객체의 연산

In [44]:
data * 10 # 브로드 캐스팅되게 연산

ABC
A    90
B    80
C    20
D    20
E    40
Name: Data, dtype: int64

In [52]:
data[["A", "C"]], data[2::-1]

(ABC
 A    9
 C    2
 Name: Data, dtype: int64,
 ABC
 C    2
 B    8
 A    9
 Name: Data, dtype: int64)

In [55]:
data[data > 5]

ABC
A    9
B    8
Name: Data, dtype: int64

In [58]:
list(data.items())

[('A', 9), ('B', 8), ('C', 2), ('D', 2), ('E', 4)]

In [59]:
for idx, val in data.items():
    print(idx, val)

A 9
B 8
C 2
D 2
E 4


In [63]:
# 데이터 수정
data["B"] = 10
data

ABC
A     9
B    10
C     2
D     2
E     4
Name: Data, dtype: int64

In [65]:
data[["B", "C"]] = [100, 200]
data

ABC
A      9
B    100
C    200
D      2
E      4
Name: Data, dtype: int64

In [68]:
data[data >= 100] = 5
data

ABC
A    9
B    5
C    5
D    2
E    4
Name: Data, dtype: int64