### pandas basic

- 고수준의 자료구조와 파이썬에서 빠르고 쉽게 사용할 수 있는 데이터 분석 도구 포함
- Numpy, SciPy, statsmodels, scikit-learn, natplotlib과 함께 많이 사용됨
- pandas는 표 형식의 데이터나 다양한 형태의 데이터 다루는데 초점이 있고, Numpy는 단일 산술 배열 데이터 다루는 데 특화되어 있음

In [1]:
from pandas import Series, DataFrame

### data structure

- Series, DataFrame

#### Series

- 일련의 객체를 담을 수 있는 1차원 배열 같은 자료 구조(어떤 Numpy자료 형이라도 담을 수 있음)
- 색인(index)이라는 배열의 데이터와 연관된 이름을 가짐
- 간단한 Series 객체는 배열 데이터로부터 생성 가능
- 문자열 표현은 왼쪽에 색인 보여주고 오른쪽에 해당 색인의 값 보여줌(기본 색인은 0~N-1(N은 데이터 길이))
- Series배열과 색인 객체는 각각 values와 index 속성을 통해 얻음
- 고정 길이의 정렬된 사전형(색인 값에 데이터 값 매핑). 파이썬 사전형을 인자로 받아야하는 많은 함수에서 사전형 대체해 사용 가능

In [2]:
obj = pd.Series([4,7,-5,3])

obj

0    4
1    7
2   -5
3    3
dtype: int64

In [3]:
obj.values

array([ 4,  7, -5,  3])

In [4]:
obj.index  # range(4)와 같음

RangeIndex(start=0, stop=4, step=1)

- 색인 지정하여 생성

In [5]:
obj2 = pd.Series([4,7,-5,3], index = ['d', 'b','a','c'])

obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [6]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

- 단일 값을 선택하거나 여러 값을 선택할 때 색인으로 라벨을 사용 가능

In [7]:
obj2['a']

-5

In [8]:
obj2['d'] =6
obj2

d    6
b    7
a   -5
c    3
dtype: int64

In [9]:
obj2[['c', 'a', 'b']]

c    3
a   -5
b    7
dtype: int64

- 불리언 배열로 value 값 추출하거나 산술 곱셈 수행하거나 수학 함수 적용하는 등 Numpy배열 연산 수행 가능 

In [10]:
obj2[obj2>0]

d    6
b    7
c    3
dtype: int64

In [11]:
obj2 *2

d    12
b    14
a   -10
c     6
dtype: int64

In [12]:
np.exp(obj2)

d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

- 색인으로 데이터 유무 확인

In [13]:
'b' in obj2

True

In [14]:
'e' in obj2

False

- 파이썬 사전 객체 -> Series객체 생성 
    - 생성된 Series객체의 색인에는 사전의 키값이 순서대로 들어감. 
    - 색인 직접 지정 원할 때, 원하는 순서대로 직접 넘겨줄 수 있음

In [15]:
sdata = {'Ohio' : 35000, 'Texas' : 7100, 'Oregon':1600, 'Utah':5000}

obj3 = pd.Series(sdata)

obj3

Ohio      35000
Texas      7100
Oregon     1600
Utah       5000
dtype: int64

색인 순서 지정

In [16]:
states = ['California', 'Ohio', 'Oregon', 'Texas']

obj4 = pd.Series(sdata, index = states)

obj4

California        NaN
Ohio          35000.0
Oregon         1600.0
Texas          7100.0
dtype: float64

- `isnull`, `notnull` : 누락된 데이터 찾음

In [17]:
pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [18]:
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [19]:
obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

- 산술연산에서 색인과 라벨로 자동 정렬

In [20]:
obj3

Ohio      35000
Texas      7100
Oregon     1600
Utah       5000
dtype: int64

In [21]:
obj4

California        NaN
Ohio          35000.0
Oregon         1600.0
Texas          7100.0
dtype: float64

In [22]:
obj3 + obj4

California        NaN
Ohio          70000.0
Oregon         3200.0
Texas         14200.0
Utah              NaN
dtype: float64

- `name`속성 : Series 객체와 Series 색인 모두 가지고 있는 속성. pandas의 핵심 기능과 밀접한 관련있음

In [23]:
obj4.name = 'population'

obj4.index.name = 'state'

obj4

state
California        NaN
Ohio          35000.0
Oregon         1600.0
Texas          7100.0
Name: population, dtype: float64

- Series색인 변경

In [24]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [25]:
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']

obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

참고 자료
> Python for Data Analysis(2019), 한빛미디어  