#### pandas란
- 2차원(row, column)형태의 데이터를 분석하기 위한 라이브러리
- 대용량 data 분석이 가능하며 배열 계산에 빠른 numpy를 기반으로 설계
- pandas 개발자는 금융회사의 분석 전문가로 회사의 data 분석 툴이 마음에 들지 않아 직접 분석 툴을 개발 하고 성능이 좋아 회사의 다른 사람들에게 공유하였고 점점 사용자가 늘면서 전 세계적으로 사용하게 됨
- 2차원 데이터 분석 툴 중에 가장 인기가 있음
- Series, DataFrame, Index의 이해 필요
- 별칭으로 pd를 쓰는 것이 관례임 => import pandas as pd


In [1]:
import numpy as np
import pandas as pd

### Serise
- Column이 하나인 1차원 형태의 Data
- numpy의 ndarray가 보강
- Index와 Data를 지님
- Series가 모여 2차원 형태의 Data가 되고 이를 DataFrame이라 함

#### 생성
- list data
- list data + index
- list data + index + dtype(데이타타입)
- dictionary

In [2]:
st = pd.Series([1, 2, 3, 4])
st

0    1
1    2
2    3
3    4
dtype: int64

In [3]:
print(type(st))

<class 'pandas.core.series.Series'>


In [4]:
st.values

array([1, 2, 3, 4], dtype=int64)

In [5]:
st.index

RangeIndex(start=0, stop=4, step=1)

In [6]:
st.index.values

array([0, 1, 2, 3], dtype=int64)

In [8]:
type(st.values)

numpy.ndarray

In [9]:
st.index

RangeIndex(start=0, stop=4, step=1)

In [11]:
s3 = pd.Series(np.arange(1, 100, 2), np.arange(1, 51))
s3

1      1
2      3
3      5
4      7
5      9
6     11
7     13
8     15
9     17
10    19
11    21
12    23
13    25
14    27
15    29
16    31
17    33
18    35
19    37
20    39
21    41
22    43
23    45
24    47
25    49
26    51
27    53
28    55
29    57
30    59
31    61
32    63
33    65
34    67
35    69
36    71
37    73
38    75
39    77
40    79
41    81
42    83
43    85
44    87
45    89
46    91
47    93
48    95
49    97
50    99
dtype: int32

In [18]:
# datatype 지정
s4 = pd.Series( [1, 2, 3, 4, 5], dtype=object)
print(s4)
s5 = pd.Series( [1, 2, 3, 4, 5], dtype=float)
print(s5)
s6 = pd.Series( [1, 2, 3, 4, 5], dtype=int)
print(s6)

0    1
1    2
2    3
3    4
4    5
dtype: object
0    1.0
1    2.0
2    3.0
3    4.0
4    5.0
dtype: float64
0    1
1    2
2    3
3    4
4    5
dtype: int32


In [19]:
print(s4.dtype)
s4 = s4.astype('float')
s4

object


0    1.0
1    2.0
2    3.0
3    4.0
4    5.0
dtype: float64

In [20]:
# dictionary
dic_1 = {
    'kor' : 90,
    'eng' : 95,
    'mat' : 87,
    'sci' : 88
}
dic_1

{'kor': 90, 'eng': 95, 'mat': 87, 'sci': 88}

In [21]:
s7 = pd.Series(dic_1)
s7

kor    90
eng    95
mat    87
sci    88
dtype: int64

In [22]:
s = pd.Series([1, 2, 3, 4, 5], ['a', 'b', 'c', 'd', 'e'])
s

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [23]:
s.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [24]:
s.index.values

array(['a', 'b', 'c', 'd', 'e'], dtype=object)

In [25]:
s.values

array([1, 2, 3, 4, 5], dtype=int64)

In [27]:
print(s['b'])
print(s['c'])

2
3


In [30]:
s['b'] = 100
s['e'] = 101
print(s['b'])
print(s['e'])
print(s.values)

100
101
[  1 100   3   4 101]


In [36]:
# index 변경
s.index = ['가', '나', '다', '라', '마']
s

가      1
나    100
다      3
라      4
마    101
dtype: object

In [37]:
s['나']

100

In [40]:
# 인덱스 재사용
s1 = pd.Series(np.arange(5), s.index)
s1

가    0
나    1
다    2
라    3
마    4
dtype: int32

In [42]:
s1[['나', '라']]

나    1
라    3
dtype: int32

In [44]:
s1['나': '라']

나    1
다    2
라    3
dtype: int32

In [47]:
s1.drop('나')
s1

KeyError: "['나'] not found in axis"

In [46]:
s1 = s1.drop('나')
s1

가    0
다    2
라    3
마    4
dtype: int32

In [52]:
s1 = s1.drop('다')
s1

가    0
라    3
마    4
dtype: int32

In [53]:
s1 = s1.drop('가')
s1

라    3
마    4
dtype: int32

In [54]:
# 바로 삭제
del s1['마']
s1

라    3
dtype: int32