# 데이터 분석을 위한 python (Pandas)

## Series
- pandas의 기본 객체 중 하나
- numpy의 ndarray를 기반으로 인덱싱 기능을 추가하여 1차원 배열을 나타냄
- index를 지정하지 않을 시, 기본적으로 ndarray와 같이 0-based 인덱스를 생성, 지정할 경우 명시적으로 지정된 index를 사용
- 같은 타입의 0개 이상의 데이터를 가질 수 있음

In [3]:
import numpy as np
import pandas as pd # pandas : 데이터 분석 라이브러리

### data로만 생성하기
- index는 기본적으로 0부터 자동적으로 생성

In [8]:
s1 = pd.Series([1,2,3])
s1

0    1
1    2
2    3
dtype: int64

In [12]:
s2 = pd.Series(['a','b','c'])
s2

0    a
1    b
2    c
dtype: object

In [10]:
s3 = pd.Series(np.arange(200))
s3

0        0
1        1
2        2
3        3
4        4
      ... 
195    195
196    196
197    197
198    198
199    199
Length: 200, dtype: int64

### data, index 함께 명시하기

In [16]:
s4 = pd.Series([1,2,3],['index1','index2','index3'])
s4

index1    1
index2    2
index3    3
dtype: int64

### data, index, data type 함께 명시하기

In [18]:
s5 = pd.Series(np.arange(5), np.arange(100,105), dtype=np.int16) # dtype : 메모리 관리
s5

100    0
101    1
102    2
103    3
104    4
dtype: int16

## 인덱스 활용하기

In [14]:
print(s5.index)

Int64Index([100, 101, 102, 103, 104], dtype='int64')


In [15]:
print(s5.values)

[0 1 2 3 4]


### 인덱스를 통한 데이터 접근

In [16]:
print(s5[104])

4


### 인덱스를 통한 데이터 업데이트

In [17]:
s5[104] = 999
s5

100      0
101      1
102      2
103      3
104    999
dtype: int16

In [36]:
# 만일 인덱스와 값이 존재하지 않으면 추가도 가능하다.
s5[105] = 888
s5

100      0
101      1
102      2
103      3
104    999
105    888
dtype: int64

### 인덱스 재사용하기

In [39]:
s6 = pd.Series(np.arange(6), s5.index) # 위에 s5 인덱스 재사용하기
s6

100    0
101    1
102    2
103    3
104    4
105    5
dtype: int64

## Series 함수를 활용하여 데이터 분석하기

In [19]:
import numpy as np
import pandas as pd

- size : 개수 반환
- shape : tuple 형태로 shape 반환
- unique() : 유일한 값만 ndarray로 반환
- count() : NaN을 제외한 개수를 반환 (NaN : Not a Number)
- mean() : NaN을 제외한 평균
- value_counts : NaN을 제외하고 각 값들의 빈도를 반환

In [20]:
# 용도 : 데이터가 누락되었거나, 다른 값이 들어와서 NaN으로 채워진 값을 다룰 때
s = pd.Series([1,1,2,1,2,2,2,1,1,3,3,4,5,5,7,np.NaN]) # NaN : Not a Number
s

0     1.0
1     1.0
2     2.0
3     1.0
4     2.0
5     2.0
6     2.0
7     1.0
8     1.0
9     3.0
10    3.0
11    4.0
12    5.0
13    5.0
14    7.0
15    NaN
dtype: float64

In [46]:
# 개수 반환
len(s)

16

In [47]:
# 개수 반환
s.size

16

In [52]:
# tuple 형태로 shape 반환
s.shape

(16,)

In [53]:
# 복수의 숫자를 한 개의 값으로 가져옴 (유일한 값만 ndarray로 반환)
s.unique()

array([ 1.,  2.,  3.,  4.,  5.,  7., nan])

In [54]:
# NaN을 제외한 개수를 반환
s.count()

15

In [57]:
# NaN을 제외한 평균
s.mean()

2.6666666666666665

### value_count()

In [58]:
# NaN을 제외하고 각 값들의 빈도를 반환 (상용!)
s.value_counts()

1.0    5
2.0    4
5.0    2
3.0    2
7.0    1
4.0    1
dtype: int64

### index를 활용하여 멀티플한 값에 접근

In [62]:
# 해당 인덱스를 가져올 수 있다.
s[[5,7,8,10]]

5     2.0
7     1.0
8     1.0
10    3.0
dtype: float64

In [64]:
# 위의 것을 기반으로 - NaN을 제외하고 - 각 값들의 빈도를 반환
s[[5,7,8,10]].value_counts()

1.0    2
3.0    1
2.0    1
dtype: int64

### head, tail 함수
- head : 상위 n개 출력, 기본 5개
- tail : 하위 n개 출력, 기본 5개

In [65]:
s

0     1.0
1     1.0
2     2.0
3     1.0
4     2.0
5     2.0
6     2.0
7     1.0
8     1.0
9     3.0
10    3.0
11    4.0
12    5.0
13    5.0
14    7.0
15    NaN
dtype: float64

In [73]:
s.head(n=7) # 기본은 5개이나, 괄호 안에 조절 가능

0    1.0
1    1.0
2    2.0
3    1.0
4    2.0
5    2.0
6    2.0
dtype: float64

In [74]:
s.tail()

11    4.0
12    5.0
13    5.0
14    7.0
15    NaN
dtype: float64

## Series 데이터 연산하기

In [21]:
import numpy as np
import pandas as pd

### 인덱스 기준으로 연산

In [27]:
s1 = pd.Series([1,2,3,4],['a','b','c','d'])
s2 = pd.Series([6,3,2,1],['d','c','b','a'])
s1

a    1
b    2
c    3
d    4
dtype: int64

In [28]:
s2

d    6
c    3
b    2
a    1
dtype: int64

In [29]:
s1 + s2

a     2
b     4
c     6
d    10
dtype: int64

### 산술연산
- Series 의 경우에도 스칼라와의 연산은 각 원소별로 스칼라와의 연산이 적용
- Series 와의 연산은 각 인덱스에 맞는 값끼리 연산이 적용
    - 인덱스의 pair가 맞지 않으면, 결과는 NaN

In [31]:
# 브로드캐스팅, 차원이 맞지 않는 경우에도 차원을 맞춰서 연산
s1 ** 2 # 모든 연산을 제곱시킨다.

a     1
b     4
c     9
d    16
dtype: int64

In [34]:
s1 ** s2

a       1.0
b       4.0
c      27.0
d    4096.0
e       NaN
k       NaN
dtype: float64

### index pair 가 맞지 않는 경우
- 해당 index 에 대해서는 NaN 값 생성

In [36]:
s1 = pd.Series([1,2,3,4],['a','b','c','d'])
s2 = pd.Series([6,3,2,1],['d','c','b','a'])

In [37]:
s1

a    1
b    2
c    3
d    4
dtype: int64

In [40]:
s2

d    6
c    3
b    2
a    1
dtype: int64

In [41]:
s1['k'] = 7
s2['e'] = 9

In [42]:
s1

a    1
b    2
c    3
d    4
k    7
dtype: int64

In [43]:
s2

d    6
c    3
b    2
a    1
e    9
dtype: int64

In [44]:
s1 + s2

a     2.0
b     4.0
c     6.0
d    10.0
e     NaN
k     NaN
dtype: float64

## Series 데이터 Boolean Selection으로 데이터 선택하기

In [45]:
import numpy as np
import pandas as pd

### Boolean selection
- boolean Series 가 []와 함께 사용되면 True 값에 해당하는 값만 새로 반환되는 Series 객체에 포함됨
- 다중조건의 경우, &(and), |(or) 를 사용하여 연결 가능

In [48]:
s = pd.Series(np.arange(10),np.arange(10)+1)
s

1     0
2     1
3     2
4     3
5     4
6     5
7     6
8     7
9     8
10    9
dtype: int64

In [49]:
s > 5

1     False
2     False
3     False
4     False
5     False
6     False
7      True
8      True
9      True
10     True
dtype: bool

In [50]:
# True 인 것만 필터링
s[s>5]

7     6
8     7
9     8
10    9
dtype: int64

In [51]:
# 짝수 인 것만 필터링
s[s%2==0]

1    0
3    2
5    4
7    6
9    8
dtype: int64

In [52]:
# =================== 다시 ===================
s

1     0
2     1
3     2
4     3
5     4
6     5
7     6
8     7
9     8
10    9
dtype: int64

In [53]:
# 인덱스 값을 기준으로
s.index > 5

array([False, False, False, False, False,  True,  True,  True,  True,
        True])

In [54]:
s[s.index > 5]

6     5
7     6
8     7
9     8
10    9
dtype: int64

In [56]:
# 다중조건의 경우, &(and), |(or) 를 사용하여 연결 가능 === 괄호로 묶는다!
s[(s > 5) & (s < 8)]

7    6
8    7
dtype: int64

In [57]:
# =================== 문제 ===================
s

1     0
2     1
3     2
4     3
5     4
6     5
7     6
8     7
9     8
10    9
dtype: int64

In [58]:
(s>=7).sum()

3

In [61]:
(s[s>=7]).sum()

24

## Series 데이터 변경 & 슬라이싱하기

In [110]:
import numpy as np
import pandas as pd

### Series 값 변경
- 추가 및 업데이트 : 인덱스를 이용
- 삭제 : drop함수 이용

In [111]:
s = pd.Series(np.arange(100, 105),['a','b','c','d','e'])

In [112]:
s

a    100
b    101
c    102
d    103
e    104
dtype: int64

In [113]:
s['a']=200
s['k']=999
s

a    200
b    101
c    102
d    103
e    104
k    999
dtype: int64

In [114]:
s.drop('k')

a    200
b    101
c    102
d    103
e    104
dtype: int64

In [115]:
# 원본은 변하지 않는다.
s

a    200
b    101
c    102
d    103
e    104
k    999
dtype: int64

In [116]:
# 원본에서 k 지우기
s.drop('k',inplace=True)
s

a    200
b    101
c    102
d    103
e    104
dtype: int64

In [117]:
# 한번에 업데이트
s[['a','b']] = [888,999]
s

a    888
b    999
c    102
d    103
e    104
dtype: int64

### Slicing
- 리스트, ndarray 와 동일하게 적용

In [122]:
s = pd.Series(np.arange(100, 105),['a','c','b','d','e'])
s

a    100
c    101
b    102
d    103
e    104
dtype: int64

In [123]:
s[1:3]

c    101
b    102
dtype: int64

In [124]:
s['c':'d']

c    101
b    102
d    103
dtype: int64

## DataFrame 데이터 살펴보기

In [125]:
import pandas as pd

### head, tail 함수
- 데이터 전체가 아닌, 일부(처음부터, 혹은 마지막부터)를 간단히 보기 위한 함수

### Dataframe  데이터 파악하기
- shape 속성(row, column)
- describe 함수 - 숫자형 데이터의 통계치 계산
- info 함수 - 데이터 타입, 각 아이템의 개수 등 출력

In [127]:
import pandas as pd

### dictionary  로 부터 생성하기
- dict 의 key -> column

In [128]:
data = {'a':100,'b':200,'c':300}
pd.DataFrame(data, index=['x','y','z'])

Unnamed: 0,a,b,c
x,100,200,300
y,100,200,300
z,100,200,300
