## 판다스 (Pandas) 라이브러리

### 데이터 타입 변환

시리즈에 저장된 데이터가 문자열 타입으로 저장돼 있다고 가정해봅시다. 이러한 경우 덧셈 및 뺄셈 등의 연산을 적용할 수 없기 때문에 데이터 타입을 변경할 수 있어야 합니다. 

In [2]:
from pandas import Series

s = Series(["100", "200", "300"])
print(s.dtype)

object


`astype` 메서드는 데이터의 타입을 변경합니다. 

In [13]:
import numpy as np

s = s.astype(np.uint64)
print(s.dtype)

s +10  #정수 타입으로 바꿔주어야 수치 연산이 가능하다.

uint64


0    1010
1    2010
2    3010
dtype: uint64

만약 문자열 데이터에 콤마(`,`)가 파함돼 있다면 `astype` 메서드는 변환에 실패하고 에러 메시지를 출력합니다.   

In [15]:
s = Series(["1,000", "2,000", "3,000"])

s.replace(",","",regex=True,inplace=True)#series의 replace()는 오버라이딩 되어서 사용법이 다르다.  정규식을 사용한다.

s

0    1000
1    2000
2    3000
dtype: object

In [20]:
s= s.astype(np.int16)


`ValueError: invalid literal for int() with base 10: '1,000'`

시리즈의 `replace` 메서드를 사용하면 데이터를 한 번에 치환할 수 있습니다. 

In [21]:
s = Series(["1,000", "2,000", "3,000"])
s.replace(",", "",inplace=True,regex=True)


In [22]:
s

0    1000
1    2000
2    3000
dtype: object

`regex` 옵션을 추가하면 패턴을 검색한 후 치환을 시도합니다. (문자열의 replace와 이름은 동일하고 동작은 유사하지만 다른 클래스의 메서드입니다.)

불필요한 데이터를 치환한 다음 타입을 변경합니다. 

In [26]:
result = s.str[0] + s.str[2:]
result = result.astype(np.int16)
print(result)

0    100
1    200
2    300
dtype: int16


In [27]:
s.str.replace(",","").astype(np.int16)

0    1000
1    2000
2    3000
dtype: int16

Q. Series에 저장된 값을 다음과 같이 변경하라. 

| index | values | 
| ---- | ---- |
| 0 | 38000 | 
| 1 | 28000 | 

In [28]:
s = Series(["3만 8천", " 2만 8천"])

s

0     3만 8천
1     2만 8천
dtype: object

In [36]:
result = s.replace("만 ","",regex=True).replace('천','000',regex=True).astype(np.uint64)
print(result)


0    38000
1    28000
dtype: uint64


### 시리즈와 Map
시리즈를 사용하다 보면 시리즈가 지원하는 기본 연산 (덧셈, 뺄셈, 곱셈, 나눗셈) 이외에도 복잡한 형태의 사용자 정의 코드를 적용하고 싶은 경우가 있습니다. 예를 들어 시리즈에 저장된 성적을 학점으로 변경하기 위한 파이썬의 기본 함수는 없습니다. 사용자가 작성한 함수를 전체 시리즈에 적용하는 방법이 필요한데, 이를 `map` 함수로 해결합니다. 

In [37]:
s = Series([3, 13, 23])
print(s)

0     3
1    13
2    23
dtype: int64


In [39]:
def func(x):
    return x+10

s.map(func)
print(s)

0     3
1    13
2    23
dtype: int64


시리즈의 점수를 다음 조건의 학점으로 변경해 봅시다. 

| 점수구간 | 학점 |
| ---- | ---- |
| 20 - 29 | A |
| 10 - 19 | B |
| 0 - 9 | C |

In [40]:
def score(x):
    if x>=20:
        return 'A'
    elif x>=10:
        return "B"
    else:
        return"C"

s.map(score)  #map()의 파라미터엔 함수의 이름만 넘겨준다. 그리고 그 함수는 입력값과 출력이 있어야한다.

0    C
1    B
2    A
dtype: object

In [41]:
def a(x):
    print("hi")
    x()
    print("bye")

def b():
    print("middle")

a(b)

hi
middle
bye


In [43]:
!pip install pybithumb
import pybithumb

Collecting pybithumb
  Downloading pybithumb-1.0.21-py3-none-any.whl (9.9 kB)
Collecting datetime
  Downloading DateTime-4.4-py2.py3-none-any.whl (51 kB)
[K     |████████████████████████████████| 51 kB 461 kB/s 
Collecting websockets
  Downloading websockets-10.3-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_12_x86_64.manylinux2010_x86_64.whl (112 kB)
[K     |████████████████████████████████| 112 kB 9.5 MB/s 
Collecting zope.interface
  Downloading zope.interface-5.4.0-cp37-cp37m-manylinux2010_x86_64.whl (251 kB)
[K     |████████████████████████████████| 251 kB 64.2 MB/s 
Installing collected packages: zope.interface, websockets, datetime, pybithumb
Successfully installed datetime-4.4 pybithumb-1.0.21 websockets-10.3 zope.interface-5.4.0


In [44]:
btc = pybithumb.get_candlestick("BTC")

btc

Unnamed: 0_level_0,open,high,low,close,volume
time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2013-12-27 00:00:00,737000.0,755000.0,737000.0,755000.0,3.780000
2013-12-28 00:00:00,750000.0,750000.0,750000.0,750000.0,12.000000
2013-12-29 00:00:00,750000.0,750000.0,728000.0,739000.0,19.058000
2013-12-30 00:00:00,740000.0,772000.0,740000.0,768000.0,9.488973
2013-12-31 00:00:00,768000.0,800000.0,763000.0,768000.0,18.650350
...,...,...,...,...,...
2022-04-15 00:00:00,50630000.0,50796000.0,49605000.0,50379000.0,2170.489141
2022-04-16 00:00:00,50380000.0,50802000.0,50179000.0,50605000.0,1096.512534
2022-04-17 00:00:00,50600000.0,50723000.0,50128000.0,50321000.0,1020.035569
2022-04-18 00:00:00,50301000.0,50563000.0,48523000.0,49418000.0,2271.629746


In [47]:
def func(x):
    if x>=40000000:
        return "비싸"
    elif x>=20000000:
        return "적정"
    else:
        return "거저"

result = btc['close'].map(func)   #btc는 dataframe(2차원) btc['close'] 는 series


`cut` 함수를 사용하면 더욱 쉽게 수치형 데이터를 범주형 데이터로 변환할 수 있습니다.   
- `bins`와 `labels` 옵션을 사용합니다. 

Q. `map` 연산을 사용해서 시리즈에 저장된 값으로 학점을 판별하라.
- 90점 이상이면 A
- 70점 이상이면 B
- 나머지 F

연산 적용 결과
```
영수    A
철수    B
영희    F
```

In [None]:
s = Series([94, 74, 30], index=['영수', '철수', '영희'])



Q. `map` 연산을 사용해서 시리즈에 저장된 값에 다음 연산을 적용하라. 
- 0 이상 이면 값을 2배 키우고,
- 0 보다 작으면 값을 10 뺀다

연산 적용 결과
```
0    20
1     6
2   -13
dtype: int64
```

In [None]:
s = Series([10, 3, -3])

### 시리즈 정렬
`sort_values` 메서드를 사용하면 쉽게 데이터를 정렬할 수 있습니다.  
- `ascending` 값에 따라 오름차순 혹은 내림차순으로 정렬됩니다. 

In [None]:
from pandas import Series

data = [3.1, 2.0, 10.1, 5.1]
index = ["000010", "000020", "000030", "000040"]
s = Series(data=data, index=index)



`sort_index` 메서드는 인덱스를 기준으로 정렬합니다.

### 데이터 순위
`rank` 메서드는 순위를 측정합니다.

### 데이터 갯수 세기

시리즈에 저장된 데이터들의 출현 빈도를 세는 함수 `value_counts`

In [None]:
import numpy as np

s = Series(np.random.randint(10, size=100))
