## 판다스 (Pandas) 라이브러리

### 데이터 타입 변환

시리즈에 저장된 데이터가 문자열 타입으로 저장돼 있다고 가정해봅시다. 이러한 경우 덧셈 및 뺄셈 등의 연산을 적용할 수 없기 때문에 데이터 타입을 변경할 수 있어야 합니다. 

In [2]:
import pandas
from pandas import Series

In [4]:
s = Series(["100", "200", "300"])
print(s.dtype)

object


`astype` 메서드는 데이터의 타입을 변경합니다. 

In [None]:

print(s.dtype)

만약 문자열 데이터에 콤마(`,`)가 파함돼 있다면 `astype` 메서드는 변환에 실패하고 에러 메시지를 출력합니다.   

In [None]:
s = Series(["1,000", "2,000", "3,000"])



`ValueError: invalid literal for int() with base 10: '1,000'`

시리즈의 `replace` 메서드를 사용하면 데이터를 한 번에 치환할 수 있습니다. 

In [None]:
s = Series(["1,000", "2,000", "3,000"])
s.replace("", "")


`regex` 옵션을 추가하면 패턴을 검색한 후 치환을 시도합니다. (문자열의 replace와 이름은 동일하고 동작은 유사하지만 다른 클래스의 메서드입니다.)

불필요한 데이터를 치환한 다음 타입을 변경합니다. 

Q. Series에 저장된 값을 다음과 같이 변경하라. 

| index | values | 
| ---- | ---- |
| 0 | 38000 | 
| 1 | 28000 | 

In [None]:
s = Series(["3만 8천", " 2만 8천"])



### 시리즈와 Map
시리즈를 사용하다 보면 시리즈가 지원하는 기본 연산 (덧셈, 뺄셈, 곱셈, 나눗셈) 이외에도 복잡한 형태의 사용자 정의 코드를 적용하고 싶은 경우가 있습니다. 예를 들어 시리즈에 저장된 성적을 학점으로 변경하기 위한 파이썬의 기본 함수는 없습니다. 사용자가 작성한 함수를 전체 시리즈에 적용하는 방법이 필요한데, 이를 `map` 함수로 해결합니다. 

In [None]:
s = Series([3, 13, 23])
print(s)

시리즈의 점수를 다음 조건의 학점으로 변경해 봅시다. 

| 점수구간 | 학점 |
| ---- | ---- |
| 20 - 29 | A |
| 10 - 19 | B |
| 0 - 9 | C |

`cut` 함수를 사용하면 더욱 쉽게 수치형 데이터를 범주형 데이터로 변환할 수 있습니다.   
- `bins`와 `labels` 옵션을 사용합니다. 

Q. `map` 연산을 사용해서 시리즈에 저장된 값으로 학점을 판별하라.
- 90점 이상이면 A
- 70점 이상이면 B
- 나머지 F

연산 적용 결과
```
영수    A
철수    B
영희    F
```

In [None]:
s = Series([94, 74, 30], index=['영수', '철수', '영희'])


Q. `map` 연산을 사용해서 시리즈에 저장된 값에 다음 연산을 적용하라. 
- 0 이상 이면 값을 2배 키우고,
- 0 보다 작으면 값을 10 뺀다

연산 적용 결과
```
0    20
1     6
2   -13
dtype: int64
```

In [None]:
s = Series([10, 3, -3])

### 시리즈 정렬
`sort_values` 메서드를 사용하면 쉽게 데이터를 정렬할 수 있습니다.  
- `ascending` 값에 따라 오름차순 혹은 내림차순으로 정렬됩니다. 

In [None]:
from pandas import Series

data = [3.1, 2.0, 10.1, 5.1]
index = ["000010", "000020", "000030", "000040"]
s = Series(data=data, index=index)



`sort_index` 메서드는 인덱스를 기준으로 정렬합니다.

### 데이터 순위
`rank` 메서드는 순위를 측정합니다.

### 데이터 갯수 세기

시리즈에 저장된 데이터들의 출현 빈도를 세는 함수 `value_counts`

In [None]:
import numpy as np

s = Series(np.random.randint(10, size=100))


In [9]:
s1 = Series([10, 20, 30, 40], index = ["가", "나", "다", "라"])
s2 = Series([20, 30, 40], index = ["다", "나", "가"])
s3 = s1+s2
s3

가    50.0
나    50.0
다    50.0
라     NaN
dtype: float64

같은 index를 가지는 애들끼리 지지고볶는다. 한쪽이 없으면 포기한다.

In [10]:
s3. loc[  ["다", "나", "가", "라" ] ]

다    50.0
나    50.0
가    50.0
라     NaN
dtype: float64

In [7]:
import numpy as np

type(np.nan)

float

In [8]:
np.nan + 4

nan

# 시리즈의 비교연산

LG전자의 종가 데이터가 시리즈로 저장돼있다. LG 전자의 주가가 850000 원보다 작을 때의 일자를 출력하라.


In [3]:
lge = Series([93000, 82400, 99100, 81000, 72300], index = ["05/27", "05/28", "05/29", "05/30", "05/31"])

In [4]:
lge

05/27    93000
05/28    82400
05/29    99100
05/30    81000
05/31    72300
dtype: int64

In [9]:
lge.loc [  lge < 85000   ]  .index

Index(['05/28', '05/30', '05/31'], dtype='object')

In [8]:
lge.loc [  lge < 85000   ]  .index.tolist() # 리스트로 재정리해줄수도있음

['05/28', '05/30', '05/31']

In [11]:
cond = lge < 85000
lge.index[cond]


Index(['05/28', '05/30', '05/31'], dtype='object')

In [12]:
lge.index[lge<85000]

Index(['05/28', '05/30', '05/31'], dtype='object')

Q. LG 전자의 종가가 85000이하로 떨어진 횟수는?

In [13]:
from pandas import Series

s = Series (["100", "200", "300"])
print(s.dtype)

object


In [24]:
#정규식을 지원한다.

s = Series(["1,000", "2,000", "3,000"])
s.replace("," , "" , regex = True).astype(np.int16)

0    1000
1    2000
2    3000
dtype: int16

In [16]:
s.str[0]

0    1
1    2
2    3
dtype: object

In [17]:
s

0    1,000
1    2,000
2    3,000
dtype: object

In [18]:
s.str[0] + s.str[2:]

0    1000
1    2000
2    3000
dtype: object

In [19]:
s.str[0]

0    1
1    2
2    3
dtype: object

In [20]:
s.str[2:]

0    000
1    000
2    000
dtype: object

In [22]:
import numpy as np

In [23]:
%timeit s.str.replace(",", "").astype(np.int16)

189 µs ± 18.9 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [34]:
s.replace(",", "천", regex = True).replace("천", "")

0    1천000
1    2천000
2    3천000
dtype: object

In [36]:
#정규식쓰면간단
s.replace("\D", "", regex=True).astype(np.uint64) * 10


0    10000
1    20000
2    30000
dtype: uint64

In [37]:
import pybithumb

In [39]:
btc = pybithumb.get_candlestick("BTC")
btc['close']

time
2013-12-27 00:00:00      755000.0
2013-12-28 00:00:00      750000.0
2013-12-29 00:00:00      739000.0
2013-12-30 00:00:00      768000.0
2013-12-31 00:00:00      768000.0
                          ...    
2022-04-15 00:00:00    50379000.0
2022-04-16 00:00:00    50605000.0
2022-04-17 00:00:00    50321000.0
2022-04-18 00:00:00    49418000.0
2022-04-19 11:00:00    50525000.0
Name: close, Length: 2946, dtype: float64

범주형 데이터로 바꾸고 싶음!

4천만원은 비싸다. 

천만원은 적정가. 

미만은 거저먹는다 

라고 하고싶으면?
분류한다면? Series의 map을 쓰면 되겠다!

In [54]:
btc = pybithumb.get_candlestick("BTC")

def func(x):
    if x > 40000000:
        return f"{x}원은 비싸"
    elif x > 20000000:
        return f"{x}원은 적정"
    else :
        return f"{x}원은 거저"
 
a = btc['close'].map( func )
a

time
2013-12-27 00:00:00      755000.0원은 거저
2013-12-28 00:00:00      750000.0원은 거저
2013-12-29 00:00:00      739000.0원은 거저
2013-12-30 00:00:00      768000.0원은 거저
2013-12-31 00:00:00      768000.0원은 거저
                            ...       
2022-04-15 00:00:00    50379000.0원은 비싸
2022-04-16 00:00:00    50605000.0원은 비싸
2022-04-17 00:00:00    50321000.0원은 비싸
2022-04-18 00:00:00    49418000.0원은 비싸
2022-04-19 11:00:00    50515000.0원은 비싸
Name: close, Length: 2946, dtype: object