## 판다스 (Pandas) 라이브러리

- pandas에는 Series와 DataFrame이라는 두 종류의 자료구조가 있다
- pandas의 Series는 1차원 배열과 같은 자료구조

In [25]:
# 리스트에 저장
# 리스트는 수정 가능하지만 튜플은 수정불가
mystock = ['kakao', 'naver']
print(mystock[0])
print(mystock[1])

kakao
naver


In [27]:
# 반복문을 통해 각 데이터에 접근가능
for stock in mystock:
    print(stock)

kakao
naver


In [None]:
# 딕셔너리 key1 문자열에 room1이 바인딩 되있고 key2 문자열에 room2가 바인딩 되어있다
exam_dic = {'key1': 'room1', 'key2':'room2'}
print(exam_dic['key1'])
print(exam_dic['key2'])

In [28]:
kakao_daily_ending_prices = [92300, 94300, 92100, 92400, 92600]

for price in kakao_daily_ending_prices:
    print(price)

92300
94300
92100
92400
92600


In [29]:
kakao_daily_ending_prices = {'2016-02-19': 92600,
                             '2016-02-18': 92400,
                             '2016-02-17': 92100,
                             '2016-02-16': 94300,
                             '2016-02-15': 92300}
print(kakao_daily_ending_prices['2016-02-19'])

92600


In [4]:
import pandas as pd
from pandas import Series, DataFrame

In [11]:
print(pd.Series)

<class 'pandas.core.series.Series'>


In [13]:
kakao = Series([92600, 92400, 92100, 94300, 92300]) # 파이썬 리스트 -> 해당값에 포함하는 Series객체를 생성해준다
print(kakao) # 따로 인덱스를 지정하지 않았다면 기본적으로 0부터 시작하는 정숫값으로 인덱싱된다
print(kakao.dtype) #값뿐만 아니라 각 값에 연결된 인덱스 값도 동시에 저장한다

0    92600
1    92400
2    92100
3    94300
4    92300
dtype: int64
int64


In [15]:
print(kakao[0])
print(kakao[2])
print(kakao[4])

92600
92100
92300


In [17]:
kakao2 = Series([92600, 92400, 92100, 94300, 92300], index=['2016-02-19',
                                                            '2016-02-18',
                                                            '2016-02-17',
                                                            '2016-02-16',
                                                            '2016-02-15'])
print(kakao2) # index값에 날짜를 넘겨줘서 해당 값으로 인덱싱됨
# Series 객체 내의 데이터는 1차원으로 저장돼 있지만 파이썬의 딕셔너리와 유사하게 값과 이에 대응되는 인덱스값이 서로 연결돼 있다

2016-02-19    92600
2016-02-18    92400
2016-02-17    92100
2016-02-16    94300
2016-02-15    92300
dtype: int64


In [19]:
print(kakao2['2016-02-19'])
print(kakao2['2016-02-18'])
# 인덱스 값으로 날짜에 해당하는 문자열을 지정했기 때문에 
# 정숫값으로 인덱싱하는 대신 날짜를 의미하는 문자열을 사용해 각 날짜에 대한 종가를 얻어올수 있음

92600
92400


In [20]:
for date in kakao2.index:
    print(date)

for ending_price in kakao2.values:
    print(ending_price)

2016-02-19
2016-02-18
2016-02-17
2016-02-16
2016-02-15
92600
92400
92100
94300
92300


In [23]:
mine   = Series([10, 20, 30], index=['naver', 'sk', 'kt'])
friend = Series([10, 30, 20], index=['kt', 'naver', 'sk'])

In [24]:
merge = mine + friend
print(merge)
# 같은 인덱스를 같는 값끼리 정상적으로 덧셈이 수행됨

kt       40
naver    40
sk       40
dtype: int64


### 데이터 타입 변환

시리즈에 저장된 데이터가 문자열 타입으로 저장돼 있다고 가정해봅시다. 이러한 경우 덧셈 및 뺄셈 등의 연산을 적용할 수 없기 때문에 데이터 타입을 변경할 수 있어야 합니다. 

In [30]:
s = Series(["100", "200", "300"])
print(s.dtype)

object


`astype` 메서드는 데이터의 타입을 변경합니다. 

In [32]:
s = s.astype('int')
print(s.dtype)

int64


만약 문자열 데이터에 콤마(`,`)가 파함돼 있다면 `astype` 메서드는 변환에 실패하고 에러 메시지를 출력합니다.   

In [34]:
s = Series(["1,000", "2,000", "3,000"])
#s = s.astype('int')

`ValueError: invalid literal for int() with base 10: '1,000'`

시리즈의 `replace` 메서드를 사용하면 데이터를 한 번에 치환할 수 있습니다. 

In [38]:
s = Series(["1,000", "2,000", "3,000"])
s.replace(". ", "")


0    1,000
1    2,000
2    3,000
dtype: object

`regex` 옵션을 추가하면 패턴을 검색한 후 치환을 시도합니다. (문자열의 replace와 이름은 동일하고 동작은 유사하지만 다른 클래스의 메서드입니다.)

불필요한 데이터를 치환한 다음 타입을 변경합니다. 

Q. Series에 저장된 값을 다음과 같이 변경하라. 

| index | values | 
| ---- | ---- |
| 0 | 38000 | 
| 1 | 28000 | 

In [None]:
s = Series(["3만 8천", " 2만 8천"])



### 시리즈와 Map
시리즈를 사용하다 보면 시리즈가 지원하는 기본 연산 (덧셈, 뺄셈, 곱셈, 나눗셈) 이외에도 복잡한 형태의 사용자 정의 코드를 적용하고 싶은 경우가 있습니다. 예를 들어 시리즈에 저장된 성적을 학점으로 변경하기 위한 파이썬의 기본 함수는 없습니다. 사용자가 작성한 함수를 전체 시리즈에 적용하는 방법이 필요한데, 이를 `map` 함수로 해결합니다. 

In [None]:
s = Series([3, 13, 23])
print(s)

0     3
1    13
2    23
dtype: int64


시리즈의 점수를 다음 조건의 학점으로 변경해 봅시다. 

| 점수구간 | 학점 |
| ---- | ---- |
| 20 - 29 | A |
| 10 - 19 | B |
| 0 - 9 | C |

`cut` 함수를 사용하면 더욱 쉽게 수치형 데이터를 범주형 데이터로 변환할 수 있습니다.   
- `bins`와 `labels` 옵션을 사용합니다. 

Q. `map` 연산을 사용해서 시리즈에 저장된 값으로 학점을 판별하라.
- 90점 이상이면 A
- 70점 이상이면 B
- 나머지 F

연산 적용 결과
```
영수    A
철수    B
영희    F
```

In [None]:
s = Series([94, 74, 30], index=['영수', '철수', '영희'])


Q. `map` 연산을 사용해서 시리즈에 저장된 값에 다음 연산을 적용하라. 
- 0 이상 이면 값을 2배 키우고,
- 0 보다 작으면 값을 10 뺀다

연산 적용 결과
```
0    20
1     6
2   -13
dtype: int64
```

In [None]:
s = Series([10, 3, -3])

### 시리즈 정렬
`sort_values` 메서드를 사용하면 쉽게 데이터를 정렬할 수 있습니다.  
- `ascending` 값에 따라 오름차순 혹은 내림차순으로 정렬됩니다. 

In [None]:
from pandas import Series

data = [3.1, 2.0, 10.1, 5.1]
index = ["000010", "000020", "000030", "000040"]
s = Series(data=data, index=index)



`sort_index` 메서드는 인덱스를 기준으로 정렬합니다.

### 데이터 순위
`rank` 메서드는 순위를 측정합니다.

### 데이터 갯수 세기

시리즈에 저장된 데이터들의 출현 빈도를 세는 함수 `value_counts`

In [None]:
import numpy as np

s = Series(np.random.randint(10, size=100))
