# pandas

- 표 형식의 데이터를 다루는 데 특화
- Series(dataframe중ㅇ, DataFrame

In [None]:
import pandas as pd

In [None]:
from pandas import Series, DataFrame

In [None]:
import numpy as np
np.random.seed(12345)
import matplotlib.pyplot as plt
plt.rc('figure', figsize=(10, 6))
PREVIOUS_MAX_ROWS = pd.options.display.max_rows
pd.options.display.max_rows = 20
np.set_printoptions(precision=4, suppress=True)

## pandas 자료구조

### Series

- 1차원 배열같은 자료구조(어떤 NumPy 자료형이라도 담을 수 있음)
- 색인(index)을 가지고 있음

In [None]:
obj = pd.Series([4, 7, -5, 3])

In [None]:
obj.values

In [None]:
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
obj2

In [None]:
obj2.index

In [None]:
obj2['a']

In [None]:
obj2['d'] = 6

In [None]:
obj2[['c', 'a', 'd']]

In [None]:
obj2[obj2 > 0]

In [None]:
obj2 * 2

In [None]:
np.exp(obj2)

In [None]:
'b' in obj2

In [None]:
'e' in obj2

- 딕셔너리 형태를 사용해서 Series 생성

In [None]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj3 = pd.Series(sdata)
obj3

In [None]:
# 색인을 직접 설정
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = pd.Series(sdata, index=states)
obj4

In [None]:
pd.isnull(obj4)

In [None]:
pd.notnull(obj4)

In [None]:
obj4.isnull()

In [None]:
obj3

In [None]:
obj4

In [None]:
obj3 + obj4

In [None]:
obj4.name = 'population'
obj4.index.name = 'state'
obj4

### DataFrame

* 표 형식의 자료구조 


* 선언하는 방법
    - 같은 길이의 리스트를 포함하는 딕셔너리를 사용
    - Numpy 배열을 사용

In [None]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)

In [None]:
frame

In [None]:
frame.head()

In [None]:
pd.DataFrame(data, columns=['year', 'state', 'pop'])

In [None]:
# 딕셔너리에 없는 값을 넘기면, 결측치(NaN)로 선언
frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'],
                      index=['one', 'two', 'three', 'four',
                             'five', 'six'])
frame2

In [None]:
frame2.columns

In [None]:
frame2['state'] 

In [None]:
frame2.state

In [None]:
# 특정 row에 해당하는 값 : loc 
frame2.loc['three']

In [None]:
frame2['debt'] = 16.5
frame2

In [None]:
frame2['debt'] = np.arange(6.)
frame2

In [None]:
val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
frame2['debt'] = val
frame2

In [None]:
frame2['eastern'] = frame2.state == 'Ohio'
frame2

In [None]:
del frame2['eastern']
frame2.columns

In [None]:
# 중첩된 딕셔너리 형태로 데이터프레임 선언하기
pop = {'Nevada': {2001: 2.4, 2002: 2.9},
       'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}

In [None]:
frame3 = pd.DataFrame(pop)
frame3

In [None]:
# 컬럼과 로우를 뒤집음
frame3.T

In [None]:
pd.DataFrame(pop, index=[2001, 2002, 2003])

In [None]:
frame3.index.name = 'year'; frame3.columns.name = 'state'
frame3

In [None]:
frame3.values

## 핵심기능

### 재색인(Reindexing) : reindex()

In [None]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
obj

In [None]:
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
obj2

In [None]:
obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
obj3

In [None]:
# ffill: 직전의 값으로 채워넣음
obj3.reindex(range(6), method='ffill')

In [None]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
                     index=['a', 'c', 'd'],
                     columns=['Ohio', 'Texas', 'California'])
frame

In [None]:
frame2 = frame.reindex(['a', 'b', 'c', 'd'])
frame2

In [None]:
states = ['Texas', 'Utah', 'California']
frame.reindex(columns=states)

### 하나의 로우나 컬럼 삭제하기: drop()

In [None]:
obj = pd.Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
obj

In [None]:
new_obj = obj.drop('c')
new_obj

In [None]:
obj.drop(['d', 'c'])

In [None]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data

In [None]:
# 디폴트: row값 삭제
data.drop(['Colorado', 'Ohio'])

In [None]:
# 컬럼값 삭제
data.drop('two', axis=1)
# data.drop(['two', 'four'], axis='columns')

In [None]:
# inplace 옵션: 원본 값을 모두 삭제함(주의)
obj.drop('c', inplace=True)
obj

### 선택, 필터링

In [None]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data

In [None]:
data['two']

In [None]:
data[['three', 'one']]

In [None]:
data[:2]

In [None]:
data[data['three'] > 5]

#### loc와 iloc로 선택하기

* loc: 축이름을 사용해서 선택
* iloc: 인덱스(정수)를 사용해서 선택

In [None]:
data

In [None]:
data.loc['Colorado', ['two', 'three']]

In [None]:
data.iloc[2, [3, 0, 1]]

In [None]:
data.iloc[2]

### 산술연산과 데이터 정렬

In [None]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1],
               index=['a', 'c', 'e', 'f', 'g'])
s1

In [None]:
s2

In [None]:
# 짝이 맞다면 통합, 아니면 NaN
# 데이터베이스의 외부조인과 유사
s1 + s2

In [None]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'),
                   index=['Ohio', 'Texas', 'Colorado'])
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'),
                   index=['Utah', 'Ohio', 'Texas', 'Oregon'])
df1

In [None]:
df2

In [None]:
df1 + df2

#### 산술 연산 메서드에 채워 넣을 값 지정하기 : fill_value 옵션

In [None]:
df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)),
                   columns=list('abcd'))
df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)),
                   columns=list('abcde'))
df2.loc[1, 'b'] = np.nan

In [None]:
df1

In [None]:
df2

In [None]:
df1 + df2

In [None]:
df1.add(df2, fill_value=0)

### 함수 적용과 매핑

In [None]:
frame = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'),
                     index=['Utah', 'Ohio', 'Texas', 'Oregon'])
frame

In [None]:
#NumPy의 유니버셜 함수(배열의 각 원소에 적용되는 메서드) 적용
np.abs(frame)

#### 함수 적용: apply(f)

In [None]:
f = lambda x: x.max() - x.min()
frame.apply(f)

In [None]:
frame.apply(f, axis='columns')

In [None]:
def f(x):
    return pd.Series([x.min(), x.max()], index=['min', 'max'])
frame.apply(f)

#### 매핑: applymap(f), map(format)

In [None]:
format = lambda x: '%.2f' % x
frame.applymap(format)

In [None]:
frame['e'].map(format)

### 정렬(Sorting)과 순위(Ranking)

#### 정렬(Sorting) : sort_index(), sort_values()

In [None]:
obj = pd.Series(range(4), index=['d', 'a', 'b', 'c'])
obj.sort_index()

In [None]:
frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
                     index=['three', 'one'],
                     columns=['d', 'a', 'b', 'c'])
frame

In [None]:
frame.sort_index()

In [None]:
frame.sort_index(axis=1)

In [None]:
frame.sort_index(axis=1, ascending=False)

In [None]:
obj = pd.Series([4, 7, -3, 2])

In [None]:
obj.sort_values()

In [None]:
obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])
obj

In [None]:
obj.sort_values()

In [None]:
frame = pd.DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})
frame

In [None]:
frame.sort_values(by='b')

#### 순위(Ranking): rank()
- 1부터 순서를 매김
- 동점인 항목은 평균 순위를 반환

In [None]:
obj = pd.Series([7, -5, 7, 4, 2, 0, 4])
obj.rank()

In [None]:
# 먼저 나타나는 값에 더 높은 랭킹 반환
obj.rank(method='first')

In [None]:
# 동률인 경우, 그룹 내에서 높은 순위를 적용(1,2위 -> 2위)
obj.rank(ascending=False, method='max')

In [None]:
frame = pd.DataFrame({'b': [4.3, 7, -3, 2], 'a': [0, 1, 0, 1],
                      'c': [-2, 5, 8, -2.5]})
frame

In [None]:
frame.rank(axis='columns')

## 통계 계산과 요약

In [None]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],
                   [np.nan, np.nan], [0.75, -1.3]],
                  index=['a', 'b', 'c', 'd'],
                  columns=['one', 'two'])
df

### 합계: sum

In [None]:
df.sum()

In [None]:
df.sum(axis='columns')

### 평균: mean

In [None]:
df.mean(axis='columns', skipna=False)

### 최소값/최대값 : idxmin()/idxmax()

In [None]:
df.idxmax()

### 누적합 : cumsum()

In [None]:
df.cumsum()

###  ★여러개의 통계값 : describe

In [None]:
df.describe()

In [None]:
obj = pd.Series(['a', 'a', 'b', 'c'] * 4)
obj.describe()

### 상관관계와 공분산

In [None]:
conda install pandas-datareader

In [None]:
# price = pd.read_pickle('examples/yahoo_price.pkl')
# volume = pd.read_pickle('examples/yahoo_volume.pkl')

In [None]:
import pandas_datareader.data as web

# Yahoo! Finance 사이트에서 주식가격, 시가총액 읽어들이기
all_data = {ticker: web.get_data_yahoo(ticker)
            for ticker in ['AAPL', 'IBM', 'MSFT', 'GOOG']}

price = pd.DataFrame({ticker: data['Adj Close']
                     for ticker, data in all_data.items()})
volume = pd.DataFrame({ticker: data['Volume']
                      for ticker, data in all_data.items()})

In [None]:
returns = price.pct_change()
returns.tail()

In [None]:
# 상관관계 계산
returns['MSFT'].corr(returns['IBM'])

In [None]:
# 공분산 계산
returns['MSFT'].cov(returns['IBM'])

In [None]:
returns.MSFT.corr(returns.IBM)

In [None]:
#데이터 프레임에서 상관관계
returns.corr()

In [None]:
#데이터 프레임에서 공분산
returns.cov()

In [None]:
#데이터 프레임과 시리즈의 상관관계
returns.corrwith(returns.IBM)

In [None]:
#데이터 프레임과 시리즈의 공분산
returns.corrwith(volume)

### 유일값

In [None]:
obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])

In [None]:
uniques = obj.unique()
uniques

### 갯수 세기

In [None]:
obj.value_counts()

In [None]:
pd.value_counts(obj.values, sort=False)

In [None]:
obj

In [None]:
mask = obj.isin(['b', 'c'])

In [None]:
mask

## 연습문제

코드제출

https://drive.google.com/drive/folders/149Ryp8xzvMnklI4bY7kF074tSsr5-H0c?usp=sharing

In [None]:
# https://finance.yahoo.com/
import pandas_datareader.data as web

df = web.DataReader('005930.KS','yahoo','2020-06-20','2020-06-30')
df

1. 삼성전자의 6월 주식을 데이터 프레임으로 만들기

2. 종가('Close') 기준 가장 주가가 높았던 날짜 구하기

3. 종가('Close') 기준 가장 주가가 낮았던 날짜 구하기

4. 종가('Close') 기준 6월 평균 주가 구하기

5. 종가('Close') 기준 주가가 52000원 이상이었던 날짜 구하기

6. 종가('Close') 기준 데이터 정렬하기(가격 낮은 순)

7. 종가('Close') 기준 데이터 정렬하기(가격 높은 순)

8. 데이터프레임의 개수(row의 개수)를 구하기

9. 'Date' 컬럼을 추가하고, 인덱스의 날짜 값을 저장하기

10. 데이터 프레임의 인덱스를 1부터 오름차순으로 설정하기

11. 'Year', 'Month', 'Date' 필드 추가하고 값을 저장하기

12. 가격값을 ,가 들어가도록 변경하기(예: 53900 -> 53,900)

13. 데이터 시각화하기

