# Pandas 
1. pandas 문서: http://pandas.pydata.org/pandas-docs/stable/
2. 데이터 사이언스 스쿨: https://datascienceschool.net/view-notebook/ee0a5679dd574b94b55193690992f850/

pandas는 시계열이나 표 데이터를 다룰 때 유용한 패키지입니다. pandas에서 제공하는 Series클래스와 DataFrame클래스를 소개하겠습니다.

# Series

시리즈는 저장되어 있는 값마다 인덱스가 붙어 있는 데이터 타입입니다. 시리즈는 ```pd.Series()```에 리스트, 배열, 딕셔너리 등을 넣어서 생성할 수 있습니다.

In [1]:
import pandas as pd
import numpy as np

obj = pd.Series([4, 7, -5, 3, 0], # 리스트를 넣어서 시리즈 생성
                dtype = np.float) # 데이터 타입 지정하기
print(obj)

0    4.0
1    7.0
2   -5.0
3    3.0
4    0.0
dtype: float64


시리즈를 생성할 때 인덱스를 지정해줄 수 있습니다.

In [2]:
obj2 = pd.Series([4, 2.3, -5, 'aaa', 0], 
                 index=['d', 'a', 'a', 'c', 'e']) 
print(obj2)

d      4
a    2.3
a     -5
c    aaa
e      0
dtype: object


In [3]:
# 딕셔너리로 시리즈 생성하기
dict_series = pd.Series({'a': 1, 'b':3, 'c':6, 'd':12})
print(dict_series)

a     1
b     3
c     6
d    12
dtype: int64


```.values```, ```.index```로 시리즈의 값과 인덱스를 확인할 수 있습니다.

In [4]:
print(dict_series.values)
print(dict_series.index)

[ 1  3  6 12]
Index(['a', 'b', 'c', 'd'], dtype='object')


생성한 시리즈의 인덱스는 다음과 같이 바꿀 수 있습니다.

In [5]:
dict_series.index= [123, 'a', 'b', 3]
print(dict_series)

123     1
a       3
b       6
3      12
dtype: int64


시리즈 값은 인덱스를 통해 접근한 수 있습니다.

In [6]:
dict_series['b']

6

```.iloc[]```를 이용하면, 인덱스에 상관없이 위치에 따라 값에 접근할 수 있습니다.

In [7]:
dict_series.iloc[1]

3

# DataFrame 

## 데이터 프레임 생성하기

데이터 프레임도 시리즈와 마찬가지로 딕셔너리, 리스트, 배열 등으로 생성할 수 있습니다.

In [8]:
# dict, list, array 등으로 생성 가능
pd_dict = pd.DataFrame({'col0' : [1, 2, 3], 
                         'col1' : [5, 6, 7], 
                         'col2' : [9, 10, 11]})

pd_list = pd.DataFrame([[1, 2, 3], 
                        [4, 5 ,6], 
                        [7, 8, 9]])

pd_array = pd.DataFrame(np.arange(9).reshape(3, 3))

# 결과 확인
pd_dict

Unnamed: 0,col0,col1,col2
0,1,5,9
1,2,6,10
2,3,7,11


In [9]:
# 결과 확인
pd_array

Unnamed: 0,0,1,2
0,0,1,2
1,3,4,5
2,6,7,8


데이터 프레임을 생성할 때, ```columns```와 ```index``` 옵션을 통해 열 이름과 인덱스를 설정할 수 있습니다.

In [10]:
pd_array2 = pd.DataFrame(np.arange(9).reshape(3, 3),
                         columns = ['a', 'b', 'c'],
                         index = ['가', '나', '다'])
pd_array2

Unnamed: 0,a,b,c
가,0,1,2
나,3,4,5
다,6,7,8


아래의 명령어를 통해 데이터 프레임의 인덱스, 열 이름, 값을 가져올 수 있습니다. 데이터 프레임의 값을 가져오는 ```.values```는 넘파이 배열 형태를 반환해줍니다.

In [11]:
print(pd_array2.columns)
print(pd_array2.index)
print(pd_array2.values)

Index(['a', 'b', 'c'], dtype='object')
Index(['가', '나', '다'], dtype='object')
[[0 1 2]
 [3 4 5]
 [6 7 8]]


## 인덱싱
아래와 같은 데이터 프레임이 있다고 하겠습니다.

In [12]:
frame = pd.DataFrame({'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
                      'year': [2000, 2001, 2002, 2001, 2002],
                      'pop': [1.5, 1.7, 3.6, 2.4, 2.9]})
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


데이터 프레임은 여러 개의 시리즈가 모여있는 자료형으로 볼 수 있습니다. 예를 들어, ```frame``` 변수의 state 열은 이름이 state고 인덱스와 값이 있는 시리즈입니다. 

In [13]:
frame['state']

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
Name: state, dtype: object

대괄호를 두 개 쓰면 여러 개의 열을 불러올 수 있습니다.

In [14]:
frame[['state', 'year']]

Unnamed: 0,state,year
0,Ohio,2000
1,Ohio,2001
2,Ohio,2002
3,Nevada,2001
4,Nevada,2002


아래와 같이 새로운 열을 추가할 수도 있습니다.

In [15]:
frame['새로운 열'] = [1, 2, 3, 4, 5]
frame

Unnamed: 0,state,year,pop,새로운 열
0,Ohio,2000,1.5,1
1,Ohio,2001,1.7,2
2,Ohio,2002,3.6,3
3,Nevada,2001,2.4,4
4,Nevada,2002,2.9,5


### iloc[ ], loc[ ]
시리즈와 마찬가지로 ```.iloc[]```를 통해 데이터 프레임의 일부만 가져올 수 있습니다.

In [16]:
# 몇 번째 행과 열을 가져올 것인지 지정
frame.iloc[:3, :2]

Unnamed: 0,state,year
0,Ohio,2000
1,Ohio,2001
2,Ohio,2002


```.loc[]```는 인덱스와 열 이름을 이용해 데이터 프레임의 일부분을 가져옵니다.

In [17]:
frame.loc[1:3, ['state', 'year']]

Unnamed: 0,state,year
1,Ohio,2001
2,Ohio,2002
3,Nevada,2001


### 부울 값을 이용한 인덱싱

부울 값을 이용하면, ```True```에 해당하는 행만 가져올 수 있습니다. 

In [18]:
frame[[True, True, False, False, True]]

Unnamed: 0,state,year,pop,새로운 열
0,Ohio,2000,1.5,1
1,Ohio,2001,1.7,2
4,Nevada,2002,2.9,5


이를 활용하면 조건에 맞는 행만 가져올 수도 있습니다. 예를 들어, 아래는 ```year```가 ```2001```에 해당하는 열만 가져옵니다.

In [19]:
frame[frame['year']==2001]

Unnamed: 0,state,year,pop,새로운 열
1,Ohio,2001,1.7,2
3,Nevada,2001,2.4,4


## 통계량 계산하기

아래와 같은 데이터 프레임을 예로 들겠습니다.

In [20]:
df = pd.DataFrame(np.arange(16).reshape((4,4)),
                index = ['Ohio', 'Colorado', 'Utah', 'New York'],
                columns = ['one', 'two', 'three', 'four'])
df

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


### sum, mean, max, std, cov ... 등

합계, 평균, 최댓값 등... 웬만한 통계량은 다 구할 수 있습니다. 아래는 열별 합계를 구하는 코드입니다.

In [21]:
df.sum()

one      24
two      28
three    32
four     36
dtype: int64

행별 합계를 구하려면 ```axis=1```로 지정해줍니다.

In [22]:
df.sum(axis=1)

Ohio         6
Colorado    22
Utah        38
New York    54
dtype: int64

### idxmax, idxmin
idxmax는 열별 최댓값의 인덱스를 가져옵니다. idxmin은 최솟값의 인덱스를 가져옵니다.

In [23]:
df.idxmax()

one      New York
two      New York
three    New York
four     New York
dtype: object

## 누락값 처리하기
데이터가 존재하지 않는 경우 해당 칸을 NaN로 표시하고 '누락값'이라고 부릅니다.

In [24]:
frame = pd.DataFrame({'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', np.NaN],
                      'year': [2000, np.NaN, 2002, 2001, 2002],
                      'pop': [1.5, 1.7, 3.6, 2.4, 2.9]})
frame

Unnamed: 0,state,year,pop
0,Ohio,2000.0,1.5
1,Ohio,,1.7
2,Ohio,2002.0,3.6
3,Nevada,2001.0,2.4
4,,2002.0,2.9


### .isnull()

`.isnull()`을 이용하면 누락값에 해당하는 값들이 `True`가 됩니다. (`.notnull()`도 있음)

In [25]:
frame.isnull()

Unnamed: 0,state,year,pop
0,False,False,False
1,False,True,False
2,False,False,False
3,False,False,False
4,True,False,False


예를 들어, 아래와 같이 입력하면 열별로 몇 개의 누락값이 있는지 확인할 수 있습니다.

In [26]:
frame.isnull().sum()

state    1
year     1
pop      0
dtype: int64

### .dropna()
`.dropna()`는 NaN 값이 존재하는 모든 행(또는 열)을 삭제합니다.

In [27]:
frame.dropna()

Unnamed: 0,state,year,pop
0,Ohio,2000.0,1.5
2,Ohio,2002.0,3.6
3,Nevada,2001.0,2.4


In [28]:
# NaN 값이 존재하는 모든 열 삭제
frame.dropna(axis = 1)

Unnamed: 0,pop
0,1.5
1,1.7
2,3.6
3,2.4
4,2.9


`subset` 옵션을 통해 특정 열의 누락값만 검토하도록 설정할 수 있습니다.

In [29]:
frame.dropna(subset = ['year'])

Unnamed: 0,state,year,pop
0,Ohio,2000.0,1.5
2,Ohio,2002.0,3.6
3,Nevada,2001.0,2.4
4,,2002.0,2.9


이외에도 `how='all'`로 설정하면 모든 행(또는 열)이 누락값인 경우에만 삭제하도록 설정할 수 있습니다. `thresh=num`은 누락값이 아닌 값이 `num` 이상일 때는 삭제하지 않습니다.

### .fillna()
누락값을 삭제하는 대신, 적절한 값으로 채워넣는 방법도 있습니다. `.fillna(value)`는 누락값에 일괄적으로 `value`를 채워넣습니다.

In [30]:
frame.fillna(1)

Unnamed: 0,state,year,pop
0,Ohio,2000.0,1.5
1,Ohio,1.0,1.7
2,Ohio,2002.0,3.6
3,Nevada,2001.0,2.4
4,1,2002.0,2.9


딕셔너리를 이용해 열별로 누락값에 어떤 값을 채워넣을지 지정해줄 수 있습니다.

In [31]:
frame.fillna({'state': 'Nevada', 'year': 1999})

Unnamed: 0,state,year,pop
0,Ohio,2000.0,1.5
1,Ohio,1999.0,1.7
2,Ohio,2002.0,3.6
3,Nevada,2001.0,2.4
4,Nevada,2002.0,2.9


`method = 'ffill'`로 지정하면, 누락값을 바로 앞에 있는 값으로 채워넣습니다. (`ffill`은 `front fill`의 약자입니다.)

In [32]:
frame.fillna(method = 'ffill') 

Unnamed: 0,state,year,pop
0,Ohio,2000.0,1.5
1,Ohio,2000.0,1.7
2,Ohio,2002.0,3.6
3,Nevada,2001.0,2.4
4,Nevada,2002.0,2.9


뒤에 있는 값으로 누락값을 채워넣으려면 `method = 'bfill'`으로 입력합니다.

In [33]:
frame.fillna(method = 'bfill') 

Unnamed: 0,state,year,pop
0,Ohio,2000.0,1.5
1,Ohio,2002.0,1.7
2,Ohio,2002.0,3.6
3,Nevada,2001.0,2.4
4,,2002.0,2.9


아래와 같이 평균으로 누락값을 채워넣는 등 다양하게 응용할 수 있습니다.

In [34]:
frame.fillna(frame.mean())  

Unnamed: 0,state,year,pop
0,Ohio,2000.0,1.5
1,Ohio,2001.25,1.7
2,Ohio,2002.0,3.6
3,Nevada,2001.0,2.4
4,,2002.0,2.9


## 그룹별 통계 확인하기

아래의 데이터 프레임으로 예를 들겠습니다.

In [35]:
frame = pd.DataFrame({'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
                      'year': [2000, 2002, 2002, 2001, 2002],
                      'pop': [1.5, 1.7, 3.6, 2.4, 2.9]})
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2002,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


### .groupby()

`.groupby()`는 범주별로 데이터를 살필 때 사용합니다. 아래와 같이 `frame.groupby(by='state')`라고 입력하면, `state`열에서 같은 범주에 속하는 것끼리 데이터를 분류하고, 여기에 `.mean()`을 입력하면 분류된 데이터 안에서의 평균을 구해줍니다.

잘 이해가 안 간다면 다음을 참조해주세요. https://www.kaggle.com/crawford/python-groupby-tutorial

In [36]:
frame.groupby(by='state').mean()

Unnamed: 0_level_0,year,pop
state,Unnamed: 1_level_1,Unnamed: 2_level_1
Nevada,2001.5,2.65
Ohio,2001.333333,2.266667


## 데이터 저장/불러오기
`.to_excel(path)`라고 입력하면, 데이터 프레임을 path에 엑셀 파일로 저장합니다. `.to_csv(path)`라고 입력하면 csv 파일로 저장합니다. 파일을 불러올 때는 `pd.read_excel(path)`라고 입력하면 됩니다.

In [37]:
frame.to_excel("data.xlsx")
pd.read_excel("data.xlsx")

Unnamed: 0.1,Unnamed: 0,state,year,pop
0,0,Ohio,2000,1.5
1,1,Ohio,2002,1.7
2,2,Ohio,2002,3.6
3,3,Nevada,2001,2.4
4,4,Nevada,2002,2.9


파일을 저장하거나 열 때, 다양한 옵션을 선택할 수 있습니다. 예를 들어 `.to_excel(path, index=False)`라고 입력하면, 데이터 프레임의 인덱스는 저장하지 않습니다.

In [38]:
frame.to_excel("data.xlsx", index=False)
pd.read_excel("data.xlsx", header=1)

Unnamed: 0,Ohio,2000,1.5
0,Ohio,2002,1.7
1,Ohio,2002,3.6
2,Nevada,2001,2.4
3,Nevada,2002,2.9
