# Pandas

이 문서는 cs231n강좌의 Python Numpy Tutorial 문서를 참고하여 작성되었음

데이터 분석을 위한 python library.  
R의 Dataframe type을 본따 만들어낸 형태.  
파이썬에서 스프레드 시트 형태로 데이터를 다룰 수 있도록 함  
Dataframe의 3요소: Column, Index, Data

In [2]:
import pandas as pd
import numpy as np

## Pandas Dataframe 생성

In [None]:
a = np.arange(12).reshape(3, 4)
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

#### Numpy to dataframe

In [None]:
df = pd.DataFrame(a)
df
# 위쪽이 column
# pandas는 넘파이를 기반으로 만들어졌어
# 그래도 느려 계산을 위해서는 numpy로 하는것이 better

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


#### Dictionary 형태

In [None]:
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [None]:
df = pd.DataFrame({'A':a[0], 'B':a[1], 'C':a[2]})
# column을 중심으로 돌아가는 library
df

Unnamed: 0,A,B,C
0,0,4,8
1,1,5,9
2,2,6,10
3,3,7,11


#### Index와 column을 지정

In [None]:
df = pd.DataFrame(a, index=range(1, 4), columns=['l','o','v','e'])
df

Unnamed: 0,l,o,v,e
1,0,1,2,3
2,4,5,6,7
3,8,9,10,11


In [None]:
df.columns

Index(['l', 'o', 'v', 'e'], dtype='object')

In [None]:
df.values

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [None]:
for index in df.index:
    print(index)

1
2
3


### Dataframe to numpy

In [None]:
df.values
# 굉장히 많이 쓰게될 것임 별 다른 조작없이 data를 가져올 수 있다.

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

## Pandas 기본 활용

### Data describtion

In [None]:
df.head(2)

Unnamed: 0,l,o,v,e
1,0,1,2,3
2,4,5,6,7


In [None]:
df.tail(2)

Unnamed: 0,l,o,v,e
2,4,5,6,7
3,8,9,10,11


In [None]:
print(df)
df.describe()

   l  o   v   e
1  0  1   2   3
2  4  5   6   7
3  8  9  10  11


Unnamed: 0,l,o,v,e
count,3.0,3.0,3.0,3.0
mean,4.0,5.0,6.0,7.0
std,4.0,4.0,4.0,4.0
min,0.0,1.0,2.0,3.0
25%,2.0,3.0,4.0,5.0
50%,4.0,5.0,6.0,7.0
75%,6.0,7.0,8.0,9.0
max,8.0,9.0,10.0,11.0


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 1 to 3
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   l       3 non-null      int64
 1   o       3 non-null      int64
 2   v       3 non-null      int64
 3   e       3 non-null      int64
dtypes: int64(4)
memory usage: 228.0 bytes


## Pandas indexing

#### Column 조회

In [None]:
df

Unnamed: 0,l,o,v,e
1,0,1,2,3
2,4,5,6,7
3,8,9,10,11


In [None]:
df['o']

1    1
2    5
3    9
Name: o, dtype: int64

#### 상대 Index를 통한 조회

In [None]:
df.iloc[1]

l    4
o    5
v    6
e    7
Name: 2, dtype: int64

In [None]:
df.iloc[:, 1]

1    1
2    5
3    9
Name: o, dtype: int64

In [None]:
df.iloc[:, 1:3]

Unnamed: 0,o,v
1,1,2
2,5,6
3,9,10


#### 절대 index를 통한 조회

In [None]:
df.loc[1]

l    0
o    1
v    2
e    3
Name: 1, dtype: int64

## Apply map
DataFrame.applymap(func, na_action=None)  
DataFrame의 각 요소에 func함수를 적용.  
이때 func는 single value를 받아 single value를 return 해야함

In [None]:
df = pd.DataFrame([[1, 2.12], [3.356, 4.567]])
df

Unnamed: 0,0,1
0,1.0,2.12
1,3.356,4.567


In [None]:
def doubling(x):
  return x*x

In [None]:
df.applymap(doubling)

Unnamed: 0,0,1
0,1.0,2.12
1,3.356,4.567


In [None]:
df.applymap(lambda x: len(str(x)))

Unnamed: 0,KEY,A,B,C,D
0,K0,A0,0.5,,
1,K1,A1,2.2,,
2,K2,A2,3.6,C3,D2
3,K3,A3,0.4,C4,D3
4,K4,,,C5,D4
5,K5,,,C6,D5


## 결측치 처리

데이터에는 None 혹은 NaN으로 표기되는 결측값이 존재.  
Pandas는 이를 처리하기 위한 함수를 제공

In [None]:
df_left = pd.DataFrame({'KEY': ['K0', 'K1', 'K2', 'K3'],
                        'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': [0.5, 2.2, 3.6, 0.4]})

In [None]:
df_right = pd.DataFrame({'KEY': ['K2', 'K3', 'K4', 'K5'],
                        'C': ['C3', 'C4', 'C5', 'C6'],
                        'D': ['D2', 'D3', 'D4', 'D5']})

In [None]:
df = pd.merge(df_left, df_right, how='outer', on='KEY')

In [None]:
df

Unnamed: 0,KEY,A,B,C,D
0,K0,A0,0.5,,
1,K1,A1,2.2,,
2,K2,A2,3.6,C3,D2
3,K3,A3,0.4,C4,D3
4,K4,,,C5,D4
5,K5,,,C6,D5


### 데이터 결측값 확인

In [None]:
df.isnull()
# 실제 mining을 할때는 결측치를 어떻게 해야할지에 대한 전략을 세우고 시작해야한다.

Unnamed: 0,KEY,A,B,C,D
0,False,False,False,True,True
1,False,False,False,True,True
2,False,False,False,False,False
3,False,False,False,False,False
4,False,True,True,False,False
5,False,True,True,False,False


In [None]:
df.notnull()

Unnamed: 0,KEY,A,B,C,D
0,True,True,True,False,False
1,True,True,True,False,False
2,True,True,True,True,True
3,True,True,True,True,True
4,True,False,False,True,True
5,True,False,False,True,True


#### column별 결측값

In [None]:
df.isnull().sum()
# 판다스는 column 기준 library기 때문에 자동으로 sum 을 column으로 계산해준다

KEY    0
A      2
B      2
C      2
D      2
dtype: int64

#### row별 결측값

In [None]:
df.isnull().sum(1)

0    2
1    2
2    0
3    0
4    2
5    2
dtype: int64

### 결측값 처리

#### 특정 값으로 채우기

In [None]:
df.fillna(0)

Unnamed: 0,KEY,A,B,C,D
0,K0,A0,0.5,0,0
1,K1,A1,2.2,0,0
2,K2,A2,3.6,C3,D2
3,K3,A3,0.4,C4,D3
4,K4,0,0.0,C5,D4
5,K5,0,0.0,C6,D5


In [None]:
df.fillna('missing')

Unnamed: 0,KEY,A,B,C,D
0,K0,A0,0.5,missing,missing
1,K1,A1,2.2,missing,missing
2,K2,A2,3.6,C3,D2
3,K3,A3,0.4,C4,D3
4,K4,missing,missing,C5,D4
5,K5,missing,missing,C6,D5


#### 평균으로 채우기

In [None]:
df.fillna(df.mean())
# 평균을 낼 수 있는데이터에 대해서만 가능
# B는 되어있어

  """Entry point for launching an IPython kernel.


Unnamed: 0,KEY,A,B,C,D
0,K0,A0,0.5,,
1,K1,A1,2.2,,
2,K2,A2,3.6,C3,D2
3,K3,A3,0.4,C4,D3
4,K4,,1.675,C5,D4
5,K5,,1.675,C6,D5


## Group by

같은 값을 하나로 묶어 통계 혹은 집계 결과를 얻기위해 활용  
묶은 이후 Aggregating function으로 다음과 같은 함수 활용 가능
- mean()
- sum()
- size()
- count()
- std()
- min()
- max()

In [3]:
df_new = pd.DataFrame({
    'city': ['부산', '부산', '부산', '부산', '서울', '서울', '서울'],
    'fruits': ['apple', 'orange', 'banana', 'banana', 'apple', 'apple', 'banana'],
    'price': [100, 200, 250, 300, 150, 200, 400],
    'quantity': [1, 2, 3, 4, 5, 6, 7]
})
df_new

Unnamed: 0,city,fruits,price,quantity
0,부산,apple,100,1
1,부산,orange,200,2
2,부산,banana,250,3
3,부산,banana,300,4
4,서울,apple,150,5
5,서울,apple,200,6
6,서울,banana,400,7


In [21]:
df_new.groupby(['city', 'fruits'])['price'].sum()

city  fruits
부산    apple     100
      banana    550
      orange    200
서울    apple     350
      banana    400
Name: price, dtype: int64

In [None]:
df_new.groupby('city').mean()


Unnamed: 0_level_0,price,quantity
city,Unnamed: 1_level_1,Unnamed: 2_level_1
부산,212.5,2.5
서울,250.0,6.0


#### Size() vs count()
size는 NaN value를 포함하여 세지만, count는 그렇지 않음.  
본질적으로 count는 값의 갯수를, size는 오브젝트의 갯수를 세기때문에 발생하는 차이임   
또한 size는 Pandas.Series를, count는 Pandas.DataFrame을 return함

In [None]:
df

Unnamed: 0,KEY,A,B,C,D
0,K0,A0,0.5,,
1,K1,A1,2.2,,
2,K2,A2,3.6,C3,D2
3,K3,A3,0.4,C4,D3
4,K4,,,C5,D4
5,K5,,,C6,D5


In [None]:
df.groupby('KEY').count()

Unnamed: 0_level_0,A,B,C,D
KEY,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
K0,1,1,0,0
K1,1,1,0,0
K2,1,1,1,1
K3,1,1,1,1
K4,0,0,1,1
K5,0,0,1,1


In [None]:
df.groupby('KEY').size()

KEY
K0    1
K1    1
K2    1
K3    1
K4    1
K5    1
dtype: int64

#### 2개 이상의 key를 활용하여 groupby   
첫번째 것으로 먼저 group화 하고 이후 두번째 것으로 group화

In [None]:
df_new.groupby(['city', 'fruits']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,price,quantity
city,fruits,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,apple,100,1
부산,banana,550,7
부산,orange,200,2
서울,apple,350,11
서울,banana,400,7


In [None]:
df_new.groupby(['city', 'fruits'])['fruits'].count()

city  fruits
부산    apple     1
      banana    2
      orange    1
서울    apple     2
      banana    1
Name: fruits, dtype: int64

#### unstack()

Group by의 결과를 보기 좋게 하는 용도로 자주 사용.  
Pivoted index labels 중  inner most lavel을 새로운 column으로 하는 Dataframe을 반환

In [None]:
df_new.groupby(['city', 'fruits'])['price'].sum().unstack()

# 스택을 해체한다의 느낌이기보단 세로로 쌓는 것을 오른쪽으로 쌓는다 라는 느낌

fruits,apple,banana,orange
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,100.0,550.0,200.0
서울,350.0,400.0,


In [None]:
df_new.groupby(['city', 'fruits'])['price'].sum()

city  fruits
부산    apple     100
      banana    550
      orange    200
서울    apple     350
      banana    400
Name: price, dtype: int64