# Pandas Library

## Pandas란?
* Python의 [Pandas](https://pandas.pydata.org)
* 파이썬에서 사용하는 데이터 분석 라이브러리  
* Numpy는 기초적인 array data와 array 계산들을 제공  
* Pandas는 데이터 작업을 위한 기본적인 구조들을 정의  
* data 읽기, index 조정, time-series data 작업, sorting, grouping, 결측값 다루기 등과 같은 작업에 용이    

참고사이트       
1.[duke](https://people.duke.edu/~ccc14/sta-663/UsingPandas.html)     
2.[Quantitative Economics](https://lectures.quantecon.org/py/pandas.html)  
3.https://wikidocs.net/book/7188 ( Pandas DataFrame 완전정복 ) 


In [None]:
# pandas, numpy import
import pandas as pd
import numpy as np

## Pandas의 자료구조
1. Series
2. DataFrame

### 1. Series
* index를 가지는 1차원 데이터

### 2. DataFrame
* 표와 같은 스프레드시트 형식의 자료 구조  
* 2차원 행렬 데이터로 각각의 행과 열에 대한 index 사용

#### DataFrame 생성하기
우선 DataFrame에 들어갈 데이터를 정의해주어야 하는데, 이는 Python의 dictionary 또는 Numpy의 array로 정의

In [None]:
# dictionary에서 정의
data = {'col1':[1, 2], 'col2':[3, 4]}
df1 = pd.DataFrame(data)
display(df1)

# numpy에서 정의
df2 = pd.DataFrame(np.random.randint(low=0, high=10, size=(5, 5)), columns=['a', 'b', 'c', 'd', 'e'])
display(df2)

Unnamed: 0,col1,col2
0,1,3
1,2,4


Unnamed: 0,a,b,c,d,e
0,7,7,1,5,1
1,9,8,2,5,2
2,1,8,9,8,2
3,2,7,3,3,1
4,1,3,7,3,8


#### DataFrame의 속성 파악하기

In [None]:
# .ndim: 데이터프레임의 차원
# DataFrame은 2차원 자료
print(df2.ndim, '\n') 

# .shape: 데이터프레임의 행렬
print(df2.shape, '\n')

# .size: 데이터프레임의 데이터 개수
print(df2.size, '\n')

# .columns: 데이터프레임의 열 추출
print(df2.columns, '\n')

# .index: 데이터프레임의 색인 추출
print(df2.index, '\n')

# .values: 데이터프레임의 데이터 추출
print(df2.values)

2 

(5, 5) 

25 

Index(['a', 'b', 'c', 'd', 'e'], dtype='object') 

RangeIndex(start=0, stop=5, step=1) 

[[7 7 1 5 1]
 [9 8 2 5 2]
 [1 8 9 8 2]
 [2 7 3 3 1]
 [1 3 7 3 8]]


#### xls 파일 불러오기 

In [None]:
#xls .read_excel(): excel파일을 읽어 DataFrame type으로 자동으로 저장
df0= pd.read_excel('pdx101.xlsx',sheet_name='Sheet1')
print(type(df0), '\n')

print(df0.shape, '\n')

display(df0)

#import xlrd
#df0= pd.read_excel('경로.파일.xlsx',sheet_name='Sheet1')

FileNotFoundError: ignored

#### csv 파일 불러오기 

In [None]:
# .read_csv(): csv 파일을 읽어 DataFrame type으로 자동으로 저장
df = pd.read_csv('https://github.com/QuantEcon/QuantEcon.lectures.code/raw/master/pandas/data/test_pwt.csv')
print(type(df), '\n')

print(df.shape, '\n')

display(df)

### 객체 간 연산

#### 덧셈 / 뺄셈
df.add(other, axis='columns', level=None, fill_value=None)  

*   axis : 더할 레이블을 설정합니다. 0은 행(index), 1은 열 입니다. ※Series일 경우 Index와 일치시킬 축   
*   other : 데이터프레임이나, Series, 스칼라 등 데이터가 올 수 있습니다. 더할 값입니다.  
*   level : multiIndex에서 계산할 Index의 레벨입니다.  
*   fill_value : NaN 값등의 누락 요소를 계산 전에 이 값으로 대체합니다.  




스칼라 값 더하기

In [None]:
data = [[1,10,100],[2,20,200],[3,30,300]]
col = ['col1','col2','col3']
row = ['row1','row2','row3']
df = pd.DataFrame(data=data,index=row,columns=col)
print(df)

In [None]:
result = df.add(1)
print(result)

In [None]:
result = df+1
print(result)

다른 DataFrame 객체를 더하기

In [None]:
data2  = [[3],[4],[5]]
df2 = pd.DataFrame(data=data2,index=['row1','row2','row3'],columns=['col1'])
print(df2)

In [None]:
result = df.add(df2)
print(result)

In [None]:
result = df.add(df2,fill_value=0)
print(result)

오류가 뜨지 않게 하기 위해서 fill-value값인 0으로 채워넣은 뒤 계산을 진행 

뺄셈의 경우에는 sub라는 함수로 바꾸고 똑같은 문법으로 적용 가능 

#### 곱셈 / 나눗셈
df.mul(other, axis='columns', level=None, fill_value=None)
*   other : 데이터프레임이나, Series, 스칼라 등 데이터가 올 수 있습니다. 곱할 값입니다.
*   곱할 레이블을 설정합니다. 0은 행(index), 1은 열 입니다. ※Series일 경우 Index와 일치시킬 축
*   multiIndex에서 계산할 Index의 레벨입니다.
*   NaN 값등의 누락 요소를 계산 전에 이 값으로 대체합니다.



In [None]:
data = [[1,10,100],[2,20,200],[3,30,300]]
col = ['col1','col2','col3']
row = ['row1','row2','row3']
df = pd.DataFrame(data=data,index=row,columns=col)
print(df)

      col1  col2  col3
row1     1    10   100
row2     2    20   200
row3     3    30   300


스칼라 값 곱하기

In [None]:
result = df.mul(2)
print(result)

      col1  col2  col3
row1     2    20   200
row2     4    40   400
row3     6    60   600


In [None]:
result = df*2
print(result)

다른 DataFrame객체를 곱하기

In [None]:
data2  = [[3],[4],[5]]
df2 = pd.DataFrame(data=data2,index=['row1','row2','row3'],columns=['col1'])
print(df2)

In [None]:
result = df.mul(df2)
print(result)

In [None]:
result = df.mul(df2,fill_value=0)
print(result)

덧셈의 형태와 거의 비슷한 것을 확인 할 수 있다.

나눗셈의 경우 div라는 함수를 쓰고 문법도 똑같이 적용하면 같다.

나머지 , 거듭제곱 의 경우에도 똑같은 문법으로 적용 

*   나머지 : mod
*   거듭제곱 : pow



#### DataFrame의 indexing과 slicing

In [None]:
# indexing: column 기준

# df['column'], Series로 반환
print(df['country'])  # == df.country

# df[['column1', 'column2']], DataFrame으로 반환
df[['country', 'tcgdp']]

In [None]:
# slicing: row 기준
df[2:5]

In [None]:
# .iloc[]: int index 접근 (행 번호를 기준으로 행 데이터를 추출)
display(df.iloc[2:5, 0:4])   

# .loc[]: str index 접근 (인덱스를 기준으로 행 데이터를 추출) 
display(df.loc[df.index[2:5], ['country', 'tcgdp']])

#### DataFrame의 data 수정하기

In [None]:
# 관심있는 변수: 인구, 총 GDP

# DataFrame 압축 후 덮어쓰기
df = df[['country', 'POP', 'tcgdp']]
print(type(df))
display(df)

In [None]:
# index명 변경
# .set_index(): 특정 column을 index로 설정
df = df.set_index('country')
display(df)

# column명 변경
df.columns = 'population', 'total GDP'
# == df.rename(columns = {'POP':'population', 'tcgdp':'total GDP'}, inplace = True)
display(df)

In [None]:
# 인구 단위 변환
# data 연산
df['population'] = df['population']*1e3
display(df)

# 1인당 GDP data 추가
# data 연산과 column 추가  
df['GDP percap'] = df['total GDP']*1e6/df['population']
display(df) 

#### DataFrame 차트 그리기 ( Plotting )
matplotlib은 List, Array, Series, DataFrame의 데이터를 활용한 데이터 시각화를 제공한다.

Example 1

In [None]:
# 1인당 GDP 막대 그래프 

# 차트를 그리기 위해 필요한 module import
import matplotlib.pyplot as plt
# plotting 옵션 
%matplotlib inline # 브라우저에서 바로 그림을 볼 수 있게 해주는 역할   

df['GDP percap'].plot(kind='bar')

In [None]:
# 1인당 GDP 내림차순 정렬 막대 그래프 

# .sort_values(by = 'column', ascending = False): column을 내림차순으로 데이터 정렬
df = df.sort_values(by = 'GDP percap', ascending = False)

df['GDP percap'].plot(kind='bar')

Example 2

In [None]:
val = np.linspace(0,100,101)
sin = np.sin(np.pi/25*val)
tan = np.tan(np.pi/25*val)
df = pd.DataFrame(data={'val':val,'sin':sin,'tan':tan})

In [None]:
df2 = df.loc[:,['sin','tan']]
print(df2)

기본적인 형태

In [None]:
df2.plot()
plt.show()

kind 인수를 통해 원하는 형태의 그래프를 출력할 수 있으며 x,y로 해당 그래프의 x와 y 지정할 수 있다.  
{line / bar / barh : 가로 막대 그래프 / hist / box / kde : 밀도그래프 / density : 밀도플롯 / area / pie / scatter / hexbin : 고밀도 산점도 그래프}

In [None]:
df.plot(kind='line',x='val',y='sin')
plt.show()

In [None]:
fig, ax = plt.subplots(2)
df.plot(kind='line',x='val',y='sin',ax=ax[0])
df.plot(kind='line',x='val',y='tan',ax=ax[1])

ax로 구분한 axes를 2칸짜리 subplot에 배열한것을 확인할 수 있다.( R로 치면 mfrow 문법 )

In [None]:
df2.plot(subplots=True)
plt.show()

위에 ax 대신 간단하게 subplots를 붙여주면 알아서 다 해준다.

In [None]:
df2.plot(subplots=True,layout=(2,2))
plt.show

fig가 2*2짜리 subplot으로 설정된 것을 확인할 수 있다.

In [None]:
df2.plot(figsize=(10,4))
plt.show()

여기서 fig란 그래프의 크기를 의미하고 단위는 inch이다.

In [None]:
df2.plot(title="Pandas plot method",grid=True)
plt.show()

title = 제목 / grid = 구분선

In [None]:
df2.plot(linestyle='dashed')
plt.show()

linestyle : 그래프의 선 스타일을 지정할 수 있다.   
(선 종류 참조 : https://matplotlib.org/stable/gallery/lines_bars_and_markers/linestyles.html)


In [None]:
df2.plot(logx=True,logy=True)
plt.show()

log 인수를 이용해 각 축의 표시형식을 log스케일로 변경가능.

In [None]:
df.plot(kind='line',x='val',y='sin',xticks=[0,50,100],yticks=[0,0.5,1])
plt.show()

x축 , y축에 리스트형태로 특정 눈금의 값을 출력 할 수 있다.

In [None]:
df.plot(kind='line',x='val',y='sin',xticks=list(range(0,100,50)),yticks=list(range(0,1,0.5)))

In [None]:
df.plot(kind='line',x='val',y='sin',xlim=[30,80],ylim=[0.25,0.75])

x축으로는 30 ~ 80의 범위가 , y축으로는 0.25 ~ 0.75의 범위가 출력 된 것을 확인 할 수 있다.

In [None]:
df2.plot(xlabel='Width',ylabel='Height')
plt.show()

각 축의 이름이 출력 된 것을 확인 할 수 있다.

In [None]:
df2.plot(rot=45,fontsize=20)

눈금값의 기울기가 45도 , 눈금값의 크기가 20으로 변경된 것을 확인할 수 있다. 

In [None]:
data = {'x_value':[4,7,3,1,2],'y_value':[1,2,3,4,5],'color_bar':[0,1,2,3,4]}
df3 = pd.DataFrame(data)
df3.plot(kind='scatter',x='x_value',y='y_value',c='color_bar', colormap='cool',colorbar=True)

colormap은 출력되는 그래프의 값을 특정 색 범위로 표현하는 matplotlib의 기능  
colorbar는 색에 해당하는 값의 범위를 막대 형태로 출력하는 기능 ( colorbar의 경우 c인수에 색의 값을 지정하는 열을 입력하여 가능 )

In [None]:
data = {'x_value':[4,7,3,1,2],'y_value':[1,2,3,4,5],'color_bar':[0,1,2,3,4]}
df3 = pd.DataFrame(data)
fig, ax=plt.subplots(3) # 3칸짜리 subplot을 갖는 fig 개체 설정
df3.plot(kind='bar',x='x_value',y='y_value',position=0,ax=ax[0])
df3.plot(kind='bar',x='x_value',y='y_value',position=0.5,ax=ax[1])
df3.plot(kind='bar',x='x_value',y='y_value',position=1,ax=ax[2]) 
plt.show()

position = 눈금의 위치를 조정할수 있는 함수이다. {좌측(0), 중(0.5), 우측(1)}

In [None]:
data = {'x_value':[1,2,3,4,5],'y_value':[2,5,3,7,1],'err':[0.1,0.3,0.6,1.0,0.1]}
df4 = pd.DataFrame(data)
fig, ax=plt.subplots(2)
df4.plot(kind='bar',x='x_value',y='y_value',yerr='err',ax=ax[0])
df4.plot(kind='barh',x='x_value',y='y_value',xerr='err',ax=ax[1])
plt.show()

기존 x_value / y_value 막대그래프에 대해서 작은 선 형태로 err 열이 오차범위로써 덧 씌워진 것을 확인할 수 있다.

In [None]:
data = {'x_value':[1,2,3,4,5],'y_value':[2,5,3,7,1],'err':[0.1,0.3,0.6,1.0,0.1]}
df4 = pd.DataFrame(data)
df4.plot(kind='bar',x='x_value',y=['y_value','err'],stacked=True)
plt.show()

y의 값을 리스트 형태로 두 컬럼을 입력하여 두 막대그래프를 출력하도록 한 다음 stacked=True로 하여 누적 막대그래프가 된 것을 확인할 수 있다.

In [None]:
data = {'x_value':[1,2,3,4,5],'y_value':[2,5,3,7,1],'err':[0.1,0.3,0.6,1.0,0.1]}
df4 = pd.DataFrame(data)
ax1 = df4.plot(x='x_value',y='y_value',color='Red',) # y_value를 ax1로 
ax2 = df4.plot(x='x_value',y='err',ax=ax1,secondary_y=True) # err을 ax2로하여 ax1에 종속 및 보조축 설정
ax1.set_ylabel('y_value') # 라벨 설정
ax2.set_ylabel('err')

ax1를 생성하고 ax2를 ax1에 종속시키면서 secondary_y=True로 하여 우측에 보조축이 생성된 것을 확인할 수 있다.

# 함수 적용 

### 축 기준 ( apply )

df.apply(func, axis=0, raw=False, result_type=None, args=(), kwargs)


*   function : 각 행이나 열에 적용할 함수 입니다.
*   axis : {0 : Index / 1 : columns} 함수를 적용할 축 입니다.
*   row : {True : ndarray / False : Series} 함수에 전달할 축의 형식입니다.
*   True면 ndarray형태로 전달하고 False면 Series형태로 전달합니다. 기본적으로 Series입니다.
*   result_type : {expand / reduce / broadcast} 반환값의 형태를 결정합니다. expand이면 배열 형태를
기준으로 열을 확장합니다.(기본 인덱스로), reduce인 경우는 그대로 Serise형태로 반환합니다.
broadcase인 경우 기존 열 형식대로 확장하여 반환합니다.(열의 수가 같아야합니다.)

Example

In [None]:
col = ['col1','col2','col3']
row = ['row1','row2','row3']
data = [[1,2,3],[4,5,6],[7,8,9]]
df = pd.DataFrame(data=data,index=row,columns=col)
print(df)

      col1  col2  col3
row1     1     2     3
row2     4     5     6
row3     7     8     9


**func의 성질에 따른 차이**  
func항목이 np.sqrt처럼 축에대해 계산할 수 없는 형식이라면 아래와 같이 각 요소에 적용됩니다.

In [None]:
print(df.apply(np.sqrt))

          col1      col2      col3
row1  1.000000  1.414214  1.732051
row2  2.000000  2.236068  2.449490
row3  2.645751  2.828427  3.000000


np.sum처럼 축에대해 적용이 가능한경우라면 축 기준으로 연산을 수행합니다.

In [None]:
print(df.apply(np.sum))

col1    12
col2    15
col3    18
dtype: int64


**axis에 따른 차이**  
axis가 0인경우 Index(행)에 대해 연산을 수행하고, 1인경우는 columns(열)에 대해 연산을 수행합니다.

In [None]:
print(df.apply(np.prod,axis=0))

col1     28
col2     80
col3    162
dtype: int64


In [None]:
print(df.apply(np.prod,axis=1))

row1      6
row2    120
row3    504
dtype: int64


**result_type에 따른 차이**  
먼저 lamba를 사용하여 기존 DataFrame에 [1,2,3]객체를 apply해보겠습니다.

In [None]:
print(df.apply(lambda x : [1,2,3]))

      col1  col2  col3
row1     1     1     1
row2     2     2     2
row3     3     3     3


result_type = 'expand'인 경우  
func를 기준으로 확장하여 columns를 지정하게 되는것을 확인할 수 있습니다.

In [None]:
print(df.apply(lambda x : [1,2,3], axis=1,result_type='expand'))

      0  1  2
row1  1  2  3
row2  1  2  3
row3  1  2  3


result_type = 'reduce'인 경우  
func를 기준으로 축소하여 columns없이 Series 객체로 반환하는것을 확인할 수 있습니다.

In [None]:
print(df.apply(lambda x : [1,2,3], axis=1,result_type='reduce'))

row1    [1, 2, 3]
row2    [1, 2, 3]
row3    [1, 2, 3]
dtype: object


result_type = 'broadcast'인 경우  
func를 기준으로 확장하되, columns는 기존 DataFrame의 것을 사용하는것을 확인할 수 있습니다.

In [None]:
print(df.apply(lambda x : [1,2,3], axis=1,result_type='broadcast'))

      col1  col2  col3
row1     1     2     3
row2     1     2     3
row3     1     2     3


### 요소별 ( applymap )

위와는 달리 applymap의 경우에는 각 요소에 함수를 적용하는 메서드이다.

df.apply(func, axis=0, raw=False, result_type=None, args=(), kwargs)  
*   func : 단일 값을 반환하는 함수 입니다.
*   na_action : {None / 'ignore} NaN의 무시 여부입니다. 'ignore'이면 NaN을 함수로 전달하지 않습니다.




Example

In [None]:
col = ['col1','col2','col3']
row = ['row1','row2','row3']
data = [[1,2,3],[4,5,6],[7,pd.NA,9]]
df = pd.DataFrame(data=data,index=row,columns=col)
print(df)

      col1  col2  col3
row1     1     2     3
row2     4     5     6
row3     7  <NA>     9


In [None]:
print(df.applymap(lambda x : x**2,na_action='ignore'))

      col1  col2  col3
row1     1     4     9
row2    16    25    36
row3    49  <NA>    81


### 함수내 함수 연속적용 ( pipe )

df.pipe(func, args, kwargs)

*   func : 함수입니다.
*   arg : 함수의 인수입니다.
*   
kwargs : dict 형태의 함수의 인수입니다.

만약 함수 3개가 아래와 같이 있다고 해봅니다.  
f1(data, arg1), f2(data, arg1, arg2, f3(data, arg3)  
f1 > f2 > f3 순서로 포함되게 함수를 사용한다고 하면 아래와 같이 함수를 사용해야 합니다.  
df = f1( f2( f3( data,arg3='c'),arg2 = 'b1',arg3 = 'b2'),arg1 = 'a')  
이는 어떤 arg가 어떤함수인지 직관적으로 볼 수 없습니다. 이때, pipe함수를 사용할 수 있습니다.  
df = data.pipe(f3, arg3='c').pipe(f2, arg2='b1', arg3='b2').pipe(f3, arg3='c')

Example

In [None]:
org_data = pd.DataFrame({'info':['삼성전자/3/70000','SK하이닉스/2/100000']})
print(org_data)

              info
0     삼성전자/3/70000
1  SK하이닉스/2/100000


code_name(data)는 (종목명/수량/가격) 형태인 문자열 data를 입력받아서 각각으로 분리하고 수량과 가격의 dtype을 int로 변경하는 함수입니다.

In [None]:
def code_name(data):
    result = pd.DataFrame(columns = ['name','count','price']) 
    df = pd.DataFrame(list(data['info'].str.split('/'))) # '/ ' 로 구분하여 문자열을 나누어 리스트에 넣음
    result['name'] = df[0] # 여기엔 첫번째 값인 이름이 입력
    result['count']= df[1] # 여기엔 두번째 값인 수량이 입력
    result['price']= df[2] # 여기엔 세번째 값인 가격이 입력
    result = result.astype({'count':int,'price':int}) # count와 price를 int로 바꿈(기존str)
    return result
print(code_name(org_data))

     name  count   price
0    삼성전자      3   70000
1  SK하이닉스      2  100000


value_cal( data , unit = ' ' )은 가격과 수량을 곱한다음에 단위로 unit arg를 붙이는 함수입니다.

In [None]:
def value_cal(data,unit=''):
    result = pd.DataFrame(columns=['name','value']) 
    result['name'] = data['name'] # 이름은 기존거를 가져옴
    result['value']= data['count'] * data['price'] # value는 count * price를 입력함
    result = result.astype({'value': str}) # value를 str로 변경(단위를 붙이기 위함)
    result['value'] = result['value'] + unit # 단위를 붙임
    return(result)

input = code_name(org_data)
print(value_cal(input,'원'))

     name    value
0    삼성전자  210000원
1  SK하이닉스  200000원


In [None]:
print(value_cal(code_name(org_data),'원'))

     name    value
0    삼성전자  210000원
1  SK하이닉스  200000원


In [None]:
print(org_data.pipe(code_name).pipe(value_cal,'원'))

     name    value
0    삼성전자  210000원
1  SK하이닉스  200000원


### 함수연속적용_축별 ( aggregate, agg )

agg메서드는 apply와 비슷하게 함수를 적용하는 메서드이지만,
여러개의 함수를 동시에 적용할 수 있다는 장점이 있습니다.

df.agg(func=None, axis=0, args, kwargs)

*   func : 함수입니다.
*   axis : { 0  : index(row) / 1 : columns } 축입니다 0은 행, 1은 열 입니다. arg : 함수의 인수 입니다..
*   kwargs : dict 형태의 함수의 인수입니다.




In [None]:
df = pd.DataFrame([[1,4,7],[2,5,8],[3,6,9]])
print(df)

   0  1  2
0  1  4  7
1  2  5  8
2  3  6  9


In [None]:
ex1 = df.agg(np.prod)
print(ex1)

0      6
1    120
2    504
dtype: int64


위의 경우와 똑같지만 간단하게 표현가능하다.

In [None]:
ex2 = df.agg('prod')
print(ex2)

0      6
1    120
2    504
dtype: int64


lambda함수나 사용자 정의 함수 를 사용 할 수도 있습니다.

In [None]:
ex3 = df.agg([lambda x : min(x) * max(x)])
print(ex3)

          0   1   2
<lambda>  3  24  63


In [None]:
def func_sub(input):
    return max(input) - min(input)
ex4 = df.agg([func_sub,'sum'])
print(ex4)

          0   1   2
func_sub  2   2   2
sum       6  15  24


만약 함수명을 __name__메서드를 통해 따로 설정해주면 그 이름이 쓰입니다.

In [None]:
def func_sub(input):
    return max(input)-min(input)
func_sub.__name__='내함수'
ex5 = df.agg([func_sub,'sum'])
print(ex5)

여러 함수를 동시에 적용하는 경우  
list나 dict형태로 func값을 입력하는 경우 여러 함수를 동시에 적용할 수 있습니다.  
list로 입력하는 경우에는

In [None]:
ex6 = df.agg(['min','max','sum','prod'])
print(ex6)

dict를 이용하는 경우 순서를 변경하는것도 가능합니다.

In [None]:
ex7 = df.agg({2:'sum',0:'max',1:'min'})
print(ex7)

dict함수내에 다중함수를 적용할 수도 있습니다. 이 경우 해당되지 않는 index는 NaN을 출력합니다.

In [None]:
ex2 = df.agg('prod', axis=0)
print(ex2)

0      6
1    120
2    504
dtype: int64


In [None]:
ex3 = df.agg('prod', axis=1)
print(ex3)

0     28
1     80
2    162
dtype: int64


## 함수연속적용_요소별 ( transform )

transform메서드는 agg와 비슷하게 함수를 적용하는 메서드이지만,  
단일 요소별로 함수를 동시에 적용할 수 있다는 장점이 있습니다. 마치 apply와 applymap의 차이와 비슷합니다.

df.transform(func, axis=0, args, kwargs)
*   func : 함수입니다.
*   axis :{0 : index(row) / 1 : columns} 축입니다 0은 행, 1은 열 입니다.
*   arg : 함수의 인수 입니다.
*   kwargs : dict 형태의 함수의 인수입니다.

In [None]:
col = ['col1','col2','col3']
row = ['row1','row2','row3']
df = pd.DataFrame(data=[[10,40,70],[20,50,80],[30,60,90]],index=row,columns=col)
print(df)

      col1  col2  col3
row1    10    40    70
row2    20    50    80
row3    30    60    90


입력함수로는 먼저 np.함수 형태나 그냥 문자열 형태로의 입력이 가능합니다.

In [None]:
ex1 = df.transform(np.sqrt)
print(ex1)

          col1      col2      col3
row1  3.162278  6.324555  8.366600
row2  4.472136  7.071068  8.944272
row3  5.477226  7.745967  9.486833


In [None]:
ex2 = df.transform('sqrt')
print(ex2)

          col1      col2      col3
row1  3.162278  6.324555  8.366600
row2  4.472136  7.071068  8.944272
row3  5.477226  7.745967  9.486833


lambda함수나 사용자 정의 함수를사용할 수도 있습니다.  
agg와 다르게 기존 레이블이 표시됩니다.

여러 함수를 동시에 적용하는 경우  
list나 dict형태로 func값을 입력하는 경우 여러 함수를 동시에 적용할 수 있습니다.  
list로 입력하는 경우 마치 multi index처럼 multi columns가 생성됩니다.  

In [None]:
ex4 = df.transform(['exp','sqrt'])
print(ex4)

              col1                    col2                    col3          
               exp      sqrt           exp      sqrt           exp      sqrt
row1  2.202647e+04  3.162278  2.353853e+17  6.324555  2.515439e+30  8.366600
row2  4.851652e+08  4.472136  5.184706e+21  7.071068  5.540622e+34  8.944272
row3  1.068647e+13  5.477226  1.142007e+26  7.745967  1.220403e+39  9.486833


In [None]:
ex5 = df.transform({'col2':'exp','col1':'sqrt'})
print(ex5)

              col2      col1
row1  2.353853e+17  3.162278
row2  5.184706e+21  4.472136
row3  1.142007e+26  5.477226


## 문자열 형식의 계산식 적용 (eval)

eval메서드는 파이썬의 eval 메서드와 사용목적이 동일합니다. 문자열로 된 계산식을 적용합니다.

df.eval(expr, inplace=False, kwargs)
*   expr : 문자열 형태의 계산식입니다.
*   inplace : {True / False} 계산된 값이 원본을 변경할지의 여부입니다. 기본적으로 원본은 변경되지 않습니다.



In [None]:
data = [[1,2,3],[4,5,6],[7,8,9]]
col = ['col1','col2','col3']
row = ['row1','row2','row3']
df = pd.DataFrame(data = data, index = row, columns= col)
print(df)

      col1  col2  col3
row1     1     2     3
row2     4     5     6
row3     7     8     9


In [None]:
print(df.eval('col4=col1*col2-col3'))

      col1  col2  col3  col4
row1     1     2     3    -1
row2     4     5     6    14
row3     7     8     9    47


하지만 inplace인수가 기본값인 False이기 때문에 원본은 변경되지 않은것을 알 수 있습니다.

In [None]:
print(df)

      col1  col2  col3
row1     1     2     3
row2     4     5     6
row3     7     8     9


inplace = True인 경우
Inplace = True로 할 경우 원본이 변경되는것을 확인할 수 있습니다.  
※ inplace = True로 할경우 사본이 생성되지 않기 때문에 print할 경우 None이 출력됩니다.

In [None]:
print(df.eval('col4=col1*col2-col3',inplace=True))
print(df)

None
      col1  col2  col3  col4
row1     1     2     3    -1
row2     4     5     6    14
row3     7     8     9    47


# 인덱싱  

## 레이블기반_스칼라 (at)

행/열 한쌍에 대한 단일 값에 엑세스합니다.

**사용법**  
값 가져오기 : result = df.at['행', '열']  
값 설정하기 : df.at['행', '열'] = value

In [None]:
df = pd.DataFrame([[1,2], [3,4]], index=['row1', 'row2'], columns=['col1', 'col2'])
print(df)

      col1  col2
row1     1     2
row2     3     4


값 가져오기

In [None]:
result = df.at['row1', 'col2']
print(result)

2


값 설정하기
행, 열 값을 인수로 지정 후 값을 할당하여 값을 설정할 수 있습니다.

In [None]:
df.at['row2', 'col1'] = 5
print(df)

      col1  col2
row1     1     2
row2     5     4


loc 메서드를 이용해 Series로 추출한 뒤 at메서드를 이용해 스칼라값을 얻는 방식으로 활용이 가능합니다.

In [None]:
 df.loc['row2'].at['col2']

4

## 레이블기반_데이터 (loc)


행/열 설정에 따라 자유로운 인덱싱이 가능합니다.  
loc는 bool 배열과 함께 사용이 가능합니다.

**기본 사용법**  
값 가져오기 : result = df.loc[ '행' , '열' ]  
값 설정하기 : df.loc[ '행' , '열' ] = value  

입력 가능한 Input  
1. 레이블 (만약 3을 입력할 경우 정수위치가 아닌 index의 레이블로 해석  
2. list 객체 (예 : ['a', 'b', 'c'])  
3. 레이블의 슬라이스 객체 (예 : 'b' : 'f')  
4. 슬라이싱되는 축과 길이가 같은 bool 배열 (예 : [True, True, False, True])  

In [None]:
df = pd.DataFrame([[1,2,3], [4,5,6], [7,8,9]], index=['row1', 'row2', 'row3'], columns=['col1', 'col2', 'col3'])
print(df)

      col1  col2  col3
row1     1     2     3
row2     4     5     6
row3     7     8     9


값 가져오기

단일 레이블을 지정할경우 Series 형태로 반환됩니다.

In [None]:
result = df.loc['row1']
print(result)

col1    1
col2    2
col3    3
Name: row1, dtype: int64


레이블로 구성된 리스트. [ [ ] ]를 사용하면 DataFrame형태로 반환됩니다.

In [None]:
result = df.loc[ ['row1','row3'] ]
print(result)

      col1  col2  col3
row1     1     2     3
row3     7     8     9


행과 열을 설정하여 단일 레이블의 값을 입력가능합니다.

In [None]:
result = df.loc['row2', 'col2']
print(result)

5


슬라이스를 이용하여 인덱싱을 할 수 있습니다.

In [None]:
result = df.loc['row1' : 'row3', 'col2']
print(result)

row1    2
row2    5
row3    8
Name: col2, dtype: int64


여기에 해당조건을 만족하는 특정 열을 반환할 수도 있습니다.  
아래의 경우 col3에서 5보다 큰 값을 만족하는 행에 대해서 col2의 값만 반환합니다.

In [None]:
result = df.loc[ df['col3'] > 5, ['col2'] ] 
print(result)

      col2
row2     5
row3     8


람다함수를 이용하여 인덱싱이 가능합니다. 아래의 경우 col2의 값중 5인 값을 만족하는 행을 반환합니다.

In [None]:
result = df.loc[lambda df : df['col2'] == 5]
print(result)

      col1  col2  col3
row2     4     5     6


값 설정하기  

기본적으로 조건을 만족하는 모든 항목의 값이 변경됩니다.  
레이블을 지정하여 값 설정하기.  

In [None]:
df.loc[ ['row1', 'row3'], ['col3'] ] = 'A'
print(df)

      col1  col2 col3
row1     1     2    A
row2     4     5    6
row3     7     8    A


하나의 레이블만 지정할 경우 해당 행/열 전체의 값 설정이 가능합니다.

In [None]:
df.loc[ ['row1'] ] = 'A' # 행을 변경할 경우
print(df)

     col1 col2 col3
row1    A    A    A
row2    4    5    6
row3    7    8    A


In [None]:
df.loc[ : , ['col3'] ] = 'B' # 열을 변경할 경우 행을 전체선택 ( : ) 해줍니다.
print(df)

     col1 col2 col3
row1    A    A    B
row2    4    5    B
row3    7    8    B


## 정수기반_스칼라 (iat)


iat 함수는 iloc 함수와 같이 정수 기반으로 인덱싱을 합니다.  
단일 스칼라값으로 반환하길 원한다면 iat함수를 사용합니다.

**기본 사용법**   
값 가져오기 : result = df.iat[ '행' , '열' ]  
값 설정하기 : df.iat[ '행' , '열' ] = value

In [None]:
df = pd.DataFrame([[1,2,3], [4,5,6], [7,8,9]], index=['row1', 'row2', 'row3'], columns=['col1', 'col2', 'col3'])
print(df)

      col1  col2  col3
row1     1     2     3
row2     4     5     6
row3     7     8     9


**값 가져오기**  
정수기반 조회 메서드이기 때문에, 행/열 쌍을 정수로 입력해야합니다.  
아래의 경우 [rows=1,columns=2] 를 출력하는 것으로, 0부터 시작하기 때문에 [row2, col3]의 값인 6을 출력하게 됩니다.

In [None]:
result = df.iat[1,2]
print(result)

6


**값 설정하기**  
마찬가지로 정수값을 지정하여 해당 행/열의 값을 바꿀 수 있습니다.

In [None]:
df.iat[1,2] = 'A'
print(df)

      col1  col2 col3
row1     1     2    3
row2     4     5    A
row3     7     8    9


## 정수기반_데이터 (iloc)

**기본 사용법**  
값 가져오기 : result = df.iloc['행', '열']  
값 설정하기 : df.iloc['행', '열'] = value  

**가능한 Input**  
1. 단일 정수값 (예 : 5)  
2. 정수로 이루어진 list (예 : [3, 5, 1])  
3. 정수 슬라이스 객체 (예 : 2:5 )  
4. bool 배열  

In [None]:
df = pd.DataFrame([[1,2,3], [4,5,6], [7,8,9]], index=['row1', 'row2', 'row3'], columns=['col1', 'col2', 'col3'])
print(df)

      col1  col2  col3
row1     1     2     3
row2     4     5     6
row3     7     8     9


**값 가져오기**  
단일 정수로 인덱싱 하는 경우 Series 형식으로 반환합니다.

In [None]:
result= df.iloc[0]
print(result)

col1    1
col2    2
col3    3
Name: row1, dtype: int64


list형식으로 인덱싱하는 경우 DataFrame형식 으로 반환합니다.

In [None]:
result = df.iloc[[0,2]]
print(result)

      col1  col2  col3
row1     1     2     3
row3     7     8     9


슬라이싱도 사용 가능 

In [None]:
result= df.iloc[1:2]
print(result)

      col1  col2  col3
row2     4     5     6


람다 함수도 사용 가능

In [None]:
result= df.iloc[lambda x : x.index == 'row3']
print(result)

      col1  col2  col3
row3     7     8     9


## 앞에서 n행 인덱싱 (head)

**기본 사용법**  
df.head(n=5)

In [None]:
data = np.random.randint(10,size=(10,10))
df = pd.DataFrame(data=data)
print(df)

   0  1  2  3  4  5  6  7  8  9
0  2  8  5  6  3  0  4  8  0  6
1  2  3  9  1  6  6  4  0  7  1
2  8  9  7  8  1  2  9  8  8  6
3  3  8  9  0  9  7  4  1  3  2
4  9  4  2  0  3  1  7  4  1  8
5  6  1  3  1  3  3  9  7  6  2
6  8  4  1  8  1  1  0  1  7  4
7  0  3  1  3  0  3  8  9  5  1
8  3  2  3  1  0  3  5  7  0  7
9  9  6  6  4  0  9  5  1  2  6


위에서부터 n까지 열을 반환 ( n > 0 )

In [None]:
print(df.head(3))

   0  1  2  3  4  5  6  7  8  9
0  2  8  5  6  3  0  4  8  0  6
1  2  3  9  1  6  6  4  0  7  1
2  8  9  7  8  1  2  9  8  8  6


끝에서부터 n개열을 제외하고 반환 ( n < 0 )

In [None]:
print(df.head(-3))

## 뒤에서 n행 인덱싱 (head)

**기본 사용법**  
df.tail(n=5)

In [None]:
data = np.random.randint(10,size=(10,10))
df = pd.DataFrame(data=data)
print(df)

   0  1  2  3  4  5  6  7  8  9
0  8  2  4  4  5  4  6  7  7  7
1  8  2  9  6  9  9  6  6  8  7
2  7  4  6  9  2  0  7  2  1  0
3  5  6  7  6  3  8  0  1  9  0
4  5  4  0  3  5  7  9  4  4  9
5  3  8  3  8  0  1  2  8  6  1
6  1  1  0  8  0  3  7  7  1  0
7  9  4  3  4  6  6  5  0  9  2
8  8  9  2  9  4  5  2  2  9  2
9  8  1  1  2  4  5  8  3  0  0


아래에서부터 n까지 열을 반환 ( n > 0 )

In [None]:
print(df.tail(3))

   0  1  2  3  4  5  6  7  8  9
7  9  4  3  4  6  6  5  0  9  2
8  8  9  2  9  4  5  2  2  9  2
9  8  1  1  2  4  5  8  3  0  0


위에서부터 n개열을 제외하고 반환 ( n < 0 ) 

In [None]:
print(df.tail(-3))

   0  1  2  3  4  5  6  7  8  9
3  5  6  7  6  3  8  0  1  9  0
4  5  4  0  3  5  7  9  4  4  9
5  3  8  3  8  0  1  2  8  6  1
6  1  1  0  8  0  3  7  7  1  0
7  9  4  3  4  6  6  5  0  9  2
8  8  9  2  9  4  5  2  2  9  2
9  8  1  1  2  4  5  8  3  0  0


## Mutli Index의 경우 

In [None]:
index_tuples = [('row1', 'val1'), ('row1', 'val2'), ('row2', 'val1'), ('row2', 'val2'), ('row2', 'val3'), ('row3', 'val2'),('row3', 'val3')]
values = [ [1,2,3], [4,5,6], [7,8,9], [10,11,12], [13,14,15], [16,17,18], [19,20,21]]
index = pd.MultiIndex.from_tuples(index_tuples) # 인덱스 설정
df = pd.DataFrame(values, columns=['col1', 'col2', 'col3'], index = index)
print(df)

           col1  col2  col3
row1 val1     1     2     3
     val2     4     5     6
row2 val1     7     8     9
     val2    10    11    12
     val3    13    14    15
row3 val2    16    17    18
     val3    19    20    21


하나의 행을 지정할 경우 단일 index로 반환된다.

In [None]:
result = df.loc['row2']
print(result)

      col1  col2  col3
val1     7     8     9
val2    10    11    12
val3    13    14    15


multi index에서 특정 index를 튜플로 지정할 경우 Series로 반환됩니다.  
또한, 아래의 경우에서 튜플이 아니라 단일 행/열 레이블 형태로 입력하여도
같은 결과가 도출됩니다. (예 : result = df.loc[ ' row2', 'val2' ] )

In [None]:
result = df.loc[('row2','val2')]
print(result)

col1    10
col2    11
col3    12
Name: (row2, val2), dtype: int64


만약 DataFrame 형태로 반환하고 싶다면 [ [ ] ] 형태로 인덱싱하면됩니다.

In [None]:
result = df.loc[[('row2','val2')]]
print(result)

           col1  col2  col3
row2 val2    10    11    12


여기에 열 값까지 설정해줄 경우 해당 값을 반환할 수 있습니다.

In [None]:
result = df.loc[('row2','val2'), 'col3']
print(result)

12


Multi Index의 튜플을 통해 슬라이스하여 인덱싱이 가능합니다.

In [None]:
result = df.loc[('row1','val2') : ('row3','val2')] # row1의 val2부터 row3의 val2까지
print(result)

           col1  col2  col3
row1 val2     4     5     6
row2 val1     7     8     9
     val2    10    11    12
     val3    13    14    15
row3 val2    16    17    18


# 비교 & 필터링 

## 초과, 미만, 이상, 이하, 같음, 다름 (gt, lt, ge, le, eq, ne) 

**기본 사용법**  
df.eq(other, axis='columns', level=None)
*   other : 스칼라, 시퀀스, Series, DataFrame, list등이 올 수 있습니다. 비교하고자 하는 값입니다.
*   axis : {0 : index / 1 : columns} 비교할 레이블 입니다.
*   level : 멀티인덱스 사용시 비교할 레이블의 레벨입니다.



In [None]:
col = ['col1','col2','col3']
row = ['A','B','C']
df = pd.DataFrame(data=[[10,20,10],
                        [80,30,60],
                        [20,10,70]],index=row,columns=col)

**스칼라값과의 비교**  
스칼라와의 비교시에는 단순히 other에 스칼라값을 입력하는것으로 실행할 수 있습니다.  
비교 결과는 bool로 표시됩니다.


In [None]:
print(df.eq(10)) # equal

    col1   col2   col3
A   True  False   True
B  False  False  False
C  False   True  False


In [None]:
print(df.ne(20)) # not equal

    col1   col2  col3
A   True  False  True
B   True   True  True
C  False   True  True


**Series와의 비교**  
Series로 입력할 경우 Series의 index를 통해 비교할 레이블의 설정이 가능합니다.

In [None]:
s1 = pd.Series([10,30],index=["col1","col3"])
print(df.gt(s1)) # col1에서 10이상, col3에서 30이상이면 True

    col1   col2   col3
A  False  False  False
B   True  False   True
C   True  False   True


만약 존재하지 않는 레이블을 비교한다면, 해당 레이블이 생성(broadcast)됩니다.

In [None]:
s2 = pd.Series([10],index=["col4"])
print(df.lt(s2)) # df에는 col4가 없기 때문에 col4가 브로드캐스트 됩니다.

    col1   col2   col3   col4
A  False  False  False  False
B  False  False  False  False
C  False  False  False  False


**axis에 따른 비교의 차이**

In [None]:
print(df.le([10,20,30], axis="columns")) # 열 기준으로 비교했을때 각각 10, 20, 30 이하면 True ( less )

    col1   col2   col3
A   True   True   True
B  False  False  False
C  False   True  False


In [None]:
print(df.le([10,20,30], axis="index")) # 행 기준으로 비교했을때 각각 10,20,30 이하면 True

    col1   col2   col3
A   True  False   True
B  False  False  False
C   True   True  False


**DataFrame과의 비교**  
Series와 마찬가지로 특정 레이블이 일치하는 DataFrame과의 비교가 가능합니다.  
※ 레이블이 일치하지 않을경우 해당 레이블이 생성(broadcast)됩니다.  


In [None]:
df2 = pd.DataFrame([[50],[50],[50]],index=row,columns=['col1'])
print(df2)

   col1
A    50
B    50
C    50


In [None]:
print(df.ge(df2)) # col1에 대해서 각각50, 50, 50 이상이면 True ( greater )

    col1   col2   col3
A  False  False  False
B   True  False  False
C  False  False  False


**멀티 인덱스의 사용 (level인수)**
먼저 간단한 멀티인덱스 데이터프레임을 하나 만들어보겠습니다.

In [None]:
row_mul = [['U','U','U','D','D','D'],['A','B','C','A','B','C']]
df_mul = pd.DataFrame(data=[[10,20,10],
                            [80,30,60],
                            [20,10,70],
                            [30,70,60],
                            [10,90,40],
                            [50,30,80]],index=row_mul,columns=col)
print(df_mul)

     col1  col2  col3
U A    10    20    10
  B    80    30    60
  C    20    10    70
D A    30    70    60
  B    10    90    40
  C    50    30    80


In [None]:
print(df.ge(df_mul,level=1)) # level=1이기 때문에 A, B, C를 index로하는 두 DataFrame과의 비교처럼 진행됩니다.

      col1   col2   col3
U A   True   True   True
  B   True   True   True
  C   True   True   True
D A  False  False  False
  B   True  False   True
  C  False  False  False


## dtype기반 열 선택 (select_dtyps)

**기본 사용법**  

df.dtypes  

include 및 exclude는 비어있거나 겹치면 안되며(에러발생), 스칼라나 list형태의 입력값이 가능합니다.  

**자료형**  
1. 숫자형(numeric)은 np.number 또는 'number'  
2. 문자형(str)은 'object'  
3. 날짜,시간(datetimes)을 선택하려면 np.datetime64, 'datetime' 또는 'datetime64'  
4. timedeltas는 np.timedelta64, 'timedelta' or 'timedelta64'  
5. Pandas의 categorical 타입은 'category'

In [5]:
col1 = [1, 2, 3, 4, 5]
col2 = ['one', 'two', 'three', 'four', 'five']
col3 = [1.5, 2.5, 3.5, 4.5, 5.5]
col4 = [True, False, False, True, True]
df = pd.DataFrame({"col1": col1, "col2": col2, "col3": col3, "col4": col4})
print(df)

   col1   col2  col3   col4
0     1    one   1.5   True
1     2    two   2.5  False
2     3  three   3.5  False
3     4   four   4.5   True
4     5   five   5.5   True


include에 포함될 type을 입력함으로써, 해당 type인 열만 반환하는것이 가능합니다.

In [6]:
result = df.select_dtypes(include=[float,bool])
print(result)

   col3   col4
0   1.5   True
1   2.5  False
2   3.5  False
3   4.5   True
4   5.5   True


exclude에 제외할 type을 입력함으로써, 해당 type인 열만 제외하여 반환하는것이 가능합니다.

In [None]:
result = df.select_dtypes(exclude=['int64'])
print(result)

include에 포함될 type을, exclude에 제외할 type을 입력하여 혼용 인덱싱이 가능합니다.

In [None]:
result = df.select_dtypes(include =[float,object], exclude=['int64'])
print(result)

## 임계값 적용 (clip)

**기본 사용법**  
df.clip(lower=None, upper=None, axis=None, inplace=False, args, kwargs)

*   lower : 하한값입니다. 이 이하의 값은 이 값으로 변경됩니다.
*   upper : 상한값입니다. 이 이상의 값은 이 값으로 변경됩니다.
*   axis : 계산할 기준이되는 레이블입니다.
*   inplace : 제자리에서 계산할지 여부 입니다.



In [7]:
col  = ['col1','col2','col3']
row  = ['row1','row2','row3']
data = [[-7,3,9],
        [6,-8,1],
        [-3,0,-7]]
df = pd.DataFrame(data,row,col)
print(df)

      col1  col2  col3
row1    -7     3     9
row2     6    -8     1
row3    -3     0    -7


-4보다 작은 수는 -4로 5보다 큰 수는 5로 변경된다 그 안의 수는 변경되지 않는다.

In [8]:
print(df.clip(-4,5)) 

      col1  col2  col3
row1    -4     3     5
row2     5    -4     1
row3    -3     0    -4


row1에는 -1 ~ 1 / row2에는 -2 ~ 2 / row3에는 -3 ~ 3  으로 임계값 지정

In [9]:
s = pd.Series(data=[1,2,3],index=row)
print(s)

row1    1
row2    2
row3    3
dtype: int64


In [10]:
print(df.clip(-s,s,axis=0))

      col1  col2  col3
row1    -1     1     1
row2     2    -2     1
row3    -3     0    -3


## 레이블 필터링 (filter)

**기본 사용법**  
df.filter(items=None, like=None, regex=None, axis=None)  


*   items : 이름으로 필터링하는 경우입니다. 리스트형태로 입력합니다.
*   like : str로 필터링합니다. 해당 문자열이 포함된 경우를 반환합니다.
*   regex : 정규표현식을 이용해 필터링합니다. re.search(regex, label) == True에서 사용되는 경우와 동일합니다.
*   axis : {0 : index / 1 : columns} 필터링할 레이블입니다. 0은 행, 1은 열 입니다.


In [11]:
col  = ['alpha','beta','gamma','delta','epsilon']
row  = ['sigma','omega','lambda']
data = [[1,2,3,4,5],[6,7,8,9,10],[11,12,13,14,15]]
df = pd.DataFrame(data,row,col)
print(df)

        alpha  beta  gamma  delta  epsilon
sigma       1     2      3      4        5
omega       6     7      8      9       10
lambda     11    12     13     14       15


items인수를 통해 alpha, beta 열을 필터링 해보겠습니다.

In [12]:
print(df.filter(items=['alpha','delta']))

        alpha  delta
sigma       1      4
omega       6      9
lambda     11     14


omega행을 필터링해보겠습니다.

In [13]:
print(df.filter(items=['omega'],axis=0))

       alpha  beta  gamma  delta  epsilon
omega      6     7      8      9       10


like인수를 이용해 'ta'가 포함된 열을 필터링해보겠습니다.



In [None]:
print(df.filter(like='ta'))

regex인수를 사용해서 m과 n이 포함된 열을 필터링 해보겠습니다. 
 
정규표현식 [ ] 는 [ ] 안의 모든 문자가 포함된 경우를 말합니다.  
즉, [mn]은m과 n이 포함된 경우입니다.


In [14]:
print(df.filter(regex='[mn]'))

        gamma  epsilon
sigma       3        5
omega       8       10
lambda     13       15


g로 시작하는 경우에 대해 필터링 해보겠습니다.  

정규표현식 ^는 ^뒤에있는 문자로 시작하는 문자열을 말합니다.  
즉, ^g는 g로 시작하는 경우를 말합니다.

In [15]:
print(df.filter(regex='^g'))

        gamma
sigma       3
omega       8
lambda     13


a로 끝나는 경우에 대해 필터링 해보겠습니다.  

정규표현식 $는 $앞에있는 문자로 끝나는 문자열을 말합니다.  
즉, a$는 a로 끝나는 경우를 말합니다.

In [16]:
print(df.filter(regex='a$'))

        alpha  beta  gamma  delta
sigma       1     2      3      4
omega       6     7      8      9
lambda     11    12     13     14


## 샘플 추출 (sample)

**기본 사용법**

df.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None, ignore_index=False)

*   n : 추출할 갯수 입니다. replace가 False면 n의 최댓값은 레이블의 갯수를 넘을수 없습니다.
*   frac : 추출할 비율입니다. 1보다 작은값으로 설정하며(예 : 0.3 이면 30%), n과 동시에 사용할 수 없습니다.
*   replace : 중복추출의 허용 여부 입니다. True로 하면 중복추출이 가능하며 n의 최댓값이 레이블의 갯수보다 커도 됩니다.
*   weight : 가중치입니다. 즉 레이블마다 추출될 확률을 지정할 수 있습니다. 합계가 1(100%)이 아닐경우 자동으로 1로 연산합니다.
*   random_state : 랜덤 추출한 값에 시드를 설정할 수 있습니다. 원하는 값을 설정하면, 항상 같은 결과를 출력합니다.
*   axis : {0 : index / 1 : columns} 추출할 레이블입니다.
*   ignore_index : index의 무시 여부입니다. True일경우 출력시 index를 무시하고 숫자로 출력합니다.


In [17]:
col  = ['col1','col2','col3']
row  = ['row1','row2','row3','row4','row5']
data = [[1,2,3],[4,5,6],[7,8,9],[10,11,12],[13,14,15]]
df = pd.DataFrame(data,row,col)
print(df)

      col1  col2  col3
row1     1     2     3
row2     4     5     6
row3     7     8     9
row4    10    11    12
row5    13    14    15


n을 설정함으로써 원하는 갯수의 추출이 가능합니다. n을 2로 설정함으로써 2개의 행이 추출된것을 볼 수 있습니다.

In [18]:
print(df.sample(2))

      col1  col2  col3
row3     7     8     9
row2     4     5     6


행이 5이지만 replace=True로 설정하여 중복 추출을 허용한다면, n이 5보다 커도 됩니다.

In [19]:
print(df.sample(10,replace=True))

      col1  col2  col3
row2     4     5     6
row3     7     8     9
row5    13    14    15
row2     4     5     6
row1     1     2     3
row5    13    14    15
row5    13    14    15
row5    13    14    15
row2     4     5     6
row5    13    14    15


In [20]:
print(df.sample(10)) # 초과되면 실행되지 않는 모습을 보여준다. 

ValueError: ignored

frac을 통해 전체에대한 추출 비율을 정할 수 있습니다.   
frac을 0.4로 설정하므로써, 전체에서 40%인 2개를 추출해보겠습니다.

In [21]:
print(df.sample(frac=0.4))

      col1  col2  col3
row3     7     8     9
row2     4     5     6


먼저 가중치를 적용하기위해 5짜리 Series를 하나 만들어보겠습니다.

In [22]:
s = pd.Series(data=[10,10,3,3,1],index=row)
print(s)

row1    10
row2    10
row3     3
row4     3
row5     1
dtype: int64


Series s를 weights에 적용시켜보겠습니다.   
가장 가중치가 높은 row1, row2가 추출된 것을 확인할 수 있습니다.  
물론 가중치가 적더라도 확률적으로 추출될 가능성이 존재합니다.

In [23]:
print(df.sample(2,weights=s))

      col1  col2  col3
row2     4     5     6
row1     1     2     3


random_state에 원하는 값을 설정하므로써 출력 결과를 동일하게 다시 출력하는것이 가능합니다.

In [24]:
print(df.sample(5,random_state=7))

      col1  col2  col3
row1     1     2     3
row4    10    11    12
row3     7     8     9
row2     4     5     6
row5    13    14    15


ignore_index를 True로 하면 index는 사라지고 순서대로 번호가 부여됩니다.

In [25]:
print(df.sample(3,ignore_index=True))

   col1  col2  col3
0     1     2     3
1    13    14    15
2    10    11    12


# 결측제어

## 결측값 확인 (isna, isnull, notna, notnull)

**기본 사용법**
df.isna( ) / df.notna( )  
np.inf나 그냥 ' ' 의경우 결측값으로 판단하지 않습니다.

In [26]:
col  = ['col1','col2','col3','col4']
row  = ['row1','row2','row3']
data = [[1,2,pd.NA,4],
        [np.nan,6,7,8],
        [9,10,11,None]]
df = pd.DataFrame(data,row,col)

isna나 isnull의 경우 결측값이면 True를 반환합니다.

In [27]:
print(df.isna())

       col1   col2   col3   col4
row1  False  False   True  False
row2   True  False  False  False
row3  False  False  False   True


notna나 notnull의 경우 결측값이면 False를 반환합니다.

In [28]:
print(df.notna())

       col1  col2   col3   col4
row1   True  True  False   True
row2  False  True   True   True
row3   True  True   True  False


## 결측값 제거 (dropna)

**기본 사용법**
df.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)
*   axis : {0: index / 1: columns} 결측치 제거를 진행 할 레이블입니다.
*   how : {'any' : 존재하면 제거 / 'all' : 모두 결측치면 제거} 제거할 유형입니다. 포함만 시켜도 제거할지, 전무 NA여야 제거할지 정할 수 있습니다.
*   tresh : 결측값이 아닌 값이 몇 개 미만일 경우에만 적용시키는 인수 입니다.
*   subset : dropna메서드를 수행할 레이블을 지정합니다.
*   inplace : 원본을 변경할지의 여부입니다.


In [29]:
col  = ['col1','col2','col3','col4','col5']
row  = ['row1','row2','row3','row4']
data = [[1,2,3,pd.NA,5],[6,pd.NA,8,pd.NA,10],[11,12,13,14,15],[pd.NA,pd.NA,pd.NA,pd.NA,pd.NA]]
df = pd.DataFrame(data,row,col)
print(df)

      col1  col2  col3  col4  col5
row1     1     2     3  <NA>     5
row2     6  <NA>     8  <NA>    10
row3    11    12    13    14    15
row4  <NA>  <NA>  <NA>  <NA>  <NA>


axis가 0인경우 행에 대해서, axis가 1인경우 열에 대해서 결측치 제거가 수행됩니다.  
axis=0인 경우 결측치가 포함된 모든 행이 제거되었습니다.

In [30]:
print(df.dropna(axis=0))

     col1 col2 col3 col4 col5
row3   11   12   13   14   15


axis=1인 경우 결측치가 포함된 모든 열이 제거되었습니다. 예시의 경우 모든 열에 NA가 존재하므로 빈 값이 반환됩니다.

In [31]:
print(df.dropna(axis=1))

Empty DataFrame
Columns: []
Index: [row1, row2, row3, row4]


기본적으로 how 는 'any'이며 이 경우 한 값이라도 NA를 가진다면 해당 레이블을 제거합니다.

In [32]:
print(df.dropna(how='any'))

     col1 col2 col3 col4 col5
row3   11   12   13   14   15


In [33]:
print(df.dropna(how='all'))

     col1  col2 col3  col4 col5
row1    1     2    3  <NA>    5
row2    6  <NA>    8  <NA>   10
row3   11    12   13    14   15


thresh를 이용하여 정상값의 수를 보장할 수 있습니다.  
thresh가 3일 경우 정상값이 3개 미만인 경우에 대해서만 결측치 보정을 진행합니다.  

In [34]:
print(df.dropna(thresh=3))

     col1  col2 col3  col4 col5
row1    1     2    3  <NA>    5
row2    6  <NA>    8  <NA>   10
row3   11    12   13    14   15


thresh가 4인 경우 정상값이 4개 미만인 경우에 대해서 결측치 보정을 진행합니다.

In [35]:
print(df.dropna(thresh=4))

     col1 col2 col3  col4 col5
row1    1    2    3  <NA>    5
row3   11   12   13    14   15


subset에 리스트형태의 값을 입력함으로써 결측치 제거를 수행할 레이블을 지정할 수 있습니다.  
col1, col2에 대해서 결측치가 있는경우만 제거되었습니다.

In [36]:
print(df.dropna(subset=['col1','col2']))

     col1 col2 col3  col4 col5
row1    1    2    3  <NA>    5
row3   11   12   13    14   15


Pandas에서 공통적으로 inplace 인수는 원본의 수정을 의미합니다.  
 inplace가 True인 경우 원본이 수정됩니다.

In [37]:
df.dropna(inplace=True)
print(df)

     col1 col2 col3 col4 col5
row3   11   12   13   14   15


## 결측값 없는 인덱스 확인 (first_valid_index / last_valid_index)

**기본 사용법**  
df.first_valid_index( )  
df.last_valid_index( )

In [38]:
col  = ['col1','col2']
row  = ['row1','row2','row3','row4','row5']
data = [[np.nan,np.nan],[pd.NA,4],[pd.NA,pd.NaT],[5,6],[np.nan,pd.NA]]
df = pd.DataFrame(data,row,col)
print(df)

      col1  col2
row1   NaN   NaN
row2  <NA>     4
row3  <NA>   NaT
row4     5     6
row5   NaN  <NA>


first_valid_index메서드의 경우 처음으로 결측치가 아닌값이 나오는 행의 인덱스를 출력합니다.  
이 경우 row2에서 처음으로 정상값인 4가 있으므로 row2를 출력합니다.

In [39]:
print(df.first_valid_index()) 

row2


last_valid_index메서드의 경우 마지막으로 결측치가 아닌값이 나오는 행의 인덱스를 출력합니다.  
이 경우 row4이후에는 정상값이 없으므로 row4를 출력합니다.

In [40]:
print(df.last_valid_index())

row4


## 결측값 변경 ( fillna )


**기본 사용법**  
df.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None)  


*   value : 결측값을 대체할 값입니다. dict형태로도 가능합니다.
*   method : 결측값을 변경할 방식입니다. bfill로 할경우 결측값을 바로 아래 값과 동일하게 변경합니다.
*   ffill로 할 경우 결측값을 바로 위 값과 동일하게 변경합니다.
*   axis : {0 : index / 1 : columns} fillna 메서드를 적용할 레이블입니다.
*   inplace : 원본을 변경할지 여부입니다. True일 경우 원본을 변경하게 됩니다.
*   limit : 결측값을 변경할 횟수입니다. 위에서부터 limit로 지정된 갯수만큼만 변경합니다.
*   downcast : 다운캐스트할지 여부입니다. downcast='infer'일 경우 float64를 int64로 변경합니다.



In [41]:
col  = ['col1','col2','col3','col4','col5']
row  = ['row1','row2','row3','row4','row5']
na = np.nan
data = [[na, 2,na, 4,na],
        [ 6, 7,na, 9,na],
        [11,na,na,14,15],
        [na,17,na,na,20],
        [na,22,na,na,25]]
df = pd.DataFrame(data,row,col)
print(df)

      col1  col2  col3  col4  col5
row1   NaN   2.0   NaN   4.0   NaN
row2   6.0   7.0   NaN   9.0   NaN
row3  11.0   NaN   NaN  14.0  15.0
row4   NaN  17.0   NaN   NaN  20.0
row5   NaN  22.0   NaN   NaN  25.0


value가 숫자나 문자일 경우 그대로 결측값을 대체하게 됩니다.  
여기서는 A로 바꿔보겠습니다.

In [42]:
print(df.fillna('A'))

      col1  col2 col3  col4  col5
row1     A   2.0    A   4.0     A
row2   6.0   7.0    A   9.0     A
row3  11.0     A    A  14.0  15.0
row4     A  17.0    A     A  20.0
row5     A  22.0    A     A  25.0


method인수에 bfill을 입력할 경우 결측값이 바로 아래값과 동일하게 설정됩니다.  
※ df.backfill( )이나 df.bfill( )과 완전히 동일한 기능을 수행합니다.

In [43]:
print(df.fillna(method='bfill'))

      col1  col2  col3  col4  col5
row1   6.0   2.0   NaN   4.0  15.0
row2   6.0   7.0   NaN   9.0  15.0
row3  11.0  17.0   NaN  14.0  15.0
row4   NaN  17.0   NaN   NaN  20.0
row5   NaN  22.0   NaN   NaN  25.0


method인수에 ffill을 입력할 경우 결측값이 바로 위값과 동일하게 설정됩니다.
※ df.pad( )나 df.ffill( )과 완전히 동일한 기능을 수행합니다.

In [44]:
print(df.fillna(method='ffill'))

      col1  col2  col3  col4  col5
row1   NaN   2.0   NaN   4.0   NaN
row2   6.0   7.0   NaN   9.0   NaN
row3  11.0   7.0   NaN  14.0  15.0
row4  11.0  17.0   NaN  14.0  20.0
row5  11.0  22.0   NaN  14.0  25.0


limit인수는 각 레이블값에 대해서 결측치 변경을 수행할 횟수입니다. 행 기준일경우 왼쪽부터, 열 기준일 경우 위에서부터 수행합니다.

In [45]:
print(df.fillna('A', limit=2))

      col1  col2 col3  col4  col5
row1     A   2.0    A   4.0     A
row2   6.0   7.0    A   9.0     A
row3  11.0     A  NaN  14.0  15.0
row4     A  17.0  NaN     A  20.0
row5   NaN  22.0  NaN     A  25.0


downcast 인수를 'infer'로 설정함으로써 float64형태를 int64형태로 변경할 수 있습니다.

In [46]:
print(df.fillna(0, downcast='infer'))

      col1  col2  col3  col4  col5
row1     0     2     0     4     0
row2     6     7     0     9     0
row3    11     0     0    14    15
row4     0    17     0     0    20
row5     0    22     0     0    25


다른 파이썬 객체에서와 마찬가지로 inplace는 원본을 덮어씌우는 기능과 유사한 기능을 합니다.  
즉 df.fillna(0, inplace=True) 는 df=df.fillna(0)과 동일한 기능을 합니다.

In [47]:
df.fillna('A',inplace=True)
print(df)

      col1  col2 col3  col4  col5
row1     A   2.0    A   4.0     A
row2   6.0   7.0    A   9.0     A
row3  11.0     A    A  14.0  15.0
row4     A  17.0    A     A  20.0
row5     A  22.0    A     A  25.0


## Spilt-Apply-Combine
* 분할 - 응용 - 결합
* Pandas의 groubpy() 함수를 통해 하위 그룹에 적용

#### DataFrame 가져오기

In [None]:
# csv 파일 불러오기
tips = pd.read_csv('https://raw.github.com/vincentarelbundock/Rdatasets/master/csv/reshape2/tips.csv', )

# .head(n= ): 첫번째 n개 행 반환
tips.head(n=4)

In [None]:
# 첫번째 열(Unnamed)에 있는 extra index 삭제  
tips = tips.iloc[:, 1:]
tips.head(n=4)

## Split-Apply-Combine 패턴 (성별과 흡연 여부)  
  
    
split-apply-combine 패턴의 예제로, 성별과 흡연 여부에 따른 카운트 확인
1. split - 성별과 흡연 여부로 나누어 2x2 group 생성
2. apply - .size() 함수를 통해 group 당 항목 수 계산
3. combine - 결과를 새로운 multi-index Series로 결합

### 1. split

In [None]:
# 성별과 흡연 여부로 나누기

# .groupby(): column을 기준으로 그룹화
# group series 또는 일련의 column으로 반환
grouped = tips.groupby(['sex', 'smoker'])
grouped.size()

In [None]:
# 교차표 생성, 빈도수 계산

# .crosstab(index, column, margins): 두 개 이상의 factor에 대한 교차표
# margins = : 행/열 총합 추가, default는 False
pd.crosstab(tips.sex, tips.smoker, margins=True)

### 2. apply

In [None]:
# 원본 data를 변환하여 편리한 분석 가능

# total_bill, tips 단위 표준화
zscore = lambda x: (x - x.mean())/x.std()

std_grouped = grouped['total_bill', 'tip'].transform(zscore)
std_grouped.head(n=4)

In [None]:
# .mean(): group 평균 계산
grouped.mean()

# 2개 이상의 results 열 생성되면 DataFrame 반환 
# print(type(grouped.mean()))

In [None]:
# .agg(): 여러 개의 집계 함수 결과 반환
grouped['total_bill', 'tip'].agg(['mean', 'min', 'max'])

In [None]:
# column에 구체적으로 apply

# dict 사용 
grouped.agg({'total_bill': (min, max), 'tip': sum})