<a href="https://colab.research.google.com/github/HajarFazillah/24-1_NumericalAnalysis/blob/main/4_5dataframe.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# python에서 표(table) 형식의 자료를
# pandas 모듈에 있는 dataframe을 사용하여 구현할 수 있다.

추천 사이트

- https://wikidocs.net/book/7188

- https://pandas.pydata.org/docs/user_guide/10min.html

In [None]:
import pandas as pd
import numpy as np

In [None]:
df = pd.DataFrame(np.arange(12).reshape(3, 4),
                  columns=['A', 'B', 'C', 'D'])

In [None]:
df

Unnamed: 0,A,B,C,D
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [None]:
# row index(가로줄/행 표식)
df.index

RangeIndex(start=0, stop=3, step=1)

In [None]:
# 부분적으로 행(row) 선택하기
df[0:2] # slicing

Unnamed: 0,A,B,C,D
0,0,1,2,3
1,4,5,6,7


In [None]:
# df[0]  # 오류!! - 열(column)을 부르는 방식임
# 한 행(row)만 부르고 싶으면 다음과 같은 시도 가능
df[0:1]

Unnamed: 0,A,B,C,D
0,0,1,2,3


In [None]:
# 열(column) 의 이름
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

In [None]:
# 열(column)을 부분적으로 불러오는 방법

# 단일 열( single column)
# df['C']
# df.D

# 복수 열 (multiple columns)
df[['C','A']]

Unnamed: 0,C,A
0,2,0
1,6,4
2,10,8


In [None]:
# .loc 사용한 특정 행과 특정 열 선택하기

# df.loc[2,'A']
df.loc[ 1: ,  'B':'C' ]
# [row, column]

Unnamed: 0,B,C
1,5,6
2,9,10


In [None]:
df

Unnamed: 0,A,B,C,D
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [None]:
# .iloc 사용한 특정 행과 특정 열
# i in iloc = indexlocation

# df.iloc[1,3]
# df.iloc[:2, 1:]
df.iloc[[0,2],[1,3]]

Unnamed: 0,B,D
0,1,3
2,9,11


In [None]:
# 새로운 열 추가하기
df['E'] =[100,200,300]
df

Unnamed: 0,A,B,C,D,E
0,0,1,2,3,100
1,4,5,6,7,200
2,8,9,10,11,300


In [None]:
# 기존 정보를 이용하여 새로운 열 추가하기1
df['A+B sum'] = df['A'] + df['B']
df

Unnamed: 0,A,B,C,D,E,A+B sum
0,0,1,2,3,100,1
1,4,5,6,7,200,9
2,8,9,10,11,300,17


In [None]:
# 기존 정보를 이용하여 새로운 열 추가하기2
df['C+D+E']= df.loc[:, 'C':'E'].sum(axis=1)
df

Unnamed: 0,A,B,C,D,E,A+B sum,C+D+E
0,0,1,2,3,100,1,105
1,4,5,6,7,200,9,213
2,8,9,10,11,300,17,321


In [None]:
df.append(df.loc[1:3].sum().rename('two-rows sum'))
# sum() empty parentheses (no arguments) being applied to the DataFrame

  df.append(df.loc[1:3].sum().rename('two-rows sum'))


Unnamed: 0,A,B,C,D,E,A+B sum,C+D+E
0,0,1,2,3,100,1,105
1,4,5,6,7,200,9,213
2,8,9,10,11,300,17,321
two-rows sum,12,14,16,18,500,26,534


In [None]:
df

Unnamed: 0,A,B,C,D,E,A+B sum,C+D+E
0,0,1,2,3,100,1,105
1,4,5,6,7,200,9,213
2,8,9,10,11,300,17,321


In [None]:
# 열 빼고 보기 - 원본 변화 없음
df.drop(['B', 'C'], axis=1)
# df_drop = df.drop(['B', 'C'], axis=1) 방법으로 저장하여 사용하기
# f.drop(columns=['B', 'C'])

Unnamed: 0,A,D,E,A+B sum,C+D+E
0,0,3,100,1,105
1,4,7,200,9,213
2,8,11,300,17,321


In [None]:
df

Unnamed: 0,A,B,C,D,E,A+B sum,C+D+E
0,0,1,2,3,100,1,105
1,4,5,6,7,200,9,213
2,8,9,10,11,300,17,321


In [None]:
# 행 빼고 보기
df.drop([0, 1])

Unnamed: 0,A,B,C,D,E,A+B sum,C+D+E
2,8,9,10,11,300,17,321


In [None]:
df  # 원본에는 변화없음

Unnamed: 0,A,B,C,D,E,A+B sum,C+D+E
0,0,1,2,3,100,1,105
1,4,5,6,7,200,9,213
2,8,9,10,11,300,17,321


In [None]:
# 조건을 만족하는 정보 보기
#df[df['C']<9]
df[df['C']==6]
# df[condition] boolean indexing with pandas - more efficient and concise

Unnamed: 0,A,B,C,D,E,A+B sum,C+D+E
1,4,5,6,7,200,9,213


In [None]:
# dataframe 판별하기 - NaN(Not a Number): NaN은 잘못된 입력으로 인해 계산을 할 수 없음을 나타내는 기호
df[df>150]

Unnamed: 0,A,B,C,D,E,A+B sum,C+D+E
0,,,,,,,
1,,,,,200.0,,213.0
2,,,,,300.0,,321.0


In [None]:
# 기존 dataframe 활용한 새로운 dataframe 생성
df_NaN = df[df>150]

In [None]:
df_NaN

Unnamed: 0,A,B,C,D,E,A+B sum,C+D+E
0,,,,,,,
1,,,,,200.0,,213.0
2,,,,,300.0,,321.0


In [None]:
# NaN 인지 아닌지 판별하는 함수 적용
pd.isna(df_NaN)
# rather than showing NaN for cells with non-value
# it shows in T/F form (boolean 1 / 0)

Unnamed: 0,A,B,C,D,E,A+B sum,C+D+E
0,True,True,True,True,True,True,True
1,True,True,True,True,False,True,False
2,True,True,True,True,False,True,False


In [None]:
# 한 row(axis=0)의 값이 모두(all) NaN이면 빼고 보기
df_NaN.dropna(axis=0, how='all',inplace=False)
# "useless rows" being erased (when it is not needed)

Unnamed: 0,A,B,C,D,E,A+B sum,C+D+E
1,,,,,200.0,,213.0
2,,,,,300.0,,321.0


In [None]:
df_NaN # 원본변화 없음

Unnamed: 0,A,B,C,D,E,A+B sum,C+D+E
0,,,,,,,
1,,,,,200.0,,213.0
2,,,,,300.0,,321.0


In [None]:
# 한 column(axis=1)의 값이 모두(all) NaN이면 원본에서 삭제(inplace=True)하기
df_NaN.dropna(axis=1, how='all',inplace=True)

In [None]:
df_NaN # 원본변화 있음

Unnamed: 0,E,C+D+E
0,,
1,200.0,213.0
2,300.0,321.0


In [None]:
# NaN값을 다른 값으로 치환해서 보기
df_NaN.fillna(value=-100)
# df_minus100 = df_NaN.fillna(value=-100)

Unnamed: 0,E,C+D+E
0,-100.0,-100.0
1,200.0,213.0
2,300.0,321.0


In [None]:
df_NaN # 원본 변화 없음

Unnamed: 0,E,C+D+E
0,,
1,200.0,213.0
2,300.0,321.0


- Merge, Concat

In [None]:
df_left =pd.DataFrame({'KEY': ['K0', 'K1', 'K2', 'K3'],
                        'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3']})
# 괄호 안에 dictionary 있음

In [None]:
df_left

Unnamed: 0,KEY,A,B
0,K0,A0,B0
1,K1,A1,B1
2,K2,A2,B2
3,K3,A3,B3


In [None]:
df_right = pd.DataFrame({'KEY': ['K2', 'K3', 'K4', 'K5'],
                       'C': ['C2', 'C3', 'C4', 'C5'],
                       'D': ['D2', 'D3', 'D4', 'D5']})

In [None]:
df_right

Unnamed: 0,KEY,C,D
0,K2,C2,D2
1,K3,C3,D3
2,K4,C4,D4
3,K5,C5,D5


In [None]:
# 왼쪽 기준으로 병합
df_merge_how_left = pd.merge(df_left, df_right, how='left', on='KEY')

In [None]:
df_merge_how_left

Unnamed: 0,KEY,A,B,C,D
0,K0,A0,B0,,
1,K1,A1,B1,,
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3


In [None]:
# 오른쪽 기준으로 병합
df_merge_how_right = pd.merge(df_left, df_right, how='right', on='KEY')

In [None]:
df_merge_how_right

Unnamed: 0,KEY,A,B,C,D
0,K2,A2,B2,C2,D2
1,K3,A3,B3,C3,D3
2,K4,,,C4,D4
3,K5,,,C5,D5


In [None]:
# 공통점으로 병합/제거
df_merge_how_inner = pd.merge(df_left, df_right,
                                how='inner', # default
                                on='KEY')

In [None]:
df_merge_how_inner

Unnamed: 0,KEY,A,B,C,D
0,K2,A2,B2,C2,D2
1,K3,A3,B3,C3,D3


In [None]:
# 전체 병합
df_merge_how_outer = pd.merge(df_left, df_right,
                                how='outer', # default
                                on='KEY')

In [None]:
df_merge_how_outer

Unnamed: 0,KEY,A,B,C,D
0,K0,A0,B0,,
1,K1,A1,B1,,
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3
4,K4,,,C4,D4
5,K5,,,C5,D5
