In [1]:
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings('ignore')

In [2]:
# fillna
data = [[88, 66, None], [None, None, 69], [69, 82, None], [71, 89, 98]]
data1 = [[0, 1, 2] , [3, 4, 5], [6, 7, 8], [9, 10, 11]]
df = pd.DataFrame(data, index=list('ABCD'), columns=['국어', '영어', '수학'])
df1 = pd.DataFrame(data1, index=df.index, columns=df.columns) 
df

Unnamed: 0,국어,영어,수학
A,88.0,66.0,
B,,,69.0
C,69.0,82.0,
D,71.0,89.0,98.0


In [3]:
df.fillna(0)

Unnamed: 0,국어,영어,수학
A,88.0,66.0,0.0
B,0.0,0.0,69.0
C,69.0,82.0,0.0
D,71.0,89.0,98.0


In [4]:
df.fillna({'국어':0, '영어':1, '수학':2})

Unnamed: 0,국어,영어,수학
A,88.0,66.0,2.0
B,0.0,1.0,69.0
C,69.0,82.0,2.0
D,71.0,89.0,98.0


In [5]:
df.fillna({'국어':0, '영어':1})

Unnamed: 0,국어,영어,수학
A,88.0,66.0,
B,0.0,1.0,69.0
C,69.0,82.0,
D,71.0,89.0,98.0


In [6]:
df.mean()

국어    76.0
영어    79.0
수학    83.5
dtype: float64

In [7]:
df.fillna(df.mean())

Unnamed: 0,국어,영어,수학
A,88.0,66.0,83.5
B,76.0,79.0,69.0
C,69.0,82.0,83.5
D,71.0,89.0,98.0


In [8]:
# 행의 평균으로 채우는 것은 기본으로 불가능하니 lambda함수로 apply
x = df['국어']
x.fillna(x.mean())
df.apply(lambda x: x.fillna(x.mean()), axis=1)

Unnamed: 0,국어,영어,수학
A,88.0,66.0,77.0
B,69.0,69.0,69.0
C,69.0,82.0,75.5
D,71.0,89.0,98.0


In [9]:
df.fillna(df1)

Unnamed: 0,국어,영어,수학
A,88.0,66.0,2.0
B,3.0,4.0,69.0
C,69.0,82.0,8.0
D,71.0,89.0,98.0


In [10]:
df.fillna(method='ffill')

Unnamed: 0,국어,영어,수학
A,88.0,66.0,
B,88.0,66.0,69.0
C,69.0,82.0,69.0
D,71.0,89.0,98.0


In [11]:
df.ffill()

Unnamed: 0,국어,영어,수학
A,88.0,66.0,
B,88.0,66.0,69.0
C,69.0,82.0,69.0
D,71.0,89.0,98.0


In [12]:
df.fillna(method='bfill')

Unnamed: 0,국어,영어,수학
A,88.0,66.0,69.0
B,69.0,82.0,69.0
C,69.0,82.0,98.0
D,71.0,89.0,98.0


In [13]:
df.bfill()

Unnamed: 0,국어,영어,수학
A,88.0,66.0,69.0
B,69.0,82.0,69.0
C,69.0,82.0,98.0
D,71.0,89.0,98.0


In [14]:
df.fillna(method='bfill', axis=1)

Unnamed: 0,국어,영어,수학
A,88.0,66.0,
B,69.0,69.0,69.0
C,69.0,82.0,
D,71.0,89.0,98.0


In [15]:
# filter
data = [[0, 1, 2, 3], [4, 5, 6, 7], [8, 9, 10, 11]]
df = pd.DataFrame(data, columns=['A', 'BC', 'AC', 'DA'])
df

Unnamed: 0,A,BC,AC,DA
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [16]:
df.filter(like='A')

Unnamed: 0,A,AC,DA
0,0,2,3
1,4,6,7
2,8,10,11


In [17]:
df.filter(regex=r'^A')

Unnamed: 0,A,AC
0,0,2
1,4,6
2,8,10


In [18]:
df.filter(regex=r'B|C')

Unnamed: 0,BC,AC
0,1,2
1,5,6
2,9,10


### OECD의 GDP 데이터 전처리하기

In [19]:
import pandas as pd
pd.options.display.max_rows = 6 # 판다스 버전업에 따라 6행 출력의 바뀐 코드
url = 'https://raw.githubusercontent.com/panda-kim/csv_files/main/OECD_GDP.csv'

In [20]:
pd.read_csv(url)

Unnamed: 0.1,Unnamed: 0,2019,2019.1,2019.2,2019.3,2019.4,2020,2020.1,2020.2,2020.3,2020.4
0,,1인당 GDP,GDP 성장률,GDP,수입,수출,1인당 GDP,GDP 성장률,GDP,수입,수출
1,국가,,,,,,,,,,
2,아시아,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...
42,오세아니아,,,,,,,,,,
43,오스트레일리아,55057,2.2,1396.6,154043,271006,51812,-0.3,1330.9,146522,250570
44,뉴질랜드,41999,1.6,209.1,42362,39516,41792,1.0,212.5,37135,38897


In [21]:
# 데이터 소실 없이 연도 데이터를 열로 만들기 위해 csv파일에서 columns를 멀티인덱스로 index로는 국가열을 지정
df_ex1 = pd.read_csv(url, header=[0, 1], index_col=0)
df_ex1

Unnamed: 0_level_0,2019,2019,2019,2019,2019,2020,2020,2020,2020,2020
Unnamed: 0_level_1,1인당 GDP,GDP 성장률,GDP,수입,수출,1인당 GDP,GDP 성장률,GDP,수입,수출
국가,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
아시아,,,,,,,,,,
대한민국,31929.0,2.2,1651.0,503343,542233.0,31637.0,-0.9,1638.2,467633,512498
이스라엘,43589.0,3.5,394.7,75697,51899.0,43611.0,-2.4,402.0,69810,49372
...,...,...,...,...,...,...,...,...,...,...
오세아니아,,,,,,,,,,
오스트레일리아,55057.0,2.2,1396.6,154043,271006.0,51812.0,-0.3,1330.9,146522,250570
뉴질랜드,41999.0,1.6,209.1,42362,39516.0,41792.0,1.0,212.5,37135,38897


In [22]:
# GDP에 관련되지 않은 열은 삭제하고 columns였던 연도 데이터와 index였던 국가 데이터를 모두 열로 만듦
df_ex2 = (df_ex1
            .stack(0, dropna=False)
            .filter(like='GDP')
            .reset_index()
            .rename(columns={'level_1':'연도'}))
df_ex2

Unnamed: 0,국가,연도,1인당 GDP,GDP 성장률,GDP
0,아시아,2019,,,
1,아시아,2020,,,
2,대한민국,2019,31929.0,2.2,1651.0
...,...,...,...,...,...
83,오스트레일리아,2020,51812.0,-0.3,1330.9
84,뉴질랜드,2019,41999.0,1.6,209.1
85,뉴질랜드,2020,41792.0,1.0,212.5


In [23]:
# 국가 열에 불필요한 행으로 구분되던 대륙을 열로 만들고 불필요한 행은 삭제
cond1 = df_ex2['GDP'].isnull()
df_ex2['구분'] = df_ex2['국가'].mask(~cond1).fillna(method='ffill')
df_ex3 = df_ex2[~cond1].reset_index(drop=True)
df_ex3

Unnamed: 0,국가,연도,1인당 GDP,GDP 성장률,GDP,구분
0,대한민국,2019,31929.0,2.2,1651.0,아시아
1,대한민국,2020,31637.0,-0.9,1638.2,아시아
2,이스라엘,2019,43589.0,3.5,394.7,아시아
...,...,...,...,...,...,...
73,오스트레일리아,2020,51812.0,-0.3,1330.9,오세아니아
74,뉴질랜드,2019,41999.0,1.6,209.1,오세아니아
75,뉴질랜드,2020,41792.0,1.0,212.5,오세아니아


#### 전처리 완료!

In [24]:
# 연도별 대륙별 GDP 성장률의 최대인 국가 피벗 테이블
df_ex3.pivot_table('GDP 성장률', index='구분', columns='연도', aggfunc='max')

연도,2019,2020
구분,Unnamed: 1_level_1,Unnamed: 2_level_1
남아메리카,3.3,-4.5
북아메리카,2.2,-3.5
아시아,3.5,1.8
오세아니아,2.2,1.0
유럽,5.6,3.4


In [25]:
# 연도별 대륙별 GDP 성장률의 최대인 국가 피벗 테이블
x = df_ex3['GDP 성장률']
df_ex3.loc[x.idxmax(), '국가']
df_ex3.pivot_table('GDP 성장률', index='구분', columns='연도', 
                   aggfunc=lambda x: df_ex3.loc[x.idxmax(), '국가'])

연도,2019,2020
구분,Unnamed: 1_level_1,Unnamed: 2_level_1
남아메리카,콜롬비아,코스타리카
북아메리카,미국,미국
아시아,이스라엘,튀르키예
오세아니아,오스트레일리아,뉴질랜드
유럽,아일랜드,아일랜드
