# Pandas 응용: tidy data 만들기

## 결측값(missing value) 처리하기

In [None]:
import numpy as np
import pandas as pd

In [None]:
data = pd.Series(['aardvarl', 'artichoke', np.nan, 'avocardo'])
data

# 결측값 확인하기 isnull() 메서드

In [None]:
data.isnull()

In [None]:
data[4] = None     # None은 built-in에 지정됨
data

In [None]:
data.isnull()

In [None]:
data[5] = NaN     # NaN은 Numpy 패키지에서 지정됨
data

In [None]:
from numpy import NaN, NAN, nan

In [None]:
data[5] = NaN
data

In [None]:
data.isnull()

In [None]:
data.notnull()

# 결측값의 개수 확인하기

In [None]:
data.count()    # count() 메서드는 결측값이 없는 값의 수를 제공해 줌

In [None]:
num_missing = data.shape[0] - data.count()
num_missing

In [None]:
data.shape

In [None]:
np.count_nonzero(data.isnull())

In [None]:
np.count_nonzero([True, True, False])

# 실제 데이터를 이용한 결측치의 분석

In [None]:
ebola = pd.read_csv('C:/Users//country_timeseries.csv')
ebola

In [None]:
ebola.info()

In [None]:
ebola.count()

In [None]:
num_rows = ebola.shape[0]
num_missing = num_rows - ebola.count()
num_missing

In [None]:
np.count_nonzero(ebola.isnull())

In [None]:
np.count_nonzero(ebola.isnull(), axis=0)

In [None]:
np.count_nonzero(ebola.isnull(), axis=1)

# 결측값 삭제하기

In [None]:
data

In [None]:
data.dropna()

In [None]:
data

In [None]:
data.dropna(inplace=True)   # inplace 매개변수를 true로 하면 변경된 내용이 data 객체에 저장된다.

In [None]:
data

In [None]:
df = pd.DataFrame([[1,6.5,3],[1,NaN, NaN],[NaN, NaN, NaN],[NaN, 6.5,3]])
df

In [None]:
df.dropna()

In [None]:
df.dropna(how='all')

In [None]:
df[4]=NaN
df

In [None]:
df.dropna(axis=1, how='all')

In [None]:
ebola_nomissing = ebola.dropna()

In [None]:
ebola_nomissing

In [None]:
ebola_nomissing.info()

# 결측치는 다른값으로 변환하기

In [None]:
df

In [None]:
df.fillna(0)

In [None]:
df.fillna(method='ffill')

In [None]:
df.fillna(method='bfill')

In [None]:
df.fillna(method='ffill', axis=1)

In [None]:
df.mean()

In [None]:
df.fillna(df.mean())

# 결측값을 포함하여 계산하기

In [None]:
df.mean(axis=1)

In [None]:
df.mean(skipna=False)

In [None]:
ebola.sum()

In [None]:
ebola.sum(skipna=False)

## 데이터 연결하기

### concat() 함수를 이용하여 데이터프레임 연결하기

In [None]:
df1 = pd.DataFrame({'A': ['a0', 'a1', 'a2', 'a3'],
                    'B': ['b0', 'b1', 'b2', 'b3'],
                    'C': ['c0', 'c1', 'c2', 'c3'],
                    'D': ['d0', 'd1', 'd2', 'd3']})
df1

In [None]:
df2 = pd.DataFrame({'A': ['a4', 'a5', 'a6', 'a7'],
                    'B': ['b4', 'b5', 'b6', 'b7'],
                    'C': ['c4', 'c5', 'c6', 'c7'],
                    'D': ['d4', 'd5', 'd6', 'd7']})
df2

In [None]:
df3 = pd.DataFrame({'A': ['a8', 'a9', 'a10', 'a11'],
                    'B': ['b8', 'b9', 'b10', 'b11'],
                    'C': ['c8', 'c9', 'c10','c11'],
                    'D': ['d8', 'd9', 'd10', 'd11']})
df3

# 행방향으로 데이터프레임 연결하기 axis=0 (default 값임으로 생략하면 됨)

In [None]:
row_concat = pd.concat([df1, df2, df3])
row_concat

In [None]:
row_concat.iloc[3,]

In [None]:
row_concat.iloc[4,]

In [None]:
row_concat.loc[3]

# 데이터프레임과 시리즈를 연결하면 시리즈는 이름이 없는 열이 되므로 뜻하지 않은 결과를 얻는다.

In [None]:
new_row_series = pd.Series(['n1', 'n2', 'n3', 'n4'])
new_row_series

In [None]:
pd.concat([df1, new_row_series])

In [None]:
new_row_df = pd.DataFrame([['n1', 'n2', 'n3', 'n4']], columns=['A','B','C','D'])
new_row_df

In [None]:
pd.concat([df1, new_row_df])

In [None]:
df1.append(new_row_df)

In [None]:
pd.concat([df1, new_row_df], ignore_index=True)     # ignore_index=True로 정의하면 index가 새롭게 차례대로 정의된다.

# 열방향으로 데이터프레임 연결하기 axis=1

In [None]:
col_concat = pd.concat([df1, df2, df3], axis=1)
col_concat

In [None]:
col_concat['A']

In [None]:
# 새로운 열을 추가하기
col_concat['new_col'] = ['n0', 'n1', 'n2', 'n3']
col_concat

In [None]:
pd.concat([df1, df2], axis=1, ignore_index=True)

# 열 이름의 일부가 서로 다른 데이터프레임의 연결

In [None]:
df2.columns = ['A', 'B', 'E', 'F']
df2

In [None]:
row_concat = pd.concat([df1, df2])
row_concat

In [None]:
pd.concat([df1,df2], join='inner', ignore_index=True)   # 공통 열만 골라내기

# 행 index가 일부 다른 데이터프레임을 axis=1로 연결

In [None]:
df2.index = [0,1,4,5]
df2

In [None]:
col_concat = pd.concat([df1, df2], axis =1)
col_concat

In [None]:
col_concat = pd.concat([df1, df2], axis=1, join = 'inner')
col_concat

In [None]:
row_concat = pd.concat([df1, df2])
row_concat

# merge() 함수를 이용하여 데이터프레임 연결하기

In [None]:
df1 = pd.DataFrame({'key':['b','b','a','c','a','a','b'], 'data1':range(7)})
df1

In [None]:
df2 = pd.DataFrame({'key': ['a','b','d'], 'data2':range(3)})
df2

In [None]:
pd.merge(df1, df2, on='key')

In [None]:
pd.merge(df1, df2, how='outer')   # 열이름이 'key'인 경우 지정하지 않아도 된다.

In [None]:
pd.merge(df1, df2, how='left')   

In [None]:
#  두열의 join 열 이름이 다른 경우
df3 = pd.DataFrame({'lkey': ['b','b','a','c','a','a','b'], 'data1':range(7)})
df3

In [None]:
df4 = pd.DataFrame({'rkey': ['a','b','d'], 'data2': range(3)})
df4

In [None]:
pd.merge(df3, df4, left_on='lkey', right_on="rkey")

# 깔끔한 데이터 (tidy data) 만들기

열과 피벗

In [None]:
pew= pd.read_csv('C:/Users//pew.csv')
pew

In [None]:
pew.info()

In [None]:
pew_long = pd.melt(pew, id_vars='religion')
pew_long

In [None]:
pew_long.info()

In [None]:
pew_long = pd.melt(pew, id_vars='religion', var_name='income', value_name='count')
pew_long

# 2개 이상의 열을 고정하고 나머지 열의 내용을 long포맷으로 변경하기

In [None]:
billboard = pd.read_csv('C:/Users//billboard.csv')
billboard

In [None]:
billboard.info()

In [None]:
billboard_long = pd.melt(billboard, id_vars=['year', 'artist', 'track', 'time', 'date.entered'], var_name='week', value_name='rating')
billboard_long

# 열이름 관리하기

In [None]:
ebola

In [None]:
ebola.columns

In [None]:
ebola.iloc[:5, [0,1,2,3,10,11]]

In [None]:
ebola_long = pd.melt(ebola, id_vars=['Date', 'Day'])
ebola_long

In [None]:
variable_split = ebola_long.variable.str.split('_')
variable_split

In [None]:
type(variable_split)

In [None]:
variable_split[0]

In [None]:
status = variable_split.str.get(0)
status

In [None]:
country = variable_split.str.get(1)
country

In [None]:
ebola_long['status'] = status
ebola_long['country'] = country
ebola_long