
데이터 프레임 추가와 합치기

In [1]:
import pandas as pd
# 행(수직)으로 합치기 : append(),concat()
score_table1 = { '영어': [10,20,30,40,50],
                 '수학': [70,80,90,30,20]}

score_table2 = { '영어': [20,30,40,50,60],
                 '수학': [80,90,30,20,70]}

df1 = pd.DataFrame(score_table1)
df2 = pd.DataFrame(score_table2)

new_df1 = df1.append(df2)                    # 행의 인덱스가 중복 출력 
new_df1

new_df2 = df1.append(df2,ignore_index=True)  # 행의 인덱스가 중복되지 않음
new_df2

new_df3 = df1.append(df1,ignore_index=True)  # 행의 인덱스가 중복되지 않음
new_df3

Unnamed: 0,영어,수학
0,10,70
1,20,80
2,30,90
3,40,30
4,50,20
5,10,70
6,20,80
7,30,90
8,40,30
9,50,20


In [None]:
pd.concat([df1,df2],axis=0,ignore_index=True)

In [None]:
# 열(수평) 로 합치기 : concat(), merge(), join()
# concat()
pd.concat([df1,df2],axis=1)

In [None]:
# merge()

dests = pd.read_csv('dest.csv')
tips = pd.read_csv('tips.csv')
print(dests)
print(tips)

# 내부(inner) 조인 : 공통 조건에 만족되는 부분만 조인된다
# 내부 조인은 두 테이블의 행을 선택할 때 조인 조건에 지정된 열의 값이 일치하는 경우에만
# 조인 된다
# 공통 조건 : 'EmpNr'
pd.merge(dests,tips, how='inner',on='EmpNr')
# pd.merge(dests,tips, how='inner',on='Dest')

In [None]:
# 외부(outer) 조인: 공통 조건에 관계없이 조인 된다, 결측치는 NaN으로 표시
pd.merge(dests,tips,how='outer')

In [None]:
# join(other, on=None, how='left', lsuffix='', rsuffix='', sort=False)
dests.join(tips,lsuffix='_Dest',rsuffix='_Tips') # left join,모두 조인 됨

In [None]:
# merge() 활용

employee = [{'empno':1, 'ename':'kim', 'dept':1},
            {'empno':2, 'ename':'lee', 'dept':2}, 
            {'empno':3, 'ename':'park', 'dept':1}, 
            {'empno':4, 'ename':'song', 'dept':3},
            {'empno':5, 'ename':'min', 'dept':2}]

dept = [{'dept':1, 'deptname':'관리직'},
        {'dept':2, 'deptname':'영업직'},
        {'dept':3, 'deptname':'개발직'}]

info = [{'empno':1, 'addr':'서울시','phone':'010-1111-1111'},
        {'empno':3, 'addr':'부산시','phone':'010-2222-2222'}, 
        {'empno':2, 'addr':'광주시','phone':'010-3333-3333'}, 
        {'empno':5, 'addr':'광주시','phone':'010-4444-4444'},
        {'empno':4, 'addr':'광주시','phone':'010-5555-5555'}]

emp = pd.DataFrame(employee)
dept = pd.DataFrame(dept)
info = pd.DataFrame(info)
emp
dept
info

In [None]:
# 내부조인
m = pd.merge(emp,dept,how='inner', on='dept')
m

# 컬럼/행 삭제 : drop()

# 컬럼 삭제
m.drop(columns=['dept'],inplace = True)  # 'dept' 컬럼을 삭제, inplace = True :  원본이 변경
m

# 행 삭제
# m.drop(index=[1,3],inplace = True) # 1,3번 행을 삭제, 원본이 변경

In [None]:
# 내부 조인
m2 = pd.merge(m,info,how='inner',on='empno')
m2.drop(columns=['empno'],inplace=True)
m2

Series 객체 : 1차원 배열, 1차원 ndarray와 호환

In [None]:
sr = m2['ename']
print(type(sr))
print(sr)

# str.contains() 메서드를 사용하여 문자열의 조건 검색, 행을 추출
sr = m2['ename'].str.contains('k')
print(type(sr))
print(sr)
print(m2[sr])

# 'deptname' 이 '영업직'인 행만 추출
print(m2[m2['deptname'].str.contains('영업직')])

# 'addr' 가 '광주시'인 행만 추출
print(m2[m2['addr'].str.contains('광주시')])

In [None]:
# Series 객체의 통계 메소드
score_table = { '영어': [10,20,30,40,50],
                '수학': [70,80,90,30,20]}
df1 = pd.DataFrame(score_table)
sr = df1['영어']
sr.sum()
sr.mean()
sr.median()
sr.max()
sr.min()
sr.std()
sr.var()
sr.count()
sr.describe()

누락된 데이터(결측치,NaN,NaT) 다루기¶

In [None]:
import numpy as np
df = pd.read_csv('WHO_first9cols.csv')
df.count()
df2 = df[['Country',df.columns[-2]]]
df2

print(pd.isnull(df2))   # 결측치는 True로 반환
print(pd.notnull(df2))  # 결측치는 False로 반환

pd.isnull(df2).sum()   # -2번 컬럼의 결측치 갯수: 23
pd.isnull(df).sum()   # 컬럼별 결측치의 갯수

# 결측치를 0으로 채움  : 평균,표준편차에 영향
df3 = df2.fillna(0)
df3 = df2.replace(np.nan,0) # fillna(0)과 동일한 결과
df3

# 결측치를 평균으로 채움 : 평균에 영향이 없음
df4 = df2.fillna(df2.mean())  # 85.698324
df4

df2.describe()
df3.describe()
df4.describe()

groupby()¶


In [None]:
from numpy.random import seed
from numpy.random import rand
from numpy.random import randint

seed(42)

df = pd.DataFrame({ 'Weather' : ['cold', 'hot', 'cold', 'hot', 'cold', 'hot', 'cold'],
                    'Food' : ['soup', 'soup', 'icecream', 'chocolate', 'icecream', 'icecream', 'soup'],
                    'Price' : 10 * rand(7), 
                    'Number' : randint(1, 9, 7)})
df

In [None]:
wf_group = df.groupby(['Weather','Food'])
print(wf_group)
print(wf_group.groups)

wf_group.agg([np.mean,np.sum,np.min,np.max])

In [None]:
gr_df = wf_group.agg([np.mean,np.sum,np.min,np.max])
type(gr_df)
print(gr_df.index)
print(gr_df.columns)
gr_df['Price']['mean']
gr_df['Number']['mean']

gr_df.loc[:,[('Price','mean'),('Number', 'mean')]]  # MultiIndex의 컬럼 접근

pivot_table() 함수

In [None]:
pd.pivot_table(df,columns=['Weather'], aggfunc=np.sum)

In [None]:
d.pivot_table(df,columns=['Food'], aggfunc=np.sum)

In [2]:
# titanic 데이터 셋 이용
import seaborn as sb
titanic = sb.load_dataset('titanic')
print(type(titanic))
titanic

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [None]:
titanic.describe()

In [None]:
# 성별 평균 생존율
titanic.pivot_table('survived','sex',aggfunc='mean')

In [None]:
# 'pclass' 별 평균 생존율
titanic.pivot_table('survived','pclass',aggfunc='mean')

In [None]:
# 'embark_town' 별 평균 'pclass'
titanic.pivot_table('pclass','embark_town',aggfunc='mean')

In [None]:
titanic.pivot_table('survived',index=['class','sibsp'],aggfunc='mean',
                   columns='sex')

In [None]:
# titanic['age'].min()  # 0.42
# titanic['age'].max()  # 80.0
# titanic['age'].mean() # 29.69 

# age 를 5단계로 출력
pd.qcut(titanic.age,5)
# [(0.419, 19.0] < (19.0, 25.0] < (25.0, 31.8] < (31.8, 41.0] < (41.0, 80.0]]
#   'child'         'young'        'middle'        'old'           'very old'

# https://datastory1.blogspot.com/2017/11/cut.html
# (0.419, 19.0]  :  0.419 < x <= 19.0 의 의미이다
# titanic.age.quantile([0.2,0.4,0.6,0.8,1.0])pd.qcut(titanic.age,5)

In [None]:
# age 를 5단계의 'age_class'으로 추가
titanic['age_class'] = pd.qcut(titanic.age,5,
                              labels=['child','young','middle','old','very old'] )
titanic['age2'] = titanic['age']
titanic

In [None]:

# 'age_class' 별 평균 생존율
titanic.pivot_table('survived','age_class',aggfunc='mean')

In [None]:
titanic.pivot_table('survived',index=['sex','age_class'],aggfunc='mean')

In [None]:
# Chained assignment : Copy본이 만들어 지면서 동시에 인덱싱으로 쓰기 시도
# SettingWithCopyWarning : get() --> set()
df = pd.DataFrame( { 'a' : [1,2,3],
                     'b' : ['one','two','three']})
print(df)

pd.set_option('mode.chained_assignment','warn') # SettingWithCopyWarning,경고 메세지로 출력
# pd.set_option('mode.chained_assignment','raise') # SettingWithCopyError
# pd.set_option('mode.chained_assignment',None)    # 경고 메세지 출력을 끔

# df['a'][0] = 40  # get() --> set()  , 사본 생성, 요소 변경(원본 or 사본)
df.loc[0,'a'] = 40 # set()   , 사본이 생성되지 않는다, 원본이 변경
df