### 데이터 프레임 추가와 합치기

In [6]:
import pandas as pd
# 행(수직)으로 합치기 : append(),concat()
score_table1 = { '영어': [10,20,30,40,50],
                 '수학': [70,80,90,30,20]}

score_table2 = { '영어': [20,30,40,50,60],
                 '수학': [80,90,30,20,70]}

df1 = pd.DataFrame(score_table1)
df2 = pd.DataFrame(score_table2)

new_df1 = df1.append(df2)                    # 행의 인덱스가 중복 출력 
new_df1

new_df2 = df1.append(df2,ignore_index=True)  # 행의 인덱스가 중복되지 않음
new_df2

new_df3 = df1.append(df1,ignore_index=True)  # 행의 인덱스가 중복되지 않음
new_df3

Unnamed: 0,영어,수학
0,10,70
1,20,80
2,30,90
3,40,30
4,50,20
5,10,70
6,20,80
7,30,90
8,40,30
9,50,20


In [7]:
pd.concat([df1,df2],axis=0,ignore_index=True)

Unnamed: 0,영어,수학
0,10,70
1,20,80
2,30,90
3,40,30
4,50,20
5,20,80
6,30,90
7,40,30
8,50,20
9,60,70


In [8]:
# 열(수평) 로 합치기 : concat(), merge(), join()
# concat()
pd.concat([df1,df2],axis=1)

Unnamed: 0,영어,수학,영어.1,수학.1
0,10,70,20,80
1,20,80,30,90
2,30,90,40,30
3,40,30,50,20
4,50,20,60,70


In [17]:
# merge()

dests = pd.read_csv('dest.csv')
tips = pd.read_csv('tips.csv')
print(dests)
print(tips)

# 내부(inner) 조인 : 공통 조건에 만족되는 부분만 조인된다
# 내부 조인은 두 테이블의 행을 선택할 때 조인 조건에 지정된 열의 값이 일치하는 경우에만
# 조인 된다
# 공통 조건 : 'EmpNr'
pd.merge(dests,tips, how='inner',on='EmpNr')
# pd.merge(dests,tips, how='inner',on='Dest')

   EmpNr       Dest
0      5  The Hague
1      3  Amsterdam
2      9  Rotterdam
   EmpNr  Amount
0      5    10.0
1      9     5.0
2      7     2.5


Unnamed: 0,EmpNr,Dest,Amount
0,5,The Hague,10.0
1,9,Rotterdam,5.0


In [18]:
# 외부(outer) 조인: 공통 조건에 관계없이 조인 된다, 결측치는 NaN으로 표시
pd.merge(dests,tips,how='outer')

Unnamed: 0,EmpNr,Dest,Amount
0,5,The Hague,10.0
1,3,Amsterdam,
2,9,Rotterdam,5.0
3,7,,2.5


In [19]:
# join(other, on=None, how='left', lsuffix='', rsuffix='', sort=False)
dests.join(tips,lsuffix='_Dest',rsuffix='_Tips') # left join,모두 조인 됨

Unnamed: 0,EmpNr_Dest,Dest,EmpNr_Tips,Amount
0,5,The Hague,5,10.0
1,3,Amsterdam,9,5.0
2,9,Rotterdam,7,2.5


In [23]:
# merge() 활용

employee = [{'empno':1, 'ename':'kim', 'dept':1},
            {'empno':2, 'ename':'lee', 'dept':2}, 
            {'empno':3, 'ename':'park', 'dept':1}, 
            {'empno':4, 'ename':'song', 'dept':3},
            {'empno':5, 'ename':'min', 'dept':2}]

dept = [{'dept':1, 'deptname':'관리직'},
        {'dept':2, 'deptname':'영업직'},
        {'dept':3, 'deptname':'개발직'}]

info = [{'empno':1, 'addr':'서울시','phone':'010-1111-1111'},
        {'empno':3, 'addr':'부산시','phone':'010-2222-2222'}, 
        {'empno':2, 'addr':'광주시','phone':'010-3333-3333'}, 
        {'empno':5, 'addr':'광주시','phone':'010-4444-4444'},
        {'empno':4, 'addr':'광주시','phone':'010-5555-5555'}]

emp = pd.DataFrame(employee)
dept = pd.DataFrame(dept)
info = pd.DataFrame(info)
emp
dept
info

Unnamed: 0,empno,addr,phone
0,1,서울시,010-1111-1111
1,3,부산시,010-2222-2222
2,2,광주시,010-3333-3333
3,5,광주시,010-4444-4444
4,4,광주시,010-5555-5555


In [29]:
# 내부조인
m = pd.merge(emp,dept,how='inner', on='dept')
m

# 컬럼/행 삭제 : drop()

# 컬럼 삭제
m.drop(columns=['dept'],inplace = True)  # 'dept' 컬럼을 삭제, inplace = True :  원본이 변경
m

# 행 삭제
# m.drop(index=[1,3],inplace = True) # 1,3번 행을 삭제, 원본이 변경
# m

Unnamed: 0,empno,ename,deptname
0,1,kim,관리직
1,3,park,관리직
2,2,lee,영업직
3,5,min,영업직
4,4,song,개발직


In [32]:
# 내부 조인
m2 = pd.merge(m,info,how='inner',on='empno')
m2.drop(columns=['empno'],inplace=True)
m2

Unnamed: 0,ename,deptname,addr,phone
0,kim,관리직,서울시,010-1111-1111
1,park,관리직,부산시,010-2222-2222
2,lee,영업직,광주시,010-3333-3333
3,min,영업직,광주시,010-4444-4444
4,song,개발직,광주시,010-5555-5555


## Series 객체 : 1차원 배열, 1차원 ndarray와 호환

In [46]:
sr = m2['ename']
print(type(sr))
print(sr)

# str.contains() 메서드를 사용하여 문자열의 조건 검색, 행을 추출
sr = m2['ename'].str.contains('k')
print(type(sr))
print(sr)
print(m2[sr])

# 'deptname' 이 '영업직'인 행만 추출
print(m2[m2['deptname'].str.contains('영업직')])

# 'addr' 가 '광주시'인 행만 추출
print(m2[m2['addr'].str.contains('광주시')])

<class 'pandas.core.series.Series'>
0     kim
1    park
2     lee
3     min
4    song
Name: ename, dtype: object
<class 'pandas.core.series.Series'>
0     True
1     True
2    False
3    False
4    False
Name: ename, dtype: bool
  ename deptname addr          phone
0   kim      관리직  서울시  010-1111-1111
1  park      관리직  부산시  010-2222-2222
  ename deptname addr          phone
2   lee      영업직  광주시  010-3333-3333
3   min      영업직  광주시  010-4444-4444
  ename deptname addr          phone
2   lee      영업직  광주시  010-3333-3333
3   min      영업직  광주시  010-4444-4444
4  song      개발직  광주시  010-5555-5555


In [47]:
# Series 객체의 통계 메소드
score_table = { '영어': [10,20,30,40,50],
                '수학': [70,80,90,30,20]}
df1 = pd.DataFrame(score_table)
sr = df1['영어']
sr.sum()
sr.mean()
sr.median()
sr.max()
sr.min()
sr.std()
sr.var()
sr.count()
sr.describe()

count     5.000000
mean     30.000000
std      15.811388
min      10.000000
25%      20.000000
50%      30.000000
75%      40.000000
max      50.000000
Name: 영어, dtype: float64

### 누락된 데이터(결측치,NaN,NaT) 다루기 

In [53]:
df = pd.read_csv('WHO_first9cols.csv')
df.count()
df2 = df[['Country',df.columns[-2]]]
df2

print(pd.isnull(df2))   # 결측치는 True로 반환
print(pd.notnull(df2))  # 결측치는 False로 반환

pd.isnull(df2).sum()   # -2번 컬럼의 결측치 갯수: 23
pd.isnull(df).sum()   # 컬럼별 결측치의 갯수

df3 = df2.fillna(0)
df3

     Country  Net primary school enrolment ratio male (%)
0      False                                         True
1      False                                        False
2      False                                        False
3      False                                        False
4      False                                        False
..       ...                                          ...
197    False                                        False
198    False                                         True
199    False                                        False
200    False                                        False
201    False                                        False

[202 rows x 2 columns]
     Country  Net primary school enrolment ratio male (%)
0       True                                        False
1       True                                         True
2       True                                         True
3       True                                    

Unnamed: 0,Country,Net primary school enrolment ratio male (%)
0,Afghanistan,0.0
1,Albania,94.0
2,Algeria,96.0
3,Andorra,83.0
4,Angola,51.0
...,...,...
197,Vietnam,96.0
198,West Bank and Gaza,0.0
199,Yemen,85.0
200,Zambia,90.0
