## 데이터 프레임 추가와 합치기 

### 행( 수직) 으로 합치기 : append(), concat()

In [1]:
import pandas as pd 
import numpy as np

In [2]:
score_table1 = {'영어':[10,20,30,40,50],
               '수학':[70,80,90,30,20]}
score_table2 = {'영어':[20,30,40,50,60],
                '수학':[80,90,90,20,70]}

score_table3 = {'과학':[30,40,50,60,80]}

df1 = pd.DataFrame(score_table1)
df2 = pd.DataFrame(score_table2)
df3 = pd.DataFrame(score_table3)

new_df1 = df1.append(df2) 
# print(new_df1)

new_df2 = df1.append(df2, ignore_index=True)   # 행의 인덱스가 중복되지 않음 
# print(new_df2)

new_df3 = df1.append(df1, ignore_index=True)
new_df3

Unnamed: 0,영어,수학
0,10,70
1,20,80
2,30,90
3,40,30
4,50,20
5,10,70
6,20,80
7,30,90
8,40,30
9,50,20


In [3]:
pd.concat([df1, df2], axis = 0, ignore_index = True)

Unnamed: 0,영어,수학
0,10,70
1,20,80
2,30,90
3,40,30
4,50,20
5,20,80
6,30,90
7,40,90
8,50,20
9,60,70


### 열 (수평) 로 합치기 : merge( ) , join( ) , concat( ) 

In [4]:
pd.concat([df1, df3], axis =1)

Unnamed: 0,영어,수학,과학
0,10,70,30
1,20,80,40
2,30,90,50
3,40,30,60
4,50,20,80


### merge( )

In [5]:
dests = pd.read_csv("Data/dest.csv")
tips = pd.read_csv("Data/tips.csv")

print(dests)
print(tips)

# 내부조인 : 공통 조건에 만족되는 부분만 조인
# 공통조건 : EmpNr
pd.merge(dests, tips, how='inner', on='EmpNr') 



   EmpNr       Dest
0      5  The Hague
1      3  Amsterdam
2      9  Rotterdam
   EmpNr  Amount
0      5    10.0
1      9     5.0
2      7     2.5


Unnamed: 0,EmpNr,Dest,Amount
0,5,The Hague,10.0
1,9,Rotterdam,5.0


In [6]:
# 외부 조인 : 공통 존건에 관계 없다. 
# 결측치는 : NaN으로 (Not a Number)
pd.merge(dests, tips, how='outer')

Unnamed: 0,EmpNr,Dest,Amount
0,5,The Hague,10.0
1,3,Amsterdam,
2,9,Rotterdam,5.0
3,7,,2.5


#### merge() 활용

In [7]:
employee = [{'empno':1, 'ename':'kim', 'dept':1},
            {'empno':2, 'ename':'lee', 'dept':2}, 
            {'empno':3, 'ename':'park', 'dept':1}, 
            {'empno':4, 'ename':'song', 'dept':3},
            {'empno':5, 'ename':'min', 'dept':2} ]

dept=[{'dept':1, 'deptname':'관리직'},
      {'dept':2, 'deptname':'영업직'},
      {'dept':3, 'deptname':'개발직'}]

info =[{'empno':1, 'addr':'서울시','phone':'010-1111-1111'},
       {'empno':3, 'addr':'부산시','phone':'010-2222-2222'}, 
       {'empno':2, 'addr':'광주시','phone':'010-3333-3333'}, 
       {'empno':5, 'addr':'광주시','phone':'010-4444-4444'},
       {'empno':4, 'addr':'광주시','phone':'010-5555-5555'}]

emp = pd.DataFrame(employee)
dept = pd.DataFrame(dept)
info = pd.DataFrame(info)
emp
dept
info

Unnamed: 0,empno,addr,phone
0,1,서울시,010-1111-1111
1,3,부산시,010-2222-2222
2,2,광주시,010-3333-3333
3,5,광주시,010-4444-4444
4,4,광주시,010-5555-5555


In [8]:
# 내부 조인 
m = pd.merge(emp , dept, how = 'inner' , on = 'dept')
m

Unnamed: 0,empno,ename,dept,deptname
0,1,kim,1,관리직
1,3,park,1,관리직
2,2,lee,2,영업직
3,5,min,2,영업직
4,4,song,3,개발직


#### 컬럼/행 삭제 : drop( )

In [9]:
m.drop(columns=['dept'], inplace = True)
# inplace = True :원본 데이터 프레임 자체를 직접 수정한다

m

Unnamed: 0,empno,ename,deptname
0,1,kim,관리직
1,3,park,관리직
2,2,lee,영업직
3,5,min,영업직
4,4,song,개발직


In [10]:
m2 = pd.merge(m, info, how='inner', on='empno')
m2.drop(columns=['empno'] , inplace = True)
m2

Unnamed: 0,ename,deptname,addr,phone
0,kim,관리직,서울시,010-1111-1111
1,park,관리직,부산시,010-2222-2222
2,lee,영업직,광주시,010-3333-3333
3,min,영업직,광주시,010-4444-4444
4,song,개발직,광주시,010-5555-5555


### contains( ) 메서드를 사용해 조건 검색, 행을 추출

In [11]:
sr = m2['ename'].str.contains('k')   # k가 들어간 이름 

type(sr)
print(sr)
print(m2[sr])


# 'deptname' 이 영업직인 행만 추출 
print(m2[m2['deptname'].str.contains('영업직')])

# 'addr' 가 '광주시' 인 행만 추출 

m2[m2['addr'].str.contains('광주시')]

0     True
1     True
2    False
3    False
4    False
Name: ename, dtype: bool
  ename deptname addr          phone
0   kim      관리직  서울시  010-1111-1111
1  park      관리직  부산시  010-2222-2222
  ename deptname addr          phone
2   lee      영업직  광주시  010-3333-3333
3   min      영업직  광주시  010-4444-4444


Unnamed: 0,ename,deptname,addr,phone
2,lee,영업직,광주시,010-3333-3333
3,min,영업직,광주시,010-4444-4444
4,song,개발직,광주시,010-5555-5555


### Series 객체의 통계 메소드 

In [12]:
score_table1 = {'영어':[10,20,30,40,50],
               '수학':[70,80,90,30,20]}
score_table2 = {'영어':[20,30,40,50,60],
                '수학':[80,90,90,20,70]}

score_table3 = {'과학':[30,40,50,60,80]}

## 누락된 데이터 (결측치, NaN, NaT) 다루기 

In [13]:
df = pd.read_csv('Data/WHO_first9cols.csv')
df2  = df[['Country', df.columns[-2]]][:2]
df2

# null data가 있나 / 없나 , True / False
print(pd.isnull(df2))

# notnull  결측치가 아닌 것들 
pd.notnull(df2)

# 데이터 프레임 각 컬럼별 결측치 갯수 
pd.isnull(df).sum()
pd.isnull(df2).sum()

# 결측치를 0으로 채움 
df3 = df2.fillna(0)
print(df3)

# 결측치를 평균으로 채움
df4 = df2.fillna(df2.mean())
print(df4)

   Country  Net primary school enrolment ratio male (%)
0    False                                         True
1    False                                        False
       Country  Net primary school enrolment ratio male (%)
0  Afghanistan                                          0.0
1      Albania                                         94.0
       Country  Net primary school enrolment ratio male (%)
0  Afghanistan                                         94.0
1      Albania                                         94.0


### Series 객체의 index 사용  및 결측치 제어 

In [14]:
index_table = ['tv', 'vrt', 'phone']

sr = pd.Series([10, 20, 30], index = index_table)

print(sr)
print(sr.index)

# 'v' 가 있는 index 
r = sr.index.str.contains('v')
sr[r]


tv       10
vrt      20
phone    30
dtype: int64
Index(['tv', 'vrt', 'phone'], dtype='object')


tv     10
vrt    20
dtype: int64

In [15]:
sr2 = sr.append(pd.Series([40, 50, 60], 
                          index = ['audio', 'iron', 'notebook']))

# 테스트를 위한 결측치 추가 
sr3 = sr2.append(pd.Series([np.nan], 
                           index = ['aircon']))

print(sr3)


sr3.isnull()
sr3.notnull()

pd.isnull(sr3).sum()

# 결측치 0으로 채움 
sr4 = sr3.fillna(0)   
print(sr4)
print(sr4.mean())  # 0으로 채우면 평균값이 떨어짐 

# 결측치를 평균으로 채움 
sr5 = sr3.fillna(sr3.mean())
print(sr5)
print(sr5.mean())  # 평균으로 채우면 평균값이 변동 없음

tv          10.0
vrt         20.0
phone       30.0
audio       40.0
iron        50.0
notebook    60.0
aircon       NaN
dtype: float64
tv          10.0
vrt         20.0
phone       30.0
audio       40.0
iron        50.0
notebook    60.0
aircon       0.0
dtype: float64
30.0
tv          10.0
vrt         20.0
phone       30.0
audio       40.0
iron        50.0
notebook    60.0
aircon      35.0
dtype: float64
35.0
