# 분석하기 좋은 데이터

데이터 집합을 분석하기 좋은 상태로 만들어 놓은 것을 말함.  
데이터 분석 단계에서 데이터 정리는 **매우매우매우 중요!**  
실제로 70% 이상을 데이터 정리작업에 사용하곤 함.  

* 데이터 분석 목적에 맞는 데이터를 모아, 새로운 표(table)을 만들어야 합니다.
* 측정한 값은 행(row)를 구성해야 합니다.  
* 변수는 열(column)로 구성해야 합니다.

위의 조건을 만족하는 데이터를 Tidy data 깔끔한 데이터 라고 부름  
데이터 연결을 통해 목적에 맞는 필요한 데이터 셋을 만드는 과정이 필요함  

# concat 메서드 사용하기
데이터프레임을 연결하려면 concat 메서드를 활용하면 됨   

In [1]:
import pandas as pd

In [2]:
df1 = pd.read_csv('data/concat_1.csv')
df2 = pd.read_csv('data/concat_2.csv')
df3 = pd.read_csv('data/concat_3.csv')

In [3]:
df1.head()

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3


In [4]:
df2.head()

Unnamed: 0,A,B,C,D
0,a4,b4,c4,d4
1,a5,b5,c5,d5
2,a6,b6,c6,d6
3,a7,b7,c7,d7


In [6]:
df3.head()

Unnamed: 0,A,B,C,D
0,a8,b8,c8,d8
1,a9,b9,c9,d9
2,a10,b10,c10,d10
3,a11,b11,c11,d11


df1, 2, 3 모두 'A', 'B', 'C', 'D 라는 공통된 열을 가지고 있음.  
concat 메서드에 리스트를 넘겨주면 됨, 연결하려는 데이터프레임이 담겨 있는 리스트.  
concat 메서드는 위애서 아래 방향으로, 행방향으로 연결이 됨.  
기존의 인덱스도 그대로 유지

In [10]:
row_concat = pd.concat([df1, df2, df3])
row_concat

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
0,a4,b4,c4,d4
1,a5,b5,c5,d5
2,a6,b6,c6,d6
3,a7,b7,c7,d7
0,a8,b8,c8,d8
1,a9,b9,c9,d9


concat 메서드는 전달받은 리스트의 요소 순서대로 데이터를 연결, 그래서 기존에 있던 인덱스도 그대로 유지가 됨.  

In [14]:
row_concat.iloc[3, ]

A    a3
B    b3
C    c3
D    d3
Name: 3, dtype: object

# 데이터프레임에 시리즈 연결하기

In [15]:
new_row = pd.Series(['n1', 'n2', 'n3', 'n4'])

In [16]:
# 행이 아니라 열로 추가가 됨.
pd.concat([df1, new_row])

Unnamed: 0,A,B,C,D,0
0,a0,b0,c0,d0,
1,a1,b1,c1,d1,
2,a2,b2,c2,d2,
3,a3,b3,c3,d3,
0,,,,,n1
1,,,,,n2
2,,,,,n3
3,,,,,n4


시리즈를 데이터프레임과 연결할려고 하면 잘 되지 않음 -> 시리즈에는 열 이름이 없기 때문.  
시리즈를 새로운 열로 간주하여 0이라는 이름의 열로 추가한 것  

# 행 1개로 구성된 데이터프레임 생성하여 연결하기
시리즈는 행이 1개인 데이터 프레임으로 변환할 수 있음

In [26]:
# 2차원 리스트로 만들어 입력해야함. 
new_row_df = pd.DataFrame([['n1', 'n2', 'n3', 'n4']], columns=['A', 'B', 'C', 'D'])
new_row_df = pd.DataFrame({
    'A' : 'n1',
    'B' : 'n2',
    'C' : 'n3', 
    'D' : 'n4'
}, index=[0])
new_row_df

Unnamed: 0,A,B,C,D
0,n1,n2,n3,n4


In [27]:
pd.concat([df1, new_row_df])

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
0,n1,n2,n3,n4


concat 매서드는 2개 이상의 데이터프레임을 연결할 수 있는 메서드  
append 메서드를 사용하여 1개의 데이터프레임을 추가할 수 있음.

In [70]:
# append 메서드 활용
df1.append(new_row_df)

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
0,n1,n2,n3,n4


In [29]:
# 딕셔너리와 append 메서드 활용
data_dict = {'A':'n1', 'B' : 'n2', 'C' : 'n3', 'D' : 'n4'}
df1.append(data_dict, ignore_index=True)

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
4,n1,n2,n3,n4


# 다양한 방법으로 데이터 연결하기

1) ignore_index 인자  
   ignore_index=True 로 지정하면 데이터의 인덱스가 0부터 초기화 됨. 

In [30]:
row_concat_ign = pd.concat([df1, df2, df3], ignore_index=True)
row_concat_ign

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
4,a4,b4,c4,d4
5,a5,b5,c5,d5
6,a6,b6,c6,d6
7,a7,b7,c7,d7
8,a8,b8,c8,d8
9,a9,b9,c9,d9


2) 열 방향으로 데이터 연결
열방향으로 데이터를 연결하고 싶다면(가로방향) axis 인자를 활용  
행 : axis=0, 열 : axis=1

In [32]:
col_concat = pd.concat([df1, df2, df3], axis=1)
col_concat

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2
0,a0,b0,c0,d0,a4,b4,c4,d4,a8,b8,c8,d8
1,a1,b1,c1,d1,a5,b5,c5,d5,a9,b9,c9,d9
2,a2,b2,c2,d2,a6,b6,c6,d6,a10,b10,c10,d10
3,a3,b3,c3,d3,a7,b7,c7,d7,a11,b11,c11,d11


In [33]:
col_concat['A']

Unnamed: 0,A,A.1,A.2
0,a0,a4,a8
1,a1,a5,a9
2,a2,a6,a10
3,a3,a7,a11


In [35]:
col_concat['new_col'] = ['n1', 'n2', 'n3', 'n4']
col_concat

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2,new_col
0,a0,b0,c0,d0,a4,b4,c4,d4,a8,b8,c8,d8,n1
1,a1,b1,c1,d1,a5,b5,c5,d5,a9,b9,c9,d9,n2
2,a2,b2,c2,d2,a6,b6,c6,d6,a10,b10,c10,d10,n3
3,a3,b3,c3,d3,a7,b7,c7,d7,a11,b11,c11,d11,n4


열 이름 초기화

In [36]:
pd.concat([df1, df2, df3], axis=1, ignore_index=True)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11
0,a0,b0,c0,d0,a4,b4,c4,d4,a8,b8,c8,d8
1,a1,b1,c1,d1,a5,b5,c5,d5,a9,b9,c9,d9
2,a2,b2,c2,d2,a6,b6,c6,d6,a10,b10,c10,d10
3,a3,b3,c3,d3,a7,b7,c7,d7,a11,b11,c11,d11


# 공통 열과 공통 인덱스만 연결하기
열의 이름의 일부가 서로 다른 데이터프레임을 연결하는 법

## 공통 열로 연결하기

In [38]:
df1.columns = ['A', 'B', 'C', 'D']
df2.columns = ['E', 'F', 'G', 'H']
df3.columns = ['A', 'C', 'F', 'H']
print(df1)
print(df2)
print(df3)

    A   B   C   D
0  a0  b0  c0  d0
1  a1  b1  c1  d1
2  a2  b2  c2  d2
3  a3  b3  c3  d3
    E   F   G   H
0  a4  b4  c4  d4
1  a5  b5  c5  d5
2  a6  b6  c6  d6
3  a7  b7  c7  d7
     A    C    F    H
0   a8   b8   c8   d8
1   a9   b9   c9   d9
2  a10  b10  c10  d10
3  a11  b11  c11  d11


행방향으로 연결되면서 df1, df2, df3의 모든 열들이 정렬되면서 연결됨.  
때문에 해당 열에 데이터가 없을 경우 NaN 결측값으로 처리해버림

In [41]:
row_concat = pd.concat([df1, df2, df3])
row_concat

Unnamed: 0,A,B,C,D,E,F,G,H
0,a0,b0,c0,d0,,,,
1,a1,b1,c1,d1,,,,
2,a2,b2,c2,d2,,,,
3,a3,b3,c3,d3,,,,
0,,,,,a4,b4,c4,d4
1,,,,,a5,b5,c5,d5
2,,,,,a6,b6,c6,d6
3,,,,,a7,b7,c7,d7
0,a8,,b8,,,c8,,d8
1,a9,,b9,,,c9,,d9


공통열만 골라 연결하면 누락값이 생기지 않음  
join 인자를 inner 로 연결해야함.  
but 현재 df1, df2, df3 는 공통된 열이 없음, 따라서 연결하면 Empty DataFrame이 출력됨. 

In [44]:
print(pd.concat([df1, df2, df3], join='inner'))

Empty DataFrame
Columns: []
Index: [0, 1, 2, 3, 0, 1, 2, 3, 0, 1, 2, 3]


In [45]:
# df1, df3의 공통 열만 골라 연결
print(pd.concat([df1, df3], ignore_index=False, join='inner'))

     A    C
0   a0   c0
1   a1   c1
2   a2   c2
3   a3   c3
0   a8   b8
1   a9   b9
2  a10  b10
3  a11  b11


## 공통 인덱스로 연결하기

In [47]:
df1.index = [0, 1, 2, 3]
df2.index = [4, 5, 6, 7]
df3.index = [0, 2, 5, 7]

print(df1)
print(df2)
print(df3)

    A   B   C   D
0  a0  b0  c0  d0
1  a1  b1  c1  d1
2  a2  b2  c2  d2
3  a3  b3  c3  d3
    E   F   G   H
4  a4  b4  c4  d4
5  a5  b5  c5  d5
6  a6  b6  c6  d6
7  a7  b7  c7  d7
     A    C    F    H
0   a8   b8   c8   d8
2   a9   b9   c9   d9
5  a10  b10  c10  d10
7  a11  b11  c11  d11


In [48]:
col_concat = pd.concat([df1, df2, df3], axis=1)
col_concat

Unnamed: 0,A,B,C,D,E,F,G,H,A.1,C.1,F.1,H.1
0,a0,b0,c0,d0,,,,,a8,b8,c8,d8
1,a1,b1,c1,d1,,,,,,,,
2,a2,b2,c2,d2,,,,,a9,b9,c9,d9
3,a3,b3,c3,d3,,,,,,,,
4,,,,,a4,b4,c4,d4,,,,
5,,,,,a5,b5,c5,d5,a10,b10,c10,d10
6,,,,,a6,b6,c6,d6,,,,
7,,,,,a7,b7,c7,d7,a11,b11,c11,d11


In [49]:
pd.concat([df1, df3], axis=1, join='inner')

Unnamed: 0,A,B,C,D,A.1,C.1,F,H
0,a0,b0,c0,d0,a8,b8,c8,d8
2,a2,b2,c2,d2,a9,b9,c9,d9


## 내부 조인과 외부조인

* 내부조인  
둘 이상의 데이터프레임에서 조건에 맞는 행을 연결하는 것 


* 외부조인  
두 데이터프레임 중 어떤 데이터프레임을 기준으로 할 것인지에 따라  
왼쪽 외부조인, 오른쪽 외부조인, 완전 외부조인으로 나누어 짐  

Left Outer Join : 왼쪽 데이터프레임을 모두 포함하여 연결  
Right Outer Join : 오른쪽 데이터프레임을 모두 포함하여 연결   
Full Outer Join : 왼쪽과 오른쪽 모두 포함하여 연결  

# merge 메서드 사용하기
판다스에서는 데이터 연결 전용 메서드 merge 를 제공함.  
특정 위치의 날씨 정보에 필요한 데이터 집합

In [55]:
person = pd.read_csv('data/survey_person.csv')
site = pd.read_csv('data/survey_site.csv')
survey = pd.read_csv('data/survey_survey.csv')
visited = pd.read_csv('data/survey_visited.csv')
print(person)
print(site)
print(survey)
print(visited)

      ident   personal    family
0      dyer    William      Dyer
1        pb      Frank   Pabodie
2      lake   Anderson      Lake
3       roe  Valentina   Roerich
4  danforth      Frank  Danforth
    name    lat    long
0   DR-1 -49.85 -128.57
1   DR-3 -47.15 -126.72
2  MSK-4 -48.87 -123.40
    taken person quant  reading
0     619   dyer   rad     9.82
1     619   dyer   sal     0.13
2     622   dyer   rad     7.80
3     622   dyer   sal     0.09
4     734     pb   rad     8.41
5     734   lake   sal     0.05
6     734     pb  temp   -21.50
7     735     pb   rad     7.22
8     735    NaN   sal     0.06
9     735    NaN  temp   -26.00
10    751     pb   rad     4.35
11    751     pb  temp   -18.50
12    751   lake   sal     0.10
13    752   lake   rad     2.19
14    752   lake   sal     0.09
15    752   lake  temp   -16.00
16    752    roe   sal    41.60
17    837   lake   rad     1.46
18    837   lake   sal     0.21
19    837    roe   sal    22.50
20    844    roe   rad    11.25
  

In [60]:
visited_subset = visited.loc[[0, 2, 6]]
visited_subset

Unnamed: 0,ident,site,dated
0,619,DR-1,1927-02-08
2,734,DR-3,1939-01-07
6,837,MSK-4,1932-01-14


In [62]:
site

Unnamed: 0,name,lat,long
0,DR-1,-49.85,-128.57
1,DR-3,-47.15,-126.72
2,MSK-4,-48.87,-123.4


merge 메서드는 기본적으로 inner join 을 실행,  
메서드를 사용한 데이터프레임(site)을 왼쪽지정, 첫번째 인자값으로 지정한 데이터프레임(visited_subset)을 오른쪽   
left_on, right_on 인자는 값이 일치해야할 데이터프레임들의 열을 각각 지정 (name, site 의 열들의 값이 일치하고 있음)  

즉, left df 의 열과, right df 의 열이 일치하면 왼쪽을 기준으로 연결

In [61]:
# site & visited_subset 연결
o2o_merge = site.merge(visited_subset, left_on='name', right_on='site')
o2o_merge

Unnamed: 0,name,lat,long,ident,site,dated
0,DR-1,-49.85,-128.57,619,DR-1,1927-02-08
1,DR-3,-47.15,-126.72,734,DR-3,1939-01-07
2,MSK-4,-48.87,-123.4,837,MSK-4,1932-01-14


In [63]:
# site & visited 연결
o2o_merge = site.merge(visited, left_on='name', right_on='site')
o2o_merge

Unnamed: 0,name,lat,long,ident,site,dated
0,DR-1,-49.85,-128.57,619,DR-1,1927-02-08
1,DR-1,-49.85,-128.57,622,DR-1,1927-02-10
2,DR-1,-49.85,-128.57,844,DR-1,1932-03-22
3,DR-3,-47.15,-126.72,734,DR-3,1939-01-07
4,DR-3,-47.15,-126.72,735,DR-3,1930-01-12
5,DR-3,-47.15,-126.72,751,DR-3,1930-02-26
6,DR-3,-47.15,-126.72,752,DR-3,
7,MSK-4,-48.87,-123.4,837,MSK-4,1932-01-14


In [64]:
ps = person.merge(survey, left_on='ident', right_on='person')
vs = visited.merge(survey, left_on='ident', right_on='taken')

print(ps)
print(vs)

   ident   personal   family  taken person quant  reading
0   dyer    William     Dyer    619   dyer   rad     9.82
1   dyer    William     Dyer    619   dyer   sal     0.13
2   dyer    William     Dyer    622   dyer   rad     7.80
3   dyer    William     Dyer    622   dyer   sal     0.09
4     pb      Frank  Pabodie    734     pb   rad     8.41
5     pb      Frank  Pabodie    734     pb  temp   -21.50
6     pb      Frank  Pabodie    735     pb   rad     7.22
7     pb      Frank  Pabodie    751     pb   rad     4.35
8     pb      Frank  Pabodie    751     pb  temp   -18.50
9   lake   Anderson     Lake    734   lake   sal     0.05
10  lake   Anderson     Lake    751   lake   sal     0.10
11  lake   Anderson     Lake    752   lake   rad     2.19
12  lake   Anderson     Lake    752   lake   sal     0.09
13  lake   Anderson     Lake    752   lake  temp   -16.00
14  lake   Anderson     Lake    837   lake   rad     1.46
15  lake   Anderson     Lake    837   lake   sal     0.21
16   roe  Vale

In [65]:
ps

Unnamed: 0,ident,personal,family,taken,person,quant,reading
0,dyer,William,Dyer,619,dyer,rad,9.82
1,dyer,William,Dyer,619,dyer,sal,0.13
2,dyer,William,Dyer,622,dyer,rad,7.8
3,dyer,William,Dyer,622,dyer,sal,0.09
4,pb,Frank,Pabodie,734,pb,rad,8.41
5,pb,Frank,Pabodie,734,pb,temp,-21.5
6,pb,Frank,Pabodie,735,pb,rad,7.22
7,pb,Frank,Pabodie,751,pb,rad,4.35
8,pb,Frank,Pabodie,751,pb,temp,-18.5
9,lake,Anderson,Lake,734,lake,sal,0.05


In [66]:
vs

Unnamed: 0,ident,site,dated,taken,person,quant,reading
0,619,DR-1,1927-02-08,619,dyer,rad,9.82
1,619,DR-1,1927-02-08,619,dyer,sal,0.13
2,622,DR-1,1927-02-10,622,dyer,rad,7.8
3,622,DR-1,1927-02-10,622,dyer,sal,0.09
4,734,DR-3,1939-01-07,734,pb,rad,8.41
5,734,DR-3,1939-01-07,734,lake,sal,0.05
6,734,DR-3,1939-01-07,734,pb,temp,-21.5
7,735,DR-3,1930-01-12,735,pb,rad,7.22
8,735,DR-3,1930-01-12,735,,sal,0.06
9,735,DR-3,1930-01-12,735,,temp,-26.0


In [69]:
ps_vs = ps.merge(vs, left_on=['ident', 'taken', 'quant', 'reading'], right_on=['person', 'ident', 'quant', 'reading'])
ps_vs

Unnamed: 0,ident_x,personal,family,taken_x,person_x,quant,reading,ident_y,site,dated,taken_y,person_y
0,dyer,William,Dyer,619,dyer,rad,9.82,619,DR-1,1927-02-08,619,dyer
1,dyer,William,Dyer,619,dyer,sal,0.13,619,DR-1,1927-02-08,619,dyer
2,dyer,William,Dyer,622,dyer,rad,7.8,622,DR-1,1927-02-10,622,dyer
3,dyer,William,Dyer,622,dyer,sal,0.09,622,DR-1,1927-02-10,622,dyer
4,pb,Frank,Pabodie,734,pb,rad,8.41,734,DR-3,1939-01-07,734,pb
5,pb,Frank,Pabodie,734,pb,temp,-21.5,734,DR-3,1939-01-07,734,pb
6,pb,Frank,Pabodie,735,pb,rad,7.22,735,DR-3,1930-01-12,735,pb
7,pb,Frank,Pabodie,751,pb,rad,4.35,751,DR-3,1930-02-26,751,pb
8,pb,Frank,Pabodie,751,pb,temp,-18.5,751,DR-3,1930-02-26,751,pb
9,lake,Anderson,Lake,734,lake,sal,0.05,734,DR-3,1939-01-07,734,lake


열이름에 _x, _y 가 추가 되어 있는 것
x 는 왼쪽 데이터프레임의 열을 의미
y 는 오른쪽 데이터프레임의 열을 의미