# 깔끔한 데이터의 조건

In [1]:
# 데이터 분석 목적에 맞는 데이터를 모아 새로운 표(Table)를 만들어야 함
# 측정한 값은 행(row)을 구성해야 함
# 변수는 열(column)로 구성해야 함

# concat 메서드 사용하기

In [7]:
import pandas as pd
df1 = pd.read_csv('../data/concat_1.csv')
df2 = pd.read_csv('../data/concat_2.csv')
df3 = pd.read_csv('../data/concat_3.csv')

# concat 메서드에 연결하려는 데이터프레임을 리스트에 담아 전달하면 연결한 데이터프레임을 반환
# concat 메서드는 데이터프레임을 연결할 때 위에서 아래 방향으로 연결함
row_concat = pd.concat([df1,df2,df3])
print(row_concat)

# 연결한 데이터프레임에서 행 데이터를 추출
print(row_concat.iloc[3,])
print(row_concat.loc[3,])

     A    B    C    D
0   a0   b0   c0   d0
1   a1   b1   c1   d1
2   a2   b2   c2   d2
3   a3   b3   c3   d3
0   a4   b4   c4   d4
1   a5   b5   c5   d5
2   a6   b6   c6   d6
3   a7   b7   c7   d7
0   a8   b8   c8   d8
1   a9   b9   c9   d9
2  a10  b10  c10  d10
3  a11  b11  c11  d11
A    a3
B    b3
C    c3
D    d3
Name: 3, dtype: object
     A    B    C    D
3   a3   b3   c3   d3
3   a7   b7   c7   d7
3  a11  b11  c11  d11


# 데이터프레임에 시리즈 연결하기

In [8]:
# 새로운 시리즈 생성
new_row_series = pd.Series(['n1','n2','n3','n4'])
# concat메서드로 데이터프레임과 시리즈를 연결
print(pd.concat([df1, new_row_series]))

# 시리즈는 새로운 행이 아닌 열로 추가됨
# 시리즈에는 열 이름이 없기 때문 -> 시리즈를 새로운 열로 간주하여 0이라는 이름의 열로 추가됨
# NaN은 누락값

     A    B    C    D    0
0   a0   b0   c0   d0  NaN
1   a1   b1   c1   d1  NaN
2   a2   b2   c2   d2  NaN
3   a3   b3   c3   d3  NaN
0  NaN  NaN  NaN  NaN   n1
1  NaN  NaN  NaN  NaN   n2
2  NaN  NaN  NaN  NaN   n3
3  NaN  NaN  NaN  NaN   n4


# 행 1개로 구성된 데이터프레임 생성하여 연결하기

In [11]:
# 1개의 행을 가지는 데이터 프레임 생성하여 df1에 연결
new_row_df=pd.DataFrame([['n1','n2','n3','n4']], columns=['A','B','C','D'])
print(new_row_df)

print(pd.concat([df1, new_row_df]))

    A   B   C   D
0  n1  n2  n3  n4
    A   B   C   D
0  a0  b0  c0  d0
1  a1  b1  c1  d1
2  a2  b2  c2  d2
3  a3  b3  c3  d3
0  n1  n2  n3  n4


In [13]:
# concat메서드는 한 번에 2개 이상의 데이터프레임을 연결할 수 있는 메서드
# 만약 연결할 데이터프레임이 1개라면 append메서드를 사용해도 됨
print(df1.append(new_row_df))

# append 메서드와 딕셔너리를 사용해 더욱 간편하게 행을 연결할 수 있음
# ignore_index를 True로 설정하면 데이터 연결한 다음 데이터프레임의 인덱스를 0부터 다시 지정
data_dict = {'A': 'n1', 'B': 'n2', 'C': 'n3', 'D': 'n4'}
print(df1.append(data_dict, ignore_index=True))

    A   B   C   D
0  a0  b0  c0  d0
1  a1  b1  c1  d1
2  a2  b2  c2  d2
3  a3  b3  c3  d3
0  n1  n2  n3  n4
    A   B   C   D
0  a0  b0  c0  d0
1  a1  b1  c1  d1
2  a2  b2  c2  d2
3  a3  b3  c3  d3
4  n1  n2  n3  n4


# 다양한 방법으로 데이터 연결하기

In [20]:
# ignore_index 인자 사용
row_concat_i = pd.concat([df1, df2, df3] , ignore_index=True)
print(row_concat_i)

# 열 방향으로 데이터 연결
# concat 메서드의 axis인자를 1로 지정
col_concat = pd.concat([df1, df2, df3], axis=1)
print(col_concat)

# 만약 같은 열 이름이 있는 데이터프레임에서 열 이름으로 데이터를 추출하면 
# 해당 열 이름의 데이터를 모두 추출함
print(col_concat['A'])

# 간편하게 새로운 열을 추가할 수도 있음
col_concat['new_col_list'] = ['n1', 'n2', 'n3', 'n4']
print(col_concat)

# 열 방향으로 데이터 연결 시 ignore_index를 True로 지정하여 열이름 중복 방지
print(pd.concat([df1, df2, df3], axis=1, ignore_index=True))

      A    B    C    D    E    F    G    H
0    a0   b0   c0   d0  NaN  NaN  NaN  NaN
1    a1   b1   c1   d1  NaN  NaN  NaN  NaN
2    a2   b2   c2   d2  NaN  NaN  NaN  NaN
3    a3   b3   c3   d3  NaN  NaN  NaN  NaN
4   NaN  NaN  NaN  NaN   a4   b4   c4   d4
5   NaN  NaN  NaN  NaN   a5   b5   c5   d5
6   NaN  NaN  NaN  NaN   a6   b6   c6   d6
7   NaN  NaN  NaN  NaN   a7   b7   c7   d7
8    a8  NaN   b8  NaN  NaN   c8  NaN   d8
9    a9  NaN   b9  NaN  NaN   c9  NaN   d9
10  a10  NaN  b10  NaN  NaN  c10  NaN  d10
11  a11  NaN  b11  NaN  NaN  c11  NaN  d11
    A   B   C   D   E   F   G   H    A    C    F    H
0  a0  b0  c0  d0  a4  b4  c4  d4   a8   b8   c8   d8
1  a1  b1  c1  d1  a5  b5  c5  d5   a9   b9   c9   d9
2  a2  b2  c2  d2  a6  b6  c6  d6  a10  b10  c10  d10
3  a3  b3  c3  d3  a7  b7  c7  d7  a11  b11  c11  d11
    A    A
0  a0   a8
1  a1   a9
2  a2  a10
3  a3  a11
    A   B   C   D   E   F   G   H    A    C    F    H new_col_list
0  a0  b0  c0  d0  a4  b4  c4  d4   a8   b8   c8 

In [28]:
# 열 이름의 일부가 서로 다른 프레임을 연결
df1.columns = ['A','B','C','D']
df2.columns = ['E','F','G','H']
df3.columns = ['A','C','F','H']
print(df1)
print(type(df1))
print(df2)
print(type(df2))
print(df3)
print(type(df3))

row_concat = pd.concat([df1,df2,df3])
print(row_concat)
# 열 이름이 정렬되며 연결, 데이터프레임에 없는 열 이름의 데이터는 누락값으로 처리됨

    A   B   C   D
0  a0  b0  c0  d0
1  a1  b1  c1  d1
2  a2  b2  c2  d2
3  a3  b3  c3  d3
<class 'pandas.core.frame.DataFrame'>
    E   F   G   H
4  a4  b4  c4  d4
5  a5  b5  c5  d5
6  a6  b6  c6  d6
7  a7  b7  c7  d7
<class 'pandas.core.frame.DataFrame'>
     A    C    F    H
0   a8   b8   c8   d8
2   a9   b9   c9   d9
6  a10  b10  c10  d10
7  a11  b11  c11  d11
<class 'pandas.core.frame.DataFrame'>
     A    B    C    D    E    F    G    H
0   a0   b0   c0   d0  NaN  NaN  NaN  NaN
1   a1   b1   c1   d1  NaN  NaN  NaN  NaN
2   a2   b2   c2   d2  NaN  NaN  NaN  NaN
3   a3   b3   c3   d3  NaN  NaN  NaN  NaN
4  NaN  NaN  NaN  NaN   a4   b4   c4   d4
5  NaN  NaN  NaN  NaN   a5   b5   c5   d5
6  NaN  NaN  NaN  NaN   a6   b6   c6   d6
7  NaN  NaN  NaN  NaN   a7   b7   c7   d7
0   a8  NaN   b8  NaN  NaN   c8  NaN   d8
2   a9  NaN   b9  NaN  NaN   c9  NaN   d9
6  a10  NaN  b10  NaN  NaN  c10  NaN  d10
7  a11  NaN  b11  NaN  NaN  c11  NaN  d11


# 공통 열과 공통 인덱스만 연결하기

In [29]:
# 누락값 없이 데이터를 연결하려면 공통 열만 골라 연결해야 함
# join 인자를 inner로 지정해야 함
print(pd.concat([df1,df2,df3], join='inner'))
# df1,df2,df3의 공통 열이 없어서 Empty DataFrame이 출력됨

# df1, df3의 공통 열만 골라 연결하면 연결됨
print(pd.concat([df1,df3], ignore_index=False, join='inner'))

Empty DataFrame
Columns: []
Index: [0, 1, 2, 3, 4, 5, 6, 7, 0, 2, 6, 7]
     A    C
0   a0   c0
1   a1   c1
2   a2   c2
3   a3   c3
0   a8   b8
2   a9   b9
6  a10  b10
7  a11  b11


In [30]:
# 데이터프레임 행 방향으로 연결
df1.index=[0,1,2,3]
df2.index=[4,5,6,7]
df3.index=[0,2,6,7]
print(df1)
print(df2)
print(df3)

# concat 메서드로 행 방향으로 연결
col_concat = pd.concat([df1,df2,df3], axis=1)
print(col_concat)

# df1, df3의 공통 행만 골라 연결
print(pd.concat([df1,df3], axis=1, join='inner'))
# 공통 행인 0과 2만 출력됨

    A   B   C   D
0  a0  b0  c0  d0
1  a1  b1  c1  d1
2  a2  b2  c2  d2
3  a3  b3  c3  d3
    E   F   G   H
4  a4  b4  c4  d4
5  a5  b5  c5  d5
6  a6  b6  c6  d6
7  a7  b7  c7  d7
     A    C    F    H
0   a8   b8   c8   d8
2   a9   b9   c9   d9
6  a10  b10  c10  d10
7  a11  b11  c11  d11
     A    B    C    D    E    F    G    H    A    C    F    H
0   a0   b0   c0   d0  NaN  NaN  NaN  NaN   a8   b8   c8   d8
1   a1   b1   c1   d1  NaN  NaN  NaN  NaN  NaN  NaN  NaN  NaN
2   a2   b2   c2   d2  NaN  NaN  NaN  NaN   a9   b9   c9   d9
3   a3   b3   c3   d3  NaN  NaN  NaN  NaN  NaN  NaN  NaN  NaN
4  NaN  NaN  NaN  NaN   a4   b4   c4   d4  NaN  NaN  NaN  NaN
5  NaN  NaN  NaN  NaN   a5   b5   c5   d5  NaN  NaN  NaN  NaN
6  NaN  NaN  NaN  NaN   a6   b6   c6   d6  a10  b10  c10  d10
7  NaN  NaN  NaN  NaN   a7   b7   c7   d7  a11  b11  c11  d11
    A   B   C   D   A   C   F   H
0  a0  b0  c0  d0  a8  b8  c8  d8
2  a2  b2  c2  d2  a9  b9  c9  d9


In [None]:
# 내부 조인
# 둘 이상의 데이터프레임에서 조건에 맞는 행을 연결

# 외부 조인
# 두 데이터프레임 중 어떤 데이터프레임을 기준으로 할 것인지에 따라 
# 왼쪽 외부 조인(Left Outer Join)과 오른쪽 외부 조인(Right Outer Join), 완전 외부 조인(Full Outer Join)으로 나뉨
# 왼쪽 외부 조인은 데이터프레임을 연결할때 왼쪽 데이터프레임을 모두 포함하여 연결
# 오른쪽 외부 조인은 데이터프레임을 연결할때 오른쪽 데이터프레임을 모두 포함하여 연결
# 완전 외부 조인은 왼쪽과 오른쪽 데이터프레임을 모두 포함하여 연결


# merge 메서드 사용하기

In [34]:
# 특정 위치의 날씨 정보에 필요한 데이터 집합을 모두 불러오기
person = pd.read_csv('../data/survey_person.csv')
site = pd.read_csv('../data/survey_site.csv')
survey = pd.read_csv('../data/survey_survey.csv')
visited = pd.read_csv('../data/survey_visited.csv')
print(person)
print(site)
print(survey)
print(visited)

# visited 데이터프레임의 일부만 사용
visited_subset = visited.loc[[0,2,6],]

      ident   personal    family
0      dyer    William      Dyer
1        pb      Frank   Pabodie
2      lake   Anderson      Lake
3       roe  Valentina   Roerich
4  danforth      Frank  Danforth
    name    lat    long
0   DR-1 -49.85 -128.57
1   DR-3 -47.15 -126.72
2  MSK-4 -48.87 -123.40
    taken person quant  reading
0     619   dyer   rad     9.82
1     619   dyer   sal     0.13
2     622   dyer   rad     7.80
3     622   dyer   sal     0.09
4     734     pb   rad     8.41
5     734   lake   sal     0.05
6     734     pb  temp   -21.50
7     735     pb   rad     7.22
8     735    NaN   sal     0.06
9     735    NaN  temp   -26.00
10    751     pb   rad     4.35
11    751     pb  temp   -18.50
12    751   lake   sal     0.10
13    752   lake   rad     2.19
14    752   lake   sal     0.09
15    752   lake  temp   -16.00
16    752    roe   sal    41.60
17    837   lake   rad     1.46
18    837   lake   sal     0.21
19    837    roe   sal    22.50
20    844    roe   rad    11.25
  

In [38]:
# merge 메서드는 기본적으로 내부 조인을 실행하며 
# 메서드를 사용한 데이터프레임(site)을 왼쪽으로 지정하고 
# 첫 번째 인자값으로 지정한 데이터프레임(visitied_subset)을 오른쪽으로 지정함
# left_on, right_on 인자는 값이 일치해야 할 왼쪽과 오른쪽 데이터프레임의 열을 지정함
# 왼쪽 데이터프레임(site)의 열(name)과 오른쪽 데이터프레임(visited)의 열(site)의 값이 일치하면 왼쪽 데이터프레임을 기준으로 연결
o2o_merge = site.merge(visited_subset, left_on='name', right_on='site')
print(o2o_merge)


    name    lat    long  ident   site       dated
0   DR-1 -49.85 -128.57    619   DR-1  1927-02-08
1   DR-3 -47.15 -126.72    734   DR-3  1939-01-07
2  MSK-4 -48.87 -123.40    837  MSK-4  1932-01-14


In [39]:
# site, visited 데이터프레임을 이용하여 데이터를 연결
m2o_merge = site.merge(visited, left_on='name', right_on='site')
print(m2o_merge)

    name    lat    long  ident   site       dated
0   DR-1 -49.85 -128.57    619   DR-1  1927-02-08
1   DR-1 -49.85 -128.57    622   DR-1  1927-02-10
2   DR-1 -49.85 -128.57    844   DR-1  1932-03-22
3   DR-3 -47.15 -126.72    734   DR-3  1939-01-07
4   DR-3 -47.15 -126.72    735   DR-3  1930-01-12
5   DR-3 -47.15 -126.72    751   DR-3  1930-02-26
6   DR-3 -47.15 -126.72    752   DR-3         NaN
7  MSK-4 -48.87 -123.40    837  MSK-4  1932-01-14


In [40]:
# person, survey 데이터프레임과 visited, survey 데이터프레임을 merge 메서드로 연결
ps = person.merge(survey, left_on='ident', right_on='person')
vs = visited.merge(survey, left_on='ident', right_on='taken')

print(ps)
print(vs)

   ident   personal   family  taken person quant  reading
0   dyer    William     Dyer    619   dyer   rad     9.82
1   dyer    William     Dyer    619   dyer   sal     0.13
2   dyer    William     Dyer    622   dyer   rad     7.80
3   dyer    William     Dyer    622   dyer   sal     0.09
4     pb      Frank  Pabodie    734     pb   rad     8.41
5     pb      Frank  Pabodie    734     pb  temp   -21.50
6     pb      Frank  Pabodie    735     pb   rad     7.22
7     pb      Frank  Pabodie    751     pb   rad     4.35
8     pb      Frank  Pabodie    751     pb  temp   -18.50
9   lake   Anderson     Lake    734   lake   sal     0.05
10  lake   Anderson     Lake    751   lake   sal     0.10
11  lake   Anderson     Lake    752   lake   rad     2.19
12  lake   Anderson     Lake    752   lake   sal     0.09
13  lake   Anderson     Lake    752   lake  temp   -16.00
14  lake   Anderson     Lake    837   lake   rad     1.46
15  lake   Anderson     Lake    837   lake   sal     0.21
16   roe  Vale

In [42]:
# left_on, right_on에 전달하는 값은 여러 개라도 상관이 없음
ps_vs = ps.merge(vs, left_on=['ident','taken','quant','reading'], right_on=['person','ident','quant','reading'])
print(ps_vs)

# 중복된 열 이름에 접미사 _x, _y가 추가되어있음
# _x는 왼쪽 데이터프레임의 열을 의미, _y는 오른쪽 데이터프레임의 열을 의미

   ident_x   personal   family  taken_x person_x quant  reading  ident_y  \
0     dyer    William     Dyer      619     dyer   rad     9.82      619   
1     dyer    William     Dyer      619     dyer   sal     0.13      619   
2     dyer    William     Dyer      622     dyer   rad     7.80      622   
3     dyer    William     Dyer      622     dyer   sal     0.09      622   
4       pb      Frank  Pabodie      734       pb   rad     8.41      734   
5       pb      Frank  Pabodie      734       pb  temp   -21.50      734   
6       pb      Frank  Pabodie      735       pb   rad     7.22      735   
7       pb      Frank  Pabodie      751       pb   rad     4.35      751   
8       pb      Frank  Pabodie      751       pb  temp   -18.50      751   
9     lake   Anderson     Lake      734     lake   sal     0.05      734   
10    lake   Anderson     Lake      751     lake   sal     0.10      751   
11    lake   Anderson     Lake      752     lake   rad     2.19      752   
12    lake  