# 데이터 연결 concat (append는 삭제)

In [1]:
import pandas as pd

df1 = pd.read_csv('./data/concat_1.csv') 
df2 = pd.read_csv('./data/concat_2.csv') 
df3 = pd.read_csv('./data/concat_3.csv')

row_concat = pd.concat([df1, df2, df3]) 
print(row_concat)

     A    B    C    D
0   a0   b0   c0   d0
1   a1   b1   c1   d1
2   a2   b2   c2   d2
3   a3   b3   c3   d3
0   a4   b4   c4   d4
1   a5   b5   c5   d5
2   a6   b6   c6   d6
3   a7   b7   c7   d7
0   a8   b8   c8   d8
1   a9   b9   c9   d9
2  a10  b10  c10  d10
3  a11  b11  c11  d11


In [2]:
print(row_concat.iloc[3])

A    a3
B    b3
C    c3
D    d3
Name: 3, dtype: object


In [3]:
# 열이름이 없으므로 새로운 행으로 추가되지 않는다
new_row_series = pd.Series(['n1', 'n2', 'n3', 'n4'])
print(pd.concat([df1, new_row_series]))


     A    B    C    D    0
0   a0   b0   c0   d0  NaN
1   a1   b1   c1   d1  NaN
2   a2   b2   c2   d2  NaN
3   a3   b3   c3   d3  NaN
0  NaN  NaN  NaN  NaN   n1
1  NaN  NaN  NaN  NaN   n2
2  NaN  NaN  NaN  NaN   n3
3  NaN  NaN  NaN  NaN   n4


In [4]:
# 이렇게 추가해야됨
new_row_df = pd.DataFrame([['n1', 'n2', 'n3', 'n4']], columns=['A', 'B', 'C', 'D']) 
print(new_row_df)

    A   B   C   D
0  n1  n2  n3  n4


In [10]:
# 행 추가 예시 (append 함수는 삭제 됨)
print(pd.concat([df1, new_row_df]))

    A   B   C   D
0  a0  b0  c0  d0
1  a1  b1  c1  d1
2  a2  b2  c2  d2
3  a3  b3  c3  d3
0  n1  n2  n3  n4


In [15]:
# ignore_index=True 하면 인덱스 다시 새로 재개편
row_concat_i = pd.concat([df1, df2, df3], ignore_index=True) 
print(row_concat_i)

      A    B    C    D
0    a0   b0   c0   d0
1    a1   b1   c1   d1
2    a2   b2   c2   d2
3    a3   b3   c3   d3
4    a4   b4   c4   d4
5    a5   b5   c5   d5
6    a6   b6   c6   d6
7    a7   b7   c7   d7
8    a8   b8   c8   d8
9    a9   b9   c9   d9
10  a10  b10  c10  d10
11  a11  b11  c11  d11


In [16]:
# 다른 축으로 연결
col_concat = pd.concat([df1, df2, df3], axis=1) 
print(col_concat)

    A   B   C   D   A   B   C   D    A    B    C    D
0  a0  b0  c0  d0  a4  b4  c4  d4   a8   b8   c8   d8
1  a1  b1  c1  d1  a5  b5  c5  d5   a9   b9   c9   d9
2  a2  b2  c2  d2  a6  b6  c6  d6  a10  b10  c10  d10
3  a3  b3  c3  d3  a7  b7  c7  d7  a11  b11  c11  d11


# 데이터 연결 merge
# sql의 내부 join이랑 같은 방식으로 작동함

In [18]:
# 데이터 불러오기
person = pd.read_csv('./data/survey_person.csv') 
site = pd.read_csv('./data/survey_site.csv') 
survey = pd.read_csv('./data/survey_survey.csv') 
visited = pd.read_csv('./data/survey_visited.csv')

print(person)

      ident   personal    family
0      dyer    William      Dyer
1        pb      Frank   Pabodie
2      lake   Anderson      Lake
3       roe  Valentina   Roerich
4  danforth      Frank  Danforth


In [19]:
# 0,2,6 인덱스만 뽑은
visited_subset = visited.loc[[0, 2, 6], ]
print(visited_subset)

   ident   site       dated
0    619   DR-1  1927-02-08
2    734   DR-3  1939-01-07
6    837  MSK-4  1932-01-14


In [21]:
print(site)

    name    lat    long
0   DR-1 -49.85 -128.57
1   DR-3 -47.15 -126.72
2  MSK-4 -48.87 -123.40


In [22]:
# 내부 조인. site(left)의 name 과 visited(right 인자에 있으므로))의 site
o2o_merge = site.merge(visited_subset, left_on='name', right_on='site') 
print(o2o_merge)

    name    lat    long  ident   site       dated
0   DR-1 -49.85 -128.57    619   DR-1  1927-02-08
1   DR-3 -47.15 -126.72    734   DR-3  1939-01-07
2  MSK-4 -48.87 -123.40    837  MSK-4  1932-01-14
