# concat 메서드로 데이터 연결하기

In [1]:
import pandas as pd

df1 = pd.read_csv('../data/concat_2.csv')
df2 = pd.read_csv('../data/concat_2.csv')
df3 = pd.read_csv('../data/concat_3.csv')

row_concat = pd.concat([df1, df2, df3])
# concat에 df를 리스트로 전달하면 위에서 아래로 df를 연결해서 반환해줌
# 단, 인덱스도 계속 유지

print(row_concat)

# 행 데이터 추출. iloc은 인덱스가 아닌 행 번호로 추출, 행 인덱스도 0부터 시작
print(row_concat.iloc[4,:]) 


     A    B    C    D
0   a4   b4   c4   d4
1   a5   b5   c5   d5
2   a6   b6   c6   d6
3   a7   b7   c7   d7
0   a4   b4   c4   d4
1   a5   b5   c5   d5
2   a6   b6   c6   d6
3   a7   b7   c7   d7
0   a8   b8   c8   d8
1   a9   b9   c9   d9
2  a10  b10  c10  d10
3  a11  b11  c11  d11
A    a4
B    b4
C    c4
D    d4
Name: 0, dtype: object


# 데이터프레임에 시리즈 연결 및 추가

In [2]:
new_row_series = pd.Series(['n1', 'n2', 'n3', 'n4'])

# df1에 시리즈를 합치면 열이 추가돼
print(pd.concat([df1, new_row_series])) 

# 시리즈의 행이 1개라도 반드시 df에 담아 연결해야 되겠다.. why? 시리즈에는 열 이름이 없기 때문
# 그래서 위 print에서는 새로운 열인 0으로 간주하여 추가된 것


     A    B    C    D    0
0   a4   b4   c4   d4  NaN
1   a5   b5   c5   d5  NaN
2   a6   b6   c6   d6  NaN
3   a7   b7   c7   d7  NaN
0  NaN  NaN  NaN  NaN   n1
1  NaN  NaN  NaN  NaN   n2
2  NaN  NaN  NaN  NaN   n3
3  NaN  NaN  NaN  NaN   n4


# 행 1개로 구성된 데이터프레임 생성하여 연결하기

In [3]:
# 시리즈가 아닌 df를 생성
new_row_df = pd.DataFrame([['n1', 'n2', 'n3', 'n4']], columns=['A', 'B', 'C', 'D'])
print(new_row_df) 

print(pd.concat([df1, new_row_df]))

    A   B   C   D
0  n1  n2  n3  n4
    A   B   C   D
0  a4  b4  c4  d4
1  a5  b5  c5  d5
2  a6  b6  c6  d6
3  a7  b7  c7  d7
0  n1  n2  n3  n4


# 다양한 방법으로 데이터 연결하기

In [4]:
# ignore_index=True는 데이터를 연결한 다음 인덱스를 통합시켜줘
row_concat_i = pd.concat([df1, df2, df3], ignore_index=True) 
print(row_concat_i)

      A    B    C    D
0    a4   b4   c4   d4
1    a5   b5   c5   d5
2    a6   b6   c6   d6
3    a7   b7   c7   d7
4    a4   b4   c4   d4
5    a5   b5   c5   d5
6    a6   b6   c6   d6
7    a7   b7   c7   d7
8    a8   b8   c8   d8
9    a9   b9   c9   d9
10  a10  b10  c10  d10
11  a11  b11  c11  d11


In [5]:
# axis인자가 열 방향으로 연결하게 해줌. 기본값은 0임
col_concat = pd.concat([df1, df2, df3], axis=1)
print(col_concat) 

# 같은 컬럼 이름이 있는 dP에서 열 추출하면 전부 추출돼
print(col_concat['A']) 

# 새로운 열 추가
col_concat['컬럼명'] = ['n1','n2','n3','n4'] 
print(col_concat)

# 제일 깔끔한 정리
print(pd.concat([df1, df2, df3], axis=1, ignore_index=True)) 

    A   B   C   D   A   B   C   D    A    B    C    D
0  a4  b4  c4  d4  a4  b4  c4  d4   a8   b8   c8   d8
1  a5  b5  c5  d5  a5  b5  c5  d5   a9   b9   c9   d9
2  a6  b6  c6  d6  a6  b6  c6  d6  a10  b10  c10  d10
3  a7  b7  c7  d7  a7  b7  c7  d7  a11  b11  c11  d11
    A   A    A
0  a4  a4   a8
1  a5  a5   a9
2  a6  a6  a10
3  a7  a7  a11
    A   B   C   D   A   B   C   D    A    B    C    D 컬럼명
0  a4  b4  c4  d4  a4  b4  c4  d4   a8   b8   c8   d8  n1
1  a5  b5  c5  d5  a5  b5  c5  d5   a9   b9   c9   d9  n2
2  a6  b6  c6  d6  a6  b6  c6  d6  a10  b10  c10  d10  n3
3  a7  b7  c7  d7  a7  b7  c7  d7  a11  b11  c11  d11  n4
   0   1   2   3   4   5   6   7    8    9    10   11
0  a4  b4  c4  d4  a4  b4  c4  d4   a8   b8   c8   d8
1  a5  b5  c5  d5  a5  b5  c5  d5   a9   b9   c9   d9
2  a6  b6  c6  d6  a6  b6  c6  d6  a10  b10  c10  d10
3  a7  b7  c7  d7  a7  b7  c7  d7  a11  b11  c11  d11


# 공통 열과 공통 인덱스만 연결하기

In [6]:
print(df1)
print(type(df1)) # 시험삼아 print 해보고

df1.columns = ['A','B','C','D']
df2.columns = ['E','F','G','H']
df3.columns = ['A','C','F','H'] # 열이 일부만 같음

# 합쳐보니 있는 열만 들어가고 없으면 NaN
row_concat = pd.concat([df1, df2, df3]) 
print(row_concat)


# 세 개의 df에 모두 속한 열은 없으므로 Columns이 빈공간으로 나옴
print(pd.concat([df1, df2, df3], join='inner'))

# 위 코드와 다르게 공통 열만 골라 연결해보자. df1, df3의 공통열만 뽑아 연결
print(pd.concat([df1, df3], ignore_index=False, join='inner'))

    A   B   C   D
0  a4  b4  c4  d4
1  a5  b5  c5  d5
2  a6  b6  c6  d6
3  a7  b7  c7  d7
<class 'pandas.core.frame.DataFrame'>
     A    B    C    D    E    F    G    H
0   a4   b4   c4   d4  NaN  NaN  NaN  NaN
1   a5   b5   c5   d5  NaN  NaN  NaN  NaN
2   a6   b6   c6   d6  NaN  NaN  NaN  NaN
3   a7   b7   c7   d7  NaN  NaN  NaN  NaN
0  NaN  NaN  NaN  NaN   a4   b4   c4   d4
1  NaN  NaN  NaN  NaN   a5   b5   c5   d5
2  NaN  NaN  NaN  NaN   a6   b6   c6   d6
3  NaN  NaN  NaN  NaN   a7   b7   c7   d7
0   a8  NaN   b8  NaN  NaN   c8  NaN   d8
1   a9  NaN   b9  NaN  NaN   c9  NaN   d9
2  a10  NaN  b10  NaN  NaN  c10  NaN  d10
3  a11  NaN  b11  NaN  NaN  c11  NaN  d11
Empty DataFrame
Columns: []
Index: [0, 1, 2, 3, 0, 1, 2, 3, 0, 1, 2, 3]
     A    C
0   a4   c4
1   a5   c5
2   a6   c6
3   a7   c7
0   a8   b8
1   a9   b9
2  a10  b10
3  a11  b11


In [7]:
df1.index = [0,1,2,3]
df2.index = [4,5,6,7]
df3.index = [0,2,5,7]
print(df1) # 테스트

# 열을 합친 것과 마찬가지로 NaN이 생김
col_concat = pd.concat([df1, df2, df3], axis=1) 
print(col_concat)

# df1, df3의 공통 행만 연결한 것
print(pd.concat([df1, df3], axis=1, join='inner')) 


    A   B   C   D
0  a4  b4  c4  d4
1  a5  b5  c5  d5
2  a6  b6  c6  d6
3  a7  b7  c7  d7
     A    B    C    D    E    F    G    H    A    C    F    H
0   a4   b4   c4   d4  NaN  NaN  NaN  NaN   a8   b8   c8   d8
1   a5   b5   c5   d5  NaN  NaN  NaN  NaN  NaN  NaN  NaN  NaN
2   a6   b6   c6   d6  NaN  NaN  NaN  NaN   a9   b9   c9   d9
3   a7   b7   c7   d7  NaN  NaN  NaN  NaN  NaN  NaN  NaN  NaN
4  NaN  NaN  NaN  NaN   a4   b4   c4   d4  NaN  NaN  NaN  NaN
5  NaN  NaN  NaN  NaN   a5   b5   c5   d5  a10  b10  c10  d10
6  NaN  NaN  NaN  NaN   a6   b6   c6   d6  NaN  NaN  NaN  NaN
7  NaN  NaN  NaN  NaN   a7   b7   c7   d7  a11  b11  c11  d11
    A   B   C   D   A   C   F   H
0  a4  b4  c4  d4  a8  b8  c8  d8
2  a6  b6  c6  d6  a9  b9  c9  d9


# merge 메서드 사용하기

In [9]:
# pandas가 제공하는 데이터 연결 전용 메서드 merge
# 내부 조인 = 교집합
# 외부 조인 = 합집합


person = pd.read_csv('../data/survey_person.csv')
site = pd.read_csv('../data/survey_site.csv')
survey = pd.read_csv('../data/survey_survey.csv')
visited = pd.read_csv('../data/survey_visited.csv')
print(person) # 테스트

# merge 메서드는 기본적으로 '내부 조인'을 실행하며 메서드를 사용한 df를 왼쪽으로 첫 번째 인잣값으로 지정된 df를 오른쪽으로 지정한다
# site df의 name열과 visited df의 site열이 같으면 병합
s2v_merge = site.merge(visited, left_on='name', right_on='site') 
print(s2v_merge)

# 참고, left_on/right_on에 전달하는 값은 리스트여도 돼
# 리스트로 전달해서 연결한 뒤에 결과에 _x, _y가 있다면 각각 왼쪽, 오른쪽 dp 열을 의미하는 것

      ident   personal    family
0      dyer    William      Dyer
1        pb      Frank   Pabodie
2      lake   Anderson      Lake
3       roe  Valentina   Roerich
4  danforth      Frank  Danforth
    name    lat    long  ident   site       dated
0   DR-1 -49.85 -128.57    619   DR-1  1927-02-08
1   DR-1 -49.85 -128.57    622   DR-1  1927-02-10
2   DR-1 -49.85 -128.57    844   DR-1  1932-03-22
3   DR-3 -47.15 -126.72    734   DR-3  1939-01-07
4   DR-3 -47.15 -126.72    735   DR-3  1930-01-12
5   DR-3 -47.15 -126.72    751   DR-3  1930-02-26
6   DR-3 -47.15 -126.72    752   DR-3         NaN
7  MSK-4 -48.87 -123.40    837  MSK-4  1932-01-14
