# 데이터 연결하기
## 분석하기 좋은 데이터

#### 좋은 dataset을 구성하기 위해서는 최소 50%-70%의 작업이 좋은 dataset을 만들기 위한 작업이다.
#### 깔끔한 데이터(tiny data)의 조건
##### 1. 데이터 분석 목적에 맞는 데이터를 모아 새로운 표(table)을 만들어야 합니다.
##### 2. 측정한 값은 행(row)를 구성해야 합니다.
##### 3. 변수는 열(column)로 구성해야 합니다.

In [1]:
import pandas as pd

df1=pd.read_csv('./data/concat_1.csv')
df2=pd.read_csv('./data/concat_2.csv')
df3=pd.read_csv('./data/concat_3.csv')

# read_csv 메서드로 데이터 프레임으로 만들어 냅니다.

row_concat=pd.concat([df1, df2, df3])

#concat 메서드는 리스트로 묶인 dataframe을 행방향으로 묶어낼 수 있습니다.
#단, 인덱스도 모조리 그대로 묶어냅니다.

print(row_concat)

     A    B    C    D
0   a0   b0   c0   d0
1   a1   b1   c1   d1
2   a2   b2   c2   d2
3   a3   b3   c3   d3
0   a4   b4   c4   d4
1   a5   b5   c5   d5
2   a6   b6   c6   d6
3   a7   b7   c7   d7
0   a8   b8   c8   d8
1   a9   b9   c9   d9
2  a10  b10  c10  d10
3  a11  b11  c11  d11


In [2]:
print(row_concat.iloc[3,:])
#iloc속성으로 합쳐진 데이터의 인덱스 순번(넘버) 3의 행을 추출해냅니다.

A    a3
B    b3
C    c3
D    d3
Name: 3, dtype: object


##### 데이터프레임에 시리즈 연결하기

In [3]:
new_row_series=pd.Series(['n1','n2','n3','n4'])
#하나의 열로 구성 된 시리즈 형태로 dtype은 object string 입니다.

print(pd.concat([df1,new_row_series]))
#방금 만들어낸 시리즈와 df1을 행방향으로 묶어냅니다.
#시리즈에는 열이름이 없기 때문에 0으로 열이름을 추가합니다.

     A    B    C    D    0
0   a0   b0   c0   d0  NaN
1   a1   b1   c1   d1  NaN
2   a2   b2   c2   d2  NaN
3   a3   b3   c3   d3  NaN
0  NaN  NaN  NaN  NaN   n1
1  NaN  NaN  NaN  NaN   n2
2  NaN  NaN  NaN  NaN   n3
3  NaN  NaN  NaN  NaN   n4


In [4]:
new_row_df=pd.DataFrame([['n1','n2','n3','n4']], columns=['A','B','C','D'])
print(new_row_df)
#그래서 위의 문제를 방지하기 위해서 dataframe형식으로 열이름을 생성해주고
#해당 열에 값을 넣어줍니다.

    A   B   C   D
0  n1  n2  n3  n4


In [5]:
print(pd.concat([df1,new_row_df]))
#그리고 그 dataframe에 concat을 하면 해당 열에 맞춰서 행으로 삽입이 되게 됩니다.

    A   B   C   D
0  a0  b0  c0  d0
1  a1  b1  c1  d1
2  a2  b2  c2  d2
3  a3  b3  c3  d3
0  n1  n2  n3  n4


In [6]:
print(df1.append(new_row_df))
#append 메서드를 사용해서도 할 수 있습니다.

    A   B   C   D
0  a0  b0  c0  d0
1  a1  b1  c1  d1
2  a2  b2  c2  d2
3  a3  b3  c3  d3
0  n1  n2  n3  n4


In [7]:
data_dict={'A':'n1','B':'n2','C':'n3','D':'n4'}
print(df1.append(data_dict,ignore_index=True))
#append로 딕셔너리 형태도 넣어줄 수 있습니다.
#append로 df형태도 넣어줄 수 있습니다.
#append 속성중 ignore_index를 true로 바꿔주게 되면
#인덱스를 무시한채 피 추가데이터프레임의 인덱스 순서를 따르게 됩니다.

    A   B   C   D
0  a0  b0  c0  d0
1  a1  b1  c1  d1
2  a2  b2  c2  d2
3  a3  b3  c3  d3
4  n1  n2  n3  n4


In [8]:
row_concat_i=pd.concat([df1,df2,df3],ignore_index=True)
print(row_concat_i)

      A    B    C    D
0    a0   b0   c0   d0
1    a1   b1   c1   d1
2    a2   b2   c2   d2
3    a3   b3   c3   d3
4    a4   b4   c4   d4
5    a5   b5   c5   d5
6    a6   b6   c6   d6
7    a7   b7   c7   d7
8    a8   b8   c8   d8
9    a9   b9   c9   d9
10  a10  b10  c10  d10
11  a11  b11  c11  d11


In [9]:
#이번에는 열방향으로 데이터를 합쳐보겠습니다.
col_concat=pd.concat([df1,df2,df3],axis=1)
print(col_concat)

#연결이 된 결과를 보면 concat메서드의 디폴트 axis값은 0이라는걸 알 수 있습니다
#axis=0은 행단위로 묶어내는 것을 알 수 있습니다.

    A   B   C   D   A   B   C   D    A    B    C    D
0  a0  b0  c0  d0  a4  b4  c4  d4   a8   b8   c8   d8
1  a1  b1  c1  d1  a5  b5  c5  d5   a9   b9   c9   d9
2  a2  b2  c2  d2  a6  b6  c6  d6  a10  b10  c10  d10
3  a3  b3  c3  d3  a7  b7  c7  d7  a11  b11  c11  d11


In [10]:
print(col_concat['A'])

    A   A    A
0  a0  a4   a8
1  a1  a5   a9
2  a2  a6  a10
3  a3  a7  a11


In [11]:
#새로운 열을 추가하겠습니다.
col_concat['new_col_list']=['n1','n2','n3','n4']
print(col_concat)

    A   B   C   D   A   B   C   D    A    B    C    D new_col_list
0  a0  b0  c0  d0  a4  b4  c4  d4   a8   b8   c8   d8           n1
1  a1  b1  c1  d1  a5  b5  c5  d5   a9   b9   c9   d9           n2
2  a2  b2  c2  d2  a6  b6  c6  d6  a10  b10  c10  d10           n3
3  a3  b3  c3  d3  a7  b7  c7  d7  a11  b11  c11  d11           n4


In [12]:
col_concat=pd.concat([df1,df2,df3],axis=1,ignore_index=True)
print(col_concat)

#이렇게 열방향으로 입력했을 때는 ignore_index=True를 주게되면
#열이 모든 열의 이름을 무시한채 인덱스순으로 나열이 됩니다.

    0   1   2   3   4   5   6   7    8    9   10   11
0  a0  b0  c0  d0  a4  b4  c4  d4   a8   b8   c8   d8
1  a1  b1  c1  d1  a5  b5  c5  d5   a9   b9   c9   d9
2  a2  b2  c2  d2  a6  b6  c6  d6  a10  b10  c10  d10
3  a3  b3  c3  d3  a7  b7  c7  d7  a11  b11  c11  d11


In [13]:
df1.columns=['A', 'B', 'C', 'D'] 
df2.columns=['E', 'F', 'G', 'H'] 
df3.columns=['A', 'C', 'F', 'H']
#.coulmns를 사용해서 열이름을 다시 지정을 해줄 수도 있습니다.
print(df1)
print(type(df1))

    A   B   C   D
0  a0  b0  c0  d0
1  a1  b1  c1  d1
2  a2  b2  c2  d2
3  a3  b3  c3  d3
<class 'pandas.core.frame.DataFrame'>


In [14]:
print(df2)
print(type(df2))

    E   F   G   H
0  a4  b4  c4  d4
1  a5  b5  c5  d5
2  a6  b6  c6  d6
3  a7  b7  c7  d7
<class 'pandas.core.frame.DataFrame'>


In [15]:
print(df3)
print(type(df3))

     A    C    F    H
0   a8   b8   c8   d8
1   a9   b9   c9   d9
2  a10  b10  c10  d10
3  a11  b11  c11  d11
<class 'pandas.core.frame.DataFrame'>


In [16]:
row_concat=pd.concat([df1,df2,df3], ignore_index=True)
#이런식으로 하면 0,1,2,3,4 인덱스 순으로 나열
row_concat=pd.concat([df1,df2,df3])
print(row_concat)
#그냥 concat 메서드로 묶어 놓으면 열은 열에 맞는 것끼리 인덱스는 reset되어지지않고 지행된다
#데이터프레임에 없는 열의 이름은 누락값으로 처리된다.

     A    B    C    D    E    F    G    H
0   a0   b0   c0   d0  NaN  NaN  NaN  NaN
1   a1   b1   c1   d1  NaN  NaN  NaN  NaN
2   a2   b2   c2   d2  NaN  NaN  NaN  NaN
3   a3   b3   c3   d3  NaN  NaN  NaN  NaN
0  NaN  NaN  NaN  NaN   a4   b4   c4   d4
1  NaN  NaN  NaN  NaN   a5   b5   c5   d5
2  NaN  NaN  NaN  NaN   a6   b6   c6   d6
3  NaN  NaN  NaN  NaN   a7   b7   c7   d7
0   a8  NaN   b8  NaN  NaN   c8  NaN   d8
1   a9  NaN   b9  NaN  NaN   c9  NaN   d9
2  a10  NaN  b10  NaN  NaN  c10  NaN  d10
3  a11  NaN  b11  NaN  NaN  c11  NaN  d11


In [17]:
print(pd.concat([df1,df3],join='inner',axis=0))
#axis 0은 디폴트 값으로 공통된 열을 묶어서 행방향으로 추출합니다.
#df1과 df2의 서로 공통된 열의 이름이 있으면 그 열을 출력합니다.

     A    C
0   a0   c0
1   a1   c1
2   a2   c2
3   a3   c3
0   a8   b8
1   a9   b9
2  a10  b10
3  a11  b11


##### 공통 인덱스 연결

In [18]:
df1.index=[0,1,2,3]
df2.index=[4,5,6,7]
df3.index=[0,2,5,7]

print(df1)
print(df2)
print(df3)

    A   B   C   D
0  a0  b0  c0  d0
1  a1  b1  c1  d1
2  a2  b2  c2  d2
3  a3  b3  c3  d3
    E   F   G   H
4  a4  b4  c4  d4
5  a5  b5  c5  d5
6  a6  b6  c6  d6
7  a7  b7  c7  d7
     A    C    F    H
0   a8   b8   c8   d8
2   a9   b9   c9   d9
5  a10  b10  c10  d10
7  a11  b11  c11  d11


In [19]:
col_concat=pd.concat([df1,df3],axis=1,join='inner')
#axis 1인 상태를 공통된 행을 열로 묶어냅니다.

print(col_concat)

    A   B   C   D   A   C   F   H
0  a0  b0  c0  d0  a8  b8  c8  d8
2  a2  b2  c2  d2  a9  b9  c9  d9


# 데이터 연결 마무리하기
#### merge method 사용하기

In [20]:
person=pd.read_csv('./data/survey_person.csv') 
site=pd.read_csv('./data/survey_site.csv') 
survey=pd.read_csv('./data/survey_survey.csv') 
visited=pd.read_csv('./data/survey_visited.csv')

print(person)

      ident   personal    family
0      dyer    William      Dyer
1        pb      Frank   Pabodie
2      lake   Anderson      Lake
3       roe  Valentina   Roerich
4  danforth      Frank  Danforth


In [21]:
print(site)

    name    lat    long
0   DR-1 -49.85 -128.57
1   DR-3 -47.15 -126.72
2  MSK-4 -48.87 -123.40


In [22]:
print(survey)

    taken person quant  reading
0     619   dyer   rad     9.82
1     619   dyer   sal     0.13
2     622   dyer   rad     7.80
3     622   dyer   sal     0.09
4     734     pb   rad     8.41
5     734   lake   sal     0.05
6     734     pb  temp   -21.50
7     735     pb   rad     7.22
8     735    NaN   sal     0.06
9     735    NaN  temp   -26.00
10    751     pb   rad     4.35
11    751     pb  temp   -18.50
12    751   lake   sal     0.10
13    752   lake   rad     2.19
14    752   lake   sal     0.09
15    752   lake  temp   -16.00
16    752    roe   sal    41.60
17    837   lake   rad     1.46
18    837   lake   sal     0.21
19    837    roe   sal    22.50
20    844    roe   rad    11.25


In [23]:
print(visited)

   ident   site       dated
0    619   DR-1  1927-02-08
1    622   DR-1  1927-02-10
2    734   DR-3  1939-01-07
3    735   DR-3  1930-01-12
4    751   DR-3  1930-02-26
5    752   DR-3         NaN
6    837  MSK-4  1932-01-14
7    844   DR-1  1932-03-22


### merge 메서드는 기본적으로 내부 조인을 실행합니다.
### 메서드를 사용한 데이터 프레임 (visited_subset)을 오른쪽으로 지정

### left_on, right_on 인자는 값이 일치해야 할 왼쪽과 오른쪽 데이터 프레임의 열을 지정

In [24]:
visited_subset=visited.loc[[0,2,6],]
o2o_merge=site.merge(visited_subset, left_on='name', right_on='site')

#site의 name열과, visited의 site열이 일치하면 
#site열을 가진 visited가 right on 우측으로 name열을 가진 site가 왼쪽으로 정렬 됩니다.

print(o2o_merge)

    name    lat    long  ident   site       dated
0   DR-1 -49.85 -128.57    619   DR-1  1927-02-08
1   DR-3 -47.15 -126.72    734   DR-3  1939-01-07
2  MSK-4 -48.87 -123.40    837  MSK-4  1932-01-14


In [25]:
o2o_merge=site.merge(visited, left_on='name', right_on='site')
#만약 부족하면 복사해서 같은 값들끼리 나열을 합니다.
print(o2o_merge)

    name    lat    long  ident   site       dated
0   DR-1 -49.85 -128.57    619   DR-1  1927-02-08
1   DR-1 -49.85 -128.57    622   DR-1  1927-02-10
2   DR-1 -49.85 -128.57    844   DR-1  1932-03-22
3   DR-3 -47.15 -126.72    734   DR-3  1939-01-07
4   DR-3 -47.15 -126.72    735   DR-3  1930-01-12
5   DR-3 -47.15 -126.72    751   DR-3  1930-02-26
6   DR-3 -47.15 -126.72    752   DR-3         NaN
7  MSK-4 -48.87 -123.40    837  MSK-4  1932-01-14


In [26]:
ps=person.merge(survey,left_on='ident',right_on='person')
vs=visited.merge(survey,left_on='ident',right_on='taken')
print(ps)

   ident   personal   family  taken person quant  reading
0   dyer    William     Dyer    619   dyer   rad     9.82
1   dyer    William     Dyer    619   dyer   sal     0.13
2   dyer    William     Dyer    622   dyer   rad     7.80
3   dyer    William     Dyer    622   dyer   sal     0.09
4     pb      Frank  Pabodie    734     pb   rad     8.41
5     pb      Frank  Pabodie    734     pb  temp   -21.50
6     pb      Frank  Pabodie    735     pb   rad     7.22
7     pb      Frank  Pabodie    751     pb   rad     4.35
8     pb      Frank  Pabodie    751     pb  temp   -18.50
9   lake   Anderson     Lake    734   lake   sal     0.05
10  lake   Anderson     Lake    751   lake   sal     0.10
11  lake   Anderson     Lake    752   lake   rad     2.19
12  lake   Anderson     Lake    752   lake   sal     0.09
13  lake   Anderson     Lake    752   lake  temp   -16.00
14  lake   Anderson     Lake    837   lake   rad     1.46
15  lake   Anderson     Lake    837   lake   sal     0.21
16   roe  Vale

In [27]:
print(vs)

    ident   site       dated  taken person quant  reading
0     619   DR-1  1927-02-08    619   dyer   rad     9.82
1     619   DR-1  1927-02-08    619   dyer   sal     0.13
2     622   DR-1  1927-02-10    622   dyer   rad     7.80
3     622   DR-1  1927-02-10    622   dyer   sal     0.09
4     734   DR-3  1939-01-07    734     pb   rad     8.41
5     734   DR-3  1939-01-07    734   lake   sal     0.05
6     734   DR-3  1939-01-07    734     pb  temp   -21.50
7     735   DR-3  1930-01-12    735     pb   rad     7.22
8     735   DR-3  1930-01-12    735    NaN   sal     0.06
9     735   DR-3  1930-01-12    735    NaN  temp   -26.00
10    751   DR-3  1930-02-26    751     pb   rad     4.35
11    751   DR-3  1930-02-26    751     pb  temp   -18.50
12    751   DR-3  1930-02-26    751   lake   sal     0.10
13    752   DR-3         NaN    752   lake   rad     2.19
14    752   DR-3         NaN    752   lake   sal     0.09
15    752   DR-3         NaN    752   lake  temp   -16.00
16    752   DR

### 여러개의 이름 전달하기

In [28]:
ps_vs=ps.merge(vs,left_on=['ident','taken','quant','reading'], right_on=['person','ident','quant','reading'])

print(ps_vs)

#만약 열의 이름이 중복이 된다면 왼쪽열은 _x가 붙고 오른쪽 열은 _y가 붙는다.

   ident_x   personal   family  taken_x person_x quant  reading  ident_y  \
0     dyer    William     Dyer      619     dyer   rad     9.82      619   
1     dyer    William     Dyer      619     dyer   sal     0.13      619   
2     dyer    William     Dyer      622     dyer   rad     7.80      622   
3     dyer    William     Dyer      622     dyer   sal     0.09      622   
4       pb      Frank  Pabodie      734       pb   rad     8.41      734   
5       pb      Frank  Pabodie      734       pb  temp   -21.50      734   
6       pb      Frank  Pabodie      735       pb   rad     7.22      735   
7       pb      Frank  Pabodie      751       pb   rad     4.35      751   
8       pb      Frank  Pabodie      751       pb  temp   -18.50      751   
9     lake   Anderson     Lake      734     lake   sal     0.05      734   
10    lake   Anderson     Lake      751     lake   sal     0.10      751   
11    lake   Anderson     Lake      752     lake   rad     2.19      752   
12    lake  

In [29]:
print(ps_vs.loc[0,])
#위의 데이터의 0행을 추출했습니다.

ident_x           dyer
personal       William
family            Dyer
taken_x            619
person_x          dyer
quant              rad
reading           9.82
ident_y            619
site              DR-1
dated       1927-02-08
taken_y            619
person_y          dyer
Name: 0, dtype: object
