### 05-1. 분석하기 좋은 데이터
- 분석하기 좋은 데이터: 깔끔한 데이터(Tidy data)
-   조건 1. 데이터 분석 목적에 맞는 데이터를 모아 새로운 표(table)을 만들어아 한다.
-   조건 2. 측정한 값은 행(row)를 구성해야 한다.
-   조건 3. 변수는 열(column)로 구성해야 한다.

### 05-2. 데이터 연결 기초

In [2]:
#1. concat method: 데이터 연결

import pandas as pd

df1 = pd.read_csv('./data/concat_1.csv')
df2 = pd.read_csv('./data/concat_2.csv')
df3 = pd.read_csv('./data/concat_3.csv')

In [3]:
#2. 연결한 데이터 프레임 출력: concat 메서드에 연결하려는 데이터프레임을 리스트에 담아서 전달

row_concat = pd.concat([df1, df2, df3])
print(row_concat)

     A    B    C    D
0   a0   b0   c0   d0
1   a1   b1   c1   d1
2   a2   b2   c2   d2
3   a3   b3   c3   d3
0   a4   b4   c4   d4
1   a5   b5   c5   d5
2   a6   b6   c6   d6
3   a7   b7   c7   d7
0   a8   b8   c8   d8
1   a9   b9   c9   d9
2  a10  b10  c10  d10
3  a11  b11  c11  d11


In [4]:
#3. 특정 행의 데이터 추출
print(row_concat.iloc[3, ])  #iloc = index lcation #3번째 행의 데이터 출력

A    a3
B    b3
C    c3
D    d3
Name: 3, dtype: object


In [5]:
#4. 데이터프레임에 시리즈 연결하기
#   1)리스트를 시리즈로 변환
new_row_series = pd.Series(['n1', 'n2', 'n3', 'n4'])

In [7]:
#5. concat 메서드로 row_concat와 new_row_series 시리즈 연결
print(pd.concat([df1, new_row_series]))  #시리즈는 열로 붙으면서 NaN이 뜬다. 

     A    B    C    D    0
0   a0   b0   c0   d0  NaN
1   a1   b1   c1   d1  NaN
2   a2   b2   c2   d2  NaN
3   a3   b3   c3   d3  NaN
0  NaN  NaN  NaN  NaN   n1
1  NaN  NaN  NaN  NaN   n2
2  NaN  NaN  NaN  NaN   n3
3  NaN  NaN  NaN  NaN   n4


#### 행 1개로 구성된 데이터프레임 생성하여 연결하기

In [9]:
#1. 시리즈에는 열 이름이 없기 때문에 새로운 열로 간주되어 0이라는 이름의 열로 추가됨.
#   그러므로, 행이 1개라도 반드시 데이터프레임에 담은 후 연결해야 함.

new_row_df = pd.DataFrame([['n1', 'n2', 'n3', 'n4']], columns = ['A', 'B', 'C', 'D'])
print(new_row_df)
print()
print(pd.concat([df1, new_row_df]))

    A   B   C   D
0  n1  n2  n3  n4
    A   B   C   D
0  a0  b0  c0  d0
1  a1  b1  c1  d1
2  a2  b2  c2  d2
3  a3  b3  c3  d3
0  n1  n2  n3  n4


In [10]:
#2. concat는 한 번에 2개 이상의 DataFrame 연결 가능.
#연결할 데이터프레임이 1개라면 append 메서드를 사용해도 됨.
print(df1.append(new_row_df))   #단순히 연결하는 것이므로 4번째 인덱스가 그대로 0으로 출력됨.

    A   B   C   D
0  a0  b0  c0  d0
1  a1  b1  c1  d1
2  a2  b2  c2  d2
3  a3  b3  c3  d3
0  n1  n2  n3  n4


In [11]:
#3. append 메서드와 dictionary의 결합
#ignore_index를 True로 설장하면, 데이터 연결 후 인덱스를 0부터 다시 지정

data_dict = {'A': 'n1', 'B': 'n2', 'C': 'n3', 'D': 'n4'}
print(df1.append(data_dict, ignore_index=True))

    A   B   C   D
0  a0  b0  c0  d0
1  a1  b1  c1  d1
2  a2  b2  c2  d2
3  a3  b3  c3  d3
4  n1  n2  n3  n4


#### 다양한 방법으로 데이터 연결하기

In [12]:
#1. ignore_index인자 사용
row_concat_i = pd.concat([df1, df2, df3], ignore_index = True)
print(row_concat_i)

      A    B    C    D
0    a0   b0   c0   d0
1    a1   b1   c1   d1
2    a2   b2   c2   d2
3    a3   b3   c3   d3
4    a4   b4   c4   d4
5    a5   b5   c5   d5
6    a6   b6   c6   d6
7    a7   b7   c7   d7
8    a8   b8   c8   d8
9    a9   b9   c9   d9
10  a10  b10  c10  d10
11  a11  b11  c11  d11


In [13]:
#2. 열 방향으로 데이터 연결하기: concat에 axis=1 추가해주기
col_concat = pd.concat([df1, df2, df3], axis = 1)
print(col_concat)

    A   B   C   D   A   B   C   D    A    B    C    D
0  a0  b0  c0  d0  a4  b4  c4  d4   a8   b8   c8   d8
1  a1  b1  c1  d1  a5  b5  c5  d5   a9   b9   c9   d9
2  a2  b2  c2  d2  a6  b6  c6  d6  a10  b10  c10  d10
3  a3  b3  c3  d3  a7  b7  c7  d7  a11  b11  c11  d11


In [14]:
#3. 같은 열 이름이 있는 데이터프레임에서 열 이름으로 데이터를 추출하면?
print(col_concat['A'])    #해당 열 이름의 데이터를 모두 출력!

    A   A    A
0  a0  a4   a8
1  a1  a5   a9
2  a2  a6  a10
3  a3  a7  a11


In [15]:
#4. 간편하게 새로운 열 추가하기
col_concat['new_col_list'] = ['n1', 'n2', 'n3', 'n4']
print(col_concat)

    A   B   C   D   A   B   C   D    A    B    C    D new_col_list
0  a0  b0  c0  d0  a4  b4  c4  d4   a8   b8   c8   d8           n1
1  a1  b1  c1  d1  a5  b5  c5  d5   a9   b9   c9   d9           n2
2  a2  b2  c2  d2  a6  b6  c6  d6  a10  b10  c10  d10           n3
3  a3  b3  c3  d3  a7  b7  c7  d7  a11  b11  c11  d11           n4


In [18]:
#5. 새 컬럼 추가 후 열 이름 재지정: ignore_index를 True로 지정
print(pd.concat([df1, df2, df3], axis = 1, ignore_index = True))

   0   1   2   3   4   5   6   7    8    9    10   11
0  a0  b0  c0  d0  a4  b4  c4  d4   a8   b8   c8   d8
1  a1  b1  c1  d1  a5  b5  c5  d5   a9   b9   c9   d9
2  a2  b2  c2  d2  a6  b6  c6  d6  a10  b10  c10  d10
3  a3  b3  c3  d3  a7  b7  c7  d7  a11  b11  c11  d11


In [22]:
#6. 공통 열과 공통 인덱스만 연결하기
#컬럼명 재지정
df1.columns = ['A', 'B', 'C', 'D']
df2.columns = ['E', 'F', 'G', 'H']
df3.columns = ['A', 'C', 'F', 'H']
print(df1)
print(type(df1))

print(df2)
print(type(df2))

print(df3)
print(type(df3))

    A   B   C   D
0  a0  b0  c0  d0
1  a1  b1  c1  d1
2  a2  b2  c2  d2
3  a3  b3  c3  d3
<class 'pandas.core.frame.DataFrame'>
    E   F   G   H
0  a4  b4  c4  d4
1  a5  b5  c5  d5
2  a6  b6  c6  d6
3  a7  b7  c7  d7
<class 'pandas.core.frame.DataFrame'>
     A    C    F    H
0   a8   b8   c8   d8
1   a9   b9   c9   d9
2  a10  b10  c10  d10
3  a11  b11  c11  d11
<class 'pandas.core.frame.DataFrame'>


In [30]:
#7. 컬럼명 재지정한 데이터프레임들 연결하기
row_concat = pd.concat([df1, df2, df3], sort = True)
print(row_concat)  #공통 열들에만 데이터가 들어가고, 없는 열 이름의 데이터는 NaN 처리됨

     A    B    C    D    E    F    G    H
0   a0   b0   c0   d0  NaN  NaN  NaN  NaN
1   a1   b1   c1   d1  NaN  NaN  NaN  NaN
2   a2   b2   c2   d2  NaN  NaN  NaN  NaN
3   a3   b3   c3   d3  NaN  NaN  NaN  NaN
0  NaN  NaN  NaN  NaN   a4   b4   c4   d4
1  NaN  NaN  NaN  NaN   a5   b5   c5   d5
2  NaN  NaN  NaN  NaN   a6   b6   c6   d6
3  NaN  NaN  NaN  NaN   a7   b7   c7   d7
0   a8  NaN   b8  NaN  NaN   c8  NaN   d8
1   a9  NaN   b9  NaN  NaN   c9  NaN   d9
2  a10  NaN  b10  NaN  NaN  c10  NaN  d10
3  a11  NaN  b11  NaN  NaN  c11  NaN  d11


In [32]:
#8. 공통 열만 골라서 연결하려면, join 인자를 inner로 지정

print(pd.concat([df1, df2, df3], join = 'inner'))  #df1 ~ df3의 공통열이 없으므로 빈 데이터프레임이 출력된다.

Empty DataFrame
Columns: []
Index: [0, 1, 2, 3, 0, 1, 2, 3, 0, 1, 2, 3]


In [38]:
#9.
print(pd.concat([df1, df3], ignore_index = False, join = 'inner'))

     A    C
0   a0   c0
1   a1   c1
2   a2   c2
3   a3   c3
0   a8   b8
1   a9   b9
2  a10  b10
3  a11  b11


In [44]:
#10. 행 방향으로 연결하기.

#인덱스 재지정
df1.index = [0, 1, 2, 3]
df2.index = [4, 5, 6, 7]
df3.index = [0, 2, 5, 7]

print(df1, '\n')
print(df2, '\n')
print(df3)

    A   B   C   D
0  a0  b0  c0  d0
1  a1  b1  c1  d1
2  a2  b2  c2  d2
3  a3  b3  c3  d3 

    E   F   G   H
4  a4  b4  c4  d4
5  a5  b5  c5  d5
6  a6  b6  c6  d6
7  a7  b7  c7  d7 

     A    C    F    H
0   a8   b8   c8   d8
2   a9   b9   c9   d9
5  a10  b10  c10  d10
7  a11  b11  c11  d11


In [45]:
#11. df1 ~ df3 행 방향으로 연결: concat
col_concat = pd.concat([df1, df2, df3], axis = 1)
print(col_concat)

     A    B    C    D    E    F    G    H    A    C    F    H
0   a0   b0   c0   d0  NaN  NaN  NaN  NaN   a8   b8   c8   d8
1   a1   b1   c1   d1  NaN  NaN  NaN  NaN  NaN  NaN  NaN  NaN
2   a2   b2   c2   d2  NaN  NaN  NaN  NaN   a9   b9   c9   d9
3   a3   b3   c3   d3  NaN  NaN  NaN  NaN  NaN  NaN  NaN  NaN
4  NaN  NaN  NaN  NaN   a4   b4   c4   d4  NaN  NaN  NaN  NaN
5  NaN  NaN  NaN  NaN   a5   b5   c5   d5  a10  b10  c10  d10
6  NaN  NaN  NaN  NaN   a6   b6   c6   d6  NaN  NaN  NaN  NaN
7  NaN  NaN  NaN  NaN   a7   b7   c7   d7  a11  b11  c11  d11


In [46]:
#12. 공통 행만 골라 연결
print(pd.concat([df1, df3], axis = 1, join = 'inner'))

    A   B   C   D   A   C   F   H
0  a0  b0  c0  d0  a8  b8  c8  d8
2  a2  b2  c2  d2  a9  b9  c9  d9


#### inner join VS outer join
- inner join: 둘 이상의 데이터프레임에서 조건에 맞는 행을 연결하는 것.
- outer join: Left outer join, Right outer join, Full outer join
    * Left outer join: 왼쪽 데이터프레임 모두 포함하여 연결
    * Right outer join: 오른쪽 데이터프레임 모두 포함하여 연결
    * Full outer join: 왼쪽, 오른쪽 모두 포함하여 연결

### 05-3. 데이터 연결 마무리

#### merge 메소드 사용하기

In [47]:
#1. 특정 위치의 날씨 정보 데이터 만들기

person = pd.read_csv('./data/survey_person.csv')
site = pd.read_csv('./data/survey_site.csv')
survey = pd.read_csv('./data/survey_survey.csv')
visited = pd.read_csv('./data/survey_visited.csv')

print(person)

print("\n", site)

print("\n", visited)

print("\n", survey)

      ident   personal    family
0      dyer    William      Dyer
1        pb      Frank   Pabodie
2      lake   Anderson      Lake
3       roe  Valentina   Roerich
4  danforth      Frank  Danforth

     name    lat    long
0   DR-1 -49.85 -128.57
1   DR-3 -47.15 -126.72
2  MSK-4 -48.87 -123.40

    ident   site       dated
0    619   DR-1  1927-02-08
1    622   DR-1  1927-02-10
2    734   DR-3  1939-01-07
3    735   DR-3  1930-01-12
4    751   DR-3  1930-02-26
5    752   DR-3         NaN
6    837  MSK-4  1932-01-14
7    844   DR-1  1932-03-22

     taken person quant  reading
0     619   dyer   rad     9.82
1     619   dyer   sal     0.13
2     622   dyer   rad     7.80
3     622   dyer   sal     0.09
4     734     pb   rad     8.41
5     734   lake   sal     0.05
6     734     pb  temp   -21.50
7     735     pb   rad     7.22
8     735    NaN   sal     0.06
9     735    NaN  temp   -26.00
10    751     pb   rad     4.35
11    751     pb  temp   -18.50
12    751   lake   sal     0.10


In [48]:
#2. vistied 데이터프레임의 일부 데이터만 떼어내기
visited_subset = visited.loc[[0, 2, 6], ]

In [49]:
#3. merge : inner join을 기본으로 실행함
#메서드를 사용한 데이터프레임(site)을 왼쪽으로 지정하고, 
#첫 번째 인자값으로 지정한 데이터프레임(visited_subset)을 오른쪽으로 지정.
#left_on, right_on: 값이 일치해야 할 왼쪽과 오른쪽 데이터프레임의 열을 지정
#즉, site의 열(name)과 visited의 열(site)의 값이 일치하면 왼쪽 데이터프레임(site)을 기준으로 연결함.
o2o_merge = site.merge(visited_subset, left_on = 'name', right_on = 'site')
print(o2o_merge)

    name    lat    long  ident   site       dated
0   DR-1 -49.85 -128.57    619   DR-1  1927-02-08
1   DR-3 -47.15 -126.72    734   DR-3  1939-01-07
2  MSK-4 -48.87 -123.40    837  MSK-4  1932-01-14


In [50]:
#4. site, visited 데이터프레임을 이용하여 데이터 연결
m2o_merge = site.merge(visited, left_on = 'name', right_on = 'site')
print(m2o_merge)

    name    lat    long  ident   site       dated
0   DR-1 -49.85 -128.57    619   DR-1  1927-02-08
1   DR-1 -49.85 -128.57    622   DR-1  1927-02-10
2   DR-1 -49.85 -128.57    844   DR-1  1932-03-22
3   DR-3 -47.15 -126.72    734   DR-3  1939-01-07
4   DR-3 -47.15 -126.72    735   DR-3  1930-01-12
5   DR-3 -47.15 -126.72    751   DR-3  1930-02-26
6   DR-3 -47.15 -126.72    752   DR-3         NaN
7  MSK-4 -48.87 -123.40    837  MSK-4  1932-01-14


In [51]:
#5. person, survey 를  visited, survey를 merge로 연결.
ps = person.merge(survey, left_on = 'ident', right_on = 'person') #person의 ident와 survey의 person이 같은 것
vs = visited.merge(survey, left_on = 'ident', right_on = 'taken') #visited의 ident와 survey의 taken이 같은 것

print(ps)
print("\n", vs)

   ident   personal   family  taken person quant  reading
0   dyer    William     Dyer    619   dyer   rad     9.82
1   dyer    William     Dyer    619   dyer   sal     0.13
2   dyer    William     Dyer    622   dyer   rad     7.80
3   dyer    William     Dyer    622   dyer   sal     0.09
4     pb      Frank  Pabodie    734     pb   rad     8.41
5     pb      Frank  Pabodie    734     pb  temp   -21.50
6     pb      Frank  Pabodie    735     pb   rad     7.22
7     pb      Frank  Pabodie    751     pb   rad     4.35
8     pb      Frank  Pabodie    751     pb  temp   -18.50
9   lake   Anderson     Lake    734   lake   sal     0.05
10  lake   Anderson     Lake    751   lake   sal     0.10
11  lake   Anderson     Lake    752   lake   rad     2.19
12  lake   Anderson     Lake    752   lake   sal     0.09
13  lake   Anderson     Lake    752   lake  temp   -16.00
14  lake   Anderson     Lake    837   lake   rad     1.46
15  lake   Anderson     Lake    837   lake   sal     0.21
16   roe  Vale

In [55]:
#6. 여러 개의 컬럼을 리스트에 담아 전달해도 됨.
ps_vs = ps.merge(vs, left_on = ['ident', 'taken', 'quant', 'reading'], right_on = ['person', 'ident', 'quant', 'reading'])
print(ps_vs)           #ps와 vs에 공통적으로 있는 열 이름(ident, taken, person)은 접미사가 추가되어있음
#                      (_x: 왼쪽 데이터프레임, _y: 오른쪽 데이터프레임 )
print(ps_vs.loc[0, ])  #0행 출력

   ident_x   personal   family  taken_x person_x quant  reading  ident_y  \
0     dyer    William     Dyer      619     dyer   rad     9.82      619   
1     dyer    William     Dyer      619     dyer   sal     0.13      619   
2     dyer    William     Dyer      622     dyer   rad     7.80      622   
3     dyer    William     Dyer      622     dyer   sal     0.09      622   
4       pb      Frank  Pabodie      734       pb   rad     8.41      734   
5       pb      Frank  Pabodie      734       pb  temp   -21.50      734   
6       pb      Frank  Pabodie      735       pb   rad     7.22      735   
7       pb      Frank  Pabodie      751       pb   rad     4.35      751   
8       pb      Frank  Pabodie      751       pb  temp   -18.50      751   
9     lake   Anderson     Lake      734     lake   sal     0.05      734   
10    lake   Anderson     Lake      751     lake   sal     0.10      751   
11    lake   Anderson     Lake      752     lake   rad     2.19      752   
12    lake  

In [None]:
#누락값, 중복값 해결이 데이터 분석의 기초!!