In [1]:
import warnings

warnings.filterwarnings('ignore')
import pandas as pd

분석하기 좋은 데이터란 데이터 집합을 분석하기 좋은 형태로 만들어 놓은 것을 말하고, 데이터 분석 작업에서 데이터 정리는 아주 중요한 작업으로 실제로 데이터 분석 작업의 70% 이상을 차지하고 있는 작업이 데이터 정리 작업이다.
분석하기 좋은 데이터는 데이터 분석 목적에 맞는 데이터들을 모아서 새로운 표(table)를 만들어야 하고 측정한 값은 행, 변수는 열로 구성하며 이 조건을 만족하는 데이터를 깔끔한 데이터(Good Data, Tidy Data)라고 부른다.

In [2]:
df1 = pd.read_csv('./data/concat_1.csv')
df1

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3


In [3]:
df2 = pd.read_csv('./data/concat_2.csv')
df2

Unnamed: 0,A,B,C,D
0,a4,b4,c4,d4
1,a5,b5,c5,d5
2,a6,b6,c6,d6
3,a7,b7,c7,d7


In [4]:
df3 = pd.read_csv('./data/concat_3.csv')
df3

Unnamed: 0,A,B,C,D
0,a8,b8,c8,d8
1,a9,b9,c9,d9
2,a10,b10,c10,d10
3,a11,b11,c11,d11


concat() 메서드는 연결하려는 데이터프레임을 리스트에 담아 인수로 전달하면 연결된 데이터프레임을 반환한다.
concat([df1, df2, ...])
데이터프레임을 연결할 때 기본값이 axis=0으로 설정되어있어 위에서 아래 방향으로 연결된다.

In [5]:
# df1, df2, df3은 열 이름이 모두 같고, 연결한 다음에도 열과 인덱스가 그대로 유지된다.
# row_concat = pd.concat([df1, df2,df3])
row_concat = pd.concat([df1, df2, df3], axis=0)
row_concat

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
0,a4,b4,c4,d4
1,a5,b5,c5,d5
2,a6,b6,c6,d6
3,a7,b7,c7,d7
0,a8,b8,c8,d8
1,a9,b9,c9,d9


In [6]:
# 데이터프레임에 시리즈 연결하기
new_row_series = pd.Series(['n1', 'n2', 'n3', 'n4'])
new_row_series

0    n1
1    n2
2    n3
3    n4
dtype: object

In [7]:
# 시리즈가 새로운 행으로 추가되지 않고 새로운 열로 추가된다. → 누락값(NaN) 다수 생성
# 시리즈에 열 이름이 없기 때문에 시리즈를 데이터프레임의 새로운 행으로 추가하려 할 때 제대로 추가되지 않는다.
# 새로운 시리즈를 새로운 열로 간주해서 '0'이라는 이름의 열로 추가된다.
pd.concat([df1, new_row_series])

Unnamed: 0,A,B,C,D,0
0,a0,b0,c0,d0,
1,a1,b1,c1,d1,
2,a2,b2,c2,d2,
3,a3,b3,c3,d3,
0,,,,,n1
1,,,,,n2
2,,,,,n3
3,,,,,n4


In [8]:
# 행이 1개인 데이터프레임을 생성해서 df1에 추가한다.
# 인수를 1차원 리스트로 전달하면 각각의 데이터를 개별 데이터로 취급하여 열 단위의 데이터프레임이 생성된다.
new_col_df = pd.DataFrame(['n1', 'n2', 'n3', 'n4'])  # 열 단위의 데이터프레임 생성
new_col_df

Unnamed: 0,0
0,n1
1,n2
2,n3
3,n4


In [9]:
pd.concat([df1, new_col_df])

Unnamed: 0,A,B,C,D,0
0,a0,b0,c0,d0,
1,a1,b1,c1,d1,
2,a2,b2,c2,d2,
3,a3,b3,c3,d3,
0,,,,,n1
1,,,,,n2
2,,,,,n3
3,,,,,n4


In [10]:
# 행 단위의 데이터프레임을 만들려면 DataFrame() 메서드로 데이터프레임을 구성할 데이터를 반드시 2차원 리스트로 묶어서 전달해야 한다.
new_row_df = pd.DataFrame([['n1', 'n2', 'n3', 'n4']])  # 행 단위의 데이터프레임 생성
new_row_df

Unnamed: 0,0,1,2,3
0,n1,n2,n3,n4


In [11]:
pd.concat([df1, new_row_df])

Unnamed: 0,A,B,C,D,0,1,2,3
0,a0,b0,c0,d0,,,,
1,a1,b1,c1,d1,,,,
2,a2,b2,c2,d2,,,,
3,a3,b3,c3,d3,,,,
0,,,,,n1,n2,n3,n4


In [12]:
# 열 이름을 지정하지 않으면 기본값으로 0, 1, 2, 3, ... 등으로 붙기 때문에 columns 속성으로 열 이름을 지정한다.
new_row_df = pd.DataFrame([['n1', 'n2', 'n3', 'n4']], columns=['A', 'B', 'C', 'D'])
new_row_df

Unnamed: 0,A,B,C,D
0,n1,n2,n3,n4


In [13]:
print(new_row_df.columns)
pd.concat([df1, new_row_df])

Index(['A', 'B', 'C', 'D'], dtype='object')


Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
0,n1,n2,n3,n4


concat()는 하나의 데이터프레임에 2개 이상의 데이터프레임을 연결하는 메서드이다.
1개의 데이터프레임을 연결할 때는 append() 메서드를 사용할 수 있다.

In [14]:
df1.append(new_row_df)

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
0,n1,n2,n3,n4


In [15]:
# append()나 concat()으로 데이터프레임을 연결할 때 기존 인덱스를 무시하고 새롭게 부여하려면 ignore_index=True 옵션을 지정한다.
df1.append(new_row_df, ignore_index=True)

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
4,n1,n2,n3,n4


※ append()와 딕셔너리를 사용하면 추가할 데이터프레임을 구성하지 않고도 데이터프레임을 추가할 수 있다.
데이터프레임.append(추가할 데이터가 저장된 딕셔너리)

In [16]:
data_dict = {'A': 'n5', 'B': 'n6', 'C': 'n7', 'D': 'n8'}
print(data_dict)
# 데이터프레임이 아닌 딕셔너리를 추가하기 때문에 인덱스가 없으므로 ignore_index=True 옵션을 반드시 지정해야 한다.
# df1.append(data_dict)   # TypeError
df1.append(data_dict, ignore_index=True)

{'A': 'n5', 'B': 'n6', 'C': 'n7', 'D': 'n8'}


Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
4,n5,n6,n7,n8


In [17]:
row_concat = pd.concat([df1, df2, df3], ignore_index=True)
row_concat

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
4,a4,b4,c4,d4
5,a5,b5,c5,d5
6,a6,b6,c6,d6
7,a7,b7,c7,d7
8,a8,b8,c8,d8
9,a9,b9,c9,d9


In [18]:
col_concat = pd.concat([df1, df2, df3], ignore_index=False, axis=1)
col_concat

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2
0,a0,b0,c0,d0,a4,b4,c4,d4,a8,b8,c8,d8
1,a1,b1,c1,d1,a5,b5,c5,d5,a9,b9,c9,d9
2,a2,b2,c2,d2,a6,b6,c6,d6,a10,b10,c10,d10
3,a3,b3,c3,d3,a7,b7,c7,d7,a11,b11,c11,d11


In [19]:
# 같은 열 이름이 있는 데이터프레임에서 열 이름으로 데이터를 추출하면 해당 열 이름이 있는 모든 데이터를 추출한다.
col_concat.A

Unnamed: 0,A,A.1,A.2
0,a0,a4,a8
1,a1,a5,a9
2,a2,a6,a10
3,a3,a7,a11


In [20]:
# 데이터프레임['열 이름'] = [데이터] 형태로 실행하면 새로운 열을 추가/수정 할 수 있다.
col_concat['new_col_list'] = ['b1', 'b2', 'b3', 'b4']  # 존재하지 않는 열에 데이터를 넣으면 데이터프레임이 추가된다.
col_concat

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2,new_col_list
0,a0,b0,c0,d0,a4,b4,c4,d4,a8,b8,c8,d8,b1
1,a1,b1,c1,d1,a5,b5,c5,d5,a9,b9,c9,d9,b2
2,a2,b2,c2,d2,a6,b6,c6,d6,a10,b10,c10,d10,b3
3,a3,b3,c3,d3,a7,b7,c7,d7,a11,b11,c11,d11,b4


In [21]:
col_concat['new_col_list'] = ['n1', 'n2', 'n3', 'n4']  # 존재하는 열에 데이터를 넣으면 수정된다.
col_concat

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2,new_col_list
0,a0,b0,c0,d0,a4,b4,c4,d4,a8,b8,c8,d8,n1
1,a1,b1,c1,d1,a5,b5,c5,d5,a9,b9,c9,d9,n2
2,a2,b2,c2,d2,a6,b6,c6,d6,a10,b10,c10,d10,n3
3,a3,b3,c3,d3,a7,b7,c7,d7,a11,b11,c11,d11,n4


데이터프레임의 열 이름을 변경하려면 columns 속성에 새 열 이름을 리스트 형태로 전달하면 된다.

In [22]:
print(df1.columns)
df2.columns = ['E', 'F', 'G', 'H']
print(df2.columns)
df3.columns = ['A', 'C', 'F', 'H']
print(df3.columns)

Index(['A', 'B', 'C', 'D'], dtype='object')
Index(['E', 'F', 'G', 'H'], dtype='object')
Index(['A', 'C', 'F', 'H'], dtype='object')


In [23]:
# 데이터프레임에 없는 열 이름의 데이터는 누락값으로 처리된다.
pd.concat([df1, df2, df3], ignore_index=True)

Unnamed: 0,A,B,C,D,E,F,G,H
0,a0,b0,c0,d0,,,,
1,a1,b1,c1,d1,,,,
2,a2,b2,c2,d2,,,,
3,a3,b3,c3,d3,,,,
4,,,,,a4,b4,c4,d4
5,,,,,a5,b5,c5,d5
6,,,,,a6,b6,c6,d6
7,,,,,a7,b7,c7,d7
8,a8,,b8,,,c8,,d8
9,a9,,b9,,,c9,,d9


concat()의 join 속성을 inner로 지정하면 데이터프레임에 공통으로 데이터가 있는 열만 골라서 연결할 수 있고 누락값이 발생하지 않는다.

In [24]:
# join 속성의 기본값은 outer이고 모두 연결한다. → NaN 다수 발생 가능
pd.concat([df1, df2, df3], ignore_index=True, join='outer')

Unnamed: 0,A,B,C,D,E,F,G,H
0,a0,b0,c0,d0,,,,
1,a1,b1,c1,d1,,,,
2,a2,b2,c2,d2,,,,
3,a3,b3,c3,d3,,,,
4,,,,,a4,b4,c4,d4
5,,,,,a5,b5,c5,d5
6,,,,,a6,b6,c6,d6
7,,,,,a7,b7,c7,d7
8,a8,,b8,,,c8,,d8
9,a9,,b9,,,c9,,d9


In [25]:
pd.concat([df1, df3], ignore_index=True, join='inner')

Unnamed: 0,A,C
0,a0,c0
1,a1,c1
2,a2,c2
3,a3,c3
4,a8,b8
5,a9,b9
6,a10,b10
7,a11,b11


데이터프레임의 인덱스를 변경하려면 index 속성에 새 인덱스를 리스트 형태로 전달하면 된다.

In [26]:
print(list(df1.index))
df2.index = [4, 5, 6, 7]
print(list(df2.index))
df3.index = [0, 2, 5, 7]
print(list(df3.index))

[0, 1, 2, 3]
[4, 5, 6, 7]
[0, 2, 5, 7]


In [27]:
pd.concat([df1, df3], ignore_index=True, join='inner', axis=1)

Unnamed: 0,0,1,2,3,4,5,6,7
0,a0,b0,c0,d0,a8,b8,c8,d8
2,a2,b2,c2,d2,a9,b9,c9,d9


# 기상 데이터

merge()는 기본적으로 내부 조인(how='inner')을 실행하며 메서드를 실행한 데이터프레임이 왼쪽으로 지정되고 첫 번째 인수로 지정된 데이터프레임이 오른쪽으로 지정된다.
left_on 속성과 right_on 속성은 각각 왼쪽과 오른쪽 데이터프레임에서 일치해야 할 열을 지정한다.

survey_person.csv → 관측자
survey_site.csv → 관측 위치
survey_survey.csv → 기상 정보
survey_visited.csv → 관측 날짜

In [28]:
person = pd.read_csv('./data/survey_person.csv', sep=',')
person

Unnamed: 0,ident,personal,family
0,dyer,William,Dyer
1,pb,Frank,Pabodie
2,lake,Anderson,Lake
3,roe,Valentina,Roerich
4,danforth,Frank,Danforth


In [29]:
site = pd.read_csv('./data/survey_site.csv', sep=',')
site

Unnamed: 0,name,lat,long
0,DR-1,-49.85,-128.57
1,DR-3,-47.15,-126.72
2,MSK-4,-48.87,-123.4
3,DR-100,,


In [30]:
survey = pd.read_csv('./data/survey_survey.csv', sep=',')
survey

Unnamed: 0,taken,person,quant,reading
0,619,dyer,rad,9.82
1,619,dyer,sal,0.13
2,622,dyer,rad,7.8
3,622,dyer,sal,0.09
4,734,pb,rad,8.41
5,734,lake,sal,0.05
6,734,pb,temp,-21.5
7,735,pb,rad,7.22
8,735,,sal,0.06
9,735,,temp,-26.0


In [31]:
visited = pd.read_csv('./data/survey_visited.csv', sep=',')
visited

Unnamed: 0,ident,site,dated
0,619,DR-1,1927-02-08
1,622,DR-1,1927-02-10
2,734,DR-3,1939-01-07
3,735,DR-3,1930-01-12
4,751,DR-3,1930-02-26
5,752,DR-3,
6,837,MSK-4,1932-01-14
7,844,DR-1,1932-03-22


In [32]:
print(site.columns)
print(visited.columns)
# how 속성으로 두 데이터프레임을 합치는 방법을 지정한다. 기본값은 how='inner'이다.
# how 속성을 생략하거나 how ='inner'로 지정하면 두 데이터프레임에 공통적으로 포함된 값이 있는 데이터만 합친다.
o2o_merge = site.merge(visited, left_on='name', right_on='site', how='inner')
o2o_merge

Index(['name', 'lat', 'long'], dtype='object')
Index(['ident', 'site', 'dated'], dtype='object')


Unnamed: 0,name,lat,long,ident,site,dated
0,DR-1,-49.85,-128.57,619,DR-1,1927-02-08
1,DR-1,-49.85,-128.57,622,DR-1,1927-02-10
2,DR-1,-49.85,-128.57,844,DR-1,1932-03-22
3,DR-3,-47.15,-126.72,734,DR-3,1939-01-07
4,DR-3,-47.15,-126.72,735,DR-3,1930-01-12
5,DR-3,-47.15,-126.72,751,DR-3,1930-02-26
6,DR-3,-47.15,-126.72,752,DR-3,
7,MSK-4,-48.87,-123.4,837,MSK-4,1932-01-14


In [33]:
# how 속성을 how='outer'로 지정하면 두 데이터프레임의 모든 데이터를 합친다. 한쪽에만 있는 데이터는 NaN이 채워진다.
o2o_merge = site.merge(visited, left_on='name', right_on='site', how='outer')
o2o_merge

Unnamed: 0,name,lat,long,ident,site,dated
0,DR-1,-49.85,-128.57,619.0,DR-1,1927-02-08
1,DR-1,-49.85,-128.57,622.0,DR-1,1927-02-10
2,DR-1,-49.85,-128.57,844.0,DR-1,1932-03-22
3,DR-3,-47.15,-126.72,734.0,DR-3,1939-01-07
4,DR-3,-47.15,-126.72,735.0,DR-3,1930-01-12
5,DR-3,-47.15,-126.72,751.0,DR-3,1930-02-26
6,DR-3,-47.15,-126.72,752.0,DR-3,
7,MSK-4,-48.87,-123.4,837.0,MSK-4,1932-01-14
8,DR-100,,,,,


In [34]:
# how 속성을 how='left'로 지정하면 왼쪽 데이터프레임의 모든 데이터와 오른쪽 데이터프레임에 있는 공통적으로 포함된 데이터를 합친다. 한쪽에만 있는 데이터는 NaN이 채워진다.
o2o_merge = site.merge(visited, left_on='name', right_on='site', how='right')
o2o_merge

Unnamed: 0,name,lat,long,ident,site,dated
0,DR-1,-49.85,-128.57,619,DR-1,1927-02-08
1,DR-1,-49.85,-128.57,622,DR-1,1927-02-10
2,DR-3,-47.15,-126.72,734,DR-3,1939-01-07
3,DR-3,-47.15,-126.72,735,DR-3,1930-01-12
4,DR-3,-47.15,-126.72,751,DR-3,1930-02-26
5,DR-3,-47.15,-126.72,752,DR-3,
6,MSK-4,-48.87,-123.4,837,MSK-4,1932-01-14
7,DR-1,-49.85,-128.57,844,DR-1,1932-03-22


In [35]:
# how 속성을 how='right'로 지정하면 오른쪽 데이터프레임의 모든 데이터와 왼쪽 데이터프레임에 있는 공통적으로 포함된 데이터를 합친다. 한쪽에만 있는 데이터는 NaN이 채워진다.
s2v_merge = site.merge(visited, left_on='name', right_on='site', how='outer')
s2v_merge

Unnamed: 0,name,lat,long,ident,site,dated
0,DR-1,-49.85,-128.57,619.0,DR-1,1927-02-08
1,DR-1,-49.85,-128.57,622.0,DR-1,1927-02-10
2,DR-1,-49.85,-128.57,844.0,DR-1,1932-03-22
3,DR-3,-47.15,-126.72,734.0,DR-3,1939-01-07
4,DR-3,-47.15,-126.72,735.0,DR-3,1930-01-12
5,DR-3,-47.15,-126.72,751.0,DR-3,1930-02-26
6,DR-3,-47.15,-126.72,752.0,DR-3,
7,MSK-4,-48.87,-123.4,837.0,MSK-4,1932-01-14
8,DR-100,,,,,


In [38]:
print(person.columns)
print(survey.columns)
p2s_merge = person.merge(survey, left_on='ident', right_on='person', how='left')
p2s_merge

Index(['ident', 'personal', 'family'], dtype='object')
Index(['taken', 'person', 'quant', 'reading'], dtype='object')


Unnamed: 0,ident,personal,family,taken,person,quant,reading
0,dyer,William,Dyer,619.0,dyer,rad,9.82
1,dyer,William,Dyer,619.0,dyer,sal,0.13
2,dyer,William,Dyer,622.0,dyer,rad,7.8
3,dyer,William,Dyer,622.0,dyer,sal,0.09
4,pb,Frank,Pabodie,734.0,pb,rad,8.41
5,pb,Frank,Pabodie,734.0,pb,temp,-21.5
6,pb,Frank,Pabodie,735.0,pb,rad,7.22
7,pb,Frank,Pabodie,751.0,pb,rad,4.35
8,pb,Frank,Pabodie,751.0,pb,temp,-18.5
9,lake,Anderson,Lake,734.0,lake,sal,0.05


In [37]:
print(visited.columns)
print(survey.columns)
v2s_merge = visited.merge(survey, left_on='ident', right_on='taken', how='inner')
v2s_merge

Index(['ident', 'site', 'dated'], dtype='object')
Index(['taken', 'person', 'quant', 'reading'], dtype='object')


Unnamed: 0,ident,site,dated,taken,person,quant,reading
0,619,DR-1,1927-02-08,619,dyer,rad,9.82
1,619,DR-1,1927-02-08,619,dyer,sal,0.13
2,622,DR-1,1927-02-10,622,dyer,rad,7.8
3,622,DR-1,1927-02-10,622,dyer,sal,0.09
4,734,DR-3,1939-01-07,734,pb,rad,8.41
5,734,DR-3,1939-01-07,734,lake,sal,0.05
6,734,DR-3,1939-01-07,734,pb,temp,-21.5
7,735,DR-3,1930-01-12,735,pb,rad,7.22
8,735,DR-3,1930-01-12,735,,sal,0.06
9,735,DR-3,1930-01-12,735,,temp,-26.0


In [42]:
print(p2s_merge.columns)
print(v2s_merge.columns)
# left_on, right_on 속성에 전달하는 열 데이터는 여러 개도 가능하다. → 2개 이상의 열 이름을 리스트에 담아서 전달한다.
p2s_v2s_merge = p2s_merge.merge(v2s_merge, left_on=['ident', 'taken', 'quant', 'reading'], right_on=['person', 'ident', 'quant', 'reading'])
# merg2() 함수를 실행하는 두 데이터프레임에 공통된 열 이름이 있으면 _x, _y 접미사가 추가된다.
# _x는 왼쪽 데이터프레임, _y는 오른쪽 데이터프레임을 의미한다.
p2s_v2s_merge

Index(['ident', 'personal', 'family', 'taken', 'person', 'quant', 'reading'], dtype='object')
Index(['ident', 'site', 'dated', 'taken', 'person', 'quant', 'reading'], dtype='object')


Unnamed: 0,ident_x,personal,family,taken_x,person_x,quant,reading,ident_y,site,dated,taken_y,person_y
0,dyer,William,Dyer,619.0,dyer,rad,9.82,619,DR-1,1927-02-08,619,dyer
1,dyer,William,Dyer,619.0,dyer,sal,0.13,619,DR-1,1927-02-08,619,dyer
2,dyer,William,Dyer,622.0,dyer,rad,7.8,622,DR-1,1927-02-10,622,dyer
3,dyer,William,Dyer,622.0,dyer,sal,0.09,622,DR-1,1927-02-10,622,dyer
4,pb,Frank,Pabodie,734.0,pb,rad,8.41,734,DR-3,1939-01-07,734,pb
5,pb,Frank,Pabodie,734.0,pb,temp,-21.5,734,DR-3,1939-01-07,734,pb
6,pb,Frank,Pabodie,735.0,pb,rad,7.22,735,DR-3,1930-01-12,735,pb
7,pb,Frank,Pabodie,751.0,pb,rad,4.35,751,DR-3,1930-02-26,751,pb
8,pb,Frank,Pabodie,751.0,pb,temp,-18.5,751,DR-3,1930-02-26,751,pb
9,lake,Anderson,Lake,734.0,lake,sal,0.05,734,DR-3,1939-01-07,734,lake
