In [1]:
import warnings
warnings.filterwarnings("ignore")
from IPython.display import Image
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
plt.rcParams["font.size"] = 18
plt.rcParams["font.family"] = "NanumGothicCoding"
mpl.rcParams["axes.unicode_minus"] = False
import seaborn as sns
%matplotlib notebook

분석하기 좋은 데이터란 데이터 집합을 분석하기 좋은 상태로 만들어 놓은 것을 말하고 데이터 분석 단계에서 데이터 정리는 아주 중요한 작업으로 실제로 데이터 분석 작업의 70% 이상을 차지하고 있는 작업이 데이터 정리 작업이다.  
분석하기 좋은 데이터는 데이터 분석 목적에 맞는 데이터를 모아 새로운 표(table)로 만들어야 하고 측정한 값은 행으로 변수는 열로 구성을 하며 이 조건을 만족하는 데이터를 깔끔한 데이터(Tidy Data)라고 부른다.

데이터 연결

In [2]:
df_1 = pd.read_csv("./data/concat_1.csv")
df_1

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3


In [3]:
df_2 = pd.read_csv("./data/concat_2.csv")
df_2

Unnamed: 0,A,B,C,D
0,a4,b4,c4,d4
1,a5,b5,c5,d5
2,a6,b6,c6,d6
3,a7,b7,c7,d7


In [4]:
df_3 = pd.read_csv("./data/concat_3.csv")
df_3

Unnamed: 0,A,B,C,D
0,a8,b8,c8,d8
1,a9,b9,c9,d9
2,a10,b10,c10,d10
3,a11,b11,c11,d11


In [5]:
# concat() 메소드는 연결하려는 데이터프레임을 리스트에 담아 전달하면 연결된 데이터프레임을 반환한다.
# concat(데이터프레임, 데이터프레임, ...)
# 데이터프레임을 연결할 때 위에서 아래 방향으로 연결되고 df_1, df_2, df_3은 열 이름이 모두 A, B, C, D로 같고
# 데이터프레임을 연결한 다음에도 열이 그대로 유지되고 인덱스도 그대로 유지된다.
row_concat = pd.concat([df_1, df_2, df_3])
row_concat

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
0,a4,b4,c4,d4
1,a5,b5,c5,d5
2,a6,b6,c6,d6
3,a7,b7,c7,d7
0,a8,b8,c8,d8
1,a9,b9,c9,d9


In [6]:
# concat() 메소드로 데이터프레임을 연결할 때 인덱스를 다시 부여하려면 ignore_index = True 옵션을 사용하면 된다.
row_concat = pd.concat([df_1, df_2, df_3], ignore_index = True)
row_concat

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
4,a4,b4,c4,d4
5,a5,b5,c5,d5
6,a6,b6,c6,d6
7,a7,b7,c7,d7
8,a8,b8,c8,d8
9,a9,b9,c9,d9


In [7]:
# 데이터프레임에 시리즈 연결하기
new_row_series = pd.Series(["n1", "n2", "n3", "n4"])
print(type(new_row_series))
# 시리즈가 새로운 행으로 추가되지 않고 새로운 열로 추가된다. => NaN이라는 값(누락값, 결측치)이 많이 생긴다.
# 시리즈에 열 이름이 없기 때문에 새로운 시리즈를 새로운 열로 간주해서 0이라는 열로 추가하므로 제대로 연결되지 
# 않는다.
pd.concat([df_1, new_row_series])

<class 'pandas.core.series.Series'>


Unnamed: 0,A,B,C,D,0
0,a0,b0,c0,d0,
1,a1,b1,c1,d1,
2,a2,b2,c2,d2,
3,a3,b3,c3,d3,
0,,,,,n1
1,,,,,n2
2,,,,,n3
3,,,,,n4


In [8]:
# 행이 1개인 데이터프레임을 생성해서 df_1에 연결한다.
# 데이터프레임을 만드는 DataFrame() 메소드로 데이터프레임으로 구성할 데이터는 반드시 전체를 리스트로 묶어서 
# 전달해야 한다.
# 데이터프레임으로 구성할 데이터를 리스트로 묶어서 전달하지 않으면 데이터 하나하나를 개별 데이터로 취급해서
# 행 단위의 데이터프레임이 생성되지 않고 열 단위의 데이터 프레임이 생성된다.
new_row_series = pd.DataFrame(["n1", "n2", "n3", "n4"])

In [9]:
pd.concat([df_1, new_row_series])

Unnamed: 0,A,B,C,D,0
0,a0,b0,c0,d0,
1,a1,b1,c1,d1,
2,a2,b2,c2,d2,
3,a3,b3,c3,d3,
0,,,,,n1
1,,,,,n2
2,,,,,n3
3,,,,,n4


In [10]:
# 열 이름을 지정하지 않았으므로 판다스가 0, 1, 2, 3과 같은 방식으로 붙여준다.
new_row_series = pd.DataFrame([["n1", "n2", "n3", "n4"]])

In [11]:
pd.concat([df_1, new_row_series])

Unnamed: 0,A,B,C,D,0,1,2,3
0,a0,b0,c0,d0,,,,
1,a1,b1,c1,d1,,,,
2,a2,b2,c2,d2,,,,
3,a3,b3,c3,d3,,,,
0,,,,,n1,n2,n3,n4


In [12]:
# DataFrame() 메소드의 columns 속성으로 열 이름을 지정할 수 있다.
new_row_df = pd.DataFrame([["n1", "n2", "n3", "n4"]], columns = ["A", "B", "C", "D"])

In [13]:
pd.concat([df_1, new_row_df], ignore_index = True)

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
4,n1,n2,n3,n4


In [14]:
# concat() 메소드는 한 번에 2개 이상의 데이터프레임을 연결하는 메소드이다. 만약 연결할 데이터프레임
# 이 1개라면
# append() 메소드를 사용해도 된다.
# 데이터프레임.append(추가할 데이터프레임)
df_1.append(new_row_df, ignore_index = True)

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
4,n1,n2,n3,n4


In [15]:
# append() 메소드와 딕셔너리를 사용하면 추가할 데이터프레임을 구성하지 않고 간편하게 데이터프레임에
# 추가할 수 있다.
# 데이터프레임.append(추가할 데이터가 저장된 딕셔너리)
data_dict = {"A": "n1", "B": "n2", "C": "n3", "D": "n4"}
print(data_dict)
# 데이터프레임에 데이터프레임이 아닌 딕셔너리를 바로 추가하기 때문에 딕셔너리에는 데이터프레임을 
# 구성하는 인덱스가 없기때문에 반드시 ignore_index=True 옵션을 지정해서 인덱스를 다시 시작되게 
# 해야 한다.
df_1.append(data_dict, ignore_index = True)

{'A': 'n1', 'B': 'n2', 'C': 'n3', 'D': 'n4'}


Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
4,n1,n2,n3,n4


In [16]:
# 데이터프레임을 열 방향으로 연결하려면 concat() 메소드의 axis 속성을 1로 지정하면 된다.
# pd.concat([df_1, df_2, df_3]) # axis 속성을 생략하면 0이 기본값이고 행 단위로 데이터프레임이 
# 합쳐진다.
col_concat = pd.concat([df_1, df_2, df_3], axis = 1)
col_concat

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2
0,a0,b0,c0,d0,a4,b4,c4,d4,a8,b8,c8,d8
1,a1,b1,c1,d1,a5,b5,c5,d5,a9,b9,c9,d9
2,a2,b2,c2,d2,a6,b6,c6,d6,a10,b10,c10,d10
3,a3,b3,c3,d3,a7,b7,c7,d7,a11,b11,c11,d11


In [17]:
col_concat["A"]

Unnamed: 0,A,A.1,A.2
0,a0,a4,a8
1,a1,a5,a9
2,a2,a6,a10
3,a3,a7,a11


In [18]:
# ignore_index = True 속성을 지정하지 않으면 합쳐지는 데이터프레임의 열 이름이 그대로 유지되지만 
# 속성을 지정하면 0부터 다시 시작되는 열 이름이 붙여진다.
pd.concat([df_1, df_2, df_3], axis = 1, ignore_index = True)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11
0,a0,b0,c0,d0,a4,b4,c4,d4,a8,b8,c8,d8
1,a1,b1,c1,d1,a5,b5,c5,d5,a9,b9,c9,d9
2,a2,b2,c2,d2,a6,b6,c6,d6,a10,b10,c10,d10
3,a3,b3,c3,d3,a7,b7,c7,d7,a11,b11,c11,d11


In [19]:
# 데이터프레임["열이름"] = [리스트] 형태로 입력하면 간편하게 새로운 열을 추가할 수 있다.
col_concat["new_col_list"] = ["n1", "n2", "n3", "n4"]
col_concat

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2,new_col_list
0,a0,b0,c0,d0,a4,b4,c4,d4,a8,b8,c8,d8,n1
1,a1,b1,c1,d1,a5,b5,c5,d5,a9,b9,c9,d9,n2
2,a2,b2,c2,d2,a6,b6,c6,d6,a10,b10,c10,d10,n3
3,a3,b3,c3,d3,a7,b7,c7,d7,a11,b11,c11,d11,n4


In [20]:
print(df_1.columns)
# 데이터프레임의 columns 속성을 실행하면 데이터프레임의 열 이름을 확인할 수 있고 columns 속성에 
# 리스트 형태로 열 이름을 지정하면 열 이름을 변경할 수 있다.
df_2.columns = ["E", "F", "G", "H"]
print(df_2.columns)
df_3.columns = ["A", "C", "F", "H"]
print(df_3.columns)

Index(['A', 'B', 'C', 'D'], dtype='object')
Index(['E', 'F', 'G', 'H'], dtype='object')
Index(['A', 'C', 'F', 'H'], dtype='object')


In [21]:
# 새롭게 열 이름을 부여한 df_1, df_2, df_3을 concat() 메소드로 연결하면 열 이름으로 정렬되며 
# 연결되고 데이터 프레임에 없는 열 이름의 데이터는 누락값으로 처리된다.
row_concat = pd.concat([df_1, df_2, df_3])
row_concat

Unnamed: 0,A,B,C,D,E,F,G,H
0,a0,b0,c0,d0,,,,
1,a1,b1,c1,d1,,,,
2,a2,b2,c2,d2,,,,
3,a3,b3,c3,d3,,,,
0,,,,,a4,b4,c4,d4
1,,,,,a5,b5,c5,d5
2,,,,,a6,b6,c6,d6
3,,,,,a7,b7,c7,d7
0,a8,,b8,,,c8,,d8
1,a9,,b9,,,c9,,d9


In [22]:
# join 속성 inner로 지정해서 데이터프레임의 공통 열만 연결하여 누락값이 생기지 않는다.
# df_1, df_2, df_3 데이터프레임은 3개 모두 공통 열이 없기 때문에 Empty 데이터프레임이 출력된다.
pd.concat([df_1, df_2, df_3], ignore_index = True, join = "inner")

0
1
2
3
4
5
6
7
8
9
10


In [23]:
# df_1, df_3 데이터프레임은 2개 모두 공통 열이 있기 때문에 공통 열은 연결한다. => A열, C열이 공통 
# 열로 연결된다.
pd.concat([df_1, df_3], ignore_index = True, join = "inner")

Unnamed: 0,A,C
0,a0,c0
1,a1,c1
2,a2,c2
3,a3,c3
4,a8,b8
5,a9,b9
6,a10,b10
7,a11,b11


In [24]:
# df_2, df_3 데이터프레임은 2개 모두 공통 열이 있기 때문에 공통 열은 연결한다. => F열, H열이 공통 
# 열로 연결된다.
pd.concat([df_2, df_3], ignore_index = True, join = "inner")

Unnamed: 0,F,H
0,b4,d4
1,b5,d5
2,b6,d6
3,b7,d7
4,c8,d8
5,c9,d9
6,c10,d10
7,c11,d11


In [25]:
print(df_1.index)
# 데이터프레임의 index 속성을 실행하면 데이터프레임의 인덱스를 확인할 수 있고 index 속성에 리스트 
# 형태로 인덱스를 지정하면 index를 변경할 수 있다.
df_2.index = [4, 5, 6, 7]
print(df_2.index)
df_3.index = [0, 2, 5, 6]
print(df_3.index) 

RangeIndex(start=0, stop=4, step=1)
Int64Index([4, 5, 6, 7], dtype='int64')
Int64Index([0, 2, 5, 6], dtype='int64')


In [26]:
col_concat = pd.concat([df_1, df_2, df_3], axis = 1)
col_concat

Unnamed: 0,A,B,C,D,E,F,G,H,A.1,C.1,F.1,H.1
0,a0,b0,c0,d0,,,,,a8,b8,c8,d8
1,a1,b1,c1,d1,,,,,,,,
2,a2,b2,c2,d2,,,,,a9,b9,c9,d9
3,a3,b3,c3,d3,,,,,,,,
4,,,,,a4,b4,c4,d4,,,,
5,,,,,a5,b5,c5,d5,a10,b10,c10,d10
6,,,,,a6,b6,c6,d6,a11,b11,c11,d11
7,,,,,a7,b7,c7,d7,,,,


In [27]:
# df_1, df_2, df_3 데이터프레임은 3개 모두 공통 인덱스가 없기 때문에 Empty 데이터프레임이 출력된다.
pd.concat([df_1, df_2, df_3], ignore_index = True, join = "inner", axis = 1)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11


In [28]:
# df_1, df_3 데이터프레임은 2개 모두 공통 인덱스가 있기 때문에 공통 인덱스를 연결한다. => 0, 2행이
# 공통 인덱스로 연결된다.
pd.concat([df_1, df_3], ignore_index = True, join = "inner", axis = 1)

Unnamed: 0,0,1,2,3,4,5,6,7
0,a0,b0,c0,d0,a8,b8,c8,d8
2,a2,b2,c2,d2,a9,b9,c9,d9


In [29]:
# df_2, df_3 데이터프레임은 2개 모두 공통 인덱스가 있기 때문에 공통 인덱스를 연결한다. => 5, 6행이
# 공통 인덱스로 연결된다.
pd.concat([df_2, df_3], ignore_index = True, join = "inner", axis = 1)

Unnamed: 0,0,1,2,3,4,5,6,7
5,a5,b5,c5,d5,a10,b10,c10,d10
6,a6,b6,c6,d6,a11,b11,c11,d11
