<a href="https://colab.research.google.com/github/IlTACK-OH/pandas_practice/blob/main/day3/05_practice.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 분석하기 좋은 데이터

분석하기 좋은 데이터란 데이터 집합을 분석하기 좋은 상태로 만들어 놓은 것을 의미한다.<br>
데이터 분석 단계에서 데이터 정리는 아주 중요하다.실제로 데이터 분석 작업의 70%는 데이터 정리가 차지한다.<br><br>
분석하기 좋은 데이터는 다음과 같은 조건을 만족하며, 이 조건을 만족하는 데이터를 특별히 `Tiny Data(깔끔한 데이터)`라고 한다.
> 1. 데이터 분석 목적에 맞는 데이터를 모아 새로운 표(Table)을 만들어야 한다.
2. 측정한 값은 행(row)를 구성해야 한다.
3. 변수는 열(column)로 구성해야 한다.

# concat 메서드 사용하기

데이터를 연결하기 위해서 `concat`메서드를 사용해보겠다.

In [13]:
import pandas as pd

# 데이터 불러오기
df1 = pd.read_csv('concat_1.csv')
df2 = pd.read_csv('concat_2.csv')
df3 = pd.read_csv('concat_3.csv')

# concat을 이용하여 데이터프레임 연결
row_concat = pd.concat([df1,df2,df3])
row_concat

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
0,a4,b4,c4,d4
1,a5,b5,c5,d5
2,a6,b6,c6,d6
3,a7,b7,c7,d7
0,a8,b8,c8,d8
1,a9,b9,c9,d9


`concat`메서드는 전달받은 리스트의 요소 순서대로 데이터를 연결한다. 그래서 기존 데이터프레임에 있던 인덱스도 그대로 유지된다.

In [14]:
row_concat.iloc[3,:]

A    a3
B    b3
C    c3
D    d3
Name: 3, dtype: object

# 데이터프레임에 시리즈 연결하기

이번에는 데이터프레임+데이터프레임이 아닌 데이터프레임+시리즈 실행해보겠다.

In [15]:
new_row_series = pd.Series(['n1','n2','n3','n4'])

#concat메서드로 연결하기
new_row_concat = pd.concat([df1,new_row_series])
new_row_concat

Unnamed: 0,A,B,C,D,0
0,a0,b0,c0,d0,
1,a1,b1,c1,d1,
2,a2,b2,c2,d2,
3,a3,b3,c3,d3,
0,,,,,n1
1,,,,,n2
2,,,,,n3
3,,,,,n4


# 행 1개로 구성된 데이터프레임 생성하여 연결하기

위의 결과로 알 수 있듯이 시리즈를 데이터프레임의 새로운 행으로 연결하려고 하면 제대로 되지 않는다.<br>
시리즈에는 열 이름이 없기 때문이다.<br><br>
즉, 시리즈를 새로운 행으로 연결하려면 행이 1개인 데이터프레임으로 연결시켜주어야 한다.

In [16]:
new_row_df = pd.DataFrame([['n1','n2','n3','n4']],columns=['A','B','C','D'])
new_row_df

Unnamed: 0,A,B,C,D
0,n1,n2,n3,n4


In [17]:
pd.concat([df1,new_row_df])

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
0,n1,n2,n3,n4


`concat`메서드는 한 번에 2개 이상의 데이터프레임을 연결할 수 있는 메서드이다.<br>만약 연결할 데이터 프레임이 1개라면 `append`메서드를 사용해도 된다.

In [18]:
df1.append(new_row_df)

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
0,n1,n2,n3,n4


# 다양한 방법으로 데이터 연결하기

`append`메서드와 딕셔너리를 사용하면 더욱 간편하게 행을 연결할 수 있다.<br> 이때 `ignore_index=False`를 `True`로 설정하면 데이터를 연결한 다음 데이터프레임의 인덱스를 0부터 다시 지정한다.

In [20]:
row_concat_i = pd.concat([df1,df2,df3],ignore_index=True)
row_concat_i

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
4,a4,b4,c4,d4
5,a5,b5,c5,d5
6,a6,b6,c6,d6
7,a7,b7,c7,d7
8,a8,b8,c8,d8
9,a9,b9,c9,d9


만일 데이터를 행 방향이 아니라 열 방향으로 데이터를 연결하려면 `concat`메서드의 axis인자를 1로 지정하면 된다.

In [21]:
col_concat = pd.concat([df1,df2,df3],axis=1)
col_concat

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2
0,a0,b0,c0,d0,a4,b4,c4,d4,a8,b8,c8,d8
1,a1,b1,c1,d1,a5,b5,c5,d5,a9,b9,c9,d9
2,a2,b2,c2,d2,a6,b6,c6,d6,a10,b10,c10,d10
3,a3,b3,c3,d3,a7,b7,c7,d7,a11,b11,c11,d11


만약 같은 열 이름이 있는 데이터프레임에서 열 이름으로 데이터를 추출하면 해당 열 이름의 데이터를 모두 추출한다.

In [22]:
col_concat['A']

Unnamed: 0,A,A.1,A.2
0,a0,a4,a8
1,a1,a5,a9
2,a2,a6,a10
3,a3,a7,a11


새로운 열을 추가할 경우 다음과 같이 실행한다.

In [23]:
col_concat['new_col_list']=['n1','n2','n3','n4']
col_concat

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2,new_col_list
0,a0,b0,c0,d0,a4,b4,c4,d4,a8,b8,c8,d8,n1
1,a1,b1,c1,d1,a5,b5,c5,d5,a9,b9,c9,d9,n2
2,a2,b2,c2,d2,a6,b6,c6,d6,a10,b10,c10,d10,n3
3,a3,b3,c3,d3,a7,b7,c7,d7,a11,b11,c11,d11,n4


`ignore_index`를 True로 지정하여 겹치는 column명을 삭제하고 새로운 index로 설정하여 준다.

In [25]:
pd.concat([df1,df2,df3],axis=1,ignore_index=True)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11
0,a0,b0,c0,d0,a4,b4,c4,d4,a8,b8,c8,d8
1,a1,b1,c1,d1,a5,b5,c5,d5,a9,b9,c9,d9
2,a2,b2,c2,d2,a6,b6,c6,d6,a10,b10,c10,d10
3,a3,b3,c3,d3,a7,b7,c7,d7,a11,b11,c11,d11


# 공통 열과 공통 인덱스만 연결하기

열 이름의 일부가 서로 다른 데이터 프레임을 연결하면 다음과 같다.

In [28]:
df1.columns=['A','B','C','D']
df2.columns=['E','F','G','H']
df3.columns=['A','C','F','H']

display(df1)
print(type(df1))

display(df2)
print(type(df2))

display(df3)
print(type(df3))

row_concat=pd.concat([df1,df2,df3])
row_concat

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3


<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,E,F,G,H
0,a4,b4,c4,d4
1,a5,b5,c5,d5
2,a6,b6,c6,d6
3,a7,b7,c7,d7


<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,A,C,F,H
0,a8,b8,c8,d8
1,a9,b9,c9,d9
2,a10,b10,c10,d10
3,a11,b11,c11,d11


<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,A,B,C,D,E,F,G,H
0,a0,b0,c0,d0,,,,
1,a1,b1,c1,d1,,,,
2,a2,b2,c2,d2,,,,
3,a3,b3,c3,d3,,,,
0,,,,,a4,b4,c4,d4
1,,,,,a5,b5,c5,d5
2,,,,,a6,b6,c6,d6
3,,,,,a7,b7,c7,d7
0,a8,,b8,,,c8,,d8
1,a9,,b9,,,c9,,d9


열 이름이 자동으로 정렬되며 연결된다. 그리고 데이터프레임에 없는 열 이름의 데이터는 누락값으로 처리되었다.<br><br>
만일 누락값 없이 연결하고 싶을 경우 데이터 프레임의 공통 열만 골라서 연결하면 된다.<br>
공통 열만 골라서 연결하려면 join 인자를 inner로 지정해야 한다.<br>`df1`,`df2`,`df3` 3개의 공통열이 없기 때문에 빈 데이터 프레임이 출력된다.

In [30]:
print(pd.concat([df1,df2,df3],join='inner'))

Empty DataFrame
Columns: []
Index: [0, 1, 2, 3, 0, 1, 2, 3, 0, 1, 2, 3]


df1,df3의 공통 열만 골라 연결해 보겠다.

In [31]:
pd.concat([df1,df3], join='inner')

Unnamed: 0,A,C
0,a0,c0
1,a1,c1
2,a2,c2
3,a3,c3
0,a8,b8
1,a9,b9
2,a10,b10
3,a11,b11


이번에는 데이터프레임을 행 방향으로 연결해보겠다.

In [33]:
df1.index=[0,1,2,3]
df2.index=[4,5,6,7]
df3.index=[0,2,5,7]
display(df1)
print()
display(df2)
print()
display(df3)

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3





Unnamed: 0,E,F,G,H
4,a4,b4,c4,d4
5,a5,b5,c5,d5
6,a6,b6,c6,d6
7,a7,b7,c7,d7





Unnamed: 0,A,C,F,H
0,a8,b8,c8,d8
2,a9,b9,c9,d9
5,a10,b10,c10,d10
7,a11,b11,c11,d11


이 데이터를 행 방향으로 연결하면 다음과 같다.

In [34]:
pd.concat([df1,df2,df3],axis=1)

Unnamed: 0,A,B,C,D,E,F,G,H,A.1,C.1,F.1,H.1
0,a0,b0,c0,d0,,,,,a8,b8,c8,d8
1,a1,b1,c1,d1,,,,,,,,
2,a2,b2,c2,d2,,,,,a9,b9,c9,d9
3,a3,b3,c3,d3,,,,,,,,
4,,,,,a4,b4,c4,d4,,,,
5,,,,,a5,b5,c5,d5,a10,b10,c10,d10
6,,,,,a6,b6,c6,d6,,,,
7,,,,,a7,b7,c7,d7,a11,b11,c11,d11


위와 비슷하게 `df1`,`df3`의 공통 행만 골라 연결해보겠다.

In [35]:
pd.concat([df1,df3],axis=1,join='inner')

Unnamed: 0,A,B,C,D,A.1,C.1,F,H
0,a0,b0,c0,d0,a8,b8,c8,d8
2,a2,b2,c2,d2,a9,b9,c9,d9


# merge 메서드 사용하기

판다스는 데이터 연결 전용 메서드인 merge를 제공한다.<br>
merge실습을 위하여 데이터 집합을 불러오겠다.

In [37]:
person=pd.read_csv('survey_person.csv')
site=pd.read_csv('survey_site.csv')
survey=pd.read_csv('survey_survey.csv')
visited=pd.read_csv('survey_visited.csv')

display(person)
print()
display(site)
print()
display(survey)
print()
display(visited)

Unnamed: 0,ident,personal,family
0,dyer,William,Dyer
1,pb,Frank,Pabodie
2,lake,Anderson,Lake
3,roe,Valentina,Roerich
4,danforth,Frank,Danforth





Unnamed: 0,name,lat,long
0,DR-1,-49.85,-128.57
1,DR-3,-47.15,-126.72
2,MSK-4,-48.87,-123.4





Unnamed: 0,taken,person,quant,reading
0,619,dyer,rad,9.82
1,619,dyer,sal,0.13
2,622,dyer,rad,7.8
3,622,dyer,sal,0.09
4,734,pb,rad,8.41
5,734,lake,sal,0.05
6,734,pb,temp,-21.5
7,735,pb,rad,7.22
8,735,,sal,0.06
9,735,,temp,-26.0





Unnamed: 0,ident,site,dated
0,619,DR-1,1927-02-08
1,622,DR-1,1927-02-10
2,734,DR-3,1939-01-07
3,735,DR-3,1930-01-12
4,751,DR-3,1930-02-26
5,752,DR-3,
6,837,MSK-4,1932-01-14
7,844,DR-1,1932-03-22


`Person`은 관측한 사람의 이름, `site`는 관측 위치, `visited`는 관측날짜, `survey`는 날씨 정보이다.<br>
<br>
`visited` 데이터프레임의 일부 데이터만 떼어 실습에 사용하겠다.

In [38]:
visited_subset=visited.loc[[0,2,6]]

merge메서드는 기본적으로 내부 조인을 실행하며 메서드를 사용한 데이터프레임을 왼쪽으로 지정하고, 첫 번째 인잣값으로 지정한 데이터프레임을 오른쪽으로 지정한다.<br><br>
`left_on`,`right_on`인자는 값이 일치해야 할 왼쪽과 오른쪽 데이터프레임의 열을 지정한다.<br><br> 즉, 왼쪽 데이터프레임의 열과 오른쪽데이터프레임의 열의 값이 일치하면 왼쪽 데이터프레임을 기준으로 연결한다.

In [39]:
site.merge(visited_subset,left_on='name',right_on='site')

Unnamed: 0,name,lat,long,ident,site,dated
0,DR-1,-49.85,-128.57,619,DR-1,1927-02-08
1,DR-3,-47.15,-126.72,734,DR-3,1939-01-07
2,MSK-4,-48.87,-123.4,837,MSK-4,1932-01-14


In [40]:
site.merge(visited,left_on='name',right_on='site')

Unnamed: 0,name,lat,long,ident,site,dated
0,DR-1,-49.85,-128.57,619,DR-1,1927-02-08
1,DR-1,-49.85,-128.57,622,DR-1,1927-02-10
2,DR-1,-49.85,-128.57,844,DR-1,1932-03-22
3,DR-3,-47.15,-126.72,734,DR-3,1939-01-07
4,DR-3,-47.15,-126.72,735,DR-3,1930-01-12
5,DR-3,-47.15,-126.72,751,DR-3,1930-02-26
6,DR-3,-47.15,-126.72,752,DR-3,
7,MSK-4,-48.87,-123.4,837,MSK-4,1932-01-14


In [45]:
ps=person.merge(survey,left_on='ident',right_on='person')
ps

Unnamed: 0,ident,personal,family,taken,person,quant,reading
0,dyer,William,Dyer,619,dyer,rad,9.82
1,dyer,William,Dyer,619,dyer,sal,0.13
2,dyer,William,Dyer,622,dyer,rad,7.8
3,dyer,William,Dyer,622,dyer,sal,0.09
4,pb,Frank,Pabodie,734,pb,rad,8.41
5,pb,Frank,Pabodie,734,pb,temp,-21.5
6,pb,Frank,Pabodie,735,pb,rad,7.22
7,pb,Frank,Pabodie,751,pb,rad,4.35
8,pb,Frank,Pabodie,751,pb,temp,-18.5
9,lake,Anderson,Lake,734,lake,sal,0.05


In [46]:
sv=visited.merge(survey,left_on='ident',right_on='taken')
sv

Unnamed: 0,ident,site,dated,taken,person,quant,reading
0,619,DR-1,1927-02-08,619,dyer,rad,9.82
1,619,DR-1,1927-02-08,619,dyer,sal,0.13
2,622,DR-1,1927-02-10,622,dyer,rad,7.8
3,622,DR-1,1927-02-10,622,dyer,sal,0.09
4,734,DR-3,1939-01-07,734,pb,rad,8.41
5,734,DR-3,1939-01-07,734,lake,sal,0.05
6,734,DR-3,1939-01-07,734,pb,temp,-21.5
7,735,DR-3,1930-01-12,735,pb,rad,7.22
8,735,DR-3,1930-01-12,735,,sal,0.06
9,735,DR-3,1930-01-12,735,,temp,-26.0


left_on,right_on에 전달하는 값은 여러 개라도 상관이 없다. 다음과 같이 여러 개의 열 이름을 리스트에 담아 전달해도 된다.

In [51]:
ps_vs = ps.merge(sv,left_on=['ident','taken','quant','reading'],right_on=['person','ident','quant','reading'])
ps_vs

Unnamed: 0,ident_x,personal,family,taken_x,person_x,quant,reading,ident_y,site,dated,taken_y,person_y
0,dyer,William,Dyer,619,dyer,rad,9.82,619,DR-1,1927-02-08,619,dyer
1,dyer,William,Dyer,619,dyer,sal,0.13,619,DR-1,1927-02-08,619,dyer
2,dyer,William,Dyer,622,dyer,rad,7.8,622,DR-1,1927-02-10,622,dyer
3,dyer,William,Dyer,622,dyer,sal,0.09,622,DR-1,1927-02-10,622,dyer
4,pb,Frank,Pabodie,734,pb,rad,8.41,734,DR-3,1939-01-07,734,pb
5,pb,Frank,Pabodie,734,pb,temp,-21.5,734,DR-3,1939-01-07,734,pb
6,pb,Frank,Pabodie,735,pb,rad,7.22,735,DR-3,1930-01-12,735,pb
7,pb,Frank,Pabodie,751,pb,rad,4.35,751,DR-3,1930-02-26,751,pb
8,pb,Frank,Pabodie,751,pb,temp,-18.5,751,DR-3,1930-02-26,751,pb
9,lake,Anderson,Lake,734,lake,sal,0.05,734,DR-3,1939-01-07,734,lake


In [50]:
display(ps_vs.loc[0,])

ident_x           dyer
personal       William
family            Dyer
taken_x            619
person_x          dyer
quant              rad
reading           9.82
ident_y            619
site              DR-1
dated       1927-02-08
taken_y            619
person_y          dyer
Name: 0, dtype: object

행의 이름을 살펴보면 `_x`,`_y`가 추가되어 있는 것을 알 수 있다.<br>
`_x`는 왼쪽 데이터프레임의 열을 의미하고 `_y`는 오른쪽 데이터프레임의 열을 의미한다.