# 05-1 분석하기 좋은 데이터

## 분석하기 좋은 데이터란?

* 데이터 집합을 분석하기 좋은 상태로 만들어 놓은 것
* 데이터 분석 단계에서 데이터 정리는 매우 중요
* 실제로 데이터 분석 작업의 70% 이상을 데이터 정리 작업이 차지
* 분석하기 좋은 데이터를 깔끔한 데이터(Tidy Data)라고 부른다.

### 깔끔한(Tidy) 데이터의 조건
* 데이터 분석 목적에 맞는 데이터를 모아 새로운 표(Table)를 만들어야 한다
* 측정한 값은 행(row)을 구성해야 한다
* 변수는 열(column)로 구성해야 한다

### 깔끔한 데이터는 데이터 연결부터
* 데이터 집합은 연관성이 깊은 값끼리 모여 있기 때문에 데이터 연결을 통해 필요한 데이터를 만드는 과정이 반드시 필요
* 예) '기업 정보'가 있는 데이터 집합과 '주식 가격'이 있는 데이터 집합이 있을 때, '첨단 산업 기업의 주식 가격에 대한 데이터'를 보려면?

# 05-2 데이터 연결 기초

## 데이터 연결하기

### 1. concat 메서드로 데이터 연결하기

In [1]:
import pandas as pd

df1 = pd.read_csv('../data/concat_1.csv') 
df2 = pd.read_csv('../data/concat_2.csv') 
df3 = pd.read_csv('../data/concat_3.csv')

In [2]:
row_concat = pd.concat([df1, df2, df3]) 
print(row_concat)

     A    B    C    D
0   a0   b0   c0   d0
1   a1   b1   c1   d1
2   a2   b2   c2   d2
3   a3   b3   c3   d3
0   a4   b4   c4   d4
1   a5   b5   c5   d5
2   a6   b6   c6   d6
3   a7   b7   c7   d7
0   a8   b8   c8   d8
1   a9   b9   c9   d9
2  a10  b10  c10  d10
3  a11  b11  c11  d11


In [None]:
print(row_concat.iloc[3, ])

### 2. 데이터프레임에 시리즈 연결하기
시리즈에는 열 이름이 없기 때문에, 새로운 열로 간주하여 0 이라는 이름의 열로 추가된다.

In [None]:
new_row_series = pd.Series(['n1', 'n2', 'n3', 'n4'])

In [None]:
print(pd.concat([df1, new_row_series]))

## 행 1개로 구성된 데이터프레임 생성하여 연결하기

In [None]:
new_row_df = pd.DataFrame([['n1', 'n2', 'n3', 'n4']], columns=['A', 'B', 'C', 'D']) 
print(new_row_df)

In [None]:
print(pd.concat([df1, new_row_df]))

In [None]:
print(df1.append(new_row_df))

In [3]:
data_dict = {'A': 'n1', 'B': 'n2', 'C': 'n3', 'D': 'n4'}
print(df1.append(data_dict, ignore_index=True)) # ignore_index=True 설정시, index를 0부터 다시 지정

AttributeError: 'DataFrame' object has no attribute 'append'

## 다양한 방법으로 데이터 연결하기

### 1. ignore_index 인자 사용하기

In [None]:
row_concat_i = pd.concat([df1, df2, df3], ignore_index=True) 
print(row_concat_i)

### 2. 열 방향으로 데이터 연결하기

In [None]:
col_concat = pd.concat([df1, df2, df3], axis=1) 
print(col_concat)

In [None]:
print(col_concat['A'])

In [None]:
col_concat['new_col_list'] = ['n1', 'n2', 'n3', 'n4'] 
print(col_concat)

In [None]:
print(pd.concat([df1, df2, df3], axis=1, ignore_index=True)) # 열 이름 다시 지정 

### 3. 공통 열과 공통 인덱스만 연결하기

In [4]:
df1.columns = ['A', 'B', 'C', 'D'] 
df2.columns = ['E', 'F', 'G', 'H'] 
df3.columns = ['A', 'C', 'F', 'H']
print(df1)
print(type(df1))

    A   B   C   D
0  a0  b0  c0  d0
1  a1  b1  c1  d1
2  a2  b2  c2  d2
3  a3  b3  c3  d3
<class 'pandas.core.frame.DataFrame'>


In [None]:
print(df2)
print(type(df2))

In [None]:
print(df3)
print(type(df3))

In [5]:
row_concat = pd.concat([df1, df2, df3]) 
print(row_concat)

     A    B    C    D    E    F    G    H
0   a0   b0   c0   d0  NaN  NaN  NaN  NaN
1   a1   b1   c1   d1  NaN  NaN  NaN  NaN
2   a2   b2   c2   d2  NaN  NaN  NaN  NaN
3   a3   b3   c3   d3  NaN  NaN  NaN  NaN
0  NaN  NaN  NaN  NaN   a4   b4   c4   d4
1  NaN  NaN  NaN  NaN   a5   b5   c5   d5
2  NaN  NaN  NaN  NaN   a6   b6   c6   d6
3  NaN  NaN  NaN  NaN   a7   b7   c7   d7
0   a8  NaN   b8  NaN  NaN   c8  NaN   d8
1   a9  NaN   b9  NaN  NaN   c9  NaN   d9
2  a10  NaN  b10  NaN  NaN  c10  NaN  d10
3  a11  NaN  b11  NaN  NaN  c11  NaN  d11


In [None]:
print(pd.concat([df1, df2, df3], join='inner')) # 공통 열만 골라서 연결

In [None]:
print(pd.concat([df1,df3], ignore_index=False, join='inner'))

In [None]:
df1.index = [0, 1, 2, 3] 
df2.index = [4, 5, 6, 7] 
df3.index = [0, 2, 5, 7]

print(df1)

In [None]:
print(df2)

In [None]:
print(df3)

In [None]:
col_concat = pd.concat([df1, df2, df3], axis=1) 
print(col_concat)

In [None]:
print(pd.concat([df1, df3], axis=1, join='inner'))


# 05-3 데이터 연결 마무리

## merge 메서드 사용하기

In [7]:
person = pd.read_csv('../data/survey_person.csv') 
site = pd.read_csv('../data/survey_site.csv') 
survey = pd.read_csv('../data/survey_survey.csv') 
visited = pd.read_csv('../data/survey_visited.csv')

print(person)

      ident   personal    family
0      dyer    William      Dyer
1        pb      Frank   Pabodie
2      lake   Anderson      Lake
3       roe  Valentina   Roerich
4  danforth      Frank  Danforth


In [8]:
print(site)

    name    lat    long
0   DR-1 -49.85 -128.57
1   DR-3 -47.15 -126.72
2  MSK-4 -48.87 -123.40


In [9]:
print(visited)

   ident   site       dated
0    619   DR-1  1927-02-08
1    622   DR-1  1927-02-10
2    734   DR-3  1939-01-07
3    735   DR-3  1930-01-12
4    751   DR-3  1930-02-26
5    752   DR-3         NaN
6    837  MSK-4  1932-01-14
7    844   DR-1  1932-03-22


In [10]:
print(survey)

    taken person quant  reading
0     619   dyer   rad     9.82
1     619   dyer   sal     0.13
2     622   dyer   rad     7.80
3     622   dyer   sal     0.09
4     734     pb   rad     8.41
5     734   lake   sal     0.05
6     734     pb  temp   -21.50
7     735     pb   rad     7.22
8     735    NaN   sal     0.06
9     735    NaN  temp   -26.00
10    751     pb   rad     4.35
11    751     pb  temp   -18.50
12    751   lake   sal     0.10
13    752   lake   rad     2.19
14    752   lake   sal     0.09
15    752   lake  temp   -16.00
16    752    roe   sal    41.60
17    837   lake   rad     1.46
18    837   lake   sal     0.21
19    837    roe   sal    22.50
20    844    roe   rad    11.25


In [None]:
visited_subset = visited.loc[[0, 2, 6], ]
# print(visited_subset)

In [None]:
o2o_merge = site.merge(visited_subset, left_on='name', right_on='site') 
print(o2o_merge)

In [None]:
m2o_merge = site.merge(visited, left_on='name', right_on='site') 
print(m2o_merge)

In [None]:
ps = person.merge(survey, left_on='ident', right_on='person') 
vs = visited.merge(survey, left_on='ident', right_on='taken')

print(ps)

In [None]:
print(vs)

In [None]:
ps_vs = ps.merge(vs, left_on=['ident', 'taken', 'quant', 'reading'], right_on=['person', 'ident', 'quant', 'reading'])

In [None]:
print(ps_vs.loc[0, ])