# 05-1 분석하기 좋은 데이터

## 분석하기 좋은 데이터란?

* 데이터 집합을 분석하기 좋은 상태로 만들어 놓은 것
* 데이터 분석 단계에서 데이터 정리는 매우 중요
* 실제로 데이터 분석 작업의 70% 이상을 데이터 정리 작업이 차지
* 분석하기 좋은 데이터를 깔끔한 데이터(Tidy Data)라고 부른다.

### 깔끔한(Tidy) 데이터의 조건
* 데이터 분석 목적에 맞는 데이터를 모아 새로운 표(Table)를 만들어야 한다
* 측정한 값은 행(row)을 구성해야 한다
* 변수는 열(column)로 구성해야 한다

### 깔끔한 데이터는 데이터 연결부터
* 데이터 집합은 연관성이 깊은 값끼리 모여 있기 때문에 데이터 연결을 통해 필요한 데이터를 만드는 과정이 반드시 필요
* 예) '기업 정보'가 있는 데이터 집합과 '주식 가격'이 있는 데이터 집합이 있을 때, '첨단 산업 기업의 주식 가격에 대한 데이터'를 보려면?

# 05-2 데이터 연결 기초

## 데이터 연결하기

### 1. concat 메서드로 데이터 연결하기

In [None]:
import pandas as pd

df1 = pd.read_csv('../data/concat_1.csv') 
df2 = pd.read_csv('../data/concat_2.csv') 
df3 = pd.read_csv('../data/concat_3.csv')

In [None]:
row_concat = pd.concat([df1, df2, df3]) 
print(row_concat)

In [None]:
print(row_concat.iloc[3, ])

### 2. 데이터프레임에 시리즈 연결하기
시리즈에는 열 이름이 없기 때문에, 새로운 열로 간주하여 0 이라는 이름의 열로 추가된다.

In [None]:
new_row_series = pd.Series(['n1', 'n2', 'n3', 'n4'])

In [None]:
print(pd.concat([df1, new_row_series]))

## 행 1개로 구성된 데이터프레임 생성하여 연결하기

In [None]:
new_row_df = pd.DataFrame([['n1', 'n2', 'n3', 'n4']], columns=['A', 'B', 'C', 'D']) 
print(new_row_df)

In [None]:
print(pd.concat([df1, new_row_df]))

In [None]:
print(df1.append(new_row_df))

In [None]:
data_dict = {'A': 'n1', 'B': 'n2', 'C': 'n3', 'D': 'n4'}
print(df1.append(data_dict, ignore_index=True)) # ignore_index=True 설정시, index를 0부터 다시 지정

## 다양한 방법으로 데이터 연결하기

### 1. ignore_index 인자 사용하기

In [None]:
row_concat_i = pd.concat([df1, df2, df3], ignore_index=True) 
print(row_concat_i)

### 2. 열 방향으로 데이터 연결하기

In [None]:
col_concat = pd.concat([df1, df2, df3], axis=1) 
print(col_concat)

In [None]:
print(col_concat['A'])

In [None]:
col_concat['new_col_list'] = ['n1', 'n2', 'n3', 'n4'] 
print(col_concat)

In [None]:
print(pd.concat([df1, df2, df3], axis=1, ignore_index=True)) # 열 이름 다시 지정 

### 3. 공통 열과 공통 인덱스만 연결하기

In [None]:
df1.columns = ['A', 'B', 'C', 'D'] 
df2.columns = ['E', 'F', 'G', 'H'] 
df3.columns = ['A', 'C', 'F', 'H']
print(df1)
print(type(df1))

In [None]:
print(df2)
print(type(df2))

In [None]:
print(df3)
print(type(df3))

In [None]:
row_concat = pd.concat([df1, df2, df3]) 
print(row_concat)

In [None]:
print(pd.concat([df1, df2, df3], join='inner')) # 공통 열만 골라서 연결

In [None]:
print(pd.concat([df1,df3], ignore_index=False, join='inner'))

In [None]:
df1.index = [0, 1, 2, 3] 
df2.index = [4, 5, 6, 7] 
df3.index = [0, 2, 5, 7]

print(df1)

In [None]:
print(df2)

In [None]:
print(df3)

In [None]:
col_concat = pd.concat([df1, df2, df3], axis=1) 
print(col_concat)

In [None]:
print(pd.concat([df1, df3], axis=1, join='inner'))


# 05-3 데이터 연결 마무리

## merge 메서드 사용하기

In [None]:
person = pd.read_csv('../data/survey_person.csv') 
site = pd.read_csv('../data/survey_site.csv') 
survey = pd.read_csv('../data/survey_survey.csv') 
visited = pd.read_csv('../data/survey_visited.csv')

print(person)

In [None]:
print(site)

In [None]:
print(visited)

In [None]:
print(survey)

In [None]:
visited_subset = visited.loc[[0, 2, 6], ]
# print(visited_subset)

In [None]:
o2o_merge = site.merge(visited_subset, left_on='name', right_on='site') 
print(o2o_merge)

In [None]:
m2o_merge = site.merge(visited, left_on='name', right_on='site') 
print(m2o_merge)

In [None]:
ps = person.merge(survey, left_on='ident', right_on='person') 
vs = visited.merge(survey, left_on='ident', right_on='taken')

print(ps)

In [None]:
print(vs)

In [None]:
ps_vs = ps.merge(vs, left_on=['ident', 'taken', 'quant', 'reading'], right_on=['person', 'ident', 'quant', 'reading'])

In [None]:
print(ps_vs.loc[0, ])