# 다중 뷰 구성에 따른 기상 데이터 시각화 



![한양여대 로고](https://www.hywoman.ac.kr/resources/domain/ko/DM_IMG/logo.png)


| 소속     | 한양여자대학교 |   
|----------|----------------|
| 이름     | 윤혜린         |  
| 학번     | 2005943        |   
| 제출일자 | 2022.4.27      |  
                                                                                                  

# 목차

- 서론
    - 무엇을 만들 것인가 
    - 어떻게 만들 것인가 
    - 왜 만드는 것인가 
- 본론
    - 라이브러리 삽입
    - 데이터 삽입 및 구조 파악
    - 구분 없는 데이터
    - 시에틀 데이터
    - 뉴욕 데이터
- 결론
     - 배운 점
     - 느낀 점
     - 각오

# 서론


## 만들고자 하는 과제(what)

vega datasets의 weather 데이터에서 두 도시 시에틀과 뉴욕을 구분하지 않는 시각화 결과를 시에틀과 뉴욕 각각 시각화 한 결과와 함께 비교하고 수평 및 수직 배열로 비교하면서 어떤 배열이 비교하기에 좋은지 판단하려고 한다. 

## 수행방법(how)

jupyter notebook을 기본 라이브러리로 하며 altair와 pandas를 이용하여 시각화를 할 예정이다.

## 과제 목적(why)

뉴욕과 시애틀, 두 도시를 구분없이 시각화하였기 때문에 두 도시를 비교할 때 구분이 잘 되지 않는다는 단점이 있고 이는 오해를 유도할 가능성이 있어 정확성과 신뢰성이 감소할 수 있는 요인이다. 이 요인들을 극복하기 위해 두 도시의 데이터를 각각 시각화하고 수평 및 수직으로 배열하여 비교의 용이성을 찾아보고자 이 시각화를 만드려고 한다.

# 본론

###### 데이터 삽입

In [1]:
import pandas as pd
import altair as alt

In [2]:
weather = 'https://vega.github.io/vega-datasets/data/weather.csv'

In [3]:
df = pd.read_csv(weather)

###### 구조 파악

In [4]:
df.head(10)

Unnamed: 0,location,date,precipitation,temp_max,temp_min,wind,weather
0,Seattle,2012-01-01,0.0,12.8,5.0,4.7,drizzle
1,Seattle,2012-01-02,10.9,10.6,2.8,4.5,rain
2,Seattle,2012-01-03,0.8,11.7,7.2,2.3,rain
3,Seattle,2012-01-04,20.3,12.2,5.6,4.7,rain
4,Seattle,2012-01-05,1.3,8.9,2.8,6.1,rain
5,Seattle,2012-01-06,2.5,4.4,2.2,2.2,rain
6,Seattle,2012-01-07,0.0,7.2,2.8,2.3,rain
7,Seattle,2012-01-08,0.0,10.0,2.8,2.0,sun
8,Seattle,2012-01-09,4.3,9.4,5.0,3.4,rain
9,Seattle,2012-01-10,1.0,6.1,0.6,3.4,rain


In [5]:
df.tail(10)

Unnamed: 0,location,date,precipitation,temp_max,temp_min,wind,weather
2912,New York,2015-12-22,4.8,15.6,11.1,3.8,rain
2913,New York,2015-12-23,29.5,17.2,8.9,4.5,rain
2914,New York,2015-12-24,0.5,20.6,13.9,4.9,rain
2915,New York,2015-12-25,2.5,17.8,11.1,0.9,rain
2916,New York,2015-12-26,0.3,15.6,9.4,4.8,rain
2917,New York,2015-12-27,2.0,17.2,8.9,5.5,rain
2918,New York,2015-12-28,1.3,8.9,1.7,6.3,snow
2919,New York,2015-12-29,16.8,9.4,1.1,5.3,rain
2920,New York,2015-12-30,9.4,10.6,5.0,3.0,rain
2921,New York,2015-12-31,1.5,11.1,6.1,5.5,rain


In [14]:
df.describe(include='all')

Unnamed: 0,location,date,precipitation,temp_max,temp_min,wind,weather
count,2922,2922,2922.0,2922.0,2922.0,2922.0,2922
unique,2,1461,,,,,5
top,Seattle,2012-01-01,,,,,sun
freq,1461,2,,,,,1466
mean,,,2.944764,16.769131,8.61232,4.101129,
std,,,7.695286,8.644596,7.511776,1.880791,
min,,,0.0,-7.7,-16.0,0.4,
25%,,,0.0,10.0,3.3,2.7,
50%,,,0.0,16.1,8.9,3.8,
75%,,,1.8,23.9,13.9,5.1,


###### 두 도시의 색 구분이 없는 시각화

In [6]:
aa=alt.Chart(weather).mark_area().encode(
  alt.X('month(date):T'),
  alt.Y('average(temp_max):Q'),  # 월별 기온 최대값      
  alt.Y2('average(temp_min):Q')  # 월별 기온 최소값
)

aa

###### 두 도시를 색으로만 구분한 데이터

In [7]:
ll=alt.Chart(weather).mark_area(opacity=0.3).encode(
  alt.X('month(date):T'),
  alt.Y('average(temp_max):Q'),
  alt.Y2('average(temp_min):Q'),  
  alt.Color('location:N')         # 도시 별로 색상 구분 
)
ll

###### 시애틀 시각화 결과

In [8]:
ss=alt.Chart(weather).transform_filter(
    'datum.location == "Seattle"'
).mark_area(opacity=0.3).encode(
  alt.X('month(date):T'),
  alt.Y('average(temp_max):Q',
       scale=alt.Scale(type='linear', domain=[-5,30])),
  alt.Y2('average(temp_min):Q'),  
  alt.Color('location:N',
           scale=alt.Scale(domain=['Seattle'],range=['orange'])
        ) # 도시 별로 색상 구분 
)

ss

###### 뉴욕 시각화 결과

In [9]:
nn=alt.Chart(weather).transform_filter(
    'datum.location == "New York"'
).mark_area(opacity=0.3).encode(
  alt.X('month(date):T'),
  alt.Y('average(temp_max):Q',
       scale=alt.Scale(type='linear', domain=[-5,30])
       ),
  alt.Y2('average(temp_min):Q'),  
  alt.Color('location:N',
           scale=alt.Scale(domain=['New York'],range=['blue'])
        )#도시 별로 색상 구분 
)

nn

###### 수평 배열

In [10]:
colors = alt.Scale(
    domain=['Seattle', 'New York'],
    range=['orange', 'purple']
)

ss=alt.Chart(weather).transform_filter(
    'datum.location == "Seattle"'
).mark_area(opacity=0.3).encode(
  alt.X('month(date):T'),
  alt.Y('average(temp_max):Q',
       scale=alt.Scale(type='linear', domain=[-5,30])),
  alt.Y2('average(temp_min):Q'),  
  alt.Color('location:N', scale=colors) # 도시 별로 색상 구분 
)
nn=alt.Chart(weather).transform_filter(
    'datum.location == "New York"'
).mark_area(opacity=0.3).encode(
  alt.X('month(date):T'),
  alt.Y('average(temp_max):Q',
       scale=alt.Scale(type='linear', domain=[-5,30])
       ),
  alt.Y2('average(temp_min):Q'),  
  alt.Color('location:N', scale= colors)#도시 별로 색상 구분 
           
)

ll | ss | nn


###### 수직 배열

In [11]:
ll & ss & nn

###### 수평, 수직 배열 혼합

In [13]:
ll & (ss | nn) 

In [22]:
colors = alt.Scale(
    domain=['Seattle', 'New York'],
    range=['orange', 'purple']
)

SPLOM = alt.Chart().mark_area(filled=True, size=15, opacity=0.5).encode(
  alt.X(alt.repeat('column'), type='quantitative'),                # x-축 반복자 필드 column 지정
  alt.Y(alt.repeat('row'), type='quantitative'),                    # y-축 반복자 필드 row 지정
  alt.Color('location:N', scale= colors)
).properties(
  width=150,
  height=150
).repeat(                                           
  data=weather,
  row=['temp_max', 'temp_min'],                       # row 반복 필드의 배열
  column=['temp_min', 'temp_max']                     # column 반복 필드의 배열
).transform_filter(
  'datum.location == "Seattle"'
)

SPLOM


In [23]:
colors = alt.Scale(
    domain=['Seattle', 'New York'],
    range=['orange', 'purple']
)

SPLOM = alt.Chart().mark_area(filled=True, size=15, opacity=0.5).encode(
  alt.X(alt.repeat('column'), type='quantitative'),                # x-축 반복자 필드 column 지정
  alt.Y(alt.repeat('row'), type='quantitative'),                    # y-축 반복자 필드 row 지정
  alt.Color('location:N', scale= colors)
).properties(
  width=150,
  height=150
).repeat(                                           
  data=weather,
  row=['temp_max', 'temp_min'],                       # row 반복 필드의 배열
  column=['temp_min', 'temp_max']                     # column 반복 필드의 배열
).transform_filter(
  'datum.location == "New York"'
)

SPLOM

# 결론

## 수평 및 수직 배열 비교

비교에서 가장 중요한 점은 비교할 데이터들이 한 눈에 들어오는가이다. 시애틀과 뉴욕 시각화 결과의 수평 배열은 시선을 좌우로 움직여야 하는 단점이 있다. 이와 반대로 해당 시각화 결과의 수직 배열은 시선을 상하로 움직여야 하는 불편함이 있다. 이런 불필요한 시선의 움직임을 최소화 하기 위해 수평 배열과 수직 배열을 혼합하는 방식을 사용하여 화면 안에 시각화 결과들이 한 눈에 보이게 하였다.  

## 배운 점

-다중 뷰를 구현 하는 방법으로는  | (and)연산자를 사용하여 수평으로 배열하거나 &(or)연산자를 사용하여 수직으로 배열하거나 아니면 이 둘을 혼합이여 수평 및 수직으로 배열하는 방식이 있다. 이런 방식은 간단하지만 연산자의 우선순위에 대해 신경쓸 필요가 있다. 이런 과정은 repeat 연산자를 사용하는 반복의 방식으로 코드를 간단하게 만들면서 구현할 수 있다는 점을 알게 되었다.

## 느낀 점

-다중 뷰 구현을 위해 연산자를 사용하면서 연산자의 우선순위가 복잡하다고 생각하였다. 또한 반복 방식을 배우면서 반복 방식에 비해 연산자를 사용하는 방식이 시간을 낭비하는 방법이 아닌가 라는 점을 느끼게 되었다. 

## 각오

-altair의 여러 기능들을 사용하면 복잡한 시각화도 쉽게 구현할 수 있을 것 같다. 앞으로 여러 데이터들을 알테어를 사용하여 구현해 보아야 겠다.