# SAP 앱하우저팀 세미나 : Project 'Life Rollercoster'

SAP 인턴 Yu Jin Lee 님의<br>
데이터 처리 및 visuallization을 도와<br>
독일계 앱 및 소프트웨어 솔루션 개발 회사 내의 AppHauser팀의<br> 
'연도별 팀원별 행복지수 그래프' 발표를 돕게 되었습니다.

# 1. 데이터 추출 및 필요한 데이터 선별

In [None]:
# 1). 필요한 모듈 임포트

import plotly as py
import plotly.offline as pyo
import plotly.graph_objects as go
import ipywidgets as widgets
import numpy as np
import scipy as special
from scipy import special
import math

In [None]:
# 2). pandas로 데이터 불러오기

import pandas as pd
csv = pd.read_csv('lifegraph.csv')
csv = csv.iloc[0:10]

csv

In [None]:
# 3). 필요한 데이터 추려서 변수에 저장.

# 1 columns
names = []
# the rest 50 columns
years = []
scores = []


for i in range(len(csv)):
    row = csv.iloc[i]
    name = row['Unnamed: 0']
    year = [y for y in csv.columns if y != 'Unnamed: 0']
    score = [float(row[y]) for y in year]
    if type(name) is str:
        names.append(name)
        years.append(year)
        scores.append(score)

# 2. 상관관계 최고, 최저인 사람을 계산하는 함수 설계

In [None]:
def highest_corr(person: str) -> list:
    '''
    input : 사람이름
    output : [제일 높은 상관계수를 가지는 사람, 제일 낮은 상관계수를 가지는 사람]
    동일한 시점에 둘다 nan이 아닌 경우의 값들만 연대기순으로 추려서 피어슨 상관계수 계산 후 최고 최저의 사람을 리턴.
    '''
    
    # 타겟 person의 인덱스 조사
    target = person
    p_index = [x for x,y in enumerate(names) if y == target][0]
    
    # 타겟 person의 스코어 저장
    target_scores = scores[p_index]
    
    # 타겟 person과의 상관계수를 이름에 맵핑해 저장할 빈 사전 생성.
    corr_dict = dict() 
    
    # names 에 이름 하나마다 상관계수를 조사하여 위 corr_dict에 키: 이름, 값: 상관계수 값으로 저장
    for name in names :
        if name != target:
            
            # get compare's index
            compare_index = [x for x,y in enumerate(names) if y == name][0]
            
            # p_index, compare_index
            p_score = scores[p_index]
            compare_score = scores[compare_index]
            
            # leave the element of index in which two do not have nan
            p_score_2 = []
            compare_score_2 = []
            
            for i in range(len(p_score)): 
                
                # 둘다 nan이 아닌경우의 인덱스 값 저장
                if (not(math.isnan(float(p_score[i])))) and (not(math.isnan(float(compare_score[i])))):
                    
                    p_score_2.append(p_score[i])
                    compare_score_2.append(compare_score[i])
                    
            
            # nan 아닐 경우의 스코어들만 추려낸 리스트 a,b 형성
            a = np.array(p_score_2)
            b = np.array(compare_score_2)
            
            # a,b의 상관계수 계산
            corr = np.corrcoef(a,b)[0][1]
                
            # 루프를 통해 들어온 이름을 키값, 위에서 계산된 상관계수를 맵핑된 값으로 사전에 저장.
            corr_dict[name] = corr
            
    
    # corr dict에서 상관계수 제일 높은 요소와 낮은 요소를 리스트 1번째, 2번째 요소로 추출해서 그 리스트를 리턴
    return [ sorted([(x,y) for x,y in corr_dict.items()], key = lambda x: x[1], reverse = True)[0][0], sorted([(x,y) for x,y in corr_dict.items()], key = lambda x: x[1])[0][0] ]

In [None]:
# 2). Test function highest_corr

highest_corr('Yujin')

# 3. [SAP APPHAUSER]의 인생곡선 인터렉티브 플랏(plotly)

In [None]:
# 1). 레이아웃 결정 
layout = go.Layout(
    title = 'Life Rollercoster',
    yaxis = dict(title = 'happiness level'),
    xaxis = dict(title = 'year')
    )

# 2). 업데이트 함수 설계
def update_plot(persons):
    
    data = []
    
    # 다중 선택 위젯을 통해 입력된 persons 리스트에 대하여 각 사람에 대해 다음을 반복
    for p in persons:
        
        
        # 1). 해당 사람의 인덱스 검색
        p_index = [x for x,y in enumerate(names) if y == p][0]
        
        # 2). 해당 사람의 년도, 행복지수 플롯 
        trace1 = go.Scatter(
        x = years[p_index],
        y = scores[p_index],
        mode = 'lines',
        name = '{}'.format(p),
        line = dict(shape = 'spline')
                            )
        
        data.append(trace1)
        
        # 3). 해당 사람의 행복지수 최저 및 최고 year => dot plot => 한자로 '上'，‘下’ 표시.
        
        #     <1>. 해당 사람의 연도와 행복점수 저장
        p_years = years[p_index]
        p_scores = scores[p_index]
        
        med = np.nanmedian(np.array(p_scores))
        
        #     <2>. nan값들 무시하고, max & min 값을 가지는 인덱스들 추출
        p_scores = [med if math.isnan(float(i)) else i for i in p_scores]
        max_ind = [ind for ind, sco in enumerate(scores[p_index]) if sco == max(p_scores)]
        min_ind = [ind for ind, sco in enumerate(scores[p_index]) if sco == min(p_scores)]
        
        #     <3>. 위 인덱스를 통해 행복점수 최저인 년도와 스코어 추출 
        min_year = [p_years[i] for i in min_ind]
        min_score = [scores[p_index][i] for i in min_ind]
        
        #     <4>. 위 인덱스를 통해 행복점수 최고인 년도와 스코어 추출
        max_year = [p_years[i] for i in max_ind]
        max_score = [scores[p_index][i] for i in max_ind]
        
        #     <5>. 최고, 최저인 년도와 행복 스코어를 dot plot 하기
        #
        trace2 = go.Scatter(
        x= min_year,
        y= min_score,
        mode = "markers+text",
        name = "{} 인생의 암흑기".format(p),
        text = '下',
        textposition="bottom center"
        )
        data.append(trace2)
        #
        trace3 = go.Scatter(
        x= max_year,
        y= max_score,
        mode = "markers+text",
        name = "{} 인생의 전성기".format(p),
        text = "上",
        textposition="bottom center"
        )
        data.append(trace3)
        
    # 만약 위젯으로 선택된 사람이 1명일 경우시, 해당 사람의 시간에 따른 행복점수 스코어와 상관관계가 제일 높은 사람과 낮은 사람 프린트
    if len(persons) == 1:    
        print("\n{}의 인생은 {}와 유사하게 흘렀고, {}와 완전 딴 판입니다.".format(p, highest_corr(p)[0],highest_corr(p)[1]))
    
    # 위에서 data에 모아놓은 플랏들 표시
    fig = go.Figure(data = data, layout = layout)
    py.offline.iplot(fig)


# 3). 인풋을 다중 선택 위젯으로 결정후, 함수 update_plot에 넣는다.
persons = widgets.SelectMultiple(options = names, description = "Bessel Order")
widgets.interactive(update_plot, persons = persons)

--------

# Epilogue

## 4. 배운 점

### 1. Matplotlib에 비해 Plotly로 분석시 더 좋다. 각 포인트의 좌표 및 정보가 나와, 데이터 탐색시 용이할 뿐만 아니라, 인터렉티브하게 플랏을 구성하여 경우의 수를 조정해가며 원하는 것만 또는 원하는 조합대로 볼 수 있다.
### 2. 단순한 커스텀 시각화보다, 시각화를 인터렉티브하게 구성하면, 그 컨텐츠를 사용하는 사람이 더 즐길 수 있다. 
* ex). 자신의 인생그래프와 (자기가 관심을 가지고 있는) 다른 사람과의 인생그래프를 비교하거나, 상관관계를 조회할 수 있다.