### make table 

- 아래 코드는 키워드 네트워크를 구성하고, 중요한 키워드를 테이블로 만들어서 엑셀로 만들어주는 부분
- 그림 그리는 부분은 다음 셀에서 진행한다. 

In [334]:
# 필터링을 진행한 경우 
import networkx as nx
import pandas as pd
import matplotlib.pyplot as plt
import itertools
from collections import Counter
from inflection import singularize 
from textblob import TextBlob

"""
centrality를 계산하는 함수들입니다. 
사실 networkx에 있는 것과 큰 차이 없는데, 그래도 제가 편하려고 몇 개는 고치고, 
이름을 return 으로 시작하는 것으로 동일화해서 저장해두었습니다. 
"""
def return_weighted_degree_centrality(input_g, normalized=True):
    w_d_centrality = {n:0.0 for n in input_g.nodes()}
    for u, v, d in input_g.edges(data=True):
        w_d_centrality[u]+=d['weight']
        w_d_centrality[v]+=d['weight']
    if normalized==True:
        weighted_sum = sum(w_d_centrality.values())
        return {k:v/weighted_sum for k, v in w_d_centrality.items()}
    else:
        return w_d_centrality
def return_closeness_centrality(input_g):
    new_g_with_distance = input_g.copy()
    for u,v,d in new_g_with_distance.edges(data=True):
        if 'distance' not in d:
            d['distance'] = 1.0/d['weight']
    return nx.closeness_centrality(new_g_with_distance, distance='distance')
def return_betweenness_centrality(input_g):
    return nx.betweenness_centrality(input_g, weight='weight')
def return_pagerank(input_g):
    return nx.pagerank(input_g, weight='weight')

"""
일종의 main 함수입니다. 
raw_df를 넘기는데, 가능하면 해당 argument에서 복사해서 넘겨주는 게 좋을 것 같습니다. 혹시나 싶어서요. 
"""
def scopus_analysis(raw_df, outputExcelname):
    new_df = raw_df[['Author Keywords', 'Year', 'Abstract']].dropna()
    new_df['Author Keywords'] = new_df['Author Keywords'].apply(lambda s: s.split(";"))
    new_df['Author Keywords'] = new_df['Author Keywords'].apply(lambda ks: [singularize(k).strip().lower() for k in ks])
    new_df['Noun Phrases'] = new_df['Abstract'].apply(lambda s: TextBlob(s).noun_phrases)
    new_df['Noun Phrases'] = new_df['Noun Phrases'].apply(lambda ks: [singularize(k).lower().strip() for k in ks])
    # edge를 만들때 중복을 방지하기 위해서 sorting해둔다. 
    new_df['Author Keywords'] = new_df['Author Keywords'].apply(lambda l: sorted(list(set(l))))
    new_df['Noun Phrases'] = new_df['Noun Phrases'].apply(lambda l: sorted(list(set(l))))
    """
    여기 부분에서 토탈 키워드를 세었을 때, 최소한 2개 혹은 n개가 넘는 경우에 대해서만 해당 노드가 의미가 있다고 생각하고. 
    나머지 키워드는 무시하고 진행해야 노드의 수가 확연히 줄어들 수 있지 않을까? 
    """
    def total_count(input_df, column_name='Author Keywords'):
        # 'Author Keywords' or 'Noun Phrases'
        r = itertools.chain.from_iterable(input_df[column_name])
        r = Counter(r).most_common()
        return pd.DataFrame(r, columns=[column_name, 'count'])
    def filtering_auth_kwds(input_df,column_name='Author Keywords', above_n=3):
        """
        개별 node가 전체에서 1번 밖에 등장하지 않는 경우도 많은데, 이를 모두 고려해서 분석을 하면, 효율적이지 못한 계산이 된다. 
        따라서, 빈도가 일정 이상을 넘는 경우에 대해서만 고려하여 new_df를 수정하는 것이 필요하다. 
        """
        filtered_kwds = total_count(input_df)
        filtered_kwds = set(filtered_kwds[filtered_kwds['count']>=above_n][column_name])
        #return filtered_kwds
        input_df[column_name] = input_df[column_name].apply(lambda ks: list(filter(lambda k: True if k in filtered_kwds else False, ks)))
        return input_df
    def yearly_rank(input_df, column_name='Author Keywords', until_rank_n=50):
        r_dict = {}
        for year, year_df in input_df.groupby('Year'):
            r_dict[year] = list(total_count(year_df, column_name=column_name)[column_name])[:until_rank_n]
            if len(r_dict[year])<until_rank_n:
                for i in range(0, until_rank_n - len(r_dict[year])):
                    r_dict[year].append("")
        return pd.DataFrame(r_dict)
    #print(total_count('Noun Phrases'))
    """
    df로부터 그래프를 만ㄷ르어서 리턴해주는 함수입니다.
    """
    def make_graph(input_df, column_name='Author Keywords'):
        # make edges: edge가 중복으로 생기지 않게 하려면, 
        def make_edges_from_lst(lst):
            if len(lst)>1:
                return [(lst[i], lst[j]) for i in range(0, len(lst)-1) for j in range(i+1, len(lst))]
            else:
                return []
        edges = itertools.chain.from_iterable(input_df[column_name].apply(make_edges_from_lst))
        edges = ((uv[0], uv[1], w) for uv, w in Counter(edges).most_common())
        G = nx.Graph()
        G.add_weighted_edges_from(edges)
        # graph에 대한 데이터 필터링이 필요할 수 있는데. 여기서. 
        return G
    def total_centrality(input_df, centrality_func):
        inputG = make_graph(input_df)
        r = sorted(centrality_func(inputG).items(), key=lambda e: e[1], reverse=True)
        return pd.DataFrame(r, columns=['kwd', 'centrality'])
    def yearly_centrality_rank(input_df, cent_func, column_name = 'Author Keywords', until_rank_n=50):
        r_dict={}
        for year, year_df in input_df.groupby("Year"):
            r_dict[year] = list(total_centrality(year_df, cent_func)['kwd'][:until_rank_n])
            if len(r_dict[year])<until_rank_n:
                for i in range(0, until_rank_n - len(r_dict[year])):
                    r_dict[year].append("")
        return pd.DataFrame(r_dict)
    """
    그래프 그리기 
    """
    def drop_low_weighted_edge(inputG, above_weight=3):
        rG = nx.Graph()
        rG.add_nodes_from(inputG.nodes(data=True))
        edges = filter(lambda e: True if e[2]['weight']>=above_weight else False, inputG.edges(data=True))
        rG.add_edges_from(edges)
        for n in inputG.nodes(): # neighbor가 없는 isolated node를 모두 지운다. 
            if len(list(nx.all_neighbors(rG, n)))==0:
                rG.remove_node(n)
            #print(n, list(nx.all_neighbors(rG, n)))
        return rG

    def draw_whole_graph(inputG, outputFileName):
        f = plt.figure(figsize=(13,7))
        plt.margins(x=0.1, y=0.1) # text 가 잘리는 경우가 있어서, margins을 넣음
        pos = nx.spring_layout(inputG)
        """
        - weight에 따라서 값을 0.1에서 1.0으로 스케일링 하는데, 그냥 minmax scaling 하는 것은 적합하지 않을 것 같고 
        - 해당 데이터들이 특정한 분포를 가지고 있다고 가정하고, 그 분포에 의거해서 그림을 그려주는 게 좋을 것 같다는 생각이 드는데. 
        - 흐음. 
        """
        node_weight_lst = map(np.log, [n[1]['weight'] for n in inputG.nodes(data=True)])
        edge_weight_lst = [e[2]['weight'] for e in inputG.edges(data=True)] 
        nx.draw_networkx_nodes(inputG, pos, 
                         node_size = [ n[1]['weight']*1000 for n in inputG.nodes(data=True)],
                         alpha=1.0 )
        """
        - label의 경우는 특정 node만 그릴 수 없음. 그리면 모두 그려야함. 
        """
        nx.draw_networkx_labels(inputG, pos, font_weight='bold', 
                                font_family='sans-serif', 
                                font_color='black', font_size=15
                               )
        nx.draw_networkx_edges(inputG, pos, 
                               width = [e[2]['weight'] for e in inputG.edges(data=True)], 
                               edge_color='b', alpha=0.5
                              )
        plt.axis('off')
        plt.show()
    new_df = filtering_auth_kwds(new_df) # 빈도 n 개 이하의 키워드 삭제 
    writer = pd.ExcelWriter(outputExcelname)
    total_count(new_df, column_name='Author Keywords').to_excel(writer, '1. 전체 저자 키워드 빈도 상위 키워드')
    total_count(new_df, column_name='Noun Phrases').to_excel(writer, '2. 전체 noun phrase 빈도 상위')
    yearly_rank(new_df, column_name='Author Keywords').to_excel(writer, '3. 연도별 저자 키워드 순위 변화')
    yearly_rank(new_df, column_name='Noun Phrases').to_excel(writer, '4. 연도별 noun phrase 순위 변화')
    print("빈도 완료")
    total_centrality(new_df, return_weighted_degree_centrality).to_excel(writer, '5. 전체 저자 키워드 w. deg cent')
    total_centrality(new_df, return_closeness_centrality).to_excel(writer, '6. 전체 저자 키워드 closeness cent')
    total_centrality(new_df, return_betweenness_centrality).to_excel(writer, '7. 전체 저자 키워드 betweeness cent')
    print("전체 centrality 완료")
    yearly_centrality_rank(new_df, return_weighted_degree_centrality).to_excel(writer, '8. 저자 키워드 연도별 w. deg cent 순위 변화')
    yearly_centrality_rank(new_df, return_closeness_centrality).to_excel(writer, '9. 저자 키워드 연도별 close cent 순위 변화')
    yearly_centrality_rank(new_df, return_betweenness_centrality).to_excel(writer, '91. 저자 키워드 연도별 betw cent 순위 변화')
    yearly_centrality_rank(new_df, return_pagerank).to_excel(writer, '92. 저자 키워드 연도별 pagerank 순위 변화')
    writer.save()

excel_path_and_filename = "../../../Downloads/SMEs_Scopus_2013-2017.xlsx"
df = pd.read_excel(excel_path_and_filename)
df = df[['Author Keywords', 'Year', 'Abstract']]

a = scopus_analysis(df[:500].copy(), 'simple_report_for_SME.xlsx')
print("complete")

빈도 완료
전체 centrality 완료
complete


## draw network 

- 그림을 예쁘게 그려 봅시다. 

In [333]:
# 필터링을 진행한 경우 
import networkx as nx
import pandas as pd
import matplotlib.pyplot as plt
import itertools
from collections import Counter
from inflection import singularize 
from textblob import TextBlob
from pptx import Presentation
from pptx.util import Inches

import graphviz
"""
일종의 main 함수입니다. 
raw_df를 넘기는데, 가능하면 해당 argument에서 복사해서 넘겨주는 게 좋을 것 같습니다. 혹시나 싶어서요. 
"""
def draw_and_export_ppt(raw_df, outputPPTname):
    def total_count(input_df, column_name='Author Keywords'):
        # 'Author Keywords' or 'Noun Phrases'
        r = itertools.chain.from_iterable(input_df[column_name])
        r = Counter(r).most_common()
        return pd.DataFrame(r, columns=[column_name, 'count'])
    def filtering_auth_kwds(input_df,column_name='Author Keywords', above_n=3):
        """
        개별 node가 전체에서 1번 밖에 등장하지 않는 경우도 많은데, 이를 모두 고려해서 분석을 하면, 효율적이지 못한 계산이 된다. 
        따라서, 빈도가 일정 이상을 넘는 경우에 대해서만 고려하여 new_df를 수정하는 것이 필요하다. 
        """
        filtered_kwds = total_count(input_df)
        filtered_kwds = set(filtered_kwds[filtered_kwds['count']>=above_n][column_name])
        #return filtered_kwds
        input_df[column_name] = input_df[column_name].apply(lambda ks: list(filter(lambda k: True if k in filtered_kwds else False, ks)))
        return input_df
    def make_graph(input_df, column_name='Author Keywords'):
        # make edges: edge가 중복으로 생기지 않게 하려면, 
        def make_edges_from_lst(lst):
            if len(lst)>1:
                return [(lst[i], lst[j]) for i in range(0, len(lst)-1) for j in range(i+1, len(lst))]
            else:
                return []
        nodes = total_count(input_df)
        new_nodes = []
        for i in range(0, len(nodes)):
            name = nodes[column_name].iloc()[i]
            w = nodes['count'].iloc()[i]
            new_nodes.append( (name, {'weight':w}) )
        nodes = new_nodes
        edges = itertools.chain.from_iterable(input_df[column_name].apply(make_edges_from_lst))
        edges = ((uv[0], uv[1], w) for uv, w in Counter(edges).most_common())
        G = nx.Graph()
        G.add_nodes_from(nodes)
        G.add_weighted_edges_from(edges)
        # graph에 대한 데이터 필터링이 필요할 수 있는데. 여기서. 
        return G
    
    def make_ego_graph_from_inputG(inputG, target_n):
        newG = nx.Graph()
        edges = filter(lambda s: True if s[0]==target_n or s[1]==target_n else False, (e for e in inputG.edges(data=True)))
        edges = list(edges)
        nodes = itertools.chain.from_iterable([[e[0], e[1]] for e in edges])
        
    def nxG_to_dotG(nx_G):
        dot_G = graphviz.Graph(comment="this is what?")
        dot_G.attr(rankdir='LR')
        max_n_weight = max((n[1]['weight'] for n in nx_G.nodes(data=True)))
        min_n_weight = min((n[1]['weight'] for n in nx_G.nodes(data=True)))
        for node in nx_G.nodes(data=True):
            weight = (node[1]['weight'] - min_n_weight)/max_n_weight * 3 + 2
            dot_G.node(node[0], shape='circle', color='blue', height='{}'.format(weight), width='{}'.format(weight), 
                       fixedsize='true', fontcolor='blue', fontsize='{}'.format(20*weight))
        # edge normalization: 10이면 많이 굵은 편이고 1이면 얇은 편. 1-10 으로 표준화하자.
        max_e_weight = max((e[2]['weight'] for e in nx_G.edges(data=True)))
        min_e_weight = min((e[2]['weight'] for e in nx_G.edges(data=True)))
        for edge in nx_G.edges(data=True):
            weight = (edge[2]['weight'] - min_e_weight)/(max_e_weight - min_e_weight) * 20 + 5
            dot_G.edge(edge[0], edge[1], style='setlinewidth({})'.format(weight))
        return dot_G
        
    def save_graph(dot_string, output_file_name, file_format='svg'):
        if type(dot_string) is str:
            g = graphviz.Source(dot_string)
        elif isinstance(dot_string, (graphviz.dot.Digraph, graphviz.dot.Graph)):
            g = dot_string
        g.format=file_format
        g.filename = output_file_name
        g.directory = '../../assets/images/markdown_img/'
        g.render(view=False)
        return g
    """
    여기서는 우선 author keywords에 대해서만 진행함. 
    """
    new_df = raw_df[['Author Keywords', 'Year', 'Abstract']].dropna()
    new_df['Author Keywords'] = new_df['Author Keywords'].apply(lambda s: s.split(";"))
    new_df['Author Keywords'] = new_df['Author Keywords'].apply(lambda ks: [singularize(k).strip().lower() for k in ks])
    new_df['Author Keywords'] = new_df['Author Keywords'].apply(lambda l: sorted(list(set(l))))
    
    """
    전체 키워드의 경우는 상위 20개의 키워드에 대해서만 그린다. 따라서 50개에 대해서 필터링 해줌. 
    """
    new_df = filtering_auth_kwds(new_df, above_n = total_count(new_df)['count'][20])
    """
    전체 그래프 그리기 
    """
    content_lst = []
    G = make_graph(new_df)
    title_name = 'entire_network_180508'
    save_graph(nxG_to_dotG(G), title_name, 'png')
    content_lst.append((title_name, "", title_name+".png"))
    """
    ego-network 그리기. 
    """
    for k in list(total_count(new_df)['Author Keywords'])[:20]:
        egoG = nx.ego_graph(G, k)
        pic_title_name= 'ego_network_{}_180508'.format(k)
        save_graph(nxG_to_dotG(egoG), pic_title_name, 'png')
        content_lst.append((pic_title_name, "", pic_title_name+".png"))
    
    this_prs = Presentation()
    slide_layout = this_prs.slide_layouts[1] 
    for title, content, img_file_name in content_lst:
        this_slide = this_prs.slides.add_slide(slide_layout)
        shapes = this_slide.shapes
        shapes.title.text = title
        shapes.placeholders[1].text = content
        # placeholders는 개별 slide에 있는 모든 개체를 가져온다고 보면 됨. 
        #shapes.add_picture(img_stream, left, top, height=height)
        #shapes.add_picture(img_file_name, left=Inches(5), top=Inches(10))
        img_path = '../../assets/images/markdown_img/'
        shapes.add_picture(img_path+img_file_name, Inches(2.5), Inches(3.2))
        # 변환하지 않고 숫자로 넘기면 잘 되지 않는다. 
    this_prs.save(outputPPTname)
    #ego = nx.ego_graph(G, 'sme')
    #print(ego.nodes(data=True))
    #return G

excel_path_and_filename = "../../../Downloads/SMEs_Scopus_2013-2017.xlsx"
df = pd.read_excel(excel_path_and_filename)
df = df[['Author Keywords', 'Year', 'Abstract']]

draw_and_export_ppt(df.copy(), "sme_network.pptx")
print("complete")

[('entire_network_180508', '', 'entire_network_180508.png'), ('entire_network_180508', '', 'ego_network_sme_180508.png'), ('entire_network_180508', '', 'ego_network_innovation_180508.png'), ('entire_network_180508', '', 'ego_network_small and medium enterprise_180508.png'), ('entire_network_180508', '', 'ego_network_small and medium-sized enterprise_180508.png'), ('entire_network_180508', '', 'ego_network_entrepreneurship_180508.png'), ('entire_network_180508', '', 'ego_network_performance_180508.png'), ('entire_network_180508', '', 'ego_network_cloud computing_180508.png'), ('entire_network_180508', '', 'ego_network_knowledge management_180508.png'), ('entire_network_180508', '', 'ego_network_internationalization_180508.png'), ('entire_network_180508', '', 'ego_network_case study_180508.png'), ('entire_network_180508', '', 'ego_network_entrepreneurial orientation_180508.png'), ('entire_network_180508', '', 'ego_network_small and medium enterprises (smes)_180508.png'), ('entire_network