## 1. Parse code into an AST

In [17]:
import ast

with open('example.py', 'r') as source:
    tree = ast.parse(source.read())

In [18]:
f_str = "def f(a,b): \n\
\tdef g():\n\
\t\tprint('Hello world') \n\
\treturn a + b \
"
tree = ast.parse(f_str)

## 2. Traverse an AST

### 2.1 Visiting each node in the tree and print its type name

In [57]:
# print all ast fields except None
def print_tree_value(tree, level = 0): 
    if isinstance(tree, ast.AST):
        print('-->'*(level), type(tree).__name__)
    elif tree != None:
        print('-->'*(level), tree, "*")
        return
    else:
        return 
    #else: 
    #    print('-->'*(level), tree, "*")
    #    return
    level += 1
    for child_name, child_obj in ast.iter_fields(tree):
        if isinstance(child_obj, list):
            for item in child_obj:
                print_tree_value(item, level = level)
        else:
            print_tree_value(child_obj, level = level)
    return         

In [58]:
# print only the ast node type
def print_tree(tree, level = 0): 
    if isinstance(tree, ast.AST):
        print('-->'*(level), type(tree).__name__)
    else: 
        print('-->'*(level), tree, "*")
        return
    level = level + 1
    for child_obj in ast.iter_child_nodes(tree):
        print_tree(child_obj, level = level)
    return      

In [None]:
# def print_tree(tree, level = 0): 
#     level = level + 1
#     for child_name, child_obj in ast.iter_fields(tree):
#         if type(child_obj).__name__ == 'list':
#             print('-->'*(level), type(child_obj[0]).__name__)
#         else:
#             print('-->'*(level), type(child_obj).__name__)
#         #print('-->'*(level), type(child_obj).__name__)
#         print('-->'*(level), child_name)
#         try:
#             print_tree(child_obj, level = level)
#         except:
#             try:
#                 for node in child_obj:
#                     print_tree(node, level = level)
#             except:
#                 print('-->'*(level + 1), child_obj, '*')    
# # print all ast fields
# def print_tree(tree, level = 0): 
#     if isinstance(tree, ast.AST):
#         print('-->'*(level), type(tree).__name__)
#     else: 
#         print('-->'*(level), tree, "*")
#         return
#     level = level + 1
#     for child_name, child_obj in ast.iter_fields(tree):
#         if isinstance(child_obj, list):
#             for item in child_obj:
#                 print_tree(item, level = level)
#         else:
#             print_tree(child_obj, level = level)
#     return      

#### Example 2.1.1 - parse code script and print ast

In [61]:
with open('example.py', 'r') as source:
    tree = ast.parse(source.read())
print_tree_value(tree)
print_tree(tree)

 Module
--> FunctionDef
-->--> method_1 *
-->--> arguments
-->-->--> arg
-->-->-->--> arg1 *
-->-->--> arg
-->-->-->--> arg2 *
-->--> Assign
-->-->--> Name
-->-->-->--> add *
-->-->-->--> Store
-->-->--> BinOp
-->-->-->--> Name
-->-->-->-->--> arg1 *
-->-->-->-->--> Load
-->-->-->--> Add
-->-->-->--> Name
-->-->-->-->--> arg2 *
-->-->-->-->--> Load
-->--> Return
-->-->--> Name
-->-->-->--> add *
-->-->-->--> Load
--> FunctionDef
-->--> method_2 *
-->--> arguments
-->-->--> arg
-->-->-->--> n *
-->-->--> arg
-->-->-->--> arg2 *
-->--> For
-->-->--> Name
-->-->-->--> i *
-->-->-->--> Store
-->-->--> Call
-->-->-->--> Name
-->-->-->-->--> range *
-->-->-->-->--> Load
-->-->-->--> Name
-->-->-->-->--> n *
-->-->-->-->--> Load
-->-->--> If
-->-->-->--> Compare
-->-->-->-->--> Name
-->-->-->-->-->--> i *
-->-->-->-->-->--> Load
-->-->-->-->--> Gt
-->-->-->-->--> Name
-->-->-->-->-->--> arg2 *
-->-->-->-->-->--> Load
-->-->-->--> Expr
-->-->-->-->--> Call
-->-->-->-->-->--> Name
-->-->-->-->-

#### Example 2.1.2 - parse code string and print ast

In [60]:
f_str = "def f(a,b): \n\
\tdef g():\n\
\t\tprint('Hello world') \n\
\treturn a + b \
"
# f_str = "a = 1 + 2"
tree = ast.parse(f_str)
print_tree_value(tree)

 Module
--> FunctionDef
-->--> f *
-->--> arguments
-->-->--> arg
-->-->-->--> a *
-->-->--> arg
-->-->-->--> b *
-->--> FunctionDef
-->-->--> g *
-->-->--> arguments
-->-->--> Expr
-->-->-->--> Call
-->-->-->-->--> Name
-->-->-->-->-->--> print *
-->-->-->-->-->--> Load
-->-->-->-->--> Str
-->-->-->-->-->--> Hello world *
-->--> Return
-->-->--> BinOp
-->-->-->--> Name
-->-->-->-->--> a *
-->-->-->-->--> Load
-->-->-->--> Add
-->-->-->--> Name
-->-->-->-->--> b *
-->-->-->-->--> Load


In [230]:
print_tree(tree)

 Module
--> FunctionDef
-->--> arguments
-->-->--> arg
-->-->--> arg
-->--> FunctionDef
-->-->--> arguments
-->-->--> Expr
-->-->-->--> Call
-->-->-->-->--> Name
-->-->-->-->-->--> Load
-->-->-->-->--> Str
-->--> Return
-->-->--> BinOp
-->-->-->--> Name
-->-->-->-->--> Load
-->-->-->--> Add
-->-->-->--> Name
-->-->-->-->--> Load


### 2.2 Breadth-first Search 

In [231]:
def bfs(root):
    '''tree -> don't need to store visited booleans
    '''
    nodes_seen = [root]
    
    current_visit_index = 0
    N_nodes = 1
    
    while current_visit_index != N_nodes:
        current_node = nodes_seen[current_visit_index]
        current_visit_index += 1
        
        print(type(current_node).__name__)
        
        for child in ast.iter_child_nodes(current_node):
            nodes_seen.append(child)
            N_nodes += 1

In [232]:
bfs(tree)

Module
FunctionDef
arguments
FunctionDef
Return
arg
arg
arguments
Expr
BinOp
Call
Name
Add
Name
Name
Str
Load
Load
Load


### 2.3 Depth-first Search

In [246]:
def is_leaf_node(node):
    child_nodes = [child for child in ast.iter_child_nodes(node)]
    if not child_nodes:
        return True
    else:
        return False
# is_leaf_node(nodes_seen[11])

def _dfs(current_node, nodes_seen, leaf_nodes_index_set, current_node_index=[-1], level = 1):
    if current_node == None: return
    nodes_seen.append(current_node)
    current_node_index[0] += 1
    
    if is_leaf_node(current_node):
        leaf_nodes_index_set.append(current_node_index[0])
        
    # print(current_node_index[0])
    print('-->'*(level), type(current_node).__name__, current_node_index[0])
    level += 1
    
    for child in ast.iter_child_nodes(current_node):
        _dfs(child, nodes_seen, leaf_nodes_index_set, current_node_index, level)
        
def dfs(root):
    nodes_seen = []
    leaf_nodes_index_set = []
    current_node_index = [-1]
    _dfs(root, nodes_seen, leaf_nodes_index_set, current_node_index)
    return nodes_seen, leaf_nodes_index_set

In [None]:
# def dfs(current_node, nodes_seen = [], current_node_index = -1):
#     nodes_seen.append(current_node)
#     current_node_index += 1
#     if isinstance(current_node, ast.AST):
#         print(type(current_node).__name__)
#     else:
#         print(current_node, "*")
#     for child in ast.iter_child_nodes(current_node):
#         dfs(child, nodes_seen)
#     return nodes_seen 

# def dfs(tree, nodes_seen, leaf_nodes_index_set, current_node_index=[-1], level = 0): 
#     nodes_seen.append(current_node)
#     current_node_index[0] += 1
    
#     if is_leaf_node(current_node):
#         leaf_nodes_index_set.append(current_node_index[0])
        
#     print(current_node_index[0])
#     print('-->'*(level), type(tree).__name__)
#     level += 1
    
#     for child_obj in ast.iter_child_nodes(tree):
#         dfs(child, nodes_seen, leaf_nodes_index_set, current_node_index, level)
#     return   

In [247]:
nodes_seen, leaf_nodes_index_set = dfs(tree)

--> Module 0
-->--> FunctionDef 1
-->-->--> arguments 2
-->-->-->--> arg 3
-->-->-->--> arg 4
-->-->--> FunctionDef 5
-->-->-->--> arguments 6
-->-->-->--> Expr 7
-->-->-->-->--> Call 8
-->-->-->-->-->--> Name 9
-->-->-->-->-->-->--> Load 10
-->-->-->-->-->--> Str 11
-->-->--> Return 12
-->-->-->--> BinOp 13
-->-->-->-->--> Name 14
-->-->-->-->-->--> Load 15
-->-->-->-->--> Add 16
-->-->-->-->--> Name 17
-->-->-->-->-->--> Load 18


In [248]:
nodes_seen

[<_ast.Module at 0x7f2850198240>,
 <_ast.FunctionDef at 0x7f2850198630>,
 <_ast.arguments at 0x7f2850198400>,
 <_ast.arg at 0x7f2850198320>,
 <_ast.arg at 0x7f2850198470>,
 <_ast.FunctionDef at 0x7f2850198208>,
 <_ast.arguments at 0x7f2850198588>,
 <_ast.Expr at 0x7f2850198668>,
 <_ast.Call at 0x7f2850198278>,
 <_ast.Name at 0x7f28501983c8>,
 <_ast.Load at 0x7f285682b4a8>,
 <_ast.Str at 0x7f28501984a8>,
 <_ast.Return at 0x7f2850198550>,
 <_ast.BinOp at 0x7f285018f470>,
 <_ast.Name at 0x7f285018fd30>,
 <_ast.Load at 0x7f285682b4a8>,
 <_ast.Add at 0x7f285682bd68>,
 <_ast.Name at 0x7f285018f780>,
 <_ast.Load at 0x7f285682b4a8>]

In [249]:
leaf_nodes_index_set

[3, 4, 6, 10, 11, 15, 16, 18]

### 2.4 Build-in traversal tools 

In [533]:
print(ast.dump(tree))

Module(body=[FunctionDef(name='f', args=arguments(args=[arg(arg='a', annotation=None), arg(arg='b', annotation=None)], vararg=None, kwonlyargs=[], kw_defaults=[], kwarg=None, defaults=[]), body=[FunctionDef(name='g', args=arguments(args=[], vararg=None, kwonlyargs=[], kw_defaults=[], kwarg=None, defaults=[]), body=[Expr(value=Call(func=Name(id='print', ctx=Load()), args=[Str(s='Hello world')], keywords=[]))], decorator_list=[], returns=None), Return(value=BinOp(left=Name(id='a', ctx=Load()), op=Add(), right=Name(id='b', ctx=Load())))], decorator_list=[], returns=None)])


In [241]:
class C(ast.NodeVisitor):
    def generic_visit(self, node):
        print (type(node).__name__)
        print (type(node)._fields)
        ast.NodeVisitor.generic_visit(self, node)
        # self.generic_visit(node)

visitor = C()
visitor.visit(tree)

Module
('body',)
FunctionDef
('name', 'args', 'body', 'decorator_list', 'returns')
arguments
('args', 'vararg', 'kwonlyargs', 'kw_defaults', 'kwarg', 'defaults')
arg
('arg', 'annotation')
arg
('arg', 'annotation')
FunctionDef
('name', 'args', 'body', 'decorator_list', 'returns')
arguments
('args', 'vararg', 'kwonlyargs', 'kw_defaults', 'kwarg', 'defaults')
Expr
('value',)
Call
('func', 'args', 'keywords')
Name
('id', 'ctx')
Load
()
Str
('s',)
Return
('value',)
BinOp
('left', 'op', 'right')
Name
('id', 'ctx')
Load
()
Add
()
Name
('id', 'ctx')
Load
()


In [243]:
for node in ast.walk(tree):
    if isinstance(node, ast.FunctionDef):
        print(node.name)

f
g


In [245]:
((tree.body)[0].args).args[0].arg
type(tree).__name__
isinstance(tree, ast.AST)

True

## 4. Extract path-contexts from an AST

In [19]:
# However, we'd like to ignore nodes of type: Load, Store, Del
IGNORE_TYPES = ['Load', 'Store', 'Del']

def is_leaf_node(node):
    child_nodes = [child for child in ast.iter_child_nodes(node) if type(child).__name__ not in IGNORE_TYPES]
    if not child_nodes:
        return True
    else:
        return False
# is_leaf_node(nodes_seen[11])

def _dfs(current_node, nodes_seen, leaf_nodes_index_set, current_node_index=[-1], level = 1):
    if current_node == None: return
    if type(current_node).__name__ not in IGNORE_TYPES: 
        nodes_seen.append(current_node)
        current_node_index[0] += 1

        if is_leaf_node(current_node):
            leaf_nodes_index_set.append(current_node_index[0])

        # print(current_node_index[0])
        print('-->'*(level), type(current_node).__name__, current_node_index[0])
        level += 1

        for child in ast.iter_child_nodes(current_node):
            _dfs(child, nodes_seen, leaf_nodes_index_set, current_node_index, level)
        
def dfs(root):
    nodes_seen = []
    leaf_nodes_index_set = []
    current_node_index = [-1]
    _dfs(root, nodes_seen, leaf_nodes_index_set, current_node_index)
    return nodes_seen, leaf_nodes_index_set


In [22]:
nodes_seen, leaf_nodes_index_set = dfs(tree)

--> Module 0
-->--> FunctionDef 1
-->-->--> arguments 2
-->-->-->--> arg 3
-->-->-->--> arg 4
-->-->--> FunctionDef 5
-->-->-->--> arguments 6
-->-->-->--> Expr 7
-->-->-->-->--> Call 8
-->-->-->-->-->--> Name 9
-->-->-->-->-->--> Str 10
-->-->--> Return 11
-->-->-->--> BinOp 12
-->-->-->-->--> Name 13
-->-->-->-->--> Add 14
-->-->-->-->--> Name 15


In [23]:
type(nodes_seen[10]).__name__ in IGNORE_TYPES

False

In [24]:
nodes_seen

[<_ast.Module at 0x7f3f7c6137f0>,
 <_ast.FunctionDef at 0x7f3f7c614550>,
 <_ast.arguments at 0x7f3f7c614588>,
 <_ast.arg at 0x7f3f7c6145c0>,
 <_ast.arg at 0x7f3f7c6145f8>,
 <_ast.FunctionDef at 0x7f3f7c614630>,
 <_ast.arguments at 0x7f3f7c614668>,
 <_ast.Expr at 0x7f3f7c6146a0>,
 <_ast.Call at 0x7f3f7c6146d8>,
 <_ast.Name at 0x7f3f7c614710>,
 <_ast.Str at 0x7f3f7c614748>,
 <_ast.Return at 0x7f3f7c614780>,
 <_ast.BinOp at 0x7f3f7c6147b8>,
 <_ast.Name at 0x7f3f7c6147f0>,
 <_ast.Add at 0x7f3f8203fe10>,
 <_ast.Name at 0x7f3f7c614828>]

In [25]:
leaf_nodes_index_set

[3, 4, 6, 9, 10, 13, 14, 15]

In [11]:
# get value stored in the leaf node
def get_value(node):
    for name, value in ast.iter_fields(node):
        if value is not None:
            return(value)

In [27]:
node1 = nodes_seen[6]
node2 = nodes_seen[15]
print(get_value(node1))
print(get_value(node2))

[]
b


In [28]:
# find lowest common ancestor of two given nodes in the tree
def find_lca(root, node1, node2):
    if root == None: return None
    if root == node1 or root == node2: return root
    
    # look for lca in all subtrees 
    lca_list = []
    for child_node in ast.iter_child_nodes(root):
        if child_node not in IGNORE_TYPES:
            lca_list.append(find_lca(child_node, node1, node2))
            
    # Remove None in the list 
    lca_list = [i for i in lca_list if i != None]
    # print('for node:', type(root).__name__)
    # print(lca_list)
    
    # If two of the above calls returns non-None, then two nodes are present in separate subtree
    if len(lca_list) == 2:
        return root
    # If above calls return one non-None, then two nodes exit in one subtree
    if len(lca_list) == 1:
        return lca_list[0]
    return None

In [29]:
aa = find_lca(tree, node1, node2)
aa

<_ast.FunctionDef at 0x7f3f7c614550>

In [13]:
# extract path between two leaf nodes, given the lowest common parents
def extract_path(root, node1, node2):
    if root == None: return None 
    if root == node1 or root == node2: return type(root).__name__
    
    # look for lca in all subtrees 
    lca_list = []
    for child_node in ast.iter_child_nodes(root):
        if child_node not in IGNORE_TYPES:
            lca_list.append(extract_path(child_node, node1, node2))
            
    # Remove None in the list 
    lca_list = [i for i in lca_list if i != None]
    # print('for node:', type(root).__name__)
    # print(lca_list)
    
    # If two of the above calls returns non-None, then two nodes are present in separate subtree
    if len(lca_list) == 2:
        first_str = '_'.join(lca_list[0].replace('DOWN', 'UP').split('_')[::-1])
        return first_str + '_UP_' + type(root).__name__ + '_DOWN_' + lca_list[1]
    # If above calls return one non-None, then two nodes exit in one subtree
    if len(lca_list) == 1:
            return type(root).__name__ + '_DOWN_' + lca_list[0]
    return None

In [30]:
path = extract_path(aa, node1, node2)
path

'arguments_UP_FunctionDef_UP_FunctionDef_DOWN_Return_DOWN_BinOp_DOWN_Name'

In [267]:
# get path context for each pair of terminal nodes
N_nodes = len(nodes_seen)
N_leaf = len(leaf_nodes_index_set)
bag_of_path_context = []
for i in range(N_leaf):
    for j in range(i+1, N_leaf):
        node1 = nodes_seen[leaf_nodes_index_set[i]]
        node2 = nodes_seen[leaf_nodes_index_set[j]]
        lcp = find_lca(tree, node1, node2)
        path = extract_path(lcp, node1, node2)
        value1 = get_value(node1)
        value2 = get_value(node2)
        if path.split('_')[0] == type(node1).__name__:
            path_context = ','.join([str(value1), path, str(value2)])
        else:
            path_context = ','.join([str(value2), path, str(value1)])
        bag_of_path_context.append(path_context)

In [268]:
bag_of_path_context

['a,arg_UP_arguments_DOWN_arg,b',
 'a,arg_UP_arguments_UP_FunctionDef_DOWN_FunctionDef_DOWN_arguments,[]',
 'a,arg_UP_arguments_UP_FunctionDef_DOWN_FunctionDef_DOWN_Expr_DOWN_Call_DOWN_Name,print',
 'a,arg_UP_arguments_UP_FunctionDef_DOWN_FunctionDef_DOWN_Expr_DOWN_Call_DOWN_Str,Hello world',
 'a,arg_UP_arguments_UP_FunctionDef_DOWN_Return_DOWN_BinOp_DOWN_Name,a',
 'a,arg_UP_arguments_UP_FunctionDef_DOWN_Return_DOWN_BinOp_DOWN_Add,None',
 'a,arg_UP_arguments_UP_FunctionDef_DOWN_Return_DOWN_BinOp_DOWN_Name,b',
 'b,arg_UP_arguments_UP_FunctionDef_DOWN_FunctionDef_DOWN_arguments,[]',
 'b,arg_UP_arguments_UP_FunctionDef_DOWN_FunctionDef_DOWN_Expr_DOWN_Call_DOWN_Name,print',
 'b,arg_UP_arguments_UP_FunctionDef_DOWN_FunctionDef_DOWN_Expr_DOWN_Call_DOWN_Str,Hello world',
 'b,arg_UP_arguments_UP_FunctionDef_DOWN_Return_DOWN_BinOp_DOWN_Name,a',
 'b,arg_UP_arguments_UP_FunctionDef_DOWN_Return_DOWN_BinOp_DOWN_Add,None',
 'b,arg_UP_arguments_UP_FunctionDef_DOWN_Return_DOWN_BinOp_DOWN_Name,b',
 '[]

In [137]:
# extract path contexts for single method ast
def extract_path_contexts_single(tree_single):
    nodes_seen, leaf_nodes_index_set = dfs(tree_single)
    
    N_nodes = len(nodes_seen)
    N_leaf = len(leaf_nodes_index_set)
    bag_of_path_context = []
    method_name = tree_single.name
    bag_of_path_context.append(method_name)
    
    for i in range(N_leaf):
        for j in range(i+1, N_leaf):
            node1 = nodes_seen[leaf_nodes_index_set[i]]
            node2 = nodes_seen[leaf_nodes_index_set[j]]
            lcp = find_lca(tree, node1, node2)
            path = extract_path(lcp, node1, node2)
            value1 = get_value(node1)
            value2 = get_value(node2)
            if path.split('_')[0] == type(node1).__name__:
                path_context = ','.join([str(value1), path, str(value2)])
            else:
                path_context = ','.join([str(value2), path, str(value1)])
            bag_of_path_context.append(path_context)
    return bag_of_path_context  

In [63]:
tree_single = tree.body[0]
extract_path_contexts_single(tree_single)

--> Module 0
-->--> FunctionDef 1
-->-->--> arguments 2
-->-->-->--> arg 3
-->-->-->--> arg 4
-->-->--> Assign 5
-->-->-->--> Name 6
-->-->-->--> BinOp 7
-->-->-->-->--> Name 8
-->-->-->-->--> Add 9
-->-->-->-->--> Name 10
-->-->--> Return 11
-->-->-->--> Name 12
-->--> FunctionDef 13
-->-->--> arguments 14
-->-->-->--> arg 15
-->-->-->--> arg 16
-->-->--> For 17
-->-->-->--> Name 18
-->-->-->--> Call 19
-->-->-->-->--> Name 20
-->-->-->-->--> Name 21
-->-->-->--> If 22
-->-->-->-->--> Compare 23
-->-->-->-->-->--> Name 24
-->-->-->-->-->--> Gt 25
-->-->-->-->-->--> Name 26
-->-->-->-->--> Expr 27
-->-->-->-->-->--> Call 28
-->-->-->-->-->-->--> Name 29
-->-->-->-->-->-->--> Str 30
-->--> FunctionDef 31
-->-->--> arguments 32
-->-->-->--> arg 33
-->-->--> Expr 34
-->-->-->--> Call 35
-->-->-->-->--> Name 36
-->-->-->-->--> Str 37
-->--> ClassDef 38
-->-->--> Name 39
-->-->--> Expr 40
-->-->-->--> Str 41
-->-->--> FunctionDef 42
-->-->-->--> arguments 43
-->-->-->-->--> arg 44
-->-->-->

['method_1',
 'arg1,arg_UP_arguments_DOWN_arg,arg2',
 'arg1,arg_UP_arguments_UP_FunctionDef_DOWN_Assign_DOWN_Name,add',
 'arg1,arg_UP_arguments_UP_FunctionDef_DOWN_Assign_DOWN_BinOp_DOWN_Name,arg1',
 'arg1,arg_UP_arguments_UP_FunctionDef_DOWN_Assign_DOWN_BinOp_DOWN_Add,None',
 'arg1,arg_UP_arguments_UP_FunctionDef_DOWN_Assign_DOWN_BinOp_DOWN_Name,arg2',
 'arg1,arg_UP_arguments_UP_FunctionDef_DOWN_Return_DOWN_Name,add',
 'arg1,arg_UP_arguments_UP_FunctionDef_UP_Module_DOWN_FunctionDef_DOWN_arguments_DOWN_arg,n',
 'arg1,arg_UP_arguments_UP_FunctionDef_UP_Module_DOWN_FunctionDef_DOWN_arguments_DOWN_arg,arg2',
 'arg1,arg_UP_arguments_UP_FunctionDef_UP_Module_DOWN_FunctionDef_DOWN_For_DOWN_Name,i',
 'arg1,arg_UP_arguments_UP_FunctionDef_UP_Module_DOWN_FunctionDef_DOWN_For_DOWN_Call_DOWN_Name,range',
 'arg1,arg_UP_arguments_UP_FunctionDef_UP_Module_DOWN_FunctionDef_DOWN_For_DOWN_Call_DOWN_Name,n',
 'arg1,arg_UP_arguments_UP_FunctionDef_UP_Module_DOWN_FunctionDef_DOWN_For_DOWN_If_DOWN_Compare

In [5]:
def string_hashcode(s):
    h = 0 
    for c in s:
        h = (31 * h + ord(c)) & 0xFFFFFFFF
    return ((h + 0x80000000) & 0xFFFFFFFF) - 0x80000000

In [46]:
string_hashcode(path)

1270289135

In [139]:
# split an AST into a list of subtree nodes of type FunctionDef,
# for FunctionDef inside ClassDef, modify the method name by adding class name
def split_tree(tree):
    subtree_list = []
    for node in tree.body:
        if isinstance(node, ast.FunctionDef):
            subtree_list.append(node)
        if isinstance(node, ast.ClassDef):
            className = node.name
            for item in node.body:
                if isinstance(item, ast.FunctionDef):
                    item.name = className + '_' + item.name
                    subtree_list.append(item)
    return subtree_list


# extract path contexts from an AST generated from a script
def extract_path_contexts_file(tree):
    methods = []
    subtree_list = split_tree(tree)
    for root in subtree_list:
        temp = extract_path_contexts_single(root)
        methods.append(temp)
    return methods


In [140]:
with open('example.py', 'r') as source:
    tree = ast.parse(source.read())
methods = extract_path_contexts_file(tree)

for method in methods:
    print(method[0:5], '\n\n\n')

--> FunctionDef 0
-->--> arguments 1
-->-->--> arg 2
-->-->--> arg 3
-->--> Assign 4
-->-->--> Name 5
-->-->--> BinOp 6
-->-->-->--> Name 7
-->-->-->--> Add 8
-->-->-->--> Name 9
-->--> Return 10
-->-->--> Name 11
--> FunctionDef 0
-->--> arguments 1
-->-->--> arg 2
-->-->--> arg 3
-->--> For 4
-->-->--> Name 5
-->-->--> Call 6
-->-->-->--> Name 7
-->-->-->--> Name 8
-->-->--> If 9
-->-->-->--> Compare 10
-->-->-->-->--> Name 11
-->-->-->-->--> Gt 12
-->-->-->-->--> Name 13
-->-->-->--> Expr 14
-->-->-->-->--> Call 15
-->-->-->-->-->--> Name 16
-->-->-->-->-->--> Str 17
--> FunctionDef 0
-->--> arguments 1
-->-->--> arg 2
-->--> Expr 3
-->-->--> Call 4
-->-->-->--> Name 5
-->-->-->--> Str 6
--> FunctionDef 0
-->--> arguments 1
-->-->--> arg 2
-->-->--> arg 3
-->-->--> arg 4
-->--> Expr 5
-->-->--> Str 6
-->--> Assign 7
-->-->--> Attribute 8
-->-->-->--> Name 9
-->-->--> Name 10
-->--> Assign 11
-->-->--> Attribute 12
-->-->-->--> Name 13
-->-->--> Name 14
--> FunctionDef 0
-->--> argum

## Remove docstring

In [142]:
import inspect
with open('example.py', 'r') as source:
    aa = inspect.cleandoc(source.read())
    print(aa)

def method_1(arg1, arg2):
    add = arg1 + arg2
    return add

def method_2(n, arg2):
    for i in range(n):
        if i > arg2: 
            print('yes!')
    
def method_3(x):
    # comments
    print('hello!')
    
class class_name_1(object):
    '''
    A paragraph of descriptions...
    '''
    def __init__(self, x, y):
        '''
        A paragraph of decriptions again...
        '''
        self.x = x
        self.y = y
    def methodlalala():
        print(2)
    
if __name__ == '__main__':
    obj = class_name_1(2, 4)
    print(obj.x)
