#### Importing Libraries

In [1]:
import json

#### Reading the Hindi Labelled Film Dataset

In [2]:
hi_labelled_films = {}

with open('../Data/Films/Films_Hindi_Wikidata_Hi_Labelled/films_hi_labelled.json') as f:
    hi_labelled_films = json.load(f)

#### Segregating out frequently occuring properties for films and removing the ID based properties. 


In [3]:
prop_counts = {}
for film_key in hi_labelled_films.keys():
    film = hi_labelled_films[film_key]
    for prop in film.keys():
        if prop not in prop_counts.keys():
            prop_counts[prop] = 0
        else:
            prop_counts[prop] += 1

In [4]:
frequent_props = {}
for prop in prop_counts.keys():
    if prop_counts[prop] >= 100 and "आईडी" not in prop.split():
        frequent_props[prop] = prop_counts[prop]

#### Post this step we manually select useless properties and remove them

In [5]:
useless_props = ['अवधि', 'Isan', 'ईडर पहचानकर्ता','उदाहरण', 'कॉमन्स श्रेणी', 'गुणवत्ता है', 'छवि', 'ट्विटर उपयोगकर्ता नाम','फिल्मिरोडा रेटिंग', 'लोगो छवि', 'शीर्षक','शोषण वीजा संख्या', 'सिनेमेथेक क्यूबकोइस वर्क आइडेंटिजर', 'सिनेमेथेक क्यूबकोइस वर्क आइडेंटिजर', 'सीएनसी फिल्म रेटिंग (रोमानिया)', 'किजविज्जर रेटिंग', 'Medierådet रेटिंग', 'आरटीसी फिल्म रेटिंग', 'किजविज्जर रेटिंग', 'जेएमके फिल्म रेटिंग', 'सीएनसी फिल्म रेटिंग (फ्रांस)' ]

In [6]:
final_props = {}
for prop in frequent_props.keys():
    if prop not in useless_props:
        final_props[prop] = frequent_props[prop]

In [7]:
final_props

{'आईसीएए रेटिंग': 133,
 'आधार पर': 245,
 'आधिकारिक वेबसाइट': 568,
 'उत्पादन कंपनी': 804,
 'एनएमएचएच फिल्म रेटिंग': 131,
 'एफएसके फिल्म रेटिंग': 410,
 'एमपीएए फिल्म रेटिंग': 123,
 'कथा स्थल': 946,
 'कलाकार': 131,
 'कार्यकारी निर्माता': 152,
 'कास्ट मेंबर': 3675,
 'के लिए मनोनीत': 190,
 'कॉस्ट्यूम डिजाइनर': 100,
 'द्वारा वितरित': 1068,
 'निदेशक': 2918,
 'निर्माता': 1671,
 'पटकथा लेखक': 1688,
 'पहलू अनुपात': 224,
 'पुरस्कार प्राप्त': 238,
 'प्रकाशन तिथि': 4080,
 'प्रोडक्शन डिजाइनर': 122,
 'फिल्म या टीवी शो की मूल भाषा': 4025,
 'फिल्म संपादक': 713,
 'फिल्मांकन स्थान': 451,
 'फोटोग्राफी के निदेशक': 1182,
 'बाद': 191,
 'बॉक्स ऑफिस': 246,
 'मुख्य विषय': 285,
 'मूल देश': 4087,
 'रंग': 2191,
 'लागत': 170,
 'शैली': 2343,
 'श्रृंखला का हिस्सा': 173,
 'संगीतकार': 2922}

#### Based on the Properties above following template sentences were made.
- Some were simple templates and some are complex templates involving multiple properties in a single sentence

In [8]:
template_sentences = ['{{film}} एक {{based on}} पर आधारित फिल्म है। ', 
                      'इस फिल्म का  निर्देशन {{director}} ने किया है। ', 
                      ' यह फिल्म का वितरण {{distributor}} द्वारा किया गया है। ',  
                      ' फिल्म की घटनाए {{narr locations}} पर हुई हैं। ', 
                      'फिल्म के लिए संगीत रचना {{music director}} द्वारा दे गयी है और गायन {{singers}} द्वारा दिया गया है। ', 
                      'फिल्म के लिए संगीत रचना {{music director}} द्वारा दे गयी है। ', 
                      'यह फिल्म {{artist}} द्वारा निर्माणित कथा पर आधारित है। ', 
                      '{{film}} {{release year}} में बनी {{genre}} शैली की फ़िल्म है जिसका निर्माण {{artist}} ने किया है व वितरण {{distributor}} द्वारा किया गया है। ', 
                      'इस फिल्म की घटनाए {{narr locations}} पर हुई गयी थी लेकिन इनकी शूटिंग {{fil locations}} पर की गयी थी। ', 
                      'फिल्म  की शूटिंग {{fil locations}} पर हुई हैं। ', 
                      '{{film}} एक {{based on}} पर आधारित {{genre}} शैली की फिल्म है।', 
                     '{{film}} एक {{based on}} पर आधारित {{topic}} के विषय पर बनी फिल्म है।',
                     '{{film}} एक {{based on}} पर आधारित फिल्म है जो {{series}} श्रृंखला का हिस्सा है ।',
                     '{{film}} एक {{based on}} पर आधारित {{genre}} शैली की फिल्म है और {{series}} श्रृंखला का हिस्सा है ।',
                      'यह फिल्म {{based on}} पर आधारित {{genre}} शैली की फिल्म है। ',
                      'यह फिल्म {{based on}} पर आधारित {{topic}} के विषय पे बनी फिल्म है । ',
                      'यह फिल्म {{based on}} पर आधारित {{series}} श्रृंखला का हिस्सा है । ',
                      'यह फिल्म {{based on}} पर आधारित {{genre}} शैली की फिल्म है और {{series}} श्रृंखला का हिस्सा है ।',
                      '{{film}} एक {{release year}} में रिलीज़ हुई {{genre}} शैली की फिल्म है। ',
                      '{{film}} एक {{release year}} में रिलीज़ हुई {{topic}} के विषय पर बनी फिल्म है ।',
                      '{{film}} {{release year}} में रिलीज़ हुई, एक {{series}} श्रृंखला की फिल्म है ।',
                      '{{film}} एक {{series}} श्रृंखला की फिल्म है ।',
                      '{{film}} एक {{release year}} में रिलीज़ हुई, {{artist}} द्वारा निर्माणित कथा पर आधारित फिल्म है ।',
                      '{{film}} एक {{release year}} में रिलीज़ हुई, {{artist}} द्वारा निर्माणित कथा पर आधारित {{series}} श्रृंखला की फिल्म है।',
                      '{{film}} एक {{release year}} में रिलीज़ हुई, {{topic}} के विषय पर बनी {{series}} श्रृंखला की फिल्म है।',
                      '{{film}} एक {{release year}} में रिलीज़ हुई, {{genre}} शैली की फिल्म है जो एक {{series}} श्रृंखला का हिस्सा है । ',
                      'इस फिल्म में {{singers}} ने गायन किया है।',
                      'यह फिल्म {{genre}} शैली की है।',
                      '{{producer}} द्वारा निर्मित फिल्म में निर्देशन {{director}} ने दिया। ',
                      '{{director}} द्वारा निर्देशित इस फिल्म में {{cast}} प्रमुख भूमिका  निभाते हैं।',
                      '{{cast}} ने इस फिल्म में भूमिका निभाई ।',
                      'यह फिल्म {{series}} श्रृंखला का हिस्सा है। ',
                      '{{screenwriter}} द्वारा लिखी इस फिल्म का निर्देशन {{director}} ने संम्भाला।',
                      '{{producer}} द्वारा निर्मित इस फिल्म का लेखन {{screenwriter}} ने किया और निर्देशन {{director}} ने संम्भाला।',
                      'फिल्म की पट कथा {{screenwriter}} ने प्रदान करी। ',
                      'इस फिल्म ने कई पुरस्कार मनोनीत  किया गया जैसे {{nominated}} और इन में से कई पुरस्कार जैसे {{awards won}} जीते भी।',
                      'फिल्म को कई पुरस्कारों जैसे {{nominated}} भी किया गया। ',
                      'फिल्म ने अनेक पुरस्कार जैसे {{awards won}} भी जीते । ',
                      'यह मौलिक रूप से {{lang}} भाषा में शूट हुई एक {{country}} फिल्म है।',
                      'यह मौलिक रूप से एक, {{lang}} भाषा में शूट हुई फिल्म है।',
                      'फिल्म के लिए पोशाक रचना {{costume designer}} ने संभाली।',
                      'फिल्म के लिए प्रोडक्शन डिजाइनिंग {{production designer}} ने की ।',
                      'फिल्म के सम्पादक {{editor}} थे और इनके साथ फोटोग्राफी निर्देशन {{dir photo}} ने संभाली ।',
                      'फिल्म के सम्पादक {{editor}} थे ।',
                      'फिल्म के लिए फोटोग्राफी के निर्देशक {{dir photo}} थे ।',
                      'फिल्म की  श्रृंखला में अगली फिल्म {{sequel}} है।',
                      'फिल्म की लागत {{budget}} थी और उसकी तुलना में फिल्म ने {{box office}} कमाए।',
                      ' फिल्म ने बॉक्स ऑफिस में {{box office}} कमाए।',
                      'फिल्म की लागत {{budget}} थी।',
                      'यह फिल्म {{topic}} के विषय पर बनी फिल्म है।',
                      'यह एक {{colour}} फिल्म है। ',
                      '{{film}} एक {{lang}} भाषा में शूट हुई एक {{country}} फिल्म है।',
                      '{{film}} एक {{country}} फिल्म है।',
                      '{{film}} एक {{lang}} भाषा में शूट हुई फिल्म है।',
                     ]

In [9]:
len(template_sentences)

54

In [10]:
with open('../Data/Films/Films_Generated_Wikipages/template_sents.json', 'w') as f:
    json.dump(template_sentences,f)