In [2]:
import random
import morfeusz2
import pandas as pd
morf= morfeusz2.Morfeusz(generate=True)
random.seed(2137)

# Program stworzony w celu generacji korpusu pytań oraz żądań

Celem programu było utworzenie korpusu pytań oraz żądań mających na celu przekazanie infrormacji o pomocy w znalezieniu szukanego dokumentu.  
W programie założono że przykładowe pytania powinny składać się z części:  
(Początak polecenia)(rzeczowniki dotyczące typów dokumentów)(orzeczenie)(słowa kluczowe szukanego dokumentu)  

In [2]:
# Base part of sentence, it's supposed to indicate start of question or request: 
# request - "daj mi ..(doc_type_part).."
# question - "masz może ..().."
search_words = [
        {'baza': "szukam", 
         'przypadek': "gen", 
         'nadpisz': {}
        },
        {'baza': "chciałbym", 
         'przypadek': "acc", 
         'nadpisz': {}
        },
        {'baza': "chcę", 
         'przypadek': "acc", 
         'nadpisz': {}
        },
        {'baza': "polecisz mi", 
         'przypadek': "acc", 
         'nadpisz': {}
        },
        {'baza': "poleciłbyś mi", 
         'przypadek': "acc", 
         'nadpisz': {}
        },
        {'baza': "masz może", 
         'przypadek': "acc", 
         'nadpisz': {}
        },
        {'baza': "proszę o", 
         'przypadek': "acc", 
         'nadpisz': {}
        },
        {'baza': "poproszę", 
         'przypadek': "acc", 
         'nadpisz': {}
        },
        {'baza': "może", 
         'przypadek': "nom", 
         'nadpisz': {}
        }, 
        {'baza': "może być", 
         'przypadek': "nom", 
         'nadpisz': {"liczba": 'sg'}
        }, 
        {'baza': "interesuje mnie", 
         'przypadek': "nom", 
         'nadpisz': {"liczba": 'sg'}
        },    
        {'baza': "interesują mnie", 
         'przypadek': "nom", 
         'nadpisz': {"liczba": 'pl'}
        },
        {'baza': "potrzebuję", 
         'przypadek': "gen", 
         'nadpisz': {}
        },
        {'baza': "chcę", 
         'przypadek': "acc", 
         'nadpisz': {}
        },
        {'baza': "poleć mi", 
         'przypadek': "acc", 
         'nadpisz': {}
        },
        {'baza': "daj mi", 
         'przypadek': "acc", 
         'nadpisz': {}
        },
        {'baza': "dałbyś mi", 
         'przypadek': "acc", 
         'nadpisz': {}
        },
        {'baza': "poleć", 
         'przypadek': "acc", 
         'nadpisz': {}
        }, 
        {'baza': "daj", 
         'przypadek': "acc", 
         'nadpisz': {}
        },
        {'baza': "chciałabym", 
         'przypadek': "acc", 
         'nadpisz': {}
        }, 
        {'baza': "znajdź", 
         'przypadek': "acc", 
         'nadpisz': {}
        },
        {'baza': "znajdź mi", 
         'przypadek': "acc", 
         'nadpisz': {}
        },
        {'baza': "znajdziesz mi", 
         'przypadek': "acc", 
         'nadpisz': {}
        },
        {'baza': "weź mi daj", 
         'przypadek': "acc", 
         'nadpisz': {}
        }, 
        {'baza': "weź mi poleć", 
         'przypadek': "acc", 
         'nadpisz': {}
        },
        {'baza': "zaproponuj", 
         'przypadek': "acc", 
         'nadpisz': {}
        },
        {'baza': "zapodaj", 
         'przypadek': "acc", 
         'nadpisz': {}
        },
        {'baza': "pomóż mi znaleźć", 
         'przypadek': "acc", 
         'nadpisz': {}
        },
        {'baza': "pomożesz mi znaleźć", 
         'przypadek': "acc", 
         'nadpisz': {}
        },
        {'baza': "zapodaj mi", 
         'przypadek': "acc", 
         'nadpisz': {}
        },
        {'baza': "zapodasz mi", 
         'przypadek': "acc", 
         'nadpisz': {}
        },
        {'baza': "zaproponuj mi", 
         'przypadek': "acc", 
         'nadpisz': {}
        },
        {'baza': "zaproponujesz mi", 
         'przypadek': "acc", 
         'nadpisz': {}
        },
        {'baza': "myślę , że fajnie by było przeczytać", 
         'przypadek': "acc", 
         'nadpisz': {}
        },
        {'baza': "no to", 
         'przypadek': "nom", 
         'nadpisz': {}
        },   
        {'baza': "niech będzie", 
         'przypadek': "nom", 
         'nadpisz': {"liczba": 'sg'}
        },    
        {'baza': "niech będą", 
         'przypadek': "nom", 
         'nadpisz': {"liczba": 'pl'}
        }
    ]

In [3]:
# Wszystkie typy szukanych dokumentów oraz słowa mogące oznaczać dowoność typu 
document_types = [
            {'baza': "coś", 
             'odmiana': False, 
             'dozwolone_po': ['gen','acc', 'nom'], 
             'nadpisz': {'przypadek': 'gen', 'liczba': 'sg', 'rodzaj': 'n'},
             'możliwa_kontynuacja' : False,
             'moz_kontynuacja': []},
            {'baza': "czegoś", 
             'odmiana': False, 
             'dozwolone_po': ['gen'], 
             'nadpisz': {'przypadek': 'gen', 'liczba': 'sg', 'rodzaj': 'n'},
             'możliwa_kontynuacja' : False,
             'moz_kontynuacja': []},
            {'baza': "cokolwiek", 
             'odmiana': False, 
             'dozwolone_po': ['gen', 'acc', 'nom'], 
             'nadpisz': {'przypadek': 'gen', 'liczba': 'sg', 'rodzaj': 'n'},
             'możliwa_kontynuacja' : False,
             'moz_kontynuacja': []},
            {'baza': "czegokolwiek", 
             'odmiana': False, 
             'dozwolone_po': ['gen', 'acc', 'nom'], 
             'nadpisz': {'przypadek': 'gen', 'liczba': 'sg', 'rodzaj': 'n'},
             'możliwa_kontynuacja' : False,
             'moz_kontynuacja': []},   
            {'baza': "pozycja", 
             'odmiana': True, 
             'dozwolone_po': ['gen','acc','nom'], 
             'nadpisz': {},
             'możliwa_kontynuacja' : False,
             'moz_kontynuacja': []},
            {'baza': "dokument", 
             'odmiana': True, 
             'dozwolone_po': ['gen','acc','nom'], 
             'nadpisz': {},
             'możliwa_kontynuacja' : True,
             'moz_kontynuacja': ['naukowy', 'literacki']}, 
            {'baza': "papier", 
             'odmiana': True, 
             'dozwolone_po': ['gen','acc','nom'], 
             'nadpisz': {},
             'możliwa_kontynuacja' : False,
             'moz_kontynuacja': []}, 
            {'baza': "książka", 
             'odmiana': True, 
             'dozwolone_po': ['gen','acc','nom'], 
             'nadpisz': {},
             'możliwa_kontynuacja' : True,
             'moz_kontynuacja': ['fantasy', 'scifi','horror','kryminalny']}, 
            {'baza': "artykuł", 
             'odmiana': True, 
             'dozwolone_po': ['gen','acc','nom'], 
             'nadpisz': {},
             'możliwa_kontynuacja' : True,
             'moz_kontynuacja': ['naukowy', 'internetowy']}, 
            {'baza': "praca", 
             'odmiana': True, 
             'dozwolone_po': ['gen','acc','nom'], 
             'nadpisz': {},
             'możliwa_kontynuacja' : True,
             'moz_kontynuacja': ['magisterski','inżynierski','doktorancki','naukowy']}, 
            {'baza': "rozprawa", 
             'odmiana': True, 
             'dozwolone_po': ['gen','acc','nom'], 
             'nadpisz': {},
             'możliwa_kontynuacja' : False,
             'moz_kontynuacja': []}, 
            {'baza': "recenzja", 
             'odmiana': True, 
             'dozwolone_po': ['gen','acc','nom'], 
             'nadpisz': {},
             'możliwa_kontynuacja' : True,
             'moz_kontynuacja': ['utworu','pracy','książki']}, 
            {'baza': "esej", 
             'odmiana': True, 
             'dozwolone_po': ['gen','acc','nom'], 
             'nadpisz': {},
             'możliwa_kontynuacja' : True,
             'moz_kontynuacja': ['publicystyczny', 'naukowy', 'literacki']}, 
            {'baza': "patent", 
             'odmiana': True, 
             'dozwolone_po': ['gen','acc','nom'], 
             'nadpisz': {},
             'możliwa_kontynuacja' : False,
             'moz_kontynuacja': []}, 
            {'baza': "norma", 
             'odmiana': True, 
             'dozwolone_po': ['gen','acc','nom'], 
             'nadpisz': {},
             'możliwa_kontynuacja' : False,
             'moz_kontynuacja': []}, 
            {'baza': "skrypt", 
             'odmiana': True, 
             'dozwolone_po': ['gen','acc','nom'], 
             'nadpisz': {},
             'możliwa_kontynuacja' : False,
             'moz_kontynuacja': []}, 
            {'baza': "publikacja", 
             'odmiana': True, 
             'dozwolone_po': ['gen','acc','nom'], 
             'nadpisz': {},
             'możliwa_kontynuacja' : True,
             'moz_kontynuacja': ['naukowy','literacki']}, 
            {'baza': "podręcznik", 
             'odmiana': True, 
             'dozwolone_po': ['gen','acc','nom'], 
             'nadpisz': {},
             'możliwa_kontynuacja' : False,
             'moz_kontynuacja': []}, 
            {'baza': "encyklopedia", 
             'odmiana': True, 
             'dozwolone_po': ['gen','acc','nom'], 
             'nadpisz': {},
             'możliwa_kontynuacja' : True,
             'moz_kontynuacja': ['powszechny','muzyka','historii','roślin','zwierząt']}
]

In [4]:
# Orzeczenia
zaw_words = [
    {'baza': "zawierać", 
     'odmiana': True,  
     'potrzebny_przed' : '',
     'potrzebna_kontynuacja' : False, 
     'możliwa_kontynuacja' : True, 
     'moz_kontynuacja': ["elementy", "tematykę", "problematykę", "wyjaśnienie", "informacje", ":"], 
     'fleksem': 'pact',
     'nadpisz': {},
     'dozwolone_po': ["all"],
     'przypadek' : 'acc'
    }, 
    {'baza': "obejmować", 
     'odmiana': True,  
     'potrzebny_przed' : '',
     'potrzebna_kontynuacja' : False, 
     'możliwa_kontynuacja' : True, 
     'moz_kontynuacja':["tematykę", "problematykę", "dziedzinę", "wyjaśnienie", ":"], 
     'fleksem': 'pact',
     'nadpisz': {},
     'dozwolone_po': ["all"],
     'przypadek' : 'acc'
    }, 
    {'baza': "tyczyć", 
     'odmiana': True,  
     'potrzebny_przed' : '',
     'potrzebna_kontynuacja' : True, 
     'możliwa_kontynuacja' : True, 
     'moz_kontynuacja':["się"], 
     'fleksem': 'pact',
     'nadpisz': {},
     'dozwolone_po': ["all"],
     'przypadek' : 'gen'
    }, 
    {'baza': "omawiać", 
     'odmiana': True,  
     'potrzebny_przed' : '',
     'potrzebna_kontynuacja' : False, 
     'możliwa_kontynuacja' : True, 
     'moz_kontynuacja':["tematykę","temat","problematykę","problem", ":"], 
     'fleksem': 'pact',
     'nadpisz': {},
     'dozwolone_po': ["all"],
     'przypadek' : 'acc'
    }, 
    {'baza': "opisywać", 
     'odmiana': True,  
     'potrzebny_przed' : '',
     'potrzebna_kontynuacja' : False, 
     'możliwa_kontynuacja' : True, 
     'moz_kontynuacja': ["tematykę","temat","problem","problematykę", ":"], 
     'fleksem': 'pact',
     'nadpisz': {},
     'dozwolone_po': ["all"],
     'przypadek' : 'acc'
    }, 
    {'baza': "wyjaśniać", 
     'odmiana': True,  
     'potrzebny_przed' : '',
     'potrzebna_kontynuacja' : False, 
     'możliwa_kontynuacja' : True, 
     'moz_kontynuacja': ["tematykę","temat","problem","problematykę", ":"], 
     'fleksem': 'pact',
     'nadpisz': {},
     'dozwolone_po': ["all"],
     'przypadek' : 'acc'
    }, 
    {'baza': "mówić", 
     'odmiana': True,  
     'potrzebny_przed' : '',
     'potrzebna_kontynuacja' : True, 
     'możliwa_kontynuacja' : True, 
     'moz_kontynuacja': ["o"], 
     'fleksem': 'pact',
     'nadpisz': {},
     'dozwolone_po': ["all"],
     'przypadek' : 'dat'
    }, 
    {'baza': "odnosić", 
     'odmiana': True,  
     'potrzebny_przed' : '',
     'potrzebna_kontynuacja' : True, 
     'możliwa_kontynuacja' : True, 
     'moz_kontynuacja': ["się do"], 
     'fleksem': 'pact',
     'nadpisz': {},
     'dozwolone_po': ["all"],
     'przypadek' : 'gen'
    },
    {'baza': "o",
     'odmiana': False, 
     'potrzebny_przed' : '',
     'potrzebna_kontynuacja' : False, 
     'możliwa_kontynuacja' : True, 
     'moz_kontynuacja': ["tagu","tagach","tematyce","temacie", "problemie","problematyce", "motywie", ":"], 
     'fleksem': '',
     'nadpisz': {},
     'dozwolone_po': ["all"],
     'przypadek' : 'dat'
    }, 
    {'baza': "dotyczyć",
     'odmiana': True,  
     'potrzebny_przed' : '',
     'potrzebna_kontynuacja' : False, 
     'możliwa_kontynuacja' : True, 
     'moz_kontynuacja': ["tematu", "tematyki", "problematyki", ":"], 
     'fleksem': 'pact',
     'nadpisz': {},
     'dozwolone_po': ["all"],
     'przypadek' : 'gen'
    },
    {'baza': "na", 
     'odmiana': False,  
     'potrzebny_przed' : '',
     'potrzebna_kontynuacja' : True, 
     'możliwa_kontynuacja' : True, 
     'moz_kontynuacja': ["temat"],
     'fleksem': '',
     'nadpisz': {},
     'dozwolone_po': ["all"],
     'przypadek' : 'gen'
    }, 
    {'baza': "poświęcić",
     'odmiana': True, 
     'potrzebny_przed' : '',
     'potrzebna_kontynuacja' : False, 
     'możliwa_kontynuacja' : True, 
     'moz_kontynuacja': ["tematyce", "problemowi", "problematyce"],
     'fleksem': 'ppas',
     'nadpisz': {},
     'dozwolone_po': ["all"],
     'przypadek' : 'dat'
    }, 
    {'baza': "z",
     'odmiana': False, 
     'potrzebny_przed' : '',
     'potrzebna_kontynuacja' : False, 
     'możliwa_kontynuacja' : True, 
     'moz_kontynuacja': ["elementami","dziedziny","motywem", ":"],
     'fleksem': '',
     'nadpisz': {},
     'dozwolone_po': ["all"],
     'przypadek' : 'inst'
    }, 
    {'baza': "mieć",
     'odmiana': True, 
     'potrzebny_przed' : '',
     'potrzebna_kontynuacja' : False, 
     'możliwa_kontynuacja' : True, 
     'moz_kontynuacja': ["związek z", "elementy", "tagi", "tag"], 
     'fleksem': 'pact',
     'nadpisz': {},
     'dozwolone_po': ["all"],
     'przypadek' : 'acc'
    },
    {'baza': "posiadać",
     'odmiana': True, 
     'potrzebny_przed' : '',
     'potrzebna_kontynuacja' : False, 
     'możliwa_kontynuacja' : True, 
     'moz_kontynuacja': ["elementy", "tagi", "tag", "wyjaśnienie", ":"], 
     'fleksem': 'pact',
     'nadpisz': {},
     'dozwolone_po': ["all"],
     'przypadek' : 'acc'
    },
    {'baza': "odnośnie",
     'odmiana': False,  
     'potrzebny_przed' : '',
     'potrzebna_kontynuacja' : False, 
     'możliwa_kontynuacja' : True, 
     'moz_kontynuacja': ["tematu", "tematyki", "kwestii", ":"],
     'fleksem': '',
     'nadpisz': {},
     'dozwolone_po': ["all"],
     'przypadek' : 'gen'
    }, 
    {'baza': "w", 
     'odmiana': False, 
     'potrzebny_przed' : '',
     'potrzebna_kontynuacja' : True, 
     'możliwa_kontynuacja' : True, 
     'moz_kontynuacja': ["tematyce","dziedzinie", "zakresie", "branży", "kwestii"] ,
     'fleksem': '',
     'nadpisz': {},
     'dozwolone_po': ["all"],
     'przypadek' : 'acc'
    },
    {'baza': "związać", 
     'odmiana': True,  
     'potrzebny_przed' : '',
     'potrzebna_kontynuacja' : True, 
     'możliwa_kontynuacja' : True, 
     'moz_kontynuacja': ["z"], 
     'fleksem': 'ppas',
     'nadpisz': {},
     'dozwolone_po': ["all"],
     'przypadek' : 'inst'
    },
    {'baza': "który", 
     'odmiana': True,  
     'potrzebny_przed' : ',',
     'potrzebna_kontynuacja' : True, 
     'możliwa_kontynuacja' : True, 
     'moz_kontynuacja': ["zawiera","opisuje","porusza","informuje", "wyjaśni","poinformuje", "wyjaśni"], 
     'fleksem': 'adj',
     'nadpisz': {'przypadek': "nom"},
     'dozwolone_po': ["not", "coś", "czegoś"],
     'przypadek' : ''
    },
    {'baza': "co", 
     'odmiana': False,  
     'potrzebny_przed' : '',
     'potrzebna_kontynuacja' : True, 
     'możliwa_kontynuacja' : True, 
     'moz_kontynuacja': ["zawiera","opisuje","porusza","informuje", "wyjaśnia","poinformuje", "wyjaśni"], 
     'fleksem': 'adj',
     'nadpisz': {'przypadek': "nom"},
     'dozwolone_po': ["only", "coś", "czegoś"],
     'przypadek' : ''
    },
    {'baza': "informować", 
     'odmiana': True,  
     'potrzebny_przed' : '',
     'potrzebna_kontynuacja' : True, 
     'możliwa_kontynuacja' : True, 
     'moz_kontynuacja': ["o", "na"], 
     'fleksem': 'pact',
     'nadpisz': {},
     'dozwolone_po': ["all"],
     'przypadek' : ''
    },
    {'baza': "mającego", 
     'odmiana': False,  
     'potrzebny_przed' : '',
     'potrzebna_kontynuacja' : True, 
     'możliwa_kontynuacja' : True, 
     'moz_kontynuacja': ["związek", "informacje", "informację"], 
     'fleksem': 'pact',
     'nadpisz': {},
     'dozwolone_po': ["only", "coś", "czegoś"],
     'przypadek' : ''
    },
    {'baza': "poruszać", 
     'odmiana': True, 
     'potrzebny_przed' : '',
     'potrzebna_kontynuacja' : True, 
     'możliwa_kontynuacja' : True, 
     'moz_kontynuacja': ["tematykę", "problematykę"], 
     'fleksem': 'pact',
     'nadpisz': {},
     'dozwolone_po': ["all"],
     'przypadek' : ''
    },
    {'baza': "który", 
     'odmiana': True, 
     'potrzebna_kontynuacja' : True,
     'potrzebny_przed' : ', w',
     'możliwa_kontynuacja' : True, 
     'moz_kontynuacja': ["znajdę", "są", "jest"], 
     'fleksem': 'adj',
     'nadpisz': {'przypadek': 'loc'},
     'dozwolone_po': ["all"],
     'przypadek' : ''
    },
]


In [5]:
con_syn = [
    {'baza': "elementy",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : True, 
    'moz_kontynuacja': ["takie jak", "związane z", "z", ":"],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : True,
    'przypadek' : 'gen'
    },
    {'baza': "tematykę",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : True, 
    'moz_kontynuacja': ["związaną z", "z"],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : True,
    'przypadek' : 'gen'
    },
    {'baza': "problematykę",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : True, 
    'moz_kontynuacja': ["związaną z", "z"],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : False,
    'przypadek' : 'gen'
    },
    {'baza': "związaną z",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : True, 
    'moz_kontynuacja': ["tematem", "problemem", "dziedziną", "branżą"],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : True,
    'przypadek' : 'inst'
    },
    {'baza': "związane z",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : True, 
    'moz_kontynuacja': ["tematem", "problemem", "dziedziną", "branżą"],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : True,
    'przypadek' : 'inst'
    },
    {'baza': "wyjaśnienie",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : True, 
    'moz_kontynuacja': ["problemu", "tematu", "problematyki"],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : True,
    'przypadek' : 'gen'
    },
    {'baza': "się",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : True, 
    'moz_kontynuacja': ["tematu", "problemu", "problematyki"],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : True,
    'przypadek' : 'gen'
    },
    {'baza': "się do",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : True, 
    'moz_kontynuacja': ["tematu", "problemu", "problematyki"],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : True,
    'przypadek' : 'gen'
    },
    {'baza': "problem",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : False, 
    'moz_kontynuacja': [],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : False,
    'przypadek' : 'gen'
    },
    {'baza': "o",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : True, 
    'moz_kontynuacja': ["temacie", "problemie"],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : False,
    'przypadek' : 'dat'
    },
    {'baza': "tagu",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : False, 
    'moz_kontynuacja': [],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : False,
    'przypadek' : 'nom'
    },
    {'baza': "tagach",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : True, 
    'moz_kontynuacja': ["takich jak", ":"],
    'konieczna_mnoga' : True,
    'możliwa_mnoga' : True,
    'przypadek' : 'nom'
    },
    {'baza': "tematyce",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : False, 
    'moz_kontynuacja': [],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : False,
    'przypadek' : 'gen'
    },
    {'baza': "temacie",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : False, 
    'moz_kontynuacja': [],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : False,
    'przypadek' : 'gen'
    },
    {'baza': "problemie",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : False, 
    'moz_kontynuacja': [],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : False,
    'przypadek' : 'gen'
    },
    {'baza': "problematyce",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : False, 
    'moz_kontynuacja': [],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : False,
    'przypadek' : 'gen'
    },
    {'baza': "motywie",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : False, 
    'moz_kontynuacja': [],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : False,
    'przypadek' : 'gen'
    },
    {'baza': "problemowi",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : False, 
    'moz_kontynuacja': [],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : False,
    'przypadek' : 'gen'
    },
    {'baza': "elementami",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : False, 
    'moz_kontynuacja': [],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : True,
    'przypadek' : 'gen'
    },
    {'baza': "motywem",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : False, 
    'moz_kontynuacja': [],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : False,
    'przypadek' : 'gen'
    },
    {'baza': "dziedziny",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : False, 
    'moz_kontynuacja': [],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : False,
    'przypadek' : 'gen'
    },
    {'baza': "związek z",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : True, 
    'moz_kontynuacja': ['tematem', 'dziedziną', 'problemem'],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : True,
    'przypadek' : 'inst'
    },
    {'baza': "tagi",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : True, 
    'moz_kontynuacja': ["takie jak", ":"],
    'konieczna_mnoga' : True,
    'możliwa_mnoga' : True,
    'przypadek' : 'nom'
    },
    {'baza': "tag",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : False, 
    'moz_kontynuacja': [],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : False,
    'przypadek' : 'gen'
    },
    {'baza': "kwestii",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : False, 
    'moz_kontynuacja': [],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : True,
    'przypadek' : 'gen'
    },
    {'baza': "dziedzinie",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : False, 
    'moz_kontynuacja': [],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : False,
    'przypadek' : 'gen'
    },
    {'baza': "zakresie",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : False, 
    'moz_kontynuacja': [],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : False,
    'przypadek' : 'gen'
    },
    {'baza': "branży",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : False, 
    'moz_kontynuacja': [],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : False,
    'przypadek' : 'gen'
    },
    {'baza': "zawiera",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : True, 
    'moz_kontynuacja': ["elementy", "element","informacje", "informację", "wyjaśnienie", ":"],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : True,
    'przypadek' : 'nom'
    },
    {'baza': "opisuje",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : True, 
    'moz_kontynuacja': ["problem", "problematykę","temat","tematykę"],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : True,
    'przypadek' : 'acc'
    },
    {'baza': "porusza",
    'odmiana': False,
    'potrzebna_kontynuacja' : True, 
    'możliwa_kontynuacja' : True, 
    'moz_kontynuacja': ["problem","temat"],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : True,
    'przypadek' : 'acc'
    },
    {'baza': "informuje",
    'odmiana': False,
    'potrzebna_kontynuacja' : True, 
    'możliwa_kontynuacja' : True, 
    'moz_kontynuacja': ["o", "na"],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : True,
    'przypadek' : 'dat'
    },
    {'baza': "wyjaśnia",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : True, 
    'moz_kontynuacja': ["problem", "problematykę"],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : False,
    'przypadek' : 'acc'
    },
    {'baza': "poinformuje",
    'odmiana': False,
    'potrzebna_kontynuacja' : True, 
    'możliwa_kontynuacja' : True, 
    'moz_kontynuacja': ["mnie"],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : True,
    'przypadek' : 'dat'
    },
    {'baza': "wyjaśni",
    'odmiana': False,
    'potrzebna_kontynuacja' : True, 
    'możliwa_kontynuacja' : True, 
    'moz_kontynuacja': ["mi"],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : True,
    'przypadek' : 'dat'
    },
    {'baza': "mi",
    'odmiana': False,
    'potrzebna_kontynuacja' : True, 
    'możliwa_kontynuacja' : True, 
    'moz_kontynuacja': ["problem", "temat", "tematykę"],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : True,
    'przypadek' : 'gen'
    },
    {'baza': "mnie",
    'odmiana': False,
    'potrzebna_kontynuacja' : True, 
    'możliwa_kontynuacja' : True, 
    'moz_kontynuacja': ["o", "na"],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : True,
    'przypadek' : 'gen'
    },
    {'baza': "na",
    'odmiana': False,
    'potrzebna_kontynuacja' : True, 
    'możliwa_kontynuacja' : True, 
    'moz_kontynuacja': ["temat"],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : True,
    'przypadek' : 'gen'
    },
    {'baza': "temat",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : False, 
    'moz_kontynuacja': [],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : False,
    'przypadek' : 'gen'
    },
    {'baza': "takie jak",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : True, 
    'moz_kontynuacja': [":"],
    'przypadek' : 'nom'
    },
    {'baza': "takich jak",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : True, 
    'moz_kontynuacja': [":"],
    'konieczna_mnoga' : True,
    'możliwa_mnoga' : True,
    'przypadek' : 'nom'
    },
    {'baza': "z",
    'odmiana': False,
    'potrzebna_kontynuacja' : True, 
    'możliwa_kontynuacja' : True, 
    'moz_kontynuacja': ["tematem", "problemem", "dziedziną"],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : True,
    'przypadek' : 'gen'
    },
    {'baza': "problemem",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : False, 
    'moz_kontynuacja': [],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : False,
    'przypadek' : 'gen'
    },
    {'baza': "tematem",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : False, 
    'moz_kontynuacja': [],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : False,
    'przypadek' : 'gen'
    },
    {'baza': "dziedziną",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : False, 
    'moz_kontynuacja': [],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : False,
    'przypadek' : 'gen'
    },
    {'baza': "element",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : False, 
    'moz_kontynuacja': [],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : False,
    'przypadek' : 'gen'
    },
    {'baza': "tematyki",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : False, 
    'moz_kontynuacja': [],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : True,
    'przypadek' : 'gen'
    },
    {'baza': "branżą",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : False, 
    'moz_kontynuacja': [],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : False,
    'przypadek' : 'gen'
    },
    {'baza': "dziedzinę",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : False, 
    'moz_kontynuacja': [],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : False,
    'przypadek' : 'gen'
    },
    {'baza': "tematu",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : False, 
    'moz_kontynuacja': [],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : False,
    'przypadek' : 'gen'
    },
    {'baza': "problematyki",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : False, 
    'moz_kontynuacja': [],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : False,
    'przypadek' : 'gen'
    },
    {'baza': "problemu",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : False, 
    'moz_kontynuacja': [],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : False,
    'przypadek' : 'gen'
    },
    {'baza': "informacje",
    'odmiana': False,
    'potrzebna_kontynuacja' : True, 
    'możliwa_kontynuacja' : True, 
    'moz_kontynuacja': ["o", "na", "z dziedziny", "z tematu"],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : True,
    'przypadek' : 'gen'
    },
    {'baza': "znajdę",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : True, 
    'moz_kontynuacja': ["wiedzę", "informacje", "informację", "omówienie"],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : False,
    'przypadek' : 'acc'
    },
    {'baza': "wiedzę",
    'odmiana': False,
    'potrzebna_kontynuacja' : True, 
    'możliwa_kontynuacja' : True, 
    'moz_kontynuacja': ["o", "na"],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : True,
    'przypadek' : 'gen'
    },
    {'baza': "są",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : True, 
    'moz_kontynuacja': ["informacje", ":"],
    'konieczna_mnoga' : True,
    'możliwa_mnoga' : True,
    'przypadek' : 'gen'
    },
    {'baza': "z dziedziny",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : False, 
    'moz_kontynuacja': [],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : False,
    'przypadek' : 'gen'
    },
    {'baza': "z tematu",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : False, 
    'moz_kontynuacja': [],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : False,
    'przypadek' : 'gen'
    },
    {'baza': "jest",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : True, 
    'moz_kontynuacja': ["wiedza", "informacja"],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : False,
    'przypadek' : 'nom'
    },
    {'baza': "informacja",
    'odmiana': False,
    'potrzebna_kontynuacja' : True, 
    'możliwa_kontynuacja' : True, 
    'moz_kontynuacja': ["z", "o"],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : False,
    'przypadek' : 'gen'
    },
    {'baza': "informację",
    'odmiana': False,
    'potrzebna_kontynuacja' : True, 
    'możliwa_kontynuacja' : True, 
    'moz_kontynuacja': ["z", "o"],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : False,
    'przypadek' : 'gen'
    },
    {'baza': "omówienie",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : True, 
    'moz_kontynuacja': ["tematu", "problemu"],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : False,
    'przypadek' : 'gen'
    },
    {'baza': "wiedza",
    'odmiana': False,
    'potrzebna_kontynuacja' : True, 
    'możliwa_kontynuacja' : True, 
    'moz_kontynuacja': ["z tematu", "z dziedziny", "o", "na"],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : True,
    'przypadek' : 'gen'
    },
    {'baza': "związek",
    'odmiana': False,
    'potrzebna_kontynuacja' : True, 
    'możliwa_kontynuacja' : True, 
    'moz_kontynuacja': ["z"],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : True,
    'przypadek' : 'gen'
    },
    {'baza': ":",
    'odmiana': False,
    'potrzebna_kontynuacja' : False, 
    'możliwa_kontynuacja' : False, 
    'moz_kontynuacja': [],
    'konieczna_mnoga' : False,
    'możliwa_mnoga' : True,
    'przypadek' : 'gen'
    },
    
]

In [6]:
locni = ["i", "oraz",",","lub","albo","a także", "bądź", "ewentualnie"]

In [7]:
aut_syn = ["autorstwa", "napisany przez", "której autorem jest", "którego twórcą"]

In [8]:
dodaj_voc = [          
#        {'baza': "dodatkowo", 
#         'przypadek': "nom", 
#         'nadpisz': {}
#        },
        {'baza': "no to", 
         'przypadek': "nom", 
         'nadpisz': {}
        }, 
#        {'baza': "no to dodatkowo", 
#         'przypadek': "nom", 
#        'nadpisz': {}
#        },
        {'baza': "no to niech będzie", 
         'przypadek': "nom", 
         'nadpisz': {"liczba": 'sg'}
        },
        {'baza': "no to niech będą", 
         'przypadek': "nom", 
         'nadpisz': {"liczba": 'pl'}
        },
#        {'baza': "no to wybieram", 
#         'przypadek': "gen", 
#         'nadpisz': {}
#        },
#        {'baza': "no to wolę", 
#         'przypadek': "gen", 
#         'nadpisz': {}
#        },
#        {'baza': "no to już niech będzie", 
#         'przypadek': "nom", 
#         'nadpisz': {}
#        },       
        {'baza': "niech będzie", 
         'przypadek': "nom", 
         'nadpisz': {"liczba": 'sg'}
        },          
        {'baza': "niech już będzie", 
         'przypadek': "nom", 
         'nadpisz': {"liczba": 'sg'}
        },   
        {'baza': "niech będą", 
         'przypadek': "nom", 
         'nadpisz': {"liczba": 'pl'}
        },   
        {'baza': "niech już będą", 
         'przypadek': "nom", 
         'nadpisz': {"liczba": 'pl'}
        },
        {'baza': "wybieram", 
         'przypadek': "acc", 
         'nadpisz': {}
        },
#        {'baza': "wolę", 
#         'przypadek': "acc", 
#         'nadpisz': {}
#        },
#        {'baza': "już bym wolał", 
#         'przypadek': "acc", 
#         'nadpisz': {}
#        },
        {'baza': "może być", 
         'przypadek': "nom", 
         'nadpisz': {"liczba": 'sg'}
        },
        {'baza': "no to może być", 
         'przypadek': "nom", 
         'nadpisz': {"liczba": 'sg'}
        },
        {'baza': "mogą być", 
         'przypadek': "nom", 
         'nadpisz': {"liczba": 'pl'}
        },
        {'baza': "no to mogą być", 
         'przypadek': "nom", 
         'nadpisz': {"liczba": 'pl'}
        },
#        {'baza': "bardziej", 
#         'przypadek': "ac", 
#         'nadpisz': "gen"
#        },
#        {'baza': "bardziej pasuje mi", 
#         'przypadek': "nom", 
#         'nadpisz': {}
#        },
#        {'baza': "dodatkowo wybieram", 
#         'przypadek': "acc", 
#         'nadpisz': {}
#        },
#        {'baza': "bardziej interesuje mnie", 
#         'przypadek': "nom", 
#         'nadpisz': {}
#        },
#        {'baza': "jestem bardziej zainteresowany", 
#         'przypadek': "inst", 
#         'nadpisz': {}
#        }
]

In [9]:
key_t_ab = [ 
        {'baza': "myślę o", 
         'przypadek': "acc", 
         'nadpisz': {}
        },
        {'baza': "interesuje mnie", 
         'przypadek': "acc", 
         'nadpisz': {}
        },
        {'baza': "chciałbym poczytać o", 
         'przypadek': "acc", 
         'nadpisz': {}
        },
        {'baza': "chciałbym dowiedzieć się o", 
         'przypadek': "acc", 
         'nadpisz': {}
        },
        {'baza': "chcę dowiedzieć się o", 
         'przypadek': "acc", 
         'nadpisz': {}
        },
        {'baza': "interesuje mnie zagadnienie", 
         'przypadek': "acc", 
         'nadpisz': {}
        },
        {'baza': "myślę o zagadnieniu", 
         'przypadek': "acc", 
         'nadpisz': {}
        },
        {'baza': "jestem zainteresowany tematem", 
         'przypadek': "acc", 
         'nadpisz': {}
        },
        {'baza': "jestem zainteresowany tematami", 
         'przypadek': "acc", 
         'nadpisz': {"liczba": 'pl'}
        },
        {'baza': "myślę o tematach", 
         'przypadek': "acc", 
         'nadpisz': {"liczba": 'pl'}
        },
        {'baza': "może być o", 
         'przypadek': "acc", 
         'nadpisz': {"liczba": 'pl'}
        },
        {'baza': "myślę , że może być o", 
         'przypadek': "acc", 
         'nadpisz': {"liczba": 'pl'}
        }
]

In [10]:
greet = [
    {'baza': 'cześć'},
    {'baza': 'dzień dobry'},
    {'baza': 'witam'},
    {'baza': 'hejo'},
    {'baza': 'elo'},
    {'baza': 'elo mordo'},
    {'baza': 'witam witam'},
    {'baza': 'siema'},
    {'baza': 'siemka'},
    {'baza': 'joł'},
    {'baza': 'siemaneczko'},
    {'baza': 'gitara siema'}
]

może + keyword
może + dokument_type
wolę + keyword
wolę + dokument_type
no to dokument_type
no to keyword
niech będzie keyword
niech będzie doc_type

Przywitanie
Podziękowanie
Pożegnanie 
#Bełkot
Dokument:Albo, Klucze: albo
Dokumen: Albo, Klucze: oraz
Dokument:Albo
Klucze:Albo
Klucze: Oraz

A_name = []
A_sur = []
with open("nazwiska.txt", "r", encoding = "utf-8") as f:
    for line in f:
        A_sur.append(line[:-1])
with open("imiona.txt", "r", encoding = "utf-8") as f:
    for line in f:
        A_name.append(line[:-1])

In [11]:
def find_doc_to_search_word(search_word, doc_types):
    doc_type = random.choice(doc_types)
    while search_word['przypadek'] not in doc_type['dozwolone_po']:
        doc_type = random.choice(doc_types)
    return doc_type

In [12]:
def find_cont_to_doc_type(doc_type, zaw_words):
    cont_word = random.choice(zaw_words)
    
    if cont_word['dozwolone_po'][0] == "all":
        return cont_word
    
    if cont_word['dozwolone_po'][0] == "not":
        while doc_type['baza'] in cont_word['dozwolone_po']:
            cont_word = random.choice(zaw_words)
        return cont_word   
    
    if cont_word['dozwolone_po'][0] == "only":
        if not doc_type['baza'] in cont_word['dozwolone_po'] :
            cont_word = find_cont_to_doc_type(doc_type, zaw_words)
        return cont_word

In [13]:
def find_document_form(search_word, doc_type, count):
    # find possible continuation
    item_types = []
        
    doc_type_morph = morf.generate(doc_type['baza'])
    if  search_word['nadpisz']:
        keys = list(search_word['nadpisz'].keys())
        if 'liczba' in keys:
            count = search_word['nadpisz']['liczba']
            
    if doc_type['odmiana']:
        for item in doc_type_morph:
            tags = item[2].split(':')
            if len(tags) > 3:
                if search_word['przypadek'] in tags[2].split('.') and tags[1] == count:
                    if item[4]:
                        if 'arch' not in ''.join(i for i in item[4]):
                            liczba = tags[1]
                            przypadek = tags[2]
                            rodzaj = tags[3]
                            item_type = item
                    else:
                        liczba = tags[1]
                        przypadek = tags[2]
                        rodzaj = tags[3]
                        item_type = item
    else:
        item_type = [doc_type['baza']]
            
    if doc_type['nadpisz']:
        keys = list(doc_type['nadpisz'].keys())
        if 'przypadek' in keys:
            przypadek = doc_type['nadpisz']['przypadek']
        if 'rodzaj' in keys:
            rodzaj = doc_type['nadpisz']['rodzaj']
        if 'liczba' in list(doc_type['nadpisz'].keys()):
            liczba = doc_type['nadpisz']['liczba']
            
    right_type_val = {'przypadek': przypadek.split('.'), 
                      'liczba': liczba.split('.'), 
                      'rodzaj': rodzaj.split('.')}  
    
    if doc_type['możliwa_kontynuacja'] and random.uniform(0, 1) > 0.7:
        con_doc_w = random.choice(doc_type['moz_kontynuacja'])
        doc_cont_morph = morf.generate(con_doc_w)
        for item in doc_cont_morph:            
            tags = item[2].split(':')
            przyp = right_type_val['przypadek']
            if len(tags)>3:
                if any(x in right_type_val['liczba']  for x in tags[1].split('.')):
                    if any(x in right_type_val['rodzaj']  for x in tags[3].split('.')):
                        if any(x in przyp  for x in tags[2].split('.')) and tags[-1] != "neg":
                            item_type_cont = item
        try:                    
            return [item_type[0],item_type_cont[0]], right_type_val
        except:
            return [item_type[0],con_doc_w], right_type_val
          
            
    return [item_type[0]], right_type_val

In [14]:
def find_verb_form(cont_word, right_type_val):
    
    if cont_word['nadpisz']:
        keys = list(cont_word['nadpisz'].keys())
        if 'liczba' in keys:
            right_type_val['liczba'] = [cont_word['nadpisz']['liczba']]
        if 'przypadek' in keys:
            right_type_val['przypadek'] = [cont_word['nadpisz']['przypadek']]
        if 'rodzaj' in keys:
            right_type_val['rodzaj'] = [cont_word['nadpisz']['rodzaj']]
       
    #print(cont_word)
    if cont_word['odmiana']:
        b = morf.generate(cont_word['baza'])
        for item in b:
            tags = item[2].split(':')
            przyp = right_type_val['przypadek']
            if tags[0] == cont_word['fleksem']:
                if any(x in right_type_val['liczba']  for x in tags[1].split('.')):
                    if any(x in right_type_val['rodzaj']  for x in tags[3].split('.')):
                        if any(x in przyp  for x in tags[2].split('.')) and tags[-1] != "neg":
                            czas = item[0]
    else:
        czas = cont_word['baza']
    
    if cont_word['potrzebny_przed']:
        czas = cont_word['potrzebny_przed'] + ' ' + czas
        
    return czas

In [15]:
def get_doc_num(i):
    num_doc = 1
    if random.uniform(0, 1) > i:
        num_doc = 2
        if random.uniform(0, 1) > i:
            num_doc = 3
            if random.uniform(0, 1) > i:
                num_doc = 4
    return num_doc

In [16]:
def prepare_doc_selection(num_doc, search_word, document_types):
    selected_doctypes = []
    while len(selected_doctypes) < num_doc:
        doc = find_doc_to_search_word(search_word, document_types)
        if doc not in selected_doctypes:
            selected_doctypes.append(doc)
    
    if num_doc > 1:
        for i in range(len(selected_doctypes)):
            if selected_doctypes[i]['baza'] in ["coś", "czegoś"]:
                cos = selected_doctypes.pop(i)
                selected_doctypes.append(cos)
                break
            
    return selected_doctypes

In [17]:
def prepare_key_selection(num_keys, keywords):
    selected_keywords = []
    while len(selected_keywords) < num_keys:
        key = random.choice(keywords)
        if key not in selected_keywords:
            selected_keywords.append(key)
    
    return selected_keywords

In [18]:
def get_keyword_form(key, cont_word):
    keys = key.split(' ')
    keyw = keys[0]
    try:
        przypadek = cont_word['przypadek']
        aaa = morf.generate(keyw)
        for item in aaa:
            tags = item[2].split(':')
            if przypadek in tags[2].split('.'):
                if 'arch' not in ''.join(i for i in item[4]):
                    #print(item[0])
                    if len(keys) > 1:
                        czas = item[0]  +' '+' '.join(keys[1:])
                    else:
                        czas = item[0]
                    return czas
    except:
        czas = key
        return czas

In [19]:
def get_slots(keyword_sentence_part, choice_type):
    keyword_slots = []
    for i in range(len(keyword_sentence_part.split(' '))):
        if i == 0:
            keyword_slots.append('B-'+choice_type)
        else:
            keyword_slots.append('I-'+choice_type)
            
    return keyword_slots

def get_choice_slot(choice_word, choice_type):
    keyword_slots = []
    for i in range(len(choice_word.split(' '))):
        if i == 0:
            keyword_slots.append('B-Choice')#-'+choice_type)
        else:
            keyword_slots.append('B-Choice')#-'+choice_type)
    
    return keyword_slots

def get_l_operator(choice_words_and, choice_words_or, p1, p2):
    rand_num = random.uniform(0, 1)
    if rand_num <= p1:
        a = random.choice(choice_words_and)
        slots = get_choice_slot(a, 'and')
        or_word = " " + a
    elif rand_num > p1 and rand_num < p2:
        a = random.choice(choice_words_or)
        slots = get_choice_slot(a, 'or')
        or_word = " " + a
    else:
        a = ","
        slots = ['O']
        or_word = a
    return or_word, slots, a

In [20]:
def prepare_key_sent(keyword_list, cont_word):
    keyword_sentence_part = []
    keyword_slots = []
    keyword_tokens = []
    #print(keyword_list)
    
    for key in keyword_list:
        czas = ''
        czas = get_keyword_form(key, cont_word)
        if type(czas) is list:
            czas = ' '. join(czas)            
        if not czas:
            czas = key
            
        keyword_sentence_part.append(czas)
        #print(keyword_sentence_part)
        
    sentence = ''
    if len(keyword_sentence_part) > 1:
        
        choice_neutral = [","]
        #choice_words_and = ["i", "oraz","także", "jednocześnie", 'tylko', 'nie', 'bez']
        choice_words_and = ["i", "oraz","także", "jednocześnie", "a także", "również", "i również",
                           "i jednocześnie", "a także", "oraz jednocześnie"]
        choice_words_or = ["lub", "albo", "bądź", "ewentualnie", "bądź też", "lub ewentualnie", "lub też",
                          "i ewentualnie", "czy"]
        for i in range(len(keyword_sentence_part)-1):
            if i == 0:
                sentence += keyword_sentence_part[0]
                keyword_slots.extend(get_slots(keyword_sentence_part[0], 'keyword'))
                keyword_tokens.extend(keyword_sentence_part[0].split(' '))
            else:
                or_word, slots, a = get_l_operator(choice_words_and, choice_words_or, 0.15, 0.3)
                if "," not in a.split(' ') and random.uniform(0,1) > 0.9:
                    or_word = "," + or_word
                    slots = ["O"] + slots
                    a = ", " + a
                sentence += or_word + ' ' +keyword_sentence_part[i]
                keyword_slots.extend(slots + get_slots(keyword_sentence_part[i],'keyword'))
                keyword_tokens.extend([word for word in a.split(' ')] + keyword_sentence_part[i].split(' '))
                
        or_word, slots,a = get_l_operator(choice_words_and, choice_words_or, 0.45, 0.9)
        if "," not in a.split(' ') and random.uniform(0,1) > 0.9:
            or_word = "," + or_word
            slots = ["O"] + slots
            a = ", " + a
            
        sentence += or_word + ' ' +keyword_sentence_part[-1]
        keyword_slots.extend(slots + get_slots(keyword_sentence_part[-1],'keyword'))
        keyword_tokens.extend([word for word in a.split(' ')] + keyword_sentence_part[-1].split(' '))
    else:
        sentence = keyword_sentence_part[0]
        keyword_slots.extend(get_slots(keyword_sentence_part[0],'keyword'))
        keyword_tokens.extend(keyword_sentence_part[0].split(' '))
        
    #print(sentence)    
    return sentence, keyword_slots, keyword_tokens

In [21]:
def prepare_doc_sent(item_types):
    sentence = ''
    sentence_slots = []
    sentence_tokens = []
    choice_words_and = ["i", "oraz","także", "jednocześnie", "a także", "również", "i również",
                       "a także","czy"]
    choice_words_or = ["lub", "albo", "bądź", "ewentualnie", "bądź też", "lub ewentualnie", "lub też",
                      "i ewentualnie"]
    
    doc_full = []
    for doc in item_types:
        if len(doc) > 1:
            doc_full.append(' '. join(doc))           
        else:
            doc_full.append(doc[0])
    #print(doc_full)    
    
    if len(doc_full) > 1:
        for i in range(len(item_types)-1):
            if i == 0:
                sentence += doc_full[0]
                sentence_tokens.extend(item_types[0])
                sentence_slots.extend(get_slots(doc_full[0], 'Doc_type'))
            else:
                or_word, slots,a = get_l_operator(choice_words_and, choice_words_or, 0.2, 0.4)
                if "," not in a.split(' ') and random.uniform(0,1) > 0.9:
                    or_word = "," + or_word
                    slots = ["O"] + slots
                    a = ", " + a
                sentence += or_word + ' ' + doc_full[i]
                sentence_slots.extend(slots + get_slots(doc_full[i],'Doc_type'))
                sentence_tokens.extend([word for word in a.split(' ')] + item_types[i])
                
        or_word, slots, a = get_l_operator(choice_words_and, choice_words_or, 0.48, 0.96)
        if "," not in a.split(' ') and random.uniform(0,1) > 0.9:
            or_word = "," + or_word
            slots = ["O"] + slots
            a = ", " + a    
            
        sentence = sentence + or_word + ' ' + doc_full[-1]
        sentence_slots.extend(slots + get_slots(doc_full[-1],'Doc_type'))
        sentence_tokens.extend([word for word in a.split(' ')] + doc_full[-1].split(' '))
        
    else:
        sentence = doc_full[0]
        sentence_tokens.extend(doc_full[0].split(' '))
        sentence_slots.extend(get_slots(doc_full[0], 'Doc_type'))
        
    return sentence, sentence_slots, sentence_tokens

In [32]:
import string
import re

def infuse_mistakes(sentence_dict):
    mistake_types = ['typo','missing comma','dupli']
    i = 0
    while i < len(sentence_dict['tokens']):     
        #TYPOS
        if sentence_dict['tokens'][i] != ',' and len(sentence_dict['tokens'][i]) > 1 and sentence_dict['slots'][i] in ['B-Choice', 'B-Doc_type', 'O']:
            for j in range(2):
                if random.uniform(0,1) < 0.01: #swap random letter 
                    word = sentence_dict['tokens'][i]
                    letter_ind = random.randint(0, len(word))-1
                    w_list = list(word)
                    w_list[letter_ind] = random.choice(list(string.ascii_lowercase))                
                    sentence_dict['tokens'][i] = ''.join(w_list)
                elif random.uniform(0,1) < 0.01: #duplicate letter
                    word = sentence_dict['tokens'][i]
                    letter_ind = random.randint(0, len(word)-1)
                    word = word[:letter_ind] + word[letter_ind] + word[letter_ind:]
                    sentence_dict['tokens'][i] = word
                elif random.uniform(0,1) < 0.01 and len(sentence_dict['tokens'][i]) > 1:#remove letter
                    word = sentence_dict['tokens'][i]
                    letter_ind = random.randint(0, len(word)-1)
                    word = word[:letter_ind] + word[letter_ind + 1:]
                    sentence_dict['tokens'][i] = word
                elif random.uniform(0,1) < 0.01: #add random letter
                    word = sentence_dict['tokens'][i]
                    letter_ind = random.randint(0, len(word)-1)
                    word = word[:letter_ind] + random.choice(list(string.ascii_lowercase)) + word[letter_ind:]
                    sentence_dict['tokens'][i] = word
            
        #MISSING COMMAS 
        #if sentence_dict['tokens'][i] == ',' and random.uniform(0,1) < 0.001:
        #    sentence_dict['tokens'].pop(i)
        #    sentence_dict['slots'].pop(i)
        #    i += -1
            
        #DUPLICATED WORDS
        if random.uniform(0,1) < 0.002:
            sentence_dict['tokens'].insert(i+1, sentence_dict['tokens'][i])
            if sentence_dict['slots'][i] in ['O', 'B-Choice'] or sentence_dict['slots'][i][0] == 'I':
                sentence_dict['slots'].insert(i+1, sentence_dict['slots'][i])
            else:
                swapped_tag = list(sentence_dict['slots'][i])
                swapped_tag[0] = 'I'
                sentence_dict['slots'].insert(i+1, ''.join(swapped_tag))
            i += 1
            
        i += 1
        
    sentence_recon = ' '.join(sentence_dict['tokens'])
    sentence_recon = sentence_recon.replace(" , ", ", ")
    re.sub(' {2,}', ' ', sentence_recon)
    sentence_dict['sentence']=sentence_recon 
    return sentence_dict

In [7]:
rake_keys = pd.read_csv("../data/tables/rake_keywords_table.csv")['keywords'].tolist()
yake_keys = pd.read_csv("../data/tables/yake_keywords_table.csv")['keywords'].tolist()
tfidf_keys = pd.read_csv("../data/tables/tfidf_keywords_table.csv")['keywords'].tolist()
keyword_list = rake_keys + yake_keys + tfidf_keys

In [24]:
def insert_przyim(przyim_l, word):
    p = random.choice(przyim_l)
    i = random.randint(1, len(word)-1)
    b = word 
    b[i:i] = [p]
    return b
    
przyim_list = ["do", "za", "pod", "u", "nad", "od", "po"]
lines = open('polish_words.txt', encoding='utf-8-sig').read().splitlines()
for i in range(100000):
    word = random.sample(lines, random.randint(2,3))
    if len(word) > 1:
        if random.uniform(0,1) < 0.1:
            word = insert_przyim(przyim_list, word)
            
    word = ' '.join(word)
    keyword_list.append(word)


In [25]:
random.shuffle(keyword_list)

In [34]:
# Docs and keywords
list_of_docs_and_keywords_multi = []
for i in range(20000):
    count = 'sg'
    if random.uniform(0, 1) > 0.5:
        count = 'pl'
    doc_num = get_doc_num(0.7)
    search_word = random.choice(search_words)
    #doc_type = find_doc_to_search_word(search_word, document_types)
    doc_type = prepare_doc_selection(doc_num, search_word, document_types)
    
    search_word_slot = ['O' for elem in search_word['baza'].split(' ')]
    search_word_tokens = [elem for elem in search_word['baza'].split(' ')]
    
    item_types = []
    for i in range(doc_num-1):
        [item_t, _] = find_document_form(search_word,doc_type[i], count) 
        item_types.append(item_t)
    
    item_t, right_type_val = find_document_form(search_word,doc_type[doc_num-1], count) 
    item_types.append(item_t) 
    #print(item_types)
    
    doc_sentence_part, doc_sentence_slots, doc_sentence_tokens = prepare_doc_sent(item_types)
    
    cont_word = find_cont_to_doc_type(doc_type[-1], zaw_words)
    czas = find_verb_form(cont_word, right_type_val)
    
    senten = search_word['baza'] + ' ' + doc_sentence_part + ' ' + czas
    
    tokens = search_word_tokens + doc_sentence_tokens + czas.split(' ')
    slots = search_word_slot + doc_sentence_slots + ['O' for word in czas.split(' ')]
    
    stop = False
    while cont_word['możliwa_kontynuacja'] and not stop:
        if cont_word['potrzebna_kontynuacja']:
            cont = random.choice(cont_word['moz_kontynuacja'])
            #print(cont)
            cont_word = next((item for item in con_syn if item['baza'] == cont), None)
            senten = senten + ' ' + cont_word['baza']
            tokens.extend(cont_word['baza'].split(' '))
            slots.extend(['O' for i in cont_word['baza'].split(' ')])
            
        elif random.uniform(0, 1) > 0.3:
            cont = random.choice(cont_word['moz_kontynuacja'])
            #print(cont)
            cont_word = next((item for item in con_syn if item['baza'] == cont), None)
            senten = senten + ' ' + cont_word['baza']
            tokens.extend(cont_word['baza'].split(' '))
            slots.extend(['O' for i in cont_word['baza'].split(' ')])
        else:
            stop = True
    
    keys = prepare_key_selection(get_doc_num(0.6), keyword_list)
    
    key_sentence_part, key_sentence_slots, key_sentence_tokens = prepare_key_sent(keys, cont_word)
    
    sentence = senten + ' ' + key_sentence_part
    tokens = tokens+key_sentence_tokens
    slots = slots+key_sentence_slots
    
    if random.uniform(0,1) <0.3:
        gree = random.choice(greet)['baza']
        if random.uniform(0,1) > 0.35:
            sentence = gree + ', ' + sentence
            tokens = [word for word in gree.split(' ')] + [","] + tokens
            slots = ['O' for w in gree.split(' ')] + ["O"] + slots
        else:
            sentence = gree + ' ' + sentence
            tokens = [word for word in gree.split(' ')] + tokens
            slots = ['O' for w in gree.split(' ')] + slots
        
    sentence_dict = {'sentence': sentence, 'tokens': tokens, 'slots': slots}
    sentence_dict = infuse_mistakes(sentence_dict)
    if len(sentence_dict['tokens']) > 40 or len(sentence_dict['slots']) > 40:
        print(sentence_dict['tokens'])
        print(sentence_dict['slots'])
    if len(sentence_dict['tokens']) != len(sentence_dict['slots']):
        print(sentence_dict['tokens'])
        print(sentence_dict['slots'])
    else:
        list_of_docs_and_keywords_multi.append(sentence_dict)

In [27]:
gree

'hejo'

In [36]:
# multi-part sentence
# Docs and keywords
list_of_docs_and_keywords = []

for i in range(20000):
    try:
        j = 0
        search_word = random.choice(search_words)
        search_word_slot = ['O' for elem in search_word['baza'].split(' ')]
        search_word_tokens = [elem for elem in search_word['baza'].split(' ')]

        tokens_full = []
        slots_full = []
        sentence_full = ''
        #doc_type = find_doc_to_search_word(search_word, document_types)
        while j<2 or random.uniform(0,1)< 0.09:
            if j > 0:
                choice_words_and = ["i", "oraz","także", "i jednocześnie", "a także",', ']
                choice_words_or = ["lub", "albo", "lub też", "bądź", "ewentualnie", "bądź też", "lub ewentualnie"]
                or_word, or_slots, a = get_l_operator(choice_words_and, choice_words_or, 0.45, 0.9)
                if "," not in a.split(' ') and random.uniform(0,1) > 0.9:
                    or_word = "," + or_word
                    or_slots = ["O"] + or_slots
                    a = ", " + a  
                sentence_full += or_word + ' '
                tokens_full += [word for word in a.split(' ')]
                slots_full += or_slots

            count = 'sg'
            if random.uniform(0, 1) > 0.5:
                    count = 'pl'
            doc_num = get_doc_num(0.8)
            doc_type = prepare_doc_selection(doc_num, search_word, document_types)

            item_types = []
            for i in range(doc_num-1):
                [item_t, _] = find_document_form(search_word,doc_type[i], count) 
                item_types.append(item_t)

            item_t, right_type_val = find_document_form(search_word,doc_type[doc_num-1], count) 
            item_types.append(item_t) 
            #print(item_types)

            doc_sentence_part, doc_sentence_slots, doc_sentence_tokens = prepare_doc_sent(item_types)

            cont_word = find_cont_to_doc_type(doc_type[-1], zaw_words)
            czas = find_verb_form(cont_word, right_type_val)

            senten = doc_sentence_part + ' ' + czas

            tokens = doc_sentence_tokens + czas.split(' ')
            slots = doc_sentence_slots + ['O' for word in czas.split(' ')]

            stop = False
            while cont_word['możliwa_kontynuacja'] and not stop:
                if cont_word['potrzebna_kontynuacja']:
                    cont = random.choice(cont_word['moz_kontynuacja'])
                    #print(cont)
                    cont_word = next((item for item in con_syn if item['baza'] == cont), None)
                    senten = senten + ' ' + cont_word['baza']
                    tokens.extend(cont_word['baza'].split(' '))
                    slots.extend(['O' for i in cont_word['baza'].split(' ')])

                elif random.uniform(0, 1) > 0.7:
                    cont = random.choice(cont_word['moz_kontynuacja'])
                    #print(cont)
                    cont_word = next((item for item in con_syn if item['baza'] == cont), None)
                    senten = senten + ' ' + cont_word['baza']
                    tokens.extend(cont_word['baza'].split(' '))
                    slots.extend(['O' for i in cont_word['baza'].split(' ')])
                else:
                    stop = True

            keys = prepare_key_selection(get_doc_num(0.8), keyword_list)
            try:
                key_sentence_part, key_sentence_slots, key_sentence_tokens = prepare_key_sent(keys, cont_word)
            except:
                print(keys)
                break
            sentence = senten + ' ' + key_sentence_part

            tokens = tokens+key_sentence_tokens
            slots = slots+key_sentence_slots

            sentence_full += sentence
            slots_full += slots
            tokens_full += tokens
            j += 1

        sentence_full = search_word['baza'] + ' ' + sentence_full
        slots_full = search_word_slot + slots_full
        tokens_full = search_word_tokens + tokens_full
        
        if random.uniform(0,1) <0.2:
            gree = random.choice(greet)['baza']
            if random.uniform(0,1) > 0.3:
                sentence_full = gree + ', ' + sentence_full
                tokens_full = [word for word in gree.split(' ')] + [","] + tokens_full
                slots_full = ['O' for w in gree.split(' ')] + ["O"] + slots_full
            else:
                sentence_full = gree + ' ' + sentence_full 
                tokens_full  = [word for word in gree.split(' ')] + tokens_full 
                slots_full  = ['O' for w in gree.split(' ')] + slots_full 
                
        sentence_dict = {'sentence': sentence_full, 'tokens': tokens_full, 'slots': slots_full}
        sentence_dict = infuse_mistakes(sentence_dict)
        #if len(sentence_dict['tokens']) > 40 or len(sentence_dict['slots']) > 40:
         #   print(sentence_dict['tokens'])
          #  print(sentence_dict['slots'])
        if len(sentence_dict['tokens']) != len(sentence_dict['slots']):
            print(sentence_dict['tokens'])
            print(sentence_dict['slots'])
        else:
            list_of_docs_and_keywords.append(sentence_dict)
    except:
        print(sentence_dict)
        break

In [39]:
# multi-part sentence
# Docs and keywords
list_of_docs_and_keywords_docs = []
for i in range(10000):
    try:
        j = 0
        search_word = random.choice(search_words)
        search_word_slot = ['O' for elem in search_word['baza'].split(' ')]
        search_word_tokens = [elem for elem in search_word['baza'].split(' ')]

        tokens_full = []
        slots_full = []
        sentence_full = ''
        #doc_type = find_doc_to_search_word(search_word, document_types)
        while j < 2 or random.uniform(0,1) < 0.1:
            if j > 0:
                choice_words_and = ["i", "oraz","także", "i jednocześnie", "a także", ", ", "czy", "czy też"]
                choice_words_or = ["lub", "albo", "lub też", "bądź", "ewentualnie", "bądź też", "lub ewentualnie"]
                or_word, or_slots, a = get_l_operator(choice_words_and, choice_words_or, 0.45, 0.9)
                if "," not in a.split(' ') and random.uniform(0,1) > 0.7:
                    or_word = "," + or_word
                    or_slots = ["O"] + or_slots
                    a = ", " + a  
                sentence_full += or_word + ' '
                tokens_full += [word for word in a.split(' ')]
                slots_full += or_slots

            count = 'sg'
            if random.uniform(0, 1) > 0.5:
                    count = 'pl'
            doc_num = get_doc_num(0.8)
            doc_type = prepare_doc_selection(doc_num, search_word, document_types)

            item_types = []
            for i in range(doc_num-1):
                [item_t, _] = find_document_form(search_word,doc_type[i], count) 
                item_types.append(item_t)

            item_t, right_type_val = find_document_form(search_word,doc_type[doc_num-1], count) 
            item_types.append(item_t) 
            #print(item_types)

            doc_sentence_part, doc_sentence_slots, doc_sentence_tokens = prepare_doc_sent(item_types)
            if j%2 == 0:
                cont_word = find_cont_to_doc_type(doc_type[-1], zaw_words)
                czas = find_verb_form(cont_word, right_type_val)

                senten = doc_sentence_part + ' ' + czas

                tokens = doc_sentence_tokens + czas.split(' ')
                slots = doc_sentence_slots + ['O' for word in czas.split(' ')]

                stop = False
                while cont_word['możliwa_kontynuacja'] and not stop:
                    if cont_word['potrzebna_kontynuacja']:
                        cont = random.choice(cont_word['moz_kontynuacja'])
                        #print(cont)
                        cont_word = next((item for item in con_syn if item['baza'] == cont), None)
                        senten = senten + ' ' + cont_word['baza']
                        tokens.extend(cont_word['baza'].split(' '))
                        slots.extend(['O' for i in cont_word['baza'].split(' ')])

                    elif random.uniform(0, 1) > 0.7:
                        cont = random.choice(cont_word['moz_kontynuacja'])
                        #print(cont)
                        cont_word = next((item for item in con_syn if item['baza'] == cont), None)
                        senten = senten + ' ' + cont_word['baza']
                        tokens.extend(cont_word['baza'].split(' '))
                        slots.extend(['O' for i in cont_word['baza'].split(' ')])
                    else:
                        stop = True

                keys = prepare_key_selection(get_doc_num(0.8), keyword_list)
                try:
                    key_sentence_part, key_sentence_slots, key_sentence_tokens = prepare_key_sent(keys, cont_word)
                except:
                    print(keys)
                    break
                sentence = senten + ' ' + key_sentence_part

                tokens = tokens+key_sentence_tokens
                slots = slots+key_sentence_slots
            else:
                senten = doc_sentence_part

                tokens = doc_sentence_tokens 
                slots = doc_sentence_slots 
                sentence = senten

            sentence_full += sentence
            slots_full += slots
            tokens_full += tokens
            j += 1

        sentence_full = search_word['baza'] + ' ' + sentence_full
        slots_full = search_word_slot + slots_full
        tokens_full = search_word_tokens + tokens_full
        if random.uniform(0,1) <0.2:
            gree = random.choice(greet)['baza']
            if random.uniform(0,1) > 0.3:
                sentence_full = gree + ', ' + sentence_full
                tokens_full = [word for word in gree.split(' ')] + [","] + tokens_full
                slots_full = ['O' for w in gree.split(' ')] + ["O"] + slots_full
            else:
                sentence_full = gree + ' ' + sentence_full 
                tokens_full  = [word for word in gree.split(' ')] + tokens_full 
                slots_full  = ['O' for w in gree.split(' ')] + slots_full 
                
        sentence_dict = {'sentence': sentence_full, 'tokens': tokens_full, 'slots': slots_full}
        sentence_dict = infuse_mistakes(sentence_dict)
        if len(sentence_dict['tokens']) > 40 or len(sentence_dict['slots']) > 40:
            print(sentence_dict['tokens'])
            print(sentence_dict['slots'])
        if len(sentence_dict['tokens']) != len(sentence_dict['slots']):
            print(sentence_dict['tokens'])
            print(sentence_dict['slots'])
        else:
            list_of_docs_and_keywords_docs.append(sentence_dict)
    except:
        print(sentence_full)
        print(tokens_full)
        print(slots_full)
        #break

['pomożesz', 'mi', 'znaleźć', 'papierr', 'bądź', 'też', 'artykuł', 'i', 'również', 'publikację', 'naukową', 'zawierającą', 'informacje', 'o', 'zbioru', 'czarny', 'polonez', 'bądź', 'też', 'papier', ',', 'luub', 'też', 'artykuł', 'internetowy', ',', '', 'artykuły', 'tyczące', 'się', 'mały', 'potencjalny', 'dochód', ',', 'niepozaświecane', 'niemruganiach', 'pasztetnikach', ',', 'doktryny', 'ewentualnie', 'dziennikarstwa']
['O', 'O', 'O', 'B-Doc_type', 'B-Choice', 'B-Choice', 'B-Doc_type', 'B-Choice', 'B-Choice', 'B-Doc_type', 'I-Doc_type', 'O', 'O', 'O', 'B-keyword', 'I-keyword', 'I-keyword', 'B-Choice', 'B-Choice', 'B-Doc_type', 'O', 'B-Choice', 'B-Choice', 'B-Doc_type', 'I-Doc_type', 'B-Choice', 'B-Choice', 'B-Doc_type', 'O', 'O', 'B-keyword', 'I-keyword', 'I-keyword', 'O', 'B-keyword', 'I-keyword', 'I-keyword', 'O', 'B-keyword', 'B-Choice', 'B-keyword']
['dałbyś', 'mi', 'artykuły', 'naukowe', 'poruszające', 'problematykę', 'związaną', 'z', 'branżą', 'wyniku', 'badanie', 'lub', 'też', 

In [30]:
print(sentence_dict)

{'sentence': 'zapodaj mi coś zawierającego : value chain bądź tteż papiery', 'tokens': ['zapodaj', 'mi', 'coś', 'zawierającego', ':', 'value', 'chain', 'bądź', 'tteż', 'papiery'], 'slots': ['O', 'O', 'B-Doc_type', 'O', 'O', 'B-keyword', 'I-keyword', 'B-Choice', 'B-Choice', 'B-Doc_type']}


In [40]:
#Keywords only
list_of_keywords = []
for i in range(10000):
    count = 'sg'
    if random.uniform(0, 1) > 0.5:
        count = 'pl'
    doc_num = get_doc_num(0.2)
    
    search_word = random.choice(dodaj_voc+key_t_ab)
    search_word_slot = ['O' for elem in search_word['baza'].split(' ')]
    search_word_tokens = [elem for elem in search_word['baza'].split(' ')]
    
    #doc_type = find_doc_to_search_word(search_word, document_types)
    keys = prepare_key_selection(get_doc_num(0.5), keyword_list)
    key_sentence_part, key_sentence_slots, key_sentence_tokens = prepare_key_sent(keys, search_word)
        
    tokens = search_word_tokens + key_sentence_tokens
    slots = search_word_slot + key_sentence_slots    
    sentence = search_word['baza'] + ' ' + key_sentence_part

    sentence_dict = {'sentence': sentence, 'tokens': tokens, 'slots': slots}
    sentence_dict = infuse_mistakes(sentence_dict)
    if len(sentence_dict['tokens']) > 40 or len(sentence_dict['slots']) > 40:
        print(sentence_dict['tokens'])
        print(sentence_dict['slots'])
    if len(sentence_dict['tokens']) != len(sentence_dict['slots']):
        print(sentence_dict['tokens'])
        print(sentence_dict['slots'])
    else:
        list_of_keywords.append(sentence_dict)
    #print(sentence)

In [42]:
# Docs only
list_of_docs = []
for i in range(10000):
    count = 'sg'
    if random.uniform(0, 1) > 0.5:
        count = 'pl'
    doc_num = get_doc_num(0.5)
    search_word = random.choice(search_words)
    doc_type = prepare_doc_selection(doc_num, search_word, document_types)

    item_types = []
    for i in range(doc_num-1):
        [item_t, _] = find_document_form(search_word,doc_type[i], count) 
        item_types.append(item_t)
    
    item_t, right_type_val = find_document_form(search_word,doc_type[doc_num-1], count) 
    item_types.append(item_t) 
    
    #print(item_types)
    search_word_slot = ['O' for elem in search_word['baza'].split(' ')]
    search_word_tokens = [elem for elem in search_word['baza'].split(' ')]
    
    doc_sentence_part, doc_sentence_slots, doc_sentence_tokens = prepare_doc_sent(item_types)
    
    sentence = search_word['baza'] + ' ' + doc_sentence_part
    tokens = search_word_tokens + doc_sentence_tokens
    slots = search_word_slot + doc_sentence_slots 
    sentence_dict = {'sentence': sentence, 'tokens': tokens, 'slots': slots}
    sentence_dict = infuse_mistakes(sentence_dict)
    if len(sentence_dict['tokens']) > 40 or len(sentence_dict['slots']) > 40:
        print(sentence_dict['tokens'])
        print(sentence_dict['slots'])
    if len(sentence_dict['tokens']) != len(sentence_dict['slots']):
        print(sentence_dict['tokens'])
        print(sentence_dict['slots'])
    else:
        list_of_docs.append(sentence_dict)
    #print(sentence)

In [43]:
collected_data = list_of_docs_and_keywords + list_of_docs_and_keywords_multi + list_of_keywords + list_of_docs+ list_of_docs_and_keywords_docs
cd_shuffled = random.sample(collected_data, len(collected_data))
cd_shuffled = random.sample(cd_shuffled, len(cd_shuffled))
df = pd.DataFrame(cd_shuffled)

In [50]:
df2.to_csv("dokubot_slot_questions19.csv", encoding='utf-8-sig')

In [45]:
df['count'] = df.tokens.map(len)
df.nlargest(300, ['count'])

Unnamed: 0,sentence,tokens,slots,count
43293,"poleć recenjję pracy, która informuje na temat...","[poleć, recenjję, pracy, ,, która, informuje, ...","[O, B-Doc_type, I-Doc_type, O, O, O, O, O, B-k...",53
5888,pomożesz mi znaleźć pozycję zawierającą wyjaśn...,"[pomożesz, mi, znaleźć, pozycję, zawierającą, ...","[O, O, O, B-Doc_type, O, O, B-keyword, I-keywo...",46
13460,"zaproponuj mi eseje, w których są ponagrywałab...","[zaproponuj, mi, eseje, ,, w, których, są, pon...","[O, O, B-Doc_type, O, O, O, O, B-keyword, I-ke...",46
17746,"dzień dobry, no to pozycje poruszające problem...","[dzień, dobry, ,, no, to, pozycje, poruszające...","[O, O, O, O, O, B-Doc_type, O, O, O, O, B-keyw...",46
48008,"wiam, wmkasz może prace na temat lekarza llub ...","[wiam, ,, wmkasz, może, prace, na, temat, leka...","[O, O, O, O, B-Doc_type, O, O, B-keyword, B-Ch...",46
...,...,...,...,...
66343,"interesują mnie czegokolwiek, które zawiera in...","[interesują, mnie, czegokolwiek, ,, które, zaw...","[O, O, B-Doc_type, O, O, O, O, O, O, B-keyword...",32
66896,pomóż mi znaleźć czegokolwiek bądź też esej ob...,"[pomóż, mi, znaleźć, czegokolwiek, bądź, też, ...","[O, O, O, B-Doc_type, B-Choice, B-Choice, B-Do...",32
67173,"ześć, dałbyś mi czegoś odnośnie handlu wewnątr...","[ześć, ,, dałbyś, mi, czegoś, odnośnie, handlu...","[O, O, O, O, B-Doc_type, O, B-keyword, I-keywo...",32
68071,gitara siema kzapodaj mci książki wyjaśniająck...,"[gitara, siema, kzapodaj, mci, książki, wyjaśn...","[O, O, O, O, B-Doc_type, O, O, B-keyword, B-Ch...",32


In [46]:
len(df.index)

70000

In [None]:
df['count'] = df.tokens.map(len)

In [47]:
df2 = df[df['count'] <= 30]

In [48]:
df2

Unnamed: 0,sentence,tokens,slots,count
0,"znajddź mi papiery, które wyjaśni mi problem p...","[znajddź, mi, papiery, ,, które, wyjaśni, mi, ...","[O, O, B-Doc_type, O, O, O, O, O, B-keyword, O...",18
1,popreszę skrypt na temat zrównywajmyż piąta og...,"[popreszę, skrypt, na, temat, zrównywajmyż, pi...","[O, B-Doc_type, O, O, B-keyword, I-keyword, I-...",7
2,zaproponuj artykuł zawierający urażajcie wygal...,"[zaproponuj, artykuł, zawierający, urażajcie, ...","[O, B-Doc_type, O, B-keyword, I-keyword, B-Cho...",9
3,chcę prace,"[chcę, prace]","[O, B-Doc_type]",2
4,"siema, zapodaj mi prace czy coq związanego z t...","[siema, ,, zapodaj, mi, prace, czy, coq, związ...","[O, O, O, O, B-Doc_type, B-Choice, B-Doc_type,...",18
...,...,...,...,...
69995,nho to encyklopedie historii dotyczące bibliot...,"[nho, to, encyklopedie, historii, dotyczące, b...","[O, O, B-Doc_type, I-Doc_type, O, B-keyword, B...",11
69996,witam witm szukam podręcznika o bibliotece bąd...,"[witam, witm, szukam, podręcznika, o, bibliote...","[O, O, O, B-Doc_type, O, B-keyword, B-Choice, ...",14
69997,"masz może papiery omawiające : purkinje, lub c...","[masz, może, papiery, omawiające, :, purkinje,...","[O, O, B-Doc_type, O, O, B-keyword, O, B-Choic...",9
69998,dałbyś mmi cokollwiek o problemie ustawy,"[dałbyś, mmi, cokollwiek, o, problemie, ustawy]","[O, O, B-Doc_type, O, O, B-keyword]",6


In [49]:
len(df2.index)

69601