# Tutorial

In [9]:
%autocall 1
filename = 'dataset.json'
import datasets, utils, models

Automatic calling is: Smart


## Creating the dataset

In [10]:
# download song lyrics
dataset_orig = datasets.download_lyrics(['enej', 'lzy', 'happysad', 'kayah', 'czerwone_gitary',
                            'pidzama_porno', 'krzysztof_krawczyk', 'stare_dobre_malze_stwo',
                            'zabili_mi_zolwia', 'elektryczne_gitary', 'monika_brodka',
                            'hey', 'gaba_kulka', 'coma', 'ryszard_rynkowski', 'natalia_kukulska'])

# save as json for later use
with open(filename, 'w') as f:
    json.dump(dataset_orig, f)

2017-12-12 18:39:59.167145 enej
2017-12-12 18:40:28.028763 lzy
2017-12-12 18:41:11.590900 happysad
2017-12-12 18:41:48.589272 kayah
u'\xc5\xbbe wci\xc4\x85\xc5\xbc szumisz tylko pustk\xc4\x85\r'
u'bo nie ludzie s\xc5\x82owa, ale s\xc5\x82owa ludzi nios\xc4\x85\r'
2017-12-12 18:42:32.609348 czerwone_gitary
2017-12-12 18:43:52.307801 pidzama_porno
u'kt\xc3\xb3re szybko odje\xc5\xbcd\xc5\xbcaj\xc4\x85\r'
u'Jedn\xc4\x85 spocon\xc4\x85 noc\xc4\x85\r'
2017-12-12 18:44:32.115908 krzysztof_krawczyk
u'Co nam do dzisiaj brzmi\xc4\x85\r'
u'Cuda, cuda og\xc5\x82aszaj\xc4\x85\r'
u'nie by\xc5\x82o, nigdy nie, nie by\xc5\x82o tak.\xc2\xa0\r'
2017-12-12 18:45:34.097849 stare_dobre_malze_stwo
u'nad Krak\xc3\xb3w i wie\xc5\xbc\xc4\x99 Mariack\xc4\x85\r'
u'\xc5\xbbe ich \xc5\x9blady prosto do nieba prowadz\xc4\x85 \r'
u'zn\xc3\xb3w zej\xc5\x9b\xc4\x87 na nasz\xc4\x85 ziemi\xc4\x99 \xc5\x9bwi\xc4\x99t\xc4\x85\r'
u'Anio\xc5\x82y na poddaszu p\xc5\x82acz\xc4\x85\r'
u'grzesznic\xc4\x85 czy \xc5\x9bwi\xc4\x99

## Building a model and generating songs

In [14]:
# load saved dataset
with open('dataset.json', 'r') as f:
        dataset = json.load(f)

# make an n-gram representation of it
preprocessed = utils.preprocess(dataset, ngram=3)

# build a model
model = models.populate_markov(preprocessed)

# analyse some basic features
print('How likely it is that the model will change the song:')
models.how_often_sway_away(model)

# define how should the song start
starting_words = u"u ciebie jest"

# generate new songs!
print('\n\n\tGeneration method 1:')
utils.print_a_song(models.generate(model, text=starting_words))

print('\n\n\tGeneration method 2:')  
utils.print_a_song(models.unlikely_generate(model, text = starting_words))

How likely it is that the model will change the song:
0.0792057624009


	Generation method 1:
u ciebie jest ? 
 pewnie na twój przyjazd nie doczekam się. 
 znów nadejdzie zima , śnieg przysypie mnie , 
 mogę nie istnieć , 
 wciąż rozmyślam czemu wyszło tak . - x2 
 
 ciągle żyje kilka prawd 
 
 nie mow mi nic przeciez juz wszystko wiem 
 nie pomogło , bo pomóc nie może 
 być inaczej 
 jurek poznał agatę 
 postawił drinka , może nawet dwa 
 rozmowa zeszła na dalszy plan 
 pokochał ją jurek agatę - zabrał ją na chatę 
 pokochał ją jurek agatę - zabrał ją na chatę 
 pokochał ją jurek


	Generation method 2:
u ciebie jest ? 
 czyja grzechocze jak grzech kostka lodu ? 
 kto przewagę ma ? 
 ja cię oderwę od ściany. nie chcę zabawką być twą ! 
 chcesz tylko mego ciała. swojego nie chcesz mi dać. 
 chcesz , bym mówił o czym marzę , 
 jakie miewam sny. 
 
 bo ty kochasz mnie tak jak dawniej ? 
 dlaczego raz jestem nieśmiała ? 
 a jak powiedział wieczny prezydent 
 w niezmiennej wojnie pomnażajc

## Let's include data from additional sources!

In [16]:
print('Building model on both songs and poetry')
# load text file as a dataset
mick = datasets.get_data_from_file(['mickiewicz.txt'], ['mickiewicz'])

# merge poems from files with songs
double_dataset = dict(dataset)
double_dataset['mick'] = datasets.get_data_from_file(['mickiewicz.txt'], ['mickiewicz'])['mickiewicz']

# represent as n-grams
double_dataset = utils.preprocess(double_dataset, ngram=3)

# build a model
double_model = models.populate_markov(double_dataset)

# analyse
print('How likely it is that the model will change the song:')
models.how_often_sway_away(double_model)

# have fun!
print('\n\nText generated using model with train on both songs and poems:')  
utils.print_a_song(models.unlikely_generate(double_model, u"litwo ! ojczyzno"))


Building model on both songs and poetry
How likely it is that the model will change the song:
0.0700485056297


Text generated using model with train on both songs and poems:
litwo ! ojczyzno moja ! ty jesteś jak ona .. 
 a życie kochał , jak szalony , 
 razem dobrze będzie nam. 
 obudź się czarny ali babo , 
 razem się zamienią w tło. 
 pytasz mnie o to jak żyć , jak żyć , jak żyć , 
 dziś odkryłaś tę płytę i ten głos. 
 co dzień coś miesza. 
 jednak wiem nadejdzie lepszy czas. 
 ref . x2 
 nie słuchaj gdy ulica mówi " nie da się na zapas 
 bo po co ? co z królem rozmawiał ? 
 czy wiatr ruszył ? tadeusz długo patrzył
