# Numer albumu: 123641
# Systemy rekomendacyjne - projekt
### Temat: Mikrousługa budowy modelu predykcyjnego klasy ML (typu Wide&Deep) z użyciem biblioteki TensorFlow (Model Builder)

---

### Czym jest model Wide&Deep?

__*Model Wide&Deep*__ to model, który ma na celu połączenie liniowego modelu oraz głębokiej sieci nauronowej. Często jest używany dla systemów rekomendacyjnych, czy problemów związanych z wyszukiwaniem. Część Wide to liniowy model, którego celem jest zapamiętywanie najlepszych korelacji dla zapytania (np. użytkownicy lubią gatunki filmów horror i komedia, dlatego będą wyszukiwane dla nich filmy z tych gatnków). Deep to gęboka sieć neuronowa, której celem jest odnajdywanie w przestrzeni embedding wektorów leżących blisko siebie, aby wprowadzić element zaskoczenia dla użytkownika (np. to, że użytkownicy lubią horrory i komedie, nie oznacza, że nie obejrzą dokumentu).

---

### Analiza plików **.dat* hetrec2011-movielens-2k Dataset:

Na początku warto zapoznać się z jakimi danymi mamy do czynienia. W tym celu przejrzano wszystkie pliki i zrobiono ich podsumowanie:

1. __*movies.dat*__:
    * __*id*__ - identyfikator filmu,
    * __*title*__ - tytuł filmu,
    * __*imdbID*__ - identyfikator filmu w serwisie IMDB,
    * __*spanishTitle*__ - tytuł filmu po hiszpańsku,
    * __*imdbPictureURL*__ - URL do okładki filmu w serwisie IMDB,
    * __*year*__ - rok wydania filmu,
    * __*rtID*__ - identyfikator filmu w serwisie Rotten Tomatoes,
    * __*rtAllCriticsRating*__ - całkowita ocena filmu przez wszystkich krytyków w serwisie Rotten Tomatoes,
    * __*rtAllCriticsNumReviews*__ - ilość recenzji krytyków,
    * __*rtAllCriticsNumFresh*__ - ilość pozytywnych ocen (powyżej 60%) przez wszystkich krytyków,
    * __*rtAllCriticsNumRotten*__ - ilosc negatywnych ocen (pniżej 60%) przez wszystkich krytyków,
    * __*rtAllCriticsScore*__ - procentowy wynik filmu oceniany przez wszystkich krytyków,
    * __*rtTopCriticsRating*__ - całkowita ocena filmu przez najlepszych krytyków,
    * __*rtTopCriticsNumReviews*__ - ilość recenzji najlepszych krytyków,
    * __*rtTopCriticsNumFresh*__ - ilość pozytywnych recenzji najlepszych krytyków,
    * __*rtTopCriticsNumRotten*__ - ilość negatywnych recenzji najlepszych krytyków,
    * __*rtTopCriticsScore*__ - procentowa ocena filmu przez najlepszych krytyków,
    * __*rtAudienceRating*__ - całkowita ocena filmu przez wszystkich głosujących użytkowników,
    * __*rtAudienceNumRatings*__ - ilość użytkowników, która głosowała,
    * __*rtAudienceScore*__ - procentowa ocena filmu przez wszystkich głosujących użytkowników,
    * __*rtPictureURL*__ - URL do okładki filmu w serwisie Rotten Tomatoes.
    
2. __*movie_genres.dat*__:
    * __*movieID*__ - identyfikator filmu,
    * __*genre*__ - gatunek filmu. 
    
3. __*movie_directors.dat*__:
    * __*movieID*__ - identyfikator filmu,
    * __*directorID*__ - identyfikator reżysera filmu,
    * __*directorName*__ - imię i nazwisko reżysera filmu. 
    
4. __*movie_actors.dat*__:
    * __*movieID*__ - identyfikator filmu,
    * __*actorID*__ - identyfikator aktora występującego w filmie,
    * __*actorName*__ - imię i nazwisko aktora,
    * __*ranking*__ - miejsce atora w rankingu.    

5. __*movie_countries.dat*__:
    * __*movieID*__ - identyfikator filmu,
    * __*country*__ - kraj produkcji filmu.

6. __*movie_locations.dat*__:
    * __*movieID*__ - identyfikator filmu,
    * __*location1*__ - kraj, w którym nagrywano film,
    * __*location2*__ - region, w którym nagrywano film,
    * __*location3*__ - miasto, w którym nagrywano film,
    * __*location4*__ - ulica/miejsce, w którym nagrywano film.
    
7. __*tags.dat*__:
    * __*id*__ - identyfikator tagu,
    * __*value*__ - tag.

8. __*movie_tags.dat*__:
    * __*movieID*__ - identyfikator filmu,
    * __*tagID*__ - identyfikator tagu,
    * __*tagWeight*__ - waga tagu.
    
9. __*user-taggedmovies-timestamps.dat*__:
    * __*userID*__ - identyfikator użytkownika,
    * __*movieID*__ - identyfikator filmu,
    * __*tagID*__ - identyfikator tagu,
    * __*timestamp*__ - sygnatura czasowa użycia tagu przez użytkownika w kontekście filmu.    
    
10. __*user-taggedmovies.dat*__:
    * __*userID*__ - identyfikator użytkownika,
    * __*movieID*__ - identyfikator filmu,
    * __*tagID*__ - identyfikator tagu,
    * __*date_day*__ - dzień użycia tagu,
    * __*date_month*__ - miesiąc użycia tagu,
    * __*date_year*__ - rok użycia tagu,
    * __*date_hour*__ - godzina użycia tagu,
    * __*date_minute*__ - minut użycia tagu,
    * __*date_second*__ - sekunda użycia tagu.
    
11. __*user-ratedmovies-timestamps.dat*__:
    * __*userID*__ - identyfikator użytkownika,
    * __*movieID*__ - identyfikator filmu,
    * __*rating*__ - ocena filmu przez użytkownika,
    * __*timestamp*__ - sygnatura czasowa ocenienia filmu przez użytkownika.
    
12. __*user-taggedmovies.dat*__:
    * __*userID*__ - identyfikator użytkownika,
    * __*movieID*__ - identyfikator filmu,
    * __*rating*__ - ocena filmu przez użytkownika,
    * __*date_day*__ - dzień ocenienia filmu,
    * __*date_month*__ - miesiąc ocenienia filmu,
    * __*date_year*__ - rok ocenienia filmu,
    * __*date_hour*__ - godzina ocenienia filmu,
    * __*date_minute*__ - minut ocenienia filmu,
    * __*date_second*__ - sekunda ocenienia filmu.

---

### Budowanie modelu

Mimo tak wielu danych do zbudowania modelu predykcyjnego użyto tylko pliku __*user-ratedmovies-timestamps.dat*__, z którego wybrano kolumny userID, movieID oraz rating. Po części wynika to z ograniczonej mocy obliczeniowej, a po części z założenia, które przyjęto - do budowy dobrego modelu wcale nie trzeba mieć dużej ilości danych, czasami mniej oznacza więcej.

__UWAGA! Wszelkie ścieżki do plików należy dostosować do swoich folderów na dysku!__

---
#### Wczytanie danych

Pierwszym krokiem jest zaimportowanie wszystkich potrzebnych bibliotek oraz wczytanie danych:

In [18]:
import pandas as pd
import tensorflow as tf
from sklearn.model_selection import train_test_split

#ścieżka do zbioru danych hetrec2011
path_to_file = 'F:/Ania/hetrec2011-movielens-2k-v2/'

#wczytywanie pliku user-ratedmovies-timestamps.dat
ratings = pd.read_csv(path_to_file + 'user_ratedmovies-timestamps.dat', engine = 'python', delimiter="\t", header = 0, usecols = [0, 1, 2])

#wypisanie początku wczytanych danych
ratings.head()

Unnamed: 0,userID,movieID,rating
0,75,3,1.0
1,75,32,4.5
2,75,110,4.0
3,75,160,2.0
4,75,163,4.0


Użyte argumenty dla funkcji __*read_csv()*__ to:
1. __engine__ - mechanizm parsera, wybrałam typ __*'python'*__ ze względu na większą funkcjonalność
2. __delimiter__ - separator, w tym przypadku jest to tabulator - oznaczony poprzez __*\t*__
3. __header__ - wartość __*0*__ oznacza wnioskowanie nazw kolumn na podstawie pierwszego wiersza, argument użyty, aby nie wczytywać nazw kolumn jako pierwszy wiersz
4. __usecols__ - użycie tego argumentu poprawia szybkośc wczytywania i zużycie pamięci, tutaj wczytywane są pierwsze 3 kolumny - userID, movieID oraz rating dlatego ten argument ma wartość __*[0,1,2]*__

Następnie sprawdzono ilość danych:

In [24]:
#sprawdzenie ilości danych
ratings.shape

(855598, 3)

Ze względu na to, że w zbiorach mogą zdażyć się duplikaty usunięto je funkcją __*drop_duplicates()*__:

In [15]:
#usuwanie duplikatów z kolumn
ratings.drop_duplicates()

#sprawdzenie ilości danych po usunięciu duplikatów
ratings.shape

(855598, 3)

Po sprawdzeniu ilości danych, można zauważyć, że wczytane kolumny nie zawierały duplikatów.
___

#### Budowanie feature columns

Najpierw wyznaczono unikalne wartości dla kolumny userID oraz movieID:

In [16]:
#unikalne wartości dla kolumn users i movies
users = list(pd.unique(ratings['userID']))
movies = list(pd.unique(ratings['movieID']))

#wypisanie ilości unikalnych wartości
print("users: ", len(users), ", movies: ", len(movies))

users:  2113 , movies:  10109


Pierwsze budowane feature columns należą do kategorii __*categorical_column_with_vocabulary_list*__. Ten rodzaj charakteryzuje się reprezentacją ciągów znaków jako one-hot wektor. Wybrany rodzaj mapuje każdy string na liczbę całkowitą na podstawie listy słów. W tym przypadku listą taką są unikatowe wartości __*users*__ oraz __*movies*__. Te features są potrzebne do zbudowania kolejnych i nie będą uczestniczyły bezpośrednio w modelu:

In [19]:
#pierwszy rodzaj features - categorical_column_with_vocabulary_list
user_id_vocabulary = tf.feature_column.categorical_column_with_vocabulary_list('userID', users)
movie_id_vocabulary = tf.feature_column.categorical_column_with_vocabulary_list('movieID', movies)

Kolejnym rodzajem, na który się zdecydowano jest __*indicator_column*__. Nie działają one bezpośrednio na danych, ale na feature columns z rodzaju __*categorical_column*__. Również wykorzystują one-hot wektor - każda kategoria jest traktowana jako element w jednym one-hot wektor, gdzie dopasowana kategoria ma wartość 1, a reszta 0. Te features znajdą się bezpośrednio w modelu.

In [20]:
#drugi rodzaj features - indicator_column
user_id_indicator_vocabulary = tf.feature_column.indicator_column(user_id_vocabulary)
movie_id_indicator_vocabulary = tf.feature_column.indicator_column(movie_id_vocabulary)

Trzecim rodzajem fature columns są __*bucketized_column*__. Dzięki temu rodzajowi, można podzielić wartości na różne kategorie o wartościach liczbowych. Dzięki temu tworzony jest wektor z weloma wagami, a nie tylko jedną. Model może na tym zyskać dużą elastyczność. W tym wypadku podzielono dane na 3 zbiory (argument __*boundaries*__). Przedziały zostały dobrane na podstawie unikalnych wartości (podzielenie unikatów przez 3). Ten rodzaj również nie bierze bezpośredniego udziału w modelu.

In [21]:
user_id_bucketized=tf.feature_column.bucketized_column(tf.feature_column.numeric_column('userID'), boundaries=[700, 1400])
movie_id_bucketized=tf.feature_column.bucketized_column(tf.feature_column.numeric_column('movieID'), boundaries=[3370, 6740])

Ponownie użyto feature column z rodzaju __*indicator_column*__. Tym razem bazą były __*bucketized_column*__.

In [22]:
user_id_indicator_bucketized = tf.feature_column.indicator_column(user_id_bucketized)
movie_id_indicator_bucketized = tf.feature_column.indicator_column(movie_id_bucketized)

Do zbudowania części __*Wide*__ modelu użyto feature column z rodzaju __*crossed_column*__. Dzięki temu model może nauczyć się oddzielnych wag dla features. Argument __*hash_bucket_size*__ musi być wartością całkowitą większą od 1. Oznacza on liczbę kubełków na jakie zostanie podzielona siatka stworzona z features. W tym wypadku jest to liczba 5000 również ze względu na liczbę unikatowych wartości - w przypadku userID ~2500*2 = 5000, a dla movieID ~10000/2 = 5000. Na użycie tej wartości nie ma żadnych dowodów, jest to twórczość autora projektu.

In [27]:
wide_columns = [
    tf.feature_column.crossed_column(['userID', 'movieID'], hash_bucket_size=5000)
]

Budowanie części __*Deep*__ jest bardziej złożone. Użyto tutaj aż czterech feature columns, wszystkich stworzonych wcześniej z rodzaju __*indicator_column*__.

In [28]:
deep_columns = [
    user_id_indicator_bucketized,
    movie_id_indicator_bucketized,
    user_id_indicator_vocabulary,
    movie_id_indicator_vocabulary
]

---

#### Model

Zbudowany model będzie miał zapisywane parametry, grafy w folderze:

In [29]:
#folder, w którym będzie zapisywany model
model_directory = 'F:/Ania/model-builder-all'

Wybór klasyfikatora padł na __*DNNLinearCombinedClassifier*__. Łączy on zarówno cechy __*Wide*__, jak i __*Deep*__. Parametry:
1. __*model_dir*__ - katalog modelu, w którym będą zapisywane parametry, ale również checkpoint
2. __*linear_feature_columns*__ - część Wide modelu, feature columns wykorzystywane przez liniową część klayfikatora
3. __*dnn_feature_columns*__ - część Deep modelu, feature column wykorzystywane przez głęboką część klasyfikatora
4. __*linear_optimizer*__ - optymalizator dla części liniowej. Wybrany został __*AdadeltaOptimizer*__ z parametrem __*learning_rate*__ = 0.1 (wskaźnik uczenia się). Optymalizator został wybrany ze względu na rzekomą dobrą współpracę z liniowymi modelami. Pierwotnym wyborem był __*AdamOptimizer*__ jednak okazał się on nietrafiony. __*AdadeltaOptimizer*__ podniósł ostateczny wynik o 0.01. 
5. __*dnn_optimizer*__ - optymalizator dla części głębokiej. Wybrany został __*AdagradOptimizer*__, który jest wartością domyślną. Parametr __*learning_rate*__ również został ustawiony na 0.1.
1. __*dnn_hidden_units*__ - lista wartw ukrytych dla części głębokiej.

In [30]:
#zbudowany model
model = tf.estimator.DNNLinearCombinedClassifier(
    model_dir=model_directory,
    linear_feature_columns=wide_columns,
    dnn_feature_columns=deep_columns,
    linear_optimizer=tf.train.FtrlOptimizer(learning_rate=0.1),
    dnn_optimizer=tf.train.AdagradOptimizer(learning_rate=0.1),
    dnn_hidden_units=[512, 254]
)

INFO:tensorflow:Using default config.
INFO:tensorflow:Using config: {'_model_dir': 'F:/Ania/model-builder-all', '_tf_random_seed': None, '_save_summary_steps': 100, '_save_checkpoints_steps': None, '_save_checkpoints_secs': 600, '_session_config': None, '_keep_checkpoint_max': 5, '_keep_checkpoint_every_n_hours': 10000, '_log_step_count_steps': 100, '_train_distribute': None, '_device_fn': None, '_service': None, '_cluster_spec': <tensorflow.python.training.server_lib.ClusterSpec object at 0x0000015EA9D4FB38>, '_task_type': 'worker', '_task_id': 0, '_global_id_in_cluster': 0, '_master': '', '_evaluation_master': '', '_is_chief': True, '_num_ps_replicas': 0, '_num_worker_replicas': 1}


---

#### Podział zbioru

Zbiór danych hetrec zawiera tylko czyste dane, które nie są rozdzielone na zbiór treningowy i testowy. Wobec tego dostępne dane należy podzielić na takie zbiory.
Pierwszym krokiem tutaj jest określenie wartości progowej. Według Rotten Tomatoes film jest uznawany za dobry w momencie kiedy użytkownik ocenił do na przynajmniej 60% czyli 3.5. Takie wartości zostaną wybrane ze wszystkich danych.

In [31]:
#ustalona wartość dla "dobrych" filmów
ratings["rating"] = ratings["rating"] >= 3.5

Następnie następuje właściwy podział dzięki metodzie __*train_test_split()*__. Ponieważ zbiór testowy powinien mieć wielkość około 10-20% zbioru treningowego wybrano 20% (argument __*test_size*__). Argument __*shuffle*__ został ustawiony na True co oznacza przemieszanie danych przed podziałem.

In [32]:
#właściwy podział zbioru
y = ratings["rating"]
X = ratings.drop("rating",axis=1)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, shuffle = True)

---

#### Trening i ewaluacja modelu

Zarówno do treningu jak i ewaluacji należy przygotować specjalne funkcje - __*train_function()*__ oraz __*test_function()*__. Charakteryzują się tym, że dzięki nim obiekty z biblioteki __*pandas*__ - __*DataFrame*__ są bezpośrednio podawane do modelu. __*train_function()*__ jako argumenty dostanie wcześniej zdefiniowane __*X_train*__ oraz __*y_train*__, a __*test_function()*__ - __*X_test*__ oraz __*y_test*__. Różnią się one również zwracanym parametrem __*shuffle*__, którego zadaniem jest odczytywanie danych w randomowej kolejności dla zbioru treningowego oraz w ustalonej (od początku) dla zbioru testowego.

Model jest trenowany za pomocą funkcji __*train()*__, która przyjmuje __*train_function()*__ jako argument. Dodatkowym argumentem jest __*steps*__, który jest liczbą całkowitą i oznacza ilość kroków trenowania modelu. Wybranych zostało __*2000*__ kroków, aby uniknąć przetrenowania modelu, ale jednocześnie uzyskać jak najlepszy wynik.
__*UWAGA! Po pierwszym treningu i ewaluacji modelu należy zmienić folder dla modelu ze względu na wykreowany checkpoint. Sprawia to, że zamiast liczyć od początku, do porzedniego wyliczenia dochodzą nam kolejne kroki co może mieć wpływ na późniejsze przetrenowanie modelu!*__

Do ewaluacji modelu użyto funckji __*evaluate()*__. Jako argument przyjmuje ona __*test_function()*__. Funckja zwraca wyniki modelu dla różnych miar ewaluacji.

In [34]:
#funckja dla treningu modelu
def train_function(X_as_df, y_as_df):
    return tf.estimator.inputs.pandas_input_fn(
        x=X_as_df,
        y=y_as_df,
        shuffle=True,
    )
#funckja dla testowania modelu
def test_function(X_as_df,y_as_df):
    return tf.estimator.inputs.pandas_input_fn(
        x=X_as_df,
        y=y_as_df,
        shuffle=False,
    )
#trening modelu
model_trained = model.train(input_fn=train_function(X_train, y_train), steps=2000)
#ewaluacja modelu
results = model_trained.evaluate(input_fn=test_function(X_test, y_test))
#wypisanie ewaluacji
for key in sorted(results):
    print("%s: %s" % (key, results[key]))

INFO:tensorflow:Calling model_fn.
INFO:tensorflow:Done calling model_fn.
INFO:tensorflow:Create CheckpointSaverHook.
INFO:tensorflow:Graph was finalized.
INFO:tensorflow:Running local_init_op.
INFO:tensorflow:Done running local_init_op.
INFO:tensorflow:Saving checkpoints for 0 into F:/Ania/model-builder-all\model.ckpt.
INFO:tensorflow:loss = 88.79872, step = 1
INFO:tensorflow:global_step/sec: 22.6359
INFO:tensorflow:loss = 81.041794, step = 101 (4.420 sec)
INFO:tensorflow:global_step/sec: 23.3942
INFO:tensorflow:loss = 67.92705, step = 201 (4.274 sec)
INFO:tensorflow:global_step/sec: 23.3778
INFO:tensorflow:loss = 76.07112, step = 301 (4.278 sec)
INFO:tensorflow:global_step/sec: 23.1351
INFO:tensorflow:loss = 64.81767, step = 401 (4.323 sec)
INFO:tensorflow:global_step/sec: 23.1993
INFO:tensorflow:loss = 74.889, step = 501 (4.310 sec)
INFO:tensorflow:global_step/sec: 23.2154
INFO:tensorflow:loss = 67.70332, step = 601 (4.307 sec)
INFO:tensorflow:global_step/sec: 23.013
INFO:tensorflow:

---

#### OSTATECZNE WYNIKI

1. accuracy: 0.74053293
2. accuracy_baseline: 0.61448693
3. __*auc: 0.7986872*__
4. auc_precision_recall: 0.85078675
5. average_loss: 0.5222881
6. global_step: 2000
7. label/mean: 0.61448693
8. loss: 66.84663
9. precision: 0.7550484
10. prediction/mean: 0.6210954
11. recall: 0.8551892

---

#### Spostrzeżenia i wnioski:
1. Bardzo ważną rzeczą są zdefiniowane feature columns. Odpowiednie dobranie ich znacząco poprawia wynik.
2. Należy zwracać uwagę na dane. Zarówno same dane - np. ilość, jak i ich reprezentacja (np. liczbowa, boolowska czy string) mogą mieć znaczenie przy definiowaniu feature columns. 
3. Dobre dobranie klasyfikatora - należy mieć na uwadze co chcemy osiągnąć i wybrać do tego celu odpowiednie narzędzie jakim jest klasyfikator/regresor/sieć neuronowa.
4. Należy zadbać o to, aby odpowiednio dostosować model i feature columns. Nie każdy model może przyjąć wszystkie dane.
5. Optymalizacja - nie tylko należy dbać o optymalizację kodu, ale również modelu. Dzięki różnego rodzaju optymalizatorom oraz ich parametrom można poprawić wynik.
6. Wszelkiego rodzaju parametry na każdym etapie projektu też mają wpływ na wynik. Należy dokładnie przeczytać dokumentację dla poszczególnych funkcji oraz dobrać odpowiednie wartości parametrów.
7. Problemy wydajnościowe. Projekt był obliczany na CPU, ze wzlędu na brak wystarczająco dobrej karty graficznej. Pojawiały się przez to problemy wydajnościowe związane z zajetością procesora. Aby zminimalizować to ryzyko należy nie używać przeglądarki Google Chrome, która opóźnia obliczenia oraz wszelkich innych programów mających duży wpływ na procesor.
8. Założenie początkowe __*czasem mniej może oznaczać więcej*__ zostało przetestowane i potwierdzone. Mimo małej ilości danych otrzymany wynik jest zadowalający.

---

#### Literatura:
1. Dokumentacja biblioteki pandas, https://pandas.pydata.org/ [dostęp: 14.01.2019],
2. Dokumentacja biblioteki scikit-learn, https://scikit-learn.org/stable/ [dostęp: 14.01.2019],
3. Dokumentacja biblioteki tensorflow, https://www.tensorflow.org/ [dostęp: 14.01.2019],
4. Forum dla programistów, https://stackoverflow.com/ [dostęp: 14.01.2019].

---

#### Cały kod:

In [None]:
import pandas as pd
import tensorflow as tf
from sklearn.model_selection import train_test_split

path_to_file = 'F:/Ania/hetrec2011-movielens-2k-v2/'

ratings = pd.read_csv(path_to_file + 'user_ratedmovies-timestamps.dat', engine = 'python', delimiter="\t", header = 0, usecols = ['userID', 'movieID', 'rating'])

ratings.drop_duplicates()

users = list(pd.unique(ratings['userID']))
movies = list(pd.unique(ratings['movieID']))

user_id_vocabulary = tf.feature_column.categorical_column_with_vocabulary_list('userID', users)
movie_id_vocabulary = tf.feature_column.categorical_column_with_vocabulary_list('movieID', movies)
user_id_indicator_vocabulary = tf.feature_column.indicator_column(user_id_vocabulary)
movie_id_indicator_vocabulary = tf.feature_column.indicator_column(movie_id_vocabulary)
user_id_bucketized=tf.feature_column.bucketized_column(tf.feature_column.numeric_column('userID'), boundaries=[700, 1400])
movie_id_bucketized=tf.feature_column.bucketized_column(tf.feature_column.numeric_column('movieID'), boundaries=[3370, 6740])
user_id_indicator_bucketized = tf.feature_column.indicator_column(user_id_bucketized)
movie_id_indicator_bucketized = tf.feature_column.indicator_column(movie_id_bucketized)

wide_columns = [
    tf.feature_column.crossed_column(['userID', 'movieID'], hash_bucket_size=5000)
]
deep_columns = [
    user_id_indicator_bucketized,
    movie_id_indicator_bucketized,
    user_id_indicator_vocabulary,
    movie_id_indicator_vocabulary
]

model_directory = 'F:/Ania/model-builder-all'

model = tf.estimator.DNNLinearCombinedClassifier(
    model_dir=model_directory,
    linear_feature_columns=wide_columns,
    dnn_feature_columns=deep_columns,
    linear_optimizer=tf.train.AdadeltaOptimizer(learning_rate=0.1),
    dnn_optimizer=tf.train.AdagradOptimizer(learning_rate=0.1),
    dnn_hidden_units=[512, 256]
)

ratings["rating"] = ratings["rating"] >= 3.5
y = ratings["rating"]
X = ratings.drop("rating",axis=1)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, shuffle = True)

def input_fn_train(X_as_df, y_as_df):
    return tf.estimator.inputs.pandas_input_fn(
        x=X_as_df,
        y=y_as_df,
        shuffle=True,
    )
def tf_eval_input_fn(X_as_df,y_as_df):
    return tf.estimator.inputs.pandas_input_fn(
        x=X_as_df,
        y=y_as_df,
        shuffle=False,
    )

model_trained = model.train(input_fn=input_fn_train(X_train, y_train), steps=2000)
results = model_trained.evaluate(input_fn=tf_eval_input_fn(X_test, y_test))
for key in sorted(results):
    print("%s: %s" % (key, results[key]))
