# System rekomendacji na podstwie uzytkownia z dynamicznym obszarem wyszukiwania

In [2]:
import pandas as pd
import re

In [3]:
movies = pd.read_csv("../input/RS04_movies.csv")
ratings = pd.read_csv('../input/RS04_ratings.csv')

In [4]:
print(movies.shape)
print(ratings.shape)

(62423, 3)
(25000095, 4)


## Czyszczenie danych

In [6]:
def clean_title(title):
    title = re.sub("[^a-zA-Z0-9 ]", "", title) # usuwa wszystkie znaki które nie sa literami, cyframi ani spacjami 
    return title 

In [7]:
movies['clean_title']= movies['title'].apply(clean_title)

In [8]:
movies.sample(10)

Unnamed: 0,movieId,title,genres,clean_title
56340,193954,The Nutcracker and the Four Realms (2018),Adventure|Children|Fantasy,The Nutcracker and the Four Realms 2018
43392,165905,Outlaw: Gangster VIP (1968),Action|Crime|Thriller,Outlaw Gangster VIP 1968
59263,200468,Astronautas (2003),Drama,Astronautas 2003
56242,193743,Sunshine Girl and The Hunt For Black Eyed Kids...,Adventure|Horror|Thriller,Sunshine Girl and The Hunt For Black Eyed Kids...
32309,140635,Almost Mercy (2015),Horror,Almost Mercy 2015
51365,182985,Across the Sea (2014),Drama,Across the Sea 2014
37572,152944,Moszkva tér (2001),(no genres listed),Moszkva tr 2001
6735,6858,Knife in the Water (Nóz w wodzie) (1962),Drama,Knife in the Water Nz w wodzie 1962
2639,2731,"400 Blows, The (Les quatre cents coups) (1959)",Crime|Drama,400 Blows The Les quatre cents coups 1959
37956,153746,A Night In the Woods (2012),(no genres listed),A Night In the Woods 2012


# Przekształcanie tekstu na macierz liczbową

TF-IDF to metoda przypisywania wartości liczbowej słowom w dokumencie na podstawie ich istotnosci w korpusie tekstu.
Term Frequency (TF) – częstość terminu
Inverse Document Frequency (IDF) – rzadkość terminu

- Słowa powszechne w korpusie tekstu mają niską wartość TF-IDF
- Słowa rzadkie maja wysoką warotść TF-IDF

- Unigramy (pojedyncze słowa, np. "Harry", "Potter")
- Bigramy (pary słów, np. "Harry Potter", "Potter i")

In [11]:
from sklearn.feature_extraction.text import TfidfVectorizer #przekszatałcanie tekstu na macierz liczbową

In [12]:
vectorizer = TfidfVectorizer(ngram_range=(1,2)) #uwzglednia zarówno pojedyncze słowa jak i pary słów

tfidf = vectorizer.fit_transform(movies["clean_title"]) # konwertuje kazdy tytuł na wektor TF-IDF

## Wyszukiwanie podobnych tytułów filmów

Podobieństwo cosinusowe jest miarą podobieństwa między dwoma niezerowymi wektorami zdefiniowanymi w przestrzeni iloczynu wewnętrznego, zawsze należy do przedziału [-1,1]

Mierzy, jak podobne są dwa wektory w przestrzeni wektorowej. Wartości wynikają z kąta między wektorami, gdzie:
Wartość 1 oznacza pełną zgodność.
Wartość 0 oznacza brak podobieństwa.
Wartość -1 oznacza całkowite przeciwieństwo.

In [15]:
from sklearn.metrics.pairwise import cosine_similarity # miara podobienstwa kosinusowego
import numpy as np

In [16]:
def search(title):
    title = clean_title(title) # uzywanie funkcji oczyszczajacej
    query_vec = vectorizer.transform([title]) # zamiana tytułu na wektor TF-IDF
    similarity = cosine_similarity(query_vec, tfidf).flatten() # obliczny podobienstwo kosinusowe  zamienia wynik na wektor 1D(liste)
    indices = np.argpartition(similarity, -5)[-5:] #znajduje 5 najwyzszych indeksów które odpowiadaja najbardziej podobnym tytułom,tylko oostatnie 5 elementów
    results = movies.iloc[indices].iloc[::-1] # wybieramy wiersze na podstawie wcesniej obliczonych indeksów, odwracamy kolejnosc wyników
    
    return results

## Budowanie interaktywnego widgeta

In [18]:
import ipywidgets as widgets # biblioteka do tworzenia interaktywnych elementów 
from IPython.display import display # funkcja do dynamiczego wyswietlania wyników

In [19]:
movie_input = widgets.Text( # tworzenie pola tekstowego
    value='', # domyslna wartosc pola tekstowego
    description='Movie Title:', # opis pala tekstowego
    disabled=False
)
movie_list = widgets.Output() # widget do wyswietlania wyników

def on_type(data):
    with movie_list: # działanie na liscie movie_list 
        movie_list.clear_output() # czyszczenie poprzednich wyników
        title = data["new"] #
        if len(title) > 3: # jesli tekst ma wiecej niz 3 znaki 
            display(search(title)) # wyswiel wyniki z funkcji

movie_input.observe(on_type, names='value')


display(movie_input, movie_list) # wyswietla pole tekstowe i dynamiczny obasza w którym wyszukiwane sa filmy

Text(value='', description='Movie Title:')

Output()

## Tworzenie systemu rekomendacji

In [21]:
movie_id = 1 #identyfikator filmu
movie = movies[movies["movieId"] == movie_id]
movie

Unnamed: 0,movieId,title,genres,clean_title
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy,Toy Story 1995


In [22]:
similar_users = ratings[(ratings["movieId"] == movie_id) & (ratings["rating"] > 4)]["userId"].unique() # wszystkie oceny i ocene wieksza nic 4 i zwracamy liste unikalnych identyfikatorów
similar_user_recs = ratings[(ratings["userId"].isin(similar_users)) & (ratings["rating"] > 4)]["movieId"] # wybieramy oceny wystawione przez uzytkowników i filmy z ocena wieksze niz 4 i zwracamy liste identyfikatorów

In [23]:
similar_user_recs

5101            1
5105           34
5111          110
5114          150
5127          260
            ...  
24998854    60069
24998861    67997
24998876    78499
24998884    81591
24998888    88129
Name: movieId, Length: 1358326, dtype: int64

In [23]:
similar_user_recs = similar_user_recs.value_counts() / len(similar_users) #zliczamy ile razy kazdy film pojawia sie i dizleimy przez liczbe uzytkowników
similar_user_recs = similar_user_recs[similar_user_recs > .10] # zachowujemy tylko te filmy które były wysoko oceniane przez wiecej niz 10% uzytkowników

In [25]:
all_users = ratings[(ratings["movieId"].isin(similar_user_recs.index)) & (ratings["rating"] > 4)] # wszystkie oceny dotyczące tych filmów i oceny wyzsze niz 4
all_user_recs = all_users["movieId"].value_counts() / len(all_users["userId"].unique()) # 

In [28]:
rec_percentages = pd.concat([similar_user_recs, all_user_recs], axis=1)
rec_percentages.columns = ["similar", "all"]

In [30]:
rec_percentages["score"] = rec_percentages["similar"] / rec_percentages["all"]
rec_percentages = rec_percentages.sort_values("score", ascending=False)


In [31]:
rec_percentages.head(10).merge(movies, left_index=True, right_on="movieId")

Unnamed: 0,similar,all,score,movieId,title,genres,clean_title
0,1.0,0.124728,8.017414,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy,Toy Story 1995
3021,0.280648,0.053706,5.225654,3114,Toy Story 2 (1999),Adventure|Animation|Children|Comedy|Fantasy,Toy Story 2 1999
2264,0.110539,0.025091,4.405452,2355,"Bug's Life, A (1998)",Adventure|Animation|Children|Comedy,Bugs Life A 1998
14813,0.15296,0.035131,4.354038,78499,Toy Story 3 (2010),Adventure|Animation|Children|Comedy|Fantasy|IMAX,Toy Story 3 2010
4780,0.235147,0.070811,3.320783,4886,"Monsters, Inc. (2001)",Adventure|Animation|Children|Comedy|Fantasy,Monsters Inc 2001
580,0.216618,0.067513,3.208539,588,Aladdin (1992),Adventure|Animation|Children|Comedy|Musical,Aladdin 1992
6258,0.228139,0.072268,3.156862,6377,Finding Nemo (2003),Adventure|Animation|Children|Comedy,Finding Nemo 2003
587,0.1794,0.059977,2.99115,595,Beauty and the Beast (1991),Animation|Children|Fantasy|Musical|Romance|IMAX,Beauty and the Beast 1991
8246,0.203504,0.068453,2.972889,8961,"Incredibles, The (2004)",Action|Adventure|Animation|Children|Comedy,Incredibles The 2004
359,0.253411,0.085764,2.954762,364,"Lion King, The (1994)",Adventure|Animation|Children|Drama|Musical|IMAX,Lion King The 1994


In [None]:
# Tworzenie ogólnej funkcji

In [32]:
def find_similar_movies(movie_id):
    similar_users = ratings[(ratings["movieId"] == movie_id) & (ratings["rating"] > 4)]["userId"].unique()
    similar_user_recs = ratings[(ratings["userId"].isin(similar_users)) & (ratings["rating"] > 4)]["movieId"]
    similar_user_recs = similar_user_recs.value_counts() / len(similar_users)

    similar_user_recs = similar_user_recs[similar_user_recs > .10]
    all_users = ratings[(ratings["movieId"].isin(similar_user_recs.index)) & (ratings["rating"] > 4)]
    all_user_recs = all_users["movieId"].value_counts() / len(all_users["userId"].unique())
    rec_percentages = pd.concat([similar_user_recs, all_user_recs], axis=1)
    rec_percentages.columns = ["similar", "all"]
    
    rec_percentages["score"] = rec_percentages["similar"] / rec_percentages["all"]
    rec_percentages = rec_percentages.sort_values("score", ascending=False)
    return rec_percentages.head(10).merge(movies, left_index=True, right_on="movieId")[["score", "title", "genres"]]

In [77]:
movie_name_input = widgets.Text(
    value='Toy Story',
    description='Movie Title:',
    disabled=False
)
recommendation_list = widgets.Output()

def on_type(data):
    with recommendation_list:
        recommendation_list.clear_output()
        title = data["new"]
        if len(title) > 4:
            results = search(title)
            movie_id = results.iloc[0]["movieId"]
            display(find_similar_movies(movie_id))

movie_name_input.observe(on_type, names='value')

display(movie_name_input, recommendation_list)

Text(value='Toy Story', description='Movie Title:')

Output()