# Recommendation Systems

- Bir urune baktigimizda o urunu veya benzerlerini tavsiye olarak almamiz veya izledigimiz bir film serisinin diger bolumlerini onermesi ya da benzerlerini onermesi oneri sistemleri kullanilarak yapilir.
- Gecmisteki davranislara bakarak gelecekteki davranislari onermesi.
- Netflix bu sistemi kullanir, eski filmlere dizilere gore yenilerini onerebilir. 
- Ornegin yuzuklerin efendisini izlediyseniz size hobbit filmini onerebilir.
- <strong>1. User Based Collaborative Filtering </strong>
- Kullanici, insan tabanli demek sizin ve diger insanlarin gecmis tecrubelerinizi karistirarak size veya diger insanlara yeni seyler onermesi.
- Once user ve item'dan olusan bir matrix yapiyoruz.
- Rowlarimiz user olacak, columnlar ise item olacak.
- İkinci olarak bu userlar arasinda benzerligi bir score degeri ile elde edecegiz. İki arkadastan biri seviyorsa digeri de sevebilir gibi dusunulur. Yani iki kisiyi karsilastiriyor iyi arkadas olduklarini dusunurse sizin zevkleriniz tutacaktir diye dusunur. Kullanicilar arasi benzerlige bakar ve oneri yapar.
- Ucuncu olarak bulunan benzerlikler yeni userlar bulunup onlara aratmalarina ya da izledikleri seylere gore oneriler yapilir. 
- Boylece daha onceki tecrubelere dayanarak, daha once bakmadiniz izlemediginiz seyleri diger insanlarin bilgilerine dayanarak tavsiyelerde bulunur bunun icin aranizda benzerlik olan kisilerin itemlarina bakilir.
- Ornegin iki insan var birisi yuzuklerin efendisi ve hobbiti izlemis digeri ise sadece yuzuklerin efendisini izlemis. Bu iki insan arasindaki similarity(benzerlik) bakilir. İkisi de yuzuklerin efendisini izlemis fakat birincisi buna ek hobbiti izledigini de gorunce iki insan birbirine benziyor ikincisi hobbiti izlememis ona bu filmi onerebilirim diye dusunuyor. Bu kullanici tabanli tavsiye sistemi olarak gecer.
- User Based Collaborative Filtering bazi dezajantajlari:
- matrixin her row'u user. Dunyada 7 milyar insan oldugunu dusunursek hepsini karsilastirmak hem cok zaman alir hemde hesaplama gucumuz yetmez, ve tavsiye sisteminin cost'u artar. 
- İnsanlar arasindaki aliskanliklar degisebilir. 
- Bu problemleri cozmek icin item based collaborative filtering kullanilir.
- <strong> 2. Item Based Collaborative Filtering </strong>
- Bu sistemde tam tersi islem yapilir yani eskiden kullanicilar karsilastirilirken burada item'lar karsilastirilir. 
- Insanlarin aliskanliklari degisir fakar item'lar degismez yuzuklerin efendisi filmi iki yil sonrada ayni kalacaktir.
- 7 milyon insan olmasi bizim icin bir sorundu fakat bir internet sitesinde 7 milyar tane film olamaz bu yuzden hesaplama gucu acisindan itemlari karsilastirmak daha kolay, daha az masrafli.
- Birinci olarak yine user ve item olan bir matrix yapilir. 
- Her column bir item, her row bir user olur. 
- Bu sefer kullanicilar arasi similaritye bakmak yerine itemlar arasi similarity'e bakilir. 
- Ornegin dört kisi var 3 tanesi hobbit'i izlemis, 4 tanesi ise yuzuklerin efendisini izlemis. Yani %75 oraninda 4 kisi bu iki filmi izlemis yani bu iki filmin similarity'si yuksek bu yüzden hobitti izleyip yuzuklerin efendisini izlemeyen kisiyle yuzukelerin efendisi onerilir. 

In [5]:
import pandas as pd
import os
print(os.listdir("data"))

['.DS_Store', 'rating.csv', 'tag.csv', 'genome_tags.csv', 'link.csv', 'movie.csv']


In [9]:
movie= pd.read_csv("data/movie.csv")
movie.columns

Index(['movieId', 'title', 'genres'], dtype='object')

In [10]:
movie = movie.loc[:,["movieId","title"]] #sadece movieId ve title featurelari kullanilacak.
movie.head(10)

Unnamed: 0,movieId,title
0,1,Toy Story (1995)
1,2,Jumanji (1995)
2,3,Grumpier Old Men (1995)
3,4,Waiting to Exhale (1995)
4,5,Father of the Bride Part II (1995)
5,6,Heat (1995)
6,7,Sabrina (1995)
7,8,Tom and Huck (1995)
8,9,Sudden Death (1995)
9,10,GoldenEye (1995)


In [13]:
rating = pd.read_csv("data/rating.csv")
rating.columns

Index(['userId', 'movieId', 'rating', 'timestamp'], dtype='object')

In [14]:
rating = rating.loc[:,["userId","movieId","rating"]] #3 adet feauture kullanacagiz.
rating.head(10)

Unnamed: 0,userId,movieId,rating
0,1,2,3.5
1,1,29,3.5
2,1,32,3.5
3,1,47,3.5
4,1,50,3.5
5,1,112,3.5
6,1,151,4.0
7,1,223,4.0
8,1,253,4.0
9,1,260,4.0


In [15]:
data = pd.merge(movie,rating) #movie ve rating'i birlestirdik.
data.head(10)

Unnamed: 0,movieId,title,userId,rating
0,1,Toy Story (1995),3,4.0
1,1,Toy Story (1995),6,5.0
2,1,Toy Story (1995),8,4.0
3,1,Toy Story (1995),10,4.0
4,1,Toy Story (1995),11,4.5
5,1,Toy Story (1995),12,4.0
6,1,Toy Story (1995),13,4.0
7,1,Toy Story (1995),14,4.5
8,1,Toy Story (1995),16,3.0
9,1,Toy Story (1995),19,5.0


- artik datamizda filmin idsi, adi, izleyen kisinin idsi ve verdigi oy yer aliyor.

In [18]:
data.shape

(20000263, 4)

- 20 milyon X 4 datamiz var
- 20 milyon datayi karsilastirmak cok uzun zaman alabilir pc kapasitesi zorlanmamasi adina ilk 1 milyon data uzerinden islem yapacagiz.

In [19]:
data = data = data.iloc[:1000000,:]

In [21]:
pivot_table = data.pivot_table(index = ["userId"],columns = ["title"],values = "rating")
pivot_table.head(10)

title,Ace Ventura: When Nature Calls (1995),Across the Sea of Time (1995),"Amazing Panda Adventure, The (1995)","American President, The (1995)",Angela (1995),Angels and Insects (1995),Anne Frank Remembered (1995),Antonia's Line (Antonia) (1995),Assassins (1995),Babe (1995),...,Unforgettable (1996),Up Close and Personal (1996),"Usual Suspects, The (1995)",Vampire in Brooklyn (1995),Waiting to Exhale (1995),When Night Is Falling (1995),"White Balloon, The (Badkonake sefid) (1995)",White Squall (1996),Wings of Courage (1995),"Young Poisoner's Handbook, The (1995)"
userId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,,,,,,,,,,,...,,,3.5,,,,,,,
2,,,,,,,,,,,...,,,,,,,,,,
3,,,,,,,,,,,...,,,5.0,,,,,,,
4,3.0,,,,,,,,,,...,,,,,,,,,,
5,,,,5.0,,,,,,,...,,2.0,,,,,,,,
6,,,,,,,,,,,...,,4.0,,,,,,,,
7,,,,4.0,,,,,,,...,,,,,,,,,,
8,1.0,,,,,,,,,,...,,,,,,,,,,
10,,,,4.0,,,,,,,...,,,,,,,,,,
11,3.5,,,,,,,,,,...,,,,,,,,,,


- Goruldugu gibi rowlarimiz userlar columnlar ise film, tablo icindeki degerler ise oylarimi gosteriyor.

- Simdi bad boys filmini izleyen insanlara oneri yapacagiz. 

In [24]:
movie_watched = pivot_table["Bad Boys (1995)"] # bad boys column'ını bir degiskene esitledik.
similarity_with_other_movies = pivot_table.corrwith(movie_watched)  # bad boy ve diger filmler arasinda korelasyonu bul.
similarity_with_other_movies = similarity_with_other_movies.sort_values(ascending=False) #bulunan korelasyonlari buyukten kucuge sirala 
similarity_with_other_movies.head() # korelasyonu en yuksek olam 5 filmi yazdirmis olduk

title
Bad Boys (1995)                        1.000000
Headless Body in Topless Bar (1995)    0.723747
Last Summer in the Hamptons (1995)     0.607554
Two Bits (1995)                        0.507008
Shadows (Cienie) (1988)                0.494186
dtype: float64

- yani bu filmi izleyen insanlara onerecegim film Headless Body in Topless Bar (1995)'dir.
- Aslinda bir treshold degeri koymamiz gerekirdi bazi seyleri goz ardi ettik ornegin bi filmi 5 kisi oylamistir digerini ise bin kisi bu adil bir sonuc cikarmaz.