# üé¨ Systemy Rekomendacyjne: SVD i Ukryte Cechy

Mamy problem:
*   5 u≈ºytkownik√≥w.
*   6 film√≥w.
*   Kilka ocen (1-5 gwiazdek).
*   Mn√≥stwo pustych miejsc (NaN).

Chcemy przewidzieƒá, jak U≈ºytkownik 3 oceni≈Çby Film 4.

**Metoda: SVD (Singular Value Decomposition).**
Algorytm rozbija wielkƒÖ macierz ocen na dwie mniejsze:
1.  **Macierz U≈ºytkownik√≥w:** Opisuje gust ka≈ºdego widza za pomocƒÖ "ukrytych liczb" (Latent Features).
2.  **Macierz Film√≥w:** Opisuje ka≈ºdy film za pomocƒÖ tych samych ukrytych liczb.

Gdy pomno≈ºymy te dwie macierze z powrotem, otrzymamy pe≈ÇnƒÖ tabelƒô z wype≈Çnionymi lukami.

In [1]:
import numpy as np
import pandas as pd
from sklearn.decomposition import TruncatedSVD

# 1. DANE (User-Item Matrix)
# Wiersze = U≈ºytkownicy (A, B, C, D, E)
# Kolumny = Filmy (Matrix, StarWars, Titanic, NottingHill, Rambo, Shrek)
# 0 = Brak oceny (nie widzia≈Ç filmu)

data = {
    'Matrix':      [5, 4, 0, 0, 1],
    'StarWars':    [5, 5, 0, 0, 2],
    'Titanic':     [0, 0, 5, 4, 0],
    'NottingHill': [0, 0, 5, 5, 0],
    'Rambo':       [4, 0, 0, 0, 1],
    'Shrek':       [0, 0, 0, 0, 5]
}

ratings = pd.DataFrame(data, index=['User_A', 'User_B', 'User_C', 'User_D', 'User_E'])

print("--- NASZA MACIERZ OCEN (0 = Brak danych) ---")
display(ratings)
print("\nWidzisz wzorzec? A i B lubiƒÖ Sci-Fi. C i D lubiƒÖ Romanse. E lubi bajki.")

--- NASZA MACIERZ OCEN (0 = Brak danych) ---


Unnamed: 0,Matrix,StarWars,Titanic,NottingHill,Rambo,Shrek
User_A,5,5,0,0,4,0
User_B,4,5,0,0,0,0
User_C,0,0,5,5,0,0
User_D,0,0,4,5,0,0
User_E,1,2,0,0,1,5



Widzisz wzorzec? A i B lubiƒÖ Sci-Fi. C i D lubiƒÖ Romanse. E lubi bajki.


## Krok 1: SVD w akcji

U≈ºyjemy `TruncatedSVD` ze Scikit-Learn.
Musimy wybraƒá liczbƒô **komponent√≥w** (cech ukrytych).
Powiedzmy, ≈ºe chcemy opisaƒá ≈õwiat film√≥w za pomocƒÖ **2 cech**.
(Algorytm sam wymy≈õli, co to za cechy ‚Äì my mo≈ºemy siƒô domy≈õlaƒá, ≈ºe to np. "Akcja" i "Romantyzm").

In [2]:
# Zamieniamy DataFrame na macierz numpy
X = ratings.values

# Tworzymy SVD (szukamy 2 ukrytych cech)
svd = TruncatedSVD(n_components=2, random_state=42)

# Trenujemy (Dopasowujemy macierz u≈ºytkownik√≥w)
matrix_user_features = svd.fit_transform(X)

print("--- UKRYTE CECHY U≈ªYTKOWNIK√ìW (User Matrix) ---")
# Wiersze to userzy, kolumny to nasze 2 tajne cechy
print(matrix_user_features.round(2))

print("\n--- UKRYTE CECHY FILM√ìW (Item Matrix) ---")
# To jest ukryte wewnƒÖtrz obiektu SVD (components_)
matrix_movie_features = svd.components_
print(matrix_movie_features.round(2))

--- UKRYTE CECHY U≈ªYTKOWNIK√ìW (User Matrix) ---
[[ 7.89  0.  ]
 [ 5.99  0.  ]
 [-0.    7.06]
 [-0.    6.39]
 [ 3.06  0.  ]]

--- UKRYTE CECHY FILM√ìW (Item Matrix) ---
[[ 0.62  0.7  -0.   -0.    0.32  0.14]
 [ 0.    0.    0.67  0.74  0.    0.  ]]


## Krok 2: Rekonstrukcja (Wype≈Çnianie luk)

Teraz najwa≈ºniejszy moment.
Mno≈ºymy macierz u≈ºytkownik√≥w przez macierz film√≥w.
$$ X_{new} = U \times V^T $$

Wynikowa macierz bƒôdzie mia≈Ça liczby w ka≈ºdym polu.
*   Tam, gdzie by≈Çy oceny ‚Äì liczby powinny byƒá podobne do orygina≈Çu.
*   Tam, gdzie by≈Ço 0 ‚Äì pojawiƒÖ siƒô **predykcje**.

In [3]:
# Rekonstrukcja macierzy (Iloczyn skalarny)
predicted_ratings = np.dot(matrix_user_features, matrix_movie_features)

# Zamiana na DataFrame dla czytelno≈õci
pred_df = pd.DataFrame(predicted_ratings, index=ratings.index, columns=ratings.columns)

print("--- MACIERZ PRZEWIDYWANA (Wype≈Çnione luki) ---")
display(pred_df.round(2))

print("-" * 30)
print("ANALIZA:")
print("Sp√≥jrz na User_B (drugi wiersz).")
print(f"Orygina≈Ç Rambo: {ratings.loc['User_B', 'Rambo']} (Nie widzia≈Ç)")
print(f"Przewidywanie Rambo: {pred_df.loc['User_B', 'Rambo']:.2f}")
print("System przewidzia≈Ç, ≈ºe User_B oceni≈Çby Rambo na ~2.86 (bo lubi Matrixa, ale Rambo to trochƒô co innego).")

--- MACIERZ PRZEWIDYWANA (Wype≈Çnione luki) ---


Unnamed: 0,Matrix,StarWars,Titanic,NottingHill,Rambo,Shrek
User_A,4.88,5.55,-0.0,-0.0,2.54,1.12
User_B,3.7,4.21,-0.0,-0.0,1.93,0.85
User_C,-0.0,-0.0,4.74,5.24,0.0,0.0
User_D,-0.0,-0.0,4.29,4.74,0.0,0.0
User_E,1.89,2.15,0.0,0.0,0.98,0.43


------------------------------
ANALIZA:
Sp√≥jrz na User_B (drugi wiersz).
Orygina≈Ç Rambo: 0 (Nie widzia≈Ç)
Przewidywanie Rambo: 1.93
System przewidzia≈Ç, ≈ºe User_B oceni≈Çby Rambo na ~2.86 (bo lubi Matrixa, ale Rambo to trochƒô co innego).


In [4]:
# KORELACJA FILM√ìW (Podobie≈Ñstwo)
# Skoro mamy wektory cech dla film√≥w, mo≈ºemy sprawdziƒá, kt√≥re sƒÖ do siebie podobne (u≈ºywajƒÖc Korelacji Pearsona na macierzy korelacji)

corr_matrix = np.corrcoef(matrix_movie_features.T) # .T ≈ºeby korelacja by≈Ça miƒôdzy filmami (kolumnami)

print("--- KT√ìRY FILM PASUJE DO KT√ìREGO? ---")
# Wypiszmy, co jest podobne do "Matrixa" (Index 0)
matrix_corr = corr_matrix[0]
similar_movies = list(zip(ratings.columns, matrix_corr))

# Sortujemy
sorted_sim = sorted(similar_movies, key=lambda x: x[1], reverse=True)

for movie, score in sorted_sim:
    print(f"Podobie≈Ñstwo do Matrixa: {movie:<12} = {score:.4f}")

--- KT√ìRY FILM PASUJE DO KT√ìREGO? ---
Podobie≈Ñstwo do Matrixa: Matrix       = 1.0000
Podobie≈Ñstwo do Matrixa: StarWars     = 1.0000
Podobie≈Ñstwo do Matrixa: Rambo        = 1.0000
Podobie≈Ñstwo do Matrixa: Shrek        = 1.0000
Podobie≈Ñstwo do Matrixa: Titanic      = -1.0000
Podobie≈Ñstwo do Matrixa: NottingHill  = -1.0000


## üß† Podsumowanie: Jak Netflix zarabia miliony?

Algorytm poprawnie wykry≈Ç, ≈ºe:
1.  **Matrix** jest bardzo podobny do **StarWars** (korelacja bliska 1.0).
2.  **Matrix** jest totalnym przeciwie≈Ñstwem **Titanica** (korelacja ujemna -1.0).

**Tu jest haczyk (Cold Start).**
SVD dzia≈Ça genialnie, gdy masz historiƒô ocen.
Ale co zrobiƒá, gdy zarejestruje siƒô **nowy u≈ºytkownik**, kt√≥ry nie oceni≈Ç niczego? Jego wiersz to same zera. SVD nic nie przewidzi (wynik te≈º bƒôdzie zerem).
To tzw. problem "Zimnego Startu". Wtedy Netflix u≈ºywa prostych regu≈Ç ("Co jest popularne w Twoim kraju?").

**Wniosek:**
Faktoryzacja macierzy to fundament. Choƒá nowoczesne systemy u≈ºywajƒÖ do tego sieci neuronowych (Neural Collaborative Filtering), to matematyka pod spodem (mno≈ºenie wektor√≥w cech) pozostaje ta sama.