#Relat√≥rio e Projeto de COCADA

A premissa do meu trabalho √© coletar os dados de avalia√ß√µes de filmes de um perfil da plataforma Letterboxd que for colocado no programa, ou ent√£o coletar avalia√ß√µes manualmente, caso voc√™ n√£o tenha um perfil, e com base nessas avalia√ß√µes montar a equa√ß√£o Ax = b, sendo a matriz A com linhas sendo filmes e colunas sendo g√™neros, o vetor b sendo a avalia√ß√£o do usu√°rio para cada filme, e x resultar√° no quanto o usu√°rio gosta de cada g√™nero relativo a sua avalia√ß√µes, pesando tamb√©m a avalia√ß√£o geral do mesmo, o que ser√° mostrado na tela. Ap√≥s isso, essa matriz x ser√° usada para recomendar 4 filmes que o usu√°rio ainda n√£o avaliou, e que tenham seu rating geral maior que 4.0, e que ele possivelmente gostar√° utilizando o m√©todo de m√≠nimos quadrados. Utilizarei um dataset contendo filmes e seus respectivos g√™neros para isso, al√©m dos dados de avalia√ß√µes do usu√°rio coletados do Letterboxd, utilizando a t√©cnica de Web Scraping.

#C√©lula 0
Esta c√©lula instala as bibliotecas necess√°rias para o projeto: `requests`, `beautifulsoup4`, `pandas`, `numpy`, `matplotlib` e `scipy`.
Elas s√£o fundamentais para realizar o scraping dos dados da web, manipula√ß√£o de tabelas, opera√ß√µes num√©ricas vetoriais, visualiza√ß√£o gr√°fica e resolu√ß√£o de sistemas de equa√ß√µes com restri√ß√µes.
Pesquisei a fun√ß√£o de cada uma dessas bibliotecas para tentar aplic√°-las corretamente neste projeto.

In [None]:
# C√©lula 0: Instala√ß√£o das dependencias

!pip install requests beautifulsoup4 pandas numpy matplotlib scipy

#C√©lula 1
Aqui fiz os imports necess√°rios para rodar o sistema. S√£o trazidas fun√ß√µes para:
- acessar p√°ginas da internet (`requests`);
- extrair informa√ß√µes do HTML (`BeautifulSoup`);
- trabalhar com dados tabulares (`pandas`);
- realizar opera√ß√µes matriciais e num√©ricas (`numpy`);
- interpretar strings como listas (`ast`);
- pausar requisi√ß√µes para n√£o sobrecarregar o servidor (`time`);
- exibir gr√°ficos com os resultados (`matplotlib`);
- resolver sistemas lineares com restri√ß√µes, usando m√≠nimos quadrados (`scipy.optimize.lsq_linear`).

Cada biblioteca foi selecionada com base em pesquisas.

In [None]:
# C√©lula 1: Imports e configura√ß√µes iniciais

import requests
from bs4 import BeautifulSoup
import pandas as pd
import numpy as np
import ast
import time
import matplotlib.pyplot as plt
from scipy.optimize import lsq_linear


# Cabe√ßalhos para simular um navegador real
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
                  'AppleWebKit/537.36 (KHTML, like Gecko) '
                  'Chrome/91.0.4472.124 Safari/537.36'
}

#C√©lula 2
Esta fun√ß√£o coleta as avalia√ß√µes de filmes de um usu√°rio do Letterboxd, p√°gina por p√°gina.
Foi necess√°rio pegar a estrutura do HTML do site e utilizar o BeautifulSoup para acessar os dados corretamente.
Ela retorna um DataFrame com os t√≠tulos dos filmes e suas respectivas notas (de 0.5 a 5).
Esse processo envolve conceitos de **web scraping**, extra√ß√£o de dados estruturados e automa√ß√£o de coleta de dados.
Eu peguei mais fun√ß√µes e coisas prontas para essa parte, j√° que n√£o est√° relacionada com a mat√©ria em si.

In [None]:
# C√©lula 2: Scraping das p√°ginas de avalia√ß√µes

def get_user_ratings(username, pause=1.0):
    ratings, page = [], 1
    while True:
        url = f"https://letterboxd.com/{username}/films/by/rated-date/page/{page}/"
        try:
            resp = requests.get(url, headers=headers, timeout=15)
            resp.raise_for_status()
        except requests.RequestException:
            break
        html = resp.text.lower()
        if page == 1:
            if 'this profile is private' in html:
                print(f"Perfil '{username}' √© privado.")
                return pd.DataFrame(columns=['title','rating'])
            if 'we can‚Äôt find the page' in html:
                print(f"Perfil '{username}' n√£o encontrado.")
                return pd.DataFrame(columns=['title','rating'])
        soup = BeautifulSoup(resp.text, 'html.parser')
        posters = soup.select('li.poster-container')
        if not posters:
            break
        for li in posters:
            img = li.find('img', class_='image')
            span = li.find('span', class_='rating')
            if img and span:
                title = img.get('alt','').strip()
                tag = [c for c in span.get('class',[]) if c.startswith('rated-')]
                if tag:
                    ratings.append({'title': title,
                                    'rating': int(tag[0].split('-')[1]) / 2.0})
        if not (soup.select_one('a.next') or soup.select_one('li.paginate-page a[rel="next"]')):
            break
        page += 1
        time.sleep(pause)
    print(f"Total de {len(ratings)} avalia√ß√µes coletadas de '{username}'")
    return pd.DataFrame(ratings)

#C√©lula 3
Esta fun√ß√£o permite que o usu√°rio insira manualmente os t√≠tulos dos filmes e suas respectivas notas, caso n√£o deseje usar os dados do Letterboxd, ou n√£o tenha. Essa abordagem √© importante para garantir que o sistema funcione mesmo sem conex√£o √† internet ou para testes r√°pidos.
A entrada √© validada para garantir que as notas estejam no intervalo permitido (0.5 a 5.0). A manipula√ß√£o do DataFrame ao final √© feita com `pandas`.

In [None]:
# C√©lula 3: Entrada manual de avalia√ß√µes

def get_manual_ratings():
    entries = []
    while True:
        title = input("T√≠tulo (ou 'fim'): ").strip()
        if title.lower()=='fim': break
        try:
            rating = float(input("Nota (0.5-5.0): ").replace(',','.'))
            if 0.5 <= rating <= 5.0:
                entries.append({'title':title, 'rating':rating})
            else:
                print("Fora do intervalo.")
        except ValueError:
            print("Inv√°lido.")
    return pd.DataFrame(entries)


#C√©lula 4
Esta c√©lula √© respons√°vel por carregar o banco de dados local com informa√ß√µes sobre filmes e seus respectivos g√™neros. S√£o feitas as seguintes etapas:
- Leitura do arquivo CSV contendo os filmes, com `pandas.read_csv()`;
- Renomea√ß√£o das colunas para padroniza√ß√£o;
- Tratamento de valores ausentes em g√™neros (substituindo por listas vazias);
- Convers√£o das strings representando listas de g√™neros usando `ast.literal_eval`.

Esse tipo de pr√©-processamento foi ideal para garantir que os dados estejam em formato adequado para an√°lises posteriores, como opera√ß√µes matriciais e filtragens.

In [None]:
# C√©lula 4: Carrega o dataset

def load_local_movie_database(filepath='Movie_Data_File.csv'):
    df = pd.read_csv(filepath)
    df = df.rename(columns={
        'Film_title':'title',
        'Genres':'genres',
        'Average_rating':'rating'})
    df['genres'] = df['genres'].fillna('[]')
    df['genres'] = df['genres'].apply(lambda s: ast.literal_eval(s) if isinstance(s,str) else [])
    return df[['title','genres','rating']]


#C√©lula 5
Esta c√©lula √© o n√∫cleo matem√°tico do projeto, onde aplicamos √°lgebra linear na forma da equa√ß√£o Ax = b:
- `A` √© a matriz de g√™neros (cada linha representa um filme e cada coluna, um g√™nero; valores bin√°rios indicam se o filme pertence a cada g√™nero);
- `b` √© o vetor de avalia√ß√µes atribu√≠das pelo usu√°rio, ponderadas com a m√©dia global do filme, para melhorar a robustez do modelo;
- As linhas da matriz A s√£o normalizadas para evitar que filmes com muitos g√™neros tenham mais peso na equa√ß√£o.

Este processo se alinha muito a m√≠nimos quadrados. Tive que aplicar tamb√©m, juntamente com os pesos, uma m√©dia ponderada da nota do usu√°rio com o rating global para cada filme, sendo de 70% e 30% respectivamente, assim dando um resultado mais preciso.

In [None]:
# C√©lula 5: Montar A e b (corrigido com pesos e normaliza√ß√£o)

def build_matrices(user_df, movie_db_df):
    df = pd.merge(user_df, movie_db_df, on='title', how='inner', suffixes=('_user','_global'))
    if df.empty:
        raise RuntimeError("Nenhum filme avaliado no banco local.")
    genres = sorted({g for lst in df['genres'] for g in lst})
    A = np.zeros((len(df), len(genres)))
    b = np.zeros(len(df))
    max_rating = movie_db_df['rating'].max()
    for i,row in enumerate(df.itertuples(index=False)):
        for g in row.genres:
            A[i, genres.index(g)] = 1
        norm = np.linalg.norm(A[i]) or 1
        A[i] /= norm  # Normaliza linha para evitar somas grandes
        global_norm = (row.rating_global / max_rating) * 5
        b[i] = 0.7 * row.rating_user + 0.3 * global_norm  # Peso maior na nota do usu√°rio
    return A,b,genres,df['title'].tolist()

#C√©lula 6
Aqui usamos `np.linalg.lstsq()` para resolver o sistema Ax = b por m√≠nimos quadrados da forma que minimiza o erro quadr√°tico entre as avalia√ß√µes previstas e as reais.
O vetor `x` resultante representa os pesos do usu√°rio para cada g√™nero ‚Äî ou seja, o quanto ele gosta de cada um deles.

In [None]:
# C√©lula 6: Resolve X

def solve_genre_weights(A, b):
    lb = np.full(A.shape[1], 0.5)
    ub = np.full(A.shape[1], 5.0)
    res = lsq_linear(A, b, bounds=(lb, ub))
    return res.x


#C√©lula 7
Esta fun√ß√£o cria um gr√°fico de barras que mostra os pesos (prefer√™ncias) do usu√°rio para cada g√™nero fornecido. Ela usa matplotlib para plotar os valores, ajustando os r√≥tulos dos g√™neros para melhor visualiza√ß√£o. O gr√°fico facilita a visualiza√ß√£o das prefer√™ncias categ√≥ricas do usu√°rio.

In [None]:
# C√©lula 7: Plot dos pesos por g√™nero

def plot_genre_weights(genres, x):
    plt.figure()
    plt.bar(genres, x)
    plt.xticks(rotation=45, ha='right')
    plt.ylabel('Peso')
    plt.title('Prefer√™ncias do usu√°rio por g√™nero')
    plt.tight_layout()
    plt.show()


#C√©lula 8
Com base no vetor de pesos `x`, calculamos o qu√£o bem cada filme n√£o assistido combina com os gostos do usu√°rio. O processo envolve:
- Filtrar filmes que o usu√°rio ainda n√£o viu e com m√©dia global >= 4.0;
- Criar uma matriz `M` semelhante √† `A`, com g√™neros dos filmes candidatos;
- Normalizar as linhas de `M` e multiplicar por `x` para obter uma nota prevista (quanto mais alta, maior a chance do usu√°rio gostar);
- Ordenar os resultados e retornar os 4 melhores.

Esse procedimento usa o produto escalar para medir afinidade entre vetores.


In [None]:
# C√©lula 8: Recomenda√ß√µes usando raw_score definido abaixo

def recommend_movies(x, genres, movie_db_df, seen, top_n=4, debug=False):
    # Seleciona os √≠ndices dos 3 g√™neros favoritos (maiores pesos)
    top3_idx = np.argsort(x)[-3:]
    top3_genres = [genres[i] for i in top3_idx]

    # Filtra candidatos n√£o vistos e com rating > 4
    cand = movie_db_df[
    (~movie_db_df['title'].isin(seen)) & (movie_db_df['rating'] >= 4.0)
].copy().reset_index(drop=True)


    # Matriz considerando apenas os 3 g√™neros favoritos
    M = np.zeros((len(cand), len(top3_genres)))

    for i, row in enumerate(cand.itertuples(index=False)):
        for j, g in enumerate(top3_genres):
            if g in row.genres:
                M[i, j] = 1

    # C√°lculo do raw_score: m√©dia aritm√©tica dos pesos apenas dos 3 g√™neros favoritos
    counts = M.sum(axis=1)
    counts[counts == 0] = 1
    raw_scores = (M * x[top3_idx]).sum(axis=1) / counts

    pred = np.clip(raw_scores, 0.5, 5.0)
    cand['predicted'] = pred

    if debug:
        detailed = []
        for i, title in enumerate(cand['title']):
            active = [g for g in cand.at[i, 'genres'] if g in top3_genres]
            detailed.append({'title': title, 'raw_score': raw_scores[i], 'genres': active})
        debug_df = pd.DataFrame(detailed).sort_values('raw_score', ascending=False).head(top_n)

        result = cand.sort_values('predicted', ascending=False).head(top_n).copy()
    result['genres'] = result['title'].map(
        dict(zip(movie_db_df['title'], movie_db_df['genres']))
    )
    result['ranking geral'] = np.arange(1, len(result) + 1)
    return result[['ranking geral', 'title', 'genres']]


#C√©lula 9
Exibi, em formato de DataFrame, a matriz `A` com os g√™neros de cada filme e a respectiva nota ponderada `b`. Isso permite:
- Verificar quais filmes foram usados para montar a matriz;
- Entender como cada filme contribui para a forma√ß√£o do perfil do usu√°rio.

In [None]:
# C√©lula 9: Visualiza√ß√£o dos dados usados na equa√ß√£o Ax = b

def show_user_data_matrix(A, b, genres, titles):
    df = pd.DataFrame(A, columns=genres)
    df['title'] = titles
    df['b (nota esperada)'] = b
    return df.sort_values(
        'b (nota esperada)',
        ascending=False
    ).reset_index(drop=True)

#C√©lula 10
Este √© o ponto de entrada do programa:
- Solicita o nome de usu√°rio ou ativa o modo de entrada manual;
- Coleta as notas e os filmes assistidos;
- Carrega o banco local e monta a matriz A e vetor b;
- Resolve o sistema por m√≠nimos quadrados e imprime os pesos dos g√™neros;
- Exibe os dados usados na cria√ß√£o do perfil e as recomenda√ß√µes finais.

Aqui a integra√ß√£o de todas as partes anteriores ocorre e elas s√£o de fato executadas.

In [None]:
# C√©lula 10: Main

if __name__ == '__main__':
    user = input("User Letterboxd (vazio -> manual): ")
    df_user = (
        get_user_ratings(user) if user.strip() else get_manual_ratings()
    )
    db = load_local_movie_database()
    A, b, gens, seen = build_matrices(df_user, db)
    x = solve_genre_weights(A, b)

    print("\nPesos:")
    for g, w in zip(gens, x):
        print(f" {g}: {w:.2f}")

    plot_genre_weights(gens, x)

    print("\nAlguns filmes usados para o peso e suas notas relativas:")
    print(
        show_user_data_matrix(A, b, gens, seen)[
            ['title', 'b (nota esperada)']
        ].head(10).to_string(index=False)
    )

    recs = recommend_movies(x, gens, db, seen, debug=True)
    print("üéØ Recomenda√ß√µes Personalizadas üé¨\n")
    for _, row in recs.iterrows():
      print(f"üèÜ #{row['ranking geral']} ‚Äî {row['title']} üéûÔ∏è")
      print(f"   G√™neros: {', '.join(row['genres'])}\n")




#**Considera√ß√µes finais:**



Minha ideia para um sistema de profiling e recomenda√ß√£o de filmes baseado no site Letterboxd foi inspirada no meu projeto de ALA do per√≠odo 24.2, que era apenas um sistema de recomenda√ß√µes de filmes baseado em avalia√ß√µes dadas na hora, e apesar de n√£o ter reutilizado nenhum c√≥digo do mesmo, minha ideia foi inspirada dele.

Ao longo da execu√ß√£o do projeto fui notando que a complexidade do que eu tinha em mente era bem maior do que a esperada, principalmente devido √† t√©cnica de Web Scraping e para lidar com os dados na matriz, ent√£o tive que improvisar em diversas √°reas do c√≥digo em python, envolveu muita pesquisa, por√©m no fim consegui fazer com que tudo funcionasse corretamente.

Al√©m disso, tamb√©m encontrei diversos obst√°culos para escolher o dataset, a primor eu havia conseguido uma chave para uma API p√∫blica ap√≥s fazer a solicita√ß√£o para o site TMDb, por√©m os g√™neros dos filmes desse dataset estavam relativamente errados, ou pelo menos for√ßados, por exemplo, um dos g√™neros de Interestelar era Western, e sci-fi n√£o estava na lista do mesmo, o que acabava gerando resultados muito estranhos nas recomenda√ß√µes, gostar de Interestelar era sin√¥nimo de gostar de Django Livre, que s√£o filmes bem diferentes um do outro.

Depois desse dataset que considerei falho, busquei outro e acabei encontrando um da plataforma Kaggle, e que de fato parecia estar mais correto, apesar de algumas inconsist√™ncias, por√©m tive que mudar completamente o c√≥digo da c√©lula para utilizar nas matrizes os filmes e g√™neros desse novo dataset, o que foi um trabalho bem complexo e inesperado.

#Refer√™ncias:

*   Dataset utilizado: https://www.kaggle.com/datasets/ky1338/10000-movies-letterboxd-data

*   Refer√™ncia para o Web Scraping: https://github.com/nmcassa/letterboxdpy

*   Fun√ß√µes desconhecidas por mim foram tiradas somente de pesquisas em diversas outras fontes variadas e vendo suas utiliza√ß√µes pr√°ticas, sem muito foco dado a elas.