# IMPORTANDO BIBLIOTECAS

In [4]:
import pandas as pd
import joblib
from sqlalchemy import create_engine
import time
import nltk
from nltk.corpus import stopwords
from sentence_transformers import SentenceTransformer

### Download das stopwords em portugu√™s (‚Äúde‚Äù, ‚Äúa‚Äù, ‚Äúo‚Äù, ‚Äúque‚Äù, ‚Äúe‚Äù, ‚Äúdo‚Äù, ‚Äúda‚Äù, ‚Äúem‚Äù, ‚Äúum‚Äù, ‚Äúpara‚Äù etc.)

In [5]:
try:
    stopwords_pt = stopwords.words('portuguese')
except:
    print("Baixando stopwords do NLTK...")
    nltk.download('stopwords')
    stopwords_pt = stopwords.words('portuguese')

### Vari√°veis globais, nome do arquivo e conex√£o com o banco de dados

In [7]:
DB_URL = 'postgresql://postgres:sua_senha@localhost:5432/postgres'
modelo_achv = "modelo_recomendacao.pkl"

try:
    engine = create_engine(DB_URL)
    print("Conex√£o com o banco de dados criada com sucesso!")
except Exception as e:
    print(f"Erro ao criar conex√£o com o banco: {e}")

Conex√£o com o banco de dados criada com sucesso!

FINALMENTE VAMOS TREINAR O ROBO!!!!!


### Carregar os filmes do bd e cria√ß√£o do dataframe para manipula√ß√£o dos textos

#### Removi filmes onde a quantidade de votos era menor que 150 (qtd_votos > 150) pois filmes com pouca relev√¢ncia e avalia√ß√µes estavam criando "ru√≠dos" e distorcendo os dados para os filmes na recomenda√ß√£o, recomendando filmes com pouca correla√ß√£o contextual

In [8]:
try:
    print("CARREGANDO FILMES DO BD")
    start_time = time.time()
    
    query = """
            SELECT
                tmdb_id, titulo, sinopse, generos,
                elenco, diretor, keywords, media_votos
            FROM filmes
            WHERE qtd_votos > 150
            """
    df_filmes = pd.read_sql(query, engine)
    
    print(f"{len(df_filmes)} carregados em {time.time() - start_time:.2f}s")
    print("Processamento de textos a seguir...")

except Exception as e:
    print("VERIFICAR A CONEX√ÉO COM O BANCO DE DADOS E BIBLIOTECAS INSTALADAS")
    print(e)

CARREGANDO FILMES DO BD
3817 carregados em 0.26s
Processamento de textos a seguir...


### Visualizar os dados brutos retirados do bd no nosso dataframe

In [10]:
df_filmes.head()

Unnamed: 0,tmdb_id,titulo,sinopse,generos,elenco,diretor,keywords,media_votos
0,19165,Em Busca do Vale Encantado V: A Ilha Misteriosa,Al√©m do Vale Encantado existe uma ilha de bele...,"Anima√ß√£o,Fam√≠lia,Aventura","John Ingle,Brandon La Croix,Aria Noelle Curzon...",Charles Grosvenor,dinosaur,6.2
1,8069,Barbarella,"No s√©culo XLI, as guerras j√° foram abolidas h√°...","Fic√ß√£o cient√≠fica,Aventura,Com√©dia,Fantasia,A√ß√£o","Jane Fonda,John Phillip Law,Anita Pallenberg,M...",Roger Vadim,"angel,sexual fantasy,alien planet,distant futu...",5.982
2,388,O Plano Perfeito,Assaltantes vestidos com uniformes de pintor i...,"Crime,Drama,Thriller","Denzel Washington,Clive Owen,Jodie Foster,Chri...",Spike Lee,"new york city,nazi,court case,kidnapping,hosta...",7.399
3,1054867,Uma Batalha Ap√≥s A Outra,Quando seu antigo inimigo ressurge ap√≥s 16 ano...,"A√ß√£o,Thriller,Crime","Leonardo DiCaprio,Sean Penn,Chase Infiniti,Ben...",Paul Thomas Anderson,"california,based on novel or book,usa‚Äìmexico b...",7.8
4,11249,O Filho de Chucky,O boneco assassino est√° de volta! O descendent...,"Terror,Com√©dia","Brad Dourif,Jennifer Tilly,Billy Boyd,Redman,H...",Don Mancini,"baby,voodoo,possession,evil doll,murder,killer...",5.494


### Defini√ß√£o de fun√ß√µes para auxiliar com textos, ex: "nome sobrenome" vira "nomesobrenome" e "o filme de tal" vira "filme tal" (modelo usa a unica entidade "nomesobrenome", melhor que duas entidades "nome" e "sobrenome"

In [11]:
def limpar_nomes(nomes_str):
    """ Pega os 3 primeiros nomes, remove espa√ßos e junta. """
    if not isinstance(nomes_str, str):
        return ""
    nomes_limpos = [n.strip().lower().replace(" ", "") for n in nomes_str.split(",")[:3]]
    return ' '.join(nomes_limpos)


def limpar_texto(texto):
    """ Remove stopwords do texto. """
    if not isinstance(texto, str):
        return ""
    texto = texto.lower()
    # Uma forma um pouco mais robusta de remover stopwords
    palavras = texto.split()
    palavras_sem_stopwords = [p for p in palavras if p not in stopwords_pt]
    return ' '.join(palavras_sem_stopwords)

print("Fun√ß√µes de limpeza definidas.")

Fun√ß√µes de limpeza definidas.


### Realiza√ß√£o da limpeza dos textos e remo√ß√£o das stopwords utilizando as fun√ß√µes auxiliares anteriores

#### N√£o realizei a limpeza no "t√≠tulo" do filme para evitar recomenda√ß√µes de sequ√™ncias de forma incessante, em testes anteriores "O Poderoso Chef√£o" recomendava diretamente "O Poderoso Chef√£o 2" com um grande score apenas pelo nome igual.

In [12]:
print("Iniciando processamento e limpeza dos dados...")

# Copiar para evitar SettingWithCopyWarning
df = df_filmes.copy() 

df = df.fillna("")
df["elenco_limpo"] = df["elenco"].apply(limpar_nomes)
df["diretor_limpo"] = df["diretor"].apply(limpar_nomes)
df["keywords_limpas"] = df["keywords"].str.replace(",", " ", regex=False)
df["generos"] = df["generos"].str.replace(",", " ", regex=False)

print("Processamento inicial conclu√≠do.")

Iniciando processamento e limpeza dos dados...
Processamento inicial conclu√≠do.


### Visualizar dataframe com formata√ß√£o

In [15]:
df[['titulo', 'elenco_limpo', 'diretor_limpo', 'keywords_limpas']].head()

Unnamed: 0,titulo,elenco_limpo,diretor_limpo,keywords_limpas
0,Em Busca do Vale Encantado V: A Ilha Misteriosa,johningle brandonlacroix arianoellecurzon,charlesgrosvenor,dinosaur
1,Barbarella,janefonda johnphilliplaw anitapallenberg,rogervadim,angel sexual fantasy alien planet distant futu...
2,O Plano Perfeito,denzelwashington cliveowen jodiefoster,spikelee,new york city nazi court case kidnapping hosta...
3,Uma Batalha Ap√≥s A Outra,leonardodicaprio seanpenn chaseinfiniti,paulthomasanderson,california based on novel or book usa‚Äìmexico b...
4,O Filho de Chucky,braddourif jennifertilly billyboyd,donmancini,baby voodoo possession evil doll murder killer...


### Cria√ß√£o do "texto+texto+texto" que ser√° utilizado pelo modelo, e aplica√ß√£o de par√¢metros de pesos de 'import√¢ncia' para cada coluna, ex; "diretor_limpo" e "keywords_limpas" tem um grau de 'import√¢ncia' 5 * maior que "sinopse"

#### Ap√≥s alguns testes com par√¢metros diferentes para cada peso, foi poss√≠vel notar uma maior correla√ß√£o de similaridade quando keywords possu√≠am um peso maior, o resto, ap√≥s cria√ß√£o e compara√ß√£o de alguns modelos, verifiquei que foi um dos melhores resultados baseado no que eu estava esperando, hiperpar√¢metros livres para modifica√ß√£o e testes.

In [16]:
print("Construindo texto combinado com pesos...")

df["texto"] = (
    (df["titulo"] + " ") * 3 +
    (df["diretor_limpo"] + " ") * 5 +
    (df["elenco_limpo"] + " ") * 4 +
    (df["keywords_limpas"] + " ") * 5 +
    (df["generos"] + " ") * 2 +
    (df["sinopse"] + " ")
)

print("Aplicando limpeza de stopwords no texto combinado...")
df['texto'] = df['texto'].apply(limpar_texto)

print("Campo 'texto' finalizado.")

Construindo texto combinado com pesos...
Aplicando limpeza de stopwords no texto combinado...
Campo 'texto' finalizado.


### Visualiza√ß√£o de resultado de um √≠ndice como exemplo;

In [17]:
df['texto'].iloc[0]

'busca vale encantado v: ilha misteriosa busca vale encantado v: ilha misteriosa busca vale encantado v: ilha misteriosa charlesgrosvenor charlesgrosvenor charlesgrosvenor charlesgrosvenor charlesgrosvenor johningle brandonlacroix arianoellecurzon johningle brandonlacroix arianoellecurzon johningle brandonlacroix arianoellecurzon johningle brandonlacroix arianoellecurzon dinosaur dinosaur dinosaur dinosaur dinosaur anima√ß√£o fam√≠lia aventura anima√ß√£o fam√≠lia aventura al√©m vale encantado existe ilha beleza mist√©rio. neste lugar maravilhoso, littlefoot, saura, espora, patassaura petr√∫cio descobrir√£o velhos novos amigos, enfrentar√£o incr√≠veis desafios viver√£o maior aventura vidas! nova hist√≥ria recheada can√ß√µes cl√°ssico busca vale encantado. dia, nuvem insetos devoradores plantas desce sobre vale encantado, acabam todas folhinhas vista. agora, vale totalmente destru√≠do todos precisam buscar novo lar plantas cres√ßam novamente. brigas adultos amea√ßam separa-los, littlefoo

#### No dataframe acima √© poss√≠vel verificar o texto criado com os par√¢metros anteriores

### Carregando o modelo de lingaguem utilizado

In [18]:
print("Carregando modelo de linguagem (SentenceTransformer)...")
start_model_load = time.time()

modelo = SentenceTransformer("paraphrase-multilingual-MiniLM-L12-v2")

print(f"Modelo carregado em {time.time() - start_model_load:.2f}s")

Carregando modelo de linguagem (SentenceTransformer)...
Modelo carregado em 2.88s


### Gera√ß√£o de embeddings do modelo, o "treinamento", transforma√ß√£o das nossas colunas em vetores num√©ricos e utilizando todos os vetores com comprimento 1 para um c√°lculo mais r√°pido e correto na similaridade de cossenos

In [19]:
print("Gerando embeddings sem√¢nticos...")
start_embed = time.time()

embeddings = modelo.encode(
    df['texto'].tolist(),
    show_progress_bar=True,
    normalize_embeddings=True
)

print(f"Embeddings gerados em {time.time() - start_embed:.2f}s")
print(f"Formato dos embeddings (Shape): {embeddings.shape}")

Gerando embeddings sem√¢nticos...


Batches: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 120/120 [01:28<00:00,  1.35it/s]

Embeddings gerados em 88.84s
Formato dos embeddings (Shape): (3817, 384)





### Salvando os artefatos do modelo treinado em pkl, metadata de inforam√ß√µes √∫teis para utiliza√ß√£o no script de recomenda√ß√£o

In [None]:
print('Salvando artefatos do modelo de ML...')

artefatos = {
    "version": "1.0.0",
    "date": time.strftime("%Y-%m-%d %H:%M:%S"),
    "model_name": "paraphrase-multilingual-MiniLM-L12-v2",
    "embeddings": embeddings,
    "tmdb_ids": df["tmdb_id"].tolist(),
    "metadata": df[["tmdb_id", "titulo", "media_votos"]].to_dict(orient="records")
}

joblib.dump(artefatos, modelo_achv)
print(f"Modelo salvo em '{modelo_achv}' com {len(df)} filmes")
print("TREINAMENTO CONCLU√çDO! üéâ")