# Scipt para buscar t√≠tulos da base de dados BB para a base de dados de CPB.


## 1) Carregamento e importa√ß√£o de bibliotecas e bases de dados 

In [1]:
#Importa bibliotecas importantes
import pandas as pd
import numpy as np
from IPython.display import display, HTML
import re
import os
import unidecode
import string
import nltk
import warnings
#nltk.download('punkt')
from nltk.tokenize import word_tokenize
from pandas import ExcelWriter
from tqdm import tqdm


In [2]:
#carrega Matchs de 2024
matchs_2024 = pd.read_excel('Bases/Matchs at√© 2024.xlsx', engine='openpyxl')

In [3]:
# Carregando os datasets mais recentes da Ancine
Base_SAD = pd.read_excel('Bases/Obras Ancine.xlsx', engine='openpyxl')


In [4]:
#Carregando base BB mais recente de 2025
Base_BB_import = pd.read_excel('Bases/BB Media - 2025-08-28 - Brazil - ALL PLATFORMS.xlsx', engine='openpyxl')


In [5]:
#Carregando base BB j√° percorrida
Base_BB_2024 =  pd.read_excel('Bases/Base BB 2024 inicial.xlsx', engine='openpyxl')


In [6]:
# ================================================================
# Resumo das bases carregadas
# ================================================================
bases = {
    'matchs_2024': matchs_2024,
    'Base_SAD': Base_SAD,
    'Base_BB': Base_BB_import,
    'Base_BB_2024': Base_BB_2024
}

print("Resumo das bases carregadas:\n")
for nome, df in bases.items():
    print(f"{nome:<15}: {len(df):>10,} linhas | {df.shape[1]:>3} colunas")


Resumo das bases carregadas:

matchs_2024    :      8,515 linhas |   6 colunas
Base_SAD       :     59,911 linhas |  12 colunas
Base_BB        :    378,618 linhas |  46 colunas
Base_BB_2024   :    535,758 linhas |  30 colunas


## 1.1) Limpeza de registros desnecess√°rios na base da BB

In [7]:
# Remover duplicatas dentro de Base_BB_1_filtrada, mantendo apenas o primeiro registro de cada UID
Base_BB_inicial = Base_BB_import.drop_duplicates(subset='BB UID')

# Contador de linhas final
print(f"Quantidade de linhas em Base_BB_inicial: {len(Base_BB_inicial)}")


Quantidade de linhas em Base_BB_inicial: 247692


In [8]:
# Filtrar Base_BB removendo registros j√° existentes em Base_BB_2024
Base_BB_inicial = Base_BB_inicial[~Base_BB_inicial['BB UID'].isin(Base_BB_2024['UID'])].copy()

# Opcional: resetar o √≠ndice para limpeza visual
Base_BB_inicial.reset_index(drop=True, inplace=True)

print(f"Registros restantes em Base_BB_inicial: {len(Base_BB_inicial)}")


Registros restantes em Base_BB_inicial: 119267


In [9]:
# ================================================================
# Filtrando plataformas indesejadas da base Base_BB_inicial
# ================================================================

PLATAFORMAS_EXCLUIR = [
    'Archivio Luce', 'NBA League Pass', 'iQIYI', 'Zee5', 'FIFA+', 'Qello Concerts', 'ShemarooMe',
    'FlixOl√©', 'Rakuten Viki', 'OnDemandKorea', 'Simply South', 'Digital Concert Hall', 'IWantTFC',
    'RT en Espa√±ol', 'KOCOWA+', 'CINE.AR PLAY', 'IFI Archive Player', 'Hoichoi', 'Selecta TV',
    'Met Opera on Demand', 'Reel Short', 'American Indian Film Gallery', 'TVN Play', 'Teatrix',
    'Retina Latina', 'Demand Africa', 'DAZN', 'HispanTV', 'HENRI', 'Anime Onegai', 'ALTBalaji',
    'Digital Theatre', 'F1 TV'
]

# Contagem inicial
total_antes = len(Base_BB_inicial)

# Filtrando registros cujo campo 'Platform Name' est√° na lista
Base_BB_inicial = Base_BB_inicial[~Base_BB_inicial['Platform Name'].isin(PLATAFORMAS_EXCLUIR)].copy()

# Resetando √≠ndice
Base_BB_inicial.reset_index(drop=True, inplace=True)

# Contagem final e resumo
total_depois = len(Base_BB_inicial)
removidos = total_antes - total_depois

print(f"Total antes do filtro: {total_antes:,}")
print(f"Total ap√≥s o filtro : {total_depois:,}")
print(f"Registros removidos : {removidos:,}")


Total antes do filtro: 119,267
Total ap√≥s o filtro : 39,417
Registros removidos : 79,850


## 1.2) Resumo Estat√≠stico dos dados

In [10]:
# ================================================================
# Resumo estat√≠stico e estrutural das bases Base_SAD e Base_BB_inicial
# ================================================================

def resumo_dataframe(df, nome_df):
    """
    Exibe resumo de atributos e estat√≠sticas descritivas de um DataFrame
    em formato amig√°vel e leg√≠vel no JupyterLab.
    """
    display(HTML(f"<h3 style='color:#2a5599;'>üìä Resumo da base <code>{nome_df}</code></h3>"))

    # === 1Ô∏è‚É£ Estrutura e tipos ===
    info_df = pd.DataFrame({
        "Coluna": df.columns,
        "Tipo de Dado": [str(df[col].dtype) for col in df.columns],
        "Valores N√£o Nulos": [df[col].notna().sum() for col in df.columns],
        "Valores Nulos": [df[col].isna().sum() for col in df.columns],
        "% Nulos": [df[col].isna().mean() * 100 for col in df.columns]
    })

    styled_info = (
        info_df.style
        .format({'% Nulos': '{:.2f}%'})
        .set_table_styles([
            {'selector': 'th', 'props': [('background-color', '#f0f0f0'), ('text-align', 'center')]},
            {'selector': 'td', 'props': [('padding', '6px 12px')]},
        ])
        .set_properties(subset=['Coluna'], **{'text-align': 'left'})
        .set_properties(subset=['Tipo de Dado'], **{'text-align': 'center'})
        .set_properties(subset=['Valores N√£o Nulos', 'Valores Nulos', '% Nulos'], **{'text-align': 'right'})
        .hide(axis="index")
    )
    display(HTML("<h4>üìã Estrutura e Qualidade dos Dados</h4>"))
    display(styled_info)

    # === 2Ô∏è‚É£ Estat√≠sticas descritivas ===
    desc = df.describe(include='all').transpose().fillna("")
    styled_desc = (
        desc.style
        .set_table_styles([
            {'selector': 'th', 'props': [('background-color', '#f0f0f0'), ('text-align', 'center')]},
            {'selector': 'td', 'props': [('padding', '6px 12px')]},
        ])
        .set_properties(**{'text-align': 'right'})
    )
    display(HTML("<h4>üìà Resumo Estat√≠stico</h4>"))
    display(styled_desc)
    display(HTML("<hr style='margin:25px 0;'>"))

# ================================================================
# Aplica√ß√£o da fun√ß√£o √†s suas bases
# ================================================================
resumo_dataframe(Base_SAD, "Base_SAD")
resumo_dataframe(Base_BB_inicial, "Base_BB_inicial")


Coluna,Tipo de Dado,Valores N√£o Nulos,Valores Nulos,% Nulos
ID_OBRA,object,59911,0,0.00%
T√≠tulo Original,object,59910,1,0.00%
T√≠tulo Alternativo,object,1,59910,100.00%
Classifica√ß√£o,object,59911,0,0.00%
G√™nero,object,59911,0,0.00%
Organiza√ß√£o Temporal,object,59911,0,0.00%
Dura√ß√£o,float64,59837,74,0.12%
N¬∫ de Epis√≥dios,float64,16426,43485,72.58%
Ano de Produ√ß√£o,object,59909,2,0.00%
Produtora,object,59900,11,0.02%


  desc = df.describe(include='all').transpose().fillna("")


Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
ID_OBRA,59911.0,59856.0,B2000397700000,3.0,,,,,,,
T√≠tulo Original,59910.0,55591.0,VIDEOAULAS #NEM1PRATRAS,13.0,,,,,,,
T√≠tulo Alternativo,1.0,1.0,SE EU FOSSE VOC√ä,1.0,,,,,,,
Classifica√ß√£o,59911.0,4.0,BRASILEIRA INDEPENDENTE CONSTITUINTE DE ESPA√áO QUALIFICADO,30880.0,,,,,,,
G√™nero,59911.0,11.0,FIC√á√ÉO,17686.0,,,,,,,
Organiza√ß√£o Temporal,59911.0,5.0,N√ÉO SERIADA,47791.0,,,,,,,
Dura√ß√£o,59837.0,,,,267.925638,3455.872003,0.13,5.75,27.0,90.0,470400.0
N¬∫ de Epis√≥dios,16426.0,,,,23.952332,91.722806,1.0,1.0,8.0,15.0,3480.0
Ano de Produ√ß√£o,59909.0,315.0,2023,2945.0,,,,,,,
Produtora,59900.0,19252.0,GLOBO COMUNICACAO E PARTICIPACOES S/A,2343.0,,,,,,,


Coluna,Tipo de Dado,Valores N√£o Nulos,Valores Nulos,% Nulos
Unnamed: 0,int64,39417,0,0.00%
BB UID,object,39417,0,0.00%
Platform Content ID,object,39417,0,0.00%
BB Hash Unique,object,39417,0,0.00%
Platform Name,object,39417,0,0.00%
Platform Country,object,39417,0,0.00%
Package,object,39417,0,0.00%
Platform Title,object,39417,0,0.00%
Type,object,39417,0,0.00%
Deeplink,object,39417,0,0.00%


  desc = df.describe(include='all').transpose().fillna("")


Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
Unnamed: 0,39417.0,,,,175863.55915,108471.144417,0.0,104226.0,168746.0,242147.0,373787.0
BB UID,39417.0,39417.0,bcba58f6d60b0a071c777c8b5f4df4f0,1.0,,,,,,,
Platform Content ID,39417.0,39199.0,1740.000000,3.0,,,,,,,
BB Hash Unique,39417.0,39417.0,c96dd8d4d65fa5545b2f9d68d996423b,1.0,,,,,,,
Platform Name,39417.0,90.0,Amazon Prime Video,6335.0,,,,,,,
Platform Country,39417.0,1.0,BR,39417.0,,,,,,,
Package,39417.0,4.0,Subscription,17656.0,,,,,,,
Platform Title,39417.0,37853.0,TREINO DA SELE√á√ÉO BRASILEIRA,8.0,,,,,,,
Type,39417.0,2.0,Movie,34187.0,,,,,,,
Deeplink,39417.0,39297.0,https://www.cinehumbertomauromais.com,80.0,,,,,,,


In [11]:
# ================================================================
# Amostra das primeiras linhas (head) das bases Base_SAD e Base_BB_inicial
# ================================================================

def exibir_head(df, nome_df, linhas=10):
    """
    Exibe as primeiras linhas de um DataFrame (head) com formata√ß√£o
    leg√≠vel no JupyterLab, no estilo de tabela do Colab.
    """
    display(HTML(f"<h3 style='color:#2a5599;'>üîé Amostra das {linhas} primeiras linhas da base <code>{nome_df}</code></h3>"))

    styled_head = (
        df.head(linhas)
        .style
        .set_table_styles([
            {'selector': 'th', 'props': [('background-color', '#f0f0f0'), ('text-align', 'center')]},
            {'selector': 'td', 'props': [('padding', '6px 12px')]},
        ])
    )

    display(styled_head)
    display(HTML("<hr style='margin:25px 0;'>"))

# ================================================================
# Aplica√ß√£o da fun√ß√£o √†s duas bases
# ================================================================
exibir_head(Base_SAD, "Base_SAD", linhas=10)
exibir_head(Base_BB_inicial, "Base_BB_inicial", linhas=10)


Unnamed: 0,ID_OBRA,T√≠tulo Original,T√≠tulo Alternativo,Classifica√ß√£o,G√™nero,Organiza√ß√£o Temporal,Dura√ß√£o,N¬∫ de Epis√≥dios,Ano de Produ√ß√£o,Produtora,Diretor,Pa√≠s de Origem
0,B0200000400000,SEJA O QUE DEUS QUISER,,BRASILEIRA INDEPENDENTE CONSTITUINTE DE ESPA√áO QUALIFICADO,FIC√á√ÉO,N√ÉO SERIADA,90.0,,2002,BRASIL FILMES LTDA | CINEMA BRASIL DIGITAL - ESCRIT√ìRIO DE PLANEJ. EMPR. AUD. LTDA | DISTRIBUIDORA DE FILMES S/A RIOFILME,MURILO NAVARRO DE SALLES,BR
1,B0200000600000,ROCINHA BRASIL77,,N√ÉO INFORMADO,N√ÉO CLASSIFICADA,N√ÉO SERIADA,19.0,,1977,CONCEITO EVENTOS E PROMO√á√ïES LTDA,SERGIO P√âO,BR
2,B0200000700000,ROCINHA 76/96,,N√ÉO INFORMADO,N√ÉO CLASSIFICADA,N√ÉO SERIADA,4.0,,1996,CONCEITO EVENTOS E PROMO√á√ïES LTDA,SERGIO P√âO,BR
3,B0200000800000,NANDERU - PANOR√ÇMICA TUPINAMB√Å,,BRASILEIRA INDEPENDENTE CONSTITUINTE DE ESPA√áO QUALIFICADO,DOCUMENT√ÅRIO,N√ÉO SERIADA,9.0,,1991,CONCEITO EVENTOS E PROMO√á√ïES LTDA,SERGIO CASEMIRO JUCA DOS SANTOS,BR
4,B0200000900000,ABC BRASIL,,BRASILEIRA INDEPENDENTE CONSTITUINTE DE ESPA√áO QUALIFICADO,DOCUMENT√ÅRIO,N√ÉO SERIADA,18.52,,1980,CONCEITO EVENTOS E PROMO√á√ïES LTDA,SERGIO CASEMIRO JUCA DOS SANTOS,BR
5,B0200001000000,DURVAL DISCOS,,BRASILEIRA INDEPENDENTE CONSTITUINTE DE ESPA√áO QUALIFICADO,FIC√á√ÉO,N√ÉO SERIADA,96.0,,2001,DEZENOVE SOM E IMAGENS PRODU√á√ïES LTDA - EPP | √ÅFRICA FILMES LTDA,ANA LUIZA MACHADO DA SILVA MUYLAERT,BR
6,B0200001200000,RUA SEIS SEM NUMERO,,BRASILEIRA CONSTITUINTE DE ESPA√áO QUALIFICADO,FIC√á√ÉO,N√ÉO SERIADA,103.0,,2002,FILMOCENTRO SONIDO | OESTE FILMES BRASILEIROS LTDA-BAIXADO,JOAO BATISTA MORAES DE ANDRADE,"BR, CL"
7,B0200001300000,DESMUNDO,,BRASILEIRA CONSTITUINTE DE ESPA√áO QUALIFICADO,FIC√á√ÉO,N√ÉO SERIADA,100.0,,2001,A.F. CINEMA E V√çDEO LTDA | CONTINENTALFILMES | LABO CINE DO BRASIL LTDA,ALAIN FRESNOT,"BR, PT"
8,B0300001600000,DEUS √â BRASILEIRO,,BRASILEIRA CONSTITUINTE DE ESPA√áO QUALIFICADO,FIC√á√ÉO,N√ÉO SERIADA,110.0,,2001,RIO VERMELHO FILMES LTDA,CARLOS JOSE FONTES DIEGUES,BR
9,B0300001700000,BURNING THE HOUSE,,N√ÉO INFORMADO,N√ÉO CLASSIFICADA,N√ÉO SERIADA,3.0,,2002,O2 FILMES CURTOS LTDA,HANK LEVINE,BR


Unnamed: 0.1,Unnamed: 0,BB UID,Platform Content ID,BB Hash Unique,Platform Name,Platform Country,Package,Platform Title,Type,Deeplink,Seasons,Episodes,Season Numbers,Channel,Is Original,Is Exclusive,Platform Year,Platform Duration,Platform Rating,Platform Provider,Platform Genres,Platform Cast,Platform Directors,BB Coverage (In Days),BB Age,BB Cast,BB Countries,BB Directors,BB Duration,BB Genres,BB Keywords,BB Languages,BB Original Title,BB Primary Company,BB Primary Country,BB Primary Genre,BB Production Companies,BB Score,BB Scripted,BB Title,BB Year,BB Votes,IMDb ID,TMDB ID,TVDB ID,EIDR ID
0,0,bcba58f6d60b0a071c777c8b5f4df4f0,3d9e437e1879d37d8f4655b089f8d084,c96dd8d4d65fa5545b2f9d68d996423b,99 Media,BR,Free/Free with Ads,"Une journ√©e dans la vie d'Elisa Carrillo Cabrera, danseuse √©toile",Movie,https://www.99.media/fr/une-journee-dans-la-vie-delisa-carrillo-cabrera-danseuse-etoile/,,,,,No,No,,,,,,,Veronika Pokoptceva,49.0,,,,,,,,,,,,,,,,,,,,,,
1,1,9bc637729b1d4946e22bdb0a4f79e335,e27619bb37bde6b77d84c782f64d23fb,a17ee5aa0be0c88dc5f7da29e5797ff7,99 Media,BR,Free/Free with Ads,"Volda, petite ville norv√©gienne, est-elle pr√™te pour sa premi√®re Pride ?",Movie,https://www.99.media/fr/volda-petite-ville-rurale-norvegienne-est-elle-prete-pour-sa-toute-premiere-marche-des-fiertes/,,,,,No,No,,,,,,,Differ Media,57.0,N/D,,,Differ Media,,,,,,,,,,,,"Volda, petite ville norv√©gienne, est-elle pr√™te pour sa premi√®re",,,,,,
2,2,ff6ec432972002dee46b4302b972ad8a,1bb766c1b6a95b9261d592740a4a7666,0906f056aee0a48bca7a90ffccbbcce0,99 Media,BR,Free/Free with Ads,"Pour Vova et Roma, la guerre est tout sauf un jeu en Ukraine",Movie,https://www.99.media/fr/pour-vova-et-roma-la-guerre-est-tout-sauf-un-jeu-en-ukraine/,,,,,No,No,,,,,,,I SEE YOU,140.0,N/D,,,I SEE YOU,,,,,,,,,,,,"Pour Vova et Roma, la guerre est tout sauf un jeu en Ukraine",,,,,,
3,3,882ede3bf128a44bae419ba155e43d16,75d56b37da8e9decee3d71f039836f96,ce6e6069736c385e6be00300cb699ff7,99 Media,BR,Free/Free with Ads,"Jorge, un DJ aux ""pieds tordus""",Movie,https://www.99.media/fr/jorge-un-dj-aux-pieds-tordus/,,,,,No,No,,,,,,,lospiestorcidos,169.0,N/D,,,lospiestorcidos,,,,,,,,,,,,"Jorge, un DJ aux ""pieds tordus""",,,,,,
4,4,228ccf03f6321b5340b3a7bc0c498f35,f02d7c9c4aebd7553d9a402865d35c8e,e20dc92ef78cde16222749262aea17b3,99 Media,BR,Free/Free with Ads,"L√©andre, une histoire de d√©termination",Movie,https://www.99.media/fr/leandre-une-histoire-de-determination/,,,,,No,No,,,,,,,Matthieu Perret,230.0,N/D,,,L√©andre Boyer,,,,,,,,,,,,"L√©andre, une histoire de d√©termination",,,,,,
5,5,5c03ba31df28d9d290bb974a226f08e1,a7c14a02278ad1c421fb14b7e23ab3be,103b66f428bdb564eb199878fa744da2,99 Media,BR,Free/Free with Ads,Zvonko attend le train,Movie,https://www.99.media/fr/zvonko-attend-le-train/,,,,,No,No,,,,,,,Melita Vrsaljko,349.0,N/D,,,Melita Vrsaljko,,,,,,,,,,,,Zvonko attend le train,,,,,,
6,6,ad83ce65126e9bc26cca5c2ff5ee6cda,6a30201de68735314a9d144ea338a007,6171d0b16ab0f31a078d3b1de19a21c4,99 Media,BR,Free/Free with Ads,"En Finlande, tondre la pelouse, c'est... toute une histoire",Movie,https://www.99.media/fr/en-finlande-tondre-la-pelouse-cest-toute-une-histoire/,,,,,No,No,,,,,,,Otso Alanko,349.0,N/D,,,Otso Alanko,,,,,,,,,,,,"En Finlande, tondre la pelouse, c'est... toute une histoire",,,,,,
7,16,a463770eeaab3b49033e89b5f0cfc8aa,189728389949abbe516c26fd5621ffc1,339e83cddb3672cf6d81cadfe6088f1d,99 Media,BR,Free/Free with Ads,"""Tungrus"" : un coq s√®me la terreur dans un appartement de Mumbai",Movie,https://www.99.media/fr/tungrus-dans-un-petit-appartement-de-mumbai-un-coq-seme-la-terreur-et-tyrannise-toute-une-famille/,,,,,No,No,,,,,,,"Rishi Ch, na",259.0,N/D,,,"Rishi Ch,na",,,,,,,,,,,,"""Tungrus"" : un coq s√®me la terreur dans un appartement de Mumbai",,,,,,
8,25,f9c6b53b18b1998137649df66d1e37a8,dd7d550a32b6ebb2a73bee7599b9761c,14045daed1903f1493caeb6485dc87e8,99 Media,BR,Free/Free with Ads,"""Elong E'nabe"" : une pri√®re pour un brillant avenir en Belgique",Movie,https://www.99.media/fr/elong-enabe-rose-adresse-une-priere-a-angela-sa-petite-fille-de-6-ans-pour-quelle-grandisse-et-sepanouisse-en-belgique/,,,,,No,No,,,,,,,Niels Devlieghere,344.0,N/D,,,Niels Devlieghere,,,,,,,,,,,,"""Elong E'nabe"" : une pri√®re pour un brillant avenir en Belgique",,,,,,
9,37,cfaae4ba4cab543f7b15f14162603e20,78267a78af9a8663481bc727118c7d12,9de1a815425c228b7636d7c37016aad3,99 Media,BR,Free/Free with Ads,"A day in the life of Elisa Carrillo Cabrera, prima ballerina",Movie,https://www.99.media/en/a-day-in-the-life-of-elisa-carrillo-cabrera-prima-ballerina/,,,,,No,No,,,,,,,Veronika Pokoptceva,49.0,,,,,,,,,,,,,,,,,,,,,,


## 2) Pr√©-processamento e limpeza inicial de dados e cria√ß√£o de dataframes separados

## 2.1) Trimming do dataframe da BB

In [12]:
# ================================================================
# Selecionar apenas as colunas de interesse da base Base_BB_inicial
# ================================================================

cols_interesse = [
    'BB UID',    'Platform Title',    'Type',    'Deeplink',    'Seasons',    'Episodes',    'Season Numbers',    'BB Cast',    'BB Countries',    'BB Directors',    'BB Duration',    'BB Languages',
    'BB Original Title',    'BB Primary Company',    'BB Primary Country',    'BB Primary Genre',    'BB Production Companies',    'BB Title',    'BB Year',    'IMDb ID']

# Mant√©m somente as colunas listadas
Base_BB_trim = Base_BB_inicial[cols_interesse].copy()

# Exibe confirma√ß√£o e amostra
display(HTML(f"<h4 style='color:#2a5599;'>üìã Base_BB_trim criada com {len(Base_BB_trim):,} registros e {len(Base_BB_trim.columns)} colunas.</h4>"))
display(Base_BB_trim.sample(5).style.set_table_styles([
    {'selector': 'th', 'props': [('background-color', '#f0f0f0'), ('text-align', 'center')]},
    {'selector': 'td', 'props': [('padding', '6px 12px')]}
]))


Unnamed: 0,BB UID,Platform Title,Type,Deeplink,Seasons,Episodes,Season Numbers,BB Cast,BB Countries,BB Directors,BB Duration,BB Languages,BB Original Title,BB Primary Company,BB Primary Country,BB Primary Genre,BB Production Companies,BB Title,BB Year,IMDb ID
15177,d81f41729fc7405304ff9e7576d19ad0,√çCONOS: PAULINA RUBIO,Movie,https://canela.tv/movie/iconos-paulina-rubio-2022,,,,,,,36.0,,,,,,,PLANETA PAULINA,2022.0,
30446,b4a2aaaf6700ae93b35bddb64490261b,Fam√≠lia de Ferro,Series,https://www.netflix.com/br/title/81919984,1.0,36.0,1.0,"Jung Seo-yeon, Kim Young-ok, Joo Sae-byeok, Park Ji-young, Im Jae-geun, Keum Sae-rok, Shin Hyun-joon, Choi Tae-joon, Kim Sun-kyung, Lee Kyu-ho, Byun Yoon-Jeong, Park Sung-hyun, Seung Hyung-bae, Yang Hye-ji, Kim Hyun-Joon, Han Soo-ho, Kang Deok-joong, Jo Bok-rae, Ha Seo-yoon, Yoo Il-han",KR,Sung Joon-hae,70.0,"korean, ko",Iron Family,Keyeast Entertainment,KR,Family,"Monster Union, Keyeast, Keyeast Entertainment",Iron Family,2024.0,tt33085643
21203,356d90975b2adb3db843390fdf9a3d29,Hakone Gardens and Execuive Order 9066,Movie,https://watch.eventive.org/for-on-demand/play/67538afbe61e1a21a49093bc/6753824b0c85fe847fb16ee5,,,,,,Curt Fukuda,22.0,,,,,,,Hakone Gardens and Execuive Order 9066,2022.0,
35895,24eee1391940deb31fe43b18896155b5,Bising: A Silent Terror,Movie,https://www.viddsee.com/video/bising-a-silent-terror/671zh,,,,,,Ridho Nugroho,10.0,,,,,,,Bising: A Silent Terror,2022.0,
28175,5b8916346d565f5a1c566eddec2ca7ef,"Police Acquitted, Shopkeepers Found Guilty in Killing of ...",Movie,https://means.tv/programs/police-acquitted-shopkeepers-found-guilty-in-killing-of-queer-activist-zackie-oh_unicorn-riot,,,,,,,,,,,,,,"Police Acquitted, Shopkeepers Found Guilty in Killing of Queer",,


In [13]:
Base_BB_trim.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 39417 entries, 0 to 39416
Data columns (total 20 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   BB UID                   39417 non-null  object 
 1   Platform Title           39417 non-null  object 
 2   Type                     39417 non-null  object 
 3   Deeplink                 39417 non-null  object 
 4   Seasons                  4299 non-null   float64
 5   Episodes                 4299 non-null   float64
 6   Season Numbers           4299 non-null   object 
 7   BB Cast                  9881 non-null   object 
 8   BB Countries             10434 non-null  object 
 9   BB Directors             19244 non-null  object 
 10  BB Duration              29814 non-null  float64
 11  BB Languages             10099 non-null  object 
 12  BB Original Title        10831 non-null  object 
 13  BB Primary Company       8986 non-null   object 
 14  BB Primary Country    

In [14]:
# Exportando o dataframe Base_BB para o formato Excel
Base_BB_trim.to_excel('Bases/Base_BB_inicial_cortada.xlsx', index=False, engine='openpyxl')


In [15]:
# Recuperando o dataframe Base_BB para economizar tempo de carregamento

Base_BB = pd.read_excel('Bases/Base_BB_inicial_cortada.xlsx', engine='openpyxl')

### 2.2) Preenchimento de vazios SAD

In [16]:
# ================================================================
# 2.2) Preenchimento e ajustes de colunas na Base_SAD
# ================================================================

# 1Ô∏è‚É£ Preencher vazios nos campos textuais com NaN expl√≠cito
Base_SAD['T√≠tulo Original'] = Base_SAD['T√≠tulo Original'].fillna(np.nan)
Base_SAD['Produtora'] = Base_SAD['Produtora'].fillna(np.nan)
Base_SAD['Diretor'] = Base_SAD['Diretor'].fillna(np.nan)

# 2Ô∏è‚É£ Renomear coluna 'Dura√ß√£o' para 'Dura√ß√£o Obra'
if 'Dura√ß√£o' in Base_SAD.columns:
    Base_SAD = Base_SAD.rename(columns={'Dura√ß√£o': 'Dura√ß√£o Obra'})

# 3Ô∏è‚É£ Preencher vazios em 'Dura√ß√£o Obra' com zero
if 'Dura√ß√£o Obra' in Base_SAD.columns:
    Base_SAD['Dura√ß√£o Obra'] = Base_SAD['Dura√ß√£o Obra'].fillna(0)

# 4Ô∏è‚É£ Renomear coluna 'ID_OBRA' para 'N¬∫ CPB'
if 'ID_OBRA' in Base_SAD.columns:
    Base_SAD = Base_SAD.rename(columns={'ID_OBRA': 'N¬∫ CPB'})

# 5Ô∏è‚É£ Mensagem de confirma√ß√£o
display(HTML(
    "<h4 style='color:#2a5599;'>‚úÖ Preenchimento e renomea√ß√µes conclu√≠dos com sucesso para <code>Base_SAD</code>.</h4>"
))

display(Base_SAD.sample(10).style.set_table_styles([
    {'selector': 'th', 'props': [('background-color', '#f0f0f0'), ('text-align', 'center')]},
    {'selector': 'td', 'props': [('padding', '6px 12px')]}
]))

Unnamed: 0,N¬∫ CPB,T√≠tulo Original,T√≠tulo Alternativo,Classifica√ß√£o,G√™nero,Organiza√ß√£o Temporal,Dura√ß√£o Obra,N¬∫ de Epis√≥dios,Ano de Produ√ß√£o,Produtora,Diretor,Pa√≠s de Origem
566,B0400085500000,JUSTI√áA,,BRASILEIRA INDEPENDENTE CONSTITUINTE DE ESPA√áO QUALIFICADO,DOCUMENT√ÅRIO,N√ÉO SERIADA,100.0,1.0,2003 A 2003,LIMITE PRODU√á√ïES LTDA | SELFMADE FILMS,MARIA AUGUSTA FREIRE DE CARVALHO RAMOS,"BR, NL"
3575,B0500429500000,T√Å PRA NASCER,,N√ÉO INFORMADO,N√ÉO CLASSIFICADA,N√ÉO SERIADA,4.0,1.0,2005 A 2005,TAMBOR FILMES LTDA.,LUIS FERNANDO MOREIRA (PICO GARCEZ),BR
38741,B1900442600000,INTRA-MENTIS,,BRASILEIRA INDEPENDENTE CONSTITUINTE DE ESPA√áO QUALIFICADO,DOCUMENT√ÅRIO,N√ÉO SERIADA,15.0,,2019,F2 PRODU√á√ïES ESPECIAIS LTDA - ME,PABLO FELIPE PEREIRA DE AGUIAR,BR
15937,B1201685200000,ABZ DO ZIRALDO,,COMUM,PROGRAMA DE AUDIT√ìRIO ANCORADO POR APRESENTADOR,SERIADA,1196.0,67.0,2012 A 2012,EMPRESA BRASIL DE COMUNICACAO S.A. - EBC,DERMEVAL COUTINHO NETTO,BR
33399,B1800089600000,"SOCORRO, MEUS PAIS COMEM MAL! - 8¬™ TEMPORADA",,BRASILEIRA CONSTITUINTE DE ESPA√áO QUALIFICADO,REALITY-SHOW,SERIADA EM M√öLTIPLAS TEMPORADAS,390.0,13.0,2017 A 2017,GLOBOSAT PROGRAMADORA LTDA (BAIXADA),LEANDRO CORINTO PINTO DA SILVA,BR
43542,B2100140500000,FILME SUJO,,BRASILEIRA INDEPENDENTE CONSTITUINTE DE ESPA√áO QUALIFICADO,FIC√á√ÉO,N√ÉO SERIADA,93.77,,2021,PETRUS CHAVES GASPAR DE MORAIS FARIA,PETRUS CHAVES GASPAR DE MORAIS FARIA,BR
30545,B1700171400000,NADIR DA MUSSUCA,,BRASILEIRA CONSTITUINTE DE ESPA√áO QUALIFICADO,DOCUMENT√ÅRIO,N√ÉO SERIADA,25.82,,2016,ALEXANDRA GOUVEA DUMAS,ALEXANDRA GOUVEA DUMAS,BR
2299,B0500295400000,SCORPION 28,,COMUM,FIC√á√ÉO,N√ÉO SERIADA,100.0,1.0,2001 A 2001,FORPLAY V√çDEO LTDA,WAGNER STANLAY LUZ DE MIRANDA,BR
43445,B2100120900000,AGORA COM LACOMBE,,COMUM,JORNAL√çSTICA,SERIADA DE DURA√á√ÉO INDETERMINADA,3000.0,50.0,2021 A 2021,TV OMEGA LTDA.,MAURICIO VARNUM CARVALHO,BR
19592,B1402071200000,KAIAK - 4¬∞ TEMPORADA OFF,,BRASILEIRA INDEPENDENTE CONSTITUINTE DE ESPA√áO QUALIFICADO,DOCUMENT√ÅRIO,SERIADA EM M√öLTIPLAS TEMPORADAS,390.0,15.0,2013 A 2013,DIGIM√çDIA RECURSOS DIGITAIS LTDA EPP | GLOBOSAT PROGRAMADORA LTDA (BAIXADA) | HORIZONTE CONTEUDOS LTDA (BAIXADA),"RICARDO MELLA QUINTELA, ANDRE INOJOSA DE ALMEIDA PUPO",BR


### 2.3) Preenchimento de vazios BB

In [17]:
# ================================================================
# 2.3) Preenchimento de vazios na Base_BB
# ================================================================

# 1Ô∏è‚É£ Campos textuais ‚Äì preencher com string vazia ''
campos_texto = [
    'Platform Title', 'Type', 'Deeplink', 'Season Numbers',
    'BB Cast', 'BB Countries', 'BB Directors', 'BB Languages',
    'BB Original Title', 'BB Primary Company', 'BB Primary Country',
    'BB Primary Genre', 'BB Production Companies', 'BB Title', 'IMDb ID'
]

for col in campos_texto:
    if col in Base_BB.columns:
        Base_BB[col] = Base_BB[col].fillna('').astype(str)

# 2Ô∏è‚É£ Campos num√©ricos ‚Äì preencher com 0 e converter para inteiro
campos_inteiros = ['Seasons', 'Episodes', 'BB Duration', 'BB Year']

for col in campos_inteiros:
    if col in Base_BB.columns:
        Base_BB[col] = Base_BB[col].fillna(0).astype(int)

# 3Ô∏è‚É£ Campos de identifica√ß√£o ‚Äì garantir coer√™ncia de tipo string
if 'BB UID' in Base_BB.columns:
    Base_BB['BB UID'] = Base_BB['BB UID'].astype(str)

# 4Ô∏è‚É£ Confirma√ß√£o visual
display(HTML(
    "<h4 style='color:#2a5599;'>‚úÖ Preenchimento e tipagem conclu√≠dos com sucesso para <code>Base_BB</code>.</h4>"
))
display(Base_BB.sample(10).style.set_table_styles([
    {'selector': 'th', 'props': [('background-color', '#f0f0f0'), ('text-align', 'center')]},
    {'selector': 'td', 'props': [('padding', '6px 12px')]}
]))


Unnamed: 0,BB UID,Platform Title,Type,Deeplink,Seasons,Episodes,Season Numbers,BB Cast,BB Countries,BB Directors,BB Duration,BB Languages,BB Original Title,BB Primary Company,BB Primary Country,BB Primary Genre,BB Production Companies,BB Title,BB Year,IMDb ID
16236,46b13da260e3e6b538281fd8aa294b99,O Mal Interior,Movie,https://www.clarotvmais.com.br/filme/o-mal-interior/3119283,0,0,,,,Andrew Getty,98,,,,,Horror,,O Mal Interior,2017,
10596,d16c65f682d829c27cf17f11272e6a48,GENERAL SILVIO CORR√äA DE ANDRADE CONCEDE ENTREVISTA,Movie,http://bcc.cinemateca.org.br/filmes/448264,0,0,,,,,4,,,,,,,GENERAL SILVIO CORR√äA DE ANDRADE CONCEDE ENTREVISTA,1968,
8124,cbaff1ba28ceaa645afffeedae99c4f5,CRISTOV√ÉO TEZZA,Movie,https://arte1play.com.br/colecoes/arte1-comtexto-hYIGaZcIyy4/cristovao-tezza-kamYoXEx3JQ,0,0,,,,Iano Coimbra,27,,,,,,,CRISTOV√ÉO TEZZA,2018,
23886,3b55d7fe5c28ba96385f1c090aa26d6f,Um Tiro no Escuro,Movie,https://globoplay.globo.com/um-tiro-no-escuro/t/fcGNB7m7Ts,0,0,,,,,111,,,,,,,,2022,
14146,6f5757348b13ae511bb18b341447ea0c,PACAEMBU E CONCENTRA√á√ÉO DO SANTOS,Movie,http://bcc.cinemateca.org.br/filmes/444260,0,0,,,,,0,,,,,,,PACAEMBU E CONCENTRA√á√ÉO DO SANTOS,1964,
17337,853318e783f08589219dad340e649e72,"#80: C√≠rculos Viciosos, 472 Casamentos Cubanos | Pina De Casa",Movie,https://cultspplay.com.br/video/80-circulos-viciosos-472-casamentos-cubanos/,0,0,,,,,8,,,,,,,"#80: C√≠rculos Viciosos, 472 Casamentos Cubanos | Pina De Casa",2022,
30211,79b68bd40df0ef9e66427be7872b998f,O Amor Mora ao Lado,Series,https://www.netflix.com/br/title/81739044,1,16,1.0,"Jung Hae-in, Jung So-min, Kim Ji-eun, Yun Ji-on, Park Ji-young, Cho Han-cheul, Jang Young-nam, Lee Seung-joon, Jun Suk-ho, Kim Keum-soon, Han Ye-ju, Lee Seung-hyub, Shim So-young, Shim Ji-yu, Oh Eun-seo, Cho Yeo-joon, Hong Yoon-soo, Bang So-min, Cho Seung-yeon, Yu Hyung-jun",KR,Je Won Yu,60,"korean, ko, en, fr",Love Next Door,Studio Dragon,KR,Comedy,"Tving, The Modori, Studio Dragon, Tvn, Show Runners, Cj Enm",Love Next Door,2024,tt30446769
36564,51e973c4a8567641cf4183774e3624bd,Empate,Movie,https://www.vivoplay.com.br/details/movie/empate-38321338,0,0,,"Assis Monteiro, Gumercindo Rodrigues, Jo√£o Martins, Marlene Mendes, Sab√° Barros, Raimundo Raimund√£o Barros",BR,S√©rgio Carvalho,90,portuguese,Empate,Saci Filmes,BR,Documentary,Saci Filmes,Empate,2019,tt34822428
19298,fd02e070e4f61a6601ea9432850a24df,Sisters in Longing,Movie,https://americas.dafilms.com/film/17240-sisters-in-longing,0,0,,"Anta Engele, Ivars Krasts, Girts Krumins, Zigurds Neimanis, Andis Strods, Kaspars Znotins",LV,Elita Klavina,60,"latvian, russian",Ilguciema Masas,Air Productions,LV,Documentary,Air Productions,Ilguciema Masas,2022,tt33184641
5286,53784b5ec1f8b218d9c687254831f5c0,Religare Queer - Diversidade E F√©,Series,https://app.primevideo.com/detail?gti=amzn1.dv.gti.a101e5f0-d6ec-41b9-967d-95110bf221a9,1,5,1.0,,,,0,,,,,,,,2024,


In [18]:
Base_BB.sample(10)

Unnamed: 0,BB UID,Platform Title,Type,Deeplink,Seasons,Episodes,Season Numbers,BB Cast,BB Countries,BB Directors,BB Duration,BB Languages,BB Original Title,BB Primary Company,BB Primary Country,BB Primary Genre,BB Production Companies,BB Title,BB Year,IMDb ID
11494,33c7afd8c0d4023a5421f7f49c40fd42,FARIA LIMA COM S√çMBOLO QUE ADOTAR√Å PARA O METR√î,Movie,http://bcc.cinemateca.org.br/filmes/447179,0,0,,,,,0,,,,,,,FARIA LIMA COM S√çMBOLO QUE ADOTAR√Å PARA O METR√î,1968,
25293,6971fbeeebc45f95e6b6d0aff0f0c80e,Seal of Saimaa,Movie,https://watch.indieflix.com/videos/seal-of-saimaa,0,0,,"Markus J√§rvenp√§√§, Mikko J√§rvenp√§√§",FI,Mikko J√§rvenp√§√§,34,english,Seal of Saimaa,,FI,Documentary,,Seal of Saimaa,2013,tt8196682
11922,b42f2ea516cf93c86aa75f9756116cca,RACISMO - BAIRRO DO HARLEM,Movie,http://bcc.cinemateca.org.br/filmes/446754,0,0,,,,,0,,,,,,,RACISMO - BAIRRO DO HARLEM,1968,
5364,c159ba38c8b85affa41fafb244bf4b59,70 √© Apenas um N√∫mero,Movie,https://app.primevideo.com/detail?gti=amzn1.dv...,0,0,,"Hannele Lauri, Mikko Nousiainen, Marja Packal√©...","FI, FIN",Johanna Vuoksenmaa,102,"fi, fin, finnish",70 Is Just a Number,Dionysos Films,FI,Comedy,Dionysos Films,70 Is Just a Number,2021,tt13545712
32949,09289fe2874d4675120dd7502d073247,Dora and Friends: Into The City! BR,Series,https://pluto.tv/on-demand/series/dora-and-fri...,2,40,"1, 2",,,,0,,,,,,,Dora e Seus Amigos na Cidade,0,
15683,9260b60217799a8a484d3e63a8a6b622,PARA EL ATARDECER,Movie,https://canela.tv/movie/para-el-atardecer-2024,0,0,,,,,43,,,,,Music,,PARA EL ATARDECER,2024,
39372,cf39aed98395b7301e0e43c9b9c23a49,El Caso Anat Kamm,Movie,https://www.youtube.com/watch?v=DXn2EYP5y7Y,0,0,,,,,91,,,,,,,,2021,
16105,75b6e3625d6d4a867caa819738db7f44,DEUS,Movie,https://www.cinehumbertomauromais.com,0,0,,,FR,"Alexandra Battault, Rebecca Essler",6,,Deus,Ecv,FR,Animation,Ecv,Deus,2017,tt8705686
23163,13c3748e175911246a8ebedb8fe3c6cb,Frankenstein,Movie,https://filmzie.com/content/frankenstein-2023,0,0,,"Daniel Robert Burns, Marc Christopher, Grace H...",US,Joe Lobianco,107,english,Frankenstein,Gatehouse Entertainment,US,Sci-fi,"Write Act Repertory, Tin Mirror Productions, G...",Frankenstein,2023,tt27726863
4847,0254062b3c661570ab9b7f44fa9b3ac1,Starry Eyes no estilo de The Weeknd,Movie,https://app.primevideo.com/detail?gti=amzn1.dv...,0,0,,,,N√£o especificado,2,,,,,,,Starry Eyes no estilo de The Weeknd,2022,


### 2.3) Cria√ß√£o dos dataframes e verifica√ß√£o dos resultados

In [19]:
# Separando a Base_SAD em filmes e s√©ries
filmesBR_SAD = Base_SAD[Base_SAD["Organiza√ß√£o Temporal"] == "N√ÉO SERIADA"]
seriesBR_SAD = Base_SAD[Base_SAD["Organiza√ß√£o Temporal"] != "N√ÉO SERIADA"]


In [20]:
# Separando a Base_BB em filmes e s√©ries, considerando tamb√©m a origem BR ou Estrangeira
filmesBR_BB = Base_BB[(Base_BB['BB Countries'].str.contains("BR")) & (Base_BB['Type'].str.contains("Movie"))]
seriesBR_BB = Base_BB[(Base_BB['BB Countries'].str.contains("BR")) & (Base_BB['Type'].str.contains("Series"))]
filmesEstr_BB = Base_BB[(~Base_BB['BB Countries'].str.contains("BR")) & (Base_BB['Type'].str.contains("Movie"))]
seriesEstr_BB = Base_BB[(~Base_BB['BB Countries'].str.contains("BR")) & (Base_BB['Type'].str.contains("Series"))]

In [21]:
# Imprimindo a quantidade de linhas nos datasets originais
print(f"Quantidade de linhas em Base_SAD: {len(Base_SAD)}")
print(f"Quantidade de linhas em Base_BB: {len(Base_BB)}\n")

# Imprimindo a quantidade de linhas em cada dataframe derivado
print(f"Quantidade de linhas em filmesBR_SAD: {len(filmesBR_SAD)}")
print(f"Quantidade de linhas em seriesBR_SAD: {len(seriesBR_SAD)}")
print(f"Quantidade de linhas em filmesBR_BB: {len(filmesBR_BB)}")
print(f"Quantidade de linhas em seriesBR_BB: {len(seriesBR_BB)}")
print(f"Quantidade de linhas em filmesEstr_BB: {len(filmesEstr_BB)}")
print(f"Quantidade de linhas em seriesEstr_BB: {len(seriesEstr_BB)}")

# Compara√ß√£o entre o input e o output
total_linhas_SAD = len(filmesBR_SAD) + len(seriesBR_SAD)
total_linhas_BB = len(filmesBR_BB) + len(seriesBR_BB) + len(filmesEstr_BB) + len(seriesEstr_BB)

print(f"\nCompara√ß√£o Base_SAD:")
print(f"Total de linhas original: {len(Base_SAD)}")
print(f"Total de linhas ap√≥s divis√£o: {total_linhas_SAD}")
print(f"Diferen√ßa de linhas Base_SAD: {len(Base_SAD) - total_linhas_SAD}")

print(f"\nCompara√ß√£o Base_BB:")
print(f"Total de linhas original: {len(Base_BB)}")
print(f"Total de linhas ap√≥s divis√£o: {total_linhas_BB}")
print(f"Diferen√ßa de linhas Base_BB: {len(Base_BB) - total_linhas_BB}")


Quantidade de linhas em Base_SAD: 59911
Quantidade de linhas em Base_BB: 39417

Quantidade de linhas em filmesBR_SAD: 47791
Quantidade de linhas em seriesBR_SAD: 12120
Quantidade de linhas em filmesBR_BB: 816
Quantidade de linhas em seriesBR_BB: 361
Quantidade de linhas em filmesEstr_BB: 33371
Quantidade de linhas em seriesEstr_BB: 4869

Compara√ß√£o Base_SAD:
Total de linhas original: 59911
Total de linhas ap√≥s divis√£o: 59911
Diferen√ßa de linhas Base_SAD: 0

Compara√ß√£o Base_BB:
Total de linhas original: 39417
Total de linhas ap√≥s divis√£o: 39417
Diferen√ßa de linhas Base_BB: 0


### 2.4) Verifica√ß√£o de t√≠tulos hom√¥nimos

#### Esta verifica√ß√£o n√£o est√° criando nem separando nenhum registro ou dataframe e serve 
#### para simples confer√™ncia podendo ser desconsiderada a dependeder do contexto

In [22]:
Base_SAD.sample(10)

Unnamed: 0,N¬∫ CPB,T√≠tulo Original,T√≠tulo Alternativo,Classifica√ß√£o,G√™nero,Organiza√ß√£o Temporal,Dura√ß√£o Obra,N¬∫ de Epis√≥dios,Ano de Produ√ß√£o,Produtora,Diretor,Pa√≠s de Origem
22011,B1402440400000,AO MAR,,BRASILEIRA INDEPENDENTE CONSTITUINTE DE ESPA√áO...,V√çDEOMUSICAL,N√ÉO SERIADA,8.0,,2014,ALEX ALESSANDRO JENSEN ARARIPE MONTEIRO DA SILVA,ALEX ALESSANDRO JENSEN ARARIPE MONTEIRO DA SILVA,BR
37504,B1900235800000,OS SON√ÇMBULOS,,BRASILEIRA INDEPENDENTE CONSTITUINTE DE ESPA√áO...,FIC√á√ÉO,N√ÉO SERIADA,110.0,,2019,88 ARTE CONTEMPORANEA LTDA | FILMES DO CERRADO...,TIAGO MATA MACHADO AGUIAR,BR
3554,B0500427400000,SEX MACHINE,,COMUM,FIC√á√ÉO,N√ÉO SERIADA,90.0,1.0,2003 A 2003,FALLMS DISTRIBUI√á√ÉO DE FITAS LTDA,LENILDO MAUR√çCIO DA SILVA,BR
22728,B1402851700000,VIDEOCLIPE MIRACLE (BANDA WANNABE JALVA),,BRASILEIRA INDEPENDENTE CONSTITUINTE DE ESPA√áO...,V√çDEOMUSICAL,N√ÉO SERIADA,7.1,,2014,ZEPPELIN PRODU√á√ïES DE CINEMA E TELEVIS√ÉO LTDA.,ANTONIO DE AZEVEDO TORRIANI,BR
57815,B2500115500000,QUILOMBO DE MATA CAVALO - O LEGADO DE UMA NA√á√ÉO,,BRASILEIRA INDEPENDENTE CONSTITUINTE DE ESPA√áO...,DOCUMENT√ÅRIO,N√ÉO SERIADA,17.58,,2025,VCNJ ASSESSORIA E CONSULTORIA,NEIMAR BRUNO ROSKOSKI,BR
23400,B1500189200000,A LINHA E O PASSO,,BRASILEIRA CONSTITUINTE DE ESPA√áO QUALIFICADO,DOCUMENT√ÅRIO,N√ÉO SERIADA,24.13,,2013,SERVICO SOCIAL DO COMERCIO - SESC - ADMINISTRA...,TALITA TODARO SANTOS DE MIRANDA,BR
30309,B1700133300000,AWAKEN,,BRASILEIRA INDEPENDENTE CONSTITUINTE DE ESPA√áO...,ANIMA√á√ÉO,N√ÉO SERIADA,2.83,,2017,EMERSON ALMENDRA GARCIA PEREIRA,EMERSON ALMENDRA GARCIA PEREIRA,BR
17305,B1301826900000,NA MORAL,,COMUM,PROGRAMA DE AUDIT√ìRIO ANCORADO POR APRESENTADOR,SERIADA,280.0,30.0,2012 A 2012,GLOBO COMUNICACAO E PARTICIPACOES S/A,LUIZ GLEISER,BR
19611,B1402073100000,CASA BRASILEIRA - F√âRIAS 2014,,BRASILEIRA CONSTITUINTE DE ESPA√áO QUALIFICADO,VARIEDADES,SERIADA EM M√öLTIPLAS TEMPORADAS,150.0,5.0,2013 A 2013,GLOBOSAT PROGRAMADORA LTDA (BAIXADA),ALBERTO RENAULT DE CERQUEIRA LIMA,BR
56786,B2400512300000,BRASIL TOCA CHORO,,BRASILEIRA CONSTITUINTE DE ESPA√áO QUALIFICADO,DOCUMENT√ÅRIO,N√ÉO SERIADA,51.03,,2024,FUND PE ANCHIETA CENTRO PAULISTA RADIO E TV ED...,MAURICIO DE AGUIAR VALIM,BR


In [23]:
# ================================================================
# 3.1) Verifica√ß√£o de t√≠tulos hom√¥nimos nas bases SAD e BB
# ================================================================

def verificar_homonimos(df, nome_df, col_titulo, col_ano, col_diretor, col_id, col_titulo_alt=None):
    """
    Identifica t√≠tulos hom√¥nimos dentro de uma base,
    considerando t√≠tulo (e opcionalmente t√≠tulo alternativo), ano, diretor e identificadores √∫nicos.
    """
    # Define as colunas de agrupamento dinamicamente
    colunas_grp = [col_titulo, col_ano, col_diretor]
    if col_titulo_alt and col_titulo_alt in df.columns and col_titulo_alt != col_titulo:
        colunas_grp.insert(1, col_titulo_alt)  # insere o alternativo logo ap√≥s o t√≠tulo principal

    # Agrupamento e contagem de identificadores distintos
    repeticoes = (
        df.groupby(colunas_grp)[col_id]
        .nunique()
        .reset_index(name='Qtd_IDs')
    )

    # Filtra apenas casos com mais de um identificador
    repeticoes = repeticoes[repeticoes['Qtd_IDs'] > 1]

    # Exibi√ß√£o formatada
    display(HTML(f"<h4 style='color:#2a5599;'>üé¨ Verifica√ß√£o de hom√¥nimos ‚Äî {nome_df}</h4>"))
    if repeticoes.empty:
        display(HTML("<p style='color:green;'>‚úÖ Nenhum t√≠tulo hom√¥nimo encontrado.</p><hr>"))
    else:
        display(repeticoes.style.set_table_styles([
            {'selector': 'th', 'props': [('background-color', '#f0f0f0'), ('text-align', 'center')]},
            {'selector': 'td', 'props': [('padding', '6px 12px')]}
        ]))
        print(f"\nQuantidade de t√≠tulos hom√¥nimos em {nome_df}: {len(repeticoes)}\n")
        display(HTML("<hr style='margin:25px 0;'>"))


# ================================================================
# Aplica√ß√£o √†s bases
# ================================================================

# --- Filmes e s√©ries brasileiras (SAD)
verificar_homonimos(
    filmesBR_SAD,
    "Filmes Brasileiros (SAD)",
    "T√≠tulo Original",
    "Ano de Produ√ß√£o",
    "Diretor",
    "N¬∫ CPB"
)

verificar_homonimos(
    seriesBR_SAD,
    "S√©ries Brasileiras (SAD)",
    "T√≠tulo Original",
    "Ano de Produ√ß√£o",
    "Diretor",
    "N¬∫ CPB"
)

# --- Filmes e s√©ries brasileiras (BB)
verificar_homonimos(
    filmesBR_BB,
    "Filmes Brasileiros (BB)",
    "Platform Title",
    "BB Year",
    "BB Directors",
    "BB UID",
    col_titulo_alt="BB Original Title"
)

verificar_homonimos(
    seriesBR_BB,
    "S√©ries Brasileiras (BB)",
    "Platform Title",
    "BB Year",
    "BB Directors",
    "BB UID",
    col_titulo_alt="BB Original Title"
)

# --- Filmes e s√©ries estrangeiras (BB)
verificar_homonimos(
    filmesEstr_BB,
    "Filmes Estrangeiros (BB)",
    "Platform Title",
    "BB Year",
    "BB Directors",
    "BB UID",
    col_titulo_alt="BB Original Title"
)

verificar_homonimos(
    seriesEstr_BB,
    "S√©ries Estrangeiras (BB)",
    "Platform Title",
    "BB Year",
    "BB Directors",
    "BB UID",
    col_titulo_alt="BB Original Title"
)


Unnamed: 0,T√≠tulo Original,Ano de Produ√ß√£o,Diretor,Qtd_IDs
939,A CIDADE,2012,LILIANA SULZBACH,2
2766,ABSURDO - ALMA LIVRE FEAT. CELSO MORETTI,2023,ROBERTO MORAES RIBEIRO DE MENDONCA,2
3068,AGENDA,2020,RODRIGO CASTRO FORTE CARDOSO,2
3106,AGORA VAI,2023,"MATHEUS MALAFAIA TEIXEIRA, DANIELA GLEISER",2
3298,ALEGRIA,2006,SERGIO SILVA GOMES,2
3368,ALGOD√ÉO DOCE,2025,"JADSON PLANZO BARBOSA, FILIPE OLIVEIRA SOUZA",2
4429,ANJOS EM A√á√ÉO 2021 - A ESPERAN√áA DE UM NOVO TEMPO,2021,ANTONIO OLIVEIRA TOSTES,2
4998,ARNALDO ANTUNES,2013,BRUNO LEVINSON,2
6188,BALA E FOGO,2024,RAFAEL MACIEL SALGADO CARMO,2
7525,BRASIL DAS GERAIS,2020,MARINA SUELI CUNHA MENDES,2



Quantidade de t√≠tulos hom√¥nimos em Filmes Brasileiros (SAD): 111



Unnamed: 0,T√≠tulo Original,Ano de Produ√ß√£o,Diretor,Qtd_IDs
165,52 PIZZAS,2011 A 2011,JOSE EDUARDO NICOLAU,2
409,A MULHER INVIS√çVEL,2011 A 2011,MIGUEL ARRAES DE ALENCAR FILHO,2
684,AGROCULTURA,2021 A 2021,CEZAR AUGUSTO FREIRE DA SILVA,2
1013,AO PONTO - INFORMA√á√ÉO DO JEITO QUE VOC√ä GOSTA,2005 A 2005,S√âRGIO MORAES CASTANHEIRA BRAND√ÉO,2
1126,ARTE CONTEMPOR√ÇNEA - 2A. TEMPORADA,2017 A 2017,FABRICIO RAYMUNDO TIMM,2
2145,CARNAVAL SEXPRIVE,2020 A 2020,FABIO COSTA MORAES,2
2510,CINEMAT√ìGRAFO,2018 A 2018,JOHANES,2
2593,CNN VIAGEM & GASTRONOMIA,2022 A 2022,BRUNO TEIXEIRA CHIARIONI,2
2676,COM FOME DE VIAGEM,2023 A 2023,ALEXANDRO DE ALMEIDA FERREIRA,2
2827,CONHECENDO O BRASIL,2017 A 2017,DEBORAH CAROLINE CEARAMICOLI BARBOSA SILVESTRE,2



Quantidade de t√≠tulos hom√¥nimos em S√©ries Brasileiras (SAD): 68



Unnamed: 0,Platform Title,BB Original Title,BB Year,BB Directors,Qtd_IDs
539,O cl√£ das jiboias: o Jiu-Jitsu da Amaz√¥nia para o mundo,O Cl√£ das Jiboias: O Jiu-Jitsu da Amaz√¥nia para o Mundo,2023,Heraldo Daniel Moraes,2



Quantidade de t√≠tulos hom√¥nimos em Filmes Brasileiros (BB): 1



Unnamed: 0,Platform Title,BB Original Title,BB Year,BB Directors,Qtd_IDs
3779,Assassinos,,1997,Mathieu Kassovitz,2
7789,Consequ√™ncias,,2023,,2
8782,DOPS: Uma Arqueologia da Viol√™ncia,,2024,Sanzio Canfora,2
10200,"ESG - Quem se importa, ganha",,2023,"Luciano Oreggia,Pedro Saad",2
11023,Erup√ß√£o de Tubar√µes,,2024,,2
11085,Especial Roberto Carlos 2014,,2014,Luiz Gleiser,2
12997,Gilberto Gil: A God In His Garden,,2020,Angel Diez,2
13888,Hitler vs. Picasso - A Obsess√£o Nazista pela Arte,,2018,Claudio Poli,2
15671,Jessie J Plays Baloise Sessions,,2023,Roli B√§rlocher,2
16154,Kids' Choice Awards 2025,,2025,,2



Quantidade de t√≠tulos hom√¥nimos em Filmes Estrangeiros (BB): 27



Unnamed: 0,Platform Title,BB Original Title,BB Year,BB Directors,Qtd_IDs
172,A Reforma de Lindsey,Inn the Works,2021,,2
686,Botched: Pesadelo na Bari√°trica,Botched Bariatrics,2024,,2
1571,Em Busca da Casa Perfeita,,2021,,2
1994,Harry Potter: Bruxos da Confeitaria,Harry Potter: Wizards of Baking,2024,,2
2185,Invas√£o a Paris,,2024,Hans Herbots,2
2212,JA 1¬™,,0,,2
2686,Meet the Queens of Drag Race Philippines: Slaysian Royale,,2025,,2
3039,O Caso Sherri Papini,,2025,,2
3573,Publio: O Sequestro Sem Fim,Publio. El secuestro sin fin,2024,F√®lix Colomer Vall√®s,2
3793,Rubiales vs Hermoso: O Beijo da Copa do Mundo,,2025,,2



Quantidade de t√≠tulos hom√¥nimos em S√©ries Estrangeiras (BB): 10



## 3) Processamento para uniformiza√ß√£o de campos de texto e num√©ricos

### 3.1) Defini√ß√£o das fun√ß√µes de processamento

In [24]:
# Cria√ß√£o de c√≥pias limpas dos DataFrames
filmesBR_SAD_limpo = filmesBR_SAD.copy()
seriesBR_SAD_limpo = seriesBR_SAD.copy()

filmesBR_BB_limpo = filmesBR_BB.copy()
seriesBR_BB_limpo = seriesBR_BB.copy()

filmesEstr_BB_limpo = filmesEstr_BB.copy()
seriesEstr_BB_limpo = seriesEstr_BB.copy()


In [25]:
# Fun√ß√£o para transformar numerais romanos para ar√°bicos
def roman_to_arabic(roman):
    roman_numerals = {
        'i': 1,
        'ii': 2,
        'iii': 3,
        'iv': 4,
        'v': 5,
        'vi': 6,
        'vii': 7,
        'viii': 8,
        'ix': 9,
        'x': 10
    }
    
    return roman_numerals.get(roman.lower(), None)

In [26]:
def _colapsar_sigla_pontilhada(s):
    if not isinstance(s, str):
        return s
    # casa sequ√™ncias de letra+ponto repetidas (2+ letras), opcional letra final e ponto
    # exemplos cobertos: "L.A.P.A.", "U.S.A", "F.B.I.", "L. A. P. A."
    return re.sub(r'(?i)(?:\b[a-z]\s*\.){2,}[a-z]?\s*\.?', 
                  lambda m: re.sub(r'[\s\.]', '', m.group(0)), 
                  s)

In [27]:
def nonempty_str(series_or_str):
    s = pd.Series(series_or_str) if not isinstance(series_or_str, pd.Series) else series_or_str
    s = s.astype(str).str.strip()
    return s.notna() & s.ne('') & s.str.lower().ne('nan') & s.str.lower().ne('none')

In [28]:
# Fun√ß√£o para realizar as transforma√ß√µes de strings
def process_string3(s):
    if not isinstance(s, str):  # Se n√£o for uma string, retorne como est√°
        return s
    
    # Corrigir espa√ßamento antes e depois de v√≠rgulas
    s = re.sub(r'\s*,\s*', ', ', s)
    s = s.lower().strip()  # Converter texto para min√∫sculo e remover espa√ßos no come√ßo/fim
    
    # Remover caracteres n√£o latinos (Chineses por exemplo)
    s = re.sub(r'[^\u0000-\u024F\u1E00-\u1EFF]+', '', s)
    
    # Remover refer√™ncias de temporadas
    patterns = [
    r'(\s*-?\s*season\s*\d+)$',
    r'(\s*-?\s*\d+\s*[¬∫¬™¬∞]?\s*temporada)$',
    r'(\s*-?\s*\d+[a¬™]?\s*temp)$',
    r'(\s*-?\s*\d+rd\s*season)$',
    r'(\s*-?\s*\d+th\s*season)$',
    r'(\s*-?\s*(primeira|segunda|terceira|quarta|quinta|sexta|s√©tima|oitava|nona|d√©cima)\s*temporada)$',
    ]
    for pattern in patterns:
        s = re.sub(pattern, '', s, flags=re.IGNORECASE)
    
    
    # Converter numerais romanos para ar√°bicos
    words = s.split()
    for i, word in enumerate(words):
        if word in ['i', 'ii', 'iii', 'iv', 'v', 'vi', 'vii', 'viii', 'ix', 'x']:
            words[i] = str(roman_to_arabic(word))
    s = ' '.join(words)
    
    # Substituir ¬∞ por o antes de remover acentos
    s = s.replace('¬∞', 'o')
    s = s.replace('¬∞', 'o')
    s = s.replace('¬™', 'a')

    # COLAPSAR SIGLAS PONTILHADAS ANTES DE REMOVER PONTUA√á√ÉO
    s = _colapsar_sigla_pontilhada(s)
    
    # Transformar caracteres de pontua√ß√£o em espa√ßos
    for char in string.punctuation:
        s = s.replace(char, ' ')
    
    # Converter caracteres acentuados para sua vers√£o sem acentua√ß√£o
    s = unidecode.unidecode(s)
    
    # Remover palavras comuns
    common_words = ['o', 'a', 'os', 'as', 'um', 'uma', 'do', 'da', 'dos', 'das', 'e', 'the']
    s = ' '.join([word for word in s.split() if word not in common_words])
    
    # Remover espa√ßos excessivos
    s = re.sub(' +', ' ', s)   
    

    
    return s




In [29]:
def remove_palavras_espec√≠ficas2(s):
    """
    Remove m√∫ltiplas siglas empresariais no final do nome da produtora.
    Exemplos:
      - 'LTDA - ME'
      - 'EIRELI - ME'
      - 'LTDA. - ME - BAIXADO'
    """
    if not isinstance(s, str):
        return s

    s = " " + s.strip() + " "

    # Padroniza pontua√ß√£o comum
    s = re.sub(r'[\.\-‚Äì]+', ' ', s)

    # Lista ampliada de siglas empresariais comuns
    palavras_especificas = [
        's', 'me', 'ltd', 'ltda', 'inc', 'sa', 'eireli', 'mei', 'corp', 'epp', 'ei'
    ]

    # Remove todas as ocorr√™ncias dessas siglas no final (pode haver mais de uma)
    while True:
        s_antigo = s
        for palavra in palavras_especificas:
            s = re.sub(rf'\s{palavra}\s*$', ' ', s, flags=re.IGNORECASE)
        if s == s_antigo:
            break

    return s.strip()

In [30]:
#  Remover CPFs ou blocos num√©ricos no in√≠cio

def remove_cpf_inicio(s):
    """
    Remove CPF ou blocos num√©ricos no in√≠cio da string.
    Casos tratados:
      - '123456789 Nome'
      - '123.456.789 Nome'
    """
    if not isinstance(s, str):
        return s

    s = s.strip()

    # Caso 1: primeiros 9 caracteres s√£o todos d√≠gitos + espa√ßo
    if re.match(r'^\d{9}\s', s):
        return s[10:].strip()

    # Caso 2: padr√£o CPF formatado com pontos ‚Äî 11 d√≠gitos no formato XXX.XXX.XXX
    s = re.sub(r'^\d{3}\.\d{3}\.\d{3}\s+', '', s)

    return s.strip()


In [31]:
#  Remover CPFs ou blocos num√©ricos no final

def remove_cpf_fim(s):
    """
    Remove CPF no FINAL do texto da produtora.
    Casos tratados:
      - '... 123456789'
      - '... 123.456.789'
      - '... - 123456789' / '... - 123.456.789'
      - '... (123456789)' / '... (123.456.789)'
    N√£o altera outros n√∫meros, pois exige exatamente 9 d√≠gitos (com ou sem pontos).
    """
    if not isinstance(s, str):
        return s

    s = s.strip()

    # remove bloco final: [opcional ' - ' ou par√™nteses] + (XXX.XXX.XXX | XXXXXXXXX) + final de string
    s = re.sub(r'[\s\-\‚Äì\(\)]*(?:\d{3}\.\d{3}\.\d{3}|\d{9})\s*$', '', s, flags=re.IGNORECASE)

    return s.strip()


In [32]:
# Fun√ß√£o para transformar o campo de texto do ano de produ√ß√£o em dois campos numericos: Ano inicial e Ano final
def extract_ano_inicial(year_value):
    # Converter o valor para string
    year_string = str(year_value)
    
    # Se 'A' estiver presente, extraia o ano antes do 'A'
    if 'A' in year_string:
        return int(year_string.split(' A ')[0])
    # Se for apenas um ano, retorne esse ano
    elif year_string.isdigit():
        return int(year_string)
    else:
        return None

def extract_ano_final(year_value):
    # Converter o valor para string
    year_string = str(year_value)
    
    # Se 'A' estiver presente, extraia o ano ap√≥s o 'A'
    if 'A' in year_string:
        return int(year_string.split(' A ')[1])
    # Se for apenas um ano, retorne esse mesmo ano
    elif year_string.isdigit():
        return int(year_string)
    else:
        return None

In [33]:
def remove_last_baixada(s):
    """
    Remove ocorr√™ncias de 'baixado' ou 'baixada' (com h√≠fen, espa√ßo ou par√™nteses).
    Exemplos tratados:
      - '(BAIXADA)'
      - '- BAIXADO'
      - '- BAIXADA'
      - '(BAIXADO)'
    """
    if not isinstance(s, str):
        return s

    s = s.strip()

    # Remove qualquer ocorr√™ncia no final, com ou sem par√™nteses ou h√≠fen
    pattern = r'[\s\-\(]*(baixad[ao])[\s\)]*$'
    return re.sub(pattern, '', s, flags=re.IGNORECASE).strip()


In [34]:
particles_pt = {'da','de','do','das','dos'}

def _normalize_name_basic(s: str) -> str:
    s = '' if pd.isna(s) else str(s).strip().lower()
    s = unidecode.unidecode(s)
    s = re.sub(r'[^\w\s]', ' ', s)
    s = re.sub(r'\s+', ' ', s).strip()
    return s

def surnames_from_raw(raw: str) -> set:
    """
    Divide por V√çRGULA, normaliza cada nome e extrai o sobrenome 'de verdade':
    - √∫ltimo token; se pen√∫ltimo ‚àà {da,de,do,das,dos}, pega 'pen√∫ltimo + √∫ltimo' (ex.: 'da silva').
    """
    if pd.isna(raw) or not str(raw).strip():
        return set()
    out = set()
    for p in str(raw).split(','):
        n = _normalize_name_basic(p)
        if not n:
            continue
        toks = n.split()
        if not toks:
            continue
        # '... da silva' -> 'da silva'
        if len(toks) >= 2 and toks[-2] in particles_pt:
            out.add(toks[-2] + ' ' + toks[-1])
        else:
            out.add(toks[-1])
    return out

def tokens_empresas(s: str) -> set:
    """
    Usa campos *_processado (j√° sem ltda, me, etc.) e quebra em tokens distintivos.
    """
    if pd.isna(s) or not str(s).strip():
        return set()
    t = str(s).strip().split()
    return set([w for w in t if len(w) > 2])  # ignora tokens 1‚Äì2 letras

### 3.2) Aplica√ß√£o das Fun√ß√µes para uniformiza√ß√£o de campos textuais

In [35]:
# ===================================================================================
# 3.2 Aplica√ß√£o das Fun√ß√µes para uniformiza√ß√£o de campos textuais
# ===================================================================================

# ================================================
# Bases SAD
# ================================================
for df in [filmesBR_SAD_limpo, seriesBR_SAD_limpo]:
    
    # --- Normaliza√ß√£o base (acentos, pontua√ß√£o, caixa etc.)
    df['T√≠tulo Original_processado'] = df['T√≠tulo Original'].apply(process_string3)
    df['Diretor_processado']         = df['Diretor'].apply(process_string3)
    df['Produtora_processada']       = df['Produtora'].apply(process_string3)
    
    # --- Remo√ß√£o de CPF no in√≠cio e no final das strings
    df['Produtora_processada'] = df['Produtora_processada'].apply(remove_cpf_inicio)
    df['Produtora_processada'] = df['Produtora_processada'].apply(remove_cpf_fim)
    
    # --- Remo√ß√£o de indica√ß√µes de "baixado(a)" em diferentes formatos
    df['Produtora_processada'] = df['Produtora_processada'].apply(remove_last_baixada)
    df['Diretor_processado']   = df['Diretor_processado'].apply(remove_last_baixada)
    
    # --- Remo√ß√£o de siglas empresariais (LTDA, ME, EIRELI etc.)
    df['Produtora_processada'] = df['Produtora_processada'].apply(remove_palavras_espec√≠ficas2)


# ================================================
# Bases BB_BR
# ================================================
for df in [filmesBR_BB_limpo, seriesBR_BB_limpo]:
    
    # --- Normaliza√ß√£o base
    df['Platform Title_processado']          = df['Platform Title'].apply(process_string3)
    df['BB Original Title_processado']       = df['BB Original Title'].apply(process_string3)
    df['BB Primary Company_processado']      = df['BB Primary Company'].apply(process_string3)
    df['BB Production Companies_processado'] = df['BB Production Companies'].apply(process_string3)
    df['BB Directors_processado']            = df['BB Directors'].apply(process_string3)
    df['BB Title_processado']                = df['BB Title'].apply(process_string3)
    
    # --- Remo√ß√£o de CPF no in√≠cio e no final das strings (para produtoras)
    df['BB Production Companies_processado'] = df['BB Production Companies_processado'].apply(remove_cpf_inicio)
    df['BB Production Companies_processado'] = df['BB Production Companies_processado'].apply(remove_cpf_fim)
    df['BB Primary Company_processado']      = df['BB Primary Company_processado'].apply(remove_cpf_inicio)
    df['BB Primary Company_processado']      = df['BB Primary Company_processado'].apply(remove_cpf_fim)
    
    # --- Remo√ß√£o de "baixado(a)" e variantes
    df['BB Production Companies_processado'] = df['BB Production Companies_processado'].apply(remove_last_baixada)
    df['BB Primary Company_processado']      = df['BB Primary Company_processado'].apply(remove_last_baixada)
    
    # --- Remo√ß√£o de siglas empresariais (LTDA, ME, EIRELI etc.)
    df['BB Production Companies_processado'] = df['BB Production Companies_processado'].apply(remove_palavras_espec√≠ficas2)
    df['BB Primary Company_processado']      = df['BB Primary Company_processado'].apply(remove_palavras_espec√≠ficas2)


# ================================================
# Bases BB_estrangeiras
# ================================================

for df in [filmesEstr_BB_limpo, seriesEstr_BB_limpo]:
    # 1) Normaliza√ß√£o base
    df['Platform Title_processado']          = df['Platform Title'].apply(process_string3)
    df['BB Original Title_processado']       = df['BB Original Title'].apply(process_string3)
    df['BB Primary Company_processado']      = df['BB Primary Company'].apply(process_string3)
    df['BB Production Companies_processado'] = df['BB Production Companies'].apply(process_string3)
    df['BB Directors_processado']            = df['BB Directors'].apply(process_string3)
    df['BB Title_processado']                = df['BB Title'].apply(process_string3)

    # 2) Remo√ß√£o de CPF no in√≠cio e no fim (produtoras)
    df['BB Production Companies_processado'] = df['BB Production Companies_processado'].apply(remove_cpf_inicio).apply(remove_cpf_fim)
    df['BB Primary Company_processado']      = df['BB Primary Company_processado'].apply(remove_cpf_inicio).apply(remove_cpf_fim)

    # 3) Remo√ß√£o de ‚Äúbaixado/baixada‚Äù
    df['BB Production Companies_processado'] = df['BB Production Companies_processado'].apply(remove_last_baixada)
    df['BB Primary Company_processado']      = df['BB Primary Company_processado'].apply(remove_last_baixada)

    # 4) Remo√ß√£o de siglas empresariais
    df['BB Production Companies_processado'] = df['BB Production Companies_processado'].apply(remove_palavras_espec√≠ficas2)
    df['BB Primary Company_processado']      = df['BB Primary Company_processado'].apply(remove_palavras_espec√≠ficas2)



In [36]:
# ===================================================================================
# 3.3 Amostras das bases processadas
# ===================================================================================

def mostrar_amostra(df, titulo):
    display(HTML(f"<h4 style='color:#006699;'>{titulo}</h4>"))
    display(df.sample(5).style.set_table_attributes("style='display:inline'").set_caption(titulo))
    display(HTML("<hr style='margin:25px 0;'>"))

# Exibir amostras
mostrar_amostra(filmesBR_SAD_limpo, "üé¨ Filmes Brasileiros (SAD)")
mostrar_amostra(seriesBR_SAD_limpo, "üì∫ S√©ries Brasileiras (SAD)")
mostrar_amostra(filmesBR_BB_limpo, "üéûÔ∏è Filmes Brasileiros (BB)")
mostrar_amostra(seriesBR_BB_limpo, "üì° S√©ries Brasileiras (BB)")
mostrar_amostra(filmesEstr_BB_limpo, "üåç Filmes Estrangeiros (BB)")
mostrar_amostra(seriesEstr_BB_limpo, "üåç S√©ries Estrangeiras (BB)")



Unnamed: 0,N¬∫ CPB,T√≠tulo Original,T√≠tulo Alternativo,Classifica√ß√£o,G√™nero,Organiza√ß√£o Temporal,Dura√ß√£o Obra,N¬∫ de Epis√≥dios,Ano de Produ√ß√£o,Produtora,Diretor,Pa√≠s de Origem,T√≠tulo Original_processado,Diretor_processado,Produtora_processada
31184,B1700289700000,RAMO,,BRASILEIRA INDEPENDENTE CONSTITUINTE DE ESPA√áO QUALIFICADO,DOCUMENT√ÅRIO,N√ÉO SERIADA,74.0,,2016,JACAR√â PRODU√á√ïES CINEMATOGR√ÅFICAS LTDA,"RAFAEL DE AMORIM ALBUQUERQUE, PEDRO FONSECA DE ANDRADE, JOAO LUCAS MELO DE MEDEIROS, HUGO CARNEIRO COUTINHO",BR,ramo,rafael de amorim albuquerque pedro fonseca de andrade joao lucas melo de medeiros hugo carneiro coutinho,jacare producoes cinematograficas
12940,B1101383300000,GASTRECTOMIA ASS√âTICA,,BRASILEIRA INDEPENDENTE CONSTITUINTE DE ESPA√áO QUALIFICADO,DOCUMENT√ÅRIO,N√ÉO SERIADA,18.0,,1948,INCE - INSTITUTO NACIONAL DE CINEMA EDUCATIVO,ORLANDO BAIOCCHI,BR,gastrectomia assetica,orlando baiocchi,ince instituto nacional de cinema educativo
23963,B1500344800000,CAMPO GRANDE,,BRASILEIRA INDEPENDENTE CONSTITUINTE DE ESPA√áO QUALIFICADO,FIC√á√ÉO,N√ÉO SERIADA,105.0,,2015,CANAL BRAZIL S/A | GLORIA FILMS | MAROLA PRODUCOES CINEMATOGRAFICAS LTDA - ME | TAMBELLINI FILMES E PRODU√á√ïES AUDIOVISUAIS LTDA,SANDRA KOGUT,"BR, FR",campo grande,sandra kogut,canal brazil s gloria films marola producoes cinematograficas ltda me tambellini filmes producoes audiovisuais
59303,B2500313100000,AS SESS√ïES,,COMUM,FIC√á√ÉO,N√ÉO SERIADA,64.3,,2025,SPOOK SHOW PRODUCOES LTDA,CAMILA DE OLIVEIRA SEVERO,BR,sessoes,camila de oliveira severo,spook show producoes
22617,B1402798100000,PAISAGEM CARIOCA - VISTA DO MORRO,,BRASILEIRA INDEPENDENTE CONSTITUINTE DE ESPA√áO QUALIFICADO,DOCUMENT√ÅRIO,N√ÉO SERIADA,52.1,,2013,URBANO PRODU√á√ïES & EVENTOS LTDA,MARCO ANTONIO CAMPOS PEREIRA,BR,paisagem carioca vista morro,marco antonio campos pereira,urbano producoes eventos


Unnamed: 0,N¬∫ CPB,T√≠tulo Original,T√≠tulo Alternativo,Classifica√ß√£o,G√™nero,Organiza√ß√£o Temporal,Dura√ß√£o Obra,N¬∫ de Epis√≥dios,Ano de Produ√ß√£o,Produtora,Diretor,Pa√≠s de Origem,T√≠tulo Original_processado,Diretor_processado,Produtora_processada
59589,B2500359900000,THE TOWN 2025,,BRASILEIRA CONSTITUINTE DE ESPA√áO QUALIFICADO,V√çDEOMUSICAL,SERIADA EM TEMPORADA √öNICA,4500.0,75.0,2025 A 2025,GLOBO COMUNICACAO E PARTICIPACOES S/A,TATIANA BRANCAGLION CORREA DA COSTA,BR,town 2025,tatiana brancaglion correa costa,globo comunicacao participacoes
50649,B2300212100000,FIGHT CLASSICS,,BRASILEIRA INDEPENDENTE CONSTITUINTE DE ESPA√áO QUALIFICADO,VARIEDADES,SERIADA EM M√öLTIPLAS TEMPORADAS,167.83,15.0,2023 A 2023,GLOBO COMUNICA√á√ÉO E PARTICIPA√á√ïES S/A | MS PRODUCOES EIRELI - ME,"JOSE JOAQUIM FERRAO MONTEIRO SOARES, JOSE CANDIDO FERRAO MONTEIRO SOARES",BR,fight classics,jose joaquim ferrao monteiro soares jose candido ferrao monteiro soares,globo comunicacao participacoes s ms producoes
27086,B1600249600000,GARAGEM HOT ROD,,BRASILEIRA INDEPENDENTE CONSTITUINTE DE ESPA√áO QUALIFICADO,DOCUMENT√ÅRIO,SERIADA EM TEMPORADA √öNICA,376.0,8.0,2015 A 2015,DISCOVERY LATIN MAERICA LLC | RADAR CINEMA E TELEVIS√ÉO LTDA,"RODRIGO ADOLFO VEIRANO ASTIZ, DANIEL JOSE RIBEIRO BILLIO","US, BR",garagem hot rod,rodrigo adolfo veirano astiz daniel jose ribeiro billio,discovery latin maerica llc radar cinema televisao
12765,B1101365400000,O BA√ö DA HIST√ìRIA,,BRASILEIRA CONSTITUINTE DE ESPA√áO QUALIFICADO,DOCUMENT√ÅRIO,SERIADA,135.0,3.0,2011 A 2011,WGV PRODU√á√ïES ART√çSTICAS LTDA.,WILSON GOMES VICENTINI,BR,bau historia,wilson gomes vicentini,wgv producoes artisticas
23834,B1500296200000,CENA LONDRES - 2¬™ TEMPORADA,,BRASILEIRA CONSTITUINTE DE ESPA√áO QUALIFICADO,V√çDEOMUSICAL,SERIADA EM M√öLTIPLAS TEMPORADAS,338.0,13.0,2015 A 2015,GLOBOSAT PROGRAMADORA LTDA (BAIXADA),MARCIA DOS SANTOS LEITE,BR,cena londres,marcia santos leite,globosat programadora


Unnamed: 0,BB UID,Platform Title,Type,Deeplink,Seasons,Episodes,Season Numbers,BB Cast,BB Countries,BB Directors,BB Duration,BB Languages,BB Original Title,BB Primary Company,BB Primary Country,BB Primary Genre,BB Production Companies,BB Title,BB Year,IMDb ID,Platform Title_processado,BB Original Title_processado,BB Primary Company_processado,BB Production Companies_processado,BB Directors_processado,BB Title_processado
16603,1a252f6884787be3815b1e1b2ab82f11,Retrato de Dora,Movie,https://www.clarotvmais.com.br/filme/retrato-de-dora/1456776,0,0,,,BR,Bruna Callegari,15,portuguese,Retrato de Dora,Espa√ßo L√≠quido Audiovisual,BR,Documentary,Espa√ßo L√≠quido Audiovisual,Retrato de Dora,2014,tt36274552,retrato de dora,retrato de dora,espaco liquido audiovisual,espaco liquido audiovisual,bruna callegari,retrato de dora
3432,842e5c841d0bbec221c932a5f1561104,Dolores Duran - O Cora√ß√£o da Noite,Movie,https://app.primevideo.com/detail?gti=amzn1.dv.gti.9d36f4e6-4472-4957-a59a-e386eed5205a,0,0,,"Dolores Duran, B√°rbara Sut, Denise Duran, Rodrigo Faour, Jurema Werneck, Maria Fernanda, Haroldo Costa, Izzy Gordon, Jo√£o Donato, Elo√° Dias, Nonato Pinheiro",BR,"Igor Miguel, Juliana Barauna",67,pt,Dolores Duran: O Cora√ß√£o da Noite,,BR,Documentary,,Dolores Duran: O Cora√ß√£o da Noite,2023,,dolores duran coracao noite,dolores duran coracao noite,,,igor miguel juliana barauna,dolores duran coracao noite
22031,47b63d4785dd90e56487ded755c4ba28,Breve Hist√≥ria do Planeta Verde,Movie,https://assista.filmicca.com.br/watch/80934f55-53e6-4fbe-a9ee-4421f767e5bc,0,0,,"Romina Escobar, Paula Grinszpan, Luis Sod√°, Elvira Onetto, Anabella Bacigalupo, L√©o Kildare Louback, Pablo Cura","ES, AR, ARG, BR, DE",Santiago Loza,75,"es, spanish",Brief Story from the Green Planet,Zentropa,AR,Sci-fi,"Anavilhana Filmes, Zentropa, Constanza Sanz Palacios Films, Zentropa International Spain, Autentika Films",Brief Story from the Green Planet,2019,tt9648372,breve historia planeta verde,brief story from green planet,zentropa,anavilhana filmes zentropa constanza sanz palacios films zentropa international spain autentika films,santiago loza,brief story from green planet
25822,dc70a326b32c6839f4a9de398cb929a0,Samb√¥: Esta√ß√£o Samb√¥,Movie,https://tv.apple.com/br/movie/sambo-estacao-sambo/umc.cmc.1ygef6irvfawhqs0qbnsrzu2y,0,0,,"Sudu Lisi, Ricardo Gama, Daniel Sam, J√∫lio Rafael",BR,Ricardo Michaelis,106,portuguese,Esta√ß√£o Samb√¥: Ao Vivo,Som Livre,BR,Music,Som Livre,Esta√ß√£o Samb√¥: Ao Vivo,2012,tt5490420,sambo estacao sambo,estacao sambo ao vivo,som livre,som livre,ricardo michaelis,estacao sambo ao vivo
33915,90208bdd3a4fc2fa05087d78a888854e,Sal√£o de Baile: This Is Ballroom,Movie,https://www.skymais.com.br/home/pdp/vod/9a4ff3a5-afd1-4af2-bd37-663697c669d2,0,0,,,BR,,94,,,,BR,Documentary,,Sal√£o de Baile: This Is Ballroom,2024,,salao de baile this is ballroom,,,,,salao de baile this is ballroom


Unnamed: 0,BB UID,Platform Title,Type,Deeplink,Seasons,Episodes,Season Numbers,BB Cast,BB Countries,BB Directors,BB Duration,BB Languages,BB Original Title,BB Primary Company,BB Primary Country,BB Primary Genre,BB Production Companies,BB Title,BB Year,IMDb ID,Platform Title_processado,BB Original Title_processado,BB Primary Company_processado,BB Production Companies_processado,BB Directors_processado,BB Title_processado
3870,6868e04967484e3a91a5f431a7ff820c,Cole√ß√£o Compreender Kardec,Series,https://app.primevideo.com/detail?gti=amzn1.dv.gti.b4b9b253-469b-8d73-3bfe-10b68ba684cc,2,54,"1, 2",,BR,"Antonio Coelho Filho, Lilian Ramos Massi",0,pt,Compreender Kardec,Nobilt√° Produtora,BR,Documentary,Nobilt√° Produtora,Compreender Kardec,2013,,colecao compreender kardec,compreender kardec,nobilta produtora,nobilta produtora,antonio coelho filho lilian ramos massi,compreender kardec
23549,4107aa448104c8989cb42c04e7cba3f2,Vidas Roubadas - A Saga de Isabella,Series,https://globoplay.globo.com/vidas-roubadas-a-saga-de-isabella/t/Rf9kHVQXv6,1,5,1,,BR,,60,pt,,,BR,Documentary,,Vidas Roubadas - A Saga de Isabella,2024,,vidas roubadas saga de isabella,,,,,vidas roubadas saga de isabella
33408,4de8302174aebfed3610876b3ccebe79,Veja o Gordo,Series,https://mais.sbt.com.br/program/6349749014112,2,19,"1, 2","J√¥ Soares, Alexandre R√©gis, Eliezer Motta, Carlos Capeletti, Consuelo Leandro, Alice de Carli, Paulo Celestino Filho, Bia Nunnes, Maria Cristina Nunes, Marlene Silva, Magda Cotrofe, Nina de P√°dua, Paulo Hesse, Jo√£o Jos√© Pompeo, Suzy Arruda, Andreia Fetter, Murilo Amorim Correia",BR,,0,portuguese,Veja o Gordo,,BR,Comedy,,Veja o Gordo,1988,tt25041754,veja gordo,veja gordo,,,,veja gordo
4580,26fdaed99ca589594d52b6215a603f03,90 Dias Para Casar ‚Äì Seguindo Tania e Syngin,Series,https://app.primevideo.com/detail?gti=amzn1.dv.gti.dc25632c-d74c-4d11-a9cc-fe6ada82ce8b,1,11,1,,BR,,0,,90 Dias Para Casar: Seguindo Tania e Syngin,,BR,,,90 Dias Para Casar: Seguindo Tania e Syngin,2022,,90 dias para casar seguindo tania syngin,90 dias para casar seguindo tania syngin,,,,90 dias para casar seguindo tania syngin
1550,edb616c781b120444956170b8208f516,Body By Beth,Series,https://app.primevideo.com/detail?gti=amzn1.dv.gti.30a16b91-36d5-4a62-a94f-164ec5216330,1,10,1,"Pablo P√™gas, Marisa Orth, Victor Lamoglia, Guilherme Weber, Paulo C√©sar Grande, Gillray Coutinho, Diogo Vilela, Ana Hikari, Ver√¥nica Debom, Gabriela Loran",BR,"Alice Demier, Gigi Soares",26,"portuguese, pt",Body by Beth,Migdal Filmes,BR,Comedy,Migdal Filmes,Body by Beth,2024,tt29084153,body by beth,body by beth,migdal filmes,migdal filmes,alice demier gigi soares,body by beth


Unnamed: 0,BB UID,Platform Title,Type,Deeplink,Seasons,Episodes,Season Numbers,BB Cast,BB Countries,BB Directors,BB Duration,BB Languages,BB Original Title,BB Primary Company,BB Primary Country,BB Primary Genre,BB Production Companies,BB Title,BB Year,IMDb ID,Platform Title_processado,BB Original Title_processado,BB Primary Company_processado,BB Production Companies_processado,BB Directors_processado,BB Title_processado
38306,f9cfccdbd913e1753eec49c101299c91,O Brasil Visto do Alto,Movie,https://www.vivoplay.com.br/details/movie/o-brasil-visto-do-alto-34915601,0,0,,,,,52,,,,,Documentary,,O Brasil Visto do Alto,0,,brasil visto alto,,,,,brasil visto alto
23377,1d66afcdbef39b36cf4cb1a61956b37e,Night Into Day,Movie,https://filmzie.com/content/night-into-day-2020,0,0,,"Justin Gaston, Telvin Griffin, Ray Corasani, Christopher Mychael Watson, April Gooding, Jessica Renee Russell",US,Ben Hall,78,en,Night Into Day,Marianna Motion Pictures,US,Thriller,Marianna Motion Pictures,Night Into Day,2020,tt8433786,night into day,night into day,marianna motion pictures,marianna motion pictures,ben hall,night into day
17369,da331a04a0683fdb342f4c49c46d518a,C√©u De Lamparina | Virada Sp Online ‚Äì S√£o Luiz Do Paraitinga,Movie,https://cultspplay.com.br/video/ceu-de-lamparina/,0,0,,,,,35,,,,,,,,2022,,ceu de lamparina virada sp online sao luiz paraitinga,,,,,
27197,c6886abb59e8701369489313f6a24b28,Platformism and Especifismo | Anarchist praxis | Libertar...,Movie,https://means.tv/programs/anark_platformism-especifismo,0,0,,,,,0,,,,,,,Platformism and Especifismo | Anarchist praxis | Libertar...,0,,platformism and especifismo anarchist praxis libertar,,,,,platformism and especifismo anarchist praxis libertar
10506,340571477d53616432070e04d6669a17,PLEN√ÅRIO COM DELEGADOS DA ONU,Movie,http://bcc.cinemateca.org.br/filmes/448360,0,0,,,,,55,,,,,,,PLEN√ÅRIO COM DELEGADOS DA ONU,1968,,plenario com delegados onu,,,,,plenario com delegados onu


Unnamed: 0,BB UID,Platform Title,Type,Deeplink,Seasons,Episodes,Season Numbers,BB Cast,BB Countries,BB Directors,BB Duration,BB Languages,BB Original Title,BB Primary Company,BB Primary Country,BB Primary Genre,BB Production Companies,BB Title,BB Year,IMDb ID,Platform Title_processado,BB Original Title_processado,BB Primary Company_processado,BB Production Companies_processado,BB Directors_processado,BB Title_processado
21985,04b2613145dd5470caa55561a0ce932c,Meet My Wild Friend,Series,https://play.filmboxplus.com/asset/f8gs5W07BsgLzoN2_biLRVuU-rgb8r1edDtjdzMj,1,4,1.0,,,,0,,,,,,,Meet My Wild Friend,2010,,meet my wild friend,,,,,meet my wild friend
26,a375add38e197dbfb295e2125531488d,Liga Femenina FPF,Series,https://afaplay.fanatiz.com/content/644a7e0018876e001d610057,0,0,,,,,0,,,,,,,Liga Femenina FPF,0,,liga femenina fpf,,,,,liga femenina fpf
26602,9b444a4cbcd3bf184db08be43f00c982,Climate Crisis,Series,https://www.magellantv.com/series/climate-crisis,1,5,1.0,,,,0,,,,,,,Climate Crisis,0,,climate crisis,,,,,climate crisis
24589,d06dbe71f74354207f2c869a7e9ce311,Irm√£os √† Obra: Um Lar Para Amar,Series,https://play.max.com/show/a29b1406-bdfa-43d6-843b-85b03111375e,1,5,1.0,"Drew Scott, Jonathan Silver Scott, Jim Scott, Joanne Scott, Linda Phan, J.D. Scott, Annalee Belle, Zooey Deschanel","US, CA","Jim MacPherson, Stephen Milne",43,"english, en",Don't Hate Your House with the Property Brothers,Scott Brothers Entertainment,US,Reality-tv,Scott Brothers Entertainment,Don't Hate Your House with the Property Brothers,2024,tt29534542,irmaos obra lar para amar,don t hate your house with property brothers,scott brothers entertainment,scott brothers entertainment,jim macpherson stephen milne,don t hate your house with property brothers
37941,7a9f6061495a2bb20904dba6a99eadc3,Pesca Mortal,Series,https://www.vivoplay.com.br/details/serie/pesca-mortal-35148893,1,22,19.0,,,,0,,,,,,,Pesca Mortal,2024,,pesca mortal,,,,,pesca mortal


### 3.3) Cria√ß√£o e tratamento dos campos de Ano de Produ√ß√£o

In [37]:
# Desativar warnings
warnings.simplefilter(action='ignore', category=pd.errors.SettingWithCopyWarning)

# Aplicando as fun√ß√µes e criando as novas colunas nos DataFrames SAD
for df in [filmesBR_SAD_limpo, seriesBR_SAD_limpo]:
    df['Ano Inicial'] = df['Ano de Produ√ß√£o'].apply(extract_ano_inicial)
    df['Ano Final'] = df['Ano de Produ√ß√£o'].apply(extract_ano_final)

In [38]:
for df in [filmesBR_BB_limpo, seriesBR_BB_limpo]:
    df['BB Year'] = df['BB Year'].fillna(0).astype(int)
    
# Reativar warnings
warnings.simplefilter(action='default', category=pd.errors.SettingWithCopyWarning)


In [39]:
# A) Convers√£o de tipos num√©ricos (SAD) com valida√ß√£o
cols_int_sad = ['Ano Inicial',	'Ano Final', 'N¬∫ de Epis√≥dios'] 

def to_nullable_int(series, nome):
    s = pd.to_numeric(series, errors='coerce')
    frac = (s % 1).fillna(0)
    # valida: s√≥ aceita inteiros exatos (fra√ß√£o = 0)
    if (frac != 0).any():
        # mostra exemplos problem√°ticos e aborta
        bad = series[(frac != 0)]
        raise ValueError(f"Coluna '{nome}' cont√©m valores n√£o-inteiros, ex.: {bad.head(10).tolist()}")
    return s.astype('Int64')

for c in cols_int_sad:
    if c in filmesBR_SAD_limpo.columns:
        filmesBR_SAD_limpo[c] = to_nullable_int(filmesBR_SAD_limpo[c], c)
    if c in seriesBR_SAD_limpo.columns:
        seriesBR_SAD_limpo[c]  = to_nullable_int(seriesBR_SAD_limpo[c], c)


In [40]:
# ================================================================
# 3.3 ‚Äî Materializa√ß√£o de features para Matching (pr√©-c√°lculo)
# ================================================================

def _prod_tokens_union(row):
    s1 = row['BB Primary Company_processado']
    s2 = row['BB Production Companies_processado']
    toks = set()
    if isinstance(s1, str) and s1.strip():
        toks |= tokens_empresas(s1)
    if isinstance(s2, str) and s2.strip() and s2 != s1:
        toks |= tokens_empresas(s2)
    return toks

# SAD (filmes e s√©ries)
for df in [filmesBR_SAD_limpo, seriesBR_SAD_limpo]:
    df['dir_set_sad']      = df['Diretor'].apply(surnames_from_raw)             # usa campo RAW (separado por v√≠rgula)
    df['prod_tokens_sad']  = df['Produtora_processada'].apply(tokens_empresas)  # j√° normalizada

# BB (filmes/s√©ries nacionais e estrangeiros)
for df in [filmesBR_BB_limpo, seriesBR_BB_limpo, filmesEstr_BB_limpo, seriesEstr_BB_limpo]:
    df['dir_set_bb']       = df['BB Directors'].apply(surnames_from_raw)        # usa campo RAW (separado por v√≠rgula)
    df['prod_tokens_bb']   = df.apply(_prod_tokens_union, axis=1)               # uni√£o: Primary + Companies (se diferentes)


### 3.5) Verifica√ß√£o dos resultados ap√≥s transforma√ß√µes

In [41]:
print(filmesBR_SAD_limpo.info())  # Resumo dos atributos
print("\nResumo Estat√≠stico:")
print(filmesBR_SAD_limpo.describe())  # Resumo estat√≠stico

<class 'pandas.core.frame.DataFrame'>
Index: 47791 entries, 0 to 59907
Data columns (total 19 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   N¬∫ CPB                      47791 non-null  object 
 1   T√≠tulo Original             47790 non-null  object 
 2   T√≠tulo Alternativo          1 non-null      object 
 3   Classifica√ß√£o               47791 non-null  object 
 4   G√™nero                      47791 non-null  object 
 5   Organiza√ß√£o Temporal        47791 non-null  object 
 6   Dura√ß√£o Obra                47791 non-null  float64
 7   N¬∫ de Epis√≥dios             4327 non-null   Int64  
 8   Ano de Produ√ß√£o             47791 non-null  object 
 9   Produtora                   47783 non-null  object 
 10  Diretor                     47790 non-null  object 
 11  Pa√≠s de Origem              47374 non-null  object 
 12  T√≠tulo Original_processado  47790 non-null  object 
 13  Diretor_processado  

In [42]:
print(seriesBR_SAD_limpo.info())  # Resumo dos atributos
print("\nResumo Estat√≠stico:")
print(seriesBR_SAD_limpo.describe())  # Resumo estat√≠stico

<class 'pandas.core.frame.DataFrame'>
Index: 12120 entries, 25 to 59910
Data columns (total 19 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   N¬∫ CPB                      12120 non-null  object 
 1   T√≠tulo Original             12120 non-null  object 
 2   T√≠tulo Alternativo          0 non-null      object 
 3   Classifica√ß√£o               12120 non-null  object 
 4   G√™nero                      12120 non-null  object 
 5   Organiza√ß√£o Temporal        12120 non-null  object 
 6   Dura√ß√£o Obra                12120 non-null  float64
 7   N¬∫ de Epis√≥dios             12099 non-null  Int64  
 8   Ano de Produ√ß√£o             12118 non-null  object 
 9   Produtora                   12117 non-null  object 
 10  Diretor                     12120 non-null  object 
 11  Pa√≠s de Origem              12096 non-null  object 
 12  T√≠tulo Original_processado  12120 non-null  object 
 13  Diretor_processado 

In [43]:
print(filmesBR_BB_limpo.info())  # Resumo dos atributos
print("\nResumo Estat√≠stico:")
print(filmesBR_BB_limpo.describe())  # Resumo estat√≠stico

<class 'pandas.core.frame.DataFrame'>
Index: 816 entries, 53 to 39345
Data columns (total 28 columns):
 #   Column                              Non-Null Count  Dtype 
---  ------                              --------------  ----- 
 0   BB UID                              816 non-null    object
 1   Platform Title                      816 non-null    object
 2   Type                                816 non-null    object
 3   Deeplink                            816 non-null    object
 4   Seasons                             816 non-null    int64 
 5   Episodes                            816 non-null    int64 
 6   Season Numbers                      816 non-null    object
 7   BB Cast                             816 non-null    object
 8   BB Countries                        816 non-null    object
 9   BB Directors                        816 non-null    object
 10  BB Duration                         816 non-null    int64 
 11  BB Languages                        816 non-null    object
 

In [44]:
print(seriesBR_BB_limpo.info())  # Resumo dos atributos
print("\nResumo Estat√≠stico:")
print(seriesBR_BB_limpo.describe())  # Resumo estat√≠stico

<class 'pandas.core.frame.DataFrame'>
Index: 361 entries, 156 to 37993
Data columns (total 28 columns):
 #   Column                              Non-Null Count  Dtype 
---  ------                              --------------  ----- 
 0   BB UID                              361 non-null    object
 1   Platform Title                      361 non-null    object
 2   Type                                361 non-null    object
 3   Deeplink                            361 non-null    object
 4   Seasons                             361 non-null    int64 
 5   Episodes                            361 non-null    int64 
 6   Season Numbers                      361 non-null    object
 7   BB Cast                             361 non-null    object
 8   BB Countries                        361 non-null    object
 9   BB Directors                        361 non-null    object
 10  BB Duration                         361 non-null    int64 
 11  BB Languages                        361 non-null    object


In [45]:
print(filmesEstr_BB_limpo.info())  # Resumo dos atributos
print("\nResumo Estat√≠stico:")
print(filmesEstr_BB_limpo.describe())  # Resumo estat√≠stico


<class 'pandas.core.frame.DataFrame'>
Index: 33371 entries, 0 to 39416
Data columns (total 28 columns):
 #   Column                              Non-Null Count  Dtype 
---  ------                              --------------  ----- 
 0   BB UID                              33371 non-null  object
 1   Platform Title                      33371 non-null  object
 2   Type                                33371 non-null  object
 3   Deeplink                            33371 non-null  object
 4   Seasons                             33371 non-null  int64 
 5   Episodes                            33371 non-null  int64 
 6   Season Numbers                      33371 non-null  object
 7   BB Cast                             33371 non-null  object
 8   BB Countries                        33371 non-null  object
 9   BB Directors                        33371 non-null  object
 10  BB Duration                         33371 non-null  int64 
 11  BB Languages                        33371 non-null  object


In [46]:
print(seriesEstr_BB_limpo.info())  # Resumo dos atributos
print("\nResumo Estat√≠stico:")
print(seriesEstr_BB_limpo.describe())  # Resumo estat√≠stico


<class 'pandas.core.frame.DataFrame'>
Index: 4869 entries, 26 to 38675
Data columns (total 28 columns):
 #   Column                              Non-Null Count  Dtype 
---  ------                              --------------  ----- 
 0   BB UID                              4869 non-null   object
 1   Platform Title                      4869 non-null   object
 2   Type                                4869 non-null   object
 3   Deeplink                            4869 non-null   object
 4   Seasons                             4869 non-null   int64 
 5   Episodes                            4869 non-null   int64 
 6   Season Numbers                      4869 non-null   object
 7   BB Cast                             4869 non-null   object
 8   BB Countries                        4869 non-null   object
 9   BB Directors                        4869 non-null   object
 10  BB Duration                         4869 non-null   int64 
 11  BB Languages                        4869 non-null   object


### 3.6) Salva bases Limpas para importa√ß√£o futura

In [47]:
# Nome do arquivo de sa√≠da
arquivo = 'Pre-processamento bases limpas.xlsx'

# Usando ExcelWriter para salvar os DataFrames em abas diferentes
with pd.ExcelWriter(arquivo, engine='openpyxl') as writer:
    # Escrevendo cada DataFrame em uma aba separada
    filmesBR_SAD_limpo.to_excel(writer, sheet_name='Filmes SAD', index=False)
    seriesBR_SAD_limpo.to_excel(writer, sheet_name='S√©ries SAD', index=False)
    filmesBR_BB_limpo.to_excel(writer, sheet_name='Filmes BR BB', index=False)
    seriesBR_BB_limpo.to_excel(writer, sheet_name='S√©ries BR BB', index=False)
    filmesEstr_BB_limpo.to_excel(writer, sheet_name='Filmes Estr BB', index=False)
    seriesEstr_BB_limpo.to_excel(writer, sheet_name='S√©ries Estr BB', index=False)


In [48]:
# Recupera bases limpas
arquivo = 'Pre-processamento bases limpas.xlsx'
filmesBR_SAD_limpo = pd.read_excel(arquivo, sheet_name='Filmes SAD')
seriesBR_SAD_limpo = pd.read_excel(arquivo, sheet_name='S√©ries SAD')
filmesBR_BB_limpo = pd.read_excel(arquivo, sheet_name='Filmes BR BB')
seriesBR_BB_limpo = pd.read_excel(arquivo, sheet_name='S√©ries BR BB')
filmesEstr_BB_limpo = pd.read_excel(arquivo, sheet_name='Filmes Estr BB')
seriesEstr_BB_limpo = pd.read_excel(arquivo, sheet_name='S√©ries Estr BB')

In [49]:
def _fix_headers(df):
    df.columns = (df.columns.astype(str)
                  .str.replace('\u00A0', ' ', regex=False)   # NBSP
                  .str.replace('\ufeff', '', regex=False)    # BOM
                  .str.replace(r'\s+', ' ', regex=True)      # espa√ßos duplicados
                  .str.strip())
    return df

for df in [filmesBR_BB_limpo, seriesBR_BB_limpo, filmesEstr_BB_limpo, seriesEstr_BB_limpo,
           filmesBR_SAD_limpo, seriesBR_SAD_limpo]:
    _fix_headers(df)


In [50]:
required_bb = [
    'BB UID','BB Year','BB Directors','BB Primary Company','BB Production Companies',
    'BB Title_processado','BB Original Title_processado','Platform Title_processado'
]

for name, d in {
    'filmesBR_BB_limpo': filmesBR_BB_limpo,
    'seriesBR_BB_limpo': seriesBR_BB_limpo,
    'filmesEstr_BB_limpo': filmesEstr_BB_limpo,
    'seriesEstr_BB_limpo': seriesEstr_BB_limpo,
}.items():
    missing = [c for c in required_bb if c not in d.columns]
    if missing:
        print(f"{name} faltando:", missing)


## 4) Busca de Correspond√™ncias exatas de T√≠tulo, Diretor e Ano

### 4.1) Defini√ß√£o de fun√ß√µes de busca

In [51]:
# ================================================================
# 4.1 Fun√ß√µes ‚Äî motor de match limpo (t√≠tulo =, ano ¬±2, diretor obrigat√≥rio)
# ================================================================

ANO_TOL = 2  # toler√¢ncia

def _cpb_col(df):
    return 'N¬∫ CPB' if 'N¬∫ CPB' in df.columns else ('N¬∞ CPB' if 'N¬∞ CPB' in df.columns else 'N¬∫ CPB')

def build_bb_title_keys(df_bb):
    title_cols = [
        'BB Title_processado',
        'BB Original Title_processado',
        'Platform Title_processado'
    ]
    keep = [
        'BB UID','BB Year','BB Directors',
        'BB Primary Company','BB Production Companies',
        # >>> campos processados que faltavam <<<
        'BB Primary Company_processado','BB Production Companies_processado',
        'BB Title','BB Original Title','Platform Title'
    ]
    m = df_bb[keep + title_cols].melt(
        id_vars=keep,
        value_vars=title_cols,
        var_name='title_source',
        value_name='BB_title_key'
    )
    m = m[m['BB_title_key'].notna() & (m['BB_title_key'] != '')]
    m = m.drop_duplicates(['BB UID','BB_title_key'], keep='first')
    return m


def match_pair_min(df_sad, df_bb, categoria):
    cpb = _cpb_col(df_sad)

    # 1) t√≠tulo
    bbk = build_bb_title_keys(df_bb)
    sadk = df_sad[[cpb, 'T√≠tulo Original','T√≠tulo Original_processado',
                   'Diretor','Ano Inicial','Ano Final','Produtora']].copy()
    cand = bbk.merge(sadk, left_on='BB_title_key', right_on='T√≠tulo Original_processado', how='inner')

    # 2) ano ¬±2
    cand = cand.dropna(subset=['BB Year','Ano Inicial']).copy()
    cand['Ano Final'] = cand['Ano Final'].fillna(cand['Ano Inicial'])
    mask_ano = (
        (cand['BB Year'].astype(int) >= (cand['Ano Inicial'].astype(int) - ANO_TOL)) &
        (cand['BB Year'].astype(int) <= (cand['Ano Final'].astype(int)   + ANO_TOL))
    )
    cand = cand[mask_ano]

    # 3) diretor obrigat√≥rio
    a = cand['BB Directors'].apply(surnames_from_raw)
    b = cand['Diretor'].apply(surnames_from_raw)
    cand['dir_overlap'] = [sorted(list(x & y)) for x, y in zip(a, b)]
    cand = cand[cand['dir_overlap'].map(len) > 0].copy()

    # 4) sa√≠da
    out = cand[[cpb, 'BB UID',
                'T√≠tulo Original',
                'BB Title','BB Original Title','Platform Title',
                'Diretor','BB Directors',
                'Ano Inicial','Ano Final','BB Year',
                'Produtora','BB Primary Company','BB Production Companies']].copy()

    out['categoria']  = categoria
    out['match_rule'] = 'titulo+ano+diretor'
    out = out.rename(columns={'BB UID':'UID', 'BB Title':'Title',
                              'BB Directors':'Directors', 'BB Year':'Year',
                              cpb: cpb})
    return out


In [52]:
# ================================================================
# 4.1b ‚Äî regra 2: t√≠tulo =, ano ¬±2, PRODUTORA (tokens) obrigat√≥ria
# ================================================================

def _bb_prod_tokens_row(r):
    s1 = str(r.get('BB Primary Company_processado', '') or '').strip()
    s2 = str(r.get('BB Production Companies_processado', '') or '').strip()
    toks = set()
    if s1:
        toks |= tokens_empresas(s1)
    if s2 and s2 != s1:
        toks |= tokens_empresas(s2)
    return toks

def match_pair_produtora(df_sad, df_bb, categoria):
    cpb = _cpb_col(df_sad)

    # 1) t√≠tulo
    bbk = build_bb_title_keys(df_bb)
    sadk = df_sad[[cpb, 'T√≠tulo Original','T√≠tulo Original_processado',
                   'Produtora','Produtora_processada',
                   'Ano Inicial','Ano Final',
                   'Diretor']].copy()  # diretor s√≥ para visualiza√ß√£o/auditoria
    cand = bbk.merge(sadk, left_on='BB_title_key', right_on='T√≠tulo Original_processado', how='inner')

    # 2) ano ¬±2
    cand = cand.dropna(subset=['BB Year','Ano Inicial']).copy()
    cand['Ano Final'] = cand['Ano Final'].fillna(cand['Ano Inicial'])
    mask_ano = (
        (cand['BB Year'].astype(int) >= (cand['Ano Inicial'].astype(int) - ANO_TOL)) &
        (cand['BB Year'].astype(int) <= (cand['Ano Final'].astype(int)   + ANO_TOL))
    )
    cand = cand[mask_ano]

    # 3) PRODUTORA ‚Äî overlap de tokens
    cand['prod_bb']  = cand.apply(_bb_prod_tokens_row, axis=1)
    cand['prod_sad'] = cand['Produtora_processada'].apply(tokens_empresas)
    cand['prod_overlap'] = [sorted(list(x & y)) for x, y in zip(cand['prod_bb'], cand['prod_sad'])]
    cand = cand[cand['prod_overlap'].map(len) > 0].copy()

    # 4) sa√≠da
    out = cand[[cpb, 'BB UID',
                'T√≠tulo Original',
                'BB Title','BB Original Title','Platform Title',
                'Diretor','BB Directors',
                'Ano Inicial','Ano Final','BB Year',
                'Produtora','BB Primary Company','BB Production Companies']].copy()

    out['categoria']  = categoria
    out['match_rule'] = 'titulo+ano+produtora'
    out = out.rename(columns={'BB UID':'UID', 'BB Title':'Title',
                              'BB Directors':'Directors', 'BB Year':'Year',
                              cpb: cpb})
    return out


In [53]:
# ================================================================
# 4.2 ‚Äî Executar PRODUTORA e unir com DIRETOR (prioridade ao DIRETOR)
# ================================================================

# Se voc√™ j√° rodou a 1¬™ rodada e tem out_* da regra diretor, mantenha:
dir_filmes_BR   = match_pair_min(filmesBR_SAD_limpo,  filmesBR_BB_limpo,   'filmes_BR')
dir_series_BR   = match_pair_min(seriesBR_SAD_limpo,  seriesBR_BB_limpo,   'series_BR')
dir_filmes_EST  = match_pair_min(filmesBR_SAD_limpo,  filmesEstr_BB_limpo, 'filmes_EST')
dir_series_EST  = match_pair_min(seriesBR_SAD_limpo,  seriesEstr_BB_limpo, 'series_EST')

matches_dir = pd.concat([dir_filmes_BR, dir_series_BR, dir_filmes_EST, dir_series_EST],
                        ignore_index=True)

# Filtrar os BB ainda n√£o casados para a rodada PRODUTORA (opcional, mas recomendado)
uids_casados = set(matches_dir['UID'].unique())

filmesBR_BB_rest   = filmesBR_BB_limpo[~filmesBR_BB_limpo['BB UID'].isin(uids_casados)]
seriesBR_BB_rest   = seriesBR_BB_limpo[~seriesBR_BB_limpo['BB UID'].isin(uids_casados)]
filmesEstr_BB_rest = filmesEstr_BB_limpo[~filmesEstr_BB_limpo['BB UID'].isin(uids_casados)]
seriesEstr_BB_rest = seriesEstr_BB_limpo[~seriesEstr_BB_limpo['BB UID'].isin(uids_casados)]

prod_filmes_BR   = match_pair_produtora(filmesBR_SAD_limpo,  filmesBR_BB_rest,   'filmes_BR')
prod_series_BR   = match_pair_produtora(seriesBR_SAD_limpo,  seriesBR_BB_rest,   'series_BR')
prod_filmes_EST  = match_pair_produtora(filmesBR_SAD_limpo,  filmesEstr_BB_rest, 'filmes_EST')
prod_series_EST  = match_pair_produtora(seriesBR_SAD_limpo,  seriesEstr_BB_rest, 'series_EST')

matches_prod = pd.concat([prod_filmes_BR, prod_series_BR, prod_filmes_EST, prod_series_EST],
                         ignore_index=True)

# Uni√£o final: DIRETOR tem prioridade; depois PRODUTORA completa o que faltou
# (se preferir, pode trocar 'keep="first"' por 'keep="last"' invertendo a prioridade)
cpb_col = 'N¬∫ CPB' if 'N¬∫ CPB' in filmesBR_SAD_limpo.columns else 'N¬∞ CPB'
matches_all = pd.concat([matches_dir, matches_prod], ignore_index=True)
matches_all = matches_all.drop_duplicates(subset=['UID', cpb_col], keep='first')

# Contagens
print("Contagens por categoria (ap√≥s uni√£o):")
print(matches_all.groupby(['categoria','match_rule']).size().unstack(fill_value=0))
print("\nUIDs √∫nicos casados (total):", matches_all['UID'].nunique())
print("CPBs √∫nicos casados (total):", matches_all[cpb_col].nunique())

# Amostra para inspe√ß√£o
display(matches_all.head(12))


Contagens por categoria (ap√≥s uni√£o):
match_rule  titulo+ano+diretor  titulo+ano+produtora
categoria                                           
filmes_BR                  303                   135
filmes_EST                 336                     5
series_BR                   69                    38
series_EST                 117                     0

UIDs √∫nicos casados (total): 955
CPBs √∫nicos casados (total): 970


Unnamed: 0,N¬∫ CPB,UID,T√≠tulo Original,Title,BB Original Title,Platform Title,Diretor,Directors,Ano Inicial,Ano Final,Year,Produtora,BB Primary Company,BB Production Companies,categoria,match_rule
0,B0901097600000,97b6a71422a7ef096252cbd035467c20,BREGA S/A,Brega S/A,Brega S/A,Brega S/A,"VLADIMIR AUGUSTO TAVARES DA CUNHA, GUSTAVO SIL...","Gustavo Godinho, Vladimir Cunha",2009.0,2009.0,2009,COMPANHIA AMAZONICA DE FILMES S/S LTDA.,,,filmes_BR,titulo+ano+diretor
1,B1001326900000,e3c4ad742c334a1465dddab9e19f7d57,SOLDADOS DA BORRACHA,Soldados da Borracha,Soldados da Borracha,Soldados da Borracha,CESAR AUGUSTO GARCIA LIMA,Cesar Garcia Lima,2010.0,2010.0,2011,MODO OPERANTE PRODU√á√ïES CULTURAIS LTDA. ME,,,filmes_BR,titulo+ano+diretor
2,B1900033100000,faa5ffb612e89a155e1ce9e0a64c702e,JA√áAN√É,Ja√ßan√£,Ja√ßan√£,Ja√ßan√£,"YASMIN ALVES PINTO, LARISSA VALIM MACHADO, CLA...",Clarissa Virmond,2018.0,2018.0,2018,GALO DE BRIGA PRODU√á√ïES LTDA - EPP,Galo De Briga Filmes,Galo De Briga Filmes,filmes_BR,titulo+ano+diretor
3,B2300123500000,00e30d6ec6bac584b9332b97de4210c7,MADAME DUROCHER,Madame Durocher,Madame Durocher,Madame Durocher,"DIEGO ANDRADE RIVAS GUTIERREZ, ANDRE SALLES OL...","Dida Andrade, Andradina Azevedo",2023.0,2023.0,2024,CLARO VIDEO LLC | NEXUS CINEMA E V√çDEO LTDA,Nexus Cinema E V√≠deo,Nexus Cinema E V√≠deo,filmes_BR,titulo+ano+diretor
4,B2100222400000,211f361c4fb5ea789c9292e71e8d70e0,ACHADOS N√ÉO PROCURADOS,Achados N√£o Procurados,Achados N√£o Procurados,Achados N√£o Procurados,FABIANA HEILMANN PENNA,Fabi Penna,2021.0,2021.0,2021,ADALBERTO PENNA PRODUCOES CINEMATOGRAFICAS LTDA,Penna Filho Produ√ß√µes,Penna Filho Produ√ß√µes,filmes_BR,titulo+ano+diretor
5,B2400072200000,97669b5e94229249b28b4d65bb0299f3,JUZ√â,Juz√©,Juz√©,Juz√©,RAQUEL VANESSA HERRERO GARCIA,Raquel Garcia,2024.0,2024.0,2023,ART&CIA ANIMATION SCHOOL LTDA,Animare Studio,Animare Studio,filmes_BR,titulo+ano+diretor
6,B2300330000000,de3daddb47ce003219492bf8acd8126e,ENTRELINHAS,Entrelinhas,Entrelinhas,Entrelinhas,AUGUSTINHO PASKO,Guto Pasko,2023.0,2023.0,2024,GP7 CINEMA LTDA,Gp7 Cinema,Gp7 Cinema,filmes_BR,titulo+ano+diretor
7,B1101445100000,da9f9b4be40c053cdf568aa8580b88db,ROBERTO MARINHO - O SENHOR DO SEU TEMPO,Roberto Marinho - O Senhor do Seu Tempo,Roberto Marinho - O Senhor do Seu Tempo,Grandes Brasileiros - Roberto Marinho - O Senh...,DERMEVAL COUTINHO NETTO,"Dermeval Netto, Rozane Braga",2011.0,2011.0,2011,"FBL E ASSOCIADOS, COMUNICA√á√ïES LTDA",,,filmes_BR,titulo+ano+diretor
8,B2400311300000,7b4b97da79b28f424dc7e81d326d8daa,"PERFEKTA, UMA AVENTURA DA ESCOLA DE G√äNIOS",Perfekta: Uma Aventura da Escola de G√™nios,Perfekta: Uma Aventura da Escola de G√™nios,"Perfekta, Uma Aventura da Escola de G√™nios",JOAO DANIEL SEQUEIRA TIKHOMIROFF,Jo√£o Daniel Tikhomiroff,2024.0,2024.0,2024,GLOBO COMUNICA√á√ÉO E PARTICIPA√á√ïES S/A | RSMTS ...,Globo Filmes,"Globo Filmes, Mixer Films, Gloob",filmes_BR,titulo+ano+diretor
9,B2300016300000,1ab4382a45e4f3f6a41184a3a55492cc,A LEI E O MEDO,A Lei e o Medo,A Lei e o Medo,A Lei e o Medo,HERMES FILHO LEAL,Hermes Leal,2022.0,2022.0,2020,PRODUTORA DE FILMES H.L. LTDA-ME,,,filmes_BR,titulo+ano+diretor


In [54]:
# ================================================================
# 4.3 Resultados ‚Äî contagens e amostra
# ================================================================

print("Pares por categoria:")
print(matches_all['categoria'].value_counts(), "\n")

print("UIDs √∫nicos casados:", matches_all['UID'].nunique())
print("CPBs √∫nicos casados:", matches_all['N¬∫ CPB'].nunique(), "\n")  # ajuste p/ 'N¬∞ CPB' se for o seu caso

display(matches_all.head(12))


Pares por categoria:
categoria
filmes_BR     438
filmes_EST    341
series_EST    117
series_BR     107
Name: count, dtype: int64 

UIDs √∫nicos casados: 955
CPBs √∫nicos casados: 970 



Unnamed: 0,N¬∫ CPB,UID,T√≠tulo Original,Title,BB Original Title,Platform Title,Diretor,Directors,Ano Inicial,Ano Final,Year,Produtora,BB Primary Company,BB Production Companies,categoria,match_rule
0,B0901097600000,97b6a71422a7ef096252cbd035467c20,BREGA S/A,Brega S/A,Brega S/A,Brega S/A,"VLADIMIR AUGUSTO TAVARES DA CUNHA, GUSTAVO SIL...","Gustavo Godinho, Vladimir Cunha",2009.0,2009.0,2009,COMPANHIA AMAZONICA DE FILMES S/S LTDA.,,,filmes_BR,titulo+ano+diretor
1,B1001326900000,e3c4ad742c334a1465dddab9e19f7d57,SOLDADOS DA BORRACHA,Soldados da Borracha,Soldados da Borracha,Soldados da Borracha,CESAR AUGUSTO GARCIA LIMA,Cesar Garcia Lima,2010.0,2010.0,2011,MODO OPERANTE PRODU√á√ïES CULTURAIS LTDA. ME,,,filmes_BR,titulo+ano+diretor
2,B1900033100000,faa5ffb612e89a155e1ce9e0a64c702e,JA√áAN√É,Ja√ßan√£,Ja√ßan√£,Ja√ßan√£,"YASMIN ALVES PINTO, LARISSA VALIM MACHADO, CLA...",Clarissa Virmond,2018.0,2018.0,2018,GALO DE BRIGA PRODU√á√ïES LTDA - EPP,Galo De Briga Filmes,Galo De Briga Filmes,filmes_BR,titulo+ano+diretor
3,B2300123500000,00e30d6ec6bac584b9332b97de4210c7,MADAME DUROCHER,Madame Durocher,Madame Durocher,Madame Durocher,"DIEGO ANDRADE RIVAS GUTIERREZ, ANDRE SALLES OL...","Dida Andrade, Andradina Azevedo",2023.0,2023.0,2024,CLARO VIDEO LLC | NEXUS CINEMA E V√çDEO LTDA,Nexus Cinema E V√≠deo,Nexus Cinema E V√≠deo,filmes_BR,titulo+ano+diretor
4,B2100222400000,211f361c4fb5ea789c9292e71e8d70e0,ACHADOS N√ÉO PROCURADOS,Achados N√£o Procurados,Achados N√£o Procurados,Achados N√£o Procurados,FABIANA HEILMANN PENNA,Fabi Penna,2021.0,2021.0,2021,ADALBERTO PENNA PRODUCOES CINEMATOGRAFICAS LTDA,Penna Filho Produ√ß√µes,Penna Filho Produ√ß√µes,filmes_BR,titulo+ano+diretor
5,B2400072200000,97669b5e94229249b28b4d65bb0299f3,JUZ√â,Juz√©,Juz√©,Juz√©,RAQUEL VANESSA HERRERO GARCIA,Raquel Garcia,2024.0,2024.0,2023,ART&CIA ANIMATION SCHOOL LTDA,Animare Studio,Animare Studio,filmes_BR,titulo+ano+diretor
6,B2300330000000,de3daddb47ce003219492bf8acd8126e,ENTRELINHAS,Entrelinhas,Entrelinhas,Entrelinhas,AUGUSTINHO PASKO,Guto Pasko,2023.0,2023.0,2024,GP7 CINEMA LTDA,Gp7 Cinema,Gp7 Cinema,filmes_BR,titulo+ano+diretor
7,B1101445100000,da9f9b4be40c053cdf568aa8580b88db,ROBERTO MARINHO - O SENHOR DO SEU TEMPO,Roberto Marinho - O Senhor do Seu Tempo,Roberto Marinho - O Senhor do Seu Tempo,Grandes Brasileiros - Roberto Marinho - O Senh...,DERMEVAL COUTINHO NETTO,"Dermeval Netto, Rozane Braga",2011.0,2011.0,2011,"FBL E ASSOCIADOS, COMUNICA√á√ïES LTDA",,,filmes_BR,titulo+ano+diretor
8,B2400311300000,7b4b97da79b28f424dc7e81d326d8daa,"PERFEKTA, UMA AVENTURA DA ESCOLA DE G√äNIOS",Perfekta: Uma Aventura da Escola de G√™nios,Perfekta: Uma Aventura da Escola de G√™nios,"Perfekta, Uma Aventura da Escola de G√™nios",JOAO DANIEL SEQUEIRA TIKHOMIROFF,Jo√£o Daniel Tikhomiroff,2024.0,2024.0,2024,GLOBO COMUNICA√á√ÉO E PARTICIPA√á√ïES S/A | RSMTS ...,Globo Filmes,"Globo Filmes, Mixer Films, Gloob",filmes_BR,titulo+ano+diretor
9,B2300016300000,1ab4382a45e4f3f6a41184a3a55492cc,A LEI E O MEDO,A Lei e o Medo,A Lei e o Medo,A Lei e o Medo,HERMES FILHO LEAL,Hermes Leal,2022.0,2022.0,2020,PRODUTORA DE FILMES H.L. LTDA-ME,,,filmes_BR,titulo+ano+diretor


In [55]:
# ================================================================
# Sumariza√ß√£o por categoria com PRODUTORA (+ ganhos novos)
# Requer: matches_dir, matches_prod, build_bb_title_keys, surnames_from_raw,
#         tokens_empresas, _bb_prod_tokens_row (definidas antes)
# ================================================================

def funil_uid_com_prod(df_sad, df_bb, categoria, matches_dir, matches_prod):
    # base = UIDs √∫nicos do BB
    obras = df_bb['BB UID'].nunique()

    # --- t√≠tulo (sem ano) ---
    bbk  = build_bb_title_keys(df_bb)
    sadk = df_sad[['T√≠tulo Original_processado', 'Diretor',
                   'Produtora_processada', 'Ano Inicial', 'Ano Final']].copy()
    e_title = bbk.merge(sadk, left_on='BB_title_key',
                        right_on='T√≠tulo Original_processado', how='inner')

    uids_titulo = set(e_title['BB UID'].unique())
    n_titulo = len(uids_titulo)

    # --- diretor (sem ano) ---
    a = e_title['BB Directors'].apply(surnames_from_raw)
    b = e_title['Diretor'].apply(surnames_from_raw)
    dir_ok = [len(x & y) > 0 for x, y in zip(a, b)]
    uids_dir = set(e_title[dir_ok]['BB UID'].unique())
    n_dir = len(uids_dir)

    # --- produtora (sem ano) ---
    prod_bb  = e_title.apply(_bb_prod_tokens_row, axis=1)
    prod_sad = e_title['Produtora_processada'].apply(tokens_empresas)
    prod_ok  = [len(x & y) > 0 for x, y in zip(prod_bb, prod_sad)]
    uids_prod = set(e_title[prod_ok]['BB UID'].unique())
    n_prod = len(uids_prod)

    # --- finais por regra (j√° com ano) a partir das sa√≠das de cada regra ---
    u_dir_final  = set(matches_dir.loc[matches_dir['categoria']==categoria, 'UID'].unique())
    u_prod_final = set(matches_prod.loc[matches_prod['categoria']==categoria, 'UID'].unique())

    final_total_uids   = u_dir_final | u_prod_final
    novos_via_produtor = u_prod_final - u_dir_final

    # convers√µes
    conv_total_titulo   = (n_titulo / obras * 100) if obras else 0.0
    conv_tit_dir        = (n_dir    / n_titulo * 100) if n_titulo else 0.0
    conv_tit_prod       = (n_prod   / n_titulo * 100) if n_titulo else 0.0
    conv_total          = (len(final_total_uids) / obras * 100) if obras else 0.0

    return pd.DataFrame([{
        'categoria': categoria,
        'obras': obras,
        'regra_titulo': n_titulo,
        'regra_diretor': n_dir,
        'regra_produtora': n_prod,
        'final_dir_ano': len(u_dir_final),
        'final_prod_ano': len(u_prod_final),
        'final_total': len(final_total_uids),
        'novos_via_produtora': len(novos_via_produtor),
        'conv_total_titulo_%': round(conv_total_titulo, 2),
        'conv_titulo‚Üídiretor_%': round(conv_tit_dir, 2),
        'conv_titulo‚Üíprodutora_%': round(conv_tit_prod, 2),
        'conv_total_%': round(conv_total, 2),
    }])

    

In [56]:
# ---- Rodar por categoria ----
sum_f_br = funil_uid_com_prod(filmesBR_SAD_limpo,  filmesBR_BB_limpo,   'filmes_BR',  matches_dir, matches_prod)
sum_s_br = funil_uid_com_prod(seriesBR_SAD_limpo,  seriesBR_BB_limpo,   'series_BR',  matches_dir, matches_prod)
sum_f_es = funil_uid_com_prod(filmesBR_SAD_limpo,  filmesEstr_BB_limpo, 'filmes_EST', matches_dir, matches_prod)
sum_s_es = funil_uid_com_prod(seriesBR_SAD_limpo,  seriesEstr_BB_limpo, 'series_EST', matches_dir, matches_prod)

sum_cat = pd.concat([sum_f_br, sum_s_br, sum_f_es, sum_s_es], ignore_index=True)

# ---- Global (somando categorias) ----
glob = pd.DataFrame([{
    'obras':            sum_cat['obras'].sum(),
    'regra_titulo':     sum_cat['regra_titulo'].sum(),
    'regra_diretor':    sum_cat['regra_diretor'].sum(),
    'regra_produtora':  sum_cat['regra_produtora'].sum(),
    'final_dir_ano':    sum_cat['final_dir_ano'].sum(),
    'final_prod_ano':   sum_cat['final_prod_ano'].sum(),
    'final_total':      sum_cat['final_total'].sum(),
    'novos_via_produtora': sum_cat['novos_via_produtora'].sum()
}])

glob['conv_total_titulo_%']    = (glob['regra_titulo']   / glob['obras'] * 100).round(2)
glob['conv_titulo‚Üídiretor_%']  = (glob['regra_diretor']  / glob['regra_titulo'] * 100).round(2)
glob['conv_titulo‚Üíprodutora_%']= (glob['regra_produtora']/ glob['regra_titulo'] * 100).round(2)
glob['conv_total_%']           = (glob['final_total']    / glob['obras'] * 100).round(2)

# ---- Exibir ----
fmt = {
    'conv_total_titulo_%':'{:.2f}%',
    'conv_titulo‚Üídiretor_%':'{:.2f}%',
    'conv_titulo‚Üíprodutora_%':'{:.2f}%',
    'conv_total_%':'{:.2f}%'
}
print("Resumo por categoria (com produtora):")
display(sum_cat.style.format(fmt))

print("\nResumo global:")
display(glob.style.format(fmt))


Resumo por categoria (com produtora):


Unnamed: 0,categoria,obras,regra_titulo,regra_diretor,regra_produtora,final_dir_ano,final_prod_ano,final_total,novos_via_produtora,conv_total_titulo_%,conv_titulo‚Üídiretor_%,conv_titulo‚Üíprodutora_%,conv_total_%
0,filmes_BR,816,622,316,360,302,133,435,133,76.23%,50.80%,57.88%,53.31%
1,series_BR,361,195,70,82,64,33,97,33,54.02%,35.90%,42.05%,26.87%
2,filmes_EST,33371,2087,382,14,335,5,340,5,6.25%,18.30%,0.67%,1.02%
3,series_EST,4869,396,101,1,83,0,83,0,8.13%,25.51%,0.25%,1.70%



Resumo global:


Unnamed: 0,obras,regra_titulo,regra_diretor,regra_produtora,final_dir_ano,final_prod_ano,final_total,novos_via_produtora,conv_total_titulo_%,conv_titulo‚Üídiretor_%,conv_titulo‚Üíprodutora_%,conv_total_%
0,39417,3300,869,457,784,171,955,171,8.37%,26.33%,13.85%,2.42%


## 5 ) Exports para Excel

In [57]:
# ================================================================
# ETAPA 1 ‚Äî Consolidar resultado final e salvar auditoria
# Requer j√° existirem: matches_dir, matches_prod
# ================================================================

# 1) escolher o nome da coluna CPB conforme sua base (N¬∫ CPB ou N¬∞ CPB)
cpb_col = 'N¬∫ CPB' if 'N¬∫ CPB' in filmesBR_SAD_limpo.columns else 'N¬∞ CPB'

# 2) uni√£o (prioridade ao DIRETOR; o concat mant√©m a ordem: dir -> prod)
matches_all = pd.concat([matches_dir, matches_prod], ignore_index=True)
matches_all = matches_all.drop_duplicates(subset=['UID', cpb_col], keep='first')

# 3) ordenar e selecionar colunas para vis√£o lado a lado
cols_auditoria = [
    cpb_col, 'UID',
    'T√≠tulo Original', 'Title', 'BB Original Title', 'Platform Title',
    'Diretor', 'Directors',
    'Ano Inicial', 'Ano Final', 'Year',
    'Produtora', 'BB Primary Company', 'BB Production Companies',
    'categoria', 'match_rule'
]
# mant√©m colunas que existem; evita KeyError caso alguma n√£o esteja presente
cols_auditoria = [c for c in cols_auditoria if c in matches_all.columns]

matches_all = matches_all[cols_auditoria].sort_values(
    by=['categoria', 'match_rule', 'Title' if 'Title' in matches_all.columns else cpb_col]
).reset_index(drop=True)

# 4) resumos
resumo_categoria = (
    matches_all
      .groupby('categoria')
      .agg(pares=('UID', 'size'),
           uids=('UID', 'nunique'),
           cpbs=(cpb_col, 'nunique'))
      .reset_index()
)

resumo_por_regra = (
    matches_all
      .groupby(['categoria', 'match_rule'])
      .size()
      .unstack(fill_value=0)
      .reset_index()
)

print("Resumo por categoria:")
display(resumo_categoria)

print("\nResumo por regra:")
display(resumo_por_regra)

# 5) salvar Excel de auditoria
arquivo_auditoria = 'Auditoria - matches consolidado.xlsx'
with pd.ExcelWriter(arquivo_auditoria, engine='openpyxl') as writer:
    matches_all.to_excel(writer, sheet_name='consolidado', index=False)
    resumo_categoria.to_excel(writer, sheet_name='resumo_categoria', index=False)
    resumo_por_regra.to_excel(writer, sheet_name='resumo_regra', index=False)

print(f"\nArquivo salvo: {arquivo_auditoria}")


Resumo por categoria:


Unnamed: 0,categoria,pares,uids,cpbs
0,filmes_BR,438,435,436
1,filmes_EST,341,340,330
2,series_BR,107,97,107
3,series_EST,117,83,106



Resumo por regra:


match_rule,categoria,titulo+ano+diretor,titulo+ano+produtora
0,filmes_BR,303,135
1,filmes_EST,336,5
2,series_BR,69,38
3,series_EST,117,0



Arquivo salvo: Auditoria - matches consolidado.xlsx


In [58]:
# ================================================================
# ETAPA 2 ‚Äî Materializar est√°gios (por categoria) e exportar
# Requer: build_bb_title_keys, surnames_from_raw, tokens_empresas,
#         _bb_prod_tokens_row, e os DFs *_SAD_limpo / *_BB_limpo
# ================================================================

cpb_col = 'N¬∫ CPB' if 'N¬∫ CPB' in filmesBR_SAD_limpo.columns else 'N¬∞ CPB'
ANO_TOL = 2

def materializar_estagios(df_sad, df_bb, categoria):
    # 0) base por t√≠tulo
    bbk = build_bb_title_keys(df_bb)
    sadk = df_sad[[cpb_col, 'T√≠tulo Original', 'T√≠tulo Original_processado',
                   'Diretor', 'Produtora', 'Produtora_processada',
                   'Ano Inicial', 'Ano Final']].copy()
    base = bbk.merge(sadk, left_on='BB_title_key', right_on='T√≠tulo Original_processado', how='inner')

    # est√°gio 1 ‚Äî s√≥ T√çTULO
    cols_view = [cpb_col, 'BB UID', 'T√≠tulo Original',
                 'BB Title','BB Original Title','Platform Title',
                 'Diretor','BB Directors',
                 'Produtora','BB Primary Company','BB Production Companies',
                 'Ano Inicial','Ano Final','BB Year']
    titulo_matched = base[cols_view].rename(columns={'BB UID':'UID', 'BB Title':'Title', 'BB Year':'Year'})

    # est√°gio 2 ‚Äî T√çTULO + DIRETOR (sem ano)
    a = base['BB Directors'].apply(surnames_from_raw)
    b = base['Diretor'].apply(surnames_from_raw)
    dir_ok = [len(x & y) > 0 for x, y in zip(a, b)]
    titulo_diretor_matched = titulo_matched[dir_ok].copy()

    # est√°gio 3 ‚Äî T√çTULO + PRODUTORA (sem ano)
    prod_bb  = base.apply(_bb_prod_tokens_row, axis=1)
    prod_sad = base['Produtora_processada'].apply(tokens_empresas)
    prod_ok  = [len(x & y) > 0 for x, y in zip(prod_bb, prod_sad)]
    titulo_produtora_matched = titulo_matched[prod_ok].copy()

    # helper ano ¬± tol
    def filtrar_ano(df):
        if df.empty: 
            return df
        df = df.dropna(subset=['Ano Inicial']).copy()
        df['Ano Final'] = df['Ano Final'].fillna(df['Ano Inicial'])
        mask = (
            (df['Year'].astype(int) >= (df['Ano Inicial'].astype(int) - ANO_TOL)) &
            (df['Year'].astype(int) <= (df['Ano Final'].astype(int)   + ANO_TOL))
        )
        return df[mask]

    # est√°gio 4 ‚Äî FINAL (t√≠tulo + diretor + ano)
    final_dir_ano  = filtrar_ano(titulo_diretor_matched).copy()

    # est√°gio 5 ‚Äî FINAL (t√≠tulo + produtora + ano)
    final_prod_ano = filtrar_ano(titulo_produtora_matched).copy()

    # metadados
    for df in [titulo_matched, titulo_diretor_matched, titulo_produtora_matched, final_dir_ano, final_prod_ano]:
        df['categoria'] = categoria

    return {
        'titulo_matched': titulo_matched,
        'titulo_diretor_matched': titulo_diretor_matched,
        'titulo_produtora_matched': titulo_produtora_matched,
        'final_dir_ano': final_dir_ano,
        'final_prod_ano': final_prod_ano
    }

# ---- rodar para os 4 pares ----
st_filmes_BR  = materializar_estagios(filmesBR_SAD_limpo,  filmesBR_BB_limpo,   'filmes_BR')
st_series_BR  = materializar_estagios(seriesBR_SAD_limpo,  seriesBR_BB_limpo,   'series_BR')
st_filmes_EST = materializar_estagios(filmesBR_SAD_limpo,  filmesEstr_BB_limpo, 'filmes_EST')
st_series_EST = materializar_estagios(seriesBR_SAD_limpo,  seriesEstr_BB_limpo, 'series_EST')

# ---- exportar
arq_estagios = 'Auditoria - est√°gios por categoria.xlsx'
with pd.ExcelWriter(arq_estagios, engine='openpyxl') as wr:
    for prefixo, st in [
        ('filmes_BR',  st_filmes_BR),
        ('series_BR',  st_series_BR),
        ('filmes_EST', st_filmes_EST),
        ('series_EST', st_series_EST),
    ]:
        st['titulo_matched'].to_excel(wr, sheet_name=f'{prefixo} - t√≠tulo', index=False)
        st['titulo_diretor_matched'].to_excel(wr, sheet_name=f'{prefixo} - t√≠tulo+diretor', index=False)
        st['titulo_produtora_matched'].to_excel(wr, sheet_name=f'{prefixo} - t√≠tulo+prod', index=False)
        st['final_dir_ano'].to_excel(wr, sheet_name=f'{prefixo} - final dir', index=False)
        st['final_prod_ano'].to_excel(wr, sheet_name=f'{prefixo} - final prod', index=False)

print(f'Arquivo salvo: {arq_estagios}')


Arquivo salvo: Auditoria - est√°gios por categoria.xlsx


### 4.3) Elimina plataformas sem interesse em buscas

In [59]:
# DF completo e coluna de plataforma para o join
df_completo_plataformas = Base_BB
col_plataforma = 'Platform Name'

# Plataformas a excluir (lista)
PLATAFORMAS_EXCLUIR = [
    '99 Media',    'AFA Play',    'ALTBalaji',    'American Indian Film Gallery',    'Amazon Prime Video',    'Anime Onegai',    'AppleTV',     'Apple TV+',    'Archivio Luce',    'AXN',    'BroadwayHD',
    'CINE.AR PLAY',    'Canela.TV',    'Cindie',    'Claro TV+',    'Claro Video',    ' CirqueConnect',    'Combate',    'Crunchyroll',    'Cultpix',    'Curiosity Stream',    'DaFilms',    'DAZN',
    'Dekkoo',    'Demand Africa',    'Digital Concert Hall',    'Digital Theatre',    'Disney+',    'DOCSVILLE',    'Eventive',    'F1 TV',    'Fanatiz',    'FIFA+',    'Filmbox+',    'Filmzie',
    'FlixOl√©',    'Globoplay',    'Globe Player',    'GuideDoc',    'HENRI',    'HispanTV',    'History Hit',    'Hoichoi',    'IFI Archive Player',    'IndieFlix',    'iQIYI',    'IWantTFC',    'Kidoodle.TV',
    'KINOA.TV',    'KOCOWA+',    'KweliTV',    'Looke',    'Max',    'MagellanTV',    'Marquee TV',    'Means TV',    'Mercado Play',    'Met Opera on Demand',    'MLB.TV',    'MovieSaints',    'MUBI',
    'NBA League Pass',    'Nebula',    'Netflix',    'OCULTO.TV',    'Oldflix',    'OnDemandKorea',    'OperaVision',    'Paramount+',    'Plex',    'Pluto TV',    'Qello Concerts',    'Rakuten Viki',
    'Reel Short',    'Retina Latina',    'Revry',    'RT en Espa√±ol',    'Selecta TV',    'ShemarooMe',    'Simply South',    'Sky+',    'Sony Channel',    'Tamandu√° TV',    'Teatrix',    'Toon Goggles',
    'Troma NOW!',    'TV Cai√ßara',    'TVN Play',    'Umbra',    'UNIVER VIDEO',    'Universal+',    'Viddsee',    'Vivo Play',    'Watch',    'WOW Presents Plus',    'YouTube',    'YouTube Premium',    'Zee5',
]

# (opcional) conjunto para checagens/membership r√°pidas
PLATAFORMAS_EXCLUIR_SET = set(PLATAFORMAS_EXCLUIR)

print("Total plataformas a excluir:", len(PLATAFORMAS_EXCLUIR))


Total plataformas a excluir: 98


In [60]:
# ================================================================
# Filas de revis√£o: estrangeiras com country vazio, diretor presente,
# mapeando plataformas a partir do DF completo (n√£o deduplicado)
# Par√¢metros que voc√™ PRECISA definir antes:
#   PLATAFORMAS_EXCLUIR = [...]
#   df_completo_plataformas = <seu DF completo, sem deduplicar por UID>
#   col_plataforma = 'Platform Name'  # ajuste se necess√°rio
# ================================================================

# -------- par√¢metros do usu√°rio --------
PLATAFORMAS_EXCLUIR
df_completo_plataformas = Base_BB_import
col_plataforma = 'Platform Name'

# -------- checagens expl√≠citas (sem try/except silencioso) --------
if 'BB UID' not in df_completo_plataformas.columns:
    raise KeyError("O DF completo informado N√ÉO tem a coluna 'BB UID'.")
if col_plataforma not in df_completo_plataformas.columns:
    raise KeyError(f"O DF completo informado N√ÉO tem a coluna '{col_plataforma}'.")

# -------- mapeia UID -> plataformas (excluindo as indesejadas) --------
f_plat = df_completo_plataformas.copy()

# normaliza plataforma (string) e elimina vazios
f_plat[col_plataforma] = f_plat[col_plataforma].astype(str).str.strip()
f_plat = f_plat[f_plat[col_plataforma] != '']

# remove plataformas indesejadas
mask_keep = ~f_plat[col_plataforma].isin(PLATAFORMAS_EXCLUIR)
f_plat = f_plat[mask_keep]

uid_to_plats = (
    f_plat.groupby('BB UID', as_index=False)[col_plataforma]
          .agg(lambda s: ' | '.join(sorted(set(s))))
          .rename(columns={col_plataforma: 'Plataformas'})
)

# -------- obt√©m UIDs j√° casados para excluir da revis√£o --------
cpb_col = 'N¬∫ CPB' if 'N¬∫ CPB' in filmesBR_SAD_limpo.columns else 'N¬∞ CPB'
uids_casados = set(matches_all['UID'].unique())

# -------- fun√ß√£o para gerar fila (filmes/s√©ries estrangeiras) --------
def fila_revisao_estr(df_estr, categoria_label):
    if 'BB Countries' not in df_estr.columns:
        raise KeyError(f"O DF '{categoria_label}' n√£o tem a coluna 'BB Countries'.")
    if 'BB Directors' not in df_estr.columns:
        raise KeyError(f"O DF '{categoria_label}' n√£o tem a coluna 'BB Directors'.")

    # country vazio + diretor presente
    base = df_estr[
        (df_estr['BB Countries'].isna()) &
        (df_estr['BB Directors'].astype(str).str.strip() != '')
    ].copy()

    # remove os que j√° casaram
    base = base[~base['BB UID'].isin(uids_casados)].copy()

    # junta plataformas a partir do DF completo
    out = base.merge(uid_to_plats, on='BB UID', how='left')

    # mantemos apenas quem de fato tem plataforma (ap√≥s exclus√£o)
    out = out[out['Plataformas'].notna() & (out['Plataformas'].str.strip() != '')].copy()

    # colunas √∫teis para revis√£o
    cols = [c for c in [
        'BB UID', 'BB Title', 'BB Original Title', 'BB Year',
        'BB Directors', 'BB Countries',
        'Plataformas'
    ] if c in out.columns]

    out = out[cols].sort_values(['Plataformas','BB Year','BB Title'], na_position='last')
    out['categoria'] = categoria_label
    return out

# -------- gerar filas para filmes/s√©ries estrangeiras --------
revisao_filmes_EST  = fila_revisao_estr(filmesEstr_BB_limpo, 'filmes_EST')
revisao_series_EST  = fila_revisao_estr(seriesEstr_BB_limpo, 'series_EST')

print("Resumo das filas de revis√£o:")
print("filmes_EST:", len(revisao_filmes_EST))
print("series_EST:", len(revisao_series_EST))

# -------- exportar para Excel --------
arq_revisao = 'Revisao - estr sem country (por plataformas).xlsx'
with pd.ExcelWriter(arq_revisao, engine='openpyxl') as wr:
    revisao_filmes_EST.to_excel(wr, sheet_name='filmes_EST', index=False)
    revisao_series_EST.to_excel(wr, sheet_name='series_EST', index=False)
print(f"Arquivo salvo: {arq_revisao}")


Resumo das filas de revis√£o:
filmes_EST: 11880
series_EST: 763
Arquivo salvo: Revisao - estr sem country (por plataformas).xlsx


In [61]:
# ================================================================
# Listas de N√ÉO-MATCH para revis√£o
#  - Estrg (filmes/s√©ries): por plataformas-alvo, diretor presente, n√£o casados
#  - BR   (filmes/s√©ries):  BB Countries cont√©m "BR", n√£o casados
#  Usa Base_BB (completo) para mapear UID -> plataformas e 1¬∫ deeplink
# ================================================================

PLATAFORMAS_ALVO = [
    'Filmicca','Amaz√¥niaFLIX','TV Brasil Play','UOL Play',
    'Cine Humberto Mauro Mais','Reserva Imovision','Curta!On','Cinemateca Pernambucana',
]

def _uid_col(df):
    return 'BB UID' if 'BB UID' in df.columns else 'UID'

# ---------------- Checagens m√≠nimas ----------------
for name, df in [
    ('Base_BB_import', Base_BB_import),
    ('filmesBR_BB_limpo', filmesBR_BB_limpo),
    ('seriesBR_BB_limpo', seriesBR_BB_limpo),
    ('filmesEstr_BB_limpo', filmesEstr_BB_limpo),
    ('seriesEstr_BB_limpo', seriesEstr_BB_limpo),
]:
    if _uid_col(df) not in df.columns:
        raise KeyError(f"{name} n√£o tem coluna de UID ('BB UID' ou 'UID').")

if 'Platform Name' not in Base_BB_import.columns or 'Deeplink' not in Base_BB_import.columns:
    raise KeyError("Base_BB_import precisa de 'Platform Name' e 'Deeplink'.")

# ---------------- UIDs j√° casados (para excluir) ----------------
uids_casados = set(matches_all[_uid_col(matches_all)].unique())

# ---------------- Mapa UID -> plataformas-alvo + 1¬∫ deeplink ----------------
uid_full = _uid_col(Base_BB_import)
bb_plat_keep = Base_BB_import[[uid_full,'Platform Name','Deeplink']].copy()
bb_plat_keep = bb_plat_keep[bb_plat_keep['Platform Name'].isin(PLATAFORMAS_ALVO)]

uid_to_plats = (
    bb_plat_keep.sort_values(['Platform Name'])
    .groupby(uid_full, as_index=False)
    .agg({
        'Platform Name': lambda s: ' | '.join(sorted(set(s))),
        'Deeplink': 'first'
    })
    .rename(columns={'Platform Name': 'Plataformas', 'Deeplink': 'Deeplink_1'})
)

# ---------------- Fun√ß√µes can√¥nicas para montar as listas ----------------
BASE_COLS = [
    'BB Title','BB Original Title','BB Year',
    'Seasons','Episodes','Season Numbers',
    'BB Directors','BB Countries',
    'BB Primary Company','BB Production Companies'
]

ORDER_COLS = ['Plataformas','BB Year','BB Title']  # para Estrg
ORDER_COLS_BR = ['BB Year','BB Title']            # para BR

def lista_estrg_por_plataforma(df_estr, categoria_label):
    uidc = _uid_col(df_estr)
    for c in BASE_COLS:
        if c not in df_estr.columns:
            raise KeyError(f"{categoria_label}: coluna '{c}' ausente.")

    base = df_estr.copy()

    # 1) n√£o casados
    base = base[~base[uidc].isin(uids_casados)]

    # 2) DIRETOR OBRIGAT√ìRIO
    base = base[nonempty_str(base['BB Directors'])]

    # 3) junta plataformas-alvo + deeplink (Left Join; depois mant√©m s√≥ quem achou plataforma-alvo)
    out = base.merge(uid_to_plats, left_on=uidc, right_on=uid_full, how='left')
    out = out[nonempty_str(out['Plataformas'])].copy()

    cols = [uidc] + BASE_COLS + ['Plataformas','Deeplink_1']
    out = out[cols].sort_values(ORDER_COLS, na_position='last')
    out['categoria'] = categoria_label
    return out

def lista_br_sem_match(df_br, categoria_label):
    uidc = _uid_col(df_br)
    for c in BASE_COLS:
        if c not in df_br.columns:
            raise KeyError(f"{categoria_label}: coluna '{c}' ausente.")

    base = df_br.copy()

    # 1) n√£o casados
    base = base[~base[uidc].isin(uids_casados)]

    # 2) Country cont√©m "BR" (casos sem BR j√° foram para as listas Estrg)
    base = base[base['BB Countries'].astype(str).str.contains('BR', case=False, na=False)]

    out = base.merge(uid_to_plats, left_on=uidc, right_on=uid_full, how='left')
    cols = [uidc] + BASE_COLS + ['Plataformas','Deeplink_1']
    out = out[cols].sort_values(ORDER_COLS_BR, na_position='last')
    out['categoria'] = categoria_label
    return out

# ---------------- Materializa√ß√£o (4 listas) ----------------
estrg_filmes = lista_estrg_por_plataforma(filmesEstr_BB_limpo, 'Estrg Filmes')
estrg_series = lista_estrg_por_plataforma(seriesEstr_BB_limpo, 'Estrg S√©ries')
br_filmes    = lista_br_sem_match(filmesBR_BB_limpo, 'BR Filmes')
br_series    = lista_br_sem_match(seriesBR_BB_limpo, 'BR S√©ries')

# Diagn√≥stico r√°pido
print("Resumo (linhas):",
      f"Estrg Filmes={len(estrg_filmes)} | Estrg S√©ries={len(estrg_series)} | BR Filmes={len(br_filmes)} | BR S√©ries={len(br_series)}")

# ---------------- Export ----------------
arq_listas = "Revisao - NaoMatch (Estrg por plataforma + BR).xlsx"
with pd.ExcelWriter(arq_listas, engine='openpyxl') as wr:
    estrg_filmes.to_excel(wr, sheet_name='Estrg Filmes', index=False)
    estrg_series.to_excel(wr, sheet_name='Estrg S√©ries', index=False)
    br_filmes.to_excel(wr,    sheet_name='BR Filmes',    index=False)
    br_series.to_excel(wr,    sheet_name='BR S√©ries',    index=False)
print(f"Arquivo salvo: {arq_listas}")

Resumo (linhas): Estrg Filmes=435 | Estrg S√©ries=77 | BR Filmes=381 | BR S√©ries=264
Arquivo salvo: Revisao - NaoMatch (Estrg por plataforma + BR).xlsx


## 5) Separa√ß√£o de listas de buscas

### 5.1) Importa√ß√£o dos resultados de match 2023


### 5.2) Separa√ß√£o dos dataframes de obras brasileiras das bases BB

### 5.3) Modifica√ß√£o das dfs de obras brasileiras para gerar as listas 

### 5.4) Cria√ß√£o das listas individuais

In [62]:
# ================================================================
# Listas finais de N√ÉO-MATCH para revis√£o manual
#  - Estrg (filmes/s√©ries): sem CPB, pa√≠s vazio, diretor presente,
#    e presentes nas plataformas foco (whitelist)
#  - BR   (filmes/s√©ries): sem CPB e BB Countries contendo "BR"
#  Join por BB UID na Base_BB_import para trazer Plataformas e Deeplink
# ================================================================

PLATAFORMAS_FOCO = [
    'Filmicca',
    'Amaz√¥niaFLIX',
    'TV Brasil Play',
    'UOL Play',
    'Cine Humberto Mauro Mais',
    'Reserva Imovision',
    'Curta!On',
    'Cinemateca Pernambucana',
]

def _uidcol(df):
    return 'BB UID' if 'BB UID' in df.columns else 'UID'

# UIDs j√° casados (para excluir)
uids_casados = set(matches_all[_uidcol(matches_all)].unique())

# Mapa UID -> plataformas whitelist + 1¬∫ deeplink
uid_full = _uidcol(Base_BB_import)
plat_map = (
    Base_BB_import[[uid_full, 'Platform Name', 'Deeplink']]
    .query("`Platform Name` in @PLATAFORMAS_FOCO")
    .sort_values(['Platform Name'])
    .groupby(uid_full, as_index=False)
    .agg({'Platform Name': lambda s: ' | '.join(sorted(set(s))),
          'Deeplink': 'first'})
    .rename(columns={'Platform Name':'Plataformas', 'Deeplink':'Deeplink_1'})
)

def _montar_lista(df_bb,
                  precisa_br=None,            # True -> cont√©m 'BR'; False -> vazio/na; None -> ignora
                  precisa_diretor=False,
                  filtrar_plataforma=False,    # True em Estrg
                  categoria=''):
    uid = _uidcol(df_bb)

    base = df_bb.copy()
    base = base[~base[uid].isin(uids_casados)]

    if precisa_br is True:
        base = base[base['BB Countries'].astype(str).str.contains('BR', case=False, na=False)]
    elif precisa_br is False:
        base = base[~base['BB Countries'].astype(str).str.contains('BR', case=False, na=False)]
        base = base[base['BB Countries'].isna() | (base['BB Countries'].astype(str).str.strip() == '')]

    if precisa_diretor:
        base = base[base['BB Directors'].astype(str).str.strip() != '']

    if filtrar_plataforma:
        base = base.merge(plat_map, left_on=uid, right_on=uid_full, how='inner')
    else:
        # s√≥ para exibi√ß√£o (n√£o filtra por plataforma)
        base = base.merge(plat_map, left_on=uid, right_on=uid_full, how='left')

    final_cols = [
        uid, 'Platform Title', 'BB Original Title', 'BB Title', 'BB Year',
        'Seasons', 'Episodes', 'Season Numbers',
        'BB Directors', 'BB Primary Company', 'BB Production Companies',
        'BB Countries', 'Plataformas', 'Deeplink_1'
    ]
    final_cols = [c for c in final_cols if c in base.columns]

    out = base[final_cols].sort_values(['Plataformas','BB Year','BB Title'], na_position='last')
    out['categoria'] = categoria

    # Campos para trabalho manual (v√™m vazios)
    for c in ['Respons√°vel', 'N¬∫ CPB encontrado', 'T√≠tulo encontrado', 'Observa√ß√£o']:
        out[c] = pd.NA
    return out

# -------- 4 listas finais --------
filmes_ESTR = _montar_lista(filmesEstr_BB_limpo, precisa_br=False, precisa_diretor=True,
                            filtrar_plataforma=True,  categoria='filmes_ESTR')
series_ESTR = _montar_lista(seriesEstr_BB_limpo, precisa_br=False, precisa_diretor=True,
                            filtrar_plataforma=True,  categoria='series_ESTR')
filmes_BR   = _montar_lista(filmesBR_BB_limpo,   precisa_br=True,  precisa_diretor=False,
                            filtrar_plataforma=False, categoria='filmes_BR')
series_BR   = _montar_lista(seriesBR_BB_limpo,   precisa_br=True,  precisa_diretor=False,
                            filtrar_plataforma=False, categoria='series_BR')

# Sanidade: interse√ß√£o deve ser 0
u_estr = set(filmes_ESTR[_uidcol(filmes_ESTR)]) | set(series_ESTR[_uidcol(series_ESTR)])
u_br   = set(filmes_BR[_uidcol(filmes_BR)])     | set(series_BR[_uidcol(series_BR)])
print("Interse√ß√£o (UIDs em ESTR e BR):", len(u_estr & u_br))

# Exporta
arq = "Revisao - NaoMatch (Estrg por plataforma + BR) ‚Äî FINAL.xlsx"
with pd.ExcelWriter(arq, engine='openpyxl') as wr:
    filmes_BR.to_excel(wr,   sheet_name='filmes_BR',   index=False)
    series_BR.to_excel(wr,   sheet_name='series_BR',   index=False)
    filmes_ESTR.to_excel(wr, sheet_name='filmes_ESTR', index=False)
    series_ESTR.to_excel(wr, sheet_name='series_ESTR', index=False)
print("Arquivo salvo:", arq)


Interse√ß√£o (UIDs em ESTR e BR): 0
Arquivo salvo: Revisao - NaoMatch (Estrg por plataforma + BR) ‚Äî FINAL.xlsx


In [63]:
print('Estrg Filmes com diretor vazio:', (estrg_filmes['BB Directors'].isna() | (estrg_filmes['BB Directors'].astype(str).str.strip() == '')).sum())
print('Estrg S√©ries com diretor vazio:', (estrg_series['BB Directors'].isna() | (estrg_series['BB Directors'].astype(str).str.strip() == '')).sum())


Estrg Filmes com diretor vazio: 0
Estrg S√©ries com diretor vazio: 0


In [64]:
# pega a base "estrangeira" ANTES do merge
base_fe = filmesEstr_BB_limpo.copy()   # idem para s√©ries depois
uidc = 'BB UID' if 'BB UID' in base_fe.columns else 'UID'

# quantos candidatos totais ap√≥s excluir casados?
tmp = base_fe[~base_fe[uidc].isin(uids_casados)]

# valida√ß√£o de diretor com uma limpeza mais r√≠gida (remove espa√ßos invis√≠veis tamb√©m)
def _trim_hard(s):
    s = s.astype(str).str.replace(r'[\u00A0\u2007\u202F\u200B-\u200D]', '', regex=True)  # NBSP, thin spaces, zero-width
    s = s.str.strip()
    return s

dir_raw  = tmp['BB Directors']
dir_trim = _trim_hard(dir_raw)

print('1A) candidatos p√≥s-exclus√£o de casados:', len(tmp))
print('1B) com diretor VAZIO (ap√≥s trim hard):',
      ((dir_trim.isna()) | (dir_trim == '') | (dir_trim.str.lower().isin(['nan','none']))).sum())

# amostra de 10 problem√°ticos (se houver)
bad_idx = ((dir_trim.isna()) | (dir_trim == '') | (dir_trim.str.lower().isin(['nan','none'])))
display(tmp.loc[bad_idx, [uidc,'BB Title','BB Directors']].head(10))


1A) candidatos p√≥s-exclus√£o de casados: 33031
1B) com diretor VAZIO (ap√≥s trim hard): 16962


Unnamed: 0,BB UID,BB Title,BB Directors
0,bcba58f6d60b0a071c777c8b5f4df4f0,,
9,cfaae4ba4cab543f7b15f14162603e20,,
19,8b85f4de38f336a0b014346475327120,,
22,2074eead05e97986df76c7368b28dd90,,
24,8677e93dbec016efb57d0158551ed039,,
26,43d38c7578dacb7bb9ba4a17928d3629,A Explos√£o da Ilha,
28,f01b9028af821fb623a783a608c4b1d3,Mulheres de Mamirau√°,
29,f432692dc25e5e6d5b7fb48bf42c686a,De Assalto,
30,fda333d1989d6a22180e2161135faab3,JOSEPHINA,
31,163ea76abf52ab1c264c05cc15655b86,Para Vler Poesia,


In [65]:
# reconstr√≥i a lista como no pipeline, mas guardando intermedi√°rios
base_ok = tmp[_trim_hard(tmp['BB Directors']).ne('') & tmp['BB Directors'].notna()]
out = base_ok.merge(uid_to_plats, left_on=uidc, right_on=_uid_col(Base_BB_import), how='left')
out = out[out['Plataformas'].astype(str).str.strip().ne('') & out['Plataformas'].notna()].copy()

# checagem p√≥s-merge
dir_after = _trim_hard(out['BB Directors'])
print('2) ap√≥s merge/filtro plataforma, diretor vazio =',
      ((dir_after.isna()) | (dir_after == '') | (dir_after.str.lower().isin(['nan','none']))).sum())

# se >0, mostra 10 linhas para inspecionar
bad2 = ((dir_after.isna()) | (dir_after == '') | (dir_after.str.lower().isin(['nan','none'])))
display(out.loc[bad2, [uidc,'BB Title','BB Directors','Plataformas']].head(10))


2) ap√≥s merge/filtro plataforma, diretor vazio = 0


Unnamed: 0,BB UID,BB Title,BB Directors,Plataformas


In [66]:
# usa exatamente o DF que voc√™ est√° salvando no Excel (ex.: estrg_filmes)
print('estrg_filmes (linhas):', len(estrg_filmes))

# valida√ß√£o direta no DF final
df_final = estrg_filmes.copy()
dtrim = df_final['BB Directors'].astype(str).replace(r'[\u00A0\u2007\u202F\u200B-\u200D]', '', regex=True).str.strip()
print('3) no DF final, diretor vazio =', ((dtrim=='') | dtrim.isna() | dtrim.str.lower().isin(['nan','none'])).sum())

# Exporta CSV tempor√°rio s√≥ com as linhas "suspeitas", se houver
sus = df_final[((dtrim=='') | dtrim.isna() | dtrim.str.lower().isin(['nan','none']))]
sus.to_csv('suspeitos_diretor_vazio.csv', index=False, encoding='utf-8')
print('CSV com suspeitos salvo (se n√£o estiver vazio): suspeitos_diretor_vazio.csv')


estrg_filmes (linhas): 435
3) no DF final, diretor vazio = 0
CSV com suspeitos salvo (se n√£o estiver vazio): suspeitos_diretor_vazio.csv


In [67]:
print('linhas a exportar:', len(estrg_filmes))
print('diretor vazio na exporta√ß√£o:',
      (estrg_filmes['BB Directors'].isna() |
       (estrg_filmes['BB Directors'].astype(str).str.strip() == '')).sum())

linhas a exportar: 435
diretor vazio na exporta√ß√£o: 0
