Vamos a trabajar base de datos IMDb

pip install pandas sqlalchemy pymysql
pip install rapidfuzz

In [None]:
import pandas as pd
from sqlalchemy import create_engine
from rapidfuzz import process, fuzz
import time

Leemos el archivo title basics:

In [5]:
basics = pd.read_csv(
    r"C:\Users\rubit\Desktop\Formaciones\IT ACADEMY\Nivel II\PROYECTO FINAL\Sprint 13\BBDD\iMBD Datasets\BBDD DE IMDb\title.basics.tsv",
    sep="\t",
    na_values="\\N",
    low_memory=False
)                                                                                                       

In [6]:
basics.head()
basics.shape
basics.columns

Index(['tconst', 'titleType', 'primaryTitle', 'originalTitle', 'isAdult',
       'startYear', 'endYear', 'runtimeMinutes', 'genres'],
      dtype='object')

Nos quedamos solo con las columnas y los tipos que nos hacen falta:

In [7]:
basics = basics[[
    "tconst",
    "titleType",
    "primaryTitle",
    "originalTitle",
    "startYear",
    "runtimeMinutes"
]]

In [8]:
basics = basics[
    basics["titleType"].isin(["movie", "tvSeries"])
]

Leemos el archivo title ratings:

In [9]:
ratings = pd.read_csv(
    r"C:\Users\rubit\Desktop\Formaciones\IT ACADEMY\Nivel II\PROYECTO FINAL\Sprint 13\BBDD\iMBD Datasets\BBDD DE IMDb\title.ratings.tsv",
    sep="\t",
    na_values="\\N"
)

In [10]:
ratings.head()

Unnamed: 0,tconst,averageRating,numVotes
0,tt0000001,5.7,2188
1,tt0000002,5.5,308
2,tt0000003,6.5,2289
3,tt0000004,5.1,196
4,tt0000005,6.2,3020


In [11]:
ratings = ratings[[
    "tconst",
    "averageRating",
    "numVotes"
]]

Unimos las dos Bases de Datos:

In [12]:
imdb = basics.merge(
    ratings,
    on="tconst",
    how="left"
)

In [13]:
imdb.shape
imdb.isna().mean()

tconst            0.000000
titleType         0.000000
primaryTitle      0.000004
originalTitle     0.000004
startYear         0.130422
runtimeMinutes    0.442335
averageRating     0.566191
numVotes          0.566191
dtype: float64

Hacemos limpieza de la base de datos

Años:

In [14]:
imdb = imdb[imdb["startYear"].notna()]
imdb["startYear"] = imdb["startYear"].astype(int)

Duración:

In [15]:
imdb["runtimeMinutes"] = pd.to_numeric(
    imdb["runtimeMinutes"],
    errors="coerce"
)

Normalización de títulos:

In [16]:
imdb["title_clean"] = (
    imdb["primaryTitle"]
    .str.lower()
    .str.normalize("NFKD")
    .str.encode("ascii", errors="ignore")
    .str.decode("utf-8")
    .str.replace(r"[^a-z0-9 ]", "", regex=True)
)

Conectamos a la base de datos a MYSQL y subimos los nuevos datos:

In [None]:
engine = create_engine(
    "mysql+pymysql://root:1***@localhost:3306/streaming_analysis"
)

In [18]:
imdb.to_sql(
    "imdb_titles",
    con=engine,
    if_exists="replace",
    index=False
)

897013

EXTRAER DATOS A PYTHON PARA PODER HACER MATCH CON LA TABLA streaming_catalog

Cargamos IMDB

In [19]:
streaming = pd.read_sql("""
    SELECT id, title_clean, type, release_year
    FROM streaming_catalog
""", engine)

In [20]:
imdb = pd.read_sql("""
    SELECT tconst, title_clean, titleType, startYear,
           averageRating, numVotes
    FROM imdb_titles
""", engine)

Primer matching: unimos por title_clean, year y type

In [21]:
imdb["type_mapped"] = imdb["titleType"].map({
    "movie": "Movie",
    "tvSeries": "TV Show"
})

In [22]:
exact_match = streaming.merge(
    imdb,
    left_on=["title_clean", "release_year", "type"],
    right_on=["title_clean", "startYear", "type_mapped"],
    how="inner"
)

In [23]:
exact_match["match_type"] = "exact"

Títulos no matcheados. Hacemos un fuzzy matching:

In [24]:
matched_ids = exact_match["id"].unique()

remaining = streaming[~streaming["id"].isin(matched_ids)]

In [None]:

# PREPARACIÓN DE LOS DATOS
imdb["startYear"] = pd.to_numeric(imdb["startYear"], errors='coerce')
remaining["release_year"] = pd.to_numeric(remaining["release_year"], errors='coerce')

# OPTIMIZACIÓN CLAVE: PRE-AGRUPAR IMDB 
# Creamos un diccionario donde la llave es (tipo, año) y el valor son los títulos de ese año
# Esto evita que Python tenga que recorrer millones de filas en cada iteración
print("Agrupando dataset de IMDb para búsqueda rápida...")
imdb_lookup = {}
for (tipo, year), group in imdb.groupby(["type_mapped", "startYear"]):
    # Guardamos solo lo necesario: el título y su tconst
    imdb_lookup[(tipo, int(year))] = group[["title_clean", "tconst"]].values.tolist()

#BUCLE OPTIMIZADO CON ITERTUPLES
matches = []
limit = 3000
start_time = time.time()

print(f"Iniciando Fuzzy Matching (Límite: {limit} filas)...")

for i, row in enumerate(remaining.itertuples(index=False)):
    # Control de progreso y límite
    if i >= limit:
        break
    if i % 500 == 0 and i > 0:
        elapsed = time.time() - start_time
        print(f"✅ {i} títulos procesados... ({elapsed:.2f} segundos)")

    # Definir variables de la fila actual
    target_title = row.title_clean
    target_year = int(row.release_year) if not pd.isna(row.release_year) else None
    target_type = row.type

    if target_year is None:
        continue

    # Buscar candidatos en año -1, 0, +1
    choices_list = []
    for offset in [-1, 0, 1]:
        year_to_check = target_year + offset
        # Extraemos del diccionario pre-agrupado
        choices_list.extend(imdb_lookup.get((target_type, year_to_check), []))

    if not choices_list:
        continue

    # Separamos títulos para el comparador y mantenemos referencia a tconst
    # choices_list es una lista de listas: [[titulo, tconst], [titulo, tconst], ...]
    titles_only = [c[0] for c in choices_list]

    # Ejecutar RapidFuzz
    result = process.extractOne(
        target_title,
        titles_only,
        scorer=fuzz.token_sort_ratio
    )

    if result:
        matched_title, score, idx = result
        
        if score >= 90:
            # Obtenemos el tconst usando el índice de la lista de candidatos
            tconst_encontrado = choices_list[idx][1]

            matches.append({
                "id": row.id,
                "tconst": tconst_encontrado,
                "match_type": "fuzzy",
                "score": score,
                "matched_title": matched_title # Útil para verificar visualmente
            })

df_matches = pd.DataFrame(matches)
end_time = time.time()

print(f"\n¡Proceso finalizado!")
print(f"Total coincidencias encontradas: {len(df_matches)}")
print(f"Tiempo total: {end_time - start_time:.2f} segundos")

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  remaining["release_year"] = pd.to_numeric(remaining["release_year"], errors='coerce')


Agrupando dataset de IMDb para búsqueda rápida...
Iniciando Fuzzy Matching (Límite: 3000 filas)...
✅ 500 títulos procesados... (22.47 segundos)
✅ 1000 títulos procesados... (44.56 segundos)
✅ 1500 títulos procesados... (67.38 segundos)
✅ 2000 títulos procesados... (95.03 segundos)
✅ 2500 títulos procesados... (126.26 segundos)

¡Proceso finalizado!
Total coincidencias encontradas: 690
Tiempo total: 155.19 segundos


In [40]:
fuzzy_match = pd.DataFrame(matches)

Unimos todos los matches:

In [41]:
catalog_imdb_match = pd.concat([
    exact_match[["id", "tconst", "match_type"]],
    fuzzy_match[["id", "tconst", "match_type"]]
])

Subimos tabla de matching a SQL

In [42]:
catalog_imdb_match.to_sql(
    "catalog_imdb_match",
    con=engine,
    if_exists="replace",
    index=False
)

12722