# Explore here

In [3]:
import pandas as pd

# URLs de los datasets
movies_url = "https://raw.githubusercontent.com/4GeeksAcademy/k-nearest-neighbors-project-tutorial/main/tmdb_5000_movies.csv"
credits_url = "https://raw.githubusercontent.com/4GeeksAcademy/k-nearest-neighbors-project-tutorial/main/tmdb_5000_credits.csv"

# Carga de los datasets en DataFrames
movies_df = pd.read_csv(movies_url)
credits_df = pd.read_csv(credits_url)

# Mostrar las primeras filas para verificar que se cargaron correctamente
print("Primeras filas del DataFrame de películas:")
print(movies_df.head())


Primeras filas del DataFrame de películas:
      budget                                             genres  \
0  237000000  [{"id": 28, "name": "Action"}, {"id": 12, "nam...   
1  300000000  [{"id": 12, "name": "Adventure"}, {"id": 14, "...   
2  245000000  [{"id": 28, "name": "Action"}, {"id": 12, "nam...   
3  250000000  [{"id": 28, "name": "Action"}, {"id": 80, "nam...   
4  260000000  [{"id": 28, "name": "Action"}, {"id": 12, "nam...   

                                       homepage      id  \
0                   http://www.avatarmovie.com/   19995   
1  http://disney.go.com/disneypictures/pirates/     285   
2   http://www.sonypictures.com/movies/spectre/  206647   
3            http://www.thedarkknightrises.com/   49026   
4          http://movies.disney.com/john-carter   49529   

                                            keywords original_language  \
0  [{"id": 1463, "name": "culture clash"}, {"id":...                en   
1  [{"id": 270, "name": "ocean"}, {"id": 726, "na..

In [4]:

print("\nPrimeras filas del DataFrame de créditos:")
print(credits_df.head())


Primeras filas del DataFrame de créditos:
   movie_id                                     title  \
0     19995                                    Avatar   
1       285  Pirates of the Caribbean: At World's End   
2    206647                                   Spectre   
3     49026                     The Dark Knight Rises   
4     49529                               John Carter   

                                                cast  \
0  [{"cast_id": 242, "character": "Jake Sully", "...   
1  [{"cast_id": 4, "character": "Captain Jack Spa...   
2  [{"cast_id": 1, "character": "James Bond", "cr...   
3  [{"cast_id": 2, "character": "Bruce Wayne / Ba...   
4  [{"cast_id": 5, "character": "John Carter", "c...   

                                                crew  
0  [{"credit_id": "52fe48009251416c750aca23", "de...  
1  [{"credit_id": "52fe4232c3a36847f800b579", "de...  
2  [{"credit_id": "54805967c3a36829b5002c41", "de...  
3  [{"credit_id": "52fe4781c3a36847f81398c3", "de...  
4 

Paso 2:

In [6]:
import sqlite3
import pandas as pd

# Crear una conexión a la base de datos SQLite (en memoria para este ejemplo)
conn = sqlite3.connect(':memory:')
cursor = conn.cursor()

# Guardar los DataFrames como tablas en SQLite
movies_df.to_sql('movies', conn, index=False, if_exists='replace')
credits_df.to_sql('credits', conn, index=False, if_exists='replace')

# Realizar la unión de las tablas utilizando SQL
query = """
SELECT 
    movies.id AS movie_id, 
    movies.title, 
    movies.overview, 
    movies.genres, 
    movies.keywords, 
    credits.cast, 
    credits.crew
FROM 
    movies
JOIN 
    credits
ON 
    movies.title = credits.title
"""

# Ejecutar la consulta y guardar el resultado en un nuevo DataFrame
merged_df = pd.read_sql_query(query, conn)

# Limpiar y mostrar el DataFrame resultante
merged_df = merged_df[['movie_id', 'title', 'overview', 'genres', 'keywords', 'cast', 'crew']]

# Mostrar las primeras filas para verificar
print(merged_df.head())

# Cerrar la conexión
conn.close()

   movie_id                                     title  \
0     19995                                    Avatar   
1       285  Pirates of the Caribbean: At World's End   
2    206647                                   Spectre   
3     49026                     The Dark Knight Rises   
4     49529                               John Carter   

                                            overview  \
0  In the 22nd century, a paraplegic Marine is di...   
1  Captain Barbossa, long believed to be dead, ha...   
2  A cryptic message from Bond’s past sends him o...   
3  Following the death of District Attorney Harve...   
4  John Carter is a war-weary, former military ca...   

                                              genres  \
0  [{"id": 28, "name": "Action"}, {"id": 12, "nam...   
1  [{"id": 12, "name": "Adventure"}, {"id": 14, "...   
2  [{"id": 28, "name": "Action"}, {"id": 12, "nam...   
3  [{"id": 28, "name": "Action"}, {"id": 80, "nam...   
4  [{"id": 28, "name": "Action"}, {"id":

In [9]:
print(merged_df.info())

# 1. Verificar si existen duplicados
duplicados = merged_df.duplicated().sum()
print(f"Número de filas duplicadas: {duplicados}")

# Si existen duplicados, los eliminamos
if duplicados > 0:
    merged_df = merged_df.drop_duplicates()
    print(f"Duplicados eliminados. El nuevo tamaño del dataset es: {df.shape}")

# 2. Análisis de valores nulos
valores_nulos = merged_df.isnull().sum()
print("\nValores nulos por columna:")
print(valores_nulos)

# Mostrar el porcentaje de valores nulos por columna
porcentaje_nulos = (valores_nulos / merged_df.shape[0]) * 100
print("\nPorcentaje de valores nulos por columna:")
print(porcentaje_nulos)


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4809 entries, 0 to 4808
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   movie_id  4809 non-null   int64 
 1   title     4809 non-null   object
 2   overview  4806 non-null   object
 3   genres    4809 non-null   object
 4   keywords  4809 non-null   object
 5   cast      4809 non-null   object
 6   crew      4809 non-null   object
dtypes: int64(1), object(6)
memory usage: 263.1+ KB
None
Número de filas duplicadas: 0

Valores nulos por columna:
movie_id    0
title       0
overview    3
genres      0
keywords    0
cast        0
crew        0
dtype: int64

Porcentaje de valores nulos por columna:
movie_id    0.000000
title       0.000000
overview    0.062383
genres      0.000000
keywords    0.000000
cast        0.000000
crew        0.000000
dtype: float64


Paso 3:

In [10]:
import pandas as pd
import ast

# Función para extraer los nombres de un JSON (para genres y keywords)
def extract_names(column_data):
    try:
        data = ast.literal_eval(column_data)  # Convertir la cadena JSON a un diccionario de Python
        names = [item['name'].replace(" ", "") for item in data]
        return " ".join(names)
    except:
        return ""

# Función para extraer los primeros tres actores del cast
def extract_top_cast(cast_data):
    try:
        data = ast.literal_eval(cast_data)  # Convertir la cadena JSON a un diccionario de Python
        cast_names = [item['name'].replace(" ", "") for item in data[:3]]  # Obtener los tres primeros nombres
        return " ".join(cast_names)
    except:
        return ""

# Función para extraer el nombre del director
def extract_director(crew_data):
    try:
        data = ast.literal_eval(crew_data)  # Convertir la cadena JSON a un diccionario de Python
        for item in data:
            if item['job'] == 'Director':
                return item['name'].replace(" ", "")  # Devolver el nombre del director sin espacios
        return ""
    except:
        return ""

# Transformación de las columnas 'genres' y 'keywords'
merged_df['genres'] = merged_df['genres'].apply(extract_names)
merged_df['keywords'] = merged_df['keywords'].apply(extract_names)

# Transformación de la columna 'cast' para obtener solo los tres primeros actores
merged_df['cast'] = merged_df['cast'].apply(extract_top_cast)

# Transformación de la columna 'crew' para obtener solo el nombre del director
merged_df['crew'] = merged_df['crew'].apply(extract_director)

# Reemplazar valores nulos en la columna 'overview' con cadenas vacías
merged_df['overview'] = merged_df['overview'].fillna("")

# Transformar 'overview' en una lista de palabras
merged_df['overview'] = merged_df['overview'].apply(lambda x: x.split())

# Crear la columna "tags" combinando todas las demás columnas procesadas
merged_df['tags'] = merged_df['overview'] + merged_df['genres'].apply(lambda x: x.split()) + merged_df['keywords'].apply(lambda x: x.split()) + merged_df['cast'].apply(lambda x: x.split()) + merged_df['crew'].apply(lambda x: x.split())

# Convertir la lista en una sola cadena
merged_df['tags'] = merged_df['tags'].apply(lambda x: " ".join(x))

# Verificar el resultado final
print(merged_df[['movie_id', 'title', 'tags']].head())

   movie_id                                     title  \
0     19995                                    Avatar   
1       285  Pirates of the Caribbean: At World's End   
2    206647                                   Spectre   
3     49026                     The Dark Knight Rises   
4     49529                               John Carter   

                                                tags  
0  In the 22nd century, a paraplegic Marine is di...  
1  Captain Barbossa, long believed to be dead, ha...  
2  A cryptic message from Bond’s past sends him o...  
3  Following the death of District Attorney Harve...  
4  John Carter is a war-weary, former military ca...  


In [18]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# Suponemos que partimos del DataFrame "merged_df" con la columna "tags"

# 1. Vectorización del texto
cv = CountVectorizer(max_features=5000, stop_words='english')
vectors = cv.fit_transform(merged_df['tags']).toarray()

# 2. Calcular la similitud de coseno
similarity = cosine_similarity(vectors)

# 3. Función de recomendación
def recommend(movie):
    try:
        # Encontrar el índice de la película
        movie_index = merged_df[merged_df['title'] == movie].index[0]
        # Obtener las similitudes de la película dada con todas las demás
        distances = similarity[movie_index]
        # Ordenar las películas por similitud y obtener las 5 más cercanas (excluyendo la misma película)
        movie_list = sorted(list(enumerate(distances)), reverse=True, key=lambda x: x[1])[1:6]
        
        # Mostrar las recomendaciones
        print(f"Películas similares a '{movie}':")
        for i in movie_list:
            print(merged_df.iloc[i[0]].title)
    except IndexError:
        print(f"No se encontró la película '{movie}' en la base de datos. Intenta con otro título.")

# Probar la función de recomendación
recommend("Never Say Never Again")

Películas similares a 'Never Say Never Again':
From Russia with Love
Dr. No
Spectre
Octopussy
The Man with the Golden Gun
