# Exploración del DataSet: IMDB 5000 Movie

En este notebook se va a realizar:

1. Exploración inicial del dataset
2. Identificación de problemas de calidad de datos

In [1]:
import pandas as pd
import numpy as np
import re

# Configuración para mostrar todas las columnas
pd.set_option('display.max_columns', None)

df = pd.read_csv("../data/movie_metadata.csv")

## 1. Exploración inicial del dataset

Se va a verificar la dimensión del dataset, los nombres de columnas y los tipos de datos.

In [2]:
print("Número de filas y columnas:", df.shape)
print("\nColumnas del dataset:")
print(df.columns)

Número de filas y columnas: (5043, 28)

Columnas del dataset:
Index(['color', 'director_name', 'num_critic_for_reviews', 'duration',
       'director_facebook_likes', 'actor_3_facebook_likes', 'actor_2_name',
       'actor_1_facebook_likes', 'gross', 'genres', 'actor_1_name',
       'movie_title', 'num_voted_users', 'cast_total_facebook_likes',
       'actor_3_name', 'facenumber_in_poster', 'plot_keywords',
       'movie_imdb_link', 'num_user_for_reviews', 'language', 'country',
       'content_rating', 'budget', 'title_year', 'actor_2_facebook_likes',
       'imdb_score', 'aspect_ratio', 'movie_facebook_likes'],
      dtype='object')


El dataset tiene aproximadamente 5000 filas y 28 columnas. Contiene información variada sobre pelicuas (datos básicos, reparto, finanzas, calificaciones y métricas de redes sociales).

In [3]:
print("Tipos de datos por columna:")
print(df.dtypes)

Tipos de datos por columna:
color                         object
director_name                 object
num_critic_for_reviews       float64
duration                     float64
director_facebook_likes      float64
actor_3_facebook_likes       float64
actor_2_name                  object
actor_1_facebook_likes       float64
gross                        float64
genres                        object
actor_1_name                  object
movie_title                   object
num_voted_users                int64
cast_total_facebook_likes      int64
actor_3_name                  object
facenumber_in_poster         float64
plot_keywords                 object
movie_imdb_link               object
num_user_for_reviews         float64
language                      object
country                       object
content_rating                object
budget                       float64
title_year                   float64
actor_2_facebook_likes       float64
imdb_score                   float64
aspect_rat

Hay columnas numéricas como duración presupuesto, recaudación, puntuaciones y likes.

Hay columnas de texto como título, director, actores, generos, idioma y país.

Ninguna columna es de fecha, aunque "title_year" indica el año de lanzamiento, pero al ser solo el año se representa como entero.

In [4]:
df.head()

Unnamed: 0,color,director_name,num_critic_for_reviews,duration,director_facebook_likes,actor_3_facebook_likes,actor_2_name,actor_1_facebook_likes,gross,genres,actor_1_name,movie_title,num_voted_users,cast_total_facebook_likes,actor_3_name,facenumber_in_poster,plot_keywords,movie_imdb_link,num_user_for_reviews,language,country,content_rating,budget,title_year,actor_2_facebook_likes,imdb_score,aspect_ratio,movie_facebook_likes
0,Color,James Cameron,723.0,178.0,0.0,855.0,Joel David Moore,1000.0,760505847.0,Action|Adventure|Fantasy|Sci-Fi,CCH Pounder,Avatar,886204,4834,Wes Studi,0.0,avatar|future|marine|native|paraplegic,http://www.imdb.com/title/tt0499549/?ref_=fn_t...,3054.0,English,USA,PG-13,237000000.0,2009.0,936.0,7.9,1.78,33000
1,Color,Gore Verbinski,302.0,169.0,563.0,1000.0,Orlando Bloom,40000.0,309404152.0,Action|Adventure|Fantasy,Johnny Depp,Pirates of the Caribbean: At World's End,471220,48350,Jack Davenport,0.0,goddess|marriage ceremony|marriage proposal|pi...,http://www.imdb.com/title/tt0449088/?ref_=fn_t...,1238.0,English,USA,PG-13,300000000.0,2007.0,5000.0,7.1,2.35,0
2,Color,Sam Mendes,602.0,148.0,0.0,161.0,Rory Kinnear,11000.0,200074175.0,Action|Adventure|Thriller,Christoph Waltz,Spectre,275868,11700,Stephanie Sigman,1.0,bomb|espionage|sequel|spy|terrorist,http://www.imdb.com/title/tt2379713/?ref_=fn_t...,994.0,English,UK,PG-13,245000000.0,2015.0,393.0,6.8,2.35,85000
3,Color,Christopher Nolan,813.0,164.0,22000.0,23000.0,Christian Bale,27000.0,448130642.0,Action|Thriller,Tom Hardy,The Dark Knight Rises,1144337,106759,Joseph Gordon-Levitt,0.0,deception|imprisonment|lawlessness|police offi...,http://www.imdb.com/title/tt1345836/?ref_=fn_t...,2701.0,English,USA,PG-13,250000000.0,2012.0,23000.0,8.5,2.35,164000
4,,Doug Walker,,,131.0,,Rob Walker,131.0,,Documentary,Doug Walker,Star Wars: Episode VII - The Force Awakens ...,8,143,,0.0,,http://www.imdb.com/title/tt5289954/?ref_=fn_t...,,,,,,,12.0,7.1,,0


El dataset se centra en peliculas publicadas en IMDB. Contiene métricas de popularidad, reseñas, presupuestos y recaudación. Estos datos pueden ser útiles para un análisis de éxito financiero y crítica, por ejemplo.

Cada fila representa una película individual, con toda la información.

## 2. Identificación de problemas de calidad de datos

In [5]:
nulos = df.isna().sum()
prop_nulos = (nulos / len(df)) * 100
pd.DataFrame({"Nulos": nulos, "Porcentaje (%)": prop_nulos})

Unnamed: 0,Nulos,Porcentaje (%)
color,19,0.37676
director_name,104,2.062265
num_critic_for_reviews,50,0.991473
duration,15,0.297442
director_facebook_likes,104,2.062265
actor_3_facebook_likes,23,0.456078
actor_2_name,13,0.257783
actor_1_facebook_likes,7,0.138806
gross,884,17.529248
genres,0,0.0


Observando la cantidad de nulos y el porcentaje en el dataset se decide:
- Remplazar por 0: director_facebook_likes, actor_1/2/3_facebook_likes
- Remplazar por la mediana: duration, budget, num_critic_for_reviews, num_user_for_reviews, gross, title_year
- Remplazar por la moda: color, language, country, aspect_ratio
- Remplazar por 'Unkown': content_raiting, actor_1/2/3_name, director_name, plot_keywords, language

In [6]:
print("Número de duplicados:", df.duplicated().sum())

Número de duplicados: 45


Existen algunos duplicados de fila completa. Estos necesitan eliminarse para no distorsionar análisis posteriores.

In [7]:
columnas_categoricas = df.columns.tolist()
for col in columnas_categoricas:
    print(f"{col}: {df[col].nunique()} categorías")

color: 2 categorías
director_name: 2398 categorías
num_critic_for_reviews: 528 categorías
duration: 191 categorías
director_facebook_likes: 435 categorías
actor_3_facebook_likes: 906 categorías
actor_2_name: 3032 categorías
actor_1_facebook_likes: 878 categorías
gross: 4035 categorías
genres: 914 categorías
actor_1_name: 2097 categorías
movie_title: 4917 categorías
num_voted_users: 4826 categorías
cast_total_facebook_likes: 3978 categorías
actor_3_name: 3521 categorías
facenumber_in_poster: 19 categorías
plot_keywords: 4760 categorías
movie_imdb_link: 4919 categorías
num_user_for_reviews: 954 categorías
language: 46 categorías
country: 65 categorías
content_rating: 18 categorías
budget: 439 categorías
title_year: 91 categorías
actor_2_facebook_likes: 917 categorías
imdb_score: 78 categorías
aspect_ratio: 22 categorías
movie_facebook_likes: 876 categorías


No se observan cantidades raras de valores a excepción de "genres", que queda justificado al ver que son conjuntos de generos y no géneros individuales.

("action|fantasy" en lugar de "action" y "fantasy")

In [8]:
print("Películas con duración negativa:", df[df["duration"] < 0].shape[0])
print("Películas con recaudación negativa:", df[df["gross"] < 0].shape[0])
print("Películas con presupuesto negativo:", df[df["budget"] < 0].shape[0])

Películas con duración negativa: 0
Películas con recaudación negativa: 0
Películas con presupuesto negativo: 0


No se detectan posibles inconsistencias como duraciones, recaudaciones o presupuestos negativos.