# Limpieza de Datos: Movies Dataset

Este notebook presenta un proceso de limpieza de datos aplicado al dataset de películas, disponible en Kaggle.  
El objetivo es identificar y tratar al menos cinco problemáticas que afectan la calidad del dataset para su posterior análisis.

Dataset: [Movies Dataset - Kaggle](https://www.kaggle.com/datasets/bharatnatrayn/movies-dataset-for-feature-extracion-prediction)


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configuración general
sns.set(style="whitegrid")


In [None]:
# Cargar el archivo CSV (ajustar nombre si es necesario)
df = pd.read_csv("movies.csv")
df.head()

## Revisión Inicial del Dataset

In [None]:
# Información general
df.info()

In [None]:
# Verificar valores nulos
df.isnull().sum().sort_values(ascending=False)

In [None]:
# Duplicados
df.duplicated().sum()

## Problemas Identificados y Procesos de Limpieza

### 1. Valores Nulos
Algunas columnas tienen un número elevado de valores nulos. Se decidirá si imputar o eliminar según el caso.


In [None]:
# Eliminar columnas con más del 50% de nulos
null_threshold = len(df) * 0.5
df = df.loc[:, df.isnull().sum() < null_threshold]
df.shape

### 2. Filas duplicadas
Es importante eliminar entradas repetidas para evitar sesgos en el análisis.


In [None]:
# Eliminar duplicados
df = df.drop_duplicates()
df.shape

### 3. Formato incorrecto de fechas
Asegurarse de que las columnas de fecha estén en el formato datetime.


In [None]:
# Convertir a formato datetime si existe una columna de fecha
if 'release_date' in df.columns:
    df['release_date'] = pd.to_datetime(df['release_date'], errors='coerce')
    df['release_date'].head()

### 4. Valores inconsistentes en columnas categóricas
Estandarización de texto en columnas como género o país.


In [None]:
# Estandarizar strings si la columna 'genre' existe
if 'genre' in df.columns:
    df['genre'] = df['genre'].str.lower().str.strip()
    df['genre'].value_counts().head()

### 5. Outliers en duración o presupuesto
Detección y manejo de valores extremos en variables numéricas.


In [None]:
# Boxplot para detectar outliers en 'duration' y 'budget'
for col in ['duration', 'budget']:
    if col in df.columns:
        sns.boxplot(x=df[col])
        plt.title(f'Distribución de {col}')
        plt.show()

## Dataset Limpio

In [None]:
df.head()