# Limpieza del DataSet: IMDB 5000 Movie

En este notebook se realiza un proceso de limpieza de datos incluyendo:

1. Carga del dataset
2. Renombrar y ordenar columnas
3. Gestión de valores nulos
4. Corrección de tipos
	1. Corrección de tipos numéricos
	2. Normalización de strings
	3. Limpieza de columnas con valores múltiples
5. Detección y eliminación de duplicados
6. Guardar dataset

## 1. Carga del dataset

In [1]:
from DataSet import LimpiadorDataset

In [2]:
limpiador = LimpiadorDataset("../data/movie_metadata.csv")

Dataset cargado desde ../data/movie_metadata.csv.


## 2. Renombrar y ordenar columnas

In [3]:
limpiador.listar_columnas()

['color',
 'director_name',
 'num_critic_for_reviews',
 'duration',
 'director_facebook_likes',
 'actor_3_facebook_likes',
 'actor_2_name',
 'actor_1_facebook_likes',
 'gross',
 'genres',
 'actor_1_name',
 'movie_title',
 'num_voted_users',
 'cast_total_facebook_likes',
 'actor_3_name',
 'facenumber_in_poster',
 'plot_keywords',
 'movie_imdb_link',
 'num_user_for_reviews',
 'language',
 'country',
 'content_rating',
 'budget',
 'title_year',
 'actor_2_facebook_likes',
 'imdb_score',
 'aspect_ratio',
 'movie_facebook_likes']

Las columnas están desordenadas y con nombres que a lo mejor no son aclarativos. Por eso se van a modificar las cabeceras para que sean mas leibles y descriptivas.

Esto facilitará la manipulación de datos más adelante.

In [4]:
nuevo_orden = [
    # Información básica de la película
    "Movie Title", "Title Year", "Movie Imdb Link", "Language", "Country", "Content Rating",
    # Información cinematográfica
    "Duration", "Color", "Genres", "Aspect Ratio", "Plot Keywords", "Facenumber In Poster",
    # Reparto
    "Director Name", "Actor 1 Name", "Actor 2 Name", "Actor 3 Name",
    # Dinero
    "Budget", "Gross",
    # Calidad
    "Num Voted Users", "Num User For Reviews", "Num Critic For Reviews", "Imdb Score",
    # Facebook
    "Director Facebook Likes", "Actor 1 Facebook Likes", "Actor 2 Facebook Likes",
    "Actor 3 Facebook Likes", "Cast Total Facebook Likes", "Movie Facebook Likes"
]

limpiador.renombrar_columnas(nuevo_orden)

Se han renombrado las columnas.


<DataSet.LimpiadorDataset at 0x21bd7256f90>

## 3. Revisión de nulos y tipos

Siguiendo lo observado en la exploración se procede a tratar los nulos.

In [5]:
por0 = ["Director Facebook Likes", "Actor 1 Facebook Likes", "Actor 2 Facebook Likes", 
        "Actor 3 Facebook Likes", "Facenumber In Poster"]

Todas estas columnas remplazan los nulos por 0 ya que es viable y no altera mucho la realidad del data set que los likes o las caras en un poster sean 0.

In [6]:
porMediana = ["Duration", "Budget", "Num Critic For Reviews", "Num User For Reviews", "Gross",
              "Title Year"]

Todas estas columnas remplazan los nulos por la mediana para distribuir los nulos y pueden existir valores muy altos y muy bajos, los cuales modificarían mucho la media, por eso usamos la mediana.

In [7]:
porModa = ["Color", "Language", "Country", "Aspect Ratio"]

Todas estas columnas remplazan los nulos por la moda por ser variables categóricas y no tener muchos valores nulos.

In [8]:
porUnknown = ["Content Rating", "Actor 1 Name", "Actor 2 Name", "Actor 3 Name", "Director Name",
              "Plot Keywords", "Language"]


Todas estas columnas remplazan los nulos por "Unknown" ya que no es muy immportante la información que se pierde.

In [9]:
limpiador.revisar_nulos(por0, porMediana, porModa, porUnknown)

Se han revisado los nulos.


<DataSet.LimpiadorDataset at 0x21bd7256f90>

Se puede comprobar que se han limpiado todos los datos tras remplazar los nulos.

## 4. Corrección de tipos

### 4.1. Corrección de tipos numéricos

Se va a asegurar que todas las columnas numéricas sean del tipo correcto (`int` o `float`).
Esto permitirá operaciones matemáticas y estadísticas sin errores.

In [10]:
col_float = ["Aspect Ratio", "Budget", "Gross", "Imdb Score"]
col_int = ["Title Year", "Duration", "Facenumber In Poster", "Num Voted Users", "Num User For Reviews", "Num Critic For Reviews", "Director Facebook Likes", 
           "Actor 1 Facebook Likes", "Actor 2 Facebook Likes", "Actor 3 Facebook Likes", "Cast Total Facebook Likes", "Movie Facebook Likes"]

limpiador.correccion_numericos(col_float, col_int)

Se han corregido los tipos de datos.


<DataSet.LimpiadorDataset at 0x21bd7256f90>

### 4.2. Normalización de strings

Se van a quitar los espacios al inicio y al final de los strings, y esto evita errores de coincidencia en filtros o análisis de categorías.

In [11]:
col_string = ["Movie Title", "Movie Imdb Link", "Language", "Country", "Content Rating", "Color",
              "Genres", "Plot Keywords", "Director Name", "Actor 1 Name",
              "Actor 2 Name", "Actor 3 Name", ]

limpiador.normalizacion_strings(col_string)

Se han normalizado los strings.


<DataSet.LimpiadorDataset at 0x21bd7256f90>

### 4.3. Limpieza de columnas con valores múltiples

Se van a limpiar los espacios y carácteres especiales (`\n`, `\t` y `"`) en "Genres" y "Plot Keywords" en cada unos de sus valores.

Antes de nada reseteamos el indice para poder recorrer correctamente el df, ya que al haber eliminado filas puede darnos error.

In [12]:
limpiador.limpiar_valores_multiples("Genres")
limpiador.limpiar_valores_multiples("Plot Keywords")

Se han limpiado los valores múltiples.
Se han limpiado los valores múltiples.


<DataSet.LimpiadorDataset at 0x21bd7256f90>

## 5. Detección y eliminación de duplicados

Se van a identificar y tratar si existen filas duplicadas.

En este caso se considera que ninguna de las columnas nombradas anteriormente actúan como id, ya que se puede repetir su valor en varias filas.

Por lo tanto, se van a buscar filas cuyos campos sean todos iguales (`fila1==fila2`)

44 películas duplicadas que hay que eliminar.

In [13]:
limpiador.revisar_duplicados()

Se han eliminado 45 líneas duplicadas.


<DataSet.LimpiadorDataset at 0x21bd7256f90>

## 6. Guardar DataSet

In [14]:
limpiador.guardar("../data/imdb_5000_movies_limpio.csv")

Dataset guardado en ../data/imdb_5000_movies_limpio.csv.


<DataSet.LimpiadorDataset at 0x21bd7256f90>