# **📈Limpieza datasets IMBd project**

## **Objetivo:** Crear nuevos datasets con la información relevante y limpia.


Para todos los datasets se les aplicará una limpieza básica:

-   Transformación de columnas a su tipo correcto
-   Conversión de \N en nulos.
-   Quitar posibles espacios en las "strings".



In [1]:
import pandas as pd
import sys
import os
sys.path.insert(0, os.path.abspath("..")) 
from src.data_cleaning import clean_name_basics, clean_title_akas, clean_title_basics, clean_title_principals
from src.data_loader import load_imdb_data, get_project_root
from src.data_analysis import resumen_df
from utils import create_episode_df

### **Title Basics**

En este dataset a parte de la limpieza básica se realizarán:
-   Eliminar los titleType que no usaremos para nuestro proyecto (video, videoGame, tvPilot, tvSpecial).
-   Convertir la columna de genres en lista para poder manejarlo de una forma mucho mas eficiente.
-   Convertir columna isAdult a booleano (true / false).
-   Deshacerse de los tvEpisodes en titleType.  ¿Por qué? De los mas de 11 millones de títulos, mas de 9 millones son de tvEpisodes. Es preferible mover esos datos de Title Basics a Title Episode y en title Basics mantener únicamente el título de la serie (como tvSerie, tvShow...). En el caso de necesitar información sobre episodios puede usarse el DataFrame de titleEpisode. 

In [2]:
titleBasics_df= load_imdb_data("title.basics.tsv")

clean_titleBasics = clean_title_basics (titleBasics_df)  #Formula en /src

#Asi se queda el archivo limpio.
resumen_df(clean_titleBasics)

  df = pd.read_csv(file_path, sep=sep)


🔵Resumen del dataset:
  🔸Filas: 2304795
  🔸Columnas: 9
  🔸Filas duplicadas: 0
  🔸Datos nulos totales: 3377027

🔵Columnas y tipos de datos:
tconst            object
titleType         object
primaryTitle      object
originalTitle     object
isAdult             bool
startYear          Int64
endYear            Int64
runtimeMinutes     Int64
genres            object
dtype: object

🔵Nulos por columna (%):
primaryTitle        0.0%
originalTitle       0.0%
startYear          7.83%
endYear           93.75%
runtimeMinutes    39.89%
genres             5.06%
dtype: object

🔵Valores únicos por columna:
tconst            2304795
titleType               6
primaryTitle      1769897
originalTitle     1795255
isAdult                 2
startYear             153
endYear                99
runtimeMinutes        746
genres               2284
dtype: int64


Unnamed: 0,tconst,titleType,primaryTitle,originalTitle,isAdult,startYear,endYear,runtimeMinutes,genres
0,tt0000001,short,Carmencita,Carmencita,False,1894,,1,"[Documentary, Short]"
1,tt0000002,short,Le clown et ses chiens,Le clown et ses chiens,False,1892,,5,"[Animation, Short]"
2,tt0000003,short,Poor Pierrot,Pauvre Pierrot,False,1892,,5,"[Animation, Comedy, Romance]"
3,tt0000004,short,Un bon bock,Un bon bock,False,1892,,12,"[Animation, Short]"
4,tt0000005,short,Blacksmith Scene,Blacksmith Scene,False,1893,,1,[Short]


In [3]:
#Guardar el csv en /data/processed

output_path = os.path.join(os.getcwd(), "..", "data", "processed", "title.basics.clean.csv")

clean_titleBasics.to_csv(output_path, index=False)

## **Title Akas**

En este dataset a parte de la limpieza básica se realizarán:
-   Se juntarán todos los datos del mismo titleId en una fila. Haciendo listas para las columnas de region y titles.
-   Eliminar las columnas de: ordering, types, isOriginalTitle, language. Ordering porque al juntar los datos no aporta nada, types es inconsistente e irrelevante, el isOriginalTitle lo encontramos en el dataset de Title basics, y language es casi todo nulo y parece que casi siempre aparece unicamente con idiomas asiáticos.
-   Cambiamos los nombres de las columnas para especificar que son listas.

In [3]:
titleAkas_df= load_imdb_data("title.akas.tsv")

clean_titleAkas = clean_title_akas (titleAkas_df)  #Formula en /src

#Asi se queda el archivo limpio.
resumen_df(clean_titleAkas)


🔵Resumen del dataset:
  🔸Filas: 11756174
  🔸Columnas: 3
  🔸Filas duplicadas: 0
  🔸Datos nulos totales: 0

🔵Columnas y tipos de datos:
titleId       object
titlesList    object
regionList    object
dtype: object

🔵Valores únicos por columna:
titleId       11756174
titlesList     5478589
regionList      171999
dtype: int64


Unnamed: 0,titleId,titlesList,regionList
0,tt0000001,"[Carmencita, Carmencita - spanyol tánc, Καρμεν...","[DE, GR, HU, JP, RU, UA, US, \N]"
1,tt0000002,"[A bohóc és kutyái, Clovnul si cainii sai, Der...","[DE, FR, HU, JP, RO, RU, US, \N]"
2,tt0000003,"[Armer Pierrot, Pauvre Pierrot, Poor Pierrot, ...","[DE, FR, GB, HU, JP, RO, RU, UA, US, \N]"
3,tt0000004,"[A Good Beer, Egy jó pohár sör, Ein gutes Glas...","[DE, FR, HU, JP, RO, RU, \N]"
4,tt0000005,"[A patkolókovács, Blacksmith Scene, Blacksmith...","[CA, DE, GB, HU, RU, UA, US, \N]"


In [4]:
#Guardar el csv en /data/processed

output_path = os.path.join(os.getcwd(), "..", "data", "processed", "title.akas.clean.csv")

clean_titleAkas.to_csv(output_path, index=False)

## **Title Ratings**

Este dataset solo consta de las columnas y filas necesarias, ademas tienen ya los datos números según si tipo ya definidos. Por lo que no es necesaria ninguna limpieza.

In [None]:
#Guardar el csv en /data/processed
titleRatings_df= load_imdb_data("title.ratings.tsv")

output_path = os.path.join(os.getcwd(), "..", "data", "processed", "title.ratings.clean.csv")
titleRatings_df.to_csv(output_path, index=False)

## **Title Episode**

En este dataset a parte de la limpieza básica se realizarán:
-   Se juntarán los datos de los episodios del DataFrame original de titleBasics con type tvEpisode.
-   Se filtraran las columnas para que solo tengan los mismos datos que el dataset limpio de title Basics junto con el numero de episodio y temporada.

In [2]:
titleEpisode_df= load_imdb_data("title.basics.tsv")

clean_titleEpisode = create_episode_df (titleEpisode_df)  #Formula en /src

#Asi se queda el archivo limpio.
resumen_df(clean_titleEpisode)

  df = pd.read_csv(file_path, sep=sep)


🔵Resumen del dataset:
  🔸Filas: 9075209
  🔸Columnas: 7
  🔸Filas duplicadas: 0
  🔸Datos nulos totales: 3719519

🔵Columnas y tipos de datos:
tconst            object
parentTconst      object
seasonNumber       Int64
episodeNumber      Int64
primaryTitle      object
startYear         object
runtimeMinutes    object
dtype: object

🔵Nulos por columna (%):
parentTconst       0.0%
seasonNumber     20.49%
episodeNumber    20.49%
primaryTitle       0.0%
dtype: object

🔵Valores únicos por columna:
tconst            9075209
parentTconst       223356
seasonNumber          324
episodeNumber       15785
primaryTitle      3357611
startYear             105
runtimeMinutes        539
dtype: int64


Unnamed: 0,tconst,parentTconst,seasonNumber,episodeNumber,primaryTitle,startYear,runtimeMinutes
0,tt0031458,tt32857063,,,El huésped del sevillano,1970,86
1,tt0041951,tt0041038,1.0,9.0,The Tenderfeet,1949,30
2,tt0042816,tt0989125,1.0,17.0,Othello,1950,143
3,tt0042889,tt0989125,,,The Tragedy of King Richard II/II,1950,145
4,tt0043426,tt0040051,3.0,42.0,Coriolanus,1951,60


In [3]:
#Guardar el csv en /data/processed

output_path = os.path.join(os.getcwd(), "..", "data", "processed", "title.episode.clean.csv")

clean_titleEpisode.to_csv(output_path, index=False)

## **Name Basics**

En este dataset no necesita de ningun trabajo extra. Las columnas son todas necesarias y no requieren de ninguna modificación. Así que solo se aplica la limpieza básica.

In [5]:
nameBasics_df= load_imdb_data("name.basics.tsv")

clean_nameBasics = clean_name_basics (nameBasics_df)  #Formula en /src

#Asi se queda el archivo limpio.
resumen_df(clean_nameBasics)

🔵Resumen del dataset:
  🔸Filas: 14575486
  🔸Columnas: 6
  🔸Filas duplicadas: 0
  🔸Datos nulos totales: 28252669

🔵Columnas y tipos de datos:
nconst               object
primaryName          object
birthYear             Int64
deathYear             Int64
primaryProfession    object
knownForTitles       object
dtype: object

🔵Nulos por columna (%):
primaryName      0.0%
birthYear      95.53%
deathYear      98.31%
dtype: object

🔵Valores únicos por columna:
nconst               14575486
primaryName          11150405
birthYear                 557
deathYear                 502
primaryProfession       23334
knownForTitles        6041739
dtype: int64


Unnamed: 0,nconst,primaryName,birthYear,deathYear,primaryProfession,knownForTitles
0,nm0000001,Fred Astaire,1899,1987.0,"[actor, miscellaneous, producer]","[tt0072308, tt0050419, tt0027125, tt0025164]"
1,nm0000002,Lauren Bacall,1924,2014.0,"[actress, soundtrack, archive_footage]","[tt0037382, tt0075213, tt0117057, tt0038355]"
2,nm0000003,Brigitte Bardot,1934,,"[actress, music_department, producer]","[tt0057345, tt0049189, tt0056404, tt0054452]"
3,nm0000004,John Belushi,1949,1982.0,"[actor, writer, music_department]","[tt0072562, tt0077975, tt0080455, tt0078723]"
4,nm0000005,Ingmar Bergman,1918,2007.0,"[writer, director, actor]","[tt0050986, tt0069467, tt0050976, tt0083922]"


In [6]:
#Guardar el csv en /data/processed

output_path = os.path.join(os.getcwd(), "..", "data", "processed", "name.basics.clean.csv")

clean_nameBasics.to_csv(output_path, index=False)

## **Title Principals**

En este dataset a parte de la limpieza básica se realizarán:
-   Elimina la columna ordering ya que no aporta información útil.
-   Convierte a nulo los trabajos que son iguales al category ya que tampoco aporta ninguna información extra.

In [7]:
titlePrincipals_df= load_imdb_data("title.principals.tsv")

clean_titlePrincipals = clean_title_principals (titlePrincipals_df)  #Formula en /src

#Asi se queda el archivo limpio.
resumen_df(clean_titlePrincipals)

🔵Resumen del dataset:
  🔸Filas: 93707628
  🔸Columnas: 5
  🔸Filas duplicadas: 309091
  🔸Datos nulos totales: 135477170

🔵Columnas y tipos de datos:
tconst        object
nconst        object
category      object
job           object
characters    object
dtype: object

🔵Nulos por columna (%):
job           93.27%
characters     51.3%
dtype: object

🔵Valores únicos por columna:
tconst        10664414
nconst         6755421
category            13
job              44915
characters     4319614
dtype: int64


Unnamed: 0,tconst,nconst,category,job,characters
0,tt0000001,nm1588970,self,,"[""Self""]"
1,tt0000001,nm0005690,director,,
2,tt0000001,nm0005690,producer,,
3,tt0000001,nm0374658,cinematographer,director of photography,
4,tt0000002,nm0721526,director,,


In [8]:
#Guardar el csv en /data/processed

output_path = os.path.join(os.getcwd(), "..", "data", "processed", "title.principals.clean.csv")

clean_titlePrincipals.to_csv(output_path, index=False)