# **📈Exploración datasets IMBd project**

## **Objetivo:** Analizar la estructura y calidad de datos en los datasets

## Preguntas clave:

- ¿Que columnas hay y que significan? 
- ¿Problemas de calidad? (nulos, duplicados...)
- Otros problemas específicos


In [None]:
# IMPORTACION LIBRERIAS Y CARGA DE DATOS

import pandas as pd
import sys
import os

#Para poder acceder a src donde estan guardadas las funciones e importarlas
sys.path.insert(0, os.path.abspath("..")) 
from src.data_loader import load_imdb_data
from src.data_analysis import resumen_df

#Cargar los datasets en DataFrame

titleBasics_df= load_imdb_data("title.basics.tsv")
titleAkas_df= load_imdb_data("title.akas.tsv")
titleEpisode_df= load_imdb_data("title.episode.tsv")
titlePrincipals_df= load_imdb_data("title.principals.tsv")
titleRatings_df= load_imdb_data("title.ratings.tsv")
nameBasics_df= load_imdb_data("name.basics.tsv")

### **1️⃣Title Basics**

In [None]:
resumen_df(titleBasics_df)  #Código en src / data_analysis

🔵Resumen del dataset:
  🔸Filas: 11790905
  🔸Columnas: 9
  🔸Filas duplicadas: 0
  🔸Datos nulos totales: 649

🔵Columnas y tipos de datos:
tconst            object
titleType         object
primaryTitle      object
originalTitle     object
isAdult           object
startYear         object
endYear           object
runtimeMinutes    object
genres            object
dtype: object

🔵Nulos por columna (%):
primaryTitle      0.0%
originalTitle     0.0%
genres           0.01%
dtype: object

🔵Valores únicos por columna:
tconst            11790905
titleType               11
primaryTitle       5312249
originalTitle      5338056
isAdult                 39
startYear              153
endYear                101
runtimeMinutes         985
genres                2372
dtype: int64


Unnamed: 0,tconst,titleType,primaryTitle,originalTitle,isAdult,startYear,endYear,runtimeMinutes,genres
0,tt0000001,short,Carmencita,Carmencita,0,1894,\N,1,"Documentary,Short"
1,tt0000002,short,Le clown et ses chiens,Le clown et ses chiens,0,1892,\N,5,"Animation,Short"
2,tt0000003,short,Poor Pierrot,Pauvre Pierrot,0,1892,\N,5,"Animation,Comedy,Romance"
3,tt0000004,short,Un bon bock,Un bon bock,0,1892,\N,12,"Animation,Short"
4,tt0000005,short,Blacksmith Scene,Blacksmith Scene,0,1893,\N,1,Short


El dataset consta de 11 millones de registros.

Aunque el dataset consta de 649 nulos, además la mayoría de registros vacíos se muestran como "\N". Por lo que el total de nulos y su % no es real hasta que se transformen a nulos. Esto ocurre con todos los demás datasets.

Las columnas son:

- 🔸 **tconst**: la constante de cada registro que se usará para conectar con el resto de DataFrames. Sin nulos.
- 🔸 **titleType**: tipo de registro. Hay 11 tipos tales como video, short, movie, tvSerie...
- 🔸 **primaryTitle**: título por el que es más conocido. Hay nulos pero menos del 0.01%.
- 🔸 **originalTitle**: título original. Hay nulos pero menos del 0.01%.
- 🔸 **isAdult**: 1 si es clasificada para adultos, 0 si no.
- 🔸 **startYear**: el año en el que empezó el título. Válido como fecha de publicación, o el comienzo de una serie, etc. 
- 🔸 **endYear**: el año en el que acaba el título. Usado especialmente en series, shows... y no usado en películas, shorts... 
- 🔸 **runtimeMinutes**: minutos de duración del título.
- 🔸 **genres**: género o géneros que se le atribuyen al título. 

### **2️⃣Title Akas**

In [26]:
resumen_df(titleAkas_df)

🔵Resumen del dataset:
  🔸Filas: 52505669
  🔸Columnas: 8
  🔸Filas duplicadas: 0
  🔸Datos nulos totales: 240

🔵Columnas y tipos de datos:
titleId            object
ordering            int64
title              object
region             object
language           object
types              object
attributes         object
isOriginalTitle     int64
dtype: object

🔵Nulos por columna (%):
title     0.0%
region    0.0%
dtype: object

🔵Valores únicos por columna:
titleId            11756174
ordering                251
title               7528783
region                  248
language                110
types                    24
attributes              185
isOriginalTitle           2
dtype: int64


Unnamed: 0,titleId,ordering,title,region,language,types,attributes,isOriginalTitle
0,tt0000001,1,Carmencita,\N,\N,original,\N,1
1,tt0000001,2,Carmencita,DE,\N,\N,literal title,0
2,tt0000001,3,Carmencita,US,\N,imdbDisplay,\N,0
3,tt0000001,4,Carmencita - spanyol tánc,HU,\N,imdbDisplay,\N,0
4,tt0000001,5,Καρμενσίτα,GR,\N,imdbDisplay,\N,0


El dataset consta de 52 millones de registros. Esto se debe a que por cada titulo hay diferentes titulos en funcion de la región, y otros motivos.

Las columnas son:

- 🔸 **titleId**: misma constante que en tconstant. Sin nulos.
- 🔸 **ordering**: El orden del titulo dentro del mismo titleId
- 🔸 **title**: Título segun region. Varios nulos.
- 🔸 **region**: Region de donde es el título. Varios nulos.
- 🔸 **language**: lenguaje del título. Gran cantidad de nulos.
- 🔸 **types**: El dato inconsistente e irrelevante.
- 🔸 **attributes**: Mas observaciones al types. Igualmente parecen inconsistentes y de poca utilidad.
- 🔸 **isOriginalTitle**: Si el titulo es el original 1, si no 0. 

### **3️⃣Title Episode**

In [29]:
resumen_df(titleEpisode_df)

🔵Resumen del dataset:
  🔸Filas: 9086420
  🔸Columnas: 4
  🔸Filas duplicadas: 0
  🔸Datos nulos totales: 0

🔵Columnas y tipos de datos:
tconst           object
parentTconst     object
seasonNumber     object
episodeNumber    object
dtype: object

🔵Valores únicos por columna:
tconst           9086420
parentTconst      223719
seasonNumber         325
episodeNumber      15790
dtype: int64


Unnamed: 0,tconst,parentTconst,seasonNumber,episodeNumber
0,tt0031458,tt32857063,\N,\N
1,tt0041951,tt0041038,1,9
2,tt0042816,tt0989125,1,17
3,tt0042889,tt0989125,\N,\N
4,tt0043426,tt0040051,3,42


El dataset consta de 9 millones de registros. Esto quiere decir que 9 de 11 millones de registros corresponden a episodios de series.

Las columnas son:

- 🔸 **tconst**: misma constante que en otros datasets. Sin nulos.
- 🔸 **parentTconst**: la constante de la serie a la que va ligado el episodio.
- 🔸 **seasonNumber**: Nº de temporada.
- 🔸 **episodeNumber**: Nº de episodio dentro de la temporada.

### **4️⃣Title Principals**

In [30]:
resumen_df(titlePrincipals_df)

🔵Resumen del dataset:
  🔸Filas: 93707628
  🔸Columnas: 6
  🔸Filas duplicadas: 0
  🔸Datos nulos totales: 0

🔵Columnas y tipos de datos:
tconst        object
ordering       int64
nconst        object
category      object
job           object
characters    object
dtype: object

🔵Valores únicos por columna:
tconst        10664414
ordering            75
nconst         6755421
category            13
job              44920
characters     4319615
dtype: int64


Unnamed: 0,tconst,ordering,nconst,category,job,characters
0,tt0000001,1,nm1588970,self,\N,"[""Self""]"
1,tt0000001,2,nm0005690,director,\N,\N
2,tt0000001,3,nm0005690,producer,producer,\N
3,tt0000001,4,nm0374658,cinematographer,director of photography,\N
4,tt0000002,1,nm0721526,director,\N,\N


El dataset consta de 93 millones de registros. Estos las principales personas involucradas en cada titulo. 

Las columnas son:

- 🔸 **tconst**: misma constante que en otros datasets. Sin nulos.
- 🔸 **ordering**: El orden de la persona dentro del mismo título.
- 🔸 **nconst**: constante de la persona.
- 🔸 **category**: Categoría de la persona dentro del título.
- 🔸 **job**: Detalles de la categoría.
- 🔸 **category**: Personaje que interpreta (si lo hace).

### **5️⃣Title Ratings**

In [31]:
resumen_df(titleRatings_df)

🔵Resumen del dataset:
  🔸Filas: 1592967
  🔸Columnas: 3
  🔸Filas duplicadas: 0
  🔸Datos nulos totales: 0

🔵Columnas y tipos de datos:
tconst            object
averageRating    float64
numVotes           int64
dtype: object

🔵Valores únicos por columna:
tconst           1592967
averageRating         91
numVotes           23574
dtype: int64


Unnamed: 0,tconst,averageRating,numVotes
0,tt0000001,5.7,2165
1,tt0000002,5.5,296
2,tt0000003,6.5,2222
3,tt0000004,5.3,190
4,tt0000005,6.2,2959


El dataset consta de 1 millon y medio de registros. Son las valoraciones de los títulos. Es posible que haya bastantes menos registros dado que muchos no tengan votos. 

Las columnas son:

- 🔸 **tconst**: misma constante que en otros datasets. Sin nulos.
- 🔸 **averageRating**: Media de las valoraciones de usuarios del 1 al 10.
- 🔸 **numVotes**: Numero de votos que tiene el título por usuarios.

### **6️⃣Name Basics**

In [32]:
resumen_df(nameBasics_df)

🔵Resumen del dataset:
  🔸Filas: 14575486
  🔸Columnas: 6
  🔸Filas duplicadas: 0
  🔸Datos nulos totales: 9

🔵Columnas y tipos de datos:
nconst               object
primaryName          object
birthYear            object
deathYear            object
primaryProfession    object
knownForTitles       object
dtype: object

🔵Nulos por columna (%):
primaryName    0.0%
dtype: object

🔵Valores únicos por columna:
nconst               14575486
primaryName          11150404
birthYear                 557
deathYear                 502
primaryProfession       23334
knownForTitles        6041739
dtype: int64


Unnamed: 0,nconst,primaryName,birthYear,deathYear,primaryProfession,knownForTitles
0,nm0000001,Fred Astaire,1899,1987,"actor,miscellaneous,producer","tt0072308,tt0050419,tt0027125,tt0025164"
1,nm0000002,Lauren Bacall,1924,2014,"actress,soundtrack,archive_footage","tt0037382,tt0075213,tt0117057,tt0038355"
2,nm0000003,Brigitte Bardot,1934,\N,"actress,music_department,producer","tt0057345,tt0049189,tt0056404,tt0054452"
3,nm0000004,John Belushi,1949,1982,"actor,writer,music_department","tt0072562,tt0077975,tt0080455,tt0078723"
4,nm0000005,Ingmar Bergman,1918,2007,"writer,director,actor","tt0050986,tt0069467,tt0050976,tt0083922"


El dataset consta de 14 millones de registros. Estos los nombres de las personas involucradas en los títulos. 

Las columnas son:

- 🔸 **nconst**: constante de los nombres de las personas. Sin nulos.
- 🔸 **primaryName**: Nombre de la persona.
- 🔸 **birthYear**: Año de nacimiento.
- 🔸 **deathYear**: Año de fallecimiento, si exisitiera.
- 🔸 **primaryProfession**: A que se didcó esa persona en el título.
- 🔸 **knownForTitles**: otros títulos en los que esa persona estuvo involucrada.