<div style="text-align: center;">
  <img src="https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_naranja@4x.png?raw=true" alt="esquema" />
</div>

# Laboratorio Pandas (EDA y Unión de Datos)

## Los datos

Para este laboratorio, trabajarás con los siguientes conjuntos de datos:

- **`netflix_originals.csv`**: Contiene información sobre producciones originales de Netflix. Las columnas que nos encontraremos en este conjunto de datos son: 

   - `Title`: Contiene el nombre del título de la producción original de Netflix.

   - `Genre`: Especifica el género o combinación de géneros de la producción.

   - `Premiere`: Indica la fecha de estreno de la producción en Netflix.

   - `Runtime`: Contiene la duración de la producción en minutos.

   - `IMDB Score`: Representa la calificación promedio que la producción ha recibido en la plataforma IMDB.

   - `Language`: Especifica el idioma principal o los idiomas en los que se presenta la producción.

- **`netflix_titles.csv`**: Contiene información sobre una variedad de títulos disponibles en la plataforma Netflix, incluyendo tanto películas como series de televisión. Las columnas que nos encontraremos en este conjunto de datos son:

   - `show_id`: Identificador único para cada título en el dataset.

   - `type`: Especifica el tipo de contenido, ya sea "Movie" (película) o "TV Show" (serie de televisión).

   - `title`: Contiene el nombre del título de la producción.

   - `director`: Muestra el nombre del director del título. Puede estar vacío en algunos casos.

   - `cast`: Lista de actores y actrices que participaron en el título. También puede estar vacío en algunos casos.

   - `country`: País o países donde se produjo el título. Esta columna también puede tener valores faltantes.

   - `date_added`: Fecha en la que el título fue añadido al catálogo de Netflix.

   - `release_year`: Año en que el título fue lanzado o producido.

   - `rating`: Clasificación del contenido en términos de audiencia (por ejemplo, PG-13, TV-MA).

   - `duration`: Duración del título. Para películas, se expresa en minutos (e.g., "90 min") y para series en temporadas (e.g., "2 Seasons").

   - `listed_in`: Categorías o géneros bajo los cuales el título está clasificado (por ejemplo, "Documentaries", "TV Dramas").

   - `description`: Breve sinopsis o descripción del contenido del título.

A lo largo de los laboratorios de Pandas, trabajarás con estos conjuntos de datos (o con los derivados del Laboratorio), algunas de las actividades que realizaremos son:

- Exploración de datos y análisis exploratorio (EDA) para familiarizarse con los conjuntos de datos.

- Realización de uniones entre conjuntos de datos, aplicando diferentes técnicas de *merging* y analizando la relevancia de cada método.

- Uso de funciones de selección y filtrado (`loc`, `iloc`) para extraer información clave.

- Desarrollo de análisis descriptivos y visualización de patrones para comprender mejor las decisiones estratégicas de la plataforma.

----

## Objetivo General de la Serie de Laboratorios



1. **Unión de `netflix_titles.csv` con `netflix_originals.csv`:**

   - **Análisis de contenido original:**  Identificarás los títulos que son producciones originales de Netflix y los compararás con los títulos adquiridos. Este análisis te permitirá:

     - Comparar la diversidad de géneros entre los títulos originales y no originales.

     - Evaluar si ciertos géneros o tipos de contenido (como documentales o series) son más frecuentes en las producciones originales.

     - Investigar si la producción original se concentra en determinados países o idiomas.


   - **Evaluación de contenido:** En esta etapa, explorarás si las producciones originales de Netflix tienden a recibir mejores o peores evaluaciones en comparación con el contenido adquirido. Algunas preguntas que se buscarán responder incluyen:

     - ¿Los títulos originales tienen una calificación promedio superior en plataformas como IMDB?

     - ¿Son las producciones originales más consistentes en términos de calidad percibida?

     - ¿Existen diferencias en la popularidad de los títulos originales según su género o país de origen?


   - **Identificación de tendencias:**  Por último, este análisis te permitirá explorar cómo ha evolucionado la estrategia de contenido de Netflix a lo largo del tiempo. Algunos puntos clave a investigar serán:

     - ¿Cómo ha crecido la producción original en comparación con la adquisición de contenido?

     - ¿Qué géneros o tipos de contenido han recibido mayor inversión en los últimos años?
     
     - ¿Existen patrones en los países o idiomas de las producciones originales, especialmente en relación con la expansión global de Netflix?


----


## Ejercicio: Análisis y Enriquecimiento del Catálogo de Netflix

### Parte 1: Análisis Exploratorio de Datos (EDA)

1. **Carga de los datos:**

   - Deberás cargar los dos conjuntos de datos que te hemos proporcionado para realizar este Laboratorio:

     - `netflix_originals.csv`

     - `netflix_titles.csv`

   Deberás revisar la estructura de cada conjunto de datos utilizando los métodos aprendidos durante la lección.

2. **Análisis de columnas y consistencia:**

   - Deberás hacer un análisis exploratorio de cada uno de los conjuntos de datos. Será obligatorio que incluyas las conclusiones generales obtenidas de cada uno de los análisis exploratorios en el Jupyter Notebook de tus soluciones.

   - Explorar qué columnas contiene cada conjunto de datos y cuáles son sus tipos de datos. Identificar si hay valores nulos o duplicados.

   - Algunas preguntas que nos podemos plantear en esta fase son (recuerda que esto es solo un ejemplo, y que podemos explorar todo lo que queramos/necesitemos para entender lo mejor posible los conjuntos de datos):

      - ¿Cuáles son los tipos de datos de cada columna? Nos puede ayudar a detectar si algún tipo de dato está incorrectamente asignado, como fechas almacenadas como cadenas de texto.

      - ¿Existen valores nulos? ¿En qué columnas están? Este paso es crucial para decidir si deben ser eliminados, rellenados o ignorados.

      - ¿Cuántos títulos únicos hay en cada conjunto de datos? Nos puede permitir verificar si existen títulos duplicados que puedan distorsionar el análisis.

      - ¿Qué géneros tenemos en el conjunto de datos? Esto nos puede ayudar a identificar los géneros más populares o incluso a identificar una posible limpieza de dicha columna para poder extraer conclusiones más claras en nuestro análisis.

### Parte 2: Unión de Datos

1. **Realización de la unión:**

   - Deberás realizar la unión que consideres más apropiada entre `netflix_titles.csv` y `netflix_originals.csv`. Además, deberás justificar el tipo de unión que has realizado.

   - Esto nos ayudará a contestar preguntas más adelente del tipo:

     - ¿Cuántos títulos en `netflix_titles.csv` son producciones originales de Netflix?

     - ¿Hay diferencias significativas en la puntuación de IMDB entre títulos originales y no originales?

### Parte 3: Uso de `loc` e `iloc`

Usando el DataFrame creado en la Parte 2: 

1. **Filtrado de datos con `loc`:**

   - Selecciona todas las filas donde el tipo de contenido sea “Movie”.

   - Muestra solo los títulos (title) y la duración (duration) de todos los contenidos que sean de tipo “TV Show”.

   - Selecciona todas las filas donde el país sea “United States”.

   - Muestra todas las películas (type = “Movie”) y selecciona las columnas title y director.

   - Selecciona los títulos (title) y géneros (listed_in) de todas las producciones lanzadas en 2018.

   - Selecciona las filas donde la columna director esté vacía y muestra solo los títulos (title).

2. **Acceso a datos específicos con `iloc`:**

   - Selecciona las primeras 5 filas del conjunto de datos y muestra solo las columnas title, director y country.

   - Muestra las últimas 5 filas del conjunto de datos y selecciona las columnas title y description.

   - Selecciona las primeras 10 filas del dataset y muestra las columnas desde la segunda hasta la quinta (incluidas). 

   - Muestra las últimas 7 filas del dataset y selecciona las columnas title, director, y country usando índices posicionales.

   - Selecciona las filas desde la 15 hasta la 25 (incluidas) y muestra las primeras 4 columnas.

   - Muestra las filas 20 a 30 y solo las columnas title, release_year, y rating usando índices posicionales.


**NOTA IMPORTANTE**: Antes de terminar el lab, guarda el conjunto de datos creado en la fase de unión para trabajar con el en las siguientes lecciones. 

# Parte 1: Análisis Exploratorio de Datos (EDA)

In [1]:
# Carga de los datos

import pandas as pd
import numpy as np

import warnings
warnings.filterwarnings("ignore")


pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

In [2]:
# Carga de los datos
df_netflix_originals = pd.read_csv("C:/Users/claud/GIT/laboratorio-eda_union/datos/netflix_originals.csv", index_col=0)
df_netflix_titles = pd.read_csv("C:/Users/claud/GIT/laboratorio-eda_union/datos/netflix_titles.csv", index_col=0)

In [3]:
# Carga de los datos
df_netflix_originals.head()

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language
0,Enter the Anime,Documentary,"August 5, 2019",58,2.5,English/Japanese
1,Dark Forces,Thriller,"August 21, 2020",81,2.6,Spanish
2,The App,Science fiction/Drama,"December 26, 2019",79,2.6,Italian
3,The Open House,Horror thriller,"January 19, 2018",94,3.2,English
4,Kaali Khuhi,Mystery,"October 30, 2020",90,3.4,Hindi


In [4]:
# Carga de los datos
type(df_netflix_originals)

pandas.core.frame.DataFrame

In [5]:
# Carga de los datos
print(f"El número de filas que tenemos es {df_netflix_originals.shape[0]}, y el número de columnas es {df_netflix_originals.shape[1]}")

El número de filas que tenemos es 513, y el número de columnas es 6


En la primera carga de los datos se puede ver que el fichero netflix_originals contiene 6 columnas y 513 filas. Además, la estructura de datos es un DataFrame.

In [6]:
# Carga de los datos
df_netflix_titles.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...


In [7]:
# Carga de los datos
type(df_netflix_titles)

pandas.core.frame.DataFrame

In [8]:
# Carga de los datos
print(f"El número de filas que tenemos es {df_netflix_titles.shape[0]}, y el número de columnas es {df_netflix_titles.shape[1]}")

El número de filas que tenemos es 8807, y el número de columnas es 12


En la segunda carga de los datos se puede ver que el fichero netflix_titles tiene 12 columnas y 8.807 filas, además de que el tipo de estructura de datos es un Dataframe.

In [9]:
# Análisis de columnas y consistencia
df_netflix_originals.columns

Index(['Title', 'Genre', 'Premiere', 'Runtime', 'IMDB Score', 'Language'], dtype='object')

In [10]:
# Análisis de columnas y consistencia
df_netflix_titles.columns

Index(['show_id', 'type', 'title', 'director', 'cast', 'country', 'date_added',
       'release_year', 'rating', 'duration', 'listed_in', 'description'],
      dtype='object')

Este método nos proporciona los nombres de todas las columnas de nuestro DataFrame. Podemos ver que no hay una coincidencia exacta en el nombre de alguna columna de los dos Dataframes.

In [11]:
# Análisis de columnas y consistencia
df_netflix_originals.dtypes

Title          object
Genre          object
Premiere       object
Runtime         int64
IMDB Score    float64
Language       object
dtype: object

In [12]:
# Análisis de columnas y consistencia
# Cambiar columna "Premiere" a tipo de dato "Datatime"

df_netflix_originals["Premiere"] = pd.to_datetime(df_netflix_originals["Premiere"], format="mixed")

In [13]:
# Análisis de columnas y consistencia
df_netflix_originals.dtypes

Title                 object
Genre                 object
Premiere      datetime64[ns]
Runtime                int64
IMDB Score           float64
Language              object
dtype: object

In [14]:
# Análisis de columnas y consistencia
df_netflix_titles.dtypes

show_id         object
type            object
title           object
director        object
cast            object
country         object
date_added      object
release_year     int64
rating          object
duration        object
listed_in       object
description     object
dtype: object

In [15]:
# Análisis de columnas y consistencia
# Cambiar columna "date_added" a tipo de dato "Datetime"
 
df_netflix_titles["date_added"] = pd.to_datetime(df_netflix_titles["date_added"], format="mixed")

In [16]:
# Análisis de columnas y consistencia
df_netflix_titles.dtypes

show_id                 object
type                    object
title                   object
director                object
cast                    object
country                 object
date_added      datetime64[ns]
release_year             int64
rating                  object
duration                object
listed_in               object
description             object
dtype: object

El método df.dtypes nos permite conocer qué tipo de dato se encuentra en cada una de las columnas de nuestros DataFrames. En el DataFrame netflix_originals predomina el tipo de dato string, excepto en la columna Runtime (tipo de dato integer), la columna IMDB Score (tipo de dato float) y la columna Premiere (tipo de dato Datetime). Luego, en el DataFrame netflix_titles la mayoría de los datos son de tipo string, excepto en la columna release_year (tipo de dato integer) y la columna date_added (tipo de dato Datetime). Con esta información ya nos podemos hacer a la idea de que en el EDA va a predominar un análisis descriptivo versus el análisis estadístico, ya que tenemos muy pocas variables numéricas. 

In [17]:
# Análisis de columnas y consistencia
# Análisis estadístico

df_netflix_originals.describe().T

Unnamed: 0,count,mean,min,25%,50%,75%,max,std
Premiere,513.0,2019-06-16 01:21:24.210526208,2014-12-13 00:00:00,2018-06-08 00:00:00,2019-10-18 00:00:00,2020-09-17 00:00:00,2021-05-27 00:00:00,
Runtime,513.0,94.674464,4.0,87.0,97.0,108.0,209.0,26.648121
IMDB Score,513.0,6.210916,2.5,5.6,6.3,6.9,9.0,0.96885


La fila Premiere indica la fecha de estreno de la producción en Netflix. Al ser un tipo de dato "Datetime" es difícil interpretar su media y desviación típica. Podemos observar que la mitad de los estrenos de producciones en Netflix fueron anteriores al año 2019 (percentil 50%).

En la fila Runtime (contiene la información de la duración de la producción en minutos) vemos que la media está en 94.67 min. La mediana (percentil 50%) significa que la mitad de las producciones originales de netflix tienen una duración menor a 97 min. Estos dos estadísticos están próximos entre sí, por lo que se puede considerar la media robusta. El mínimo de duración es de 4 min y el máximo es de 209 min, por lo que hay una gran dispersión en la duración de las producciones. Además, la desviación estándar de 26,65 nos indica que hay una gran variabilidad en la duración de la producción en min. 
 
Luego, en la fila IMDB Score (que representa la calificación promedio que la producción ha recibido en la plataforma IMDB) se puede ver que la media es de 6,2 puntos. La mediana (percentil 50%) significa que la mitad de las calificaciones promedio que ha recibido la producción en la plataforma IMDB tienen una calificación menor a 6,3 puntos. La desviación estándar de 0,97 indica que la calificación promedio se puede alejar 1 punto respecto de la media. Esto no indica gran variabilidad, por lo que podemos concluir que la media es robusta. Respecto al mínimo y el máximo, de 2.5 puntos y 9.0 puntos respectivamente, nos indica que existe una gran dispersión en las calificiones de las producciones. En general la puntuación media de las calificaciones de las producciones es baja, excepto en alguna que haya obtenido una puntuación de 9 (max).

In [18]:
# Análisis de columnas y consistencia
# Análisis estadístico

df_netflix_titles.describe().T

Unnamed: 0,count,mean,min,25%,50%,75%,max,std
date_added,8797.0,2019-05-17 05:59:08.436967168,2008-01-01 00:00:00,2018-04-06 00:00:00,2019-07-02 00:00:00,2020-08-19 00:00:00,2021-09-25 00:00:00,
release_year,8807.0,2014.180198,1925.0,2013.0,2017.0,2019.0,2021.0,8.819312


La fila date_added indica la fecha en la que el título fue añadido al catálogo de Netflix. Al ser un tipo de dato "Datetime", es complicado interpretar sus estadísticos. Podemos decir que la mitad de los títulos que fueron añadidos al catálogo de netflix se realizaron antes del año 2019. 
 
En la fila release_year (representa el año en el que el título fue lanzado o producido) vemos que la media es el año 2024. La mediana (percentil 50%) indica que la mitad de los títulos lanzados o producidos se produjeron en años anteriores al 2017. La desviación estándar de 8.8 indica que el año en el que el título fue lanzado o producido se desvía de la media en 8 años, por lo que existe una gran variabilidad y la media no se puede considerar robusta. Por último, el mínimo es el año 1925 y el máximo es el año 2021, por lo que existe una gran dispersión en los años donde se lanzaron o produjeron estos títulos. 

In [19]:
# Análisis de columnas y consistencia
# Análisis descriptivo
 
df_netflix_originals.describe(include = "object").T

Unnamed: 0,count,unique,top,freq
Title,513,513,David Attenborough: A Life on Our Planet,1
Genre,513,106,Documentary,132
Language,513,37,English,352


En este DataFrame se puede ver que en la columna count no hay valores duplicados, ya que es el número de observaciones no nulas y representa el total de filas. Luego, en la columna unique la cantidad de valores únicos varía en función del tipo de fila, siendo "Title" la que más valores únicos representa. Luego, en la columna top nos muestra el valor más común en la fila, y podemos observar que se trata de un documental en inglés publicado en 2019. Por último, la frecuencia indica el valor más común, en este caso destaca "Language". 

In [20]:
# Análisis de columnas y consistencia
# Análisis descriptivo

# sacamos las columnas que son de tipo 'object' (categóricas) de nuestro DataFrame usando el método '.select_dtypes()'
df_cat = df_netflix_originals.select_dtypes(include = "object")
df_cat.head()

Unnamed: 0,Title,Genre,Language
0,Enter the Anime,Documentary,English/Japanese
1,Dark Forces,Thriller,Spanish
2,The App,Science fiction/Drama,Italian
3,The Open House,Horror thriller,English
4,Kaali Khuhi,Mystery,Hindi


In [21]:
# Análisis de columnas y consistencia
# Análisis descriptivo
 
# saquemos los valores únicos para la columna de `Genre` usando el método 'unique()'
df_netflix_originals["Genre"].unique()

array(['Documentary', 'Thriller', 'Science fiction/Drama',
       'Horror thriller', 'Mystery', 'Action', 'Comedy',
       'Heist film/Thriller', 'Musical/Western/Fantasy', 'Drama',
       'Romantic comedy', 'Action comedy', 'Horror anthology',
       'Political thriller', 'Superhero-Comedy', 'Horror',
       'Romance drama', 'Anime / Short', 'Superhero', 'Heist', 'Western',
       'Animation/Superhero', 'Family film', 'Action-thriller',
       'Teen comedy-drama', 'Romantic drama', 'Animation',
       'Aftershow / Interview', 'Science fiction adventure',
       'Science fiction', 'Comedy-drama', 'Comedy/Fantasy/Family',
       'Action/Comedy', 'Action/Science fiction',
       'Romantic teenage drama', 'Comedy / Musical', 'Musical',
       'Variety show', 'Science fiction/Mystery',
       'Psychological thriller drama', 'Adventure/Comedy', 'Black comedy',
       'Romance', 'Horror comedy', 'Christian musical',
       'Romantic teen drama', 'Family', 'Dark comedy', 'Comedy horror',
    

In [22]:
# Análisis de columnas y consistencia
# Análisis descriptivo

# Usamos el '.value_counts()' 
df_netflix_originals["Genre"].value_counts()

Genre
Documentary                             132
Drama                                    73
Comedy                                   42
Romantic comedy                          35
Thriller                                 33
                                       ... 
Action-adventure                          1
Concert Film                              1
Animation / Science Fiction               1
Anthology/Dark comedy                     1
Animation/Christmas/Comedy/Adventure      1
Name: count, Length: 106, dtype: int64

Se puede observar que el género que tiene mayor recuento en el DataFrame netflix_originals es "Documentary".

In [23]:
# Análisis de columnas y consistencia
# Análisis descriptivo

# Usamos el '.value_counts()' 
df_netflix_originals["Language"].value_counts()

Language
English                       352
Hindi                          28
Spanish                        26
French                         18
Italian                        14
Portuguese                      9
Indonesian                      9
Japanese                        5
English/Spanish                 5
Korean                          5
Turkish                         4
German                          4
Marathi                         3
Polish                          3
English/Japanese                2
Dutch                           2
Filipino                        2
Thai                            2
English/Hindi                   2
Norwegian                       1
Malay                           1
Swedish                         1
Spanish/Basque                  1
English/Swedish                 1
Spanish/Catalan                 1
English/Taiwanese/Mandarin      1
Thia/English                    1
Bengali                         1
Khmer/English/French            1
Tamil

El idioma principal que se presenta en la producción es el inglés.

In [24]:
# Análisis de columnas y consistencia
# Análisis descriptivo
 
df_netflix_titles.describe(include = "object").T

Unnamed: 0,count,unique,top,freq
show_id,8807,8807,s8807,1
type,8807,2,Movie,6131
title,8807,8807,Zubaan,1
director,6173,4528,Rajiv Chilaka,19
cast,7982,7692,David Attenborough,19
country,7976,748,United States,2818
rating,8803,17,TV-MA,3207
duration,3994,185,2 Seasons,425
listed_in,8807,514,"Dramas, International Movies",362
description,8807,8775,"Paranormal activity at a lush, abandoned prope...",4


Respecto al DataFrame de netflix_titles se puede ver que en la columna count que contienen menor número de observaciones no nulas. En la columna unique la cantidad de valores únicos depende de la fila a la que corresponda, en este caso show_id y title tienen todos los valores únicos. Luego, la columna top nos muestra el valor más común de cada fila. Por último, la frecuencia no indica el valor más común, en este caso destaca type. 

In [25]:
# Análisis de columnas y consistencia
# Análisis descriptivo

# sacamos las columnas que son de tipo 'object' (categóricas) de nuestro DataFrame usando el método '.select_dtypes()'
df_catv2 = df_netflix_titles.select_dtypes(include = "object")
df_catv2.head()

Unnamed: 0,show_id,type,title,director,cast,country,rating,duration,listed_in,description
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,TV-MA,,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,s4,TV Show,Jailbirds New Orleans,,,,TV-MA,,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...


In [26]:
# Análisis de columnas y consistencia
# Análisis descriptivo
 
# saquemos los valores únicos para la columna de `country` usando el método 'unique()'
df_netflix_titles["country"].unique()

array(['United States', 'South Africa', nan, 'India',
       'United States, Ghana, Burkina Faso, United Kingdom, Germany, Ethiopia',
       'United Kingdom', 'Germany, Czech Republic', 'Mexico', 'Turkey',
       'Australia', 'United States, India, France', 'Finland',
       'China, Canada, United States',
       'South Africa, United States, Japan', 'Nigeria', 'Japan',
       'Spain, United States', 'France', 'Belgium',
       'United Kingdom, United States', 'United States, United Kingdom',
       'France, United States', 'South Korea', 'Spain',
       'United States, Singapore', 'United Kingdom, Australia, France',
       'United Kingdom, Australia, France, United States',
       'United States, Canada', 'Germany, United States',
       'South Africa, United States', 'United States, Mexico',
       'United States, Italy, France, Japan',
       'United States, Italy, Romania, United Kingdom',
       'Australia, United States', 'Argentina, Venezuela',
       'United States, United Kin

In [27]:
# Análisis de columnas y consistencia
# Análisis descriptivo
 
# saquemos los valores únicos para la columna de `country` usando el método 'unique()'
df_netflix_titles["duration"].unique()

array(['90 min', '2 Seasons', nan, '125 min', '9 Seasons', '104 min',
       '127 min', '161 min', '61 min', '166 min', '147 min', '111 min',
       '110 min', '124 min', '116 min', '98 min', '23 min', '122 min',
       '85 min', '83 min', '113 min', '13 min', '182 min', '48 min',
       '145 min', '80 min', '117 min', '128 min', '119 min', '143 min',
       '118 min', '63 min', '121 min', '142 min', '154 min', '120 min',
       '82 min', '229 min', '76 min', '156 min', '112 min', '107 min',
       '129 min', '135 min', '136 min', '165 min', '150 min', '133 min',
       '70 min', '84 min', '140 min', '78 min', '7 Seasons', '64 min',
       '59 min', '139 min', '69 min', '148 min', '189 min', '141 min',
       '130 min', '138 min', '81 min', '132 min', '10 Seasons', '123 min',
       '68 min', '66 min', '62 min', '74 min', '131 min', '39 min',
       '46 min', '38 min', '8 Seasons', '17 Seasons', '126 min',
       '155 min', '159 min', '137 min', '12 min', '273 min', '36 min',
       '3

In [28]:
# Análisis de columnas y consistencia
# Análisis descriptivo

# Usamos el '.value_counts()' 
df_netflix_titles["listed_in"].value_counts()

listed_in
Dramas, International Movies                        362
Documentaries                                       359
Stand-Up Comedy                                     334
Comedies, Dramas, International Movies              274
Dramas, Independent Movies, International Movies    252
                                                   ... 
Action & Adventure, Cult Movies                       1
Action & Adventure, Comedies, Music & Musicals        1
Classic Movies, Horror Movies, Thrillers              1
Children & Family Movies, Classic Movies, Dramas      1
Cult Movies, Dramas, Thrillers                        1
Name: count, Length: 514, dtype: int64

En el DataFrame netflix_titles vemos que los géneros con mayores recuentos son "Dramas" y "Documentaries". 

In [29]:
# Análisis de columnas y consistencia
# Análisis descriptivo

# Usamos el '.value_counts()' 
df_netflix_titles["type"].value_counts()

type
Movie      6131
TV Show    2676
Name: count, dtype: int64

Vemos que del tipo de títulos disponibles en la plataforma Netflix, hay más "Movie" que "TV Show". 

In [30]:
df_netflix_titles[["type", "duration"]]

Unnamed: 0,type,duration
0,Movie,90 min
1,TV Show,2 Seasons
2,TV Show,
3,TV Show,
4,TV Show,2 Seasons
...,...,...
8802,Movie,158 min
8803,TV Show,2 Seasons
8804,Movie,
8805,Movie,


Vemos que en la duración del título, lo que se expresa en minutos hace referencia a las películas, y las temporadas hace referencia a las series. 

In [31]:
# Análisis de columnas y consistencia
# Manejo de valores nulos
 
df_netflix_originals.isnull().sum()

Title         0
Genre         0
Premiere      0
Runtime       0
IMDB Score    0
Language      0
dtype: int64

No tenemos valores nulos en el conjunto de datos netlifx_originals

In [32]:
# Análisis de columnas y consistencia
# Manejo de valores nulos
 
df_netflix_titles.isnull().sum()

show_id            0
type               0
title              0
director        2634
cast             825
country          831
date_added        10
release_year       0
rating             4
duration        4813
listed_in          0
description        0
dtype: int64

Para el conjunto de datos netflix_titles tenemos varias columnas con valores nulos:
 
- director: tiene 2634 valores nulos
- cast: tiene 825 valores nulos
- country: tiene 831 valores nulos
- date_added: tiene 10 valores nulos
- rating: tiene 4 valores nulos
- duration: tiene 4813 valores nulos. 

In [33]:
# Análisis de columnas y consistencia
# Manejo de valores nulos
 
def reporte_nulos(df_netflix_titles):
    df_reporte = pd.DataFrame()
    df_reporte["número_nulos"] = df_netflix_titles.isnull().sum()
    df_reporte["porcentaje_nulos"] = round((df_netflix_titles.isnull().sum() / len(df_netflix_titles)) * 100, 2)
    df_reporte["tipo_variables"] = df_netflix_titles.dtypes
    return df_reporte

In [34]:
# Análisis de columnas y consistencia
# Manejo de valores nulos

# Llamar a la función
reporte = reporte_nulos(df_netflix_titles)
reporte

Unnamed: 0,número_nulos,porcentaje_nulos,tipo_variables
show_id,0,0.0,object
type,0,0.0,object
title,0,0.0,object
director,2634,29.91,object
cast,825,9.37,object
country,831,9.44,object
date_added,10,0.11,datetime64[ns]
release_year,0,0.0,int64
rating,4,0.05,object
duration,4813,54.65,object


En este DataFrame podemos ver que el porcentaje de nulos es bastante elevado en las columnas director (29,91%) y duration (54,65%), lo cual puede generar resultados incorrectos o sesgados. 

In [35]:
# Análisis de columnas y consistencia
# Manejo de valores duplicados
 
df_netflix_originals.duplicated().sum()

np.int64(0)

In [36]:
# Análisis de columnas y consistencia
# Manejo de valores duplicados
 
df_netflix_titles.duplicated().sum()

np.int64(0)

No hay valores duplicados en los dos DataFrames.

In [37]:
# Añadir una columna que indique que todos los títulos son originales (para no perder info al unir los CSV)
df_netflix_originals["es_original"] = True

df_netflix_originals

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language,es_original
0,Enter the Anime,Documentary,2019-08-05,58,2.5,English/Japanese,True
1,Dark Forces,Thriller,2020-08-21,81,2.6,Spanish,True
2,The App,Science fiction/Drama,2019-12-26,79,2.6,Italian,True
3,The Open House,Horror thriller,2018-01-19,94,3.2,English,True
4,Kaali Khuhi,Mystery,2020-10-30,90,3.4,Hindi,True
...,...,...,...,...,...,...,...
576,Cuba and the Cameraman,Documentary,2017-11-24,114,8.3,English,True
577,Dancing with the Birds,Documentary,2019-10-23,51,8.3,English,True
580,Winter on Fire: Ukraine's Fight for Freedom,Documentary,2015-10-09,91,8.4,English/Ukranian/Russian,True
581,Springsteen on Broadway,One-man show,2018-12-16,153,8.5,English,True


Conclusiones

- Los tipos de datos que se han mostrado en cada columna de los DataFrames son, en su mayoría, de tipo string. Luego había integers y floats.
- Existen valores nulos en el DataFrame netflix_titles. Destacan fundamentalemte las columnas "director" la cual representa un 29,91% de los nulos, y la columna "duration" que representa un 54,65% de los nulos. Estos nulos se podrían rellenar o ignorarlos.
- Los títulos son únicos en cada conjunto de datos, no existen duplicados.
- Los géneros más populares de ambos conjuntos de datos son de tipo "Documental" y "Drama".  

# Parte 2: Unión de datos

In [38]:
# Realizar un merge para combinar ambos datasets usando el título como clave
df_merged = pd.merge(
    df_netflix_titles,
    df_netflix_originals,
    left_on='title',
    right_on='Title',
    how='left'
)

# Mostrar el resultado
df_merged.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Title,Genre,Premiere,Runtime,IMDB Score,Language,es_original
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Dick Johnson Is Dead,Documentary,2020-10-02,90.0,7.5,English,True
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t...",,,NaT,,,,
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,2021-09-24,2021,TV-MA,,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...,,,NaT,,,,
3,s4,TV Show,Jailbirds New Orleans,,,,2021-09-24,2021,TV-MA,,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo...",,,NaT,,,,
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...,,,NaT,,,,


In [39]:
# Encontrar los vacíos de las pelis no originales y ponerles un False
df_merged["es_original"].fillna(False, inplace = True)

In [40]:
# Eliminar la columna de 'title' que tiene información duplicada
df_merged.drop("Title", axis = 1, inplace = True)

# comprobamos que la columna se elimino correctamente
df_merged.head(2)

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language,es_original
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Documentary,2020-10-02,90.0,7.5,English,True
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t...",,NaT,,,,False


In [41]:
# Guardar Dataframe
df_merged.to_csv("C:/Users/claud/GIT/laboratorio-eda_union/datos/netflix_originals_merged.csv")

El tipo de unión de datos que he utilizado es merge () porque es la más adecuada para fusionar los dos DataFrames en función de una columna en común, que es title. Creo que este método es el más adecuado porque lo que busco es integrar la información de ambos DataFrames. Al hacer la unión de los DataFrames las columnas "Title" y "title" contienen el mismo tipo de información, por lo que están duplicadas. Es por ello que he procedido a eliminar la columna "title" para que no se pierda la información original. El tipo de unión que he hecho es con left, ya que lo que quería era dejar el DataFrame netflix_titles en el lado izquierdo.

In [42]:
df_merged.dtypes

show_id                 object
type                    object
title                   object
director                object
cast                    object
country                 object
date_added      datetime64[ns]
release_year             int64
rating                  object
duration                object
listed_in               object
description             object
Genre                   object
Premiere        datetime64[ns]
Runtime                float64
IMDB Score             float64
Language                object
es_original               bool
dtype: object

In [43]:
# Filtrar los títulos de netflix_titles que también están en netflix_originals
originals_in_titles = df_netflix_titles[df_netflix_titles["title"].isin(df_netflix_originals["Title"])]

# Contar el número de títulos que son producciones originales de Netflix
count_originals_in_titles = originals_in_titles.shape[0]

print(f"Hay {count_originals_in_titles} títulos de producciones originales de Netflix")

Hay 513 títulos de producciones originales de Netflix


In [44]:
# Filtrar los títulos de netflix_titles que también están en netflix_originals
originals_in_titles = df_netflix_titles[df_netflix_titles["title"].isin(df_netflix_originals["Title"])]

# Separar las puntuaciones en originales y no originales
originals_scores = df_merged[df_merged["es_original"] == True]['IMDB Score']
non_originals_scores = df_merged[df_merged["es_original"] == False]['IMDB Score']

# Calcular estadísticas descriptivas para cada grupo
originals_stats = originals_scores.describe()
non_originals_stats = non_originals_scores.describe()

originals_stats, non_originals_stats

(count    513.000000
 mean       6.210916
 std        0.968850
 min        2.500000
 25%        5.600000
 50%        6.300000
 75%        6.900000
 max        9.000000
 Name: IMDB Score, dtype: float64,
 count    0.0
 mean     NaN
 std      NaN
 min      NaN
 25%      NaN
 50%      NaN
 75%      NaN
 max      NaN
 Name: IMDB Score, dtype: float64)

No podemos comparar si hay diferencias significativas entre la puntuación de IMDB entre los títulos originales y no originales, ya que los que no son originales nos devuelve valores nulos.

In [45]:
# Carga de los datos
print(f"El número de filas que tenemos es {df_merged.shape[0]}, y el número de columnas es {df_merged.shape[1]}")

El número de filas que tenemos es 8807, y el número de columnas es 18


In [46]:
# Análisis de columnas y consistencia
df_merged.columns

Index(['show_id', 'type', 'title', 'director', 'cast', 'country', 'date_added',
       'release_year', 'rating', 'duration', 'listed_in', 'description',
       'Genre', 'Premiere', 'Runtime', 'IMDB Score', 'Language',
       'es_original'],
      dtype='object')

# Parte 2: Uso de Loc e Iloc

1. Filtrado de datos con loc

In [47]:
# Selecciona todas las filas donde el tipo de contenido sea “Movie”.

movies_df = df_merged.loc[df_merged["type"] == "Movie"]

movies_df.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language,es_original
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Documentary,2020-10-02,90.0,7.5,English,True
6,s7,Movie,My Little Pony: A New Generation,"Robert Cullen, José Luis Ucha","Vanessa Hudgens, Kimiko Glenn, James Marsden, ...",,2021-09-24,2021,PG,,Children & Family Movies,Equestria's divided. But a bright-eyed hero be...,,NaT,,,,False
7,s8,Movie,Sankofa,Haile Gerima,"Kofi Ghanaba, Oyafunmike Ogunlano, Alexandra D...","United States, Ghana, Burkina Faso, United Kin...",2021-09-24,1993,TV-MA,125 min,"Dramas, Independent Movies, International Movies","On a photo shoot in Ghana, an American model s...",,NaT,,,,False
9,s10,Movie,The Starling,Theodore Melfi,"Melissa McCarthy, Chris O'Dowd, Kevin Kline, T...",United States,2021-09-24,2021,PG-13,104 min,"Comedies, Dramas",A woman adjusting to life after a loss contend...,,NaT,,,,False
12,s13,Movie,Je Suis Karl,Christian Schwochow,"Luna Wedler, Jannis Niewöhner, Milan Peschel, ...","Germany, Czech Republic",2021-09-23,2021,TV-MA,127 min,"Dramas, International Movies",After most of her family is murdered in a terr...,,NaT,,,,False


In [48]:
# Muestra solo los títulos (title) y la duración (duration) de todos los contenidos que sean de tipo “TV Show”.

tv_shows_df = df_merged.loc[df_merged["type"] == "TV Show"]

# Seleccionar solo las columnas 'title' y 'duration'
tv_shows_selected = tv_shows_df[["title", "duration"]]

# Mostrar las primeras filas del resultado
tv_shows_selected.head()

Unnamed: 0,title,duration
1,Blood & Water,2 Seasons
2,Ganglands,
3,Jailbirds New Orleans,
4,Kota Factory,2 Seasons
5,Midnight Mass,


In [49]:
# Selecciona todas las filas donde el país sea “United States”.
 
# Filtrar las filas donde el país sea "United States"
USA_contenido = df_merged.loc[df_merged["country"] == "United States"]

USA_contenido.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language,es_original
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Documentary,2020-10-02,90.0,7.5,English,True
9,s10,Movie,The Starling,Theodore Melfi,"Melissa McCarthy, Chris O'Dowd, Kevin Kline, T...",United States,2021-09-24,2021,PG-13,104 min,"Comedies, Dramas",A woman adjusting to life after a loss contend...,,NaT,,,,False
15,s16,TV Show,Dear White People,,"Logan Browning, Brandon P. Bell, DeRon Horton,...",United States,2021-09-22,2021,TV-MA,,"TV Comedies, TV Dramas",Students of color navigate the daily slights a...,,NaT,,,,False
27,s28,Movie,Grown Ups,Dennis Dugan,"Adam Sandler, Kevin James, Chris Rock, David S...",United States,2021-09-20,2010,PG-13,,Comedies,Mourning the loss of their beloved junior high...,,NaT,,,,False
28,s29,Movie,Dark Skies,Scott Stewart,"Keri Russell, Josh Hamilton, J.K. Simmons, Dak...",United States,2021-09-19,2013,PG-13,,"Horror Movies, Sci-Fi & Fantasy",A family’s idyllic suburban life shatters when...,,NaT,,,,False


In [50]:
# Muestra todas las películas (type = “Movie”) y selecciona las columnas title y director.

movies_title_director = df_merged.loc[df_merged["type"] == "Movie", ["title", "director"]]

movies_title_director.head()

Unnamed: 0,title,director
0,Dick Johnson Is Dead,Kirsten Johnson
6,My Little Pony: A New Generation,"Robert Cullen, José Luis Ucha"
7,Sankofa,Haile Gerima
9,The Starling,Theodore Melfi
12,Je Suis Karl,Christian Schwochow


In [51]:
# Selecciona los títulos (title) y géneros (listed_in) de todas las producciones lanzadas en 2018.

producciones_2018 = df_merged.loc[df_merged["release_year"] == 2018, ["title", "listed_in"]]

# Mostrar las primeras filas del resultado
producciones_2018.head()


Unnamed: 0,title,listed_in
21,Resurrection: Ertugrul,"International TV Shows, TV Action & Adventure,..."
37,Angry Birds,"Kids' TV, TV Comedies"
73,King of Boys,"Dramas, International Movies"
94,Show Dogs,"Children & Family Movies, Comedies"
96,If I Leave Here Tomorrow: A Film About Lynyrd ...,"Documentaries, Music & Musicals"


In [52]:
# Selecciona las filas donde la columna director esté vacía y muestra solo los títulos (title). 

titles_no_director = df_merged.loc[df_merged["director"].isna(), ["title"]]

titles_no_director.head()

Unnamed: 0,title
1,Blood & Water
3,Jailbirds New Orleans
4,Kota Factory
10,"Vendetta: Truth, Lies and The Mafia"
14,Crime Stories: India Detectives


2. Acceso a datos específicos con iloc

In [53]:
# Selecciona las primeras 5 filas del conjunto de datos y muestra solo las columnas title, director y country.

first_5_filas = df_merged.iloc[:5][["title", "director", "country"]]

first_5_filas

Unnamed: 0,title,director,country
0,Dick Johnson Is Dead,Kirsten Johnson,United States
1,Blood & Water,,South Africa
2,Ganglands,Julien Leclercq,
3,Jailbirds New Orleans,,
4,Kota Factory,,India


In [54]:
# Muestra las últimas 5 filas del conjunto de datos y selecciona las columnas title y description.

last_5_filas = df_merged.iloc[-5:][["title", "description"]]

# Mostrar el resultado
last_5_filas

Unnamed: 0,title,description
8802,Zodiac,"A political cartoonist, a crime reporter and a..."
8803,Zombie Dumb,"While living alone in a spooky town, a young g..."
8804,Zombieland,Looking to survive in a world taken over by zo...
8805,Zoom,"Dragged from civilian life, a former superhero..."
8806,Zubaan,A scrappy but poor boy worms his way into a ty...


In [55]:
# Selecciona las primeras 10 filas del dataset y muestra las columnas desde la segunda hasta la quinta (incluidas). 

primeras_10_filas = df_merged.iloc[:10, 1:6]

primeras_10_filas

Unnamed: 0,type,title,director,cast,country
0,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States
1,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa
2,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",
3,TV Show,Jailbirds New Orleans,,,
4,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India
5,TV Show,Midnight Mass,Mike Flanagan,"Kate Siegel, Zach Gilford, Hamish Linklater, H...",
6,Movie,My Little Pony: A New Generation,"Robert Cullen, José Luis Ucha","Vanessa Hudgens, Kimiko Glenn, James Marsden, ...",
7,Movie,Sankofa,Haile Gerima,"Kofi Ghanaba, Oyafunmike Ogunlano, Alexandra D...","United States, Ghana, Burkina Faso, United Kin..."
8,TV Show,The Great British Baking Show,Andy Devonshire,"Mel Giedroyc, Sue Perkins, Mary Berry, Paul Ho...",United Kingdom
9,Movie,The Starling,Theodore Melfi,"Melissa McCarthy, Chris O'Dowd, Kevin Kline, T...",United States


In [56]:
# Muestra las últimas 7 filas del dataset y selecciona las columnas title, director, y country usando índices posicionales.

last_7_filas = df_merged.iloc[-7:, [df_merged.columns.get_loc(col) for col in ["title", "director", "country"]]]

last_7_filas

Unnamed: 0,title,director,country
8800,Zindagi Gulzar Hai,,Pakistan
8801,Zinzana,Majid Al Ansari,"United Arab Emirates, Jordan"
8802,Zodiac,David Fincher,United States
8803,Zombie Dumb,,
8804,Zombieland,Ruben Fleischer,United States
8805,Zoom,Peter Hewitt,United States
8806,Zubaan,Mozez Singh,India


In [57]:
# Selecciona las filas desde la 15 hasta la 25 (incluidas) y muestra las primeras 4 columnas.

filas_merged = df_merged.iloc[15:26, :4]

filas_merged

Unnamed: 0,show_id,type,title,director
15,s16,TV Show,Dear White People,
16,s17,Movie,Europe's Most Dangerous Man: Otto Skorzeny in ...,"Pedro de Echave García, Pablo Azorín Williams"
17,s18,TV Show,Falsa identidad,
18,s19,Movie,Intrusion,Adam Salky
19,s20,TV Show,Jaguar,
20,s21,TV Show,Monsters Inside: The 24 Faces of Billy Milligan,Olivier Megaton
21,s22,TV Show,Resurrection: Ertugrul,
22,s23,Movie,Avvai Shanmughi,K.S. Ravikumar
23,s24,Movie,Go! Go! Cory Carson: Chrissy Takes the Wheel,"Alex Woo, Stanley Moore"
24,s25,Movie,Jeans,S. Shankar


In [58]:
# Muestra las filas 20 a 30 y solo las columnas title, release_year, y rating usando índices posicionales.

subset_20_30 = df_merged.iloc[20:31, [df_merged.columns.get_loc("title"),
                                      df_merged.columns.get_loc("release_year"),
                                      df_merged.columns.get_loc("rating")]]

subset_20_30

Unnamed: 0,title,release_year,rating
20,Monsters Inside: The 24 Faces of Billy Milligan,2021,TV-14
21,Resurrection: Ertugrul,2018,TV-14
22,Avvai Shanmughi,1996,TV-PG
23,Go! Go! Cory Carson: Chrissy Takes the Wheel,2021,TV-Y
24,Jeans,1998,TV-14
25,Love on the Spectrum,2021,TV-14
26,Minsara Kanavu,1997,TV-PG
27,Grown Ups,2010,PG-13
28,Dark Skies,2013,PG-13
29,Paranoia,2013,PG-13
