# Laboratorio Pandas (EDA y Unión de Datos)

## Los datos

Para este laboratorio, trabajarás con los siguientes conjuntos de datos:

- **`netflix_originals.csv`**: Contiene información sobre producciones originales de Netflix. Las columnas que nos encontraremos en este conjunto de datos son: 

   - `Title`: Contiene el nombre del título de la producción original de Netflix.

   - `Genre`: Especifica el género o combinación de géneros de la producción.

   - `Premiere`: Indica la fecha de estreno de la producción en Netflix.

   - `Runtime`: Contiene la duración de la producción en minutos.

   - `IMDB Score`: Representa la calificación promedio que la producción ha recibido en la plataforma IMDB.

   - `Language`: Especifica el idioma principal o los idiomas en los que se presenta la producción.

- **`netflix_titles.csv`**: Contiene información sobre una variedad de títulos disponibles en la plataforma Netflix, incluyendo tanto películas como series de televisión. Las columnas que nos encontraremos en este conjunto de datos son:

   - `show_id`: Identificador único para cada título en el dataset.

   - `type`: Especifica el tipo de contenido, ya sea "Movie" (película) o "TV Show" (serie de televisión).

   - `title`: Contiene el nombre del título de la producción.

   - `director`: Muestra el nombre del director del título. Puede estar vacío en algunos casos.

   - `cast`: Lista de actores y actrices que participaron en el título. También puede estar vacío en algunos casos.

   - `country`: País o países donde se produjo el título. Esta columna también puede tener valores faltantes.

   - `date_added`: Fecha en la que el título fue añadido al catálogo de Netflix.

   - `release_year`: Año en que el título fue lanzado o producido.
   
   - `rating`: Clasificación del contenido en términos de audiencia (por ejemplo, PG-13, TV-MA).

   - `duration`: Duración del título. Para películas, se expresa en minutos (e.g., "90 min") y para series en temporadas (e.g., "2 Seasons").

   - `listed_in`: Categorías o géneros bajo los cuales el título está clasificado (por ejemplo, "Documentaries", "TV Dramas").

   - `description`: Breve sinopsis o descripción del contenido del título.

A lo largo de los laboratorios de Pandas, trabajarás con estos conjuntos de datos (o con los derivados del Laboratorio), algunas de las actividades que realizaremos son:

- Exploración de datos y análisis exploratorio (EDA) para familiarizarse con los conjuntos de datos.

- Realización de uniones entre conjuntos de datos, aplicando diferentes técnicas de *merging* y analizando la relevancia de cada método.

- Uso de funciones de selección y filtrado (`loc`, `iloc`) para extraer información clave.

- Desarrollo de análisis descriptivos y visualización de patrones para comprender mejor las decisiones estratégicas de la plataforma.

----

## Objetivo General de la Serie de Laboratorios



1. **Unión de `netflix_titles.csv` con `netflix_originals.csv`:**

   - **Análisis de contenido original:**  Identificarás los títulos que son producciones originales de Netflix y los compararás con los títulos adquiridos. Este análisis te permitirá:

     - Comparar la diversidad de géneros entre los títulos originales y no originales.

     - Evaluar si ciertos géneros o tipos de contenido (como documentales o series) son más frecuentes en las producciones originales.

     - Investigar si la producción original se concentra en determinados países o idiomas.


   - **Evaluación de contenido:** En esta etapa, explorarás si las producciones originales de Netflix tienden a recibir mejores o peores evaluaciones en comparación con el contenido adquirido. Algunas preguntas que se buscarán responder incluyen:

     - ¿Los títulos originales tienen una calificación promedio superior en plataformas como IMDB?

     - ¿Son las producciones originales más consistentes en términos de calidad percibida?

     - ¿Existen diferencias en la popularidad de los títulos originales según su género o país de origen?


   - **Identificación de tendencias:**  Por último, este análisis te permitirá explorar cómo ha evolucionado la estrategia de contenido de Netflix a lo largo del tiempo. Algunos puntos clave a investigar serán:

     - ¿Cómo ha crecido la producción original en comparación con la adquisición de contenido?

     - ¿Qué géneros o tipos de contenido han recibido mayor inversión en los últimos años?
     
     - ¿Existen patrones en los países o idiomas de las producciones originales, especialmente en relación con la expansión global de Netflix?


----


## Ejercicio: Análisis y Enriquecimiento del Catálogo de Netflix

### Parte 1: Análisis Exploratorio de Datos (EDA)

1. **Carga de los datos:**

   - Deberás cargar los dos conjuntos de datos que te hemos proporcionado para realizar este Laboratorio:

     - `netflix_originals.csv`

     - `netflix_titles.csv`

   Deberás revisar la estructura de cada conjunto de datos utilizando los métodos aprendidos durante la lección.

2. **Análisis de columnas y consistencia:**

   - Deberás hacer un análisis exploratorio de cada uno de los conjuntos de datos. Será obligatorio que incluyas las conclusiones generales obtenidas de cada uno de los análisis exploratorios en el Jupyter Notebook de tus soluciones.

   - Explorar qué columnas contiene cada conjunto de datos y cuáles son sus tipos de datos. Identificar si hay valores nulos o duplicados.

   - Algunas preguntas que nos podemos plantear en esta fase son (recuerda que esto es solo un ejemplo, y que podemos explorar todo lo que queramos/necesitemos para entender lo mejor posible los conjuntos de datos):

      - ¿Cuáles son los tipos de datos de cada columna? Nos puede ayudar a detectar si algún tipo de dato está incorrectamente asignado, como fechas almacenadas como cadenas de texto.

      - ¿Existen valores nulos? ¿En qué columnas están? Este paso es crucial para decidir si deben ser eliminados, rellenados o ignorados.

      - ¿Cuántos títulos únicos hay en cada conjunto de datos? Nos puede permitir verificar si existen títulos duplicados que puedan distorsionar el análisis.

      - ¿Qué géneros tenemos en el conjunto de datos? Esto nos puede ayudar a identificar los géneros más populares o incluso a identificar una posible limpieza de dicha columna para poder extraer conclusiones más claras en nuestro análisis.

### Parte 2: Unión de Datos

1. **Realización de la unión:**

   - Deberás realizar la unión que consideres más apropiada entre `netflix_titles.csv` y `netflix_originals.csv`. Además, deberás justificar el tipo de unión que has realizado.

   - Esto nos ayudará a contestar preguntas más adelente del tipo:

     - ¿Cuántos títulos en `netflix_titles.csv` son producciones originales de Netflix?

     - ¿Hay diferencias significativas en la puntuación de IMDB entre títulos originales y no originales?

### Parte 3: Uso de `loc` e `iloc`

Usando el DataFrame creado en la Parte 2: 

1. **Filtrado de datos con `loc`:**

   - Selecciona todas las filas donde el tipo de contenido sea “Movie”.

   - Muestra solo los títulos (title) y la duración (duration) de todos los contenidos que sean de tipo “TV Show”.

   - Selecciona todas las filas donde el país sea “United States”.

   - Muestra todas las películas (type = “Movie”) y selecciona las columnas title y director.

   - Selecciona los títulos (title) y géneros (listed_in) de todas las producciones lanzadas en 2018.

   - Selecciona las filas donde la columna director esté vacía y muestra solo los títulos (title).

2. **Acceso a datos específicos con `iloc`:**

   - Selecciona las primeras 5 filas del conjunto de datos y muestra solo las columnas title, director y country.

   - Muestra las últimas 5 filas del conjunto de datos y selecciona las columnas title y description.

   - Selecciona las primeras 10 filas del dataset y muestra las columnas desde la segunda hasta la quinta (incluidas). 

   - Muestra las últimas 7 filas del dataset y selecciona las columnas title, director, y country usando índices posicionales.

   - Selecciona las filas desde la 15 hasta la 25 (incluidas) y muestra las primeras 4 columnas.

   - Muestra las filas 20 a 30 y solo las columnas title, release_year, y rating usando índices posicionales.


**NOTA IMPORTANTE**: Antes de terminar el lab, guarda el conjunto de datos creado en la fase de unión para trabajar con el en las siguientes lecciones. 

## Importar la librería y configuración necesaria

In [143]:
#Lo primero que hago es importar la librería de pandas para poder trabajar con ella 
import pandas as pd 

In [144]:
#En segundo lugar, lo configuro para poder visualizar todas las columnas de los DataFrames
pd.set_option("display.max_columns", None)

## Leemos el primer csv (títulos originales) y una primera observación de los datos

In [145]:
#Leemos uno de los csv con los que voy a trabajar (contiene únicamente las películas originales de Netflix)
df_netflix_originals = pd.read_csv("da-octubre-24/Modulo2/labs/enunciados/datos/netflix_originals.csv", index_col = 0)

In [146]:
#Antes de nada quiero conocer que forma tiene mi csv: 513 filas y 6 columnas
df_netflix_originals.shape

(513, 6)

In [147]:
#Para una primera visualización de las columnas: 
df_netflix_originals.tail()

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language
576,Cuba and the Cameraman,Documentary,"November 24, 2017",114,8.3,English
577,Dancing with the Birds,Documentary,"October 23, 2019",51,8.3,English
580,Winter on Fire: Ukraine's Fight for Freedom,Documentary,"October 9, 2015",91,8.4,English/Ukranian/Russian
581,Springsteen on Broadway,One-man show,"December 16, 2018",153,8.5,English
583,David Attenborough: A Life on Our Planet,Documentary,"October 4, 2020",83,9.0,English


In [148]:
#Para confirmar que algo pasa con los índices: 
df_netflix_originals.index

Index([  0,   1,   2,   3,   4,   5,   6,   7,   8,   9,
       ...
       569, 570, 573, 574, 575, 576, 577, 580, 581, 583],
      dtype='int64', length=513)

Parece que las columnas están bien estructuradas. Aparecen bien. Pero, se observa algo raro en los índices. Llegan a 583 cuando debería ir de 0 a 512 (por haber 513 filas), es decir, hay saltos en algún punto. Y, efectivamente, no son continuos los índices.

In [149]:
#Leemos el csv reseteando los índices: 
df_netflix_originals = pd.read_csv("da-octubre-24/Modulo2/labs/enunciados/datos/netflix_originals.csv", index_col = 0).reset_index(drop = True)
df_netflix_originals.tail()

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language
508,Cuba and the Cameraman,Documentary,"November 24, 2017",114,8.3,English
509,Dancing with the Birds,Documentary,"October 23, 2019",51,8.3,English
510,Winter on Fire: Ukraine's Fight for Freedom,Documentary,"October 9, 2015",91,8.4,English/Ukranian/Russian
511,Springsteen on Broadway,One-man show,"December 16, 2018",153,8.5,English
512,David Attenborough: A Life on Our Planet,Documentary,"October 4, 2020",83,9.0,English


In [150]:
#Para confirmar que el problema está solucionado y los índices son continuos:
df_netflix_originals.index

RangeIndex(start=0, stop=513, step=1)

## Exploración de los datos primer csv

In [151]:
#Lo primero que hago es sacar la información para todas las columnas: 
df_netflix_originals.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 513 entries, 0 to 512
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Title       513 non-null    object 
 1   Genre       513 non-null    object 
 2   Premiere    513 non-null    object 
 3   Runtime     513 non-null    int64  
 4   IMDB Score  513 non-null    float64
 5   Language    513 non-null    object 
dtypes: float64(1), int64(1), object(4)
memory usage: 24.2+ KB


Parece que no hay nulos en ninguna de las columnas. Por otro lado, el tipo de dato de cada columna es correcto, excepto en Premiere, que debería ser de tipo fecha (lo voy a tratar más adelante).

In [152]:
#Una vez sé que los nulos en este conjunto de datos no va a ser un problema, pues no hay, voy a observar si contamos o no con duplicados:
df_netflix_originals.duplicated().sum()

np.int64(0)

Parece que no hay duplicados en este conjunto de datos.

In [153]:
#Pasamos a sacar las métricas de estadística descriptiva de las variables numéricas:
descriptivos_numericas = df_netflix_originals.describe().T
descriptivos_numericas

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Runtime,513.0,94.674464,26.648121,4.0,87.0,97.0,108.0,209.0
IMDB Score,513.0,6.210916,0.96885,2.5,5.6,6.3,6.9,9.0


In [154]:
#Cálculos para a continuación comentar resultados de la desviación estándar
descriptivos_numericas.iloc[0, 1] - descriptivos_numericas.iloc[0, 2]

np.float64(68.02634327373347)

In [155]:
descriptivos_numericas.iloc[0, 1] + descriptivos_numericas.iloc[0, 2]

np.float64(121.3225846015102)

Runtime:
En media, la duración de las producciones originales de Netflix es de 94,6 minutos. El mínimo está en 4 minutos y el máximo en 209. Los valores de los percentiles están bastante cercanos los unos a los otros. El 75% de las peliculas tienen una duración mayor a 87 minutos, un valor bastante cercano a la media, y tan solo el 25% superan los 108 minutos. Es decir, parece que la media (muy cercana a la mediana de 97 minutos) es bastante representativa en este conjunto de datos. En cuanto a la desviación estándar, se podría decir que, cogiendo una película al azar, su duración probablemente esté entre 68,02 y 121 minutos. Los extremos (mínimo y máximo) parecen muy poco frecuentes. 
Me sorprende que una película (la de menos duración) pueda durar 4 minutos, y he decidido observar de que película se trata para comprobar si esta duración tiene sentido o no. Efectivamente, se trata de un cortometraje de anime y por tanto es correcto. 

In [156]:
#Aplico un filtro donde la duración es igual a 4 para identificar la película de menor duración.
filtro = df_netflix_originals["Runtime"] == 4
df_netflix_originals[filtro]

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language
37,Sol Levante,Anime / Short,"April 2, 2020",4,4.7,English


IMDB Score:
Por otro lado, en media, la puntuacion que reciben las producciones en la plataforma IMDB es de 6,2. El mínimo está en 2,5 y el máximo en 9. Por los percentiles, el 50% de las producciones reciben una calificación por encima de 6,3 y el otro 50% por debajo. La media y mediana son prácticamente iguales, por lo que la media parece muy representativa. El 75% de las producciones reciben una valoración por encima del 5,6. Es decir, parece que de forma general, la gran mayoría tiene una calificación media-alta. Tan solo el 25% de las producciones tienen una calificación por encima del 6,9, por lo que las que hayan recibido una calificación de 9 resultarán ser películas extraordinarias. 
He decidido observar qué película/s son las que han recibido la máxima calificación y solo hay una (David Attenborough: A Life on Our Planet). De la misma forma, la calificación mínima también la recibe una única película (Enter the Anime).

In [157]:
#Aplico un filtro donde la calificación es la máxima para identificar la mejor película valorada. 
filtro = df_netflix_originals["IMDB Score"] == 9
df_netflix_originals.loc[filtro]

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language
512,David Attenborough: A Life on Our Planet,Documentary,"October 4, 2020",83,9.0,English


In [158]:
#Aplico un filtro donde la calificación es la mínima para identificar la peor película valorada. 
filtro = df_netflix_originals["IMDB Score"] == 2.5
df_netflix_originals.loc[filtro]

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language
0,Enter the Anime,Documentary,"August 5, 2019",58,2.5,English/Japanese


In [159]:
#Lo siguiente es sacar lo mismo pero para las variables de tipo cadena:
df_netflix_originals.describe(include = "object").T

Unnamed: 0,count,unique,top,freq
Title,513,513,David Attenborough: A Life on Our Planet,1
Genre,513,106,Documentary,132
Premiere,513,350,"October 18, 2019",5
Language,513,37,English,352


De nuevo, se confirma lo que ya se había observado que es que no hay duplicados. Interesaría observar principalmente si hubiese duplicados por la columna título, pero a la vista de los resultados, hay 513 películas y las 513 son únicas. 

In [160]:
#Para observar los géneros únicos:
df_netflix_originals["Genre"].unique()

array(['Documentary', 'Thriller', 'Science fiction/Drama',
       'Horror thriller', 'Mystery', 'Action', 'Comedy',
       'Heist film/Thriller', 'Musical/Western/Fantasy', 'Drama',
       'Romantic comedy', 'Action comedy', 'Horror anthology',
       'Political thriller', 'Superhero-Comedy', 'Horror',
       'Romance drama', 'Anime / Short', 'Superhero', 'Heist', 'Western',
       'Animation/Superhero', 'Family film', 'Action-thriller',
       'Teen comedy-drama', 'Romantic drama', 'Animation',
       'Aftershow / Interview', 'Science fiction adventure',
       'Science fiction', 'Comedy-drama', 'Comedy/Fantasy/Family',
       'Action/Comedy', 'Action/Science fiction',
       'Romantic teenage drama', 'Comedy / Musical', 'Musical',
       'Variety show', 'Science fiction/Mystery',
       'Psychological thriller drama', 'Adventure/Comedy', 'Black comedy',
       'Romance', 'Horror comedy', 'Christian musical',
       'Romantic teen drama', 'Family', 'Dark comedy', 'Comedy horror',
    

In [161]:
#Para hacer un recuento de valores por cada género, quedándonos con los géneros cuya frecuencia es mayor:
df_netflix_originals["Genre"].value_counts().head()

Genre
Documentary        132
Drama               73
Comedy              42
Romantic comedy     35
Thriller            33
Name: count, dtype: int64

In [162]:
#Para observar con más claridad el peso de cada género sobre el total de las películas creo un DataFrame donde vaya a disponer de dos columnas. Por un lado, el recuento de películas para los 5 géneros con mayor peso, y por otro lado, el peso en % sobre el total (el recuento de las películas entre el total de las películas, que es igual al número de filas del csv):
df_recuento_valores_genre = pd.DataFrame(df_netflix_originals["Genre"].value_counts().head())
df_recuento_valores_genre["%/Total"] = round((df_netflix_originals["Genre"].value_counts().head())/(df_netflix_originals.shape[0])*100,2)
df_recuento_valores_genre

Unnamed: 0_level_0,count,%/Total
Genre,Unnamed: 1_level_1,Unnamed: 2_level_1
Documentary,132,25.73
Drama,73,14.23
Comedy,42,8.19
Romantic comedy,35,6.82
Thriller,33,6.43


Genre: Contamos con 106 géneros diferentes. Parece que el género "Documentary" sería la "moda", pues 132 películas pertenecen a este género, lo que supone que un 25,73% de las películas sean de este género. En segundo lugar, "Drama" también tiene bastante peso, pues un 14,23% de las películas pertenecen a este género. "Comedy", "Romantic comedy" y "Thriller" serían los siguientes géneros con más recuento de películas, pero su % en la base de datos ya cae a un 6-8%. 
De cara a la limpieza de datos quizás sería interesante agrupar estos géneros y obtener menos valores únicos, pues 106 son demasiados para estudiar y hay muchos que entre ellos tienen relación y podrían ser reasignados en uno solo. Se podría crear una columna nueva más genérica donde por ejemplo agrupar todos los distintos géneros de Comedia (dark comedy, horror comdy...) en uno que fuera "Comedy", o todos los distintos géneros de Drama (crime drama, sports-drama...) en uno solo: "Drama".

In [163]:
#Para observar los lenguajes únicos:
df_netflix_originals["Language"].unique()

array(['English/Japanese', 'Spanish', 'Italian', 'English', 'Hindi',
       'Turkish', 'Korean', 'Indonesian', 'Malay', 'Dutch', 'French',
       'English/Spanish', 'Filipino', 'German', 'Polish', 'Portuguese',
       'Norwegian', 'Marathi', 'Thai', 'Swedish', 'Japanese',
       'Spanish/Basque', 'Spanish/Catalan', 'English/Swedish',
       'English/Taiwanese/Mandarin', 'Thia/English', 'Bengali',
       'Khmer/English/French', 'English/Hindi', 'Tamil',
       'Spanish/English', 'English/Korean', 'English/Arabic',
       'English/Mandarin', 'English/Russian', 'English/Akan',
       'English/Ukranian/Russian'], dtype=object)

Por lo que veo hay dos valores únicos: English/Spanish, Spanish/English que realmente los toma como diferentes pero son lo mismo. Voy a identificar que títulos tienen el de Spanish/English y cambiarlo a English/Spanish 

In [164]:
#Títulos con Spanish/English
df_netflix_originals[df_netflix_originals["Language"] == "Spanish/English"]

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language
452,Mucho Mucho Amor: The Legend of Walter Mercado,Documentary,"July 8, 2020",96,7.3,Spanish/English


In [165]:
#Realización del cambio 
df_netflix_originals.iloc[452,5] = "English/Spanish"

In [166]:
#Para hacer un recuento de valores por cada lenguaje, quedándonos con aquellos cuya frecuencia es mayor:
df_netflix_originals["Language"].value_counts().head()

Language
English    352
Hindi       28
Spanish     26
French      18
Italian     14
Name: count, dtype: int64

In [167]:
#Para observar con más claridad el peso de cada idioma sobre el total de las películas creo un DataFrame donde vaya a disponer de dos columnas. Por un lado, el recuento de películas para los 5 idiomas con mayor peso, y por otro lado, el peso en % sobre el total (el recuento de las películas entre el total de las películas, que es igual al número de filas del csv):
df_recuento_valores_language = pd.DataFrame(df_netflix_originals["Language"].value_counts().head())
df_recuento_valores_language["%/Total"] = round((df_netflix_originals["Language"].value_counts().head())/(df_netflix_originals.shape[0])*100,2)
df_recuento_valores_language

Unnamed: 0_level_0,count,%/Total
Language,Unnamed: 1_level_1,Unnamed: 2_level_1
English,352,68.62
Hindi,28,5.46
Spanish,26,5.07
French,18,3.51
Italian,14,2.73


Language: Contamos con 37 combinaciones de idiomas diferentes. En este caso, el idioma con mayor peso tiene mucho peso. Es decir, más de la mitad de las películas, cocretamente el 68,62% se presentan únicamente en inglés. En segundo lugar, con aproximadamente el 5% de las películas, tenemos el idioma hindi y el español. Pero sin duda en este caso el idioma predominante en las películas originales es el inglés. 

En este caso nos podría interesar saber cuantos titulos se presentan en inglés sin distinguir si es el único idioma o si aparte hay más.

In [168]:
#Obtener cuantos títulos se presentan en inglés 
df_netflix_originals_ingles = df_netflix_originals[df_netflix_originals["Language"].str.contains("English")]
porcentaje_ingles = df_netflix_originals_ingles.shape[0] / df_netflix_originals.shape[0]
porcentaje_ingles

0.7251461988304093

Efectivamente el % aumenta, y un 72,5% de los títulos se presentan en inglés (el 68% únicamnete en inglés y el otro 4% aproximadamente en inglés y además en otros idiomas también)

Premiere: En cuanto a esta columna, ya habíamos visto que el tipo de dato era incorrecto. Lo que ocurre es que esta columna en el análisis aporta poco valor, pues más que observar qué día concreto (número, mes y año) es en el que más películas se han estrenado, interesaría mucho más observarlo por separado. Es decir, poder observar si hay un año en el que se han estrenado más películas que en otros, o si hay ciertos meses en los que hay muchos más estrenos de forma repetida a lo largo de los años, o incluso si el día de la semana también influye en que hayan más o menos estrenos. Para ello, se va a prescindir de esta columna y se van a crear tres columnas nuevas a partir de ella, y serán con las que se hagan estos análisis previamente mencionados.

In [169]:
#Para obtener una nueva columna que recoja el mes del estreno lo que hago es iterar sobre la columna de Premiere, dividiendo la cadena de esta columna por los espacios de forma que me quedaría con 3 partes (el mes, el día y el año), pero selecciono el primer elemento, es decir, el mes. Este, para cada fila, se va añadiendo a una lista que va a ser la que posteriormente se incluya como columna "Month Premiere", de forma que cada elemento de la lista va a corresponder a cada registro de la tabla.
df_netflix_originals["Month Premiere"] = [fecha.split(" ")[0] for fecha in df_netflix_originals["Premiere"]]
df_netflix_originals.sample()

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language,Month Premiere
143,"Out of Many, One",Documentary,"December 12, 2018",34,5.7,English,December


In [170]:
#Para obtener una nueva columna que recoja el año del estreno hago lo mismo pero seleccionando el tercer elemento, es decir, el año. 
df_netflix_originals["Year Premiere"] = [fecha.split(" ")[2] for fecha in df_netflix_originals["Premiere"]]
df_netflix_originals.sample()

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language,Month Premiere,Year Premiere
305,Jingle Jangle: A Christmas Journey,Family/Christmas musical,"November 13, 2020",119,6.5,English,November,2020


In [171]:
#El código siguiente me ha dado error pues había 5 registros cuya "Premier" en vez de estar separada por coma entre el día y el año, estaba separado por punto. Como son pocos registros he hecho el cambio de estos 5 casos uno a uno:
df_netflix_originals.iloc[103, 2] = "October 16, 2019"
df_netflix_originals.iloc[283, 2] = "September 15, 2017"
df_netflix_originals.iloc[354, 2] = "July 15, 2016"
df_netflix_originals.iloc[481, 2] = "October 17, 2017"
df_netflix_originals.iloc[483, 2] = "September 16, 2016"

In [172]:
#Para obtener la tercera columna con el día de la semana, primero es necesario pasar la columna "Premiere" de tipo object a tipo date. 
df_netflix_originals["Premiere"] = pd.to_datetime(df_netflix_originals["Premiere"], format = "%B %d, %Y")

In [173]:
#Comprobamos que el cambio de la columna "Premiere" se ha realizado correctamente
df_netflix_originals.sample()

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language,Month Premiere,Year Premiere
358,A Futile and Stupid Gesture,Biographical/Comedy,2018-01-26,101,6.8,English,January,2018


In [174]:
#Ahora ya, a partir de la columna "Premiere" en formato fecha, se puede generar la columna nueva de día de la semana iterando de la misma forma por "Premiere" y empleando el método dayofweek para obtener: 0-lunes, 1-martes, 2-miércoles, 3-jueves, 4-viernes, 5-sábado, 6-domingo.
df_netflix_originals["Day Premiere"] = [fecha.dayofweek for fecha in df_netflix_originals["Premiere"]]
df_netflix_originals.head()

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language,Month Premiere,Year Premiere,Day Premiere
0,Enter the Anime,Documentary,2019-08-05,58,2.5,English/Japanese,August,2019,0
1,Dark Forces,Thriller,2020-08-21,81,2.6,Spanish,August,2020,4
2,The App,Science fiction/Drama,2019-12-26,79,2.6,Italian,December,2019,3
3,The Open House,Horror thriller,2018-01-19,94,3.2,English,January,2018,4
4,Kaali Khuhi,Mystery,2020-10-30,90,3.4,Hindi,October,2020,4


In [175]:
#Voy a transformar el día de la semana de números a los días escritos para verlo con mayor claridad. Itero por Day Premiere y como disponemos de un valor del 0 al 6 que corresponde con cada día, se crea una lista con los días de la semana en orden y se hace que el día de la semana correspondiente para cada registro vaya a ser indexando en la lista de los días por el día de la semana del que disponemos, que va a coincidir con el índice de la posición del día de la semana. 
dias_semana = ["Lunes", "Martes", "Miercoles", "Jueves", "Viernes", "Sabado", "Domingo"]    
df_netflix_originals["Day Week Premiere"] = [dias_semana[dia] for dia in df_netflix_originals["Day Premiere"]]
df_netflix_originals.head()

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language,Month Premiere,Year Premiere,Day Premiere,Day Week Premiere
0,Enter the Anime,Documentary,2019-08-05,58,2.5,English/Japanese,August,2019,0,Lunes
1,Dark Forces,Thriller,2020-08-21,81,2.6,Spanish,August,2020,4,Viernes
2,The App,Science fiction/Drama,2019-12-26,79,2.6,Italian,December,2019,3,Jueves
3,The Open House,Horror thriller,2018-01-19,94,3.2,English,January,2018,4,Viernes
4,Kaali Khuhi,Mystery,2020-10-30,90,3.4,Hindi,October,2020,4,Viernes


In [176]:
#Ahora se elimina la columna de "Day Premiere" pues es información redundante
df_netflix_originals.drop("Day Premiere", axis = 1, inplace= True)

In [177]:
df_netflix_originals.sample()

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language,Month Premiere,Year Premiere,Day Week Premiere
85,"To Each, Her Own",Romantic comedy,2018-06-24,95,5.3,French,June,2018,Domingo


In [178]:
#Ahora que ya tenemos estas 3 nuevas columnas creadas voy a comprobar que el type es el correcto para cada una de ellas. 
df_netflix_originals[["Month Premiere", "Year Premiere", "Day Week Premiere"]].dtypes

Month Premiere       object
Year Premiere        object
Day Week Premiere    object
dtype: object

Parece que los tipo de dato de Month Premiere y Day Week Premiere son correctos. En cambio, Year Premiere tiene de tipo object, lo que no sería del todo correcto, pues tendría más sentido que fuese de tipo entero o fecha. Pero, si lo paso a tipo fecha me lo convierte en una fecha como la de la columna "Premiere" asique lo voy a dejar en tipo entero. 

In [179]:
#Pasar la columna Year Premiere de tipo object a tipo integer
df_netflix_originals["Year Premiere"] = df_netflix_originals["Year Premiere"].astype(int)

In [180]:
#Comprobamos que se ha modificado el tipo de dato correctamente
df_netflix_originals[["Year Premiere"]].dtypes

Year Premiere    int64
dtype: object

In [181]:
#Me voy a quedar con aquellas columnas en cuyo título tienen el nombre "Premiere" para hacer una exploración de las mismas
columns_premiere = df_netflix_originals.filter(like = "Premiere")
columns_premiere.sample()

Unnamed: 0,Premiere,Month Premiere,Year Premiere,Day Week Premiere
271,2019-09-25,September,2019,Miercoles


In [182]:
#Se observan los estadísticos descriptivos de las variables numéricas
columns_premiere.describe().T

Unnamed: 0,count,mean,min,25%,50%,75%,max,std
Premiere,513.0,2019-06-16 00:53:20,2014-12-13 00:00:00,2018-06-08 00:00:00,2019-10-18 00:00:00,2020-09-17 00:00:00,2021-05-27 00:00:00,
Year Premiere,513.0,2018.929825,2014.0,2018.0,2019.0,2020.0,2021.0,1.494439


Premiere: De esta columna podemos fijarnos en el mínimo y el máximo. Es decir, conocemos que dentro de los datos recogidos, la película estrenada hace más tiempo fue en diciembre de 2014. Por otro lado, la película más reciente estrenada de la cual disponemos de información fue en mayo de 2021. 

Year Premiere: En definitiva, contamos con datos recogidos desde 2014 hasta 2021. De esta columna me interesa más conocer el recuento de películas en cada año de estreno para ver si hay diferencias o no.

In [183]:
#Obtener el recuento de películas por año de estreno y el % sobre el total para verlo más claro
df_recuento_valores_year = pd.DataFrame(df_netflix_originals["Year Premiere"].value_counts().head())
df_recuento_valores_year["%/Total"] = round((df_netflix_originals["Year Premiere"].value_counts().head())/(df_netflix_originals.shape[0])*100,2)
df_recuento_valores_year

Unnamed: 0_level_0,count,%/Total
Year Premiere,Unnamed: 1_level_1,Unnamed: 2_level_1
2020,164,31.97
2019,107,20.86
2018,85,16.57
2021,62,12.09
2017,57,11.11


Parece que en dos de los últimos años para los que tenemos datos (2020, y 2019) es cuando más estrenos de películas se han producido, con un 31,97% y un 20,86% de las películas respectivamente. Se observa que a medida que han ido pasando los años, los estrenos de películas también han ido aumentando, excepto en 2021 (pudo verse afectado por el covid).

In [184]:
#Ahora voy a sacar la información descriptiva de las variables no numéricas
columns_premiere.describe(include= "object").T

Unnamed: 0,count,unique,top,freq
Month Premiere,513,12,October,69
Day Week Premiere,513,7,Viernes,345


In [185]:
#Recuento de valores por cada mes y el % sobre el total para verlo con más claridad
df_recuento_valores_month = pd.DataFrame(df_netflix_originals["Month Premiere"].value_counts())
df_recuento_valores_month["%/Total"] = round((df_netflix_originals["Month Premiere"].value_counts())/(df_netflix_originals.shape[0])*100,2)
df_recuento_valores_month

Unnamed: 0_level_0,count,%/Total
Month Premiere,Unnamed: 1_level_1,Unnamed: 2_level_1
October,69,13.45
April,57,11.11
November,51,9.94
May,47,9.16
March,46,8.97
September,45,8.77
December,38,7.41
August,34,6.63
July,32,6.24
February,32,6.24


In [186]:
#Recuento de valores por cada día y el % sobre el total para verlo con más claridad
df_recuento_valores_day = pd.DataFrame(df_netflix_originals["Day Week Premiere"].value_counts())
df_recuento_valores_day["%/Total"] = round((df_netflix_originals["Day Week Premiere"].value_counts())/(df_netflix_originals.shape[0])*100,2)
df_recuento_valores_day

Unnamed: 0_level_0,count,%/Total
Day Week Premiere,Unnamed: 1_level_1,Unnamed: 2_level_1
Viernes,345,67.25
Miercoles,70,13.65
Jueves,55,10.72
Martes,19,3.7
Lunes,13,2.53
Domingo,8,1.56
Sabado,3,0.58


Month Premiere: En cuanto a los meses, no hay demasiada diferencia en el % entre unos y otros, pero si que se puede comentar que de forma general para todos los años, en los meses de octubre y de abril es cuando más estrenos hay y en cambio en los meses de enero y junio es cuando menos. 

Day Week Premiere: Por otro lado, en cuanto a los días si que se observa más diferencia entre los %. De forma clara, los viernes es el día de la semana en el que más estrenos hay (con un 67,25% de los estrenos). A continuación, los miércoles y los jueves serían los días de más estrenos (con un 13,65% y 10,72% de los estrenos respectivamente) y el en el resto de días el % ya disminuye considerablemente. 

## Resumen primer csv (originales)

- **Conclusiones y Resultados del Análisis Exploratorio**

    - No hay duplicados. 
    - No hay nulos. 
    - En media, las películas duran al rededor de una hora y media. 
    - El 75% de las películas tienen una puntuación en la plataforma IMDB media-alta. 
    - Predominan los géneros: documentales (25%), drama(14%).
    - El 68% de las películas se presentan en Inglés.
    - Contamos con películas estrenadas de 2014 a 2021. Parece que a medida que pasan los años hay más estrenos (excepto en 2021).
    - Los meses en los que más estrenos hay son Octubre (13%) y Abril (11%).
    - El día de la semana en el que más estrenos hay es el viernes (67%).

- **Posible futura Limpieza y Transformación de Datos**

    - Premiere: Se puede eliminar. Hacer algún análisis más por quincenas del mes (a principios de mes y a finales). 
    - Genre: Valorar si se pueden agrupar los géneros de forma que no contemos con tantos valores únicos y se pueda simplificar el análisis.

## Leemos el segundo csv (originales y adquiridos) y una primera observación de los datos

In [187]:
#Leemos el segundo csv (contiene películas originales y adquiridas de Netflix) y le incorporamos el que resetee los índices directamente para evitar problemas
df_netflix_titles = pd.read_csv("da-octubre-24/Modulo2/labs/enunciados/datos/netflix_titles.csv", index_col = 0).reset_index(drop = True)
df_netflix_titles.sample()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
385,s386,TV Show,How to Sell Drugs Online (Fast),,"Maximilian Mundt, Danilo Kamperidis, Lena Klen...",Germany,"July 27, 2021",2021,TV-MA,,"Crime TV Shows, International TV Shows, TV Com...","To win back his ex-girlfriend, a nerdy teen st..."


In [188]:
#Confirmar que los índices son continuos y están correctos
df_netflix_titles.index

RangeIndex(start=0, stop=8807, step=1)

Los títulos de este csv están en minúsculas y quiero poder tenerlos igual que en el primer csv, con la primera letra en mayúscula, por lo que al leer el csv lo voy a incorporar para que el nombre de las columnas sea modificado. Además de este cambio, para aquellas columnas cuyo nombre está compuesto por dos palabras lo voy a dejar como en el csv anterior (separadas por espacio en vez de por barrabaja).

In [189]:
#Bucle para obtener un diccionario con los nombres de las columnas con la primera letra en mayúscula y poder renombrarlas fácilmente
df_titulos = df_netflix_titles.columns
dicc_mayusc = {}
for column in df_titulos:
    antigua = column
    mayusc = column.capitalize()
    dicc_mayusc[antigua] = mayusc
print(dicc_mayusc)

{'show_id': 'Show_id', 'type': 'Type', 'title': 'Title', 'director': 'Director', 'cast': 'Cast', 'country': 'Country', 'date_added': 'Date_added', 'release_year': 'Release_year', 'rating': 'Rating', 'duration': 'Duration', 'listed_in': 'Listed_in', 'description': 'Description'}


In [190]:
#Renombrar las columnas
df_netflix_titles = df_netflix_titles.rename(columns={'show_id': 'Show_id', 'type': 'Type', 'title': 'Title', 'director': 'Director', 'cast': 'Cast', 'country': 'Country', 'date_added': 'Date_added', 'release_year': 'Release_year', 'rating': 'Rating', 'duration': 'Duration', 'listed_in': 'Listed_in', 'description': 'Description'})
df_netflix_titles.sample()

Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description
8366,s8367,TV Show,The Investigator: A British Crime Story,,"Mark Williams-Thomas, Rick Warden, Frances Mil...",United Kingdom,"March 5, 2020",2018,TV-MA,2 Seasons,"British TV Shows, Crime TV Shows, Docuseries","After 40 years of inconclusive evidence, renow..."


In [191]:
#Antes de nada quiero conocer que forma tiene mi csv: 8808 filas y 12 columnas
df_netflix_titles.shape

(8807, 12)

Las columnas parece que están bien estructuradas. Ya de primeras identificamos que en esta tabla si nos vamos a enfrentar a valores nulos que habrá que ver como tratarlos. Es un csv bastante más grande que el primero.

## Exploración de los datos segundo csv

In [192]:
#Lo primero que hago es sacar la información para todas las columnas: 
df_netflix_titles.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8807 entries, 0 to 8806
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Show_id       8807 non-null   object
 1   Type          8807 non-null   object
 2   Title         8807 non-null   object
 3   Director      6173 non-null   object
 4   Cast          7982 non-null   object
 5   Country       7976 non-null   object
 6   Date_added    8797 non-null   object
 7   Release_year  8807 non-null   int64 
 8   Rating        8803 non-null   object
 9   Duration      3994 non-null   object
 10  Listed_in     8807 non-null   object
 11  Description   8807 non-null   object
dtypes: int64(1), object(11)
memory usage: 825.8+ KB


Parece que efectivamente hay nulos en las columnas de Director, Cast, Country, Data_added, Rating, Duration. Para observarlo mejor se va a generar un reporte donde visualizar el número de nulos, el porcentaje de nulos (verlo con más claridad) y el tipo de dato de cada columna.

In [193]:
#Se crea una función la cual va a generar esta información mencionada previamente y se va a llamar a la función invocando al DataFrame correspondiente
def reporte(df):
    df_report = pd.DataFrame()
    df_report["numero_nulos"] = df.isnull().sum()
    df_report["porcentaje_nulos"] = round((df.isnull().sum()/df.shape[0]*100), 2)
    df_report["tipo_dato"] = df.dtypes
    return df_report

reporte(df_netflix_titles)

Unnamed: 0,numero_nulos,porcentaje_nulos,tipo_dato
Show_id,0,0.0,object
Type,0,0.0,object
Title,0,0.0,object
Director,2634,29.91,object
Cast,825,9.37,object
Country,831,9.44,object
Date_added,10,0.11,object
Release_year,0,0.0,int64
Rating,4,0.05,object
Duration,4813,54.65,object


Antes de observar los nulos, en este reporte también encontramos la información sobre el tipo de dato de cada columna. Todas excepto Release_year aparecen con tipo object lo que es correcto para todas las columnas excepto para Date_added. Date_added va a ser transformada a tipo de dato fecha y Release_year en principio al solo ser el año la voy a dejar como integer.

Al tratar de convertir Data_added a tipo de dato fecha me da error, en este caso porque hay algún registro que tiene un espacio antes de la fecha y no coge bien el formato de fecha especificado. 

In [194]:
#Quitar espacios al principio de la cadena en la variable Data_added
df_netflix_titles["Date_added"] = df_netflix_titles["Date_added"].str.lstrip()

In [195]:
#Transformar la variable Data_added de tipo objeto a tipo fecha
df_netflix_titles["Date_added"] = pd.to_datetime(df_netflix_titles["Date_added"], format = "%B %d, %Y")

In [196]:
#Llamamos otra vez a la función de reporte para comprobar que ya todas tienen el tipo de dato correcto y comenzar a observar los nulos
reporte(df_netflix_titles)

Unnamed: 0,numero_nulos,porcentaje_nulos,tipo_dato
Show_id,0,0.0,object
Type,0,0.0,object
Title,0,0.0,object
Director,2634,29.91,object
Cast,825,9.37,object
Country,831,9.44,object
Date_added,10,0.11,datetime64[ns]
Release_year,0,0.0,int64
Rating,4,0.05,object
Duration,4813,54.65,object


El % de nulos en la columna Director y en la columna Duration es bastante alto y por tanto son dos columnas con las que probablemente no se vaya a trabajar. 

In [197]:
#Tratar de identificar si los nulos en Director tienen algún patrón mediante quedarnos unicamente con las filas cuyo Director es nulo. De esta forma también se almacenan todos los nulos de Director en un DataFrame
df_nulos_director = df_netflix_titles[df_netflix_titles["Director"].isnull()]
df_nulos_director.sample()

Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description
6323,s6324,TV Show,Black Heart,,"Barış Kılıç, Tuvana Türkay, Serhat Tutumluer, ...",Turkey,2018-10-12,2014,TV-14,,"Crime TV Shows, International TV Shows, TV Dramas",Blaming a crooked media mogul for the death of...


In [198]:
#Tratar de identificar si los nulos en Duration tienen algún patrón mediante quedarnos unicamente con las filas cuya duración se desconoce
df_nulos_director = df_netflix_titles[df_netflix_titles["Duration"].isnull()]
df_nulos_director.sample()

Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description
138,s139,Movie,Dear John,Lasse Hallström,"Channing Tatum, Amanda Seyfried, Richard Jenki...",United States,2021-09-01,2010,PG-13,,"Dramas, Romantic Movies","While on summer leave, a U.S. soldier falls fo..."


En ninguna de las dos columnas se identifica un patrón para los nulos. De primeras son dos columnas con las que se descarta trabajar pues el % de registros desconocidos es muy alto. Si el porcentaje de nulos hubiese sido más bajo se podría por ejemplo haber rellenado los nulos de Duration con la media.
En cuanto a la columna de Cast, Country, Date_added, Rating, el % de nulos es menor y quiero también observar si en estos casos hay algún patrón o no.

In [199]:
#Tratar de identificar si los nulos en Cast tienen algún patrón
df_nulos_cast = df_netflix_titles[df_netflix_titles["Cast"].isnull()]
df_nulos_cast.sample()

Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description
7341,s7342,Movie,Losing Sight of Shore,Sarah Moshman,,"United States, Australia, Samoa, United Kingdom",2017-05-01,2017,TV-14,,"Documentaries, Sports Movies",This documentary recounts the feats of the Cox...


In [200]:
#Tratar de identificar si los nulos en Country tienen algún patrón 
df_nulos_country = df_netflix_titles[df_netflix_titles["Country"].isnull()]
df_nulos_country.sample()

Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description
3167,s3168,Movie,Celebrity Marriage,Pascal Amanfo,"Kanayo O. Kanayo, Tonto Dikeh, Jackie Appiah, ...",,2019-12-06,2017,TV-14,107 min,"Dramas, International Movies",A successful actress with an abusive husband c...


In [201]:
#Tratar de identificar si los nulos en Date_added tienen algún patrón 
df_nulos_date_added = df_netflix_titles[df_netflix_titles["Date_added"].isnull()]
df_nulos_date_added.sample()

Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description
6795,s6796,TV Show,Frasier,,"Kelsey Grammer, Jane Leeves, David Hyde Pierce...",United States,NaT,2003,TV-PG,11 Seasons,"Classic & Cult TV, TV Comedies",Frasier Crane is a snooty but lovable Seattle ...


In [202]:
#Tratar de identificar si los nulos en Rating tienen algún patrón 
df_nulos_rating = df_netflix_titles[df_netflix_titles["Rating"].isnull()]
df_nulos_rating.sample()

Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description
6827,s6828,TV Show,Gargantia on the Verdurous Planet,,"Kaito Ishikawa, Hisako Kanemoto, Ai Kayano, Ka...",Japan,2016-12-01,2013,,,"Anime Series, International TV Shows","After falling through a wormhole, a space-dwel..."


Parece que no hay ningún patrón en los nulos de ninguna columna, excepto en Date_added que aquellas películas con nulos son todas de tipo TV Show. Con estas cuatro columnas se podría trabajar pues el % de nulos no es demasiado alto como para descartar el trabajo con ellas, sobretodo date_added y rating tienen un % de nulos muy bajo. Para rating el porcentaje de nulos es tan mínimo que considero que es casi insignificante y trabajaría con ellos así. Para las columnas de Cast y Country estaría muy bien tratar de identificar si estos nulos se pudiesen rellenar. En el caso de Cast (lista de actores) es muy complicado inferir este valor pues no podemos fijarnos en un campo de otra película para poder rellenarlo. Es algo personal de cada título y no será posible rellenarlo. En el caso del país donde se produjo el título se podría intentar rellenar a partir del director. Es decir, es posible que haya directores cuya producción sea siempre en el mismo país y lo podamos inferir a partir de otros títulos, pero habría que observar, por un lado, si esta relación ocurre y es así, y, por otro lado, si disponemos del director para los registros en los que el el país de producción está nulo, pues hay algunos que también tienen nulo el campo de Director y no sería posible rellenarlos con este criterio.

In [203]:
#Observar con el ejemplo de un director si coincide el país de producción del título
df_netflix_titles[df_netflix_titles["Director"] == "Mike Flanagan"]

Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description
5,s6,TV Show,Midnight Mass,Mike Flanagan,"Kate Siegel, Zach Gilford, Hamish Linklater, H...",,2021-09-24,2021,TV-MA,,"TV Dramas, TV Horror, TV Mysteries",The arrival of a charismatic young priest brin...
5091,s5092,Movie,Before I Wake,Mike Flanagan,"Kate Bosworth, Thomas Jane, Jacob Tremblay, An...",United States,2018-01-05,2016,PG-13,,"Horror Movies, Thrillers","Still mourning the death of their son, Mark an..."
5252,s5253,Movie,Gerald's Game,Mike Flanagan,"Carla Gugino, Bruce Greenwood, Henry Thomas, C...",United States,2017-09-29,2017,TV-MA,,"Horror Movies, Thrillers","When her husband's sex game goes wrong, Jessie..."
5852,s5853,Movie,Hush,Mike Flanagan,"John Gallagher Jr., Kate Siegel, Michael Trucc...",United States,2016-04-08,2016,R,82 min,"Horror Movies, Thrillers",A deaf writer who retreated into the woods to ...


Para este ejemplo, si parece que el país de producción del título sea el mismo para cuando se trata del mismo director, por tanto, podría ser una forma de rellenar algunos nulos (para los que disponemos del Director) de la columna del país de producción. 

In [204]:
#Observar si hay duplicados
df_netflix_titles.duplicated().sum()

np.int64(0)

No hay duplicados en la base de datos 

In [205]:
#Sacar los estadísticos descriptivos de las variables numéricas/ tipo fecha
df_netflix_titles.describe().T

Unnamed: 0,count,mean,min,25%,50%,75%,max,std
Date_added,8797.0,2019-05-17 05:59:08.436967168,2008-01-01 00:00:00,2018-04-06 00:00:00,2019-07-02 00:00:00,2020-08-19 00:00:00,2021-09-25 00:00:00,
Release_year,8807.0,2014.180198,1925.0,2013.0,2017.0,2019.0,2021.0,8.819312


Date_added: De esta columna podemos comentar más que nada que contamos con títulos que han sido añadidos al catálogo de Netflix entre enero de 2008 y septiembre de 2021. 
Release_year: Por otro lado, en cuanto al año de lanzamiento o producción del título, contamos con títulos que han sido lanzados o producidos entre 1925 y 2021. El 75% de los títulos han sido lanzados o producidos a partir de 2013, es decir, en el periodo de 1925 a 2013 contamos con pocos títulos, solo el 25%. En general los títulos son más recientes. Al ser muy pocos aquellos títulos (solo el 25%) cuyo año de lanzamiento o producción está entre 1925 y 2013, y al ser este periodo un periodo bastante amplio, de cara a un futuro para el análisis, se puede considerar agrupar a todos esos títulos (ponerles un mismo valor a todos en Release_year) y así no disponer de tantos años con tan pocos valores en cada uno y que sea más sencillo de analizar, hacer estudios, agrupaciones etc. 

In [206]:
#Observar con más claridad en que años se producen mayores lanzamientos o producciones de títulos 
df_recuento_valores_releaseyear = pd.DataFrame(df_netflix_titles["Release_year"].value_counts().head(10))
df_recuento_valores_releaseyear["%/Total"] = round((df_netflix_titles["Release_year"].value_counts().head(10))/(df_netflix_titles.shape[0])*100,2)
df_recuento_valores_releaseyear

Unnamed: 0_level_0,count,%/Total
Release_year,Unnamed: 1_level_1,Unnamed: 2_level_1
2018,1147,13.02
2017,1032,11.72
2019,1030,11.7
2020,953,10.82
2016,902,10.24
2021,592,6.72
2015,560,6.36
2014,352,4.0
2013,288,3.27
2012,237,2.69


Se observa que en los años 2018, 2017, 2019, 2020 y 2016 (es decir, años recientes como ya se venía esperando) son en los que mayores lanzamientos o producciones de títulos se han producido. No hay una diferencia significativa entre ellos pero 2018 contaría con el mayor % de títulos lanzados o producidos, concretamente con el 13,02 % de los títulos. El resto de los años ronda el 10-11% de los títulos. A continuación estarían el 2021 y el 2015 (con un 6,72% y un 6,36% de los títulos) y ya después años cada vez más lejanos donde el % de títulos va decreciendo considerablemente.

Con la columna de Date_added ocurriría lo mismo que con la de Premiere en el primer csv. Más que tener el día exacto en el que se añaden los títulos al catálogo de Netflix, interesaría tener por separado el año (observar si ha habido un año concreto en el que se hayan añadido más títulos que en el resto, por ejemplo), el mes (observar en que meses de forma general a lo largo de los años se han añadido más títulos en el catálogo) y el día de la semana o hacer una agrupación por días en "primera quincena" y "segunda quincena" y poder observar si quizás en la primera mitad del mes se añaden más títulos que en la segunda etc. 
En este caso, voy a dejarlo como tarea para profundizar en el análisis en el futuro.

In [207]:
#Sacar los descriptivos de las variables no numéricas 
df_netflix_titles.describe(include= "object").T

Unnamed: 0,count,unique,top,freq
Show_id,8807,8807,s8807,1
Type,8807,2,Movie,6131
Title,8807,8807,Zubaan,1
Director,6173,4528,Rajiv Chilaka,19
Cast,7982,7692,David Attenborough,19
Country,7976,748,United States,2818
Rating,8803,17,TV-MA,3207
Duration,3994,185,2 Seasons,425
Listed_in,8807,514,"Dramas, International Movies",362
Description,8807,8775,"Paranormal activity at a lush, abandoned prope...",4


En este caso, se vuelve a confirmar que no hay duplicados, pues contamos con 8807 títulos de películas y los 8807 son únicos. 

In [208]:
#Tipos de contenido diferentes con el recuento y el % que representan sobre el total 
df_recuento_valores_type = pd.DataFrame(df_netflix_titles["Type"].value_counts())
df_recuento_valores_type["%/Total"] = round((df_netflix_titles["Type"].value_counts())/(df_netflix_titles.shape[0])*100,2)
df_recuento_valores_type

Unnamed: 0_level_0,count,%/Total
Type,Unnamed: 1_level_1,Unnamed: 2_level_1
Movie,6131,69.62
TV Show,2676,30.38


En cuanto al tipo de contenido de los títulos solo hay dos categorías (Movie y TV Show). Parece que el tipo de contenido Movie supera con creces a TV Show, pues el 69,62% de los títulos pertenecen a la categoría Movie.

En cuanto a la lista de actores y actrices que participan en cada título es lógico que los valores únicos sean muchos, por no decir casi todos, pues es complicado que haya películas en las que justamente coincidan los actores y actrices de otra película. Me ha parecido curioso que como "top" aparezca David Attenborough y además aparezca en 19 títulos. 

In [209]:
#Observar en qué títulos David Attenborough es el único actor
df_netflix_titles[df_netflix_titles["Cast"] == "David Attenborough"]

Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description
997,s998,TV Show,Life in Color with David Attenborough,,David Attenborough,"Australia, United Kingdom",2021-04-22,2021,TV-PG,,"British TV Shows, Docuseries, International TV...","Using innovative technology, this docuseries e..."
1886,s1887,Movie,David Attenborough: A Life on Our Planet,"Alastair Fothergill, Jonnie Hughes, Keith Scholey",David Attenborough,"United States, United Kingdom",2020-10-04,2020,PG,84 min,Documentaries,"A broadcaster recounts his life, and the evolu..."
3573,s3574,Movie,Our Planet - Behind The Scenes,,David Attenborough,United Kingdom,2019-08-20,2019,TV-G,63 min,Documentaries,Years spent recording footage of creatures fro...
3938,s3939,TV Show,Our Planet,,David Attenborough,"United States, United Kingdom",2019-04-05,2019,TV-PG,,"Docuseries, Science & Nature TV",Experience our planet's natural beauty and exa...
6094,s6095,TV Show,Africa,,David Attenborough,United Kingdom,2016-04-28,2013,TV-PG,,"British TV Shows, Docuseries, International TV...",This five-part nature series chronicles fascin...
6341,s6342,TV Show,Blue Planet II,,David Attenborough,United Kingdom,2018-12-03,2017,TV-G,,"British TV Shows, Docuseries, Science & Nature TV",This sequel to the award-winning nature series...
6810,s6811,TV Show,Frozen Planet,Alastair Fothergill,David Attenborough,"United Kingdom, United States, Spain, Germany,...",2016-01-28,2011,TV-PG,,"British TV Shows, Docuseries, International TV...",Go on a journey through the Arctic and Antarct...
6811,s6812,Movie,Frozen Planet: On Thin Ice,,David Attenborough,"United Kingdom, United States, Spain, Germany,...",2016-01-28,2011,TV-PG,47 min,Movies,David Attenborough journeys to both polar regi...
6812,s6813,Movie,Frozen Planet: The Epic Journey,,David Attenborough,"United Kingdom, United States, Spain, Germany,...",2016-01-28,2011,TV-PG,52 min,Movies,Collecting highlights from the epic documentar...
7300,s7301,TV Show,Life on Location,,David Attenborough,United States,2015-04-22,2009,TV-G,,"British TV Shows, Docuseries, Science & Nature TV","Members of the BBC's ""Life"" production crew go..."


In [210]:
#Comprobar si siempre trabaja solo como actor o si aparece en algún otro título con más actores/actrices
df_netflix_titles[df_netflix_titles["Cast"].str.contains("David Attenborough", case=False, na=False)]

Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description
757,s758,Movie,Breaking Boundaries: The Science Of Our Planet,Jonathan Clay,"David Attenborough, Johan Rockström",United States,2021-06-04,2021,TV-PG,74 min,Documentaries,David Attenborough and scientist Johan Rockstr...
997,s998,TV Show,Life in Color with David Attenborough,,David Attenborough,"Australia, United Kingdom",2021-04-22,2021,TV-PG,,"British TV Shows, Docuseries, International TV...","Using innovative technology, this docuseries e..."
1886,s1887,Movie,David Attenborough: A Life on Our Planet,"Alastair Fothergill, Jonnie Hughes, Keith Scholey",David Attenborough,"United States, United Kingdom",2020-10-04,2020,PG,84 min,Documentaries,"A broadcaster recounts his life, and the evolu..."
3573,s3574,Movie,Our Planet - Behind The Scenes,,David Attenborough,United Kingdom,2019-08-20,2019,TV-G,63 min,Documentaries,Years spent recording footage of creatures fro...
3938,s3939,TV Show,Our Planet,,David Attenborough,"United States, United Kingdom",2019-04-05,2019,TV-PG,,"Docuseries, Science & Nature TV",Experience our planet's natural beauty and exa...
6094,s6095,TV Show,Africa,,David Attenborough,United Kingdom,2016-04-28,2013,TV-PG,,"British TV Shows, Docuseries, International TV...",This five-part nature series chronicles fascin...
6341,s6342,TV Show,Blue Planet II,,David Attenborough,United Kingdom,2018-12-03,2017,TV-G,,"British TV Shows, Docuseries, Science & Nature TV",This sequel to the award-winning nature series...
6810,s6811,TV Show,Frozen Planet,Alastair Fothergill,David Attenborough,"United Kingdom, United States, Spain, Germany,...",2016-01-28,2011,TV-PG,,"British TV Shows, Docuseries, International TV...",Go on a journey through the Arctic and Antarct...
6811,s6812,Movie,Frozen Planet: On Thin Ice,,David Attenborough,"United Kingdom, United States, Spain, Germany,...",2016-01-28,2011,TV-PG,47 min,Movies,David Attenborough journeys to both polar regi...
6812,s6813,Movie,Frozen Planet: The Epic Journey,,David Attenborough,"United Kingdom, United States, Spain, Germany,...",2016-01-28,2011,TV-PG,52 min,Movies,Collecting highlights from the epic documentar...


Efectivamente David Attenborough trabaja solo como actor siempre, excepto en un título que es una película y que trabaja con otro compañero científico y hay varios títulos suyos en Netflix. Parece que tiene sentido que trabaje solo como actor pues por lo que revelan los datos se dedica a hacer en mayor cantidad documentales y docuseries enfocados a la naturaleza, la ciencia etc. 

In [211]:
#Sacar los países diferentes donde se han producido los títulos
df_netflix_titles["Country"].unique()

array(['United States', 'South Africa', nan, 'India',
       'United States, Ghana, Burkina Faso, United Kingdom, Germany, Ethiopia',
       'United Kingdom', 'Germany, Czech Republic', 'Mexico', 'Turkey',
       'Australia', 'United States, India, France', 'Finland',
       'China, Canada, United States',
       'South Africa, United States, Japan', 'Nigeria', 'Japan',
       'Spain, United States', 'France', 'Belgium',
       'United Kingdom, United States', 'United States, United Kingdom',
       'France, United States', 'South Korea', 'Spain',
       'United States, Singapore', 'United Kingdom, Australia, France',
       'United Kingdom, Australia, France, United States',
       'United States, Canada', 'Germany, United States',
       'South Africa, United States', 'United States, Mexico',
       'United States, Italy, France, Japan',
       'United States, Italy, Romania, United Kingdom',
       'Australia, United States', 'Argentina, Venezuela',
       'United States, United Kin

Parece que en relación a los países únicos, de primeras puede parecer que hay 748 países diferentes pero cuando saco los valores únicos lo que ocurre es que hay muchos países que no se están contabilizando bien como únicos, pues hay títulos que se han producido en muchos países y cuenta a todos ellos como un nuevo valor único. 

In [212]:
#Países diferentes donde se han producido los títulos con el recuento y el % que representan sobre el total 
df_recuento_valores_country = pd.DataFrame(df_netflix_titles["Country"].value_counts().head())
df_recuento_valores_country["%/Total"] = round((df_netflix_titles["Country"].value_counts().head())/(df_netflix_titles.shape[0])*100,2)
df_recuento_valores_country

Unnamed: 0_level_0,count,%/Total
Country,Unnamed: 1_level_1,Unnamed: 2_level_1
United States,2818,32.0
India,972,11.04
United Kingdom,419,4.76
Japan,245,2.78
South Korea,199,2.26


Aún así, con los valores únicos de los que disponemos, podemos obtener que el número de títulos que únicamente han sido producidos en Estados Unidos parece que son claramente los que predominan (pues hay un 32% de estos). De todas formas, podría interesarnos saber cuantos títulos se han producido en Estados Unidos independientemente de si ha sido en el único país en el que se ha producido el título o si se ha producido en más aparte. 

In [213]:
#Creo un DataFrame donde guardo todos aquellos títulos que se han producido (ya sea únicamente o no) en Estados Unidos
df_netflix_titles_united_states = df_netflix_titles[df_netflix_titles["Country"].str.contains("United States", case=False, na=False)]
df_netflix_titles_united_states.shape

(3690, 12)

In [214]:
#Porcentaje de títulos producidos en Estados Unidos
df_netflix_titles_united_states.shape[0] / df_netflix_titles.shape[0]*100

41.89848983762916

Ahora ya disponemos de información más exacta sobre las películas producidas en Estados Unidos. Habíamos visto que el 32% de los títulos son producidos únicamente ahí, pero ahora conocemos que casi el 42% de los títulos se producen en Estados Unidos. Es decir, hay aproximadamente un 10% más que también se producen en Estados Unidos pero no es el único país donde se han producido.

En cuanto a la descripción de los títulos, también me parecería totalmente coherente que todas fuesen únicas, pues dos títulos con una misma descripción me resulta muy curioso y extraño. Por eso, me ha sorprendido ver como la misma descripción se repite 4 veces. Vamos a observarlo.

In [215]:
#Títulos que contienen exactamente la misma descripción "Paranormal activity at a lush..."
df_netflix_titles[df_netflix_titles["Description"].str.contains("Paranormal activity at a lush", case=False, na=False)]

Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description
236,s237,Movie,Boomika,Rathindran R Prasad,"Aishwarya Rajesh, Vidhu, Surya Ganapathy, Madh...",,2021-08-23,2021,TV-14,122 min,"Horror Movies, International Movies, Thrillers","Paranormal activity at a lush, abandoned prope..."
237,s238,Movie,Boomika (Hindi),Rathindran R Prasad,"Aishwarya Rajesh, Vidhu, Surya Ganapathy, Madh...",,2021-08-23,2021,TV-14,122 min,"Horror Movies, International Movies, Thrillers","Paranormal activity at a lush, abandoned prope..."
238,s239,Movie,Boomika (Malayalam),Rathindran R Prasad,"Aishwarya Rajesh, Vidhu, Surya Ganapathy, Madh...",,2021-08-23,2021,TV-14,122 min,"Horror Movies, International Movies, Thrillers","Paranormal activity at a lush, abandoned prope..."
239,s240,Movie,Boomika (Telugu),Rathindran R Prasad,"Aishwarya Rajesh, Vidhu, Surya Ganapathy, Madh...",,2021-08-23,2021,TV-14,122 min,"Horror Movies, International Movies, Thrillers","Paranormal activity at a lush, abandoned prope..."


Estamos ante un caso en el que parece que tenemos la misma película lo que pasa que en idiomas/versiones diferentes. Voy a crear un DataFrame donde guardar aquellos títulos en los que su descripción está repetida para ver que es lo que ocurre.

In [216]:
#Creo un DataFrame con los títulos que están duplicados por la descripción
df_duplicados_descripciones = df_netflix_titles[df_netflix_titles["Description"].duplicated()]
df_duplicados_descripciones

Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description
79,s80,Movie,Tughlaq Durbar (Telugu),Delhiprasad Deenadayalan,"Vijay Sethupathi, Parthiban, Raashi Khanna",,2021-09-11,2021,TV-14,145 min,"Comedies, Dramas, International Movies",A budding politician has devious plans to rise...
237,s238,Movie,Boomika (Hindi),Rathindran R Prasad,"Aishwarya Rajesh, Vidhu, Surya Ganapathy, Madh...",,2021-08-23,2021,TV-14,122 min,"Horror Movies, International Movies, Thrillers","Paranormal activity at a lush, abandoned prope..."
238,s239,Movie,Boomika (Malayalam),Rathindran R Prasad,"Aishwarya Rajesh, Vidhu, Surya Ganapathy, Madh...",,2021-08-23,2021,TV-14,122 min,"Horror Movies, International Movies, Thrillers","Paranormal activity at a lush, abandoned prope..."
239,s240,Movie,Boomika (Telugu),Rathindran R Prasad,"Aishwarya Rajesh, Vidhu, Surya Ganapathy, Madh...",,2021-08-23,2021,TV-14,122 min,"Horror Movies, International Movies, Thrillers","Paranormal activity at a lush, abandoned prope..."
851,s852,Movie,99 Songs (Tamil),,,,2021-05-21,2021,TV-14,131 min,"Dramas, International Movies, Music & Musicals",Challenged to compose 100 songs before he can ...
852,s853,Movie,99 Songs (Telugu),,,,2021-05-21,2021,TV-14,131 min,"Dramas, International Movies, Music & Musicals",Challenged to compose 100 songs before he can ...
1653,s1654,Movie,Andhakaaram,V Vignarajan,"Vinoth Kishan, Arjun Das, Pooja Ramachandran, ...",India,2020-11-24,2020,TV-14,171 min,"Horror Movies, International Movies, Thrillers","As a blind librarian, dispirited cricketer and..."
1986,s1987,Movie,Nee Enge En Anbe,Sekhar Kammula,"Nayantara, Vaibhav Reddy, Pasupathy, Harshvard...",,2020-09-17,2014,TV-14,137 min,"International Movies, Thrillers",As a woman scours Hyderabad for her missing hu...
2335,s2336,Movie,Seven (Telugu),,,,2020-06-26,2019,TV-14,116 min,"Dramas, International Movies, Romantic Movies",Multiple women report their husbands as missin...
2873,s2874,Movie,Ala Vaikunthapurramuloo,Trivikram Srinivas,"Allu Arjun, Pooja Hegde, Tabu, Sushanth, Nivet...",India,2020-02-27,2020,TV-14,162 min,"Action & Adventure, Comedies, Dramas",After growing up enduring criticism from his f...


Parece que en general lo que ocurre es lo ya visto, y es que hay títulos que se están repitiendo por tener diferentes versiones. 

In [217]:
#Caso 1 extraño
df_netflix_titles[df_netflix_titles["Description"].str.contains("As a psychology", case=False, na=False)]

Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description
3996,s3997,TV Show,February 9,,"Shahd El Yaseen, Shaila Sabt, Hala, Hanadi Al-...",,2019-03-20,2018,TV-14,,"International TV Shows, TV Dramas","As a psychology professor faces Alzheimer's, h..."
5964,s5965,TV Show,Feb-09,,"Shahd El Yaseen, Shaila Sabt, Hala, Hanadi Al-...",,2019-03-20,2018,TV-14,,"International TV Shows, TV Dramas","As a psychology professor faces Alzheimer's, h..."


In [218]:
#Caso 2 extraño 
df_netflix_titles[df_netflix_titles["Description"].str.contains("Secrets bubble", case=False, na=False)]

Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description
3371,s3372,Movie,Consequences,Ozan Açıktan,"Nehir Erdoğan, Tardu Flordun, İlker Kaleli, Se...",Turkey,2019-10-25,2014,TV-MA,,"Dramas, International Movies, Thrillers",Secrets bubble to the surface after a sensual ...
6529,s6530,Movie,Consequences,Ozan Açıktan,"Nehir Erdoğan, Tardu Flordun, İlker Kaleli, Se...",Turkey,2019-10-25,2014,TV-MA,,"Dramas, International Movies, Thrillers",Secrets bubble to the surface after a sensual ...


In [219]:
#Caso 3 extraño 
df_netflix_titles[df_netflix_titles["Description"].str.contains("Cora has three sons", case=False, na=False)]

Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description
303,s304,Movie,Esperando la carroza,Alejandro Doria,"Luis Brandoni, China Zorrilla, Antonio Gasalla...",Argentina,2021-08-05,1985,TV-MA,,"Comedies, Cult Movies, International Movies",Cora has three sons and a daughter and she´s a...
6705,s6706,Movie,Esperando La Carroza,Alejandro Doria,"Luis Brandoni, China Zorrilla, Antonio Gasalla...",Argentina,2018-07-15,1985,NR,,"Comedies, Cult Movies, International Movies",Cora has three sons and a daughter and she´s a...


In [220]:
#Caso 4 extraño 
df_netflix_titles[df_netflix_titles["Description"].str.contains("Two quirky cats", case=False, na=False)]

Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description
3028,s3029,TV Show,The Ollie & Moon Show,,"Mattea Conforti, Kobi Frumer",France,2020-01-14,2018,TV-Y,,Kids' TV,"Two quirky cats, Ollie and Moon, and their fri..."
7649,s7650,TV Show,Ollie & Moon,,"Mattea Conforti, Kobi Frumer",France,2018-03-28,2018,TV-Y,,Kids' TV,"Two quirky cats, Ollie and Moon, and their fri..."


In [221]:
#Caso 5 extraño
df_netflix_titles[df_netflix_titles["Description"].str.contains("Born into a small town", case=False, na=False)]

Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description
1270,s1271,TV Show,Sin senos sí hay paraíso,,"Catherine Siachoque, Fabián Ríos, Carolina Gai...","United States, Colombia",2021-02-25,2018,TV-MA,,"International TV Shows, Spanish-Language TV Sh...",Born into a small town controlled by the mafia...
8022,s8023,TV Show,Sin Senos sí Hay Paraíso,,"Majida Issa, Fabián Ríos, Catherine Siachoque,...","United States, Colombia",2019-01-11,2018,TV-MA,,"International TV Shows, Spanish-Language TV Sh...",Born into a small town controlled by the mafia...


Sin embargo, observo que para otros títulos lo que ocurre no es el tema de versiones. Hay varios casos extraños. Por ejemplo, para el caso 1 parece que lo que puede estar pasando es que haya habido una equivocación y en el título se haya inlcuido una fecha. Además aparece dos veces, escrito de forma diferente pero todo el resto es exactamente igual por lo que estaríamos ante un duplicado parece. En el caso 2 parece que también estamos ante un claro duplicado. Toda la información es exactamente igual, hasta el título, lo que ocurre es que a lo mejor los ha tomado como títulos únicos por uno contener un espacio que el otro no, o algo así. En el caso 3,4,5 ocurre algo parecido y también parece que estamos ante duplicados. Es todo igual en estos casos excepto el título (varía poco) y la fecha en la que se añade al catálogo de Netflix. Da que pensar que quizás el título ha sufrido un renombrado o se ha quitado de Netflix y tras un tiempo se ha vuelto a añadir con otro nombre, pero parece que a día de hoy únicamente se contaría con el título que corresponde a la fecha más reciente de Date_added. Cuando haga la unión entre netflix_original y netflix_titles me gustaría observar si estos títulos en los que está ocurriendo esta duplicidad de las descripciones corresponde alguno a producciones originales de Netflix o no, ya que si no corresponden a producciones originales de Netflix quizás es que al ser adquiridas se lleva un mayor descontrol sobre la información, el renombrado etc. y habrá que decidir que hacer con estos casos.

In [222]:
#Observar los diferentes valores de clasificación y su recuento
df_netflix_titles["Rating"].value_counts()

Rating
TV-MA       3207
TV-14       2160
TV-PG        863
R            799
PG-13        490
TV-Y7        334
TV-Y         307
PG           287
TV-G         220
NR            80
G             41
TV-Y7-FV       6
NC-17          3
UR             3
74 min         1
84 min         1
66 min         1
Name: count, dtype: int64

De primeras está claro que hay un error en 3 filas pues está apareciendo la duración del título en la columna de Rating. El resto de clasificaciones si existen y son correctas. Se va a identificar en las 3 filas en las que la duración aparece en la clasificación y se van a añadir a un DataFrame para tenerlas ahí y saber que es un error a corregir (dejando Rating como nulo y modificando Duration con el valor de Rating).

In [296]:
#Creación del DataFrame con las 3 filas donde Rating toma el valor de Duration
filtro_rating = ["74 min", "84 min", "66 min"]
df_rating_incorrecta = df_netflix_titles[df_netflix_titles["Rating"].isin(filtro_rating)]
df_rating_incorrecta


Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description
5541,s5542,Movie,Louis C.K. 2017,Louis C.K.,Louis C.K.,United States,2017-04-04,2017,74 min,,Movies,"Louis C.K. muses on religion, eternal love, gi..."
5794,s5795,Movie,Louis C.K.: Hilarious,Louis C.K.,Louis C.K.,United States,2016-09-16,2010,84 min,,Movies,Emmy-winning comedy writer Louis C.K. brings h...
5813,s5814,Movie,Louis C.K.: Live at the Comedy Store,Louis C.K.,Louis C.K.,United States,2016-08-15,2015,66 min,,Movies,The comic puts his trademark hilarious/thought...


In [224]:
#Observar que clasificación es la más repetida entre los títulos  
df_recuento_valores_rating = pd.DataFrame(df_netflix_titles["Rating"].value_counts().head())
df_recuento_valores_rating["%/Total"] = round((df_netflix_titles["Rating"].value_counts().head())/(df_netflix_titles.shape[0])*100,2)
df_recuento_valores_rating

Unnamed: 0_level_0,count,%/Total
Rating,Unnamed: 1_level_1,Unnamed: 2_level_1
TV-MA,3207,36.41
TV-14,2160,24.53
TV-PG,863,9.8
R,799,9.07
PG-13,490,5.56


Más de la mitad de los títulos tienen una de las dos siguientes clasificaciones: "TV-MA" o "TV-14". Concretamente, un 36,41% de los títulos tiene la clasificación "TV-MA" la cual indica: Solo apto para adultos, ya que contiene contenido sexual explícito, violencia extrema o lenguaje muy fuerte. Y un 24,53% de las clasificaciones tienen clasificación "TV-14" la cual indica: Se recomienda que los padres supervisen a los niños menores de 14 años, ya que el programa puede contener lenguaje fuerte, violencia o temas complejos. Es decir, parece que la gran mayoría de los títulos van dirigidos a una audiencia más bien adulta.

In [225]:
#Sacar los valores únicos para Listed_in
df_netflix_titles["Listed_in"].unique()

array(['Documentaries', 'International TV Shows, TV Dramas, TV Mysteries',
       'Crime TV Shows, International TV Shows, TV Action & Adventure',
       'Docuseries, Reality TV',
       'International TV Shows, Romantic TV Shows, TV Comedies',
       'TV Dramas, TV Horror, TV Mysteries', 'Children & Family Movies',
       'Dramas, Independent Movies, International Movies',
       'British TV Shows, Reality TV', 'Comedies, Dramas',
       'Crime TV Shows, Docuseries, International TV Shows',
       'Dramas, International Movies',
       'Children & Family Movies, Comedies',
       'British TV Shows, Crime TV Shows, Docuseries',
       'TV Comedies, TV Dramas', 'Documentaries, International Movies',
       'Crime TV Shows, Spanish-Language TV Shows, TV Dramas',
       'Thrillers',
       'International TV Shows, Spanish-Language TV Shows, TV Action & Adventure',
       'International TV Shows, TV Action & Adventure, TV Dramas',
       'Comedies, International Movies',
       'Comedies, 

En esta columna hay demasiados valores únicos a mi parecer. Se mezclan géneros con categorías y al final hay demasiadas combinaciones diferentes. Valoraría el poder agruparlas para lograr menores valores únicos y poder simplificar el estudio.

In [226]:
#Observar que género/categoría es la más repetida entre los títulos  
df_recuento_valores_listedin = pd.DataFrame(df_netflix_titles["Listed_in"].value_counts().head())
df_recuento_valores_listedin["%/Total"] = round((df_netflix_titles["Listed_in"].value_counts().head())/(df_netflix_titles.shape[0])*100,2)
df_recuento_valores_listedin

Unnamed: 0_level_0,count,%/Total
Listed_in,Unnamed: 1_level_1,Unnamed: 2_level_1
"Dramas, International Movies",362,4.11
Documentaries,359,4.08
Stand-Up Comedy,334,3.79
"Comedies, Dramas, International Movies",274,3.11
"Dramas, Independent Movies, International Movies",252,2.86


Parece que hay tantas combinaciones diferentes entre géneros/ categorías etc que es hasta complicado ver que género por ejemplo es el más repetido entre los títulos. Los % son todos pequeños y tampoco creo que esto nos ofrezca ninguna información muy valiosa.

## Resumen segundo csv (originales y adquiridos)

- **Conclusiones y Resultados del Análisis Exploratorio**

    - De primeras parece que no hay duplicados. 
    - Hay nulos en algunas columnas. En las columnas de Director y Duration el % de nulos es bastante alto por lo que se descarta el trabajar con estas dos columnas de primeras. Las columnas de Date_added y Rating tienen un % de nulos muy muy bajo por lo que se va a trabajar con ellas así. Las columnas de Cast y Country tienen un % de nulos algo más alto pero también se puede trabajar con ellas. Los nulos de Cast son muy complicados de rellenar y los de Country se puede intentar rellenar a partir de los directores para los títulos para los que dispongamos de esta información. 
    - Contamos con títulos que han sido añadidos en el catálogo de Netflix de 2008 a 2021. 
    - El 75% de los títulos han sido lanzados o producidos a partir de 2013. 
    - El 70% aprox. de los títulos son películas. 
    - El país donde más títulos se producen es en Estados Unidos (32% únicamente allí y otro 10% ahí y en otros también). En segundo lugar está India (11%).
    - La gran mayoría de los títulos parece que van dirigidos a adultos. (TV-MA con un 36% y TV-14 con un 24%).
    - 

- **Posible futura Limpieza y Transformación de Datos**

    - Country: Ver si se pueden rellenar algunos nulos.
    - Para los nulos de Rating o Cast por ejemplo quizás es conveniente cambiarlos por "desconocido" (?)
    - Release_year: Se podría poner el mismo valor para todos los títulos < 2013 (muchos años, pocos registros) para simplificar el análisis.
    - Date_added: Crear nuevas columnas de año, mes, días semana, quincenas mes (estudio más interesante).
    - Listed_in: Hacer algo. Hay demasiadas combinaciones, no se puede analizar bien y se mezclan géneros y categorías. 
    - Rating: He observado que en 3 títulos aparece en la columna Rating erróneamente la información que debería aparecer en la columna Duration. Dejar como NaN el valor en rating y ese valor ponerlo en la duración. 
    - PROBLEMA PRINCIPAL: Con las descripciones duplicadas en títulos. Hay títulos que están repetidos por existir en versiones/idiomas diferentes (valorar que hacer con ellos, si dejar solo la original e incluir cuando se haga la union los diferentes idiomas en la columna de language?, dejarlos asi?). Hay que observar uno por uno que hacer con estos titulos (son adquiridos). Hay alguno que tiene el mismo título y todo igual solo que a lo mejor en uno de los titulos hay un espacio y en el otro no (eliminar uno). Hay otros que parece que han sufrido un renombrado con el tiempo y netflix los ha vuelto a añadir, o los elimino y los volvio a añadir (dejar unicamente el mas reciente). Osea que realmente parecia que no habia duplicados pero si los hay por este campo. 

## Unión de los DataFrames

En el DataFrame de netflix_originals contamos con información sobre única y exclusivamente las producciones originales de Netflix, mientras que, en el DataFrame de netflix_titles contamos con información tanto de las producciones originales como de las producciones adquiridas. Por tanto, en netflix_titles dispondremos de los títulos de netflix_originals más los adquiridos. Antes de realizar la unión, se crea una nueva columna en netflix_originals de forma que tras la unión podamos idetificar que títulos son originales y cuales no. 

In [227]:
#Creación nueva columna en netflix_originals para tras la unión identificar títulos originales/ adquiridos
Original_title = "Yes"
df_netflix_originals["Original_title"] = Original_title
df_netflix_originals.head()

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language,Month Premiere,Year Premiere,Day Week Premiere,Original_title
0,Enter the Anime,Documentary,2019-08-05,58,2.5,English/Japanese,August,2019,Lunes,Yes
1,Dark Forces,Thriller,2020-08-21,81,2.6,Spanish,August,2020,Viernes,Yes
2,The App,Science fiction/Drama,2019-12-26,79,2.6,Italian,December,2019,Jueves,Yes
3,The Open House,Horror thriller,2018-01-19,94,3.2,English,January,2018,Viernes,Yes
4,Kaali Khuhi,Mystery,2020-10-30,90,3.4,Hindi,October,2020,Viernes,Yes


Ahora ya se puede realizar la unión. Se va a realizar un left join (siendo la tabla de la izquierda la de netflix_titles). Es decir, lo que se quiere lograr es un nuevo DataFrame que contenga toda la información de netflix_titles, y toda la información de netflix_originals que coincida por título con la de netflix_titles. 

In [228]:
#Mergeo de las dos tablas
df_netflix_final = df_netflix_titles.merge(right=df_netflix_originals, how = "left", on = "Title")
df_netflix_final.sample()

Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description,Genre,Premiere,Runtime,IMDB Score,Language,Month Premiere,Year Premiere,Day Week Premiere,Original_title
2292,s2293,TV Show,Little Singham,,"Swapnil Kumari, Jigna Bhardwaj, Sonal Kaushal,...",India,2020-07-04,2020,TV-Y7,2 Seasons,"Kids' TV, TV Comedies","A spinoff of Rohit Shetty's action franchise, ...",,NaT,,,,,,,


Antes de nada, he decidido que para los títulos de las columnas que provenían de netflix_originals voy a renombrarlas de forma que las que tienen dos palabras en vez de estar separadas por un espacio esten separadas por _ como el resto y así quede más homogéneo. 

In [229]:
#Renombrado de columnas para homogeneidad entre ellas
df_netflix_final = df_netflix_final.rename(columns= {"IMDB Score": "IMDB_score", "Month Premiere": "Month_premiere", "Year Premiere": "Year_premiere", "Day Week Premiere": "Day_premiere"})

In [230]:
#Ejemplo aleatorio para comprobar el correcto renombrado
df_netflix_final.sample()

Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description,Genre,Premiere,Runtime,IMDB_score,Language,Month_premiere,Year_premiere,Day_premiere,Original_title
2244,s2245,Movie,Hole in the Wall,"André Odendaal, Johan Vorster","André Odendaal, Nicholas Campbell, Tinarie van...",South Africa,2020-07-11,2016,TV-MA,104 min,"Dramas, International Movies","Diagnosed with colon cancer, a free-spirited m...",,NaT,,,,,,,


In [231]:
#Comprobar que el tipo de dato de las columnas es el correcto
df_netflix_final.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8807 entries, 0 to 8806
Data columns (total 21 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   Show_id         8807 non-null   object        
 1   Type            8807 non-null   object        
 2   Title           8807 non-null   object        
 3   Director        6173 non-null   object        
 4   Cast            7982 non-null   object        
 5   Country         7976 non-null   object        
 6   Date_added      8797 non-null   datetime64[ns]
 7   Release_year    8807 non-null   int64         
 8   Rating          8803 non-null   object        
 9   Duration        3994 non-null   object        
 10  Listed_in       8807 non-null   object        
 11  Description     8807 non-null   object        
 12  Genre           513 non-null    object        
 13  Premiere        513 non-null    datetime64[ns]
 14  Runtime         513 non-null    float64       
 15  IMDB

Parece que las columnas de Runtime y Year_premiere tienen un tipo de dato incorrecto. Ambas aparecen como float y deberían ser integer. No me deja convertirlo a integer porque las columnas contienen valores nulos y esos no los puede convertir.

In [232]:
#Me quedo con los originales para observar si hay redundancia entre variables
df_originales_union = df_netflix_final[df_netflix_final["Original_title"] == "Yes"]
df_originales_union

Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description,Genre,Premiere,Runtime,IMDB_score,Language,Month_premiere,Year_premiere,Day_premiere,Original_title
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Documentary,2020-10-02,90.0,7.5,English,October,2020.0,Viernes,Yes
141,s142,Movie,Extraction,Steven C. Miller,"Bruce Willis, Kellan Lutz, Gina Carano, D.B. S...","United States, United Kingdom, Canada",2021-09-01,2015,R,82 min,Action & Adventure,"When a retired CIA agent is kidnapped, his son...",Action,2020-04-24,117.0,6.7,English,April,2020.0,Viernes,Yes
624,s625,Movie,Prime Time,Jakub Piątek,"Bartosz Bielenia, Magdalena Popławska, Andrzej...",,2021-06-30,2021,TV-MA,,"Dramas, International Movies, Thrillers","On New Year’s Eve 1999, an armed man enters a ...",Thriller,2021-04-14,91.0,5.7,Polish,April,2021.0,Miercoles,Yes
834,s835,Movie,Blue Miracle,Julio Quintana,"Jimmy Gonzales, Dennis Quaid, Anthony Gonzalez...",United States,2021-05-27,2021,TV-PG,,"Children & Family Movies, Dramas, Faith & Spir...","To save their cash-strapped orphanage, a guard...",Drama,2021-05-27,95.0,6.7,English,May,2021.0,Jueves,Yes
836,s837,Movie,Ghost Lab,Paween Purijitpanya,"Thanapob Leeratanakachorn, Paris Intarakomalya...",Thailand,2021-05-27,2021,TV-MA,118 min,"Horror Movies, International Movies, Thrillers","After witnessing a haunting in their hospital,...",Horror,2021-05-26,117.0,5.2,Thai,May,2021.0,Miercoles,Yes
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5901,s5902,Movie,Tig,"Kristina Goolsby, Ashley York",Tig Notaro,United States,2015-07-17,2015,TV-14,,"Documentaries, Stand-Up Comedy",Comedian Tig Notaro announced her cancer diagn...,Documentary,2015-07-17,80.0,7.4,English,July,2015.0,Viernes,Yes
5906,s5907,Movie,"What Happened, Miss Simone?",Liz Garbus,,United States,2015-06-26,2015,TV-14,,"Documentaries, Music & Musicals","Using never-before-heard recordings, rare arch...",Documentary,2015-06-26,84.0,7.6,English,June,2015.0,Viernes,Yes
5910,s5911,Movie,Hot Girls Wanted,"Jill Bauer, Ronna Gradus",,United States,2015-05-29,2015,TV-MA,83 min,Documentaries,This 2015 Sundance Film Festival breakout docu...,Documentary,2015-05-29,84.0,6.1,English,May,2015.0,Viernes,Yes
5912,s5913,Movie,The Other One: The Long Strange Trip of Bob Weir,Mike Fleiss,Bob Weir,United States,2015-05-22,2015,TV-14,84 min,"Documentaries, Music & Musicals",This chronicle of Bob Weir highlights his brot...,Documentary,2015-05-22,83.0,7.3,English,May,2015.0,Viernes,Yes


La columna de genre y listed_in parecen un poco redundantes. La de listed_in tiene más información pero al final el género que tenemos en genre ya lo tenemos en listed_in, por lo tanto creo que genre se podría eliminar. Además en esta columna solo tenemos el género de las producciones originales y sin embargo en listed_in tenemos el género de las producciones originales y no originales. Además la columna listed_in no tiene nulos por lo tanto garantizamos contar con los géneros de todos los títulos, incluidos los originales. En el caso de Duration y Runtime ocurre un poco parecido pero en este caso observo en algún título que estas dos columnas no coinciden, lo que es un poco raro, asique había que revisarlo antes de eliminar ninguna. En caso de eliminar la de Runtime, antes se podrían rellenar los valores nulos de Duration de los títulos originales con los valores de Runtime correspondientes. Por último, la columna de Premiere tendría sentido que coincidiese con la de date_added o Release_year, pero de nuevo parece que en algunos registros si se ve coincidencia pero en cambio en otros no, y por tanto también habría que valorar que es lo que ocurre, si nos transmiten la misma información o no y si podemos eliminar alguna o no. 

In [233]:
df_netflix_originals.shape

(513, 10)

In [234]:
df_netflix_titles.shape

(8807, 12)

In [235]:
df_netflix_final.shape

(8807, 21)

El resultado de filas y columnas parece que es el correcto

No se pueden ver las diferencias en la puntuación de IMDB entre los títulos originales y los no originales, pues es una columna propia del DataFrame netflix_originals y por tanto es una información que únicamente disponemos de ella para los títulos originales. 

In [236]:
#Para ver cuantos títulos en netflix_title son originales
df_netflix_final["Original_title"].value_counts()

Original_title
Yes    513
Name: count, dtype: int64

In [237]:
#En % sobre el total
round((df_netflix_final["Original_title"].value_counts())/(df_netflix_final.shape[0])*100,2)

Original_title
Yes    5.82
Name: count, dtype: float64

Del resultado del DataFrame final llegamos a la conclusión de que 513 títulos de netflix_title eran originales (un 5,82%). Es decir, los 513 títulos de netflix_originals están incluidos en netflix_title.

In [238]:
#Verificar si el problema de las descripciones duplicadas ocurre con títulos originales/ adquiridos o ambos
df_netflix_final[df_netflix_final["Description"].duplicated()]

Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description,Genre,Premiere,Runtime,IMDB_score,Language,Month_premiere,Year_premiere,Day_premiere,Original_title
79,s80,Movie,Tughlaq Durbar (Telugu),Delhiprasad Deenadayalan,"Vijay Sethupathi, Parthiban, Raashi Khanna",,2021-09-11,2021,TV-14,145 min,"Comedies, Dramas, International Movies",A budding politician has devious plans to rise...,,NaT,,,,,,,
237,s238,Movie,Boomika (Hindi),Rathindran R Prasad,"Aishwarya Rajesh, Vidhu, Surya Ganapathy, Madh...",,2021-08-23,2021,TV-14,122 min,"Horror Movies, International Movies, Thrillers","Paranormal activity at a lush, abandoned prope...",,NaT,,,,,,,
238,s239,Movie,Boomika (Malayalam),Rathindran R Prasad,"Aishwarya Rajesh, Vidhu, Surya Ganapathy, Madh...",,2021-08-23,2021,TV-14,122 min,"Horror Movies, International Movies, Thrillers","Paranormal activity at a lush, abandoned prope...",,NaT,,,,,,,
239,s240,Movie,Boomika (Telugu),Rathindran R Prasad,"Aishwarya Rajesh, Vidhu, Surya Ganapathy, Madh...",,2021-08-23,2021,TV-14,122 min,"Horror Movies, International Movies, Thrillers","Paranormal activity at a lush, abandoned prope...",,NaT,,,,,,,
851,s852,Movie,99 Songs (Tamil),,,,2021-05-21,2021,TV-14,131 min,"Dramas, International Movies, Music & Musicals",Challenged to compose 100 songs before he can ...,,NaT,,,,,,,
852,s853,Movie,99 Songs (Telugu),,,,2021-05-21,2021,TV-14,131 min,"Dramas, International Movies, Music & Musicals",Challenged to compose 100 songs before he can ...,,NaT,,,,,,,
1653,s1654,Movie,Andhakaaram,V Vignarajan,"Vinoth Kishan, Arjun Das, Pooja Ramachandran, ...",India,2020-11-24,2020,TV-14,171 min,"Horror Movies, International Movies, Thrillers","As a blind librarian, dispirited cricketer and...",,NaT,,,,,,,
1986,s1987,Movie,Nee Enge En Anbe,Sekhar Kammula,"Nayantara, Vaibhav Reddy, Pasupathy, Harshvard...",,2020-09-17,2014,TV-14,137 min,"International Movies, Thrillers",As a woman scours Hyderabad for her missing hu...,,NaT,,,,,,,
2335,s2336,Movie,Seven (Telugu),,,,2020-06-26,2019,TV-14,116 min,"Dramas, International Movies, Romantic Movies",Multiple women report their husbands as missin...,,NaT,,,,,,,
2873,s2874,Movie,Ala Vaikunthapurramuloo,Trivikram Srinivas,"Allu Arjun, Pooja Hegde, Tabu, Sushanth, Nivet...",India,2020-02-27,2020,TV-14,162 min,"Action & Adventure, Comedies, Dramas",After growing up enduring criticism from his f...,,NaT,,,,,,,


Efectivamente, los títulos con descripciones duplicadas se dan en títulos adquiridos y creo que puede ser porque sobre estos se tenga un mayor descontrol.

## Resumen de la unión

- **Conclusiones**

    - No se puede comparar la puntuación en plataformas como IMDB entre títulos originales y adquiridos ya que solo disponemos de esta información para los títulos originales. 
    - El 5,82% de los títulos son originales (todos los originales estaban dentro del dataframe de títulos en general).

- **Posible futura Limpieza y Transformación de Datos**

    - El tipo de Runtime y Year_premiere cambiarlo de float a integer. 
    - Redundancia en columnas (posibilidad de eliminar alguna entre Listed_in-Genre, Runtime-Duration, Premiere-Date_added/Release_year).

## Posibles análisis a realizar cuando se haga la limpieza y transformación de datos (realización de algunos como ejemplos y práctica)

In [239]:
#Ya dispongo de un DataFrame con toda la información de los títulos originales
df_originales_union.head()

Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description,Genre,Premiere,Runtime,IMDB_score,Language,Month_premiere,Year_premiere,Day_premiere,Original_title
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Documentary,2020-10-02,90.0,7.5,English,October,2020.0,Viernes,Yes
141,s142,Movie,Extraction,Steven C. Miller,"Bruce Willis, Kellan Lutz, Gina Carano, D.B. S...","United States, United Kingdom, Canada",2021-09-01,2015,R,82 min,Action & Adventure,"When a retired CIA agent is kidnapped, his son...",Action,2020-04-24,117.0,6.7,English,April,2020.0,Viernes,Yes
624,s625,Movie,Prime Time,Jakub Piątek,"Bartosz Bielenia, Magdalena Popławska, Andrzej...",,2021-06-30,2021,TV-MA,,"Dramas, International Movies, Thrillers","On New Year’s Eve 1999, an armed man enters a ...",Thriller,2021-04-14,91.0,5.7,Polish,April,2021.0,Miercoles,Yes
834,s835,Movie,Blue Miracle,Julio Quintana,"Jimmy Gonzales, Dennis Quaid, Anthony Gonzalez...",United States,2021-05-27,2021,TV-PG,,"Children & Family Movies, Dramas, Faith & Spir...","To save their cash-strapped orphanage, a guard...",Drama,2021-05-27,95.0,6.7,English,May,2021.0,Jueves,Yes
836,s837,Movie,Ghost Lab,Paween Purijitpanya,"Thanapob Leeratanakachorn, Paris Intarakomalya...",Thailand,2021-05-27,2021,TV-MA,118 min,"Horror Movies, International Movies, Thrillers","After witnessing a haunting in their hospital,...",Horror,2021-05-26,117.0,5.2,Thai,May,2021.0,Miercoles,Yes


In [240]:
#Creación de un DataFrame solo con los adquiridos
df_adquiridos_union = df_netflix_final[df_netflix_final["Original_title"].isnull()]
df_adquiridos_union

Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description,Genre,Premiere,Runtime,IMDB_score,Language,Month_premiere,Year_premiere,Day_premiere,Original_title
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t...",,NaT,,,,,,,
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,2021-09-24,2021,TV-MA,,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...,,NaT,,,,,,,
3,s4,TV Show,Jailbirds New Orleans,,,,2021-09-24,2021,TV-MA,,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo...",,NaT,,,,,,,
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...,,NaT,,,,,,,
5,s6,TV Show,Midnight Mass,Mike Flanagan,"Kate Siegel, Zach Gilford, Hamish Linklater, H...",,2021-09-24,2021,TV-MA,,"TV Dramas, TV Horror, TV Mysteries",The arrival of a charismatic young priest brin...,,NaT,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8802,s8803,Movie,Zodiac,David Fincher,"Mark Ruffalo, Jake Gyllenhaal, Robert Downey J...",United States,2019-11-20,2007,R,158 min,"Cult Movies, Dramas, Thrillers","A political cartoonist, a crime reporter and a...",,NaT,,,,,,,
8803,s8804,TV Show,Zombie Dumb,,,,2019-07-01,2018,TV-Y7,2 Seasons,"Kids' TV, Korean TV Shows, TV Comedies","While living alone in a spooky town, a young g...",,NaT,,,,,,,
8804,s8805,Movie,Zombieland,Ruben Fleischer,"Jesse Eisenberg, Woody Harrelson, Emma Stone, ...",United States,2019-11-01,2009,R,,"Comedies, Horror Movies",Looking to survive in a world taken over by zo...,,NaT,,,,,,,
8805,s8806,Movie,Zoom,Peter Hewitt,"Tim Allen, Courteney Cox, Chevy Chase, Kate Ma...",United States,2020-01-11,2006,PG,,"Children & Family Movies, Comedies","Dragged from civilian life, a former superhero...",,NaT,,,,,,,


In [241]:
#Comprobar si todos los títulos originales son películas y no hay TV Shows
tipo_pelicula = ["TV Show"]
df_originales_union[df_originales_union["Type"].isin(tipo_pelicula)]

Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description,Genre,Premiere,Runtime,IMDB_score,Language,Month_premiere,Year_premiere,Day_premiere,Original_title


Parece que todos los títulos originales son películas. Dentro de los títulos adquiridos si que hay tanto películas como Shows de TV. Voy a ver en qué porcentaje cada uno.

In [264]:
#Porcentaje de películas y shows de TV en títulos adquiridos
df_adquiridos_union["Type"].value_counts() / df_adquiridos_union.shape[0]

Type
Movie      0.677357
TV Show    0.322643
Name: count, dtype: float64

Aún así, a pesar de que dentro de títulos adquiridos haya de ambos, las películas también predominan, pues el 67% de los títulos son películas.

In [None]:
#Porcentaje de los dos países únicos con más peso en títulos originales 
df_originales_union["Country"].value_counts().head(2) / df_originales_union.shape[0]

Country
United States    0.534113
India            0.068226
Name: count, dtype: float64

In [None]:
#Porcentaje de los dos países únicos con más peso en títulos adquiridos
df_adquiridos_union["Country"].value_counts().head(2) / df_adquiridos_union.shape[0]

Country
United States    0.306728
India            0.112973
Name: count, dtype: float64

Tanto en los títulos originales como en los adquiridos se observa que Estados Unidos es sin duda el país donde más títulos se producen. Dentro de los títulos originales el peso de Estados Unidos es aún mayor, pues el 53% de las películas originales se han producido allí. En cambio, dentro de los títulos adquiridos, el peso parece estar más distribuido, pues en este caso es el 30% de los títulos los que se han producido allí.

In [None]:
#Porcentaje de las dos calificaciones con más peso en titulos originales
df_originales_union["Rating"].value_counts().head(2) / df_originales_union.shape[0]

Rating
TV-MA    0.495127
TV-14    0.183236
Name: count, dtype: float64

In [None]:
#Porcentaje de las dos calificaciones con más peso en titulos adquiridos
df_adquiridos_union["Rating"].value_counts().head(2) / df_adquiridos_union.shape[0]

Rating
TV-MA    0.356041
TV-14    0.249096
Name: count, dtype: float64

Para el caso de las calificaciones en términos de audiencia ocurre un poco parecido tanto en títulos originales como adquiridos. Las dos categorías más frecuentes en ambos casos son TV-MA y TV-14 (en ese orden), aunque si que es verdad que dentro de los originales es que la mitad de ellos corresponden a TV-MA, es decir, tiene mucho peso. Luego, el 18% corresponde a TV-14. En cambio, dentro de los adquiridos, el peso de TV-MA es algo menor, puesto que cuenta con el 35% de los títulos, pero TV-14 en este caso tiene algo más de peso (24% de los títulos).

In [274]:
#Recuento valores únicos de listed_in en títulos adquiridos
df_adquiridos_union["Listed_in"].describe().T

count                             8294
unique                             507
top       Dramas, International Movies
freq                               341
Name: Listed_in, dtype: object

In [275]:
#Recuento valores únicos de listed_in en títulos originales
df_originales_union["Listed_in"].describe().T

count               513
unique              103
top       Documentaries
freq                 69
Name: Listed_in, dtype: object

Parece que en relación a la columna listed_in, los títulos adquiridos tienen 5 veces más valores únicos que los títulos originales

In [None]:
#Títulos originales con mayor puntuacion
df_originales_union.nlargest(10, "IMDB_score")

Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description,Genre,Premiere,Runtime,IMDB_score,Language,Month_premiere,Year_premiere,Day_premiere,Original_title
1886,s1887,Movie,David Attenborough: A Life on Our Planet,"Alastair Fothergill, Jonnie Hughes, Keith Scholey",David Attenborough,"United States, United Kingdom",2020-10-04,2020,PG,84 min,Documentaries,"A broadcaster recounts his life, and the evolu...",Documentary,2020-10-04,83.0,9.0,English,October,2020.0,Domingo,Yes
4293,s4294,Movie,Springsteen on Broadway,Thom Zimny,Bruce Springsteen,United States,2018-12-16,2018,TV-MA,153 min,Music & Musicals,Bruce Springsteen shares personal stories from...,One-man show,2018-12-16,153.0,8.5,English,December,2018.0,Domingo,Yes
5893,s5894,Movie,Winter on Fire: Ukraine's Fight for Freedom,Evgeny Afineevsky,,"United Kingdom, Ukraine, United States",2015-10-09,2015,TV-MA,,"Documentaries, International Movies","Over 93 days in Ukraine, what started as peace...",Documentary,2015-10-09,91.0,8.4,English/Ukranian/Russian,October,2015.0,Viernes,Yes
3386,s3387,Movie,Dancing with the Birds,Huw Cordey,Stephen Fry,United States,2019-10-23,2019,TV-PG,52 min,Documentaries,From ruffling their majestic feathers to naili...,Documentary,2019-10-23,51.0,8.3,English,October,2019.0,Miercoles,Yes
5152,s5153,Movie,Cuba and the Cameraman,Jon Alpert,,United States,2017-11-24,2017,TV-14,,Documentaries,Emmy-winning filmmaker Jon Alpert chronicles t...,Documentary,2017-11-24,114.0,8.3,English,November,2017.0,Viernes,Yes
1171,s1172,Movie,Seaspiracy,Ali Tabrizi,,United States,2021-03-24,2021,TV-14,90 min,Documentaries,"Passionate about ocean life, a filmmaker sets ...",Documentary,2021-03-24,89.0,8.2,English,March,2021.0,Miercoles,Yes
1857,s1858,Movie,The Three Deaths of Marisela Escobedo,Carlos Pérez Osorio,,Mexico,2020-10-14,2020,TV-MA,110 min,"Documentaries, International Movies",This documentary examines a mother's tireless ...,Documentary,2020-10-14,109.0,8.2,Spanish,October,2020.0,Miercoles,Yes
3273,s3274,Movie,Klaus,Sergio Pablos,"Jason Schwartzman, J.K. Simmons, Rashida Jones...","Spain, United Kingdom",2019-11-15,2019,PG,98 min,"Children & Family Movies, Comedies",A selfish postman and a reclusive toymaker for...,Animation/Christmas/Comedy/Adventure,2019-11-15,97.0,8.2,English,November,2019.0,Viernes,Yes
2038,s2039,Movie,My Octopus Teacher,"Pippa Ehrlich, James Reed",,South Africa,2020-09-07,2020,TV-G,,"Children & Family Movies, Documentaries, Inter...",A filmmaker forges an unusual friendship with ...,Documentary,2020-09-07,85.0,8.1,English,September,2020.0,Lunes,Yes
2097,s2098,Movie,Rising Phoenix,,,United Kingdom,2020-08-26,2020,PG-13,107 min,"Documentaries, International Movies, Sports Mo...",Elite athletes and insiders reflect on the Par...,Documentary,2020-08-26,106.0,8.1,English,August,2020.0,Miercoles,Yes


In [None]:
#Títulos originales con menor puntuacion
df_originales_union.nsmallest(10, "IMDB_score")

Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description,Genre,Premiere,Runtime,IMDB_score,Language,Month_premiere,Year_premiere,Day_premiere,Original_title
3623,s3624,Movie,Enter the Anime,Alex Burunova,"Kozo Morishita, Yoko Takahashi, Shinji Aramaki...","United States, Japan",2019-08-05,2019,TV-MA,59 min,"Documentaries, International Movies",What is anime? Through deep-dives with notable...,Documentary,2019-08-05,58.0,2.5,English/Japanese,August,2019.0,Lunes,Yes
2104,s2105,Movie,Dark Forces,Bernardo Arellano,"Tenoch Huerta, Eréndira Ibarra, Dale Carley, A...",Mexico,2020-08-21,2020,TV-MA,81 min,"Horror Movies, Independent Movies, Internation...","In search of his sister, a renegade criminal s...",Thriller,2020-08-21,81.0,2.6,Spanish,August,2020.0,Viernes,Yes
3094,s3095,Movie,The App,Elisa Fuksas,"Vincenzo Crea, Jessica Cressy, Greta Scarano, ...",Italy,2019-12-26,2019,TV-MA,79 min,"Dramas, Independent Movies, International Movies","While in Rome to shoot his first movie, actor ...",Science fiction/Drama,2019-12-26,79.0,2.6,Italian,December,2019.0,Jueves,Yes
5073,s5074,Movie,The Open House,"Matt Angel, Suzanne Coote","Dylan Minnette, Piercey Dalton, Patricia Bethu...","Canada, United States",2018-01-19,2018,TV-MA,,"Horror Movies, Thrillers","Following a tragedy, a mother and her teen son...",Horror thriller,2018-01-19,94.0,3.2,English,January,2018.0,Viernes,Yes
1777,s1778,Movie,Kaali Khuhi,Terrie Samundra,"Shabana Azmi, Leela Samson, Sanjeeda Sheikh, S...",India,2020-10-30,2020,TV-14,,"Horror Movies, International Movies",When a restless spirit curses a village that h...,Mystery,2020-10-30,90.0,3.4,Hindi,October,2020.0,Viernes,Yes
3334,s3335,Movie,Drive,Tarun Mansukhani,"Jacqueline Fernandez, Sushant Singh Rajput, Bo...",India,2019-11-01,2019,TV-14,119 min,"Action & Adventure, International Movies",A notorious thief allies with a street racer f...,Action,2019-11-01,147.0,3.5,Hindi,November,2019.0,Viernes,Yes
1594,s1595,Movie,Leyla Everlasting,,"Demet Akbağ, Haluk Bilginer, Elçin Sangu, Fıra...",Turkey,2020-12-04,2020,TV-MA,113 min,"Comedies, International Movies","A resilient housewife, her husband and their m...",Comedy,2020-12-04,112.0,3.7,Turkish,December,2020.0,Viernes,Yes
2424,s2425,Movie,The Last Days of American Crime,Olivier Megaton,"Edgar Ramírez, Michael Pitt, Anna Brewster, Pa...",United States,2020-06-05,2020,TV-MA,149 min,"Action & Adventure, Dramas, Independent Movies",A bank robber joins a plot to commit one final...,Heist film/Thriller,2020-06-05,149.0,3.7,English,June,2020.0,Viernes,Yes
4972,s4973,Movie,Paradox,Daryl Hannah,"Neil Young, Lukas Nelson, Micah Nelson, Corey ...",United States,2018-03-23,2018,TV-MA,74 min,"Dramas, Independent Movies, Music & Musicals",Neil Young and his band of outlaws sow seeds o...,Musical/Western/Fantasy,2018-03-23,73.0,3.9,English,March,2018.0,Viernes,Yes
871,s872,Movie,Sardar Ka Grandson,Kaashvie Nair,"Arjun Kapoor, Neena Gupta, Rakul Preet Singh, ...",India,2021-05-18,2021,TV-14,140 min,"Comedies, Dramas, International Movies",A devoted grandson’s mission to reunite his ai...,Comedy,2021-05-18,139.0,4.1,Hindi,May,2021.0,Martes,Yes


Si que es verdad que parece que dentro de las 10 películas con mayor puntuación abunda en gran mayoría que sean documentales y el idioma que sea inglés. En cambio, en las peores puntuadas hay bastantes menos que son documentales y bastantes menos en inglés. De aquí quizás se podría sacar cierta relación con que lo que más gusta podría ser documentales en inglés. 

In [None]:
# % de títulos originales por años de lanzamiento o producción de los mismos 
df_originales_union["Release_year"].value_counts() / df_originales_union.shape[0]

Release_year
2020    0.329435
2019    0.200780
2018    0.169591
2021    0.109162
2017    0.109162
2016    0.058480
2015    0.021442
2014    0.001949
Name: count, dtype: float64

In [None]:
# % de títulos adquiridos por años de lanzamiento o producción de los mismos 
df_adquiridos_union["Release_year"].value_counts() / df_adquiridos_union.shape[0]

Release_year
2018    0.127803
2017    0.117675
2019    0.111768
2016    0.105136
2020    0.094526
          ...   
1961    0.000121
1925    0.000121
1959    0.000121
1966    0.000121
1947    0.000121
Name: count, Length: 74, dtype: float64

En cuanto al año en que el título fue lanzado o producido, parece que para las películas originales únicamente contamos con películas que han sido lanzadas o producidas entre 2014 y 2020, y en cambio para los títulos adquiridos contamos con algunos bastante más antiguos, aunque estos sean pocos. Es decir, contamos con películas originales lanzadas o producidas más recientes que los títulos adquiridos, de hecho, dentro de las originales, la mitad han sido lanzadas o producidas entre 2020 y 2019 (años bastante recientes para los datos que hay). En cambio, dentro de los títulos adquiridos, el peso está más distribuido entre los años, pero de los años en los que más títulos lanzados y producidos hay son 2018 y 2017 (años algo menos recientes). 

## Uso de loc e iloc

## Filtrado de datos con loc

In [247]:
#Selecciona todas las filas donde el tipo de contenido sea "Movie"
df_netflix_final.loc[df_netflix_final["Type"] == "Movie"]

Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description,Genre,Premiere,Runtime,IMDB_score,Language,Month_premiere,Year_premiere,Day_premiere,Original_title
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Documentary,2020-10-02,90.0,7.5,English,October,2020.0,Viernes,Yes
6,s7,Movie,My Little Pony: A New Generation,"Robert Cullen, José Luis Ucha","Vanessa Hudgens, Kimiko Glenn, James Marsden, ...",,2021-09-24,2021,PG,,Children & Family Movies,Equestria's divided. But a bright-eyed hero be...,,NaT,,,,,,,
7,s8,Movie,Sankofa,Haile Gerima,"Kofi Ghanaba, Oyafunmike Ogunlano, Alexandra D...","United States, Ghana, Burkina Faso, United Kin...",2021-09-24,1993,TV-MA,125 min,"Dramas, Independent Movies, International Movies","On a photo shoot in Ghana, an American model s...",,NaT,,,,,,,
9,s10,Movie,The Starling,Theodore Melfi,"Melissa McCarthy, Chris O'Dowd, Kevin Kline, T...",United States,2021-09-24,2021,PG-13,104 min,"Comedies, Dramas",A woman adjusting to life after a loss contend...,,NaT,,,,,,,
12,s13,Movie,Je Suis Karl,Christian Schwochow,"Luna Wedler, Jannis Niewöhner, Milan Peschel, ...","Germany, Czech Republic",2021-09-23,2021,TV-MA,127 min,"Dramas, International Movies",After most of her family is murdered in a terr...,,NaT,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8801,s8802,Movie,Zinzana,Majid Al Ansari,"Ali Suliman, Saleh Bakri, Yasa, Ali Al-Jabri, ...","United Arab Emirates, Jordan",2016-03-09,2015,TV-MA,,"Dramas, International Movies, Thrillers",Recovering alcoholic Talal wakes up inside a s...,,NaT,,,,,,,
8802,s8803,Movie,Zodiac,David Fincher,"Mark Ruffalo, Jake Gyllenhaal, Robert Downey J...",United States,2019-11-20,2007,R,158 min,"Cult Movies, Dramas, Thrillers","A political cartoonist, a crime reporter and a...",,NaT,,,,,,,
8804,s8805,Movie,Zombieland,Ruben Fleischer,"Jesse Eisenberg, Woody Harrelson, Emma Stone, ...",United States,2019-11-01,2009,R,,"Comedies, Horror Movies",Looking to survive in a world taken over by zo...,,NaT,,,,,,,
8805,s8806,Movie,Zoom,Peter Hewitt,"Tim Allen, Courteney Cox, Chevy Chase, Kate Ma...",United States,2020-01-11,2006,PG,,"Children & Family Movies, Comedies","Dragged from civilian life, a former superhero...",,NaT,,,,,,,


In [248]:
#Titulos y duracion de todos los títulos que son TV Show
df_netflix_final.loc[df_netflix_final["Type"] == "TV Show", ["Title", "Duration"]]

Unnamed: 0,Title,Duration
1,Blood & Water,2 Seasons
2,Ganglands,
3,Jailbirds New Orleans,
4,Kota Factory,2 Seasons
5,Midnight Mass,
...,...,...
8795,Yu-Gi-Oh! Arc-V,2 Seasons
8796,Yunus Emre,2 Seasons
8797,Zak Storm,
8800,Zindagi Gulzar Hai,


In [249]:
#Seleccionar todas las filas donde el país sea United States
df_netflix_final.loc[df_netflix_final["Country"] == "United States"]

Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description,Genre,Premiere,Runtime,IMDB_score,Language,Month_premiere,Year_premiere,Day_premiere,Original_title
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Documentary,2020-10-02,90.0,7.5,English,October,2020.0,Viernes,Yes
9,s10,Movie,The Starling,Theodore Melfi,"Melissa McCarthy, Chris O'Dowd, Kevin Kline, T...",United States,2021-09-24,2021,PG-13,104 min,"Comedies, Dramas",A woman adjusting to life after a loss contend...,,NaT,,,,,,,
15,s16,TV Show,Dear White People,,"Logan Browning, Brandon P. Bell, DeRon Horton,...",United States,2021-09-22,2021,TV-MA,,"TV Comedies, TV Dramas",Students of color navigate the daily slights a...,,NaT,,,,,,,
27,s28,Movie,Grown Ups,Dennis Dugan,"Adam Sandler, Kevin James, Chris Rock, David S...",United States,2021-09-20,2010,PG-13,,Comedies,Mourning the loss of their beloved junior high...,,NaT,,,,,,,
28,s29,Movie,Dark Skies,Scott Stewart,"Keri Russell, Josh Hamilton, J.K. Simmons, Dak...",United States,2021-09-19,2013,PG-13,,"Horror Movies, Sci-Fi & Fantasy",A family’s idyllic suburban life shatters when...,,NaT,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8791,s8792,Movie,Young Adult,Jason Reitman,"Charlize Theron, Patton Oswalt, Patrick Wilson...",United States,2019-11-20,2011,R,,"Comedies, Dramas, Independent Movies",When a divorced writer gets a letter from an o...,,NaT,,,,,,,
8793,s8794,Movie,"Yours, Mine and Ours",Raja Gosnell,"Dennis Quaid, Rene Russo, Sean Faris, Katija P...",United States,2019-11-20,2005,PG,,"Children & Family Movies, Comedies",When a father of eight and a mother of 10 prep...,,NaT,,,,,,,
8802,s8803,Movie,Zodiac,David Fincher,"Mark Ruffalo, Jake Gyllenhaal, Robert Downey J...",United States,2019-11-20,2007,R,158 min,"Cult Movies, Dramas, Thrillers","A political cartoonist, a crime reporter and a...",,NaT,,,,,,,
8804,s8805,Movie,Zombieland,Ruben Fleischer,"Jesse Eisenberg, Woody Harrelson, Emma Stone, ...",United States,2019-11-01,2009,R,,"Comedies, Horror Movies",Looking to survive in a world taken over by zo...,,NaT,,,,,,,


In [250]:
#Mostrar todas las películas seleccionando las columnas title y director
df_netflix_final.loc[df_netflix_final["Type"] == "Movie", ["Title", "Director"]]

Unnamed: 0,Title,Director
0,Dick Johnson Is Dead,Kirsten Johnson
6,My Little Pony: A New Generation,"Robert Cullen, José Luis Ucha"
7,Sankofa,Haile Gerima
9,The Starling,Theodore Melfi
12,Je Suis Karl,Christian Schwochow
...,...,...
8801,Zinzana,Majid Al Ansari
8802,Zodiac,David Fincher
8804,Zombieland,Ruben Fleischer
8805,Zoom,Peter Hewitt


In [251]:
#Seleccionar title y listed_in de todas las peliculas lanzadas en 2018
df_netflix_final.loc[df_netflix_final["Release_year"] == 2018, ["Title", "Listed_in"]]

Unnamed: 0,Title,Listed_in
21,Resurrection: Ertugrul,"International TV Shows, TV Action & Adventure,..."
37,Angry Birds,"Kids' TV, TV Comedies"
73,King of Boys,"Dramas, International Movies"
94,Show Dogs,"Children & Family Movies, Comedies"
96,If I Leave Here Tomorrow: A Film About Lynyrd ...,"Documentaries, Music & Musicals"
...,...,...
8732,White Chamber,"Sci-Fi & Fantasy, Thrillers"
8743,Wildlife,"Dramas, Independent Movies"
8774,يوم الدين,"Dramas, Independent Movies, International Movies"
8775,Yeh Meri Family,"International TV Shows, TV Comedies"


In [252]:
#Filas donde la columna director está vacía y mostrar solo los títulos
df_netflix_final.loc[df_netflix_final["Director"].isnull(), ["Title"]]

Unnamed: 0,Title
1,Blood & Water
3,Jailbirds New Orleans
4,Kota Factory
10,"Vendetta: Truth, Lies and The Mafia"
14,Crime Stories: India Detectives
...,...
8795,Yu-Gi-Oh! Arc-V
8796,Yunus Emre
8797,Zak Storm
8800,Zindagi Gulzar Hai


## Filtrado de datos con iloc

In [253]:
#Seleccionar las 5 primeras filas y mostrar las columnas title, director y country
df_netflix_final.iloc[:5, [2,3,5]]

Unnamed: 0,Title,Director,Country
0,Dick Johnson Is Dead,Kirsten Johnson,United States
1,Blood & Water,,South Africa
2,Ganglands,Julien Leclercq,
3,Jailbirds New Orleans,,
4,Kota Factory,,India


In [254]:
#Mostrar las ultimas 5 filas y seleccionar las columnas title y description
df_netflix_final.iloc[-5:, [2,11]]

Unnamed: 0,Title,Description
8802,Zodiac,"A political cartoonist, a crime reporter and a..."
8803,Zombie Dumb,"While living alone in a spooky town, a young g..."
8804,Zombieland,Looking to survive in a world taken over by zo...
8805,Zoom,"Dragged from civilian life, a former superhero..."
8806,Zubaan,A scrappy but poor boy worms his way into a ty...


In [255]:
#Seleccionar las 10 primeras filas y mostrar desde la segunda hasta la quinta columna (inlcuidas)
df_netflix_final.iloc[:10,1:5]

Unnamed: 0,Type,Title,Director,Cast
0,Movie,Dick Johnson Is Dead,Kirsten Johnson,
1,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban..."
2,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi..."
3,TV Show,Jailbirds New Orleans,,
4,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K..."
5,TV Show,Midnight Mass,Mike Flanagan,"Kate Siegel, Zach Gilford, Hamish Linklater, H..."
6,Movie,My Little Pony: A New Generation,"Robert Cullen, José Luis Ucha","Vanessa Hudgens, Kimiko Glenn, James Marsden, ..."
7,Movie,Sankofa,Haile Gerima,"Kofi Ghanaba, Oyafunmike Ogunlano, Alexandra D..."
8,TV Show,The Great British Baking Show,Andy Devonshire,"Mel Giedroyc, Sue Perkins, Mary Berry, Paul Ho..."
9,Movie,The Starling,Theodore Melfi,"Melissa McCarthy, Chris O'Dowd, Kevin Kline, T..."


In [256]:
#Mostrar las ultimas 7 filas y seleccionar las columnas title, director y country
df_netflix_final.iloc[-7:,[2,3,5]]

Unnamed: 0,Title,Director,Country
8800,Zindagi Gulzar Hai,,Pakistan
8801,Zinzana,Majid Al Ansari,"United Arab Emirates, Jordan"
8802,Zodiac,David Fincher,United States
8803,Zombie Dumb,,
8804,Zombieland,Ruben Fleischer,United States
8805,Zoom,Peter Hewitt,United States
8806,Zubaan,Mozez Singh,India


In [257]:
#Filas desde la 15 hasta la 25 inlcuidas y las 4 primeras columnas
df_netflix_final.iloc[14:25,:4]

Unnamed: 0,Show_id,Type,Title,Director
14,s15,TV Show,Crime Stories: India Detectives,
15,s16,TV Show,Dear White People,
16,s17,Movie,Europe's Most Dangerous Man: Otto Skorzeny in ...,"Pedro de Echave García, Pablo Azorín Williams"
17,s18,TV Show,Falsa identidad,
18,s19,Movie,Intrusion,Adam Salky
19,s20,TV Show,Jaguar,
20,s21,TV Show,Monsters Inside: The 24 Faces of Billy Milligan,Olivier Megaton
21,s22,TV Show,Resurrection: Ertugrul,
22,s23,Movie,Avvai Shanmughi,K.S. Ravikumar
23,s24,Movie,Go! Go! Cory Carson: Chrissy Takes the Wheel,"Alex Woo, Stanley Moore"


In [258]:
#Filas desde la 20 hasta la 30 (supongo que inlcuidas) y las columnas title, release_year y rating
df_netflix_final.iloc[19:30,[2,7,8]]

Unnamed: 0,Title,Release_year,Rating
19,Jaguar,2021,TV-MA
20,Monsters Inside: The 24 Faces of Billy Milligan,2021,TV-14
21,Resurrection: Ertugrul,2018,TV-14
22,Avvai Shanmughi,1996,TV-PG
23,Go! Go! Cory Carson: Chrissy Takes the Wheel,2021,TV-Y
24,Jeans,1998,TV-14
25,Love on the Spectrum,2021,TV-14
26,Minsara Kanavu,1997,TV-PG
27,Grown Ups,2010,PG-13
28,Dark Skies,2013,PG-13


In [259]:
#Guardar el DataFrame resultado de la unión
df_netflix_final.to_csv("hackio/Netflix_union_final.csv")

OSError: Cannot save file into a non-existent directory: 'hackio'