<div style="text-align: center;">
  <img src="https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_naranja@4x.png?raw=true" alt="esquema" />
</div>

# Laboratorio Pandas (EDA y Unión de Datos)

## Los datos

Para este laboratorio, trabajarás con los siguientes conjuntos de datos:

- **`netflix_originals.csv`**: Contiene información sobre producciones originales de Netflix. Las columnas que nos encontraremos en este conjunto de datos son: 

   - `Title`: Contiene el nombre del título de la producción original de Netflix.

   - `Genre`: Especifica el género o combinación de géneros de la producción.

   - `Premiere`: Indica la fecha de estreno de la producción en Netflix.

   - `Runtime`: Contiene la duración de la producción en minutos.

   - `IMDB Score`: Representa la calificación promedio que la producción ha recibido en la plataforma IMDB.

   - `Language`: Especifica el idioma principal o los idiomas en los que se presenta la producción.

- **`netflix_titles.csv`**: Contiene información sobre una variedad de títulos disponibles en la plataforma Netflix, incluyendo tanto películas como series de televisión. Las columnas que nos encontraremos en este conjunto de datos son:

   - `show_id`: Identificador único para cada título en el dataset.

   - `type`: Especifica el tipo de contenido, ya sea "Movie" (película) o "TV Show" (serie de televisión).

   - `title`: Contiene el nombre del título de la producción.

   - `director`: Muestra el nombre del director del título. Puede estar vacío en algunos casos.

   - `cast`: Lista de actores y actrices que participaron en el título. También puede estar vacío en algunos casos.

   - `country`: País o países donde se produjo el título. Esta columna también puede tener valores faltantes.

   - `date_added`: Fecha en la que el título fue añadido al catálogo de Netflix.

   - `release_year`: Año en que el título fue lanzado o producido.

   - `rating`: Clasificación del contenido en términos de audiencia (por ejemplo, PG-13, TV-MA).

   - `duration`: Duración del título. Para películas, se expresa en minutos (e.g., "90 min") y para series en temporadas (e.g., "2 Seasons").

   - `listed_in`: Categorías o géneros bajo los cuales el título está clasificado (por ejemplo, "Documentaries", "TV Dramas").

   - `description`: Breve sinopsis o descripción del contenido del título.

A lo largo de los laboratorios de Pandas, trabajarás con estos conjuntos de datos (o con los derivados del Laboratorio), algunas de las actividades que realizaremos son:

- Exploración de datos y análisis exploratorio (EDA) para familiarizarse con los conjuntos de datos.

- Realización de uniones entre conjuntos de datos, aplicando diferentes técnicas de *merging* y analizando la relevancia de cada método.

- Uso de funciones de selección y filtrado (`loc`, `iloc`) para extraer información clave.

- Desarrollo de análisis descriptivos y visualización de patrones para comprender mejor las decisiones estratégicas de la plataforma.

----

## Objetivo General de la Serie de Laboratorios



1. **Unión de `netflix_titles.csv` con `netflix_originals.csv`:**

   - **Análisis de contenido original:**  Identificarás los títulos que son producciones originales de Netflix y los compararás con los títulos adquiridos. Este análisis te permitirá:

     - Comparar la diversidad de géneros entre los títulos originales y no originales.

     - Evaluar si ciertos géneros o tipos de contenido (como documentales o series) son más frecuentes en las producciones originales.

     - Investigar si la producción original se concentra en determinados países o idiomas.


   - **Evaluación de contenido:** En esta etapa, explorarás si las producciones originales de Netflix tienden a recibir mejores o peores evaluaciones en comparación con el contenido adquirido. Algunas preguntas que se buscarán responder incluyen:

     - ¿Los títulos originales tienen una calificación promedio superior en plataformas como IMDB?

     - ¿Son las producciones originales más consistentes en términos de calidad percibida?

     - ¿Existen diferencias en la popularidad de los títulos originales según su género o país de origen?


   - **Identificación de tendencias:**  Por último, este análisis te permitirá explorar cómo ha evolucionado la estrategia de contenido de Netflix a lo largo del tiempo. Algunos puntos clave a investigar serán:

     - ¿Cómo ha crecido la producción original en comparación con la adquisición de contenido?

     - ¿Qué géneros o tipos de contenido han recibido mayor inversión en los últimos años?
     
     - ¿Existen patrones en los países o idiomas de las producciones originales, especialmente en relación con la expansión global de Netflix?


----


## Ejercicio: Análisis y Enriquecimiento del Catálogo de Netflix

### Parte 1: Análisis Exploratorio de Datos (EDA)

1. **Carga de los datos:**

   - Deberás cargar los dos conjuntos de datos que te hemos proporcionado para realizar este Laboratorio:

     - `netflix_originals.csv`

     - `netflix_titles.csv`

   Deberás revisar la estructura de cada conjunto de datos utilizando los métodos aprendidos durante la lección.

2. **Análisis de columnas y consistencia:**

   - Deberás hacer un análisis exploratorio de cada uno de los conjuntos de datos. Será obligatorio que incluyas las conclusiones generales obtenidas de cada uno de los análisis exploratorios en el Jupyter Notebook de tus soluciones.

   - Explorar qué columnas contiene cada conjunto de datos y cuáles son sus tipos de datos. Identificar si hay valores nulos o duplicados.

   - Algunas preguntas que nos podemos plantear en esta fase son (recuerda que esto es solo un ejemplo, y que podemos explorar todo lo que queramos/necesitemos para entender lo mejor posible los conjuntos de datos):

      - ¿Cuáles son los tipos de datos de cada columna? Nos puede ayudar a detectar si algún tipo de dato está incorrectamente asignado, como fechas almacenadas como cadenas de texto.

      - ¿Existen valores nulos? ¿En qué columnas están? Este paso es crucial para decidir si deben ser eliminados, rellenados o ignorados.

      - ¿Cuántos títulos únicos hay en cada conjunto de datos? Nos puede permitir verificar si existen títulos duplicados que puedan distorsionar el análisis.

      - ¿Qué géneros tenemos en el conjunto de datos? Esto nos puede ayudar a identificar los géneros más populares o incluso a identificar una posible limpieza de dicha columna para poder extraer conclusiones más claras en nuestro análisis.

### Parte 2: Unión de Datos

1. **Realización de la unión:**

   - Deberás realizar la unión que consideres más apropiada entre `netflix_titles.csv` y `netflix_originals.csv`. Además, deberás justificar el tipo de unión que has realizado.

   - Esto nos ayudará a contestar preguntas más adelente del tipo:

     - ¿Cuántos títulos en `netflix_titles.csv` son producciones originales de Netflix?

     - ¿Hay diferencias significativas en la puntuación de IMDB entre títulos originales y no originales?

### Parte 3: Uso de `loc` e `iloc`

Usando el DataFrame creado en la Parte 2: 

1. **Filtrado de datos con `loc`:**

   - Selecciona todas las filas donde el tipo de contenido sea “Movie”.

   - Muestra solo los títulos (title) y la duración (duration) de todos los contenidos que sean de tipo “TV Show”.

   - Selecciona todas las filas donde el país sea “United States”.

   - Muestra todas las películas (type = “Movie”) y selecciona las columnas title y director.

   - Selecciona los títulos (title) y géneros (listed_in) de todas las producciones lanzadas en 2018.

   - Selecciona las filas donde la columna director esté vacía y muestra solo los títulos (title).

2. **Acceso a datos específicos con `iloc`:**

   - Selecciona las primeras 5 filas del conjunto de datos y muestra solo las columnas title, director y country.

   - Muestra las últimas 5 filas del conjunto de datos y selecciona las columnas title y description.

   - Selecciona las primeras 10 filas del dataset y muestra las columnas desde la segunda hasta la quinta (incluidas). 

   - Muestra las últimas 7 filas del dataset y selecciona las columnas title, director, y country usando índices posicionales.

   - Selecciona las filas desde la 15 hasta la 25 (incluidas) y muestra las primeras 4 columnas.

   - Muestra las filas 20 a 30 y solo las columnas title, release_year, y rating usando índices posicionales.


**NOTA IMPORTANTE**: Antes de terminar el lab, guarda el conjunto de datos creado en la fase de unión para trabajar con el en las siguientes lecciones. 

In [114]:
import pandas as pd 

import warnings
warnings.filterwarnings("ignore")

pd.set_option('display.max_columns', None)

In [115]:
df_netflix_original = pd.read_csv("datos/netflix_originals.csv", index_col=0)
df_netflix_titles = pd.read_csv("datos/netflix_titles.csv", index_col= 0)

In [116]:
df_netflix_original

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language
0,Enter the Anime,Documentary,"August 5, 2019",58,2.5,English/Japanese
1,Dark Forces,Thriller,"August 21, 2020",81,2.6,Spanish
2,The App,Science fiction/Drama,"December 26, 2019",79,2.6,Italian
3,The Open House,Horror thriller,"January 19, 2018",94,3.2,English
4,Kaali Khuhi,Mystery,"October 30, 2020",90,3.4,Hindi
...,...,...,...,...,...,...
576,Cuba and the Cameraman,Documentary,"November 24, 2017",114,8.3,English
577,Dancing with the Birds,Documentary,"October 23, 2019",51,8.3,English
580,Winter on Fire: Ukraine's Fight for Freedom,Documentary,"October 9, 2015",91,8.4,English/Ukranian/Russian
581,Springsteen on Broadway,One-man show,"December 16, 2018",153,8.5,English


In [117]:
df_netflix_original["Originales"] = True

# Creamos una nueva columna en la que vamos a tener determinado las peliculas originales de netflix y poder hacer cualquier comprobacion a la hora de realizar cualquier unión del archivo y no perder la informacion. 

In [118]:
df_netflix_original # comprobamos que la columna se ha creado de manera correcta en el archivo.

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language,Originales
0,Enter the Anime,Documentary,"August 5, 2019",58,2.5,English/Japanese,True
1,Dark Forces,Thriller,"August 21, 2020",81,2.6,Spanish,True
2,The App,Science fiction/Drama,"December 26, 2019",79,2.6,Italian,True
3,The Open House,Horror thriller,"January 19, 2018",94,3.2,English,True
4,Kaali Khuhi,Mystery,"October 30, 2020",90,3.4,Hindi,True
...,...,...,...,...,...,...,...
576,Cuba and the Cameraman,Documentary,"November 24, 2017",114,8.3,English,True
577,Dancing with the Birds,Documentary,"October 23, 2019",51,8.3,English,True
580,Winter on Fire: Ukraine's Fight for Freedom,Documentary,"October 9, 2015",91,8.4,English/Ukranian/Russian,True
581,Springsteen on Broadway,One-man show,"December 16, 2018",153,8.5,English,True


In [119]:
df_netflix_original.columns # vamos a ir viendo por secciones los tipos de datos que tenemos en el archivo para ir realizando el analisis exploratorio.

Index(['Title', 'Genre', 'Premiere', 'Runtime', 'IMDB Score', 'Language',
       'Originales'],
      dtype='object')

In [120]:
df_netflix_original.info() #utilizamos el metodo info(), para ver que tipo de datos tenemos en el DataFrame, pudiendo comprobar el numero de nulos( en este caso NoNulos), en el archivo, y podemos ver que en este primer archivo no tenemos nulos.

<class 'pandas.core.frame.DataFrame'>
Index: 513 entries, 0 to 583
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Title       513 non-null    object 
 1   Genre       513 non-null    object 
 2   Premiere    513 non-null    object 
 3   Runtime     513 non-null    int64  
 4   IMDB Score  513 non-null    float64
 5   Language    513 non-null    object 
 6   Originales  513 non-null    bool   
dtypes: bool(1), float64(1), int64(1), object(4)
memory usage: 28.6+ KB


In [121]:
df_netflix_original.describe().T # A continuacion utilizamos la funcion describe() para ver los calculos estadisticos de los datos agrupados de nuestro archivo.
# donde podemos observar la por un lado las columnas Runtime(duracion peliculas), donde vemos count(la cantidad de valores que no estan vacios, por lo que las 513 columnas contienen informacion),Mean(media:el valor promedio de la columna) pudiendo apreciar la duracion media de 94,67 , una std(desviacion estandar) de 26,64, y valores como min y max y luego percentiles.
# 25% de las peliculas tienen una duracion de 87.0, el 50% de 97.0 y el 25% duran mas de 108.0% ( en relacion a que el 75% duran 108.0 o menos)
# Respecto del IMDB Score podemos concretar las puntuaciones de las peliculas que contiene el archivo, sacando informacion muy relevante respecto de las peliculas que más y las que menos están gustando, pudiendo sacar factores importantes de peliculas a sacar en la plataforma de cara al futuro.  

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Runtime,513.0,94.674464,26.648121,4.0,87.0,97.0,108.0,209.0
IMDB Score,513.0,6.210916,0.96885,2.5,5.6,6.3,6.9,9.0


In [122]:
# Por otro lado, podemos incluir los datos de tipo str para poder analizarlos tambien con el siguiente codigo:

df_netflix_original.describe(include = "object").T

Unnamed: 0,count,unique,top,freq
Title,513,513,David Attenborough: A Life on Our Planet,1
Genre,513,106,Documentary,132
Premiere,513,350,"October 18, 2019",5
Language,513,37,English,352


In [123]:
# Conclusiones:
# 1. La predominancia del genero "Documentary", y el idioma "English"
# 2. La dispersion de los generos e e idiomas ( 106 generos y 37 idiomas unicos)
# 3. Las fechas de estreno mas frecuentes, que investigaremos mas adelante con la fusion de los datos. 

In [124]:
df_netflix_original.duplicated().sum()

# Podemos ver que en los originales no duplicados.

np.int64(0)

## CONCLUSIONES ARCHIVO ORIGINALES ## 

En un primer analisis del primer archivo, podemos concluir las siguientes conclusiones :

- Duracion media : 94.67 min. 
- No tenemos datos nulos y ni datos duplicados.
- El promedio de IMDB Score es de 6.2, lo que mas adelante analizaremos en el conjunto de los archivos.
- Predomina el genero "Documentary" y el idioma "English"
- La dispersion de los generos e idiomas ( 106 generos y 37 idiomas unicos)
- Las fechas de estreno mas frecuentes, lo cual seguiremos analizando. 

In [125]:
df_netflix_titles

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...
...,...,...,...,...,...,...,...,...,...,...,...,...
8802,s8803,Movie,Zodiac,David Fincher,"Mark Ruffalo, Jake Gyllenhaal, Robert Downey J...",United States,"November 20, 2019",2007,R,158 min,"Cult Movies, Dramas, Thrillers","A political cartoonist, a crime reporter and a..."
8803,s8804,TV Show,Zombie Dumb,,,,"July 1, 2019",2018,TV-Y7,2 Seasons,"Kids' TV, Korean TV Shows, TV Comedies","While living alone in a spooky town, a young g..."
8804,s8805,Movie,Zombieland,Ruben Fleischer,"Jesse Eisenberg, Woody Harrelson, Emma Stone, ...",United States,"November 1, 2019",2009,R,,"Comedies, Horror Movies",Looking to survive in a world taken over by zo...
8805,s8806,Movie,Zoom,Peter Hewitt,"Tim Allen, Courteney Cox, Chevy Chase, Kate Ma...",United States,"January 11, 2020",2006,PG,,"Children & Family Movies, Comedies","Dragged from civilian life, a former superhero..."


In [126]:
df_netflix_titles.columns # examinamos las columnas del archivo a estudiar a continuacion 

Index(['show_id', 'type', 'title', 'director', 'cast', 'country', 'date_added',
       'release_year', 'rating', 'duration', 'listed_in', 'description'],
      dtype='object')

In [127]:
df_netflix_titles.duplicated().sum()

np.int64(0)

In [128]:
df_netflix_titles.info() # de igual manera que en el archivo anterior, vemos la informacion de cada una de las columnas viendo que en este archivo si que tenemos nulos, que trataremos mas adelante.

<class 'pandas.core.frame.DataFrame'>
Index: 8807 entries, 0 to 8806
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   show_id       8807 non-null   object
 1   type          8807 non-null   object
 2   title         8807 non-null   object
 3   director      6173 non-null   object
 4   cast          7982 non-null   object
 5   country       7976 non-null   object
 6   date_added    8797 non-null   object
 7   release_year  8807 non-null   int64 
 8   rating        8803 non-null   object
 9   duration      3994 non-null   object
 10  listed_in     8807 non-null   object
 11  description   8807 non-null   object
dtypes: int64(1), object(11)
memory usage: 894.5+ KB


In [129]:
df_netflix_titles.describe(include = "object").T # como anteriormente hemos observado el tipo de datos, ya incluimos directamente datos de tipo "object" para poder estudiarlos.

# Conclusion  :
# 1. La mayoria del contenido son peliculas provenientes de los EEUU y clasificado como "TV-MA"
# 2. Los generos mas frecuentes son dramas y peliculas internacionales
# 3. Hay varios valores nulos en columnas clave como "director", "cast" y "country", lo que requerirá limpieza de datos.

Unnamed: 0,count,unique,top,freq
show_id,8807,8807,s8807,1
type,8807,2,Movie,6131
title,8807,8807,Zubaan,1
director,6173,4528,Rajiv Chilaka,19
cast,7982,7692,David Attenborough,19
country,7976,748,United States,2818
date_added,8797,1767,"January 1, 2020",109
rating,8803,17,TV-MA,3207
duration,3994,185,2 Seasons,425
listed_in,8807,514,"Dramas, International Movies",362


In [130]:
pd.DataFrame(df_netflix_titles.isnull().sum()) # aqui podemos ver desglosado el numero de nulos por etiqueta. 

Unnamed: 0,0
show_id,0
type,0
title,0
director,2634
cast,825
country,831
date_added,10
release_year,0
rating,4
duration,4813


In [131]:
df_report_nulos = pd.DataFrame()
df_report_nulos["Numero_nulos"]= df_netflix_titles.isnull().sum()
df_report_nulos["Porcentaje_de_nulos"] = round(df_netflix_titles.isnull().sum()/df_netflix_titles.shape[0]*100,2)
df_report_nulos

# Aqui podemos ver el numero de nulos y el porcentaje de nulos por etiqueta de datos y en base a esto empezaremos a tratar dichos valores. 

Unnamed: 0,Numero_nulos,Porcentaje_de_nulos
show_id,0,0.0
type,0,0.0
title,0,0.0
director,2634,29.91
cast,825,9.37
country,831,9.44
date_added,10,0.11
release_year,0,0.0
rating,4,0.05
duration,4813,54.65


## CONCLUSIONES TITLES ##

- La mayoria del contenido son peliculas provenientes de los EEUU y clasificado como "TV-MA"
- Los generos mas frecuentes son dramas y peliculas internacionales
- Hay varios valores nulos en columnas clave como "director", "cast" y "country", lo que requerirá limpieza de datos.
- No tenemos duplicados. 

In [None]:
 # def completar_duracion (valor):
    #if pd.isnull(valor):
        #return None
    #if "min" in str(valor):
        #return int(valor.split()[0])
    #elif "Season" in str(valor):
        #return int(valor.split[0])
    #return None 




In [157]:
# df_netflix_titles["duration"] = df_netflix_titles["duration"].apply(completar_duracion)


### NO FUNCIONA EL CODIGO ###  VOLVER AQUI PARA SACAR MEDIANA Y TRABAJAR NULOS

In [None]:
df_netflix_original

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language,Originales
0,Enter the Anime,Documentary,"August 5, 2019",58,2.5,English/Japanese,True
1,Dark Forces,Thriller,"August 21, 2020",81,2.6,Spanish,True
2,The App,Science fiction/Drama,"December 26, 2019",79,2.6,Italian,True
3,The Open House,Horror thriller,"January 19, 2018",94,3.2,English,True
4,Kaali Khuhi,Mystery,"October 30, 2020",90,3.4,Hindi,True
...,...,...,...,...,...,...,...
576,Cuba and the Cameraman,Documentary,"November 24, 2017",114,8.3,English,True
577,Dancing with the Birds,Documentary,"October 23, 2019",51,8.3,English,True
580,Winter on Fire: Ukraine's Fight for Freedom,Documentary,"October 9, 2015",91,8.4,English/Ukranian/Russian,True
581,Springsteen on Broadway,One-man show,"December 16, 2018",153,8.5,English,True


In [None]:
df_netflix_titles

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,Movie,Title,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,s2,TV Show,Title,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,s3,TV Show,Title,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,s4,TV Show,Title,,,,"September 24, 2021",2021,TV-MA,,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,s5,TV Show,Title,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...
...,...,...,...,...,...,...,...,...,...,...,...,...
8802,s8803,Movie,Title,David Fincher,"Mark Ruffalo, Jake Gyllenhaal, Robert Downey J...",United States,"November 20, 2019",2007,R,158 min,"Cult Movies, Dramas, Thrillers","A political cartoonist, a crime reporter and a..."
8803,s8804,TV Show,Title,,,,"July 1, 2019",2018,TV-Y7,2 Seasons,"Kids' TV, Korean TV Shows, TV Comedies","While living alone in a spooky town, a young g..."
8804,s8805,Movie,Title,Ruben Fleischer,"Jesse Eisenberg, Woody Harrelson, Emma Stone, ...",United States,"November 1, 2019",2009,R,,"Comedies, Horror Movies",Looking to survive in a world taken over by zo...
8805,s8806,Movie,Title,Peter Hewitt,"Tim Allen, Courteney Cox, Chevy Chase, Kate Ma...",United States,"January 11, 2020",2006,PG,,"Children & Family Movies, Comedies","Dragged from civilian life, a former superhero..."


In [158]:
df_merge = df_netflix_titles.merge(df_netflix_original, left_on = "title", right_on= "Title", how = "left"  )
df_merge

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Title,Genre,Premiere,Runtime,IMDB Score,Language,Originales
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Dick Johnson Is Dead,Documentary,"October 2, 2020",90.0,7.5,English,True
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t...",,,,,,,
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...,,,,,,,
3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo...",,,,,,,
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8802,s8803,Movie,Zodiac,David Fincher,"Mark Ruffalo, Jake Gyllenhaal, Robert Downey J...",United States,"November 20, 2019",2007,R,158 min,"Cult Movies, Dramas, Thrillers","A political cartoonist, a crime reporter and a...",,,,,,,
8803,s8804,TV Show,Zombie Dumb,,,,"July 1, 2019",2018,TV-Y7,2 Seasons,"Kids' TV, Korean TV Shows, TV Comedies","While living alone in a spooky town, a young g...",,,,,,,
8804,s8805,Movie,Zombieland,Ruben Fleischer,"Jesse Eisenberg, Woody Harrelson, Emma Stone, ...",United States,"November 1, 2019",2009,R,,"Comedies, Horror Movies",Looking to survive in a world taken over by zo...,,,,,,,
8805,s8806,Movie,Zoom,Peter Hewitt,"Tim Allen, Courteney Cox, Chevy Chase, Kate Ma...",United States,"January 11, 2020",2006,PG,,"Children & Family Movies, Comedies","Dragged from civilian life, a former superhero...",,,,,,,


In [159]:
print(df_merge['IMDB Score'].notnull().sum())

513


In [161]:
print(df_merge.groupby(df_merge['IMDB Score'].notnull())['IMDB Score'].mean())

IMDB Score
False         NaN
True     6.210916
Name: IMDB Score, dtype: float64


In [None]:
movies = df_merge.loc[df_merge['type'] == 'Movie']
movies

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Title,Genre,Premiere,Runtime,IMDB Score,Language,Originales
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Dick Johnson Is Dead,Documentary,"October 2, 2020",90.0,7.5,English,True
6,s7,Movie,My Little Pony: A New Generation,"Robert Cullen, José Luis Ucha","Vanessa Hudgens, Kimiko Glenn, James Marsden, ...",,"September 24, 2021",2021,PG,,Children & Family Movies,Equestria's divided. But a bright-eyed hero be...,,,,,,,
7,s8,Movie,Sankofa,Haile Gerima,"Kofi Ghanaba, Oyafunmike Ogunlano, Alexandra D...","United States, Ghana, Burkina Faso, United Kin...","September 24, 2021",1993,TV-MA,125 min,"Dramas, Independent Movies, International Movies","On a photo shoot in Ghana, an American model s...",,,,,,,
9,s10,Movie,The Starling,Theodore Melfi,"Melissa McCarthy, Chris O'Dowd, Kevin Kline, T...",United States,"September 24, 2021",2021,PG-13,104 min,"Comedies, Dramas",A woman adjusting to life after a loss contend...,,,,,,,
12,s13,Movie,Je Suis Karl,Christian Schwochow,"Luna Wedler, Jannis Niewöhner, Milan Peschel, ...","Germany, Czech Republic","September 23, 2021",2021,TV-MA,127 min,"Dramas, International Movies",After most of her family is murdered in a terr...,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8801,s8802,Movie,Zinzana,Majid Al Ansari,"Ali Suliman, Saleh Bakri, Yasa, Ali Al-Jabri, ...","United Arab Emirates, Jordan","March 9, 2016",2015,TV-MA,,"Dramas, International Movies, Thrillers",Recovering alcoholic Talal wakes up inside a s...,,,,,,,
8802,s8803,Movie,Zodiac,David Fincher,"Mark Ruffalo, Jake Gyllenhaal, Robert Downey J...",United States,"November 20, 2019",2007,R,158 min,"Cult Movies, Dramas, Thrillers","A political cartoonist, a crime reporter and a...",,,,,,,
8804,s8805,Movie,Zombieland,Ruben Fleischer,"Jesse Eisenberg, Woody Harrelson, Emma Stone, ...",United States,"November 1, 2019",2009,R,,"Comedies, Horror Movies",Looking to survive in a world taken over by zo...,,,,,,,
8805,s8806,Movie,Zoom,Peter Hewitt,"Tim Allen, Courteney Cox, Chevy Chase, Kate Ma...",United States,"January 11, 2020",2006,PG,,"Children & Family Movies, Comedies","Dragged from civilian life, a former superhero...",,,,,,,


In [164]:
tv_shows = df_merge.loc[df_merge['type'] == 'TV Show', ['title', 'duration']]
tv_shows

Unnamed: 0,title,duration
1,Blood & Water,2 Seasons
2,Ganglands,
3,Jailbirds New Orleans,
4,Kota Factory,2 Seasons
5,Midnight Mass,
...,...,...
8795,Yu-Gi-Oh! Arc-V,2 Seasons
8796,Yunus Emre,2 Seasons
8797,Zak Storm,
8800,Zindagi Gulzar Hai,


In [165]:
usa_titles = df_merge.loc[df_merge['country'] == 'United States']
usa_titles

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Title,Genre,Premiere,Runtime,IMDB Score,Language,Originales
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Dick Johnson Is Dead,Documentary,"October 2, 2020",90.0,7.5,English,True
9,s10,Movie,The Starling,Theodore Melfi,"Melissa McCarthy, Chris O'Dowd, Kevin Kline, T...",United States,"September 24, 2021",2021,PG-13,104 min,"Comedies, Dramas",A woman adjusting to life after a loss contend...,,,,,,,
15,s16,TV Show,Dear White People,,"Logan Browning, Brandon P. Bell, DeRon Horton,...",United States,"September 22, 2021",2021,TV-MA,,"TV Comedies, TV Dramas",Students of color navigate the daily slights a...,,,,,,,
27,s28,Movie,Grown Ups,Dennis Dugan,"Adam Sandler, Kevin James, Chris Rock, David S...",United States,"September 20, 2021",2010,PG-13,,Comedies,Mourning the loss of their beloved junior high...,,,,,,,
28,s29,Movie,Dark Skies,Scott Stewart,"Keri Russell, Josh Hamilton, J.K. Simmons, Dak...",United States,"September 19, 2021",2013,PG-13,,"Horror Movies, Sci-Fi & Fantasy",A family’s idyllic suburban life shatters when...,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8791,s8792,Movie,Young Adult,Jason Reitman,"Charlize Theron, Patton Oswalt, Patrick Wilson...",United States,"November 20, 2019",2011,R,,"Comedies, Dramas, Independent Movies",When a divorced writer gets a letter from an o...,,,,,,,
8793,s8794,Movie,"Yours, Mine and Ours",Raja Gosnell,"Dennis Quaid, Rene Russo, Sean Faris, Katija P...",United States,"November 20, 2019",2005,PG,,"Children & Family Movies, Comedies",When a father of eight and a mother of 10 prep...,,,,,,,
8802,s8803,Movie,Zodiac,David Fincher,"Mark Ruffalo, Jake Gyllenhaal, Robert Downey J...",United States,"November 20, 2019",2007,R,158 min,"Cult Movies, Dramas, Thrillers","A political cartoonist, a crime reporter and a...",,,,,,,
8804,s8805,Movie,Zombieland,Ruben Fleischer,"Jesse Eisenberg, Woody Harrelson, Emma Stone, ...",United States,"November 1, 2019",2009,R,,"Comedies, Horror Movies",Looking to survive in a world taken over by zo...,,,,,,,


In [166]:
df_merge.iloc[:5, [1, 2, 3]]

Unnamed: 0,type,title,director
0,Movie,Dick Johnson Is Dead,Kirsten Johnson
1,TV Show,Blood & Water,
2,TV Show,Ganglands,Julien Leclercq
3,TV Show,Jailbirds New Orleans,
4,TV Show,Kota Factory,


In [167]:
df_merge.iloc[15:26, :4]

Unnamed: 0,show_id,type,title,director
15,s16,TV Show,Dear White People,
16,s17,Movie,Europe's Most Dangerous Man: Otto Skorzeny in ...,"Pedro de Echave García, Pablo Azorín Williams"
17,s18,TV Show,Falsa identidad,
18,s19,Movie,Intrusion,Adam Salky
19,s20,TV Show,Jaguar,
20,s21,TV Show,Monsters Inside: The 24 Faces of Billy Milligan,Olivier Megaton
21,s22,TV Show,Resurrection: Ertugrul,
22,s23,Movie,Avvai Shanmughi,K.S. Ravikumar
23,s24,Movie,Go! Go! Cory Carson: Chrissy Takes the Wheel,"Alex Woo, Stanley Moore"
24,s25,Movie,Jeans,S. Shankar


In [168]:
df_merge.to_csv("merged_netflix_data.csv", index=False)