<div style="text-align: center;">
  <img src="https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_naranja@4x.png?raw=true" alt="esquema" />
</div>

# Laboratorio Pandas (EDA y Unión de Datos)

## Los datos

Para este laboratorio, trabajarás con los siguientes conjuntos de datos:

- **`netflix_originals.csv`**: Contiene información sobre producciones originales de Netflix. Las columnas que nos encontraremos en este conjunto de datos son: 

   - `Title`: Contiene el nombre del título de la producción original de Netflix.

   - `Genre`: Especifica el género o combinación de géneros de la producción.

   - `Premiere`: Indica la fecha de estreno de la producción en Netflix.

   - `Runtime`: Contiene la duración de la producción en minutos.

   - `IMDB Score`: Representa la calificación promedio que la producción ha recibido en la plataforma IMDB.

   - `Language`: Especifica el idioma principal o los idiomas en los que se presenta la producción.

- **`netflix_titles.csv`**: Contiene información sobre una variedad de títulos disponibles en la plataforma Netflix, incluyendo tanto películas como series de televisión. Las columnas que nos encontraremos en este conjunto de datos son:

   - `show_id`: Identificador único para cada título en el dataset.

   - `type`: Especifica el tipo de contenido, ya sea "Movie" (película) o "TV Show" (serie de televisión).

   - `title`: Contiene el nombre del título de la producción.

   - `director`: Muestra el nombre del director del título. Puede estar vacío en algunos casos.

   - `cast`: Lista de actores y actrices que participaron en el título. También puede estar vacío en algunos casos.

   - `country`: País o países donde se produjo el título. Esta columna también puede tener valores faltantes.

   - `date_added`: Fecha en la que el título fue añadido al catálogo de Netflix.

   - `release_year`: Año en que el título fue lanzado o producido.

   - `rating`: Clasificación del contenido en términos de audiencia (por ejemplo, PG-13, TV-MA).

   - `duration`: Duración del título. Para películas, se expresa en minutos (e.g., "90 min") y para series en temporadas (e.g., "2 Seasons").

   - `listed_in`: Categorías o géneros bajo los cuales el título está clasificado (por ejemplo, "Documentaries", "TV Dramas").

   - `description`: Breve sinopsis o descripción del contenido del título.

A lo largo de los laboratorios de Pandas, trabajarás con estos conjuntos de datos (o con los derivados del Laboratorio), algunas de las actividades que realizaremos son:

- Exploración de datos y análisis exploratorio (EDA) para familiarizarse con los conjuntos de datos.

- Realización de uniones entre conjuntos de datos, aplicando diferentes técnicas de *merging* y analizando la relevancia de cada método.

- Uso de funciones de selección y filtrado (`loc`, `iloc`) para extraer información clave.

- Desarrollo de análisis descriptivos y visualización de patrones para comprender mejor las decisiones estratégicas de la plataforma.

----

## Objetivo General de la Serie de Laboratorios



1. **Unión de `netflix_titles.csv` con `netflix_originals.csv`:**

   - **Análisis de contenido original:**  Identificarás los títulos que son producciones originales de Netflix y los compararás con los títulos adquiridos. Este análisis te permitirá:

     - Comparar la diversidad de géneros entre los títulos originales y no originales.

     - Evaluar si ciertos géneros o tipos de contenido (como documentales o series) son más frecuentes en las producciones originales.

     - Investigar si la producción original se concentra en determinados países o idiomas.


   - **Evaluación de contenido:** En esta etapa, explorarás si las producciones originales de Netflix tienden a recibir mejores o peores evaluaciones en comparación con el contenido adquirido. Algunas preguntas que se buscarán responder incluyen:

     - ¿Los títulos originales tienen una calificación promedio superior en plataformas como IMDB?

     - ¿Son las producciones originales más consistentes en términos de calidad percibida?

     - ¿Existen diferencias en la popularidad de los títulos originales según su género o país de origen?


   - **Identificación de tendencias:**  Por último, este análisis te permitirá explorar cómo ha evolucionado la estrategia de contenido de Netflix a lo largo del tiempo. Algunos puntos clave a investigar serán:

     - ¿Cómo ha crecido la producción original en comparación con la adquisición de contenido?

     - ¿Qué géneros o tipos de contenido han recibido mayor inversión en los últimos años?
     
     - ¿Existen patrones en los países o idiomas de las producciones originales, especialmente en relación con la expansión global de Netflix?


----


## Ejercicio: Análisis y Enriquecimiento del Catálogo de Netflix

### Parte 1: Análisis Exploratorio de Datos (EDA)

1. **Carga de los datos:**

   - Deberás cargar los dos conjuntos de datos que te hemos proporcionado para realizar este Laboratorio:

     - `netflix_originals.csv`

     - `netflix_titles.csv`

   Deberás revisar la estructura de cada conjunto de datos utilizando los métodos aprendidos durante la lección.

2. **Análisis de columnas y consistencia:**

   - Deberás hacer un análisis exploratorio de cada uno de los conjuntos de datos. Será obligatorio que incluyas las conclusiones generales obtenidas de cada uno de los análisis exploratorios en el Jupyter Notebook de tus soluciones.

   - Explorar qué columnas contiene cada conjunto de datos y cuáles son sus tipos de datos. Identificar si hay valores nulos o duplicados.

   - Algunas preguntas que nos podemos plantear en esta fase son (recuerda que esto es solo un ejemplo, y que podemos explorar todo lo que queramos/necesitemos para entender lo mejor posible los conjuntos de datos):

      - ¿Cuáles son los tipos de datos de cada columna? Nos puede ayudar a detectar si algún tipo de dato está incorrectamente asignado, como fechas almacenadas como cadenas de texto.

      - ¿Existen valores nulos? ¿En qué columnas están? Este paso es crucial para decidir si deben ser eliminados, rellenados o ignorados.

      - ¿Cuántos títulos únicos hay en cada conjunto de datos? Nos puede permitir verificar si existen títulos duplicados que puedan distorsionar el análisis.

      - ¿Qué géneros tenemos en el conjunto de datos? Esto nos puede ayudar a identificar los géneros más populares o incluso a identificar una posible limpieza de dicha columna para poder extraer conclusiones más claras en nuestro análisis.

### Parte 2: Unión de Datos

1. **Realización de la unión:**

   - Deberás realizar la unión que consideres más apropiada entre `netflix_titles.csv` y `netflix_originals.csv`. Además, deberás justificar el tipo de unión que has realizado.

   - Esto nos ayudará a contestar preguntas más adelente del tipo:

     - ¿Cuántos títulos en `netflix_titles.csv` son producciones originales de Netflix?

     - ¿Hay diferencias significativas en la puntuación de IMDB entre títulos originales y no originales?

### Parte 3: Uso de `loc` e `iloc`

Usando el DataFrame creado en la Parte 2: 

1. **Filtrado de datos con `loc`:**

   - Selecciona todas las filas donde el tipo de contenido sea “Movie”.

   - Muestra solo los títulos (title) y la duración (duration) de todos los contenidos que sean de tipo “TV Show”.

   - Selecciona todas las filas donde el país sea “United States”.

   - Muestra todas las películas (type = “Movie”) y selecciona las columnas title y director.

   - Selecciona los títulos (title) y géneros (listed_in) de todas las producciones lanzadas en 2018.

   - Selecciona las filas donde la columna director esté vacía y muestra solo los títulos (title).

2. **Acceso a datos específicos con `iloc`:**

   - Selecciona las primeras 5 filas del conjunto de datos y muestra solo las columnas title, director y country.

   - Muestra las últimas 5 filas del conjunto de datos y selecciona las columnas title y description.

   - Selecciona las primeras 10 filas del dataset y muestra las columnas desde la segunda hasta la quinta (incluidas). 

   - Muestra las últimas 7 filas del dataset y selecciona las columnas title, director, y country usando índices posicionales.

   - Selecciona las filas desde la 15 hasta la 25 (incluidas) y muestra las primeras 4 columnas.

   - Muestra las filas 20 a 30 y solo las columnas title, release_year, y rating usando índices posicionales.


**NOTA IMPORTANTE**: Antes de terminar el lab, guarda el conjunto de datos creado en la fase de unión para trabajar con el en las siguientes lecciones. 

In [262]:
### Empezamos importando todo

import pandas as pd
import numpy as np

In [263]:
### Hacemos la carga de los documentos
netflix_original = pd.read_csv('datos/netflix_originals.csv')
netflix_titles = pd.read_csv('datos/netflix_titles.csv') 

Insight: Tenemos un formato de matriz de (513, 6).
Desarrollo: El dataset contiene 513 filas y 6 columnas. Esto nos da una idea del tamaño del conjunto de datos. Sabemos que cada fila representa un contenido original de Netflix, y las 6 columnas contienen información sobre cada contenido.

Fechas en formato de objeto:

Insight: Las fechas están en formato object cuando deberían estar en formato de fecha.
Desarrollo: El uso correcto de tipos de datos es crucial para el análisis. Convertir la columna de fechas a formato datetime te permitirá hacer análisis temporales, como cuántos contenidos se lanzaron por año o mes.

Puntuaciones de IMDB:

Insight: La puntuación promedio en IMDB es 6.21, con un mínimo de 2.5 y un máximo de 9.
Desarrollo: La puntuación en IMDB nos puede ayudar a entender la calidad percibida de los contenidos originales de Netflix. La diferencia entre el mínimo y el máximo sugiere que hay una variedad considerable en la calidad de las producciones.

Top 3 de géneros:

Insight: El top 3 de géneros son documentales, drama y comedia, con una diferencia de más de 50 entre el primero y el segundo.

Duración promedio de contenido:

Insight: Tenemos una media de duración de 94.67 minutos de RunTime. Esto oscila en un mínimo de 4 y un máximo de 209, lo que nos indica un contenido marcado por diferentes duraciones.

Lenguajes predominantes:

Insight: Tenemos un top 3 de lenguajes entre inglés, hindi y español.

Valores nulos y duplicados:

Insight: No existen valores nulos ni duplicados.

Insight: Tenemos un total de 106 tipos de géneros.

In [264]:
### Visualizamos los datos para ver lo que tenemos
netflix_original.head()

Unnamed: 0.1,Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language
0,0,Enter the Anime,Documentary,"August 5, 2019",58,2.5,English/Japanese
1,1,Dark Forces,Thriller,"August 21, 2020",81,2.6,Spanish
2,2,The App,Science fiction/Drama,"December 26, 2019",79,2.6,Italian
3,3,The Open House,Horror thriller,"January 19, 2018",94,3.2,English
4,4,Kaali Khuhi,Mystery,"October 30, 2020",90,3.4,Hindi


In [265]:
### Quitamos la primera columna que no aporta nada, y guardamos el cambio
netflix_original.drop(columns= ["Unnamed: 0"], inplace= True)

In [266]:
netflix_original.head() ### imprimo para ver el nuevo contenido

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language
0,Enter the Anime,Documentary,"August 5, 2019",58,2.5,English/Japanese
1,Dark Forces,Thriller,"August 21, 2020",81,2.6,Spanish
2,The App,Science fiction/Drama,"December 26, 2019",79,2.6,Italian
3,The Open House,Horror thriller,"January 19, 2018",94,3.2,English
4,Kaali Khuhi,Mystery,"October 30, 2020",90,3.4,Hindi


In [267]:
netflix_original.shape ### para saber la ordenación del data frame: 513 filas y 6 columnas

(513, 6)

In [268]:
netflix_original.dtypes ### de esta forma puedo saber el tipo de dato por columna

Title          object
Genre          object
Premiere       object
Runtime         int64
IMDB Score    float64
Language       object
dtype: object

In [269]:
### de esta forma confirmo lo anterior sobre la Premiere y su tipo de dato
netflix_original.select_dtypes('object').columns

Index(['Title', 'Genre', 'Premiere', 'Language'], dtype='object')

In [270]:
netflix_original.duplicated().sum() ### de esta forma puedo ver que no tengo valores duplicados

np.int64(0)

In [271]:
for columns in netflix_original.select_dtypes('object').columns: ### me da las categorias de cada columna por su tipo
    print(columns)
    print(netflix_original[columns].value_counts()) ### normalize me da los porcentajes y trae los nulos
    print

Title
Title
David Attenborough: A Life on Our Planet    1
The Irishman                                1
If Anything Happens I Love You              1
Crip Camp: A Disability Revolution          1
Beasts of No Nation                         1
                                           ..
Drive                                       1
Kaali Khuhi                                 1
The Open House                              1
The App                                     1
Dark Forces                                 1
Name: count, Length: 513, dtype: int64
Genre
Genre
Documentary                             132
Drama                                    73
Comedy                                   42
Romantic comedy                          35
Thriller                                 33
                                       ... 
Action-adventure                          1
Concert Film                              1
Animation / Science Fiction               1
Anthology/Dark comedy              

In [272]:
top_genres = netflix_original['Genre'].value_counts().head(3)
top_genres

Genre
Documentary    132
Drama           73
Comedy          42
Name: count, dtype: int64

In [273]:
top_languages = netflix_original['Language'].value_counts().head(3)
top_languages

Language
English    352
Hindi       28
Spanish     26
Name: count, dtype: int64

In [274]:
### Para verificar la cantidad de no nulos

np.round(netflix_original.notnull().sum())



Title         513
Genre         513
Premiere      513
Runtime       513
IMDB Score    513
Language      513
dtype: int64

In [275]:
### De esta forma puedo saber la media del 'Runtime' y del 'IMDB Score'

round(netflix_original.describe().T, 2)



Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Runtime,513.0,94.67,26.65,4.0,87.0,97.0,108.0,209.0
IMDB Score,513.0,6.21,0.97,2.5,5.6,6.3,6.9,9.0


In [276]:
### de esta forma sé que tengo 106 géneros únicos
netflix_original.describe(include="O")

Unnamed: 0,Title,Genre,Premiere,Language
count,513,513,513,513
unique,513,106,350,37
top,David Attenborough: A Life on Our Planet,Documentary,"October 18, 2019",English
freq,1,132,5,352


In [277]:
netflix_original.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 513 entries, 0 to 512
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Title       513 non-null    object 
 1   Genre       513 non-null    object 
 2   Premiere    513 non-null    object 
 3   Runtime     513 non-null    int64  
 4   IMDB Score  513 non-null    float64
 5   Language    513 non-null    object 
dtypes: float64(1), int64(1), object(4)
memory usage: 24.2+ KB


* Segundo EDA 

Eliminación de Columnas Irrelevantes:
Se han retirado las dos primeras columnas del conjunto de datos, ya que no aportaban valor significativo al análisis. Esta acción permite centrar nuestra atención en la información relevante y útil para nuestros objetivos.

Formato de Fecha:
La columna date_added debe ser convertida al formato de fecha adecuado. Esto es fundamental para realizar análisis temporales que nos ayuden a comprender las tendencias de lanzamiento a lo largo del tiempo, así como a facilitar cualquier agrupación o filtrado basado en fechas.

Duplicados:
Tras realizar una revisión exhaustiva del conjunto de datos, se ha verificado que no existen entradas duplicadas. Esto asegura la integridad y la validez del análisis, ya que cada título representa una unidad única.

Valores Nulos:
Se ha identificado la presencia de valores nulos en varias categorías. Es importante abordar estos valores nulos, ya que pueden afectar la calidad del análisis y la interpretación de los resultados. Se recomienda considerar métodos de imputación o eliminación según la situación específica.

Títulos Únicos:
El conjunto de datos contiene un total de 8,807 títulos únicos. Esta cifra refleja la amplia variedad de contenido disponible y nos ofrece un panorama diverso de las producciones en la plataforma.

Duración de Contenido:
En cuanto a la variable de duración, es importante notar que las películas están representadas en minutos, mientras que los programas de televisión se cuantifican en base al número de temporadas. Esta distinción es crucial para el análisis de la duración promedio y para entender la naturaleza del contenido.

Género Más Visto:
El género más prevalente en la plataforma es el de dramas, seguido de películas internacionales. Este hallazgo sugiere una preferencia del público por contenidos que abordan temas profundos y variados.

Clasificación por Edad:
En términos de clasificación de contenido, el rating más común es TV-MA, que está destinado a mayores de 17 años. Esto indica que una gran parte de la programación está orientada a una audiencia adulta, lo que puede influir en la estrategia de contenido de la plataforma.

Países de Procedencia:
El primer país de origen de los títulos en el conjunto de datos es Estados Unidos, seguido de India y el Reino Unido. Esto puede ofrecer información valiosa sobre las tendencias de producción en diferentes regiones y su impacto en el catálogo global de Netflix.

In [278]:
netflix_titles.head()
netflix_titles.drop(columns= ["show_id"], inplace= True)


In [279]:
netflix_titles

Unnamed: 0.1,Unnamed: 0,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,0,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,1,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,2,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,3,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,4,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...
...,...,...,...,...,...,...,...,...,...,...,...,...
8802,8802,Movie,Zodiac,David Fincher,"Mark Ruffalo, Jake Gyllenhaal, Robert Downey J...",United States,"November 20, 2019",2007,R,158 min,"Cult Movies, Dramas, Thrillers","A political cartoonist, a crime reporter and a..."
8803,8803,TV Show,Zombie Dumb,,,,"July 1, 2019",2018,TV-Y7,2 Seasons,"Kids' TV, Korean TV Shows, TV Comedies","While living alone in a spooky town, a young g..."
8804,8804,Movie,Zombieland,Ruben Fleischer,"Jesse Eisenberg, Woody Harrelson, Emma Stone, ...",United States,"November 1, 2019",2009,R,,"Comedies, Horror Movies",Looking to survive in a world taken over by zo...
8805,8805,Movie,Zoom,Peter Hewitt,"Tim Allen, Courteney Cox, Chevy Chase, Kate Ma...",United States,"January 11, 2020",2006,PG,,"Children & Family Movies, Comedies","Dragged from civilian life, a former superhero..."


In [280]:
netflix_titles.drop(columns= ["Unnamed: 0"], inplace= True)


In [307]:
netflix_titles

Unnamed: 0,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...
...,...,...,...,...,...,...,...,...,...,...,...
8802,Movie,Zodiac,David Fincher,"Mark Ruffalo, Jake Gyllenhaal, Robert Downey J...",United States,"November 20, 2019",2007,R,158 min,"Cult Movies, Dramas, Thrillers","A political cartoonist, a crime reporter and a..."
8803,TV Show,Zombie Dumb,,,,"July 1, 2019",2018,TV-Y7,2 Seasons,"Kids' TV, Korean TV Shows, TV Comedies","While living alone in a spooky town, a young g..."
8804,Movie,Zombieland,Ruben Fleischer,"Jesse Eisenberg, Woody Harrelson, Emma Stone, ...",United States,"November 1, 2019",2009,R,,"Comedies, Horror Movies",Looking to survive in a world taken over by zo...
8805,Movie,Zoom,Peter Hewitt,"Tim Allen, Courteney Cox, Chevy Chase, Kate Ma...",United States,"January 11, 2020",2006,PG,,"Children & Family Movies, Comedies","Dragged from civilian life, a former superhero..."


In [281]:
netflix_titles.value_counts(['listed_in'])

listed_in                                               
Dramas, International Movies                                362
Documentaries                                               359
Stand-Up Comedy                                             334
Comedies, Dramas, International Movies                      274
Dramas, Independent Movies, International Movies            252
                                                           ... 
TV Action & Adventure, TV Comedies                            1
TV Action & Adventure, TV Comedies, TV Dramas                 1
Action & Adventure, Classic Movies, International Movies      1
Action & Adventure, Classic Movies, Sci-Fi & Fantasy          1
Action & Adventure, Comedies, Horror Movies                   1
Name: count, Length: 514, dtype: int64

In [282]:
netflix_titles.value_counts(['country'])

country            
United States          2818
India                   972
United Kingdom          419
Japan                   245
South Korea             199
                       ... 
Australia, Iraq           1
Venezuela                 1
Venezuela, Colombia       1
West Germany              1
, South Korea             1
Name: count, Length: 748, dtype: int64

In [283]:
netflix_titles.shape

(8807, 11)

In [284]:
netflix_titles.columns

Index(['type', 'title', 'director', 'cast', 'country', 'date_added',
       'release_year', 'rating', 'duration', 'listed_in', 'description'],
      dtype='object')

In [285]:
netflix_titles.dtypes

type            object
title           object
director        object
cast            object
country         object
date_added      object
release_year     int64
rating          object
duration        object
listed_in       object
description     object
dtype: object

In [286]:
netflix_titles.duplicated().sum()

np.int64(0)

In [287]:
netflix_titles.describe()

Unnamed: 0,release_year
count,8807.0
mean,2014.180198
std,8.819312
min,1925.0
25%,2013.0
50%,2017.0
75%,2019.0
max,2021.0


In [288]:
netflix_titles.describe(include="O")

Unnamed: 0,type,title,director,cast,country,date_added,rating,duration,listed_in,description
count,8807,8807,6173,7982,7976,8797,8803,3994,8807,8807
unique,2,8807,4528,7692,748,1767,17,185,514,8775
top,Movie,Zubaan,Rajiv Chilaka,David Attenborough,United States,"January 1, 2020",TV-MA,2 Seasons,"Dramas, International Movies","Paranormal activity at a lush, abandoned prope..."
freq,6131,1,19,19,2818,109,3207,425,362,4


In [289]:
for columns in netflix_titles.select_dtypes('object').columns: ### me da las categorias de cada columna por su tipo
    print(columns)
    print(netflix_titles[columns].value_counts()) ### normalize me da los porcentajes y trae los nulos
    print

type
type
Movie      6131
TV Show    2676
Name: count, dtype: int64
title
title
Zubaan                                 1
Dick Johnson Is Dead                   1
Blood & Water                          1
Ganglands                              1
Jailbirds New Orleans                  1
                                      ..
Bangkok Breaking                       1
Vendetta: Truth, Lies and The Mafia    1
The Starling                           1
The Great British Baking Show          1
Sankofa                                1
Name: count, Length: 8807, dtype: int64
director
director
Rajiv Chilaka              19
Raúl Campos, Jan Suter     18
Suhas Kadav                16
Marcus Raboy               16
Jay Karas                  14
                           ..
James Brown                 1
Ivona Juka                  1
Mu Chu                      1
Chandra Prakash Dwivedi     1
Majid Al Ansari             1
Name: count, Length: 4528, dtype: int64
cast
cast
David Attenborough             

In [290]:
### tengo null

### para saber agrupar debo buscar como se hace 
np.round(netflix_titles.notnull().sum())

type            8807
title           8807
director        6173
cast            7982
country         7976
date_added      8797
release_year    8807
rating          8803
duration        3994
listed_in       8807
description     8807
dtype: int64

In [291]:
### no existen títulos duplicados
netflix_titles.duplicated(subset=["title"]).sum()

np.int64(0)

In [292]:
### el % de datos que tengo en cada categoría que no son nulos

np.round(netflix_titles.notnull().sum() / netflix_titles.shape[0] * 100)

type            100.0
title           100.0
director         70.0
cast             91.0
country          91.0
date_added      100.0
release_year    100.0
rating          100.0
duration         45.0
listed_in       100.0
description     100.0
dtype: float64

In [293]:
netflix_titles['duration'].value_counts()

duration
2 Seasons    425
90 min       152
98 min       120
104 min      104
107 min       98
            ... 
228 min        1
18 min         1
205 min        1
201 min        1
191 min        1
Name: count, Length: 185, dtype: int64

In [294]:
netflix_titles.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8807 entries, 0 to 8806
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   type          8807 non-null   object
 1   title         8807 non-null   object
 2   director      6173 non-null   object
 3   cast          7982 non-null   object
 4   country       7976 non-null   object
 5   date_added    8797 non-null   object
 6   release_year  8807 non-null   int64 
 7   rating        8803 non-null   object
 8   duration      3994 non-null   object
 9   listed_in     8807 non-null   object
 10  description   8807 non-null   object
dtypes: int64(1), object(10)
memory usage: 757.0+ KB


In [295]:
netflix_mergeo = netflix_original.merge(netflix_titles, left_on= "Title", right_on= 'title', how= 'inner')

* Hemos decidido esta forma para poder 

Porque de esta forma hacemos un dataframe que contenga todo pero que a la vez muestre los datos en cada columna referente a cada película

Rango de Años de Lanzamiento:
Se ha observado un cambio significativo en el catálogo de contenido de Netflix, donde la película más antigua data de 2014 y la más reciente del 2021. Este rango de años indica un crecimiento en la producción de contenido original a lo largo del tiempo, reflejando la evolución de la plataforma.

Duración Promedio (Run Time):
La duración media de los títulos se mantiene en 94.67 minutos, con un máximo de 209 minutos y un mínimo de 4 minutos. Esta variedad en la duración es comprensible, dado que el catálogo incluye 132 documentales, que tienden a tener formatos de duración variados. La presencia de documentales puede influir en la media de duración, dado que este tipo de contenido suele tener rangos más amplios.

Idiomas Predominantes:
Los idiomas más representados en el conjunto de datos siguen siendo el inglés y el hindi. Esta tendencia puede señalar la estrategia de contenido de Netflix, que se enfoca en atraer audiencias de habla inglesa y hindi, así como la importancia de estos mercados para la plataforma.

Promedio de Año de Lanzamiento:
El año promedio de lanzamiento de los títulos en el catálogo es 2018, con una antigüedad mínima de 2014 y una máxima de 2021. Este promedio sugiere que la mayor parte del contenido se ha producido en un periodo relativamente reciente, lo que indica un enfoque en la actualización constante del catálogo.

Directores con Más Títulos:
McG se destaca como el director con más películas en el conjunto de datos, acumulando un total de 3 títulos. Este hallazgo puede indicar una asociación exitosa entre el director y Netflix, lo que podría influir en futuras producciones y colaboraciones.

Género Dominante:
El género con mayor presencia en el catálogo es el de documentales. Este enfoque en documentales podría reflejar una estrategia de contenido que busca educar y entretener a la audiencia, abordando temas de interés social y cultural.

Países de Procedencia:
Estados Unidos continúa siendo el país con mayor presencia en el conjunto de datos. Esta predominancia puede estar relacionada con la localización de la sede de Netflix y su enfoque en la producción de contenido original en inglés.

In [296]:
netflix_mergeo.head()

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,Enter the Anime,Documentary,"August 5, 2019",58,2.5,English/Japanese,Movie,Enter the Anime,Alex Burunova,"Kozo Morishita, Yoko Takahashi, Shinji Aramaki...","United States, Japan","August 5, 2019",2019,TV-MA,59 min,"Documentaries, International Movies",What is anime? Through deep-dives with notable...
1,Dark Forces,Thriller,"August 21, 2020",81,2.6,Spanish,Movie,Dark Forces,Bernardo Arellano,"Tenoch Huerta, Eréndira Ibarra, Dale Carley, A...",Mexico,"August 21, 2020",2020,TV-MA,81 min,"Horror Movies, Independent Movies, Internation...","In search of his sister, a renegade criminal s..."
2,The App,Science fiction/Drama,"December 26, 2019",79,2.6,Italian,Movie,The App,Elisa Fuksas,"Vincenzo Crea, Jessica Cressy, Greta Scarano, ...",Italy,"December 26, 2019",2019,TV-MA,79 min,"Dramas, Independent Movies, International Movies","While in Rome to shoot his first movie, actor ..."
3,The Open House,Horror thriller,"January 19, 2018",94,3.2,English,Movie,The Open House,"Matt Angel, Suzanne Coote","Dylan Minnette, Piercey Dalton, Patricia Bethu...","Canada, United States","January 19, 2018",2018,TV-MA,,"Horror Movies, Thrillers","Following a tragedy, a mother and her teen son..."
4,Kaali Khuhi,Mystery,"October 30, 2020",90,3.4,Hindi,Movie,Kaali Khuhi,Terrie Samundra,"Shabana Azmi, Leela Samson, Sanjeeda Sheikh, S...",India,"October 30, 2020",2020,TV-14,,"Horror Movies, International Movies",When a restless spirit curses a village that h...


In [297]:
netflix_mergeo.value_counts(['release_year'])


release_year
2020            169
2019            103
2018             87
2017             56
2021             56
2016             30
2015             11
2014              1
Name: count, dtype: int64

In [298]:
for columns in netflix_mergeo.select_dtypes('object').columns: ### me da las categorias de cada columna por su tipo
    print(columns)
    print(netflix_mergeo[columns].value_counts()) ### normalize me da los porcentajes y trae los nulos
    print

Title
Title
David Attenborough: A Life on Our Planet    1
The Irishman                                1
If Anything Happens I Love You              1
Crip Camp: A Disability Revolution          1
Beasts of No Nation                         1
                                           ..
Drive                                       1
Kaali Khuhi                                 1
The Open House                              1
The App                                     1
Dark Forces                                 1
Name: count, Length: 513, dtype: int64
Genre
Genre
Documentary                             132
Drama                                    73
Comedy                                   42
Romantic comedy                          35
Thriller                                 33
                                       ... 
Action-adventure                          1
Concert Film                              1
Animation / Science Fiction               1
Anthology/Dark comedy              

In [299]:
netflix_mergeo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 513 entries, 0 to 512
Data columns (total 17 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Title         513 non-null    object 
 1   Genre         513 non-null    object 
 2   Premiere      513 non-null    object 
 3   Runtime       513 non-null    int64  
 4   IMDB Score    513 non-null    float64
 5   Language      513 non-null    object 
 6   type          513 non-null    object 
 7   title         513 non-null    object 
 8   director      491 non-null    object 
 9   cast          422 non-null    object 
 10  country       499 non-null    object 
 11  date_added    513 non-null    object 
 12  release_year  513 non-null    int64  
 13  rating        513 non-null    object 
 14  duration      276 non-null    object 
 15  listed_in     513 non-null    object 
 16  description   513 non-null    object 
dtypes: float64(1), int64(2), object(14)
memory usage: 68.3+ KB


In [300]:
round(netflix_mergeo.describe(),2)

Unnamed: 0,Runtime,IMDB Score,release_year
count,513.0,513.0,513.0
mean,94.67,6.21,2018.89
std,26.65,0.97,1.51
min,4.0,2.5,2014.0
25%,87.0,5.6,2018.0
50%,97.0,6.3,2019.0
75%,108.0,6.9,2020.0
max,209.0,9.0,2021.0


In [301]:
netflix_mergeo.describe(include = "O")

Unnamed: 0,Title,Genre,Premiere,Language,type,title,director,cast,country,date_added,rating,duration,listed_in,description
count,513,513,513,513,513,513,491,422,499,513,513,276,513,513
unique,513,106,350,37,1,513,462,421,81,354,10,86,103,513
top,David Attenborough: A Life on Our Planet,Documentary,"October 18, 2019",English,Movie,David Attenborough: A Life on Our Planet,McG,Shawn Mendes,United States,"October 18, 2019",TV-MA,98 min,Documentaries,"A broadcaster recounts his life, and the evolu..."
freq,1,132,5,352,513,1,3,2,274,5,254,20,69,1


In [302]:
netflix_mergeo.loc[0,'Title']

'Enter the Anime'

In [303]:
mask = netflix_mergeo["type"] == "Movie"

In [304]:
netflix_mergeo[mask]

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,Enter the Anime,Documentary,"August 5, 2019",58,2.5,English/Japanese,Movie,Enter the Anime,Alex Burunova,"Kozo Morishita, Yoko Takahashi, Shinji Aramaki...","United States, Japan","August 5, 2019",2019,TV-MA,59 min,"Documentaries, International Movies",What is anime? Through deep-dives with notable...
1,Dark Forces,Thriller,"August 21, 2020",81,2.6,Spanish,Movie,Dark Forces,Bernardo Arellano,"Tenoch Huerta, Eréndira Ibarra, Dale Carley, A...",Mexico,"August 21, 2020",2020,TV-MA,81 min,"Horror Movies, Independent Movies, Internation...","In search of his sister, a renegade criminal s..."
2,The App,Science fiction/Drama,"December 26, 2019",79,2.6,Italian,Movie,The App,Elisa Fuksas,"Vincenzo Crea, Jessica Cressy, Greta Scarano, ...",Italy,"December 26, 2019",2019,TV-MA,79 min,"Dramas, Independent Movies, International Movies","While in Rome to shoot his first movie, actor ..."
3,The Open House,Horror thriller,"January 19, 2018",94,3.2,English,Movie,The Open House,"Matt Angel, Suzanne Coote","Dylan Minnette, Piercey Dalton, Patricia Bethu...","Canada, United States","January 19, 2018",2018,TV-MA,,"Horror Movies, Thrillers","Following a tragedy, a mother and her teen son..."
4,Kaali Khuhi,Mystery,"October 30, 2020",90,3.4,Hindi,Movie,Kaali Khuhi,Terrie Samundra,"Shabana Azmi, Leela Samson, Sanjeeda Sheikh, S...",India,"October 30, 2020",2020,TV-14,,"Horror Movies, International Movies",When a restless spirit curses a village that h...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
508,Cuba and the Cameraman,Documentary,"November 24, 2017",114,8.3,English,Movie,Cuba and the Cameraman,Jon Alpert,,United States,"November 24, 2017",2017,TV-14,,Documentaries,Emmy-winning filmmaker Jon Alpert chronicles t...
509,Dancing with the Birds,Documentary,"October 23, 2019",51,8.3,English,Movie,Dancing with the Birds,Huw Cordey,Stephen Fry,United States,"October 23, 2019",2019,TV-PG,52 min,Documentaries,From ruffling their majestic feathers to naili...
510,Winter on Fire: Ukraine's Fight for Freedom,Documentary,"October 9, 2015",91,8.4,English/Ukranian/Russian,Movie,Winter on Fire: Ukraine's Fight for Freedom,Evgeny Afineevsky,,"United Kingdom, Ukraine, United States","October 9, 2015",2015,TV-MA,,"Documentaries, International Movies","Over 93 days in Ukraine, what started as peace..."
511,Springsteen on Broadway,One-man show,"December 16, 2018",153,8.5,English,Movie,Springsteen on Broadway,Thom Zimny,Bruce Springsteen,United States,"December 16, 2018",2018,TV-MA,153 min,Music & Musicals,Bruce Springsteen shares personal stories from...


In [305]:
mask1 = netflix_mergeo['type'] == 'TV Show'
netflix_mergeo.loc[mask1,['title', 'duration']]

Unnamed: 0,title,duration


In [312]:
mask3 = netflix_mergeo['release_year'] == 2018
netflix_mergeo.loc[mask3, ['title', 'listed_in']]

Unnamed: 0,title,listed_in
3,The Open House,"Horror Movies, Thrillers"
8,Paradox,"Dramas, Independent Movies, Music & Musicals"
27,5 Star Christmas,"Comedies, International Movies"
52,How It Ends,"Action & Adventure, Sci-Fi & Fantasy"
59,Dude,"Comedies, Dramas, Independent Movies"
...,...,...
478,City of Joy,Documentaries
482,Reversing Roe,Documentaries
486,Quincy,"Documentaries, Music & Musicals"
488,The Bleeding Edge,Documentaries


In [315]:
mask2 = netflix_mergeo['country'] == "United States"
netflix_mergeo[mask2]


Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
7,The Last Days of American Crime,Heist film/Thriller,"June 5, 2020",149,3.7,English,Movie,The Last Days of American Crime,Olivier Megaton,"Edgar Ramírez, Michael Pitt, Anna Brewster, Pa...",United States,"June 5, 2020",2020,TV-MA,149 min,"Action & Adventure, Dramas, Independent Movies",A bank robber joins a plot to commit one final...
8,Paradox,Musical/Western/Fantasy,"March 23, 2018",73,3.9,English,Movie,Paradox,Daryl Hannah,"Neil Young, Lukas Nelson, Micah Nelson, Corey ...",United States,"March 23, 2018",2018,TV-MA,74 min,"Dramas, Independent Movies, Music & Musicals",Neil Young and his band of outlaws sow seeds o...
13,Mercy,Thriller,"November 22, 2016",90,4.2,English,Movie,Mercy,Chris Sparling,"James Wolk, Caitlin Fitzgerald, Tom Lipinski, ...",United States,"November 22, 2016",2016,TV-MA,,"Dramas, Thrillers",Two brothers clash with their half-siblings wh...
16,The Last Thing He Wanted,Political thriller,"February 21, 2020",115,4.3,English,Movie,The Last Thing He Wanted,Dee Rees,"Anne Hathaway, Ben Affleck, Willem Dafoe, Toby...",United States,"February 21, 2020",2020,R,116 min,"Dramas, Thrillers",A hard-hitting reporter becomes entangled in t...
18,Death Note,Horror thriller,"August 25, 2017",100,4.4,English,Movie,Death Note,Adam Wingard,"Willem Dafoe, Nat Wolff, Lakeith Stanfield, Ma...",United States,"August 25, 2017",2017,TV-MA,,"Horror Movies, Thrillers",Light Turner finds a supernatural notebook and...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
502,Chasing Coral,Documentary,"July 14, 2017",89,8.1,English,Movie,Chasing Coral,Jeff Orlowski,,United States,"July 14, 2017",2017,TV-PG,,Documentaries,"Divers, scientists and photographers around th..."
506,Seaspiracy,Documentary,"March 24, 2021",89,8.2,English,Movie,Seaspiracy,Ali Tabrizi,,United States,"March 24, 2021",2021,TV-14,90 min,Documentaries,"Passionate about ocean life, a filmmaker sets ..."
508,Cuba and the Cameraman,Documentary,"November 24, 2017",114,8.3,English,Movie,Cuba and the Cameraman,Jon Alpert,,United States,"November 24, 2017",2017,TV-14,,Documentaries,Emmy-winning filmmaker Jon Alpert chronicles t...
509,Dancing with the Birds,Documentary,"October 23, 2019",51,8.3,English,Movie,Dancing with the Birds,Huw Cordey,Stephen Fry,United States,"October 23, 2019",2019,TV-PG,52 min,Documentaries,From ruffling their majestic feathers to naili...


In [309]:
mask1 = netflix_mergeo['type'] == 'Movie'
netflix_mergeo.loc[mask1,['title', 'director']]

Unnamed: 0,title,director
0,Enter the Anime,Alex Burunova
1,Dark Forces,Bernardo Arellano
2,The App,Elisa Fuksas
3,The Open House,"Matt Angel, Suzanne Coote"
4,Kaali Khuhi,Terrie Samundra
...,...,...
508,Cuba and the Cameraman,Jon Alpert
509,Dancing with the Birds,Huw Cordey
510,Winter on Fire: Ukraine's Fight for Freedom,Evgeny Afineevsky
511,Springsteen on Broadway,Thom Zimny


In [310]:
mask3 = netflix_mergeo['release_year'] == 2018
netflix_mergeo.loc[mask3, ['title', 'listed_in']]

Unnamed: 0,title,listed_in
3,The Open House,"Horror Movies, Thrillers"
8,Paradox,"Dramas, Independent Movies, Music & Musicals"
27,5 Star Christmas,"Comedies, International Movies"
52,How It Ends,"Action & Adventure, Sci-Fi & Fantasy"
59,Dude,"Comedies, Dramas, Independent Movies"
...,...,...
478,City of Joy,Documentaries
482,Reversing Roe,Documentaries
486,Quincy,"Documentaries, Music & Musicals"
488,The Bleeding Edge,Documentaries


In [316]:
mask_director_vacio = netflix_mergeo['director'].isnull()
netflix_mergeo.loc[mask_director_vacio, ['title']]

Unnamed: 0,title
6,Leyla Everlasting
62,American Factory: A Conversation with the Obamas
64,Father of the Year
188,The Minimalists: Less Is Now
201,The Princess Switch
214,Otherhood
218,Stuck Apart
256,Polar
276,John Was Trying to Contact Aliens
278,Murder to Mercy: The Cyntoia Brown Story


A partir de ahora, usando iloc:

In [323]:
netflix_mergeo.iloc[:5,[8,9,11]]

Unnamed: 0,director,cast,date_added
0,Alex Burunova,"Kozo Morishita, Yoko Takahashi, Shinji Aramaki...","August 5, 2019"
1,Bernardo Arellano,"Tenoch Huerta, Eréndira Ibarra, Dale Carley, A...","August 21, 2020"
2,Elisa Fuksas,"Vincenzo Crea, Jessica Cressy, Greta Scarano, ...","December 26, 2019"
3,"Matt Angel, Suzanne Coote","Dylan Minnette, Piercey Dalton, Patricia Bethu...","January 19, 2018"
4,Terrie Samundra,"Shabana Azmi, Leela Samson, Sanjeeda Sheikh, S...","October 30, 2020"


In [318]:
netflix_mergeo.iloc[-5:,[0,-1]]

Unnamed: 0,Title,description
508,Cuba and the Cameraman,Emmy-winning filmmaker Jon Alpert chronicles t...
509,Dancing with the Birds,From ruffling their majestic feathers to naili...
510,Winter on Fire: Ukraine's Fight for Freedom,"Over 93 days in Ukraine, what started as peace..."
511,Springsteen on Broadway,Bruce Springsteen shares personal stories from...
512,David Attenborough: A Life on Our Planet,"A broadcaster recounts his life, and the evolu..."


In [319]:
netflix_mergeo.iloc[0:10,:5]

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score
0,Enter the Anime,Documentary,"August 5, 2019",58,2.5
1,Dark Forces,Thriller,"August 21, 2020",81,2.6
2,The App,Science fiction/Drama,"December 26, 2019",79,2.6
3,The Open House,Horror thriller,"January 19, 2018",94,3.2
4,Kaali Khuhi,Mystery,"October 30, 2020",90,3.4
5,Drive,Action,"November 1, 2019",147,3.5
6,Leyla Everlasting,Comedy,"December 4, 2020",112,3.7
7,The Last Days of American Crime,Heist film/Thriller,"June 5, 2020",149,3.7
8,Paradox,Musical/Western/Fantasy,"March 23, 2018",73,3.9
9,Sardar Ka Grandson,Comedy,"May 18, 2021",139,4.1


In [320]:
netflix_mergeo.iloc[-8:,[8,9,11]]

Unnamed: 0,director,cast,date_added
505,Sergio Pablos,"Jason Schwartzman, J.K. Simmons, Rashida Jones...","November 15, 2019"
506,Ali Tabrizi,,"March 24, 2021"
507,Carlos Pérez Osorio,,"October 14, 2020"
508,Jon Alpert,,"November 24, 2017"
509,Huw Cordey,Stephen Fry,"October 23, 2019"
510,Evgeny Afineevsky,,"October 9, 2015"
511,Thom Zimny,Bruce Springsteen,"December 16, 2018"
512,"Alastair Fothergill, Jonnie Hughes, Keith Scholey",David Attenborough,"October 4, 2020"


In [321]:
netflix_mergeo.iloc[15:26, :5]

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score
15,Ghost Stories,Horror anthology,"January 1, 2020",144,4.3
16,The Last Thing He Wanted,Political thriller,"February 21, 2020",115,4.3
17,What Happened to Mr. Cha?,Comedy,"January 1, 2021",102,4.3
18,Death Note,Horror thriller,"August 25, 2017",100,4.4
19,Secret Obsession,Thriller,"July 18, 2019",97,4.4
20,Sextuplets,Comedy,"August 16, 2019",99,4.4
21,The Girl on the Train,Thriller,"February 26, 2021",120,4.4
22,Thunder Force,Superhero-Comedy,"April 9, 2021",105,4.4
23,Fatal Affair,Thriller,"July 16, 2020",89,4.5
24,Just Say Yes,Romantic comedy,"April 2, 2021",97,4.5


In [322]:
netflix_mergeo.iloc[20:31, [8,13,14]]

Unnamed: 0,director,rating,duration
20,Michael Tiddes,TV-14,
21,Ribhu Dasgupta,TV-MA,120 min
22,Ben Falcone,PG-13,107 min
23,Peter Sullivan,TV-14,90 min
24,"Appie Boudellah, Aram van de Rest",TV-MA,98 min
25,"Katleho Ramaphakela, Rethabile Ramaphakela",TV-MA,
26,Julien Royal,TV-MA,
27,Marco Risi,TV-14,
28,Nadia Hallgren,TV-PG,38 min
29,Osgood Perkins,TV-14,
