<div style="text-align: center;">
  <img src="https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_naranja@4x.png?raw=true" alt="esquema" />
</div>

# Laboratorio Pandas (EDA y Unión de Datos)

## Los datos

Para este laboratorio, trabajarás con los siguientes conjuntos de datos:

- **`netflix_originals.csv`**: Contiene información sobre producciones originales de Netflix. Las columnas que nos encontraremos en este conjunto de datos son: 

   - `Title`: Contiene el nombre del título de la producción original de Netflix.

   - `Genre`: Especifica el género o combinación de géneros de la producción.

   - `Premiere`: Indica la fecha de estreno de la producción en Netflix.

   - `Runtime`: Contiene la duración de la producción en minutos.

   - `IMDB Score`: Representa la calificación promedio que la producción ha recibido en la plataforma IMDB.

   - `Language`: Especifica el idioma principal o los idiomas en los que se presenta la producción.

- **`netflix_titles.csv`**: Contiene información sobre una variedad de títulos disponibles en la plataforma Netflix, incluyendo tanto películas como series de televisión. Las columnas que nos encontraremos en este conjunto de datos son:

   - `show_id`: Identificador único para cada título en el dataset.

   - `type`: Especifica el tipo de contenido, ya sea "Movie" (película) o "TV Show" (serie de televisión).

   - `title`: Contiene el nombre del título de la producción.

   - `director`: Muestra el nombre del director del título. Puede estar vacío en algunos casos.

   - `cast`: Lista de actores y actrices que participaron en el título. También puede estar vacío en algunos casos.

   - `country`: País o países donde se produjo el título. Esta columna también puede tener valores faltantes.

   - `date_added`: Fecha en la que el título fue añadido al catálogo de Netflix.

   - `release_year`: Año en que el título fue lanzado o producido.

   - `rating`: Clasificación del contenido en términos de audiencia (por ejemplo, PG-13, TV-MA).

   - `duration`: Duración del título. Para películas, se expresa en minutos (e.g., "90 min") y para series en temporadas (e.g., "2 Seasons").

   - `listed_in`: Categorías o géneros bajo los cuales el título está clasificado (por ejemplo, "Documentaries", "TV Dramas").

   - `description`: Breve sinopsis o descripción del contenido del título.

A lo largo de los laboratorios de Pandas, trabajarás con estos conjuntos de datos (o con los derivados del Laboratorio), algunas de las actividades que realizaremos son:

- Exploración de datos y análisis exploratorio (EDA) para familiarizarse con los conjuntos de datos.

- Realización de uniones entre conjuntos de datos, aplicando diferentes técnicas de *merging* y analizando la relevancia de cada método.

- Uso de funciones de selección y filtrado (`loc`, `iloc`) para extraer información clave.

- Desarrollo de análisis descriptivos y visualización de patrones para comprender mejor las decisiones estratégicas de la plataforma.

----

## Objetivo General de la Serie de Laboratorios



1. **Unión de `netflix_titles.csv` con `netflix_originals.csv`:**

   - **Análisis de contenido original:**  Identificarás los títulos que son producciones originales de Netflix y los compararás con los títulos adquiridos. Este análisis te permitirá:

     - Comparar la diversidad de géneros entre los títulos originales y no originales.

     - Evaluar si ciertos géneros o tipos de contenido (como documentales o series) son más frecuentes en las producciones originales.

     - Investigar si la producción original se concentra en determinados países o idiomas.


   - **Evaluación de contenido:** En esta etapa, explorarás si las producciones originales de Netflix tienden a recibir mejores o peores evaluaciones en comparación con el contenido adquirido. Algunas preguntas que se buscarán responder incluyen:

     - ¿Los títulos originales tienen una calificación promedio superior en plataformas como IMDB?

     - ¿Son las producciones originales más consistentes en términos de calidad percibida?

     - ¿Existen diferencias en la popularidad de los títulos originales según su género o país de origen?


   - **Identificación de tendencias:**  Por último, este análisis te permitirá explorar cómo ha evolucionado la estrategia de contenido de Netflix a lo largo del tiempo. Algunos puntos clave a investigar serán:

     - ¿Cómo ha crecido la producción original en comparación con la adquisición de contenido?

     - ¿Qué géneros o tipos de contenido han recibido mayor inversión en los últimos años?
     
     - ¿Existen patrones en los países o idiomas de las producciones originales, especialmente en relación con la expansión global de Netflix?


----


## Ejercicio: Análisis y Enriquecimiento del Catálogo de Netflix

### Parte 1: Análisis Exploratorio de Datos (EDA)

1. **Carga de los datos:**

   - Deberás cargar los dos conjuntos de datos que te hemos proporcionado para realizar este Laboratorio:

     - `netflix_originals.csv`

     - `netflix_titles.csv`

   Deberás revisar la estructura de cada conjunto de datos utilizando los métodos aprendidos durante la lección.

2. **Análisis de columnas y consistencia:**

   - Deberás hacer un análisis exploratorio de cada uno de los conjuntos de datos. Será obligatorio que incluyas las conclusiones generales obtenidas de cada uno de los análisis exploratorios en el Jupyter Notebook de tus soluciones.

   - Explorar qué columnas contiene cada conjunto de datos y cuáles son sus tipos de datos. Identificar si hay valores nulos o duplicados.

   - Algunas preguntas que nos podemos plantear en esta fase son (recuerda que esto es solo un ejemplo, y que podemos explorar todo lo que queramos/necesitemos para entender lo mejor posible los conjuntos de datos):

      - ¿Cuáles son los tipos de datos de cada columna? Nos puede ayudar a detectar si algún tipo de dato está incorrectamente asignado, como fechas almacenadas como cadenas de texto.

      - ¿Existen valores nulos? ¿En qué columnas están? Este paso es crucial para decidir si deben ser eliminados, rellenados o ignorados.

      - ¿Cuántos títulos únicos hay en cada conjunto de datos? Nos puede permitir verificar si existen títulos duplicados que puedan distorsionar el análisis.

      - ¿Qué géneros tenemos en el conjunto de datos? Esto nos puede ayudar a identificar los géneros más populares o incluso a identificar una posible limpieza de dicha columna para poder extraer conclusiones más claras en nuestro análisis.

### Parte 2: Unión de Datos

1. **Realización de la unión:**

   - Deberás realizar la unión que consideres más apropiada entre `netflix_titles.csv` y `netflix_originals.csv`. Además, deberás justificar el tipo de unión que has realizado.

   - Esto nos ayudará a contestar preguntas más adelente del tipo:

     - ¿Cuántos títulos en `netflix_titles.csv` son producciones originales de Netflix?

     - ¿Hay diferencias significativas en la puntuación de IMDB entre títulos originales y no originales?

### Parte 3: Uso de `loc` e `iloc`

Usando el DataFrame creado en la Parte 2: 

1. **Filtrado de datos con `loc`:**

   - Selecciona todas las filas donde el tipo de contenido sea “Movie”.

   - Muestra solo los títulos (title) y la duración (duration) de todos los contenidos que sean de tipo “TV Show”.

   - Selecciona todas las filas donde el país sea “United States”.

   - Muestra todas las películas (type = “Movie”) y selecciona las columnas title y director.

   - Selecciona los títulos (title) y géneros (listed_in) de todas las producciones lanzadas en 2018.

   - Selecciona las filas donde la columna director esté vacía y muestra solo los títulos (title).

2. **Acceso a datos específicos con `iloc`:**

   - Selecciona las primeras 5 filas del conjunto de datos y muestra solo las columnas title, director y country.

   - Muestra las últimas 5 filas del conjunto de datos y selecciona las columnas title y description.

   - Selecciona las primeras 10 filas del dataset y muestra las columnas desde la segunda hasta la quinta (incluidas). 

   - Muestra las últimas 7 filas del dataset y selecciona las columnas title, director, y country usando índices posicionales.

   - Selecciona las filas desde la 15 hasta la 25 (incluidas) y muestra las primeras 4 columnas.

   - Muestra las filas 20 a 30 y solo las columnas title, release_year, y rating usando índices posicionales.


**NOTA IMPORTANTE**: Antes de terminar el lab, guarda el conjunto de datos creado en la fase de unión para trabajar con el en las siguientes lecciones. 

In [136]:
### Empezamos importando todo

import pandas as pd
import numpy as np

In [137]:
### Hacemos la carga de los documentos
netflix_original = pd.read_csv('datos/netflix_originals.csv')
netflix_titles = pd.read_csv('datos/netflix_titles.csv') 

* Empezamos a analizar el dataframe de nelflix_original.
- Tenemos un formato de matriz de (513,6)
- Pude ver que las fechas están en un formato de object cuando debería estar en formato fecha
- No hay duplicados en nuestra lista de contenido original
- Tenemos una media de 94.67 minutos de 'RunTime'
- Tenemos una media de 'IMDB Score' de 6.21, con un mínimo de 2.5 y un máximo de 9
- Tengo 106 tipos de géneros únicos
- En nuestro top 3 de géneros tenemos documentales, drama y comedia. Entre el primero y el segundo hay una diferencia de más de 50 
- El lenguaje más común es el inglés, seguido del Hindi.

+ No existen valores nulos
+ No exiten duplicados

In [138]:
### Visualizamos los datos para ver lo que tenemos
netflix_original.head()

Unnamed: 0.1,Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language
0,0,Enter the Anime,Documentary,"August 5, 2019",58,2.5,English/Japanese
1,1,Dark Forces,Thriller,"August 21, 2020",81,2.6,Spanish
2,2,The App,Science fiction/Drama,"December 26, 2019",79,2.6,Italian
3,3,The Open House,Horror thriller,"January 19, 2018",94,3.2,English
4,4,Kaali Khuhi,Mystery,"October 30, 2020",90,3.4,Hindi


In [139]:
### Quitamos la primera columna que no aporta nada, y guardamos el cambio
netflix_original.drop(columns= ["Unnamed: 0"], inplace= True)

In [140]:
netflix_original.head() ### imprimo para ver el nuevo contenido

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language
0,Enter the Anime,Documentary,"August 5, 2019",58,2.5,English/Japanese
1,Dark Forces,Thriller,"August 21, 2020",81,2.6,Spanish
2,The App,Science fiction/Drama,"December 26, 2019",79,2.6,Italian
3,The Open House,Horror thriller,"January 19, 2018",94,3.2,English
4,Kaali Khuhi,Mystery,"October 30, 2020",90,3.4,Hindi


In [141]:
netflix_original.shape ### para saber la ordenación del data frame: 513 filas y 6 columnas

(513, 6)

In [142]:
netflix_original.dtypes ### de esta forma puedo saber el tipo de dato por columna

Title          object
Genre          object
Premiere       object
Runtime         int64
IMDB Score    float64
Language       object
dtype: object

In [143]:
### de esta forma confirmo lo anterior sobre la Premiere y su tipo de dato
netflix_original.select_dtypes('object').columns

Index(['Title', 'Genre', 'Premiere', 'Language'], dtype='object')

In [144]:
netflix_original.duplicated().sum() ### de esta forma puedo ver que no tengo valores duplicados

np.int64(0)

In [145]:
netflix_original.value_counts(['Genre'])

Genre           
Documentary         132
Drama                73
Comedy               42
Romantic comedy      35
Thriller             33
                   ... 
Superhero-Comedy      1
Stop Motion           1
Urban fantasy         1
War-Comedy            1
Zombie/Heist          1
Name: count, Length: 106, dtype: int64

In [146]:
netflix_original.value_counts(['Language'])

Language                  
English                       352
Hindi                          28
Spanish                        26
French                         18
Italian                        14
Portuguese                      9
Indonesian                      9
English/Spanish                 5
Japanese                        5
Korean                          5
Turkish                         4
German                          4
Polish                          3
Marathi                         3
English/Japanese                2
Filipino                        2
Dutch                           2
Thai                            2
English/Hindi                   2
Bengali                         1
English/Akan                    1
English/Arabic                  1
English/Russian                 1
English/Ukranian/Russian        1
English/Korean                  1
English/Mandarin                1
English/Taiwanese/Mandarin      1
English/Swedish                 1
Khmer/English/French 

In [147]:
### Para verificar la cantidad de no nulos

np.round(netflix_original.notnull().sum())



Title         513
Genre         513
Premiere      513
Runtime       513
IMDB Score    513
Language      513
dtype: int64

In [148]:
### De esta forma puedo saber la media del 'Runtime' y del 'IMDB Score'

round(netflix_original.describe().T, 2)



Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Runtime,513.0,94.67,26.65,4.0,87.0,97.0,108.0,209.0
IMDB Score,513.0,6.21,0.97,2.5,5.6,6.3,6.9,9.0


In [149]:
### de esta forma sé que tengo 106 géneros únicos
netflix_original.describe(include="O")

Unnamed: 0,Title,Genre,Premiere,Language
count,513,513,513,513
unique,513,106,350,37
top,David Attenborough: A Life on Our Planet,Documentary,"October 18, 2019",English
freq,1,132,5,352


In [150]:
netflix_original.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 513 entries, 0 to 512
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Title       513 non-null    object 
 1   Genre       513 non-null    object 
 2   Premiere    513 non-null    object 
 3   Runtime     513 non-null    int64  
 4   IMDB Score  513 non-null    float64
 5   Language    513 non-null    object 
dtypes: float64(1), int64(1), object(4)
memory usage: 24.2+ KB


In [151]:
netflix_original['Title'].unique()

array(['Enter the Anime', 'Dark Forces', 'The App', 'The Open House',
       'Kaali Khuhi', 'Drive', 'Leyla Everlasting',
       'The Last Days of American Crime', 'Paradox', 'Sardar Ka Grandson',
       'The Call', 'Whipped', 'All Because of You', 'Mercy',
       'After the Raid', 'Ghost Stories', 'The Last Thing He Wanted',
       'What Happened to Mr. Cha?', 'Death Note', 'Secret Obsession',
       'Sextuplets', 'The Girl on the Train', 'Thunder Force',
       'Fatal Affair', 'Just Say Yes', 'Seriously Single',
       'The Misadventures of Hedi and Cokeman', '5 Star Christmas',
       'After Maria', 'I Am the Pretty Thing That Lives in the House',
       'Paris Is Us', 'Rattlesnake', 'The Players', 'We Are One',
       'Finding Agnes', 'IO', 'Sentinelle', 'Sol Levante', 'The Binding',
       'We Can Be Heroes', 'Christmas Crossfire', 'Coin Heist',
       'Mrs. Serial Killer', 'Nobody Sleeps in the Woods Tonight',
       'Take the 10', 'The Main Event', 'The Ridiculous 6',
       'Ea

In [152]:
netflix_original['Language'].unique()

array(['English/Japanese', 'Spanish', 'Italian', 'English', 'Hindi',
       'Turkish', 'Korean', 'Indonesian', 'Malay', 'Dutch', 'French',
       'English/Spanish', 'Filipino', 'German', 'Polish', 'Portuguese',
       'Norwegian', 'Marathi', 'Thai', 'Swedish', 'Japanese',
       'Spanish/Basque', 'Spanish/Catalan', 'English/Swedish',
       'English/Taiwanese/Mandarin', 'Thia/English', 'Bengali',
       'Khmer/English/French', 'English/Hindi', 'Tamil',
       'Spanish/English', 'English/Korean', 'English/Arabic',
       'English/Mandarin', 'English/Russian', 'English/Akan',
       'English/Ukranian/Russian'], dtype=object)

* Segundo EDA 

Análisis de segundo paquete de datos:
- Hemos retirado la primera columna que no sumaba
- Tengo en observación que nos queda una columna llamada show_id que duplica el índice con una diferencia de +1
- La fecha de (date_added) debería estar en formato de fecha
- No tengo duplicados
- Tengo **nulos** en varias categorías
- Tengo 8807 titulos unicos
- El tipo de dato en duración puede que tenga muchas entradas pero contiene muchas en distintos formatos
- El primer género más visto es Dramas, películas internacionales
- El primer país de procedencia es Estados Unidos, seguido de India

In [153]:
netflix_titles

Unnamed: 0.1,Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...
...,...,...,...,...,...,...,...,...,...,...,...,...,...
8802,8802,s8803,Movie,Zodiac,David Fincher,"Mark Ruffalo, Jake Gyllenhaal, Robert Downey J...",United States,"November 20, 2019",2007,R,158 min,"Cult Movies, Dramas, Thrillers","A political cartoonist, a crime reporter and a..."
8803,8803,s8804,TV Show,Zombie Dumb,,,,"July 1, 2019",2018,TV-Y7,2 Seasons,"Kids' TV, Korean TV Shows, TV Comedies","While living alone in a spooky town, a young g..."
8804,8804,s8805,Movie,Zombieland,Ruben Fleischer,"Jesse Eisenberg, Woody Harrelson, Emma Stone, ...",United States,"November 1, 2019",2009,R,,"Comedies, Horror Movies",Looking to survive in a world taken over by zo...
8805,8805,s8806,Movie,Zoom,Peter Hewitt,"Tim Allen, Courteney Cox, Chevy Chase, Kate Ma...",United States,"January 11, 2020",2006,PG,,"Children & Family Movies, Comedies","Dragged from civilian life, a former superhero..."


In [154]:
netflix_titles.drop(columns= ["Unnamed: 0"], inplace= True)

In [155]:
netflix_titles.value_counts(['listed_in'])

listed_in                                               
Dramas, International Movies                                362
Documentaries                                               359
Stand-Up Comedy                                             334
Comedies, Dramas, International Movies                      274
Dramas, Independent Movies, International Movies            252
                                                           ... 
TV Action & Adventure, TV Comedies                            1
TV Action & Adventure, TV Comedies, TV Dramas                 1
Action & Adventure, Classic Movies, International Movies      1
Action & Adventure, Classic Movies, Sci-Fi & Fantasy          1
Action & Adventure, Comedies, Horror Movies                   1
Name: count, Length: 514, dtype: int64

In [156]:
netflix_titles.value_counts(['country'])

country            
United States          2818
India                   972
United Kingdom          419
Japan                   245
South Korea             199
                       ... 
Australia, Iraq           1
Venezuela                 1
Venezuela, Colombia       1
West Germany              1
, South Korea             1
Name: count, Length: 748, dtype: int64

In [157]:
### Aquí despues de quitar la primera columna, aun nos queda una segunda columna que duplica el indice
netflix_titles 

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...
...,...,...,...,...,...,...,...,...,...,...,...,...
8802,s8803,Movie,Zodiac,David Fincher,"Mark Ruffalo, Jake Gyllenhaal, Robert Downey J...",United States,"November 20, 2019",2007,R,158 min,"Cult Movies, Dramas, Thrillers","A political cartoonist, a crime reporter and a..."
8803,s8804,TV Show,Zombie Dumb,,,,"July 1, 2019",2018,TV-Y7,2 Seasons,"Kids' TV, Korean TV Shows, TV Comedies","While living alone in a spooky town, a young g..."
8804,s8805,Movie,Zombieland,Ruben Fleischer,"Jesse Eisenberg, Woody Harrelson, Emma Stone, ...",United States,"November 1, 2019",2009,R,,"Comedies, Horror Movies",Looking to survive in a world taken over by zo...
8805,s8806,Movie,Zoom,Peter Hewitt,"Tim Allen, Courteney Cox, Chevy Chase, Kate Ma...",United States,"January 11, 2020",2006,PG,,"Children & Family Movies, Comedies","Dragged from civilian life, a former superhero..."


In [158]:
netflix_titles.shape

(8807, 12)

In [159]:
netflix_titles.columns

Index(['show_id', 'type', 'title', 'director', 'cast', 'country', 'date_added',
       'release_year', 'rating', 'duration', 'listed_in', 'description'],
      dtype='object')

In [160]:
netflix_titles.dtypes

show_id         object
type            object
title           object
director        object
cast            object
country         object
date_added      object
release_year     int64
rating          object
duration        object
listed_in       object
description     object
dtype: object

In [161]:
netflix_titles.duplicated().sum()

np.int64(0)

In [162]:
netflix_titles.describe()

Unnamed: 0,release_year
count,8807.0
mean,2014.180198
std,8.819312
min,1925.0
25%,2013.0
50%,2017.0
75%,2019.0
max,2021.0


In [163]:
netflix_titles.describe(include="O")

Unnamed: 0,show_id,type,title,director,cast,country,date_added,rating,duration,listed_in,description
count,8807,8807,8807,6173,7982,7976,8797,8803,3994,8807,8807
unique,8807,2,8807,4528,7692,748,1767,17,185,514,8775
top,s8807,Movie,Zubaan,Rajiv Chilaka,David Attenborough,United States,"January 1, 2020",TV-MA,2 Seasons,"Dramas, International Movies","Paranormal activity at a lush, abandoned prope..."
freq,1,6131,1,19,19,2818,109,3207,425,362,4


In [164]:
### tengo null

### para saber agrupar debo buscar como se hace 
np.round(netflix_titles.notnull().sum())

show_id         8807
type            8807
title           8807
director        6173
cast            7982
country         7976
date_added      8797
release_year    8807
rating          8803
duration        3994
listed_in       8807
description     8807
dtype: int64

In [165]:
### tengo 4278 directores duplicados
netflix_titles.duplicated(subset=["director"]).sum()

np.int64(4278)

In [166]:
### el % de datos que tengo en cada categoría que no son nulos

np.round(netflix_titles.notnull().sum() / netflix_titles.shape[0] * 100)

show_id         100.0
type            100.0
title           100.0
director         70.0
cast             91.0
country          91.0
date_added      100.0
release_year    100.0
rating          100.0
duration         45.0
listed_in       100.0
description     100.0
dtype: float64

In [167]:
netflix_titles['type'].unique()

array(['Movie', 'TV Show'], dtype=object)

In [168]:
netflix_titles['director'].unique()

array(['Kirsten Johnson', nan, 'Julien Leclercq', ..., 'Majid Al Ansari',
       'Peter Hewitt', 'Mozez Singh'], dtype=object)

In [169]:
netflix_titles.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8807 entries, 0 to 8806
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   show_id       8807 non-null   object
 1   type          8807 non-null   object
 2   title         8807 non-null   object
 3   director      6173 non-null   object
 4   cast          7982 non-null   object
 5   country       7976 non-null   object
 6   date_added    8797 non-null   object
 7   release_year  8807 non-null   int64 
 8   rating        8803 non-null   object
 9   duration      3994 non-null   object
 10  listed_in     8807 non-null   object
 11  description   8807 non-null   object
dtypes: int64(1), object(11)
memory usage: 825.8+ KB


In [170]:
netflix_mergeo = netflix_original.merge(netflix_titles, left_on= "Title", right_on= 'title', how= 'inner')

* Hemos decidido esta forma para poder 

Porque de esta forma hacemos un dataframe que contenga todo pero que a la vez muestre los datos en cada columna referente a cada película

Análisis:
% Hemos percibido cambios: la película más antigua es de 2014 y la más reciente del 2021.
La media de Run Time se mantiene en 94.67. Con un máximo de 209 y un mínimo de 4. Esto puede tener sentido ya que tenemos muchos documentales: 132.
Inglés e Hindi siguen siendo las más rpesentadas en cuanto a idiomas.

Tenemos que el directo McG es quien tiene más películas, con 3.

Estados Unidos se mantiene como el país con más presencia.
Tenemos que 

In [171]:
netflix_mergeo

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,Enter the Anime,Documentary,"August 5, 2019",58,2.5,English/Japanese,s3624,Movie,Enter the Anime,Alex Burunova,"Kozo Morishita, Yoko Takahashi, Shinji Aramaki...","United States, Japan","August 5, 2019",2019,TV-MA,59 min,"Documentaries, International Movies",What is anime? Through deep-dives with notable...
1,Dark Forces,Thriller,"August 21, 2020",81,2.6,Spanish,s2105,Movie,Dark Forces,Bernardo Arellano,"Tenoch Huerta, Eréndira Ibarra, Dale Carley, A...",Mexico,"August 21, 2020",2020,TV-MA,81 min,"Horror Movies, Independent Movies, Internation...","In search of his sister, a renegade criminal s..."
2,The App,Science fiction/Drama,"December 26, 2019",79,2.6,Italian,s3095,Movie,The App,Elisa Fuksas,"Vincenzo Crea, Jessica Cressy, Greta Scarano, ...",Italy,"December 26, 2019",2019,TV-MA,79 min,"Dramas, Independent Movies, International Movies","While in Rome to shoot his first movie, actor ..."
3,The Open House,Horror thriller,"January 19, 2018",94,3.2,English,s5074,Movie,The Open House,"Matt Angel, Suzanne Coote","Dylan Minnette, Piercey Dalton, Patricia Bethu...","Canada, United States","January 19, 2018",2018,TV-MA,,"Horror Movies, Thrillers","Following a tragedy, a mother and her teen son..."
4,Kaali Khuhi,Mystery,"October 30, 2020",90,3.4,Hindi,s1778,Movie,Kaali Khuhi,Terrie Samundra,"Shabana Azmi, Leela Samson, Sanjeeda Sheikh, S...",India,"October 30, 2020",2020,TV-14,,"Horror Movies, International Movies",When a restless spirit curses a village that h...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
508,Cuba and the Cameraman,Documentary,"November 24, 2017",114,8.3,English,s5153,Movie,Cuba and the Cameraman,Jon Alpert,,United States,"November 24, 2017",2017,TV-14,,Documentaries,Emmy-winning filmmaker Jon Alpert chronicles t...
509,Dancing with the Birds,Documentary,"October 23, 2019",51,8.3,English,s3387,Movie,Dancing with the Birds,Huw Cordey,Stephen Fry,United States,"October 23, 2019",2019,TV-PG,52 min,Documentaries,From ruffling their majestic feathers to naili...
510,Winter on Fire: Ukraine's Fight for Freedom,Documentary,"October 9, 2015",91,8.4,English/Ukranian/Russian,s5894,Movie,Winter on Fire: Ukraine's Fight for Freedom,Evgeny Afineevsky,,"United Kingdom, Ukraine, United States","October 9, 2015",2015,TV-MA,,"Documentaries, International Movies","Over 93 days in Ukraine, what started as peace..."
511,Springsteen on Broadway,One-man show,"December 16, 2018",153,8.5,English,s4294,Movie,Springsteen on Broadway,Thom Zimny,Bruce Springsteen,United States,"December 16, 2018",2018,TV-MA,153 min,Music & Musicals,Bruce Springsteen shares personal stories from...


In [172]:
netflix_mergeo.value_counts(['release_year'])


release_year
2020            169
2019            103
2018             87
2017             56
2021             56
2016             30
2015             11
2014              1
Name: count, dtype: int64

In [176]:
for columns in netflix_mergeo.select_dtypes('object').columns: ### me da las categorias de cada columna por su tipo
    print(columns)
    print(netflix_mergeo[columns].value_counts()) ### normalize me da los porcentajes y trae los nulos
    print

Title
Title
David Attenborough: A Life on Our Planet    1
The Irishman                                1
If Anything Happens I Love You              1
Crip Camp: A Disability Revolution          1
Beasts of No Nation                         1
                                           ..
Drive                                       1
Kaali Khuhi                                 1
The Open House                              1
The App                                     1
Dark Forces                                 1
Name: count, Length: 513, dtype: int64
Genre
Genre
Documentary                             132
Drama                                    73
Comedy                                   42
Romantic comedy                          35
Thriller                                 33
                                       ... 
Action-adventure                          1
Concert Film                              1
Animation / Science Fiction               1
Anthology/Dark comedy              

In [179]:
round(netflix_mergeo.describe(),2)

Unnamed: 0,Runtime,IMDB Score,release_year
count,513.0,513.0,513.0
mean,94.67,6.21,2018.89
std,26.65,0.97,1.51
min,4.0,2.5,2014.0
25%,87.0,5.6,2018.0
50%,97.0,6.3,2019.0
75%,108.0,6.9,2020.0
max,209.0,9.0,2021.0


In [181]:
netflix_mergeo.describe(include = "O")

Unnamed: 0,Title,Genre,Premiere,Language,show_id,type,title,director,cast,country,date_added,rating,duration,listed_in,description
count,513,513,513,513,513,513,513,491,422,499,513,513,276,513,513
unique,513,106,350,37,513,1,513,462,421,81,354,10,86,103,513
top,David Attenborough: A Life on Our Planet,Documentary,"October 18, 2019",English,s1887,Movie,David Attenborough: A Life on Our Planet,McG,Shawn Mendes,United States,"October 18, 2019",TV-MA,98 min,Documentaries,"A broadcaster recounts his life, and the evolu..."
freq,1,132,5,352,1,513,1,3,2,274,5,254,20,69,1


In [183]:
netflix_mergeo.loc[0,'Title']

'Enter the Anime'

In [192]:
mask = netflix_mergeo["type"] == "Movie"

In [193]:
netflix_mergeo[mask]

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,Enter the Anime,Documentary,"August 5, 2019",58,2.5,English/Japanese,s3624,Movie,Enter the Anime,Alex Burunova,"Kozo Morishita, Yoko Takahashi, Shinji Aramaki...","United States, Japan","August 5, 2019",2019,TV-MA,59 min,"Documentaries, International Movies",What is anime? Through deep-dives with notable...
1,Dark Forces,Thriller,"August 21, 2020",81,2.6,Spanish,s2105,Movie,Dark Forces,Bernardo Arellano,"Tenoch Huerta, Eréndira Ibarra, Dale Carley, A...",Mexico,"August 21, 2020",2020,TV-MA,81 min,"Horror Movies, Independent Movies, Internation...","In search of his sister, a renegade criminal s..."
2,The App,Science fiction/Drama,"December 26, 2019",79,2.6,Italian,s3095,Movie,The App,Elisa Fuksas,"Vincenzo Crea, Jessica Cressy, Greta Scarano, ...",Italy,"December 26, 2019",2019,TV-MA,79 min,"Dramas, Independent Movies, International Movies","While in Rome to shoot his first movie, actor ..."
3,The Open House,Horror thriller,"January 19, 2018",94,3.2,English,s5074,Movie,The Open House,"Matt Angel, Suzanne Coote","Dylan Minnette, Piercey Dalton, Patricia Bethu...","Canada, United States","January 19, 2018",2018,TV-MA,,"Horror Movies, Thrillers","Following a tragedy, a mother and her teen son..."
4,Kaali Khuhi,Mystery,"October 30, 2020",90,3.4,Hindi,s1778,Movie,Kaali Khuhi,Terrie Samundra,"Shabana Azmi, Leela Samson, Sanjeeda Sheikh, S...",India,"October 30, 2020",2020,TV-14,,"Horror Movies, International Movies",When a restless spirit curses a village that h...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
508,Cuba and the Cameraman,Documentary,"November 24, 2017",114,8.3,English,s5153,Movie,Cuba and the Cameraman,Jon Alpert,,United States,"November 24, 2017",2017,TV-14,,Documentaries,Emmy-winning filmmaker Jon Alpert chronicles t...
509,Dancing with the Birds,Documentary,"October 23, 2019",51,8.3,English,s3387,Movie,Dancing with the Birds,Huw Cordey,Stephen Fry,United States,"October 23, 2019",2019,TV-PG,52 min,Documentaries,From ruffling their majestic feathers to naili...
510,Winter on Fire: Ukraine's Fight for Freedom,Documentary,"October 9, 2015",91,8.4,English/Ukranian/Russian,s5894,Movie,Winter on Fire: Ukraine's Fight for Freedom,Evgeny Afineevsky,,"United Kingdom, Ukraine, United States","October 9, 2015",2015,TV-MA,,"Documentaries, International Movies","Over 93 days in Ukraine, what started as peace..."
511,Springsteen on Broadway,One-man show,"December 16, 2018",153,8.5,English,s4294,Movie,Springsteen on Broadway,Thom Zimny,Bruce Springsteen,United States,"December 16, 2018",2018,TV-MA,153 min,Music & Musicals,Bruce Springsteen shares personal stories from...


In [191]:
mask1 = netflix_mergeo['type'] == 'TV Show'
netflix_mergeo.loc[mask1,['title', 'duration']]

Unnamed: 0,title,duration


In [195]:
mask2 = netflix_mergeo['country'] == "United States"
netflix_mergeo[mask2]


Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
7,The Last Days of American Crime,Heist film/Thriller,"June 5, 2020",149,3.7,English,s2425,Movie,The Last Days of American Crime,Olivier Megaton,"Edgar Ramírez, Michael Pitt, Anna Brewster, Pa...",United States,"June 5, 2020",2020,TV-MA,149 min,"Action & Adventure, Dramas, Independent Movies",A bank robber joins a plot to commit one final...
8,Paradox,Musical/Western/Fantasy,"March 23, 2018",73,3.9,English,s4973,Movie,Paradox,Daryl Hannah,"Neil Young, Lukas Nelson, Micah Nelson, Corey ...",United States,"March 23, 2018",2018,TV-MA,74 min,"Dramas, Independent Movies, Music & Musicals",Neil Young and his band of outlaws sow seeds o...
13,Mercy,Thriller,"November 22, 2016",90,4.2,English,s5710,Movie,Mercy,Chris Sparling,"James Wolk, Caitlin Fitzgerald, Tom Lipinski, ...",United States,"November 22, 2016",2016,TV-MA,,"Dramas, Thrillers",Two brothers clash with their half-siblings wh...
16,The Last Thing He Wanted,Political thriller,"February 21, 2020",115,4.3,English,s2898,Movie,The Last Thing He Wanted,Dee Rees,"Anne Hathaway, Ben Affleck, Willem Dafoe, Toby...",United States,"February 21, 2020",2020,R,116 min,"Dramas, Thrillers",A hard-hitting reporter becomes entangled in t...
18,Death Note,Horror thriller,"August 25, 2017",100,4.4,English,s5319,Movie,Death Note,Adam Wingard,"Willem Dafoe, Nat Wolff, Lakeith Stanfield, Ma...",United States,"August 25, 2017",2017,TV-MA,,"Horror Movies, Thrillers",Light Turner finds a supernatural notebook and...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
502,Chasing Coral,Documentary,"July 14, 2017",89,8.1,English,s5377,Movie,Chasing Coral,Jeff Orlowski,,United States,"July 14, 2017",2017,TV-PG,,Documentaries,"Divers, scientists and photographers around th..."
506,Seaspiracy,Documentary,"March 24, 2021",89,8.2,English,s1172,Movie,Seaspiracy,Ali Tabrizi,,United States,"March 24, 2021",2021,TV-14,90 min,Documentaries,"Passionate about ocean life, a filmmaker sets ..."
508,Cuba and the Cameraman,Documentary,"November 24, 2017",114,8.3,English,s5153,Movie,Cuba and the Cameraman,Jon Alpert,,United States,"November 24, 2017",2017,TV-14,,Documentaries,Emmy-winning filmmaker Jon Alpert chronicles t...
509,Dancing with the Birds,Documentary,"October 23, 2019",51,8.3,English,s3387,Movie,Dancing with the Birds,Huw Cordey,Stephen Fry,United States,"October 23, 2019",2019,TV-PG,52 min,Documentaries,From ruffling their majestic feathers to naili...


In [None]:
mask1 = netflix_mergeo['type'] == 'TV Show'
netflix_mergeo.loc[mask1,['title', 'duration']]