<div style="text-align: center;">
  <img src="https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_naranja@4x.png?raw=true" alt="esquema" />
</div>

# Laboratorio Pandas (EDA y Unión de Datos)

## Los datos

Para este laboratorio, trabajarás con los siguientes conjuntos de datos:

- **`netflix_originals.csv`**: Contiene información sobre producciones originales de Netflix. Las columnas que nos encontraremos en este conjunto de datos son: 

   - `Title`: Contiene el nombre del título de la producción original de Netflix.

   - `Genre`: Especifica el género o combinación de géneros de la producción.

   - `Premiere`: Indica la fecha de estreno de la producción en Netflix.

   - `Runtime`: Contiene la duración de la producción en minutos.

   - `IMDB Score`: Representa la calificación promedio que la producción ha recibido en la plataforma IMDB.

   - `Language`: Especifica el idioma principal o los idiomas en los que se presenta la producción.

- **`netflix_titles.csv`**: Contiene información sobre una variedad de títulos disponibles en la plataforma Netflix, incluyendo tanto películas como series de televisión. Las columnas que nos encontraremos en este conjunto de datos son:

   - `show_id`: Identificador único para cada título en el dataset.

   - `type`: Especifica el tipo de contenido, ya sea "Movie" (película) o "TV Show" (serie de televisión).

   - `title`: Contiene el nombre del título de la producción.

   - `director`: Muestra el nombre del director del título. Puede estar vacío en algunos casos.

   - `cast`: Lista de actores y actrices que participaron en el título. También puede estar vacío en algunos casos.

   - `country`: País o países donde se produjo el título. Esta columna también puede tener valores faltantes.

   - `date_added`: Fecha en la que el título fue añadido al catálogo de Netflix.

   - `release_year`: Año en que el título fue lanzado o producido.

   - `rating`: Clasificación del contenido en términos de audiencia (por ejemplo, PG-13, TV-MA).

   - `duration`: Duración del título. Para películas, se expresa en minutos (e.g., "90 min") y para series en temporadas (e.g., "2 Seasons").

   - `listed_in`: Categorías o géneros bajo los cuales el título está clasificado (por ejemplo, "Documentaries", "TV Dramas").

   - `description`: Breve sinopsis o descripción del contenido del título.

A lo largo de los laboratorios de Pandas, trabajarás con estos conjuntos de datos (o con los derivados del Laboratorio), algunas de las actividades que realizaremos son:

- Exploración de datos y análisis exploratorio (EDA) para familiarizarse con los conjuntos de datos.

- Realización de uniones entre conjuntos de datos, aplicando diferentes técnicas de *merging* y analizando la relevancia de cada método.

- Uso de funciones de selección y filtrado (`loc`, `iloc`) para extraer información clave.

- Desarrollo de análisis descriptivos y visualización de patrones para comprender mejor las decisiones estratégicas de la plataforma.

----

## Objetivo General de la Serie de Laboratorios



1. **Unión de `netflix_titles.csv` con `netflix_originals.csv`:**

   - **Análisis de contenido original:**  Identificarás los títulos que son producciones originales de Netflix y los compararás con los títulos adquiridos. Este análisis te permitirá:

     - Comparar la diversidad de géneros entre los títulos originales y no originales.

     - Evaluar si ciertos géneros o tipos de contenido (como documentales o series) son más frecuentes en las producciones originales.

     - Investigar si la producción original se concentra en determinados países o idiomas.


   - **Evaluación de contenido:** En esta etapa, explorarás si las producciones originales de Netflix tienden a recibir mejores o peores evaluaciones en comparación con el contenido adquirido. Algunas preguntas que se buscarán responder incluyen:

     - ¿Los títulos originales tienen una calificación promedio superior en plataformas como IMDB?

     - ¿Son las producciones originales más consistentes en términos de calidad percibida?

     - ¿Existen diferencias en la popularidad de los títulos originales según su género o país de origen?


   - **Identificación de tendencias:**  Por último, este análisis te permitirá explorar cómo ha evolucionado la estrategia de contenido de Netflix a lo largo del tiempo. Algunos puntos clave a investigar serán:

     - ¿Cómo ha crecido la producción original en comparación con la adquisición de contenido?

     - ¿Qué géneros o tipos de contenido han recibido mayor inversión en los últimos años?
     
     - ¿Existen patrones en los países o idiomas de las producciones originales, especialmente en relación con la expansión global de Netflix?


----


## Ejercicio: Análisis y Enriquecimiento del Catálogo de Netflix

### Parte 1: Análisis Exploratorio de Datos (EDA)

1. **Carga de los datos:**

   - Deberás cargar los dos conjuntos de datos que te hemos proporcionado para realizar este Laboratorio:

     - `netflix_originals.csv`

     - `netflix_titles.csv`

   Deberás revisar la estructura de cada conjunto de datos utilizando los métodos aprendidos durante la lección.

2. **Análisis de columnas y consistencia:**

   - Deberás hacer un análisis exploratorio de cada uno de los conjuntos de datos. Será obligatorio que incluyas las conclusiones generales obtenidas de cada uno de los análisis exploratorios en el Jupyter Notebook de tus soluciones.

   - Explorar qué columnas contiene cada conjunto de datos y cuáles son sus tipos de datos. Identificar si hay valores nulos o duplicados.

   - Algunas preguntas que nos podemos plantear en esta fase son (recuerda que esto es solo un ejemplo, y que podemos explorar todo lo que queramos/necesitemos para entender lo mejor posible los conjuntos de datos):

      - ¿Cuáles son los tipos de datos de cada columna? Nos puede ayudar a detectar si algún tipo de dato está incorrectamente asignado, como fechas almacenadas como cadenas de texto.

      - ¿Existen valores nulos? ¿En qué columnas están? Este paso es crucial para decidir si deben ser eliminados, rellenados o ignorados.

      - ¿Cuántos títulos únicos hay en cada conjunto de datos? Nos puede permitir verificar si existen títulos duplicados que puedan distorsionar el análisis.

      - ¿Qué géneros tenemos en el conjunto de datos? Esto nos puede ayudar a identificar los géneros más populares o incluso a identificar una posible limpieza de dicha columna para poder extraer conclusiones más claras en nuestro análisis.

### Parte 2: Unión de Datos

1. **Realización de la unión:**

   - Deberás realizar la unión que consideres más apropiada entre `netflix_titles.csv` y `netflix_originals.csv`. Además, deberás justificar el tipo de unión que has realizado.

   - Esto nos ayudará a contestar preguntas más adelente del tipo:

     - ¿Cuántos títulos en `netflix_titles.csv` son producciones originales de Netflix?

     - ¿Hay diferencias significativas en la puntuación de IMDB entre títulos originales y no originales?

### Parte 3: Uso de `loc` e `iloc`

Usando el DataFrame creado en la Parte 2: 

1. **Filtrado de datos con `loc`:**

   - Selecciona todas las filas donde el tipo de contenido sea “Movie”.

   - Muestra solo los títulos (title) y la duración (duration) de todos los contenidos que sean de tipo “TV Show”.

   - Selecciona todas las filas donde el país sea “United States”.

   - Muestra todas las películas (type = “Movie”) y selecciona las columnas title y director.

   - Selecciona los títulos (title) y géneros (listed_in) de todas las producciones lanzadas en 2018.

   - Selecciona las filas donde la columna director esté vacía y muestra solo los títulos (title).

2. **Acceso a datos específicos con `iloc`:**

   - Selecciona las primeras 5 filas del conjunto de datos y muestra solo las columnas title, director y country.

   - Muestra las últimas 5 filas del conjunto de datos y selecciona las columnas title y description.

   - Selecciona las primeras 10 filas del dataset y muestra las columnas desde la segunda hasta la quinta (incluidas). 

   - Muestra las últimas 7 filas del dataset y selecciona las columnas title, director, y country usando índices posicionales.

   - Selecciona las filas desde la 15 hasta la 25 (incluidas) y muestra las primeras 4 columnas.

   - Muestra las filas 20 a 30 y solo las columnas title, release_year, y rating usando índices posicionales.


**NOTA IMPORTANTE**: Antes de terminar el lab, guarda el conjunto de datos creado en la fase de unión para trabajar con el en las siguientes lecciones. 

1. **Carga de los datos:**

In [193]:
import pandas as pd
pd.set_option('display.max_columns', None)
import numpy as np

In [194]:
netflix_original = pd.read_csv("datos/netflix_originals.csv")
netflix_original.drop(columns = ["Unnamed: 0"], inplace=True)
netflix_original


Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language
0,Enter the Anime,Documentary,"August 5, 2019",58,2.5,English/Japanese
1,Dark Forces,Thriller,"August 21, 2020",81,2.6,Spanish
2,The App,Science fiction/Drama,"December 26, 2019",79,2.6,Italian
3,The Open House,Horror thriller,"January 19, 2018",94,3.2,English
4,Kaali Khuhi,Mystery,"October 30, 2020",90,3.4,Hindi
...,...,...,...,...,...,...
508,Cuba and the Cameraman,Documentary,"November 24, 2017",114,8.3,English
509,Dancing with the Birds,Documentary,"October 23, 2019",51,8.3,English
510,Winter on Fire: Ukraine's Fight for Freedom,Documentary,"October 9, 2015",91,8.4,English/Ukranian/Russian
511,Springsteen on Broadway,One-man show,"December 16, 2018",153,8.5,English


In [195]:
netflix_titles =pd.read_csv("datos/netflix_titles.csv")
netflix_titles.drop(columns = ["show_id","Unnamed: 0"], inplace=True)
netflix_titles

Unnamed: 0,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...
...,...,...,...,...,...,...,...,...,...,...,...
8802,Movie,Zodiac,David Fincher,"Mark Ruffalo, Jake Gyllenhaal, Robert Downey J...",United States,"November 20, 2019",2007,R,158 min,"Cult Movies, Dramas, Thrillers","A political cartoonist, a crime reporter and a..."
8803,TV Show,Zombie Dumb,,,,"July 1, 2019",2018,TV-Y7,2 Seasons,"Kids' TV, Korean TV Shows, TV Comedies","While living alone in a spooky town, a young g..."
8804,Movie,Zombieland,Ruben Fleischer,"Jesse Eisenberg, Woody Harrelson, Emma Stone, ...",United States,"November 1, 2019",2009,R,,"Comedies, Horror Movies",Looking to survive in a world taken over by zo...
8805,Movie,Zoom,Peter Hewitt,"Tim Allen, Courteney Cox, Chevy Chase, Kate Ma...",United States,"January 11, 2020",2006,PG,,"Children & Family Movies, Comedies","Dragged from civilian life, a former superhero..."


2. **Análisis de columnas y consistencia:**

In [196]:
netflix_original.describe(include=object)


Unnamed: 0,Title,Genre,Premiere,Language
count,513,513,513,513
unique,513,106,350,37
top,David Attenborough: A Life on Our Planet,Documentary,"October 18, 2019",English
freq,1,132,5,352


In [197]:
netflix_original.describe()

Unnamed: 0,Runtime,IMDB Score
count,513.0,513.0
mean,94.674464,6.210916
std,26.648121,0.96885
min,4.0,2.5
25%,87.0,5.6
50%,97.0,6.3
75%,108.0,6.9
max,209.0,9.0


In [198]:
netflix_titles.describe(include=object)


Unnamed: 0,type,title,director,cast,country,date_added,rating,duration,listed_in,description
count,8807,8807,6173,7982,7976,8797,8803,3994,8807,8807
unique,2,8807,4528,7692,748,1767,17,185,514,8775
top,Movie,Zubaan,Rajiv Chilaka,David Attenborough,United States,"January 1, 2020",TV-MA,2 Seasons,"Dramas, International Movies","Paranormal activity at a lush, abandoned prope..."
freq,6131,1,19,19,2818,109,3207,425,362,4


In [199]:
netflix_titles.describe()


Unnamed: 0,release_year
count,8807.0
mean,2014.180198
std,8.819312
min,1925.0
25%,2013.0
50%,2017.0
75%,2019.0
max,2021.0


In [200]:
for column in netflix_original.columns:
    print("\n--------------\n")
    print(column.upper())
    print(np.sort(netflix_original[column].unique()))


--------------

TITLE
['15 August' '1922' '22 July' '5 Star Christmas' '6 Balloons'
 '6 Underground' '7 años' 'A 3 Minute Hug'
 "A Babysitter's Guide to Monster Hunting" 'A California Christmas'
 'A Christmas Prince' 'A Christmas Prince: The Royal Baby'
 'A Christmas Prince: The Royal Wedding' 'A Fall from Grace'
 'A Futile and Stupid Gesture'
 'A Life of Speed: The Juan Manuel Fangio Story' 'A Love Song for Latasha'
 'A Secret Love' 'A Tale of Two Kitchens' 'A Very Murray Christmas'
 'A Week Away' 'A Whisker Away' 'AK vs AK' 'ARQ' 'After Maria'
 'After the Raid' 'Airplane Mode' 'Ajeeb Daastaans' 'Alex Strangelove'
 'Alien Xmas' 'All Because of You' 'All Day and a Night'
 'All Together Now' 'Altered Carbon: Resleeved' 'Always Be My Maybe'
 'Amanda Knox' 'Amateur' 'American Factory'
 'American Factory: A Conversation with the Obamas'
 'American Murder: The Family Next Door' 'American Son'
 'Anelka: Misunderstood' "Angela's Christmas" "Angela's Christmas Wish"
 'Antoine Griezmann: The M

In [201]:
for column in netflix_original.select_dtypes("object").columns:
    print("\n--------------\n")
    print(column.upper())
    print(netflix_original[column].value_counts())


--------------

TITLE
Title
David Attenborough: A Life on Our Planet    1
The Irishman                                1
If Anything Happens I Love You              1
Crip Camp: A Disability Revolution          1
Beasts of No Nation                         1
                                           ..
Drive                                       1
Kaali Khuhi                                 1
The Open House                              1
The App                                     1
Dark Forces                                 1
Name: count, Length: 513, dtype: int64

--------------

GENRE
Genre
Documentary                             132
Drama                                    73
Comedy                                   42
Romantic comedy                          35
Thriller                                 33
                                       ... 
Action-adventure                          1
Concert Film                              1
Animation / Science Fiction               1
A

In [202]:
for column in netflix_titles.columns:
    print("\n--------------\n")
    print(column.upper())
    print(netflix_titles[column].unique())


--------------

TYPE
['Movie' 'TV Show']

--------------

TITLE
['Dick Johnson Is Dead' 'Blood & Water' 'Ganglands' ... 'Zombieland'
 'Zoom' 'Zubaan']

--------------

DIRECTOR
['Kirsten Johnson' nan 'Julien Leclercq' ... 'Majid Al Ansari'
 'Peter Hewitt' 'Mozez Singh']

--------------

CAST
[nan
 'Ama Qamata, Khosi Ngema, Gail Mabalane, Thabang Molaba, Dillon Windvogel, Natasha Thahane, Arno Greeff, Xolile Tshabalala, Getmore Sithole, Cindy Mahlangu, Ryle De Morny, Greteli Fincham, Sello Maake Ka-Ncube, Odwa Gwanya, Mekaila Mathys, Sandi Schultz, Duane Williams, Shamilla Miller, Patrick Mofokeng'
 'Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabiha Akkari, Sofia Lesaffre, Salim Kechiouche, Noureddine Farihi, Geert Van Rampelberg, Bakary Diombera'
 ...
 'Jesse Eisenberg, Woody Harrelson, Emma Stone, Abigail Breslin, Amber Heard, Bill Murray, Derek Graf'
 'Tim Allen, Courteney Cox, Chevy Chase, Kate Mara, Ryan Newman, Michael Cassidy, Spencer Breslin, Rip Torn, Kevin Zegers'
 'Vicky Kaus

In [203]:
for column in netflix_titles.select_dtypes("object").columns:
    print("\n--------------\n")
    print(column.upper())
    print(netflix_titles[column].value_counts())


--------------

TYPE
type
Movie      6131
TV Show    2676
Name: count, dtype: int64

--------------

TITLE
title
Zubaan                                 1
Dick Johnson Is Dead                   1
Blood & Water                          1
Ganglands                              1
Jailbirds New Orleans                  1
                                      ..
Bangkok Breaking                       1
Vendetta: Truth, Lies and The Mafia    1
The Starling                           1
The Great British Baking Show          1
Sankofa                                1
Name: count, Length: 8807, dtype: int64

--------------

DIRECTOR
director
Rajiv Chilaka              19
Raúl Campos, Jan Suter     18
Suhas Kadav                16
Marcus Raboy               16
Jay Karas                  14
                           ..
James Brown                 1
Ivona Juka                  1
Mu Chu                      1
Chandra Prakash Dwivedi     1
Majid Al Ansari             1
Name: count, Length: 4528, dty

- ¿Cuáles son los tipos de datos de cada columna? Nos puede ayudar a detectar si algún tipo de dato está incorrectamente asignado, como fechas almacenadas como cadenas de texto.

In [204]:
print(netflix_original.dtypes)

Title          object
Genre          object
Premiere       object
Runtime         int64
IMDB Score    float64
Language       object
dtype: object


In [205]:
print(netflix_titles.dtypes)

type            object
title           object
director        object
cast            object
country         object
date_added      object
release_year     int64
rating          object
duration        object
listed_in       object
description     object
dtype: object


- ¿Existen valores nulos? ¿En qué columnas están? Este paso es crucial para decidir si deben ser eliminados, rellenados o ignorados.

In [206]:
netflix_original.isnull().sum() #Las peliculas originales no tienen valores nulos con lo cual podemos trabajar bien con todos los 

Title         0
Genre         0
Premiere      0
Runtime       0
IMDB Score    0
Language      0
dtype: int64

In [207]:
netflix_titles.isnull().sum() #Los titulos de Netflix tienen varios titulos con valores nulos, realizar estudios sobre esas variables puede no ser interesante

type               0
title              0
director        2634
cast             825
country          831
date_added        10
release_year       0
rating             4
duration        4813
listed_in          0
description        0
dtype: int64

- ¿Cuántos títulos únicos hay en cada conjunto de datos? Nos puede permitir verificar si existen títulos duplicados que puedan distorsionar el análisis.

In [208]:
print(f"La lista netflix_titles todos sus valores son unicos en Title:{netflix_titles["title"].is_unique}")
print(f"La lista netflix_original todos sus valores son unicos en Title:{netflix_original["Title"].is_unique}")

La lista netflix_titles todos sus valores son unicos en Title:True
La lista netflix_original todos sus valores son unicos en Title:True


### Parte 2: Unión de Datos

   - Deberás realizar la unión que consideres más apropiada entre `netflix_titles.csv` y `netflix_originals.csv`. Además, deberás justificar el tipo de unión que has realizado.


In [209]:
netflix_original.rename(columns={'Title': 'title'}, inplace=True)

df_originalcompleto= pd.merge(netflix_titles, netflix_original, on=["title"], how='inner')
df_originalcompleto

Unnamed: 0,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language
0,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Documentary,"October 2, 2020",90,7.5,English
1,Movie,Extraction,Steven C. Miller,"Bruce Willis, Kellan Lutz, Gina Carano, D.B. S...","United States, United Kingdom, Canada","September 1, 2021",2015,R,82 min,Action & Adventure,"When a retired CIA agent is kidnapped, his son...",Action,"April 24, 2020",117,6.7,English
2,Movie,Prime Time,Jakub Piątek,"Bartosz Bielenia, Magdalena Popławska, Andrzej...",,"June 30, 2021",2021,TV-MA,,"Dramas, International Movies, Thrillers","On New Year’s Eve 1999, an armed man enters a ...",Thriller,"April 14, 2021",91,5.7,Polish
3,Movie,Blue Miracle,Julio Quintana,"Jimmy Gonzales, Dennis Quaid, Anthony Gonzalez...",United States,"May 27, 2021",2021,TV-PG,,"Children & Family Movies, Dramas, Faith & Spir...","To save their cash-strapped orphanage, a guard...",Drama,"May 27, 2021",95,6.7,English
4,Movie,Ghost Lab,Paween Purijitpanya,"Thanapob Leeratanakachorn, Paris Intarakomalya...",Thailand,"May 27, 2021",2021,TV-MA,118 min,"Horror Movies, International Movies, Thrillers","After witnessing a haunting in their hospital,...",Horror,"May 26, 2021",117,5.2,Thai
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
508,Movie,Tig,"Kristina Goolsby, Ashley York",Tig Notaro,United States,"July 17, 2015",2015,TV-14,,"Documentaries, Stand-Up Comedy",Comedian Tig Notaro announced her cancer diagn...,Documentary,"July 17, 2015",80,7.4,English
509,Movie,"What Happened, Miss Simone?",Liz Garbus,,United States,"June 26, 2015",2015,TV-14,,"Documentaries, Music & Musicals","Using never-before-heard recordings, rare arch...",Documentary,"June 26, 2015",84,7.6,English
510,Movie,Hot Girls Wanted,"Jill Bauer, Ronna Gradus",,United States,"May 29, 2015",2015,TV-MA,83 min,Documentaries,This 2015 Sundance Film Festival breakout docu...,Documentary,"May 29, 2015",84,6.1,English
511,Movie,The Other One: The Long Strange Trip of Bob Weir,Mike Fleiss,Bob Weir,United States,"May 22, 2015",2015,TV-14,84 min,"Documentaries, Music & Musicals",This chronicle of Bob Weir highlights his brot...,Documentary,"May 22, 2015",83,7.3,English


In [210]:
netflix_original.rename(columns={'Title': 'title'}, inplace=True)

df_originalcompleto= pd.merge(netflix_titles, netflix_original, on=["title"], how='inner')

df_unido= pd.merge(netflix_titles, netflix_original, on=["title"], how='outer')

df_unido.head()


Unnamed: 0,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language
0,Movie,#Alive,Cho Il,"Yoo Ah-in, Park Shin-hye",South Korea,"September 8, 2020",2020,TV-MA,,"Horror Movies, International Movies, Thrillers","As a grisly virus rampages a city, a lone man ...",,,,,
1,Movie,#AnneFrank - Parallel Stories,"Sabina Fedeli, Anna Migotto","Helen Mirren, Gengher Gatti",Italy,"July 1, 2020",2019,TV-14,,"Documentaries, International Movies","Through her diary, Anne Frank's story is retol...",,,,,
2,Movie,#FriendButMarried,Rako Prijanto,"Adipati Dolken, Vanesha Prescilla, Rendi Jhon,...",Indonesia,"May 21, 2020",2018,TV-G,,"Dramas, International Movies, Romantic Movies","Pining for his high school crush for years, a ...",,,,,
3,Movie,#FriendButMarried 2,Rako Prijanto,"Adipati Dolken, Mawar de Jongh, Sari Nila, Von...",Indonesia,"June 28, 2020",2020,TV-G,104 min,"Dramas, International Movies, Romantic Movies",As Ayu and Ditto finally transition from best ...,,,,,
4,Movie,#Roxy,Michael Kennedy,"Jake Short, Sarah Fisher, Booboo Stewart, Dann...",Canada,"April 10, 2019",2018,TV-14,,"Comedies, Romantic Movies",A teenage hacker with a huge nose helps a cool...,,,,,


In [211]:
df_unido.isnull().sum()

type               0
title              0
director        2634
cast             825
country          831
date_added        10
release_year       0
rating             4
duration        4813
listed_in          0
description        0
Genre           8294
Premiere        8294
Runtime         8294
IMDB Score      8294
Language        8294
dtype: int64

- ¿Cuántos títulos en `netflix_titles.csv` son producciones originales de Netflix?


In [212]:
print(netflix_original.shape)
print(netflix_titles.shape)
print(df_unido.shape) #le añadimos 5 columnas

(513, 6)
(8807, 11)
(8807, 16)


 - ¿Hay diferencias significativas en la puntuación de IMDB entre títulos originales y no originales?

In [213]:
#tenemos bastantes diferencias porque solo tenemos informacion de los titulos originales.

### Parte 3: Uso de `loc` e `iloc`

- Selecciona todas las filas donde el tipo de contenido sea “Movie”.

In [214]:
df_unido.loc[df_unido["type"]=="Movie"].head()



Unnamed: 0,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language
0,Movie,#Alive,Cho Il,"Yoo Ah-in, Park Shin-hye",South Korea,"September 8, 2020",2020,TV-MA,,"Horror Movies, International Movies, Thrillers","As a grisly virus rampages a city, a lone man ...",,,,,
1,Movie,#AnneFrank - Parallel Stories,"Sabina Fedeli, Anna Migotto","Helen Mirren, Gengher Gatti",Italy,"July 1, 2020",2019,TV-14,,"Documentaries, International Movies","Through her diary, Anne Frank's story is retol...",,,,,
2,Movie,#FriendButMarried,Rako Prijanto,"Adipati Dolken, Vanesha Prescilla, Rendi Jhon,...",Indonesia,"May 21, 2020",2018,TV-G,,"Dramas, International Movies, Romantic Movies","Pining for his high school crush for years, a ...",,,,,
3,Movie,#FriendButMarried 2,Rako Prijanto,"Adipati Dolken, Mawar de Jongh, Sari Nila, Von...",Indonesia,"June 28, 2020",2020,TV-G,104 min,"Dramas, International Movies, Romantic Movies",As Ayu and Ditto finally transition from best ...,,,,,
4,Movie,#Roxy,Michael Kennedy,"Jake Short, Sarah Fisher, Booboo Stewart, Dann...",Canada,"April 10, 2019",2018,TV-14,,"Comedies, Romantic Movies",A teenage hacker with a huge nose helps a cool...,,,,,


In [215]:
df_unido.loc[df_unido["type"]=="Movie"].shape


(6131, 16)

- Muestra solo los títulos (title) y la duración (duration) de todos los contenidos que sean de tipo “TV Show”.

In [216]:
df_unido.loc[df_unido["type"]=="TV Show",["title","duration","type"]]

Unnamed: 0,title,duration,type
8,#blackAF,,TV Show
14,(Un)Well,,TV Show
20,100 Days My Prince,,TV Show
22,100 Humans,,TV Show
27,100% Hotter,,TV Show
...,...,...,...
8796,แผนร้ายนายเจ้าเล่ห์,,TV Show
8800,​SAINT SEIYA: Knights of the Zodiac,2 Seasons,TV Show
8802,忍者ハットリくん,2 Seasons,TV Show
8803,海的儿子,,TV Show


- Selecciona todas las filas donde el país sea “United States”.

In [217]:
df_unido.loc[df_unido["country"]=="United States"]

Unnamed: 0,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language
5,Movie,#Rucker50,Robert McCullough Jr.,,United States,"December 1, 2016",2016,TV-PG,56 min,"Documentaries, Sports Movies",This documentary celebrates the 50th anniversa...,,,,,
8,TV Show,#blackAF,,"Kenya Barris, Rashida Jones, Iman Benson, Genn...",United States,"April 17, 2020",2020,TV-MA,,TV Comedies,Kenya Barris and his family navigate relations...,,,,,
10,Movie,#realityhigh,Fernando Lebrija,"Nesta Cooper, Kate Walsh, John Michael Higgins...",United States,"September 8, 2017",2017,TV-14,,Comedies,When nerdy high schooler Dani finally attracts...,,,,,
13,Movie,(T)ERROR,"Lyric R. Cabral, David Felix Sutcliffe",,United States,"June 30, 2016",2015,NR,84 min,Documentaries,This real-life look at FBI counterterrorism op...,,,,,
14,TV Show,(Un)Well,,,United States,"August 12, 2020",2020,TV-MA,,Reality TV,This docuseries takes a deep dive into the luc...,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8770,Movie,Zodiac,David Fincher,"Mark Ruffalo, Jake Gyllenhaal, Robert Downey J...",United States,"November 20, 2019",2007,R,158 min,"Cult Movies, Dramas, Thrillers","A political cartoonist, a crime reporter and a...",,,,,
8774,Movie,Zombieland,Ruben Fleischer,"Jesse Eisenberg, Woody Harrelson, Emma Stone, ...",United States,"November 1, 2019",2009,R,,"Comedies, Horror Movies",Looking to survive in a world taken over by zo...,,,,,
8777,Movie,Zoom,Peter Hewitt,"Tim Allen, Courteney Cox, Chevy Chase, Kate Ma...",United States,"January 11, 2020",2006,PG,,"Children & Family Movies, Comedies","Dragged from civilian life, a former superhero...",,,,,
8778,Movie,Zoot Suit,Luis Valdez,"Daniel Valdez, Edward James Olmos, Charles Aid...",United States,"April 15, 2021",1981,R,,"Cult Movies, Dramas, Music & Musicals","In this drama based on a 1940s trial, the memb...",,,,,


   - Muestra todas las películas (type = “Movie”) y selecciona las columnas title y director.

In [218]:
df_unido.loc[df_unido["type"]=="Movie",["title","director","type"]]

Unnamed: 0,title,director,type
0,#Alive,Cho Il,Movie
1,#AnneFrank - Parallel Stories,"Sabina Fedeli, Anna Migotto",Movie
2,#FriendButMarried,Rako Prijanto,Movie
3,#FriendButMarried 2,Rako Prijanto,Movie
4,#Roxy,Michael Kennedy,Movie
...,...,...,...
8798,​Maj Rati ​​Keteki,Santwana Bardoloi,Movie
8799,​Mayurakshi,Atanu Ghosh,Movie
8801,​​Kuch Bheege Alfaaz,Onir,Movie
8805,반드시 잡는다,Hong-seon Kim,Movie


 - Selecciona los títulos (title) y géneros (listed_in) de todas las producciones lanzadas en 2018.

In [220]:
df_unido.loc[df_unido["release_year"]==2018,["title","listed_in","release_year"]]

Unnamed: 0,title,listed_in,release_year
2,#FriendButMarried,"Dramas, International Movies, Romantic Movies",2018
4,#Roxy,"Comedies, Romantic Movies",2018
20,100 Days My Prince,"International TV Shows, Romantic TV Shows, TV ...",2018
21,100 Days Of Solitude,"Documentaries, International Movies",2018
39,14 Cameras,"Horror Movies, Thrillers",2018
...,...,...,...
8776,Zoo,"Dramas, Independent Movies, International Movies",2018
8795,يوم الدين,"Dramas, Independent Movies, International Movies",2018
8797,​Goli Soda 2,"Action & Adventure, Dramas, International Movies",2018
8801,​​Kuch Bheege Alfaaz,"Dramas, Independent Movies, International Movies",2018


- Selecciona las filas donde la columna director esté vacía y muestra solo los títulos (title).

In [221]:
df_unido.loc[df_unido["director"].isna(),["title"]]

Unnamed: 0,title
8,#blackAF
12,'89
14,(Un)Well
20,100 Days My Prince
21,100 Days Of Solitude
...,...
8796,แผนร้ายนายเจ้าเล่ห์
8800,​SAINT SEIYA: Knights of the Zodiac
8802,忍者ハットリくん
8803,海的儿子


- Selecciona las primeras 5 filas del conjunto de datos y muestra solo las columnas title, director y country.

In [236]:
df_unido.iloc[:5, [1, 2, 4]]

Unnamed: 0,title,director,country
0,#Alive,Cho Il,South Korea
1,#AnneFrank - Parallel Stories,"Sabina Fedeli, Anna Migotto",Italy
2,#FriendButMarried,Rako Prijanto,Indonesia
3,#FriendButMarried 2,Rako Prijanto,Indonesia
4,#Roxy,Michael Kennedy,Canada


- Muestra las últimas 5 filas del conjunto de datos y selecciona las columnas title y description.

In [238]:
df_unido.iloc[:5, [1, 10]]

Unnamed: 0,title,description
0,#Alive,"As a grisly virus rampages a city, a lone man ..."
1,#AnneFrank - Parallel Stories,"Through her diary, Anne Frank's story is retol..."
2,#FriendButMarried,"Pining for his high school crush for years, a ..."
3,#FriendButMarried 2,As Ayu and Ditto finally transition from best ...
4,#Roxy,A teenage hacker with a huge nose helps a cool...


  - Selecciona las primeras 10 filas del dataset y muestra las columnas desde la segunda hasta la quinta (incluidas). 

In [243]:
df_unido.iloc[:10,1:5]

Unnamed: 0,title,director,cast,country
0,#Alive,Cho Il,"Yoo Ah-in, Park Shin-hye",South Korea
1,#AnneFrank - Parallel Stories,"Sabina Fedeli, Anna Migotto","Helen Mirren, Gengher Gatti",Italy
2,#FriendButMarried,Rako Prijanto,"Adipati Dolken, Vanesha Prescilla, Rendi Jhon,...",Indonesia
3,#FriendButMarried 2,Rako Prijanto,"Adipati Dolken, Mawar de Jongh, Sari Nila, Von...",Indonesia
4,#Roxy,Michael Kennedy,"Jake Short, Sarah Fisher, Booboo Stewart, Dann...",Canada
5,#Rucker50,Robert McCullough Jr.,,United States
6,#Selfie,Cristina Jacob,"Flavia Hojda, Crina Semciuc, Olimpia Melinte, ...",Romania
7,#Selfie 69,Cristina Jacob,"Maia Morgenstern, Olimpia Melinte, Crina Semci...",Romania
8,#blackAF,,"Kenya Barris, Rashida Jones, Iman Benson, Genn...",United States
9,#cats_the_mewvie,Michael Margolis,,Canada


  - Muestra las últimas 7 filas del dataset y selecciona las columnas title, director, y country usando índices posicionales.


In [246]:
df_unido.iloc[-7:, [1, 2, 4]]

Unnamed: 0,title,director,country
8800,​SAINT SEIYA: Knights of the Zodiac,,Japan
8801,​​Kuch Bheege Alfaaz,Onir,India
8802,忍者ハットリくん,,Japan
8803,海的儿子,,
8804,마녀사냥,,South Korea
8805,반드시 잡는다,Hong-seon Kim,South Korea
8806,최강전사 미니특공대 : 영웅의 탄생,Young Jun Lee,


- Selecciona las filas desde la 15 hasta la 25 (incluidas) y muestra las primeras 4 columnas.

In [247]:
df_unido.iloc[14:25, :4]

Unnamed: 0,type,title,director,cast
14,TV Show,(Un)Well,,
15,Movie,1 Chance 2 Dance,Adam Deyoe,"Lexi Giovagnoli, Justin Ray, Rae Latt, Poonam ..."
16,Movie,1 Mile to You,Leif Tilden,"Billy Crudup, Graham Rogers, Liana Liberato, S..."
17,Movie,10 Days in Sun City,Adze Ugah,"Ayo Makun, Adesua Etomi, Richard Mofe-Damijo, ..."
18,Movie,10 jours en or,Nicolas Brossette,"Franck Dubosc, Claude Rich, Marie Kremer, Math..."
19,Movie,"10,000 B.C.",Roland Emmerich,"Steven Strait, Camilla Belle, Cliff Curtis, Jo..."
20,TV Show,100 Days My Prince,,"Doh Kyung-soo, Nam Ji-hyun, Cho Seong-ha, Cho ..."
21,Movie,100 Days Of Solitude,,
22,TV Show,100 Humans,,"Zainab Johnson, Sammy Obeid, Alie Ward"
23,Movie,100 Meters,Marcel Barrena,"Dani Rovira, Karra Elejalde, Alexandra Jiménez..."



   - Muestra las filas 20 a 30 y solo las columnas title, release_year, y rating usando índices posicionales.

In [252]:
df_unido.iloc[19:30, [1, 6, 7]]

Unnamed: 0,title,release_year,rating
19,"10,000 B.C.",2008,PG-13
20,100 Days My Prince,2018,TV-14
21,100 Days Of Solitude,2018,TV-MA
22,100 Humans,2020,TV-14
23,100 Meters,2016,TV-MA
24,100 Things to do Before High School,2014,TV-Y
25,100 Years: One Woman's Fight for Justice,2016,TV-14
26,100% Halal,2020,TV-14
27,100% Hotter,2017,TV-14
28,1000 Rupee Note,2014,TV-14
