<div style="text-align: center;">
  <img src="https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_naranja@4x.png?raw=true" alt="esquema" />
</div>

# Laboratorio Pandas (EDA y Unión de Datos)

## Los datos

Para este laboratorio, trabajarás con los siguientes conjuntos de datos:

- **`netflix_originals.csv`**: Contiene información sobre producciones originales de Netflix. Las columnas que nos encontraremos en este conjunto de datos son: 

   - `Title`: Contiene el nombre del título de la producción original de Netflix.

   - `Genre`: Especifica el género o combinación de géneros de la producción.

   - `Premiere`: Indica la fecha de estreno de la producción en Netflix.

   - `Runtime`: Contiene la duración de la producción en minutos.

   - `IMDB Score`: Representa la calificación promedio que la producción ha recibido en la plataforma IMDB.

   - `Language`: Especifica el idioma principal o los idiomas en los que se presenta la producción.

- **`netflix_titles.csv`**: Contiene información sobre una variedad de títulos disponibles en la plataforma Netflix, incluyendo tanto películas como series de televisión. Las columnas que nos encontraremos en este conjunto de datos son:

   - `show_id`: Identificador único para cada título en el dataset.

   - `type`: Especifica el tipo de contenido, ya sea "Movie" (película) o "TV Show" (serie de televisión).

   - `title`: Contiene el nombre del título de la producción.

   - `director`: Muestra el nombre del director del título. Puede estar vacío en algunos casos.

   - `cast`: Lista de actores y actrices que participaron en el título. También puede estar vacío en algunos casos.

   - `country`: País o países donde se produjo el título. Esta columna también puede tener valores faltantes.

   - `date_added`: Fecha en la que el título fue añadido al catálogo de Netflix.

   - `release_year`: Año en que el título fue lanzado o producido.

   - `rating`: Clasificación del contenido en términos de audiencia (por ejemplo, PG-13, TV-MA).

   - `duration`: Duración del título. Para películas, se expresa en minutos (e.g., "90 min") y para series en temporadas (e.g., "2 Seasons").

   - `listed_in`: Categorías o géneros bajo los cuales el título está clasificado (por ejemplo, "Documentaries", "TV Dramas").

   - `description`: Breve sinopsis o descripción del contenido del título.

A lo largo de los laboratorios de Pandas, trabajarás con estos conjuntos de datos (o con los derivados del Laboratorio), algunas de las actividades que realizaremos son:

- Exploración de datos y análisis exploratorio (EDA) para familiarizarse con los conjuntos de datos.

- Realización de uniones entre conjuntos de datos, aplicando diferentes técnicas de *merging* y analizando la relevancia de cada método.

- Uso de funciones de selección y filtrado (`loc`, `iloc`) para extraer información clave.

- Desarrollo de análisis descriptivos y visualización de patrones para comprender mejor las decisiones estratégicas de la plataforma.

----

## Objetivo General de la Serie de Laboratorios



1. **Unión de `netflix_titles.csv` con `netflix_originals.csv`:**

   - **Análisis de contenido original:**  Identificarás los títulos que son producciones originales de Netflix y los compararás con los títulos adquiridos. Este análisis te permitirá:

     - Comparar la diversidad de géneros entre los títulos originales y no originales.

     - Evaluar si ciertos géneros o tipos de contenido (como documentales o series) son más frecuentes en las producciones originales.

     - Investigar si la producción original se concentra en determinados países o idiomas.


   - **Evaluación de contenido:** En esta etapa, explorarás si las producciones originales de Netflix tienden a recibir mejores o peores evaluaciones en comparación con el contenido adquirido. Algunas preguntas que se buscarán responder incluyen:

     - ¿Los títulos originales tienen una calificación promedio superior en plataformas como IMDB?

     - ¿Son las producciones originales más consistentes en términos de calidad percibida?

     - ¿Existen diferencias en la popularidad de los títulos originales según su género o país de origen?


   - **Identificación de tendencias:**  Por último, este análisis te permitirá explorar cómo ha evolucionado la estrategia de contenido de Netflix a lo largo del tiempo. Algunos puntos clave a investigar serán:

     - ¿Cómo ha crecido la producción original en comparación con la adquisición de contenido?

     - ¿Qué géneros o tipos de contenido han recibido mayor inversión en los últimos años?
     
     - ¿Existen patrones en los países o idiomas de las producciones originales, especialmente en relación con la expansión global de Netflix?


----


## Ejercicio: Análisis y Enriquecimiento del Catálogo de Netflix

### Parte 1: Análisis Exploratorio de Datos (EDA)

1. **Carga de los datos:**

   - Deberás cargar los dos conjuntos de datos que te hemos proporcionado para realizar este Laboratorio:

     - `netflix_originals.csv`

     - `netflix_titles.csv`

   Deberás revisar la estructura de cada conjunto de datos utilizando los métodos aprendidos durante la lección.

2. **Análisis de columnas y consistencia:**

   - Deberás hacer un análisis exploratorio de cada uno de los conjuntos de datos. Será obligatorio que incluyas las conclusiones generales obtenidas de cada uno de los análisis exploratorios en el Jupyter Notebook de tus soluciones.

   - Explorar qué columnas contiene cada conjunto de datos y cuáles son sus tipos de datos. Identificar si hay valores nulos o duplicados.

   - Algunas preguntas que nos podemos plantear en esta fase son (recuerda que esto es solo un ejemplo, y que podemos explorar todo lo que queramos/necesitemos para entender lo mejor posible los conjuntos de datos):

      - ¿Cuáles son los tipos de datos de cada columna? Nos puede ayudar a detectar si algún tipo de dato está incorrectamente asignado, como fechas almacenadas como cadenas de texto.

      - ¿Existen valores nulos? ¿En qué columnas están? Este paso es crucial para decidir si deben ser eliminados, rellenados o ignorados.

      - ¿Cuántos títulos únicos hay en cada conjunto de datos? Nos puede permitir verificar si existen títulos duplicados que puedan distorsionar el análisis.

      - ¿Qué géneros tenemos en el conjunto de datos? Esto nos puede ayudar a identificar los géneros más populares o incluso a identificar una posible limpieza de dicha columna para poder extraer conclusiones más claras en nuestro análisis.

### Parte 2: Unión de Datos

1. **Realización de la unión:**

   - Deberás realizar la unión que consideres más apropiada entre `netflix_titles.csv` y `netflix_originals.csv`. Además, deberás justificar el tipo de unión que has realizado.

   - Esto nos ayudará a contestar preguntas más adelente del tipo:

     - ¿Cuántos títulos en `netflix_titles.csv` son producciones originales de Netflix?

     - ¿Hay diferencias significativas en la puntuación de IMDB entre títulos originales y no originales?

### Parte 3: Uso de `loc` e `iloc`

Usando el DataFrame creado en la Parte 2: 

1. **Filtrado de datos con `loc`:**

   - Selecciona todas las filas donde el tipo de contenido sea “Movie”.

   - Muestra solo los títulos (title) y la duración (duration) de todos los contenidos que sean de tipo “TV Show”.

   - Selecciona todas las filas donde el país sea “United States”.

   - Muestra todas las películas (type = “Movie”) y selecciona las columnas title y director.

   - Selecciona los títulos (title) y géneros (listed_in) de todas las producciones lanzadas en 2018.

   - Selecciona las filas donde la columna director esté vacía y muestra solo los títulos (title).

2. **Acceso a datos específicos con `iloc`:**

   - Selecciona las primeras 5 filas del conjunto de datos y muestra solo las columnas title, director y country.

   - Muestra las últimas 5 filas del conjunto de datos y selecciona las columnas title y description.

   - Selecciona las primeras 10 filas del dataset y muestra las columnas desde la segunda hasta la quinta (incluidas). 

   - Muestra las últimas 7 filas del dataset y selecciona las columnas title, director, y country usando índices posicionales.

   - Selecciona las filas desde la 15 hasta la 25 (incluidas) y muestra las primeras 4 columnas.

   - Muestra las filas 20 a 30 y solo las columnas title, release_year, y rating usando índices posicionales.


**NOTA IMPORTANTE**: Antes de terminar el lab, guarda el conjunto de datos creado en la fase de unión para trabajar con el en las siguientes lecciones. 

In [1]:
#Importación de pandas para trabajar con ello
import pandas as pd
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames


In [2]:
#abro en primer lugar el fichero netflix titles para analizarlo solo

df_originales = pd.read_csv("datos/netflix_originals.csv",index_col=0)
df_originales.head()



Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language
0,Enter the Anime,Documentary,"August 5, 2019",58,2.5,English/Japanese
1,Dark Forces,Thriller,"August 21, 2020",81,2.6,Spanish
2,The App,Science fiction/Drama,"December 26, 2019",79,2.6,Italian
3,The Open House,Horror thriller,"January 19, 2018",94,3.2,English
4,Kaali Khuhi,Mystery,"October 30, 2020",90,3.4,Hindi


In [3]:
type(df_originales)
df_originales.shape

(513, 6)

In [4]:
#usaré describe para ver las principales características de las columnas numéricas
df_originales.describe().T


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Runtime,513.0,94.674464,26.648121,4.0,87.0,97.0,108.0,209.0
IMDB Score,513.0,6.210916,0.96885,2.5,5.6,6.3,6.9,9.0


Vemos que ambas columnas tienen 513 registros que es el total de las lineas que hay por lo que no tienen nulos.
En cuanto a la duración, la media es de 95 minutos aproximadamente y están todos los valores en un rango entre 4 y 209 por lo que podemos deducir que se trata solo de cortos, documentales y películas y no de series. la media y la mediana están muy próximas entre sí por lo que podemos deducir que se trata de una distribución muy parecida a la normal. 

En cuanto a la valoración, la media es de 6,21 mientras que la mediana es de 6,3 por lo que parece una distribución parecida a la normal y con una desviación típica no demasiada alta respecto a la media. El rango va de 2,5 a 9 por lo que podemos ver que, hasta el momento, ninguna película ha recibido un 10 en IMDB de las originales de Netflix



In [5]:
#Veremos el tipo de datos de nuestras columnas
df_originales.dtypes

Title          object
Genre          object
Premiere       object
Runtime         int64
IMDB Score    float64
Language       object
dtype: object

In [6]:
#Como todas las que nos están analizadas son objetos, vamos a hacer un describe de las tipo objeto
df_originales.describe(include = "object").T



Unnamed: 0,count,unique,top,freq
Title,513,513,David Attenborough: A Life on Our Planet,1
Genre,513,106,Documentary,132
Premiere,513,350,"October 18, 2019",5
Language,513,37,English,352


la columna titulo tiene 513 valores únicos por lo que no existen películas repetidas.

Vemos que existen 106 valores distintos de generos siendo los documentales lo que más se produce en Netflix con 132 títulos (un 26% del total)


en cuanto al estreno podemos observar que existen días en los que se estrenaron varios títulos a la vez, siendo el 18/10/2019 el día con más títulos originales estrenados (un total de 5)


Sobre el idioma de los títulos, vemos que hay 37 valores diferentes, siendo el inglés el más repetido con 352 títulos, lo cual es lógico ya que es el idioma más hablado en el mundo.

In [7]:
#Crearemos una función para que nos diga el número de nulos que existen en cada columna y analizaremos el fichero de originales
def porcentaje_nulos(data_frame):
    forma = data_frame.shape
    porcentaje = round((data_frame.isnull().sum()/forma[0])*100,2)
    return porcentaje



    

In [8]:
porcentaje_nulos(df_originales)

Title         0.0
Genre         0.0
Premiere      0.0
Runtime       0.0
IMDB Score    0.0
Language      0.0
dtype: float64

Podemos observar que no existen nulos en la lista y tampoco repetidos como hemos visto antes por lo que está limpia la base de datos.

In [9]:
#Ahora vamos a ver cual son los valores unicos de las columna genero cuanto se repite cada uno en porcentaje
df_originales.columns

Index(['Title', 'Genre', 'Premiere', 'Runtime', 'IMDB Score', 'Language'], dtype='object')

In [10]:
forma = df_originales.shape
pd.DataFrame(df_originales['Genre'].value_counts()/forma[0]*100)

Unnamed: 0_level_0,count
Genre,Unnamed: 1_level_1
Documentary,25.730994
Drama,14.230019
Comedy,8.187135
Romantic comedy,6.822612
Thriller,6.432749
...,...
Action-adventure,0.194932
Concert Film,0.194932
Animation / Science Fiction,0.194932
Anthology/Dark comedy,0.194932


Vemos que la columna tiene varios datos en los que hay varias categorías separadas por una /. Para hacer un análisis más riguroso, cambiaré la columna y me quedaré solo con la primera categoría utilizando str.split y volveré a realizar el análisis.

In [11]:
df_originales["Genre"] = df_originales["Genre"].str.split("/").str[0]


In [12]:
pd.DataFrame(df_originales['Genre'].value_counts()/forma[0]*100)

Unnamed: 0_level_0,count
Genre,Unnamed: 1_level_1
Documentary,25.730994
Drama,14.424951
Comedy,8.576998
Romantic comedy,7.017544
Thriller,6.432749
...,...
Coming-of-age comedy-drama,0.194932
Historical drama,0.194932
Action-adventure,0.194932
Concert Film,0.194932


Vemos que ahora solo quedan 83 categorías únicas y el análisis es más riguroso. 

De todas las producciones de Netflix vemos que el 61% son del top 5 de géneros siendo documentales y drama los más producidos con un 25 y un 14% respectivamente.
Vamos a comprobar cual son los más valorados

In [13]:
df_valoración = df_originales.groupby("Genre")['IMDB Score'].mean().sort_values(ascending=False)
print(df_valoración)
print(f"la valoración de los documentales es {df_valoración["Documentary"]}")
print(f"la valoración de los Drama es {df_valoración["Drama"]}")
print(f"la valoración de los Comedy es {df_valoración["Comedy"]}")



Genre
Anthology             7.6
Concert Film          7.4
Action-adventure      7.3
Historical drama      7.2
Drama-Comedy          7.2
                     ... 
Romance drama         4.6
Superhero-Comedy      4.4
Horror anthology      4.3
Political thriller    4.3
Heist film            3.7
Name: IMDB Score, Length: 83, dtype: float64
la valoración de los documentales es 6.925
la valoración de los Drama es 6.344594594594595
la valoración de los Comedy es 5.431818181818182


In [14]:
#Crearé una columna para que se sepa que estos títulos son originales de Netflix al unirlos
df_originales["Orginal"] = "Si"
df_originales


Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language,Orginal
0,Enter the Anime,Documentary,"August 5, 2019",58,2.5,English/Japanese,Si
1,Dark Forces,Thriller,"August 21, 2020",81,2.6,Spanish,Si
2,The App,Science fiction,"December 26, 2019",79,2.6,Italian,Si
3,The Open House,Horror thriller,"January 19, 2018",94,3.2,English,Si
4,Kaali Khuhi,Mystery,"October 30, 2020",90,3.4,Hindi,Si
...,...,...,...,...,...,...,...
576,Cuba and the Cameraman,Documentary,"November 24, 2017",114,8.3,English,Si
577,Dancing with the Birds,Documentary,"October 23, 2019",51,8.3,English,Si
580,Winter on Fire: Ukraine's Fight for Freedom,Documentary,"October 9, 2015",91,8.4,English/Ukranian/Russian,Si
581,Springsteen on Broadway,One-man show,"December 16, 2018",153,8.5,English,Si


Analizando la media de las valoraciones por género, vemos que el top 5 de más producidos por Netflix no está en el top 5 de mejor valoradas sin embargo vemos que las 4 categorías mejor valoradas solo tienen una película. Igual sería una estrategía útil probar si estas categorías, que han gustado mucho aunque solo tengan un título, son valoradas por el público creando más películas.

Por otro lado vemos que la comedia, que es la tercera categoría con más títulos, no está muy bien valorada por lo que igual Netflix debería pensar en dejar de producirla tanto o analizar porque está tan mal valorada.

Ahora que ya tenemos el análisis hecho haremos lo mismo con el total de títulos de netflix

In [15]:
#Carga de la base de datos Netflix_titles
df_titulos = pd.read_csv("datos/netflix_titles.csv",index_col=0)
df_titulos.head(10)

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...
5,s6,TV Show,Midnight Mass,Mike Flanagan,"Kate Siegel, Zach Gilford, Hamish Linklater, H...",,"September 24, 2021",2021,TV-MA,,"TV Dramas, TV Horror, TV Mysteries",The arrival of a charismatic young priest brin...
6,s7,Movie,My Little Pony: A New Generation,"Robert Cullen, José Luis Ucha","Vanessa Hudgens, Kimiko Glenn, James Marsden, ...",,"September 24, 2021",2021,PG,,Children & Family Movies,Equestria's divided. But a bright-eyed hero be...
7,s8,Movie,Sankofa,Haile Gerima,"Kofi Ghanaba, Oyafunmike Ogunlano, Alexandra D...","United States, Ghana, Burkina Faso, United Kin...","September 24, 2021",1993,TV-MA,125 min,"Dramas, Independent Movies, International Movies","On a photo shoot in Ghana, an American model s..."
8,s9,TV Show,The Great British Baking Show,Andy Devonshire,"Mel Giedroyc, Sue Perkins, Mary Berry, Paul Ho...",United Kingdom,"September 24, 2021",2021,TV-14,9 Seasons,"British TV Shows, Reality TV",A talented batch of amateur bakers face off in...
9,s10,Movie,The Starling,Theodore Melfi,"Melissa McCarthy, Chris O'Dowd, Kevin Kline, T...",United States,"September 24, 2021",2021,PG-13,104 min,"Comedies, Dramas",A woman adjusting to life after a loss contend...


In [16]:
#haremos un pequeño análisis de las columnas 
df_titulos.dtypes


show_id         object
type            object
title           object
director        object
cast            object
country         object
date_added      object
release_year     int64
rating          object
duration        object
listed_in       object
description     object
dtype: object

In [17]:
#vamos a convertir la columna de fecha
df_titulos["date_added"] = df_titulos["date_added"].str.lstrip()
pd.to_datetime(df_titulos['date_added'], format='%B %d, %Y')

0      2021-09-25
1      2021-09-24
2      2021-09-24
3      2021-09-24
4      2021-09-24
          ...    
8802   2019-11-20
8803   2019-07-01
8804   2019-11-01
8805   2020-01-11
8806   2019-03-02
Name: date_added, Length: 8807, dtype: datetime64[ns]

In [18]:
df_titulos.info()

<class 'pandas.core.frame.DataFrame'>
Index: 8807 entries, 0 to 8806
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   show_id       8807 non-null   object
 1   type          8807 non-null   object
 2   title         8807 non-null   object
 3   director      6173 non-null   object
 4   cast          7982 non-null   object
 5   country       7976 non-null   object
 6   date_added    8797 non-null   object
 7   release_year  8807 non-null   int64 
 8   rating        8803 non-null   object
 9   duration      3994 non-null   object
 10  listed_in     8807 non-null   object
 11  description   8807 non-null   object
dtypes: int64(1), object(11)
memory usage: 894.5+ KB


In [19]:
df_titulos.describe(include="object").T

Unnamed: 0,count,unique,top,freq
show_id,8807,8807,s8807,1
type,8807,2,Movie,6131
title,8807,8807,Zubaan,1
director,6173,4528,Rajiv Chilaka,19
cast,7982,7692,David Attenborough,19
country,7976,748,United States,2818
date_added,8797,1714,"January 1, 2020",110
rating,8803,17,TV-MA,3207
duration,3994,185,2 Seasons,425
listed_in,8807,514,"Dramas, International Movies",362


Con este pequeño análisis, vemos que no existen titulos duplicados porque tanto el ID como el titulo todos los valores son únicos. Otro dato interesante es que el país con más producciones es EEUU y la categoría con más títulos es drama, la cual no era la que más producia Netflix pero era la segunda.

In [20]:
#Vamos a comprobar los valores nulos
porcentaje_nulos(df_titulos)

show_id          0.00
type             0.00
title            0.00
director        29.91
cast             9.37
country          9.44
date_added       0.11
release_year     0.00
rating           0.05
duration        54.65
listed_in        0.00
description      0.00
dtype: float64

las columnas de duración y director tienen un porcentaje muy alto de nulos (30 y 54% respectivamente) yo las eliminaría pero son necesarias para el punto 3

In [21]:
#Analizamos la columna de géneros
df_titulos.groupby("listed_in")["show_id"].count().sort_values(ascending = False)

listed_in
Dramas, International Movies                                362
Documentaries                                               359
Stand-Up Comedy                                             334
Comedies, Dramas, International Movies                      274
Dramas, Independent Movies, International Movies            252
                                                           ... 
TV Action & Adventure, TV Comedies                            1
TV Action & Adventure, TV Comedies, TV Dramas                 1
Action & Adventure, Classic Movies, International Movies      1
Action & Adventure, Classic Movies, Sci-Fi & Fantasy          1
Action & Adventure, Comedies, Horror Movies                   1
Name: show_id, Length: 514, dtype: int64

Para hacer un análisis más riguroso, vamos a utilizar unícamente la primera categoría ya que vemos que hay varios titulos que están agrupados en varias categorias. 


In [22]:
df_titulos["listed_in"] = df_titulos["listed_in"].str.split(",").str[0]
df_titulos.groupby("listed_in")["show_id"].count().sort_values(ascending = False)
formass = df_titulos.shape
categorias = pd.DataFrame(df_titulos.groupby("listed_in")["show_id"].count().sort_values(ascending = False)/formass[0]*100)
categorias

Unnamed: 0_level_0,show_id
listed_in,Unnamed: 1_level_1
Dramas,18.167367
Comedies,13.739071
Action & Adventure,9.753605
Documentaries,9.412967
International TV Shows,8.788464
Children & Family Movies,6.869536
Crime TV Shows,4.530487
Kids' TV,4.405586
Stand-Up Comedy,3.792438
Horror Movies,3.122516


Vemos que el top 5 representa aproximadamente el 60% del total y que documentales, drama y comedia que eran el top 3 de producciones de Netflix, también estan en el top 4 del listado total por lo que Netflix apuesta por estas categorías tanto en producción como en compra. 

Es curioso el caso de Action & Adventure el cual Netflix no producía apenas, solo tenía una película pero sin embargo representa casi un 10% del catálogo total por lo que Netfliz compra muchas producciones de esta categoría sin ella producirla. Puede ser que este tipo de titulos sea caro de producir y por eso prefieren comprarlas.

Una vez hecho el análisis vamos a agrupar las dos bases de datos por la columna títulos ya que todas las películas producidas por Netflix están en el catálogo.

In [23]:
#Unión de los datos
df_originales = df_originales.rename(columns={"Title":"title"})
df_originales
df_merged = pd.merge(df_titulos, df_originales, on = "title", how="left")
df_merged



Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language,Orginal
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Documentary,"October 2, 2020",90.0,7.5,English,Si
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,International TV Shows,"After crossing paths at a party, a Cape Town t...",,,,,,
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,,Crime TV Shows,To protect his family from a powerful drug lor...,,,,,,
3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,,Docuseries,"Feuds, flirtations and toilet talk go down amo...",,,,,,
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,International TV Shows,In a city of coaching centers known to train I...,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8802,s8803,Movie,Zodiac,David Fincher,"Mark Ruffalo, Jake Gyllenhaal, Robert Downey J...",United States,"November 20, 2019",2007,R,158 min,Cult Movies,"A political cartoonist, a crime reporter and a...",,,,,,
8803,s8804,TV Show,Zombie Dumb,,,,"July 1, 2019",2018,TV-Y7,2 Seasons,Kids' TV,"While living alone in a spooky town, a young g...",,,,,,
8804,s8805,Movie,Zombieland,Ruben Fleischer,"Jesse Eisenberg, Woody Harrelson, Emma Stone, ...",United States,"November 1, 2019",2009,R,,Comedies,Looking to survive in a world taken over by zo...,,,,,,
8805,s8806,Movie,Zoom,Peter Hewitt,"Tim Allen, Courteney Cox, Chevy Chase, Kate Ma...",United States,"January 11, 2020",2006,PG,,Children & Family Movies,"Dragged from civilian life, a former superhero...",,,,,,


In [24]:
#el numero de titulos originales de Netflix en el total del catalogo
titulos_orig = df_merged["Orginal"].notnull().sum()
forma_merge = df_merged.shape

print("el porcentaje sobre el total es de ")
titulos_orig/forma_merge[0]*100

el porcentaje sobre el total es de 


np.float64(5.824912001816736)

In [None]:
#guardo el df_merged para poder usarlo en el futuro
df_merged.to_excel("Df_Netflix_completo.xlsx",index=False)


### Parte 3: Uso de `loc` e `iloc`

In [25]:
#columnas "Movie"
df_merged.loc[df_merged["type"]=="Movie",:]

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language,Orginal
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Documentary,"October 2, 2020",90.0,7.5,English,Si
6,s7,Movie,My Little Pony: A New Generation,"Robert Cullen, José Luis Ucha","Vanessa Hudgens, Kimiko Glenn, James Marsden, ...",,"September 24, 2021",2021,PG,,Children & Family Movies,Equestria's divided. But a bright-eyed hero be...,,,,,,
7,s8,Movie,Sankofa,Haile Gerima,"Kofi Ghanaba, Oyafunmike Ogunlano, Alexandra D...","United States, Ghana, Burkina Faso, United Kin...","September 24, 2021",1993,TV-MA,125 min,Dramas,"On a photo shoot in Ghana, an American model s...",,,,,,
9,s10,Movie,The Starling,Theodore Melfi,"Melissa McCarthy, Chris O'Dowd, Kevin Kline, T...",United States,"September 24, 2021",2021,PG-13,104 min,Comedies,A woman adjusting to life after a loss contend...,,,,,,
12,s13,Movie,Je Suis Karl,Christian Schwochow,"Luna Wedler, Jannis Niewöhner, Milan Peschel, ...","Germany, Czech Republic","September 23, 2021",2021,TV-MA,127 min,Dramas,After most of her family is murdered in a terr...,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8801,s8802,Movie,Zinzana,Majid Al Ansari,"Ali Suliman, Saleh Bakri, Yasa, Ali Al-Jabri, ...","United Arab Emirates, Jordan","March 9, 2016",2015,TV-MA,,Dramas,Recovering alcoholic Talal wakes up inside a s...,,,,,,
8802,s8803,Movie,Zodiac,David Fincher,"Mark Ruffalo, Jake Gyllenhaal, Robert Downey J...",United States,"November 20, 2019",2007,R,158 min,Cult Movies,"A political cartoonist, a crime reporter and a...",,,,,,
8804,s8805,Movie,Zombieland,Ruben Fleischer,"Jesse Eisenberg, Woody Harrelson, Emma Stone, ...",United States,"November 1, 2019",2009,R,,Comedies,Looking to survive in a world taken over by zo...,,,,,,
8805,s8806,Movie,Zoom,Peter Hewitt,"Tim Allen, Courteney Cox, Chevy Chase, Kate Ma...",United States,"January 11, 2020",2006,PG,,Children & Family Movies,"Dragged from civilian life, a former superhero...",,,,,,


In [26]:
#Muestra solo los títulos (title) y la duración (duration) de todos los contenidos que sean de tipo “TV Show”.
df_merged.loc[df_merged["type"]=="TV Show",("title","duration")]

Unnamed: 0,title,duration
1,Blood & Water,2 Seasons
2,Ganglands,
3,Jailbirds New Orleans,
4,Kota Factory,2 Seasons
5,Midnight Mass,
...,...,...
8795,Yu-Gi-Oh! Arc-V,2 Seasons
8796,Yunus Emre,2 Seasons
8797,Zak Storm,
8800,Zindagi Gulzar Hai,


In [27]:
#- Selecciona todas las filas donde el país sea “United States”.
df_merged.loc[df_merged["country"]=="United States", :]

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language,Orginal
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Documentary,"October 2, 2020",90.0,7.5,English,Si
9,s10,Movie,The Starling,Theodore Melfi,"Melissa McCarthy, Chris O'Dowd, Kevin Kline, T...",United States,"September 24, 2021",2021,PG-13,104 min,Comedies,A woman adjusting to life after a loss contend...,,,,,,
15,s16,TV Show,Dear White People,,"Logan Browning, Brandon P. Bell, DeRon Horton,...",United States,"September 22, 2021",2021,TV-MA,,TV Comedies,Students of color navigate the daily slights a...,,,,,,
27,s28,Movie,Grown Ups,Dennis Dugan,"Adam Sandler, Kevin James, Chris Rock, David S...",United States,"September 20, 2021",2010,PG-13,,Comedies,Mourning the loss of their beloved junior high...,,,,,,
28,s29,Movie,Dark Skies,Scott Stewart,"Keri Russell, Josh Hamilton, J.K. Simmons, Dak...",United States,"September 19, 2021",2013,PG-13,,Horror Movies,A family’s idyllic suburban life shatters when...,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8791,s8792,Movie,Young Adult,Jason Reitman,"Charlize Theron, Patton Oswalt, Patrick Wilson...",United States,"November 20, 2019",2011,R,,Comedies,When a divorced writer gets a letter from an o...,,,,,,
8793,s8794,Movie,"Yours, Mine and Ours",Raja Gosnell,"Dennis Quaid, Rene Russo, Sean Faris, Katija P...",United States,"November 20, 2019",2005,PG,,Children & Family Movies,When a father of eight and a mother of 10 prep...,,,,,,
8802,s8803,Movie,Zodiac,David Fincher,"Mark Ruffalo, Jake Gyllenhaal, Robert Downey J...",United States,"November 20, 2019",2007,R,158 min,Cult Movies,"A political cartoonist, a crime reporter and a...",,,,,,
8804,s8805,Movie,Zombieland,Ruben Fleischer,"Jesse Eisenberg, Woody Harrelson, Emma Stone, ...",United States,"November 1, 2019",2009,R,,Comedies,Looking to survive in a world taken over by zo...,,,,,,


In [28]:
# Muestra todas las películas (type = “Movie”) y selecciona las columnas title y director
df_merged.loc[df_merged["type"]=="Movie",("title","director")]


Unnamed: 0,title,director
0,Dick Johnson Is Dead,Kirsten Johnson
6,My Little Pony: A New Generation,"Robert Cullen, José Luis Ucha"
7,Sankofa,Haile Gerima
9,The Starling,Theodore Melfi
12,Je Suis Karl,Christian Schwochow
...,...,...
8801,Zinzana,Majid Al Ansari
8802,Zodiac,David Fincher
8804,Zombieland,Ruben Fleischer
8805,Zoom,Peter Hewitt


In [29]:
#Selecciona los títulos (title) y géneros (listed_in) de todas las producciones lanzadas en 2018.
df_merged.loc[df_merged["release_year"]=="2018",("title","listed_in")]

Unnamed: 0,title,listed_in


In [30]:
#Selecciona las filas donde la columna director esté vacía y muestra solo los títulos (title).
pd.DataFrame(df_merged.loc[df_merged["director"].isnull(),"title"])

Unnamed: 0,title
1,Blood & Water
3,Jailbirds New Orleans
4,Kota Factory
10,"Vendetta: Truth, Lies and The Mafia"
14,Crime Stories: India Detectives
...,...
8795,Yu-Gi-Oh! Arc-V
8796,Yunus Emre
8797,Zak Storm
8800,Zindagi Gulzar Hai


In [31]:
df_merged.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language,Orginal
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Documentary,"October 2, 2020",90.0,7.5,English,Si
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,International TV Shows,"After crossing paths at a party, a Cape Town t...",,,,,,
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,,Crime TV Shows,To protect his family from a powerful drug lor...,,,,,,
3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,,Docuseries,"Feuds, flirtations and toilet talk go down amo...",,,,,,
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,International TV Shows,In a city of coaching centers known to train I...,,,,,,


In [32]:
#selecciona las primeras 5 filas del conjunto de datos y muestra solo las columnas title, director y country.
df_merged.iloc[:,[2,3,5]].head()


Unnamed: 0,title,director,country
0,Dick Johnson Is Dead,Kirsten Johnson,United States
1,Blood & Water,,South Africa
2,Ganglands,Julien Leclercq,
3,Jailbirds New Orleans,,
4,Kota Factory,,India


In [33]:
#muestra las últimas 5 filas del conjunto de datos y selecciona las columnas title y description.
df_merged.iloc[:,[2,11]].tail()

Unnamed: 0,title,description
8802,Zodiac,"A political cartoonist, a crime reporter and a..."
8803,Zombie Dumb,"While living alone in a spooky town, a young g..."
8804,Zombieland,Looking to survive in a world taken over by zo...
8805,Zoom,"Dragged from civilian life, a former superhero..."
8806,Zubaan,A scrappy but poor boy worms his way into a ty...


In [34]:
#Selecciona las primeras 10 filas del dataset y muestra las columnas desde la segunda hasta la quinta (incluidas). 
df_merged.iloc[0:10,1:5]

Unnamed: 0,type,title,director,cast
0,Movie,Dick Johnson Is Dead,Kirsten Johnson,
1,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban..."
2,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi..."
3,TV Show,Jailbirds New Orleans,,
4,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K..."
5,TV Show,Midnight Mass,Mike Flanagan,"Kate Siegel, Zach Gilford, Hamish Linklater, H..."
6,Movie,My Little Pony: A New Generation,"Robert Cullen, José Luis Ucha","Vanessa Hudgens, Kimiko Glenn, James Marsden, ..."
7,Movie,Sankofa,Haile Gerima,"Kofi Ghanaba, Oyafunmike Ogunlano, Alexandra D..."
8,TV Show,The Great British Baking Show,Andy Devonshire,"Mel Giedroyc, Sue Perkins, Mary Berry, Paul Ho..."
9,Movie,The Starling,Theodore Melfi,"Melissa McCarthy, Chris O'Dowd, Kevin Kline, T..."


In [35]:
#Muestra las últimas 7 filas del dataset y selecciona las columnas title, director, y country usando índices posicionales.
df_merged.iloc[-7:,2:4]

Unnamed: 0,title,director
8800,Zindagi Gulzar Hai,
8801,Zinzana,Majid Al Ansari
8802,Zodiac,David Fincher
8803,Zombie Dumb,
8804,Zombieland,Ruben Fleischer
8805,Zoom,Peter Hewitt
8806,Zubaan,Mozez Singh


In [36]:
#Selecciona las filas desde la 15 hasta la 25 (incluidas) y muestra las primeras 4 columnas.
df_merged.iloc[14:25,:4]

Unnamed: 0,show_id,type,title,director
14,s15,TV Show,Crime Stories: India Detectives,
15,s16,TV Show,Dear White People,
16,s17,Movie,Europe's Most Dangerous Man: Otto Skorzeny in ...,"Pedro de Echave García, Pablo Azorín Williams"
17,s18,TV Show,Falsa identidad,
18,s19,Movie,Intrusion,Adam Salky
19,s20,TV Show,Jaguar,
20,s21,TV Show,Monsters Inside: The 24 Faces of Billy Milligan,Olivier Megaton
21,s22,TV Show,Resurrection: Ertugrul,
22,s23,Movie,Avvai Shanmughi,K.S. Ravikumar
23,s24,Movie,Go! Go! Cory Carson: Chrissy Takes the Wheel,"Alex Woo, Stanley Moore"
