<div style="text-align: center;">
  <img src="https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_naranja@4x.png?raw=true" alt="esquema" />
</div>

# Laboratorio Pandas (EDA y Unión de Datos)

## Los datos

Para este laboratorio, trabajarás con los siguientes conjuntos de datos:

- **`netflix_originals.csv`**: Contiene información sobre producciones originales de Netflix. Las columnas que nos encontraremos en este conjunto de datos son: 

   - `Title`: Contiene el nombre del título de la producción original de Netflix.

   - `Genre`: Especifica el género o combinación de géneros de la producción.

   - `Premiere`: Indica la fecha de estreno de la producción en Netflix.

   - `Runtime`: Contiene la duración de la producción en minutos.

   - `IMDB Score`: Representa la calificación promedio que la producción ha recibido en la plataforma IMDB.

   - `Language`: Especifica el idioma principal o los idiomas en los que se presenta la producción.

- **`netflix_titles.csv`**: Contiene información sobre una variedad de títulos disponibles en la plataforma Netflix, incluyendo tanto películas como series de televisión. Las columnas que nos encontraremos en este conjunto de datos son:

   - `show_id`: Identificador único para cada título en el dataset.

   - `type`: Especifica el tipo de contenido, ya sea "Movie" (película) o "TV Show" (serie de televisión).

   - `title`: Contiene el nombre del título de la producción.

   - `director`: Muestra el nombre del director del título. Puede estar vacío en algunos casos.

   - `cast`: Lista de actores y actrices que participaron en el título. También puede estar vacío en algunos casos.

   - `country`: País o países donde se produjo el título. Esta columna también puede tener valores faltantes.

   - `date_added`: Fecha en la que el título fue añadido al catálogo de Netflix.

   - `release_year`: Año en que el título fue lanzado o producido.

   - `rating`: Clasificación del contenido en términos de audiencia (por ejemplo, PG-13, TV-MA).

   - `duration`: Duración del título. Para películas, se expresa en minutos (e.g., "90 min") y para series en temporadas (e.g., "2 Seasons").

   - `listed_in`: Categorías o géneros bajo los cuales el título está clasificado (por ejemplo, "Documentaries", "TV Dramas").

   - `description`: Breve sinopsis o descripción del contenido del título.

A lo largo de los laboratorios de Pandas, trabajarás con estos conjuntos de datos (o con los derivados del Laboratorio), algunas de las actividades que realizaremos son:

- Exploración de datos y análisis exploratorio (EDA) para familiarizarse con los conjuntos de datos.

- Realización de uniones entre conjuntos de datos, aplicando diferentes técnicas de *merging* y analizando la relevancia de cada método.

- Uso de funciones de selección y filtrado (`loc`, `iloc`) para extraer información clave.

- Desarrollo de análisis descriptivos y visualización de patrones para comprender mejor las decisiones estratégicas de la plataforma.

----

## Objetivo General de la Serie de Laboratorios



1. **Unión de `netflix_titles.csv` con `netflix_originals.csv`:**

   - **Análisis de contenido original:**  Identificarás los títulos que son producciones originales de Netflix y los compararás con los títulos adquiridos. Este análisis te permitirá:

     - Comparar la diversidad de géneros entre los títulos originales y no originales.

     - Evaluar si ciertos géneros o tipos de contenido (como documentales o series) son más frecuentes en las producciones originales.

     - Investigar si la producción original se concentra en determinados países o idiomas.


   - **Evaluación de contenido:** En esta etapa, explorarás si las producciones originales de Netflix tienden a recibir mejores o peores evaluaciones en comparación con el contenido adquirido. Algunas preguntas que se buscarán responder incluyen:

     - ¿Los títulos originales tienen una calificación promedio superior en plataformas como IMDB?

     - ¿Son las producciones originales más consistentes en términos de calidad percibida?

     - ¿Existen diferencias en la popularidad de los títulos originales según su género o país de origen?


   - **Identificación de tendencias:**  Por último, este análisis te permitirá explorar cómo ha evolucionado la estrategia de contenido de Netflix a lo largo del tiempo. Algunos puntos clave a investigar serán:

     - ¿Cómo ha crecido la producción original en comparación con la adquisición de contenido?

     - ¿Qué géneros o tipos de contenido han recibido mayor inversión en los últimos años?
     
     - ¿Existen patrones en los países o idiomas de las producciones originales, especialmente en relación con la expansión global de Netflix?


----


In [243]:
import pandas as pd
import numpy as np



## Ejercicio: Análisis y Enriquecimiento del Catálogo de Netflix

### Parte 1: Análisis Exploratorio de Datos (EDA)

1. **Carga de los datos:**

   - Deberás cargar los dos conjuntos de datos que te hemos proporcionado para realizar este Laboratorio:

     - `netflix_originals.csv`

     - `netflix_titles.csv`

   Deberás revisar la estructura de cada conjunto de datos utilizando los métodos aprendidos durante la lección.

2. **Análisis de columnas y consistencia:**

   - Deberás hacer un análisis exploratorio de cada uno de los conjuntos de datos. Será obligatorio que incluyas las conclusiones generales obtenidas de cada uno de los análisis exploratorios en el Jupyter Notebook de tus soluciones.

   - Explorar qué columnas contiene cada conjunto de datos y cuáles son sus tipos de datos. Identificar si hay valores nulos o duplicados.

   - Algunas preguntas que nos podemos plantear en esta fase son (recuerda que esto es solo un ejemplo, y que podemos explorar todo lo que queramos/necesitemos para entender lo mejor posible los conjuntos de datos):

      - ¿Cuáles son los tipos de datos de cada columna? Nos puede ayudar a detectar si algún tipo de dato está incorrectamente asignado, como fechas almacenadas como cadenas de texto.

      - ¿Existen valores nulos? ¿En qué columnas están? Este paso es crucial para decidir si deben ser eliminados, rellenados o ignorados.

      - ¿Cuántos títulos únicos hay en cada conjunto de datos? Nos puede permitir verificar si existen títulos duplicados que puedan distorsionar el análisis.

      - ¿Qué géneros tenemos en el conjunto de datos? Esto nos puede ayudar a identificar los géneros más populares o incluso a identificar una posible limpieza de dicha columna para poder extraer conclusiones más claras en nuestro análisis.
      


In [183]:
netflix_originals = pd.read_csv("../datos/netflix_originals.csv", index_col=0)
print("Netflix_originals:")
display(netflix_originals.head())
print("\n\nInfo Netflix Originals:\n")
netflix_originals.info()


Netflix_originals:


Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language
0,Enter the Anime,Documentary,"August 5, 2019",58,2.5,English/Japanese
1,Dark Forces,Thriller,"August 21, 2020",81,2.6,Spanish
2,The App,Science fiction/Drama,"December 26, 2019",79,2.6,Italian
3,The Open House,Horror thriller,"January 19, 2018",94,3.2,English
4,Kaali Khuhi,Mystery,"October 30, 2020",90,3.4,Hindi




Info Netflix Originals:

<class 'pandas.core.frame.DataFrame'>
Index: 513 entries, 0 to 583
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Title       513 non-null    object 
 1   Genre       513 non-null    object 
 2   Premiere    513 non-null    object 
 3   Runtime     513 non-null    int64  
 4   IMDB Score  513 non-null    float64
 5   Language    513 non-null    object 
dtypes: float64(1), int64(1), object(4)
memory usage: 28.1+ KB


En un primer vistazo, las columnas de Netflix_originals parecen correctas, a excepción de la fecha de Premiere, representada como string. Es conveniente convertirla a datetime.

In [184]:
netflix_originals['Premiere'] = netflix_originals['Premiere'].str.replace(".",",")
netflix_originals['Premiere'] = pd.to_datetime(netflix_originals['Premiere'], format='%B %d, %Y')

Comprobación, solo tenemos películas en el dataset de Netflix Originals:

In [185]:
import re
patron = r".*serie.*"
lista = []
for genre in list(netflix_originals["Genre"].unique()):
    if re.match(patron, genre):
        lista.append(genre)
lista

[]

In [186]:
netflix_titles = pd.read_csv("../datos/netflix_titles.csv", index_col=0)
print("Netflix_titles:\n")
display(netflix_titles.head())
print("\n\nInfo Netflix Titles:\n")
netflix_titles.info()

Netflix_titles:



Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...




Info Netflix Titles:

<class 'pandas.core.frame.DataFrame'>
Index: 8807 entries, 0 to 8806
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   show_id       8807 non-null   object
 1   type          8807 non-null   object
 2   title         8807 non-null   object
 3   director      6173 non-null   object
 4   cast          7982 non-null   object
 5   country       7976 non-null   object
 6   date_added    8797 non-null   object
 7   release_year  8807 non-null   int64 
 8   rating        8803 non-null   object
 9   duration      3994 non-null   object
 10  listed_in     8807 non-null   object
 11  description   8807 non-null   object
dtypes: int64(1), object(11)
memory usage: 894.5+ KB


Igual que originals, los Netflix Titles parecen tener tipos correctos de datos, a excepcion de la fecha date_added. Aparte de las variables de fecha podría ser conveniente convertir a category las variables de pocas categorías.

In [187]:
netflix_titles['date_added'] = netflix_titles['date_added'].str.strip()
netflix_titles['date_added'] = pd.to_datetime(netflix_titles['date_added'], format='%B %d, %Y')

##### Gestión de duplicados

In [188]:
netflix_originals.duplicated().sum()

0

In [189]:
netflix_titles.duplicated().sum()

0

##### Valores nulos

In [190]:
netflix_originals.isna().sum()

Title         0
Genre         0
Premiere      0
Runtime       0
IMDB Score    0
Language      0
dtype: int64

Hay muchos datos ausentes, correspondientes a más del 54% y 29.9% respectivamente, para la columna duration y director. Un 9% también para cast y país. De momento es conveniente mantenerlos ya que según la categoría de la variable que analicemos (type, genre) el reparto puede cambiar, reduciéndose la frecuencia, y permitir un análisis.

In [191]:
netflix_titles.isna().sum() / netflix_titles.shape[0] * 100

show_id          0.000000
type             0.000000
title            0.000000
director        29.908028
cast             9.367549
country          9.435676
date_added       0.113546
release_year     0.000000
rating           0.045418
duration        54.649710
listed_in        0.000000
description      0.000000
dtype: float64

##### Análisis descriptivo básico - netflix originals

In [192]:
print("Netflix originals - variables categóricas\n")
display(netflix_originals.describe(include="O").T)
print("\n\nNetflix originals - variables numéricas\n")
netflix_originals.describe(include=["number","datetime"]).T

Netflix originals - variables categóricas



Unnamed: 0,count,unique,top,freq
Title,513,513,Enter the Anime,1
Genre,513,106,Documentary,132
Language,513,37,English,352




Netflix originals - variables numéricas



Unnamed: 0,count,mean,min,25%,50%,75%,max,std
Premiere,513.0,2019-06-16 01:21:24.210526208,2014-12-13 00:00:00,2018-06-08 00:00:00,2019-10-18 00:00:00,2020-09-17 00:00:00,2021-05-27 00:00:00,
Runtime,513.0,94.674464,4.0,87.0,97.0,108.0,209.0,26.648121
IMDB Score,513.0,6.210916,2.5,5.6,6.3,6.9,9.0,0.96885


Las métricas de frecuencia de las tipo nos muestran que todos los títulos son únicos. Hay cantidad de géneros distintos y observando sus valores únicos se comprueba que hay géneros compuestos. 

In [193]:
netflix_originals.Genre.unique()

array(['Documentary', 'Thriller', 'Science fiction/Drama',
       'Horror thriller', 'Mystery', 'Action', 'Comedy',
       'Heist film/Thriller', 'Musical/Western/Fantasy', 'Drama',
       'Romantic comedy', 'Action comedy', 'Horror anthology',
       'Political thriller', 'Superhero-Comedy', 'Horror',
       'Romance drama', 'Anime / Short', 'Superhero', 'Heist', 'Western',
       'Animation/Superhero', 'Family film', 'Action-thriller',
       'Teen comedy-drama', 'Romantic drama', 'Animation',
       'Aftershow / Interview', 'Science fiction adventure',
       'Science fiction', 'Comedy-drama', 'Comedy/Fantasy/Family',
       'Action/Comedy', 'Action/Science fiction',
       'Romantic teenage drama', 'Comedy / Musical', 'Musical',
       'Variety show', 'Science fiction/Mystery',
       'Psychological thriller drama', 'Adventure/Comedy', 'Black comedy',
       'Romance', 'Horror comedy', 'Christian musical',
       'Romantic teen drama', 'Family', 'Dark comedy', 'Comedy horror',
    

Hay 37 lenguas distintas, pero el inglés domina de forma aplastante con casi el 70% de ellas y una diferencia enorme con los siguientes. Los segundo y tercer lenguaje con más representación son el hindi y el español con un 5% de peliculas cada uno.

In [194]:
netflix_originals.Language.value_counts(normalize=True)

Language
English                       0.686160
Hindi                         0.054581
Spanish                       0.050682
French                        0.035088
Italian                       0.027290
Indonesian                    0.017544
Portuguese                    0.017544
Korean                        0.009747
Japanese                      0.009747
English/Spanish               0.009747
Turkish                       0.007797
German                        0.007797
Marathi                       0.005848
Polish                        0.005848
English/Japanese              0.003899
English/Hindi                 0.003899
Thai                          0.003899
Dutch                         0.003899
Filipino                      0.003899
Norwegian                     0.001949
Malay                         0.001949
English/Akan                  0.001949
English/Russian               0.001949
English/Mandarin              0.001949
English/Arabic                0.001949
English/Korean  

Las las fechas de los títulos recogidos datan entre diciembre de 2014 y septiembre de 2020.

A juzgar por el runtime, en las películas se incluyen cintas de tipo corto. Hay películas más largas, hasta las 3h30.La media está bastante centrada, aunque ligeramente sesgada hacia la izquierda, seguramente por los cortos. El 50% de los valores se encuentra entre 87 y 108 minutos de duración.

Algo parecido ocurre con las puntuaciones, con el 50% de las películas teniendo puntuaciones entre el aprobado y el notable justo.

##### Análisis descriptivo básico - netflix titles

In [195]:
print("Netflix titles - variables categóricas\n")
display(netflix_titles.describe(include="O").T)
print("\n\nNetflix titles - variables numéricas\n")
netflix_titles.describe(include=["number","datetime"]).T

Netflix titles - variables categóricas



Unnamed: 0,count,unique,top,freq
show_id,8807,8807,s1,1
type,8807,2,Movie,6131
title,8807,8807,Dick Johnson Is Dead,1
director,6173,4528,Rajiv Chilaka,19
cast,7982,7692,David Attenborough,19
country,7976,748,United States,2818
rating,8803,17,TV-MA,3207
duration,3994,185,2 Seasons,425
listed_in,8807,514,"Dramas, International Movies",362
description,8807,8775,"Paranormal activity at a lush, abandoned prope...",4




Netflix titles - variables numéricas



Unnamed: 0,count,mean,min,25%,50%,75%,max,std
date_added,8797.0,2019-05-17 05:59:08.436967168,2008-01-01 00:00:00,2018-04-06 00:00:00,2019-07-02 00:00:00,2020-08-19 00:00:00,2021-09-25 00:00:00,
release_year,8807.0,2014.180198,1925.0,2013.0,2017.0,2019.0,2021.0,8.819312


De nuevo, juzgando por los títulos no parece haber duplicados, ya que todos son únicos. Sólo hay 2 tipos de contenido: Movie y TV Serie, siendo dominantes las pelis. Hay directores y actores prolíficos, con muchos títulos, aunque esa información está ausente para muchos de ellos. 


Observemos los ratings ya que tienen pocos valores únicos:

In [325]:
netflix_titles.rating.value_counts(normalize=True)

rating
TV-MA       0.364432
TV-14       0.245455
TV-PG       0.098068
R           0.090795
PG-13       0.055682
TV-Y7       0.037955
TV-Y        0.034886
PG          0.032614
TV-G        0.025000
NR          0.009091
G           0.004659
TV-Y7-FV    0.000682
NC-17       0.000341
UR          0.000341
Name: proportion, dtype: float64

Los ratings dominantes son TV-MA y TV-14, que son respectivamente para audiencias de mayores de 17 y de 14.

Los últimos valores de rating son no correspondientes al rating del título, por lo tanto se convierten en ausentes ya que son erroneos.

In [244]:
netflix_titles = netflix_titles.replace({"74 min":np.nan,"84 min":np.nan,"66 min":np.nan})

Existen 2 principales tipos de contenido, series y películas, donde casi el 70% son películas.

In [326]:
netflix_titles.type.value_counts(normalize=True)

type
Movie      0.696151
TV Show    0.303849
Name: proportion, dtype: float64


Es interesante observar las películas y las series por separado:

In [207]:
netflix_titles_movies = netflix_titles.query("type == 'Movie'")
netflix_titles_movies["duration"] = netflix_titles_movies["duration"].str.replace(" min","").copy()
netflix_titles_movies["duration"]= netflix_titles_movies["duration"].astype(float)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  netflix_titles_movies["duration"] = netflix_titles_movies["duration"].str.replace(" min","").copy()
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  netflix_titles_movies["duration"]= netflix_titles_movies["duration"].astype(float)


In [208]:
print("Netflix titles - variables categóricas - peliculas\n")
display(netflix_titles_movies.describe(include="O").T)
print("\n\nNetflix titles - variables numéricas - peliculas\n")
netflix_titles_movies.describe(include=["number","datetime"]).T

Netflix titles - variables categóricas - peliculas



Unnamed: 0,count,unique,top,freq
show_id,6131,6131,s1,1
type,6131,1,Movie,6131
title,6131,6131,Dick Johnson Is Dead,1
director,5943,4354,Rajiv Chilaka,19
cast,5656,5445,"Vatsal Dubey, Julie Tejwani, Rupa Bhimani, Jig...",13
country,5691,651,United States,2058
rating,6129,17,TV-MA,2062
listed_in,6131,278,"Dramas, International Movies",362
description,6131,6105,"Paranormal activity at a lush, abandoned prope...",4




Netflix titles - variables numéricas - peliculas



Unnamed: 0,count,mean,min,25%,50%,75%,max,std
date_added,6131.0,2019-05-07 03:32:47.639863040,2008-01-01 00:00:00,2018-04-01 00:00:00,2019-06-19 00:00:00,2020-07-23 12:00:00,2021-09-25 00:00:00,
release_year,6131.0,2013.121514,1942.0,2012.0,2016.0,2018.0,2021.0,9.678169
duration,3503.0,101.932344,3.0,78.0,107.0,125.0,312.0,35.487616


En este conjunto de películas, los títulos independientes aportan mayor dispersión en cuanto a su duración, aunque la cantidad de ausentes impide ser del todo concluyente. 

En cuanto a la fecha de inclusión en el servicio, los títulos independientes datan de antes de 2014, por lo que si el el conjunto de originals representa a todas las originals, esto indicaría que durante 8 años Netflix funcionó exclusivamente de títulos independientes. Además, hay registradas películas de mayor antigüedad, comenzando por 1942.

In [212]:
netflix_titles_tv = netflix_titles.query("type == 'TV Show'")
netflix_titles_tv["duration"] = netflix_titles_tv["duration"].str.replace(" Seasons","").copy()
netflix_titles_tv["duration"]= netflix_titles_tv["duration"].astype(float)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  netflix_titles_tv["duration"] = netflix_titles_tv["duration"].str.replace(" Seasons","").copy()
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  netflix_titles_tv["duration"]= netflix_titles_tv["duration"].astype(float)


In [213]:
print("Netflix titles - variables categóricas\n")
display(netflix_titles_tv.describe(include="O").T)
print("\n\nNetflix titles - variables numéricas\n")
netflix_titles_tv.describe(include=["number","datetime"]).T

Netflix titles - variables categóricas



Unnamed: 0,count,unique,top,freq
show_id,2676,2676,s2,1
type,2676,1,TV Show,2676
title,2676,2676,Blood & Water,1
director,230,222,Alastair Fothergill,3
cast,2326,2283,David Attenborough,14
country,2285,196,United States,760
rating,2674,9,TV-MA,1145
listed_in,2676,236,Kids' TV,220
description,2676,2672,This educational series for tiny tots features...,2




Netflix titles - variables numéricas



Unnamed: 0,count,mean,min,25%,50%,75%,max,std
date_added,2666.0,2019-06-09 11:31:22.370592768,2008-02-04 00:00:00,2018-04-21 18:00:00,2019-08-16 00:00:00,2020-10-01 00:00:00,2021-09-24 00:00:00,
release_year,2676.0,2016.605755,1925.0,2016.0,2018.0,2020.0,2021.0,5.740138
duration,491.0,2.912424,2.0,2.0,2.0,2.0,17.0,2.455828


La mayoría de ausentes con respecto a los directores se observan en las series. Los datos sobre la duración también brillan por su ausencia, teniendo más del 75% de series solamente 2 temporadas. A partir de 2 temporadas, hay un salto llamativo a 7 temporadas, lo que podría significar que tal vez los ausentes se deban a algún tipo de error en la recolección de datos para series entre 2 y 7 temporadas.

También hay títulos antiguos, de desde 1925, aunque la media y los cuartiles indican que la mayoría son títulos más nuevos que las películas.

In [214]:
netflix_titles_tv.duration.value_counts()

duration
2.0     425
7.0      23
8.0      17
9.0       9
10.0      7
13.0      3
15.0      2
12.0      2
11.0      2
17.0      1
Name: count, dtype: int64

En netflix_titles no existe información del idioma. Aunque el país máximo productor de películas es EEUU aun con diferencia, le sigue la India y UK. Existen películas producto de colaboraciones entre paises. Es posible que el idioma de la cinta no sea el del país de producción.

In [215]:
netflix_titles_tv.duration.value_counts()

duration
2.0     425
7.0      23
8.0      17
9.0       9
10.0      7
13.0      3
15.0      2
12.0      2
11.0      2
17.0      1
Name: count, dtype: int64

In [277]:
netflix_titles.country.value_counts()[:5]

country
United States     2818
India              972
United Kingdom     419
Japan              245
South Korea        199
Name: count, dtype: int64

#### Análisis de generos - titles

In [245]:
netflix_titles.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,2021-09-24,2021,TV-MA,,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,s4,TV Show,Jailbirds New Orleans,,,,2021-09-24,2021,TV-MA,,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...


In [263]:
netflix_titles_movies["yead_added"] = netflix_titles["date_added"].dt.year
netflix_titles_tv["yead_added"] = netflix_titles["date_added"].dt.year

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  netflix_titles_movies["yead_added"] = netflix_titles["date_added"].dt.year
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  netflix_titles_tv["yead_added"] = netflix_titles["date_added"].dt.year


In [264]:
netflix_titles_movies["listed_in_list"] = netflix_titles_movies["listed_in"].apply(lambda row: row.split(", "))
netflix_titles_tv["listed_in_list"] = netflix_titles_tv["listed_in"].apply(lambda row: row.split(", "))

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  netflix_titles_movies["listed_in_list"] = netflix_titles_movies["listed_in"].apply(lambda row: row.split(", "))
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  netflix_titles_tv["listed_in_list"] = netflix_titles_tv["listed_in"].apply(lambda row: row.split(", "))


In [274]:
netflix_titles_exploded_movies = netflix_titles_movies.explode("listed_in_list")
netflix_titles_exploded_tv = netflix_titles_tv.explode("listed_in_list")

In [267]:
netflix_titles_movies.groupby("yead_added").show_id.count()

yead_added
2008.0       1
2009.0       2
2010.0       1
2011.0      13
2012.0       3
2013.0       6
2014.0      19
2015.0      56
2016.0     253
2017.0     839
2018.0    1237
2019.0    1424
2020.0    1284
2021.0     993
Name: show_id, dtype: int64

In [266]:
netflix_titles_tv.groupby("yead_added").show_id.count()

yead_added
2008.0      1
2013.0      5
2014.0      5
2015.0     26
2016.0    176
2017.0    349
2018.0    412
2019.0    592
2020.0    595
2021.0    505
Name: show_id, dtype: int64

Observando la progresión anual de títulos añadidos, se comprueba la explosión de Netflix en términos de títulos añadidos coincidiendo casi con el boom de la compañía en 2016.

In [272]:
netflix_titles_exploded_movies[["yead_added","listed_in_list"]].groupby("yead_added").agg(top3_frecuentes=('listed_in_list', lambda x: x.value_counts().index[0:3]),counts=('listed_in_list', lambda x: x.value_counts().values[0:3]))

Unnamed: 0_level_0,top3_frecuentes,counts
yead_added,Unnamed: 1_level_1,Unnamed: 2_level_1
2008.0,"[Dramas, Independent Movies, Thrillers]","[1, 1, 1]"
2009.0,"[Horror Movies, Dramas, International Movies]","[1, 1, 1]"
2010.0,"[Cult Movies, Horror Movies]","[1, 1]"
2011.0,"[Dramas, Sports Movies, Thrillers]","[13, 2, 1]"
2012.0,"[Comedies, Documentaries, Children & Family Mo...","[2, 1, 1]"
2013.0,"[Stand-Up Comedy, Children & Family Movies, Co...","[4, 2, 1]"
2014.0,"[Documentaries, Stand-Up Comedy, Children & Fa...","[8, 4, 4]"
2015.0,"[Stand-Up Comedy, Documentaries, Comedies]","[13, 13, 12]"
2016.0,"[International Movies, Documentaries, Dramas]","[82, 68, 65]"
2017.0,"[International Movies, Dramas, Documentaries]","[395, 293, 206]"


La mayoría de películas de categoría Internacional indica que seguramente los títulos iban dirigidos a ser consumidos por público internacional, como parte de la estrategia. as categorías de drama y comedia son lo más consumido tanto en series como en películas.

In [273]:
netflix_titles_exploded_tv[["yead_added","listed_in_list"]].groupby("yead_added").agg(top3_frecuentes=('listed_in_list', lambda x: x.value_counts().index[0:3]),counts=('listed_in_list', lambda x: x.value_counts().values[0:3]))

Unnamed: 0_level_0,top3_frecuentes,counts
yead_added,Unnamed: 1_level_1,Unnamed: 2_level_1
2008.0,Stand-Up Comedy & Talk Shows,[1]
2013.0,"[TV Dramas, Crime TV Shows, TV Mysteries]","[4, 2, 1]"
2014.0,"[TV Comedies, TV Dramas, Kids' TV]","[3, 3, 2]"
2015.0,"[Kids' TV, TV Comedies, TV Dramas]","[9, 8, 8]"
2016.0,"[International TV Shows, TV Dramas, Romantic T...","[86, 43, 42]"
2017.0,"[International TV Shows, TV Dramas, Crime TV S...","[205, 130, 63]"
2018.0,"[International TV Shows, TV Dramas, TV Comedies]","[214, 109, 100]"
2019.0,"[International TV Shows, TV Dramas, TV Comedies]","[335, 164, 117]"
2020.0,"[International TV Shows, TV Dramas, TV Comedies]","[277, 164, 126]"
2021.0,"[International TV Shows, TV Dramas, TV Comedies]","[229, 137, 118]"


#### Análisis país - titles

In [284]:
(netflix_titles_exploded_movies.loc[netflix_titles_movies.country.isin(netflix_titles_movies.country.value_counts().index[:5]),["country","listed_in_list"]]
            .groupby("country")
            .agg(top3_frecuentes=('listed_in_list', lambda x: x.value_counts().index[0:3])
                 ,counts=('listed_in_list', lambda x: x.value_counts().values[0:3])))

Unnamed: 0_level_0,top3_frecuentes,counts
country,Unnamed: 1_level_1,Unnamed: 2_level_1
Canada,"[Comedies, Children & Family Movies, Internati...","[39, 31, 26]"
India,"[International Movies, Dramas, Comedies]","[817, 620, 308]"
Spain,"[International Movies, Dramas, Comedies]","[90, 37, 34]"
United Kingdom,"[Documentaries, International Movies, Dramas]","[84, 66, 45]"
United States,"[Dramas, Comedies, Documentaries]","[591, 524, 411]"


In [285]:
(netflix_titles_exploded_tv.loc[netflix_titles_exploded_tv.country.isin(netflix_titles_exploded_tv.country.value_counts().index[:5]),["country","listed_in_list"]]
            .groupby("country")
            .agg(top3_frecuentes=('listed_in_list', lambda x: x.value_counts().index[0:3])
                 ,counts=('listed_in_list', lambda x: x.value_counts().values[0:3])))

Unnamed: 0_level_0,top3_frecuentes,counts
country,Unnamed: 1_level_1,Unnamed: 2_level_1
Japan,"[International TV Shows, Anime Series, Romanti...","[141, 131, 21]"
South Korea,"[International TV Shows, Korean TV Shows, Roma...","[149, 130, 75]"
Taiwan,"[International TV Shows, Romantic TV Shows, TV...","[68, 48, 36]"
United Kingdom,"[British TV Shows, International TV Shows, Doc...","[196, 112, 78]"
United States,"[TV Comedies, TV Dramas, Docuseries]","[234, 189, 173]"


Observando las top3 categorías más frecuentes de los top5 países en los que se producen los títulos: 

Las tendencias de géneros producidos en los mayores países siguen la tendencia media, naturalmente. Sin embargo, en las series producidas en países con menor produccion hay mayor inclinación hacia contenido romántico o de tipicamente local, como es el caso de Japon, Corea del Sur y Taizan. 
En el caso de las películas hay menor desviacion, con la excepción de Canadá, que se asocia más a contenido familiar.

#### Análsis genres - originals

In [307]:
netflix_originals["year"] = netflix_originals["Premiere"].dt.year

In [308]:
netflix_originals["Genre_list"] = netflix_originals["Genre"].apply(lambda row: row.split("/"))

In [309]:
netflix_originals_exploded = netflix_originals.explode("Genre_list")
netflix_originals_exploded

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language,Genre_list,year
0,Enter the Anime,Documentary,2019-08-05,58,2.5,English/Japanese,Documentary,2019
1,Dark Forces,Thriller,2020-08-21,81,2.6,Spanish,Thriller,2020
2,The App,Science fiction/Drama,2019-12-26,79,2.6,Italian,Science fiction,2019
2,The App,Science fiction/Drama,2019-12-26,79,2.6,Italian,Drama,2019
3,The Open House,Horror thriller,2018-01-19,94,3.2,English,Horror thriller,2018
...,...,...,...,...,...,...,...,...
576,Cuba and the Cameraman,Documentary,2017-11-24,114,8.3,English,Documentary,2017
577,Dancing with the Birds,Documentary,2019-10-23,51,8.3,English,Documentary,2019
580,Winter on Fire: Ukraine's Fight for Freedom,Documentary,2015-10-09,91,8.4,English/Ukranian/Russian,Documentary,2015
581,Springsteen on Broadway,One-man show,2018-12-16,153,8.5,English,One-man show,2018


In [310]:
netflix_originals_exploded.groupby("Genre_list").agg({"IMDB Score":"mean","Title":"count"}).sort_values("IMDB Score",ascending=False).query("Title > 30")

Unnamed: 0_level_0,IMDB Score,Title
Genre_list,Unnamed: 1_level_1,Unnamed: 2_level_1
Documentary,6.925,132
Drama,6.274026,77
Romantic comedy,5.758333,36
Comedy,5.566,50
Thriller,5.548649,37


In [311]:
netflix_originals_exploded.groupby("Genre_list").agg({"IMDB Score":"mean","Title":"count"}).sort_values("Title",ascending=False).query("Title > 30")

Unnamed: 0_level_0,IMDB Score,Title
Genre_list,Unnamed: 1_level_1,Unnamed: 2_level_1
Documentary,6.925,132
Drama,6.274026,77
Comedy,5.566,50
Thriller,5.548649,37
Romantic comedy,5.758333,36


Los géneros más producidos por Netflix originals son documentales, dramas y comedias. Los dramas y las comedias son los géneros de los títulos más adquiridos por Netflix, pero parece que para el género de documentales la empresa se centra más en producirlos ellos personalmente. Parece que su criterio es bueno, ya que además de ser lo que más producen, figura con la puntuación más alta en IMDB.

In [314]:
(netflix_originals_exploded[["year","Genre_list"]]
            .groupby("year")
            .agg(top3_frecuentes=('Genre_list', lambda x: x.value_counts().index[0:2])
                 ,counts=('Genre_list', lambda x: x.value_counts().values[0:2])))

Unnamed: 0_level_0,top3_frecuentes,counts
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2014,Documentary,[1]
2015,"[Documentary, Western]","[6, 1]"
2016,"[Documentary, Thriller]","[11, 3]"
2017,"[Documentary, Comedy]","[19, 7]"
2018,"[Documentary, Comedy]","[19, 12]"
2019,"[Documentary, Drama]","[31, 15]"
2020,"[Documentary, Drama]","[35, 26]"
2021,"[Drama, Documentary]","[17, 10]"


En 2021, aunque los datos del año completo no figuran en el conjunto, parece estar produciendose un cambio de tendencia hacia el drama, que ha tenido crecimiento desde 2019.

In [318]:
netflix_originals.groupby("year")["IMDB Score"].mean()

year
2014    6.400000
2015    6.877778
2016    6.410714
2017    6.387719
2018    6.258824
2019    6.200000
2020    6.125610
2021    6.037097
Name: IMDB Score, dtype: float64

En los últimos años la puntuación media de los Netflix Originals ha ido descendiendo. Tal vez el cambio en estrategia de produccion documental hacia drama está orientada hacia el incremento de dichas puntuaciones


### Parte 2: Unión de Datos

1. **Realización de la unión:**

   - Deberás realizar la unión que consideres más apropiada entre `netflix_titles.csv` y `netflix_originals.csv`. Además, deberás justificar el tipo de unión que has realizado.

   - Esto nos ayudará a contestar preguntas más adelente del tipo:

     - ¿Cuántos títulos en `netflix_titles.csv` son producciones originales de Netflix?

     - ¿Hay diferencias significativas en la puntuación de IMDB entre títulos originales y no originales?


In [354]:
netflix_merged = netflix_titles.merge(netflix_originals, right_on="Title", left_on="title", how="left")


Además de las columnas creadas para el análisis (Genre_list, year) se pueden eliminar las variables redundantes producto de la operacion merge: 

- Genre, que es igual a listed_in
- Runtime, que es igual a duration
- Title, que es igual a title

In [None]:
netflix_merged.drop(columns=["Genre","Genre_list","year","Runtime","Title"])
netflix_merged



### Parte 3: Uso de `loc` e `iloc`

Usando el DataFrame creado en la Parte 2: 

1. **Filtrado de datos con `loc`:**

   - Selecciona todas las filas donde el tipo de contenido sea “Movie”.

   - Muestra solo los títulos (title) y la duración (duration) de todos los contenidos que sean de tipo “TV Show”.

   - Selecciona todas las filas donde el país sea “United States”.

   - Muestra todas las películas (type = “Movie”) y selecciona las columnas title y director.

   - Selecciona los títulos (title) y géneros (listed_in) de todas las producciones lanzadas en 2018.

   - Selecciona las filas donde la columna director esté vacía y muestra solo los títulos (title).

2. **Acceso a datos específicos con `iloc`:**

   - Selecciona las primeras 5 filas del conjunto de datos y muestra solo las columnas title, director y country.

   - Muestra las últimas 5 filas del conjunto de datos y selecciona las columnas title y description.

   - Selecciona las primeras 10 filas del dataset y muestra las columnas desde la segunda hasta la quinta (incluidas). 

   - Muestra las últimas 7 filas del dataset y selecciona las columnas title, director, y country usando índices posicionales.

   - Selecciona las filas desde la 15 hasta la 25 (incluidas) y muestra las primeras 4 columnas.

   - Muestra las filas 20 a 30 y solo las columnas title, release_year, y rating usando índices posicionales.


**NOTA IMPORTANTE**: Antes de terminar el lab, guarda el conjunto de datos creado en la fase de unión para trabajar con el en las siguientes lecciones. 

   - Selecciona todas las filas donde el tipo de contenido sea “Movie”.

In [332]:
netflix_merged[netflix_merged["type"]=="Movie"]

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,...,yead_added,listed_in_list,Title,Genre,Premiere,Runtime,IMDB Score,Language,Genre_list,year
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,...,2021.0,[Documentaries],Dick Johnson Is Dead,Documentary,2020-10-02,90.0,7.5,English,[Documentary],2020.0
6,s7,Movie,My Little Pony: A New Generation,"Robert Cullen, José Luis Ucha","Vanessa Hudgens, Kimiko Glenn, James Marsden, ...",,2021-09-24,2021,PG,,...,2021.0,[Children & Family Movies],,,NaT,,,,,
7,s8,Movie,Sankofa,Haile Gerima,"Kofi Ghanaba, Oyafunmike Ogunlano, Alexandra D...","United States, Ghana, Burkina Faso, United Kin...",2021-09-24,1993,TV-MA,125 min,...,2021.0,"[Dramas, Independent Movies, International Mov...",,,NaT,,,,,
9,s10,Movie,The Starling,Theodore Melfi,"Melissa McCarthy, Chris O'Dowd, Kevin Kline, T...",United States,2021-09-24,2021,PG-13,104 min,...,2021.0,"[Comedies, Dramas]",,,NaT,,,,,
12,s13,Movie,Je Suis Karl,Christian Schwochow,"Luna Wedler, Jannis Niewöhner, Milan Peschel, ...","Germany, Czech Republic",2021-09-23,2021,TV-MA,127 min,...,2021.0,"[Dramas, International Movies]",,,NaT,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8801,s8802,Movie,Zinzana,Majid Al Ansari,"Ali Suliman, Saleh Bakri, Yasa, Ali Al-Jabri, ...","United Arab Emirates, Jordan",2016-03-09,2015,TV-MA,,...,2016.0,"[Dramas, International Movies, Thrillers]",,,NaT,,,,,
8802,s8803,Movie,Zodiac,David Fincher,"Mark Ruffalo, Jake Gyllenhaal, Robert Downey J...",United States,2019-11-20,2007,R,158 min,...,2019.0,"[Cult Movies, Dramas, Thrillers]",,,NaT,,,,,
8804,s8805,Movie,Zombieland,Ruben Fleischer,"Jesse Eisenberg, Woody Harrelson, Emma Stone, ...",United States,2019-11-01,2009,R,,...,2019.0,"[Comedies, Horror Movies]",,,NaT,,,,,
8805,s8806,Movie,Zoom,Peter Hewitt,"Tim Allen, Courteney Cox, Chevy Chase, Kate Ma...",United States,2020-01-11,2006,PG,,...,2020.0,"[Children & Family Movies, Comedies]",,,NaT,,,,,



   - Muestra solo los títulos (title) y la duración (duration) de todos los contenidos que sean de tipo “TV Show”.


In [333]:
netflix_merged.loc[netflix_merged["type"]=="TV Show",["title","duration"]]

Unnamed: 0,title,duration
1,Blood & Water,2 Seasons
2,Ganglands,
3,Jailbirds New Orleans,
4,Kota Factory,2 Seasons
5,Midnight Mass,
...,...,...
8795,Yu-Gi-Oh! Arc-V,2 Seasons
8796,Yunus Emre,2 Seasons
8797,Zak Storm,
8800,Zindagi Gulzar Hai,



   - Selecciona todas las filas donde el país sea “United States”.


In [334]:
netflix_merged[netflix_merged["country"]=="United States"]

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,...,yead_added,listed_in_list,Title,Genre,Premiere,Runtime,IMDB Score,Language,Genre_list,year
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,...,2021.0,[Documentaries],Dick Johnson Is Dead,Documentary,2020-10-02,90.0,7.5,English,[Documentary],2020.0
9,s10,Movie,The Starling,Theodore Melfi,"Melissa McCarthy, Chris O'Dowd, Kevin Kline, T...",United States,2021-09-24,2021,PG-13,104 min,...,2021.0,"[Comedies, Dramas]",,,NaT,,,,,
15,s16,TV Show,Dear White People,,"Logan Browning, Brandon P. Bell, DeRon Horton,...",United States,2021-09-22,2021,TV-MA,,...,2021.0,"[TV Comedies, TV Dramas]",,,NaT,,,,,
27,s28,Movie,Grown Ups,Dennis Dugan,"Adam Sandler, Kevin James, Chris Rock, David S...",United States,2021-09-20,2010,PG-13,,...,2021.0,[Comedies],,,NaT,,,,,
28,s29,Movie,Dark Skies,Scott Stewart,"Keri Russell, Josh Hamilton, J.K. Simmons, Dak...",United States,2021-09-19,2013,PG-13,,...,2021.0,"[Horror Movies, Sci-Fi & Fantasy]",,,NaT,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8791,s8792,Movie,Young Adult,Jason Reitman,"Charlize Theron, Patton Oswalt, Patrick Wilson...",United States,2019-11-20,2011,R,,...,2019.0,"[Comedies, Dramas, Independent Movies]",,,NaT,,,,,
8793,s8794,Movie,"Yours, Mine and Ours",Raja Gosnell,"Dennis Quaid, Rene Russo, Sean Faris, Katija P...",United States,2019-11-20,2005,PG,,...,2019.0,"[Children & Family Movies, Comedies]",,,NaT,,,,,
8802,s8803,Movie,Zodiac,David Fincher,"Mark Ruffalo, Jake Gyllenhaal, Robert Downey J...",United States,2019-11-20,2007,R,158 min,...,2019.0,"[Cult Movies, Dramas, Thrillers]",,,NaT,,,,,
8804,s8805,Movie,Zombieland,Ruben Fleischer,"Jesse Eisenberg, Woody Harrelson, Emma Stone, ...",United States,2019-11-01,2009,R,,...,2019.0,"[Comedies, Horror Movies]",,,NaT,,,,,



   - Muestra todas las películas (type = “Movie”) y selecciona las columnas title y director.


In [335]:
netflix_merged[netflix_merged["country"]=="United States"]

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,...,yead_added,listed_in_list,Title,Genre,Premiere,Runtime,IMDB Score,Language,Genre_list,year
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,...,2021.0,[Documentaries],Dick Johnson Is Dead,Documentary,2020-10-02,90.0,7.5,English,[Documentary],2020.0
9,s10,Movie,The Starling,Theodore Melfi,"Melissa McCarthy, Chris O'Dowd, Kevin Kline, T...",United States,2021-09-24,2021,PG-13,104 min,...,2021.0,"[Comedies, Dramas]",,,NaT,,,,,
15,s16,TV Show,Dear White People,,"Logan Browning, Brandon P. Bell, DeRon Horton,...",United States,2021-09-22,2021,TV-MA,,...,2021.0,"[TV Comedies, TV Dramas]",,,NaT,,,,,
27,s28,Movie,Grown Ups,Dennis Dugan,"Adam Sandler, Kevin James, Chris Rock, David S...",United States,2021-09-20,2010,PG-13,,...,2021.0,[Comedies],,,NaT,,,,,
28,s29,Movie,Dark Skies,Scott Stewart,"Keri Russell, Josh Hamilton, J.K. Simmons, Dak...",United States,2021-09-19,2013,PG-13,,...,2021.0,"[Horror Movies, Sci-Fi & Fantasy]",,,NaT,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8791,s8792,Movie,Young Adult,Jason Reitman,"Charlize Theron, Patton Oswalt, Patrick Wilson...",United States,2019-11-20,2011,R,,...,2019.0,"[Comedies, Dramas, Independent Movies]",,,NaT,,,,,
8793,s8794,Movie,"Yours, Mine and Ours",Raja Gosnell,"Dennis Quaid, Rene Russo, Sean Faris, Katija P...",United States,2019-11-20,2005,PG,,...,2019.0,"[Children & Family Movies, Comedies]",,,NaT,,,,,
8802,s8803,Movie,Zodiac,David Fincher,"Mark Ruffalo, Jake Gyllenhaal, Robert Downey J...",United States,2019-11-20,2007,R,158 min,...,2019.0,"[Cult Movies, Dramas, Thrillers]",,,NaT,,,,,
8804,s8805,Movie,Zombieland,Ruben Fleischer,"Jesse Eisenberg, Woody Harrelson, Emma Stone, ...",United States,2019-11-01,2009,R,,...,2019.0,"[Comedies, Horror Movies]",,,NaT,,,,,



   - Selecciona los títulos (title) y géneros (listed_in) de todas las producciones lanzadas en 2018.


In [336]:
netflix_merged.loc[netflix_merged["release_year"]==2018,["title","listed_in"]]

Unnamed: 0,title,listed_in
21,Resurrection: Ertugrul,"International TV Shows, TV Action & Adventure,..."
37,Angry Birds,"Kids' TV, TV Comedies"
73,King of Boys,"Dramas, International Movies"
94,Show Dogs,"Children & Family Movies, Comedies"
96,If I Leave Here Tomorrow: A Film About Lynyrd ...,"Documentaries, Music & Musicals"
...,...,...
8732,White Chamber,"Sci-Fi & Fantasy, Thrillers"
8743,Wildlife,"Dramas, Independent Movies"
8774,يوم الدين,"Dramas, Independent Movies, International Movies"
8775,Yeh Meri Family,"International TV Shows, TV Comedies"



   - Selecciona las filas donde la columna director esté vacía y muestra solo los títulos (title).

In [339]:
netflix_merged.loc[netflix_merged["director"].isna(),["title"]]

Unnamed: 0,title
1,Blood & Water
3,Jailbirds New Orleans
4,Kota Factory
10,"Vendetta: Truth, Lies and The Mafia"
14,Crime Stories: India Detectives
...,...
8795,Yu-Gi-Oh! Arc-V
8796,Yunus Emre
8797,Zak Storm
8800,Zindagi Gulzar Hai


2. **Acceso a datos específicos con `iloc`:**

   - Selecciona las primeras 5 filas del conjunto de datos y muestra solo las columnas title, director y country.


In [340]:
netflix_merged.iloc[:5,[2,3,5]]

Unnamed: 0,title,director,country
0,Dick Johnson Is Dead,Kirsten Johnson,United States
1,Blood & Water,,South Africa
2,Ganglands,Julien Leclercq,
3,Jailbirds New Orleans,,
4,Kota Factory,,India



   - Muestra las últimas 5 filas del conjunto de datos y selecciona las columnas title y description.


In [343]:
netflix_merged.columns

Index(['show_id', 'type', 'title', 'director', 'cast', 'country', 'date_added',
       'release_year', 'rating', 'duration', 'listed_in', 'description',
       'yead_added', 'listed_in_list', 'Title', 'Genre', 'Premiere', 'Runtime',
       'IMDB Score', 'Language', 'Genre_list', 'year'],
      dtype='object')

In [345]:
netflix_merged.iloc[-5:,[2,11]]

Unnamed: 0,title,description
8802,Zodiac,"A political cartoonist, a crime reporter and a..."
8803,Zombie Dumb,"While living alone in a spooky town, a young g..."
8804,Zombieland,Looking to survive in a world taken over by zo...
8805,Zoom,"Dragged from civilian life, a former superhero..."
8806,Zubaan,A scrappy but poor boy worms his way into a ty...



   - Selecciona las primeras 10 filas del dataset y muestra las columnas desde la segunda hasta la quinta (incluidas). 


In [347]:
netflix_merged.iloc[10:,1:5]

Unnamed: 0,type,title,director,cast
10,TV Show,"Vendetta: Truth, Lies and The Mafia",,
11,TV Show,Bangkok Breaking,Kongkiat Komesiri,"Sukollawat Kanarot, Sushar Manaying, Pavarit M..."
12,Movie,Je Suis Karl,Christian Schwochow,"Luna Wedler, Jannis Niewöhner, Milan Peschel, ..."
13,Movie,Confessions of an Invisible Girl,Bruno Garotti,"Klara Castanho, Lucca Picon, Júlia Gomes, Marc..."
14,TV Show,Crime Stories: India Detectives,,
...,...,...,...,...
8802,Movie,Zodiac,David Fincher,"Mark Ruffalo, Jake Gyllenhaal, Robert Downey J..."
8803,TV Show,Zombie Dumb,,
8804,Movie,Zombieland,Ruben Fleischer,"Jesse Eisenberg, Woody Harrelson, Emma Stone, ..."
8805,Movie,Zoom,Peter Hewitt,"Tim Allen, Courteney Cox, Chevy Chase, Kate Ma..."



   - Muestra las últimas 7 filas del dataset y selecciona las columnas title, director, y country usando índices posicionales.


In [348]:
netflix_merged.iloc[-7:,[2,3,5]]

Unnamed: 0,title,director,country
8800,Zindagi Gulzar Hai,,Pakistan
8801,Zinzana,Majid Al Ansari,"United Arab Emirates, Jordan"
8802,Zodiac,David Fincher,United States
8803,Zombie Dumb,,
8804,Zombieland,Ruben Fleischer,United States
8805,Zoom,Peter Hewitt,United States
8806,Zubaan,Mozez Singh,India



   - Selecciona las filas desde la 15 hasta la 25 (incluidas) y muestra las primeras 4 columnas.


In [350]:
netflix_merged.iloc[15:26,:4]

Unnamed: 0,show_id,type,title,director
15,s16,TV Show,Dear White People,
16,s17,Movie,Europe's Most Dangerous Man: Otto Skorzeny in ...,"Pedro de Echave García, Pablo Azorín Williams"
17,s18,TV Show,Falsa identidad,
18,s19,Movie,Intrusion,Adam Salky
19,s20,TV Show,Jaguar,
20,s21,TV Show,Monsters Inside: The 24 Faces of Billy Milligan,Olivier Megaton
21,s22,TV Show,Resurrection: Ertugrul,
22,s23,Movie,Avvai Shanmughi,K.S. Ravikumar
23,s24,Movie,Go! Go! Cory Carson: Chrissy Takes the Wheel,"Alex Woo, Stanley Moore"
24,s25,Movie,Jeans,S. Shankar



   - Muestra las filas 20 a 30 y solo las columnas title, release_year, y rating usando índices posicionales.

In [353]:
netflix_merged.iloc[20:31,[2,7,8]]

Unnamed: 0,title,release_year,rating
20,Monsters Inside: The 24 Faces of Billy Milligan,2021,TV-14
21,Resurrection: Ertugrul,2018,TV-14
22,Avvai Shanmughi,1996,TV-PG
23,Go! Go! Cory Carson: Chrissy Takes the Wheel,2021,TV-Y
24,Jeans,1998,TV-14
25,Love on the Spectrum,2021,TV-14
26,Minsara Kanavu,1997,TV-PG
27,Grown Ups,2010,PG-13
28,Dark Skies,2013,PG-13
29,Paranoia,2013,PG-13
